日本語正規表現の亜-熙ぁ-んァ-ヶは、テストがめんどくさいから、使わない方が良いらしい

業務でURLの中の日本語を拾う必要があり、

正規表現の亜-熙ぁ-んァ-ヶで拾った

 

今までは遊びの自然言語処理で使ってたので、なんの疑問もなく当たり前のような感覚で使ったのだが、

先輩に

亜-熙とか、ぁ-んが、本当に範囲に入っているのかわからないし、

客に確認を求められて、テストを行うことになったら大変なことになるから、他の方法で取得してほしいと言われてしまった。

 

仕方ないので文字のバイト数を調べて、全角の文字(日本語)は1バイト以上のものという考え方で取得した。

 

うーん。

きっちりとしたプログラムを作ったことないマンにはめんどくさく感じてしまうわい。