- 2004-02-04 (水) 0:47
- webサイト
形態素解析と検索エンジンの辞書 [SEOルートディレクトリ]
SEOルートディレクトリのジェフ・ルート氏がGoogleの日本語の単語認識について報告しています.
先日、偶然気がついたのですが、「花」と「お花」は別の単語としてGoogleに認識されているらしく、検索結果は全く違うものなります。
Googleで「花」の検索結果
Googleで「お花」の検索結果
これはGoogleが文節認識に用いているベイシス・テクノロジーという会社の形態素解析システムのライブラリに「花」と「お花」が別々に登録されていることが原因だそうです.
つまり,検索する際に微妙な日本語の差がGoogleの検索結果を大きく変えてしまうということですね. あんまり意識することがなかったんですが,これって重要なことかもしれない.
ということで,普段検索するような単語で実験してみました.
実験その1:「メモリ」と「メモリー」
「メモリ」の検索結果
「メモリー」の検索結果
全く変化ありませんでした. ちなみに「データ」と「データー」でやってもおんなじだった.
もしかしたら最後の長音は関係ないのかな? とおもってPC関連じゃない言葉でもう一つ.
「ブロイラー」と「ブロイラ」で試した.
実験2:「ブロイラー」と「ブロイラ」
「ブロイラー」の検索結果
「ブロイラ」の検索結果
全然違う結果になった. 違う単語として認識されているようだ.
次に,この「ブロイラー」と「ブロイラ」をgooで調べてみた.gooはエンジンはGoogleだが日本語の「揺れ」を吸収して内部的に展開するインタフェイスを持っている.
実験3:「ブロイラー」と「ブロイラ」 on goo
「ブロイラー」のgoo検索結果
「ブロイラ」のgoo検索結果
結果はGoogleでそれぞれ検索したときと同じで,異なる結果になった.
ちなみにMSNサーチでこの2つを検索すると,
実験4:「ブロイラー」と「ブロイラ」 on MSNサーチ
「ブロイラー」のMSNサーチ検索結果
「ブロイラ」のMSNサーチ検索結果
内容こそ微妙に異なるもののGoogleで検索したときと同じように全く異なる検索結果になってしまった.
これまで検索するときに「ほげほげー」と「ほげほげ」の両方がある単語は「ほげほげ」で検索したら「ほげほげー」の分まで引っかかってくると考えていたが,そうでもないかもしれない(厳密に検証していないから何ともいえないが).
検索をうまく行うためにはOR検索をうまく利用することが重要らしい. つーか,こんなところで日本語の難しさを実感するとは思っても見なかった.
- Newer: 職業適性チェック
- Older: クローン携帯の可能性



