サーチエンジンとか - その1

最近Googleを使ったSEOコンテストで「ゴッ○ル(不参加のためあえて伏字)」なる言葉がやたら氾濫してる今日この頃。ちとサーチエンジンの雑記でも(最近こっち少ないし?)

サーチエンジンの機能に「分かち書き」ってのがある。これがないとインデックスが作れないので検索できない。たとえば「Googleを使ったSEOコンテスト」の場合は「Google」、「を」、「使った」、「SEO」、「コンテスト」といった具合に分割される。もしこれが「Go」「ogleを使」「ったS」・・なんてことになれば大変である。

少し前に(今でもあるが)自然言語で「おいしいラーメンが食べたい」のように入力すれば該当するページを検索なんてのがあったが、これも原理は分かち書きを利用して助詞などを除いたキーワードを検索しているわけである。当時は「コンピュータが人間の言葉をわかるのか?すごいな~」などと思っていたものだ(ちなみに4年前ぐらいか)。

ところで、もし未知の言葉(たとえば「っぃめ」など)の場合はどうするんだろうか?実は未知語検索のアルゴリズムがあって、それで何とかやっているらしい。あと、Googleの場合(に限らないか)は未知語の場合と既知語の場合で扱いが違うようで、未知語の場合は「かな、カナ、漢字、英数字」などの文字種で区切っているようだ(ゴッ○ル関係のページでそういう現象が見られた)。

おっと、時間がないのでこのへんで。次回をお楽しみに(ぉ)