サーチエンジンとか - その4

うぉぉ・・・停滞しそう(ぉ)

その4 - 私のサイトのSEOというかアクセスアップとか(2)+サーチエンジンを考える

ってことでtokeiseinet以降での話。

●tokeiseinet.com以降のSEO・アクセスアップ
う~ん、ぶっちゃけ(ぉ)SEOはほとんどやってないかな。アクセスアップなら微妙にやってるか。例えば

・HSP WebRingに参加(tokeiseinet→mcrn)
・自宅サーバWebRingに参加(mcrwcosmo→sephiebrain)
・日記才人に参加(sephiebrain mcrwやってたっけ?)
・ReadMe!に参加(sephiebrain)←これ最近

など。ただ、意図せず「約定期日記」なんかはSEOになってるかもしれない。実際「不定期日記」は良く見かけるが、「"約"定期日記」なんて変な語はこのサイトか、このサイトに対してのリンクやコメントでしか見かけない。あとxxxximeとかもそうかもしれない。

●サーチエンジンにいる機能?
最近のGoogleは計算機能とかがついてすごく多機能で便利になっているが、他にどんな機能やオプションがあれば便利だろうか(この際、広告は不要ってのは無しね。収入なくなるし)。とりあえず「語間文字数設定」でもあれば便利かな~なんて。たとえば「ほげ ふげ」で検索した場合、「ああああほげふげうううううう」や「ああああほげいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいいふげううう」がヒットするが、例えば「語間5文字」に設定したら後者はヒットしないとかである。あとは語順徹底機能とか。「宇宙 天地」で検索したら「天地は宇宙に行った」などはヒットしないというわけ。ただ、その後にまた「天地」が出てきたらヒットしてしまうので、今度は「文単位検索」。つまり検索ワードが複数の文にまたがっている場合(文は

タグや句点、ピリオドなどで判断)はヒットしない。
あとはリンク文字列はヒットしない、blogのトラックバックはヒットしない・・・etc。ってそんなに実装してたら検索に何時間もかかったりして(ぉ)。いや、それ以前にインデックスがペタバイトクラスに達してHDD代で赤字だな。

ってことでその辺は無理だろうが、Googleなどの一次エンジン(つまり、結果を自前で持っている所。最近ではYahoo!やMSN(まだβか)も自前に切り替えたらしい)の検索結果を使って、その中から上で言ったようなフィルタをかければ、Google自体にかかる負担は減らせるかもしれない。つまり二次エンジンというわけだ。ただ、一次エンジン側がそういう使い方を許せばの話だが・・・。

●アーカイブの是非
Googleにはキャッシュ機能があるし、Internet ArchiveにもWayback Machineというのがある。しかし、これはいわば無断転載なわけで、問題があるのではないか(権利侵害など)という話もある。また、権利侵害でなくても有害な画像(別に18禁とか言うわけではなくて、例えばIEクラッシャーGIFなど)がキャッシュされるとそれを使って悪巧みをする日と老いるかもしれない。で、後者はともかく前者の問題に対処するべく考えられたのがrobots.txtやMETAタグによるロボット拒否である。まあ、まともなエンジンならばこれらを解釈して、もし禁止されているならばインデックスに加えたりキャッシュしたりはしないだろうが、そうではないエンジンは禁止されていようがおかまいなしにインデックス化or(and)キャッシュ化しまくるだろう。そもそも見られて困るような情報はWebからアクセス可能な状態に置くべきではない(最近うっかり公開用Webサーバに個人情報を置いてあって・・という事件が多いが、いくらリンクがないとか認証かけてあるとか言っても、個人情報のような重要な情報は内部のSQLサーバにでもためておいて、必要ならば必要な分だけCGIか何かで読み出せばいいではないか。あとlogとかも安全のために拡張子をcgiなどにしておいたほうがいいかもしれない)。一度Webに出てしまった情報は、削除したとしても誰が持っているか分からないし、その流通を完全に防ぐことなどほとんど不可能だからである(でも京都府警とか人力で回収してるとか言ってるな・・おぃおぃ)。というかそもそもWebに置かなくても最近はワーム(キン○マとかいうWinnyで感染するやつとか)による個人情報流出も多いことだし、あまり重要な情報はネットに繋がるPCには置かないほうがいいかもしれないな。といいつつ私は・・おっと、セキュリティホールだ(ぉ)。

教訓:見られてまずい情報はWeb(インターネット)に置くな。もっと重要な情報はネットから切り離されているPCにでも置いておこう。セキュリティも万能ではない。