Web・Internet > 検索エンジン業界についてあれこれ

2006年02月04日

ライブドアがブログ検索をn-gram方式に移行。

一連の事件について言及はしないが、気になったので少し使ってみた。

n-gramというだけあって若干ノイズがまじってるものの、 部分検索やフレーズ検索は使いやすく特別問題無く使える。

検索結果から他社のブログに飛ぶのに、ワンクッション挟むのは ユーザビリティ的にあれだが、そっとしておこう。

通説ではn-gramでは再現率が高まるものの適合率が落ち、 形態素解析では逆に適合率が高まるものの再現率が下がるというのが一般的な考えである。

個人的にはデスクトップ検索等のように、検索対象が小規模ならばn-gram、 規模が大きくなってくれば形態素解析が適していると考えていた。

事実、大手の検索エンジンには形態素解析で実装してる所が多い、
Google然り、Yahoo然り、MSN然り。
前例が無いわけではないが、形態素解析が主流の中であえてn-gramを採用するというのだから技術的に興味深い所である。

当然ノイズが最大の敵になってくるのでなんらかのフィルターを通しているはずだが、 n-gramの場合、インデックスファイルは形態素解析より大きくなるものの、 辞書が必要ないので、フィルターさえ上手く定義できればn-gramもありだなと思えてきた。

最近ライブドアに最速の人が入ったことでクライアントサイドも強化出来るだろうし、これからどうなるかが非常に楽しみである。

Web2.0という言葉は持ち上げられ過ぎてあまり使いたくないが、 あえて使うなら、Web2.0でインターネットの流れが大きく変わって行くのを実感するのと同様に、 検索エンジン業界の流れもここ数年で大きく変わってきているのは周知の事実。

Googleだけでなく、YahooやMSNが検索に本腰を入れ始めたのと同時期に、 オープンソースで使えるライブラリーが増えてきたことで、個人でも作りやすい時代になった。 特にブログ検索はここ最近急激に増えたような気がする。

詳細は把握してないが、ライブドアも独自開発の検索エンジンを使ってるようだし、 Ask Jeevesは幅広くサービスを展開しだしている、NTTレゾナントも独自の技術を持ち、 検索エンジン業界が激戦必死なのは誰の目にも明らかである。

現在は事実上Googleが先頭を突き走っているが、混沌とした時を経て、 数年後に検索エンジン業界を先導してるのはどこなのか?興味が尽きない次第である。

posted by 37to at : 02:36 | コメント (0) | トラックバック (0)

コメント

この記事に対するコメントはまだありません。


投稿する

投稿者情報を保存しますか?


トラックバック

トラックバックURI


一覧

この記事に対するトラックバックはまだありません。