初回の最後にセマンティック・ウェイブというタイトルにした理由を書きました。このタイトルは決してオリジナルではなく、そのものずばりの名前のサイトがあります:
http://www.semanticwave.com
また、Semantic Wave 2008というレポートが、project10xというところから出されています。若干の個人情報と引き換えにExecutive Summaryを下記サイトの下方からダウンロードすることができます。
http://project10x.com/
この中で、「現在始まろうとしているWeb3.0は、意味表現のWebであり、散在する知識を結びつけるものだ」、としています。つながった知識をうまく働かせ、もっと自分の作業に関連ある有用かつ楽しい体験としてインターネットを使いこなせる仕組みがSemanticなWebである、と主張しています。
Semantic Technologyがいずれ5兆円市場となる、という報告は実は3年前に出ています:
http://findarticles.com/p/articles/mi_m0EIN/is_2006_Jan_11/ai_n26723778 決して煽るわけではありませんが、かといって筆者の独りよがりでもない点お含みいただきたく、紹介させていただきました。
日本語での紹介
日本向けに、「Webを変える10の破壊的テクノロジー」の最終章に「セマンティック技術」をあげたのは、JETROの渡辺弘美さんです:
http://www.csaj.jp/government/other/2007/070626-1_jetro-ny.pdf また、週刊アスキーに長年「仮想報道」を連載されている歌田明弘さんが、ドイツをはじめ欧州でセマンティック技術の研究開発が盛んなことを書いておられます。
「なぜかグーグルが興味を示さないセマンティック検索」
「国をあげてグーグルに対抗しようとしているヨーロッパ」
単語の意味推定は日本語の検索でも十分有効?
上記の引用でも紹介されている単語の意味推定を目玉としたPowersetのセマンティック検索ですが、買収したマイクロソフトが検証を重ねているという報道があります:
「MS、Live SearchにPowersetの技術を取り入れ」
結果は、英語は数千単語程度だったのに対し、日本語側は、1万前後の単語数となったとのこと。これを、日本人の方が知性が高いなどと誤読するのは早計も甚だしいわけです。 ほぼ同等のコミュニケーションの内容、質、量であったのに、異なり単語数に2倍以上の開きがあったことを素直に解釈すれば、1単語の意味の数に2倍以上の開きがあったから、ということができます。ここではその理由、原因まで深く追求することはしません。1つだけ想像すると、英語国民の方が新しい事物に出会ったとき、なるべく平易にネーミングする傾向があるのに対し、日本語では難しげに新規の名前を付けたりその概念専用にカタカナ語をあてがったりする傾向があるからかもしれません。
ともあれ、この結果を受け入れるなら、日本語処理の場合、単語への分かち書きさえすませておけば、英語に比べて、検索キーワードが複数の意味をもつ頻度はかなり低いことになります。とすると、日本語のキーワード検索の体感精度向上のためには、何か別のことを優先的に(前倒しで)実施した方が有効となる可能性があります。別の施策を優先し、単語の意味の推定は後回しにした方が良いかもしれないのです。
かように、セマンティックの時代には、テクノロジーやその活用について、言語依存性、文化依存性が深まっていくことが考えられます。海の向こうで流行っていることが必ず「次に来る」などと早計せず、自分の目で、本当に役立つ技術を峻別し、ライバルに先駆けて採用していくような思考法が求められるのではないでしょうか。
本記事は、2009/01/12のCnet記事の引っ越し掲載です:
http://japan.cnet.com/blog/nomura/2009/01/12/entry_27019365/