2009年01月12日

英語で流行ったセマンティック・サービスが日本(語)でも流行るとは限らない

 初回の最後にセマンティック・ウェイブというタイトルにした理由を書きました。このタイトルは決してオリジナルではなく、そのものずばりの名前のサイトがあります:
http://www.semanticwave.com
また、Semantic Wave 2008というレポートが、project10xというところから出されています。若干の個人情報と引き換えにExecutive Summaryを下記サイトの下方からダウンロードすることができます。
http://project10x.com/

 この中で、「現在始まろうとしているWeb3.0は、意味表現のWebであり、散在する知識を結びつけるものだ」、としています。つながった知識をうまく働かせ、もっと自分の作業に関連ある有用かつ楽しい体験としてインターネットを使いこなせる仕組みがSemanticなWebである、と主張しています。
  Semantic Technologyがいずれ5兆円市場となる、という報告は実は3年前に出ています:
http://findarticles.com/p/articles/mi_m0EIN/is_2006_Jan_11/ai_n26723778 決して煽るわけではありませんが、かといって筆者の独りよがりでもない点お含みいただきたく、紹介させていただきました。

日本語での紹介

 日本向けに、「Webを変える10の破壊的テクノロジー」の最終章に「セマンティック技術」をあげたのは、JETROの渡辺弘美さんです:
http://www.csaj.jp/government/other/2007/070626-1_jetro-ny.pdf  また、週刊アスキーに長年「仮想報道」を連載されている歌田明弘さんが、ドイツをはじめ欧州でセマンティック技術の研究開発が盛んなことを書いておられます。

なぜかグーグルが興味を示さないセマンティック検索
国をあげてグーグルに対抗しようとしているヨーロッパ

 これらについて、記事が出た当時のコメントを付けた拙はてな日記も適宜ご参照ください。

単語の意味推定は日本語の検索でも十分有効?

 上記の引用でも紹介されている単語の意味推定を目玉としたPowersetのセマンティック検索ですが、買収したマイクロソフトが検証を重ねているという報道があります:
MS、Live SearchにPowersetの技術を取り入れ

 日本語対応も進めているようです。ここで「単語の意味の推定は日本語の情報検索でも十分有効か?」という問いをたててみました。  Web以前の引用だったので正確なリンクが無くて恐縮ですが、ある言語研究機関が、米国と日本の農村の家庭の主婦を対象に、朝起きてから夜寝るまでに用いた単語のすべてを記録し、異なり数を比較した調査がありました。
 結果は、英語は数千単語程度だったのに対し、日本語側は、1万前後の単語数となったとのこと。これを、日本人の方が知性が高いなどと誤読するのは早計も甚だしいわけです。  ほぼ同等のコミュニケーションの内容、質、量であったのに、異なり単語数に2倍以上の開きがあったことを素直に解釈すれば、1単語の意味の数に2倍以上の開きがあったから、ということができます。ここではその理由、原因まで深く追求することはしません。1つだけ想像すると、英語国民の方が新しい事物に出会ったとき、なるべく平易にネーミングする傾向があるのに対し、日本語では難しげに新規の名前を付けたりその概念専用にカタカナ語をあてがったりする傾向があるからかもしれません。
 ともあれ、この結果を受け入れるなら、日本語処理の場合、単語への分かち書きさえすませておけば、英語に比べて、検索キーワードが複数の意味をもつ頻度はかなり低いことになります。とすると、日本語のキーワード検索の体感精度向上のためには、何か別のことを優先的に(前倒しで)実施した方が有効となる可能性があります。別の施策を優先し、単語の意味の推定は後回しにした方が良いかもしれないのです。
 かように、セマンティックの時代には、テクノロジーやその活用について、言語依存性、文化依存性が深まっていくことが考えられます。海の向こうで流行っていることが必ず「次に来る」などと早計せず、自分の目で、本当に役立つ技術を峻別し、ライバルに先駆けて採用していくような思考法が求められるのではないでしょうか。


本記事は、2009/01/12のCnet記事の引っ越し掲載です:
http://japan.cnet.com/blog/nomura/2009/01/12/entry_27019365/
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/37523685

この記事へのトラックバック