2009年、"セマンティック"なサービスが頭角を現してくる、と確信し、本ブログを始めます。"セマンティック" って何?といえば、『意味処理』のことだよ、と簡潔に答えることはできます("意味"って何?という難問はスルーしちゃって ;-)。しかし、なぜ今"セマンティック"なアプローチが必要とされるようになったか、Web 3.0の本命とまでいえるのか、そもそも何が"セマンティック"なのか(普通の自動処理と何が違うか)、などの様々な疑問に答なければ、、ちゃんと理解したことになりませんよね?
実際に様々なサービスを試用しつつ、その本質を理解する必要がありそうです。そして、これらのサービスがさらにどのようなニーズを喚起していくかを体感することで、次世代のWeb体験を予測していけるようになる気がいたします。
そのためには実際に様々なサービスを試用して、セマンティックの本質を理解する必要もありそうです。これらのサービスがさらに次のニーズを掘り起こすこともあるでしょう。このようにして、皆様が次世代のWeb体験を予測していくのを僅かばかりでもお手伝いしていけたら幸いです。
ごあいさつ
あけましておめでとうございます。長年、自然言語処理、中でも意味、概念を扱う深い処理や、文脈解析の産業応用を手がけてきた野村直之と申します。公的な場での執筆は、2005年に "Web 2.0 for Enterprise" と言い出して、2006年3月から1年間、同名の連載コーナーを日経IT Proにもって以来となります。どうぞよろしくお願いいたします。
機械翻訳、情報検索・要約の研究開発に取り組んできた手応えから、自然言語処理は、おそらく永遠に精度100%には到達しない、と悟りました。だから、機械とヒトが協力して少しずつ精度を上げ、意図通りの動きをさせる仕組みを作るための基本的な道具立てとして、XMLとSemantic Webに注目してまいりました。実はWeb 2.0も、データ中心主義、中でもUGC(User Generated Contents;和製英語でCGM)を梃子に成長したサービスの多くは、XMLと、Semantic Web的な仕組みの一部を活用していました。たとえRDFなどのSemantic Web自体の規格は使っていなくとも、何らかの意味をもった「タグ」によってコンテンツ間を関連付けているからです。そのパワーの片鱗は、YouTubeやFlickrの隆盛をみただけでも感じ取れるといって良いでしょう。
"ポストWeb 2.0" のニーズについて
では、"2.0"の次は何か?といわれて "セマンティック(Semantic)" が注目されるのはなぜでしょうか。次のような背景、事情が考えられます。(1)"タグ"の類の共通化が足りなくて不便である
(2)既存のナイーブなタグだけでは爆発した情報量に対応できない
(3)特に、従来のWeb全文検索では思うような整理された検索結果が出てこない
(4)ソーシャルフィルタリングでは分類・秩序立てが不十分だったり弊害が生じる
(5)Webアプリケーション群の上で何かの作業をやるのにコピペして検索したりなどの人手の雑作業が多すぎる(つい脱線してしまい知的作業が効率低下)
(1)「"タグ"の類の共通化が足りない」ですが、例えば、SNSのプロフィール発信用の語彙(タグ)とXMLの構造について、OpenSocialを作って共通化がはかられています。汎用のメタデータ標準なら、以前からDublin Core(意味の標準), RDF(表現の標準)が提供されてきました。RDFは汎用的過ぎて使いにくかったり高速・リアルタイム処理向きではない面がありますが、徐々に普及してきているようです。
(2)「ナイーブなタグだけでは爆発した情報量に対応不可」で思い出すのは、"Web 2.0"のFolksonomy(フォークソノミー)です。Folksonomyでは、分類名をユーザ、コミュニティ参加者が自由に付けることができるため、付け方が不統一で綴り誤りもあったり、その場のコンテクストを共有する者("スレ(thread)を読んだ者")の間でしか意味が通じ合わなかったりする弊害がありました。何より、似て非なるサービス、全然違うサービスと組み合わせて、コンテンツを連携させたいというときに無力だという問題もありました。要するに、ある程度以上はスケール・アップし難いわけです。また、タグ間の関係付けを機械が(Webが)理解していてくれれば、もっと気の利いたサービスができそうな気がします。
(3)「従来のWeb全文検索の限界」について。ジャーナリストの佐々木俊尚さんや欧州の検索関係者、日本の情報大航海プロジェクトの関係者、エンタープライズ・サーチの唱道者らが、従来型Web検索の問題点を指摘し続けています。キーワード検索だけではノイズが多くて、情報量増大に追随できないというのです。Powersetのように、綴りが同じ単語でも意味の違いによって検索結果を分ける、という解決の試みがあります。また、Cuilのように、検索結果をジャンルごとに秩序立てて分類、表示するという、別の側面からの解決の試みがあります。他にも沢山のことがなされるべきであるように筆者には見えます。
(4)「ソーシャルフィルタリングの限界」ですが、そもそも、多数派に支持されたコンテンツがひたすら目立つようになることへの危惧があります。ガリレオ・ガリレイの「それでも地球は回る」(ローマ法王庁は1992年になって地動説を公式に認めました。それくらい往時の多数派の圧力は強い!)ではないですが、少数派の意見や、注目されない事実が、しかるべきタイミングで必要な人の眼前に【必ず】現れてくれるようにしたければ、ソーシャルフィルタリングとは違った仕組みが必要になりそうです。
(5)はWebアプリケーション上の能動的な作業、創造的な知的発信のための環境や道具立てについてです。こうしてブログの原稿を書いていても、しょっちゅうコピペをし、何かを調べたりシミュレーションするためのサービスを探し、選び、その結果に基づいてさらに引用したりしなかったり、という作業を行っています。相当な集中力がないと、「あれ、今の作業はそもそも何の論拠を探していて、何をどうわかりたいためにやってたんだっけ?」と本題から脱線しがちです。何故でしょうか? どうもまだまだ雑作業が多いせいではないでしょうか? Web上のコンテンツどうし、機能(サービス)どうしでうまく連携してくれれば、もっと本題を考えるのに集中できるような気がしはしないでしょうか?
(6)以下に、「安心して情報共有する仕組みが無い」とか、「文章と動画(絵コンテ)など表現メディアを自動的に関連付けたり相互変換してくれる仕組みが無い」とか、あげることもできるでしょう。これらを含め、個々の具体的なアプローチについては、おいおい時宜をとらえてご紹介したいと思います。
ここでは、どうも、以上全てについて何か、「セマンティック」と総称できる新しいインフラ、技術、サービスが求められているらしい、とだけ指摘しておきたいと思います。
なぜセマンティック・"ウェイブ" としたか
ここで、「なぜセマンティック・"ウェブ" じゃないの?」という質問に答えておくべきでしょう。セマンティック・ウェブの提唱者は、Webの父Tim Berners Lee卿です。彼には数回お会いして、気さくに話しかけられたこともあるし、お世話になったMITに本拠を置くW3Cには多大な敬意をはらっています(それでもWeb 2.0の"アンチW3C"的な性質が今日のWebの隆盛を支えた面は否定できないとこちらに書きました)。にも関わらず、いくつかの理由で(これについてもおいおい書きます)、彼のSemantic Webが全面的に次世代のWebを支配するとは思えないところがあります。
Semantic Webを使いやすくすべく補強するだけではなく、単語の意味選択からエージェント的な仕組み、個人情報保護と情報共有を両立する仕組み、5W1Hによるコンテンツ間の半自動連携に至るまで、様々なセマンティックなサービスが次々と誕生して、ポストWeb 2.0のWebを便利にしていくのではないか。
この動きは、単なる技術だけではないし、新たなニーズが次々とさらに贅沢なニーズを喚起する側面もあります。また、昨今、アテンション・エコノミーが意識され、人々の時間こそが至高の稀少資源(他のモノやサービスは潤沢に只同然に提供され得る)となっています。こんな時代に、Webの先端的な部分にあるセマンティックなサービスが個人の情報活動、ひいては購買活動、そして企業の業務に影響を与えないはずはありません。
今後、さまざまなセマンティックな技術、Web上のセマンティックなサービスを取り上げ、膨大な情報と向き合う人間を支援する試みと、その市場を展望してまいりたい。そんな意味で、セマンティック・ウェイブというタイトルとした次第です。どうかお付き合いいただけたら幸いです。
本記事は、2009/01/09のCnet記事の引っ越し掲載です:
http://japan.cnet.com/blog/nomura/2009/01/09/entry_27019325/