2009年01月19日

2008年の10大セマンティック・ウェブ・サービス紹介サイトなど

 

 先日、1/9に品川の日立システムアンドサービスさんで開催された XMLコンソーシアム Dayで、Web 2.0部会のメンバーが、セマンティックサービスについて話してくれました。技術や規格、そして「ソーシャル」との接点の1つとして期待されるOpenSocial APIを紹介してくれたのは東芝ソリューションの西一嘉さんと、日本ユニシス小林茂さん。セマンティック的なサービスの事例については、日立システムアンドサービスの湯本正典さんが日本のkizasi(流行る兆しの言葉をジャンル別に自動集計し紹介)と、海外のTwine(知識編集)を。IT Frontierの加藤晶子さんがレストラン検索のBooRahを。そして、ナレッジワークスの亀山悦治さんがSemanticの技術をブロガー向けに提供するZemantaを紹介してくれました。
 個々の内容は、XMLコンソーシアム・サイトの掲載資料に委ねます。ここでは、これらのサービスを選ぶ1つのきっかけとして小林さん、西さんが紹介してくだったTop 10 Semantic Web Products of 2008の概要と、その中から旅行サービのユニークな側面を紹介したいと思います。

セマンティック, Sematic, semantic ..

  XMLコンソーシアム Dayは、対外的な講演で、XMLやWebの技術に通じているわけではない聴衆の方に、新サービスやテクノロジーの本質を伝える、という使命があります。そこでWeb 2.0部会の最初のところで、湯本さんが次のようにすっきり整理して説明してくれました:

Semantic Web:W3Cで定義されたもの (Tim B. Leeの提唱)
semantic web:広くメタデータ等を利用したもの
semantic technology:情報の意味や関連性等を理解しそれに基づいて処理を行うもの
semantic service:semantic technologyを利用したサービス

 最初の2つですが、RDFというオンライン・リソースの関連付けを規定したXML記法をベースとしたW3Cの規格は「大文字セマンティック・ウェブ (Upper case "Semantic Web")」と呼ばれたりします。そして、microformatsやローカルな取り決めを含めて何らかの共通メタデータを活用した仕組みを「小文字セマンティック・ウェブ (Lower case "semantic web")」と呼ばれたりします。前者は唯一の規格だから固有名詞、後者は、今後もより優れたデファクト標準が出てくるかも、今でもいろいろあるし、というニュアンスで普通名詞だからです。
 米国西海岸主導のWeb 2.0派は(東西海岸の対比の記事はこちら)、どちらかというと後者のmicroformatsを支持する局面が多いとか、より大規模で統一的な世界知識ベースを指向する人は前者の"Semantic Web"を指向する人が多いようです。また、microformatsは、HTML言語にSemanticなタグを埋め込んだという意味でクライアント側から、ボトムアップに少しずつ便利にしよう、というアプローチであり、 "Semantic Web"はサーバー側で正確な意味の摺り合わせができるようにきっちり決めて統一していこう、というアプローチといえるでしょう。このあたり、技術が語られる文脈によって、適切な解釈、ニュアンスを使い分けていただけると良いかと思います。

2008年の10大セマンティック・ウェブ・サービス紹介サイトから5本

  readwriteweb.com という先進的なWebの技術やサービスの最新状況を紹介するサイトに、Top 10 Semantic Web Products of 2008があります。実は、もう10本のサービスが同サイトで紹介されていますが、こちらは適宜またの機会に触れるとして、Top 10を駆け足で眺めてみましょう。

1. Yahoo Search Monkey: 

 検索のためのオープンな開発者向けプラットフォームです。 自社のみが開発し、サービス・インするのであれば、別にその内部の情報構造を開示する必要はありません。しかし、多くの外部の協力を得て、セマンティックな構造化を行い、共通的に洗練させていこうというのであれば、自社固有のメタデータ構造を開示するか、Semantic Webなど公開の共通規格をもちいて従来の様々な意味構造(ソーシャルグラフとか)を書き換えて、データの可搬性も高めていかねばなりません。こうして協力を募ったデータの所有権を認め、それを用いたアプリの開発を外部に奨励することで、オープンなセマンティック・インデックスの開発に着手した、ということで、極めて高く評価されています。共通メタデータ、インタフェースには、RDF (Semantic Webの基盤層) だけでなく、microformatsや、Atom, RSS, そしてOpenSearchなどのAPIやページ抽出のインタフェースを柔軟に採用しているようです。

2.  Powerset :

 前回のブログでご紹介しました。 Top 10 Semantic Web Products of 2008のさらに先のリンクを参照いただければ見て取れるように、あたかも文章を理解しているがのごとくに振る舞う、ピンポイントに絞り込む能力の高い検索エンジン用の自然言語処理技術です。MSNがこれを用いてどう精度向上してくれるかが注目されています。検索エンジンの仕事は、他に「検索可能なカバレージの拡大」、「高速化」、そして、もっと基礎的な部分でのランキング結果の改善もあるので、現状のUIでは結果が見えにくいかもしれません。とはいえ、意味選択能力を備え、人手によらずに自動でセマンティックな領域で問題解決をしてくれるエンジンということで、依然高い注目を集めています。

 3. Open Calais :

 これは、ある自然言語処理ベンチャーをロイターが買収したメタデータ自動抽出エンジン、サービスです。実は、カバレージや解析の深さは違うものの、私の会社、メタデータ株式会社のMextractr 5W1H抽出エンジンとかなり似たことを英語(近く仏語も出るらしい)でやってくれるサービスです。意味属性の識別を、モノ名詞や数量表現を中心に5W1H階層化して詳細に(300数10種類)解析可能なMextractrに対し、イベント(出来事)の分類がやや細かく、他は大雑把であること、正規化や数値化して、他の表現メディア(地図、カレンダー他) とすぐにマッシュアップできるようにする、などの機能は無いようです。しかし、最新のVersion 4 では、Wikipedia, GeoNames、Internet Movie Database (IMDB), Shopping.com 等の巨大Webデータベースとリンクしたり、他の人々とメタデータを共有する仕組みを充実させ、商用サービス指向を強めています。

4. Dapper MashupAds : 

   Dapperは、一時期多くが名乗りをあげたマッシュアップ作成サービスでしたが、その発展のためのビジネスモデルを考えた結果、 広告を適切に「マッシュアップ」する仕組みで差別化をはかろうとしているようです。確かに、現状のAdSenseなど、ブログなどの広告スペースに自動供給される広告は、「なぜこんな広告がこんな無関係な文章の下に出るのだ?」と首をかしげることが多いです。そこへ、「このスペースにはこんな意味内容の広告をはめ込んでね」と宣言できるような仕組みがあって、コンテンツ作成者、Web制作者・運営者側が少し歩み寄れば、大きく改善するのでは、とDapperの開発者達は考えたように思えます。

 5. hakia :

 Powersetと同様、自然言語の意味解析により精度を向上させようとしている検索エンジンです。検索対象よりも質問文を解析することを重視しているとのこと。 OntoSemという独自技術や、Semantic API の提供、Yahoo! BOSSの初めて利用して広大なYahooのインデックスと連携した、などが特徴。

 次回は、5W1Hメタデータが縦横無尽に活躍し、自動的に旅程を最適化してくれるような、具体的なサービスから紹介してまいります。
どうかお楽しみに!
 
 
最後に、この場を借りて、セマンティックに関係ある直近の学会研究会のご紹介です。
どなたでも無料でご参加いただけますので、奮ってご参加ください。まだ空席ありますが、お早めのお申し込みをお奨めいたします。

【ご招待】2/4 第10回KM研究会 「ソーシャル vs セマンティック」 KMを加速するのはどちらか?

ご参考:
ビジネスモデル学会KM研究会公式ページ

Mixi BM学会第10回KM研」


posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/37523724

この記事へのトラックバック