2009年05月10日

5/13 200頁の資料贈呈:セマンティックWebから○マンティックWebへ

 
創立10年目のXMLコンソーシアムでは、昨年度後半の活動成果を一斉ご披露する XML Consortium Weekが間もなく開催です。
http://www.xmlconsortium.org/seminar09/090512-13+19-20/090512-13+19-20-info.html
↑こちらでは、事前申し込みを奨励していますが、当日いきなりのお立ち寄り歓迎です。
 

 会場内無線LANでPDF資料DL

  講演や新作デモの資料ですが、今回から紙の配布を廃止しています。従来、電子版は、年会費10万円をお払いいただいた法人または個人事業主のみ、いつでもアクセスok(過去9年分の資料がDL可)という形でした。
  今回は、足をお運びいただいたお客様全員、無料で会場内専用無線LANにアクセスして資料をお持ち帰りいただくことになりました。PCをお持ちでないお客様は、USBメモリかCDR生disk(DVD不可)をお持ちください。5/13でしたら、Web 2.0部会メンバー何人かに頼んで、資料をcopy できるようにいたします。 
 

 

5月13日(水) は、クラウド(Azure中心)、セマンティック、ソーシャル

 
会場:日立システムアンドサービス 品川本社 
http://www.hitachi-system.co.jp/j_profile/map_honsya.html
最寄駅:JR品川駅港南口 徒歩0分 ; 入館方法:20F セミナー受付へ直接お越し下さい。 
概要:
 エンタープライズに、ソーシャルや軽量データ連係・クラウドなどの"2.0"的な仕組みがどのように入っていくか。また、その際の問題点を、セマンティック技術に象徴される"3.0"的な仕組みでどう解決するかについて講演とパネル討論を行います。
1. Enterprise2.0 アプリを支えるクラウド基盤としてのAzure(40分)   宮崎昭世(日立ソフトウェアエンジニアリング) 
2. 企業で最近のセマンティックサービスをどう活用できるか?(100分)  〜10数本の公開セマンティックサービス事例とユーザ・ストーリ、セマンティックマッシュアップ、OpenSocial等5W1H活用事例のご紹介
 野村直之(メタデータ)  湯本正典(日立システムアンドサービス) 亀山悦治(ナレッジワークス) 加藤晶子(アイ・ティ・フロンティア) 
 白井亨(アイ・ティ・フロンティア)  小林茂(日本ユニシス) 西一嘉(東芝ソリューション) 松川昌洋(凸版印刷)
 3. パネル討論「社内ソーシャルの問題解決と活性化のヒント」(100分) 〜G-nexti, encafe動画, セマンティック・カフェ by MextPNE (Mextractr+OpenPNE)等の新しい試みとともに   モデレータ: 酒瀬川泰孝(NTTデータ)、加藤晶子(アイ・ティ・フロンティア)
 ゲスト: 吉弘 辰明様(エンカフェ)  
野村直之(メタデータ)  松田圭子(メタデータ) 宮崎昭世(日立ソフトウェアエンジニアリング) 西一嘉(東芝ソリューション)  小林茂(日本ユニシス)
 ---------------------------------------
  世間で「クラウド」は非常に盛り上がっていますが、、実は、 標準化団体でもあるXMLコンソーシアムでは、冷ややかな目で見る人が多かったりします。日経IT Proの谷島さんなども、「どこが新しいのだ!?(反語の勢い)」とほえてらっしゃったりしますが、、最近その理由がわかった気がしています。
 ヒント:「グリッド」とクラウドをくらべてみましょう。
グリッドのほうがよほどフェアで、企業エゴによる囲い込み、プラットフォーム間の覇権争いとは無縁なものがあったように思います。最初から、乗り換え前提に規格を共通化しようとしてきたわけ。XMLもWeb Servicesもそうでした。Web 2.0は、、BtoCが先行して、C優先で健全な競争をしてきた側面が強いと思います。しかし、クラウドは??
  まだまだ「こうだ」と断じるには時期尚早。
当日は、OpenSocialの使いこなし、運用、ビジネスモデルの面で、徹頭徹尾ユーザ利益にたった健全な競争ができるのか、といった議論に発展できるかと存じます。こちらをお読みの論客の皆様に、是非、議論に参加していただけたら、と願っています。
 

セマンティック・サービス10数本を一挙紹介 

 こちらのコーナーで以前紹介したサービスについて、画面を参照しながら解説。資料のページ数は132ページとなりました。この他に、ソーシャル、口コミ、オントロジーを活用した米国のレストラン案内BooRahについて、新たに提供されたAPIの概要を解説しつつ、豊かな生活、いや、人生(QoL) を追求する、「○マンティックWeb」を初提唱いたします。
  セマンティック・マッシュアップのデモ もお見逃しなく。セマンティック・サービスのAPIを駆使して、非常に面白いマッシュアップの試作結果を初披露いたします。
 

社内ソーシャルはグループ企業の巻き込み方まで発展

  社内で、安心情報共有できるだけでなく、社員一人 一人 の思いまで他部署と共有するにはどうしたら良いか? その際のKPIは何か(本音版、建前版)? 
   第三部の「ソーシャル」では、NTT Dataグループでサービスインしたばかりの企業グループSNSの事例紹介から、今後、セマンティック技術を駆使して部門セキュリティを保持できるようにした、全く新しいSNSベースの情報共有の仕組みまで、意欲的な試みをご紹介します。
 エンカフェ社長の吉弘辰明様をゲストにお招きし、SNS間の緩やかな連携、協調の仕組みから、動画共有を融合した利点他、最新の取り組みをご紹介いただきます。 
 さらに、セマンティックをテーマにした招待制のSNSに、当日いらしたお客様をご招待いたします。様々な特典のある無料セミナー、ということで、よろしければご参加ください。事後も、継続的にメリットあるかと思います。 
  何よりも、登壇のメンバーと忌憚のないとこと、自由に議論できる貴重な機会として活用していただけたら幸いです。
 
ps. (5/11朝)

世界最大のオントロジー(らしい)DBpedia。それをラッピングしてブログ執筆支援で頭角を現したZemanta。それを呼び出して双方向機械翻訳により他言語で使えるようにしたFaviki。これらについてご説明します。

さらに、BooRahのレストラン検索でもオントロジーを使っています。
セマンティックWebから、人生を豊かにする○マンティックWebへ。

どうぞよろしく!
 


カテゴリー: Cloud, Mextractr, social, semantic

Good!獲得数: 42

アクセス: 2659

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年04月30日

Yahoo!のFire Eagleは自分の居場所を登録するプラットフォーム

 前回ご紹介した週アスの特集にもありましたが、Friends on Fire という面白いサービスがあります。
 
 
一言でいえば、友人がどこにいるかリアルタイムで地図上で確認できるサービス。

「友人」の情報を取得するのは、FacebookのAPIから、ということで、Facebook上のアプリケーションです。Yahoo! US 製。

http://apps.facebook.com/on-fire/

最初、この画像から、「知らない人でも、自ら 公開 を選択すれば居場所がわかるのかな? なんか危ないなぁ」と思ったのですが、これはあくまでデモのようです。ログイン前でしたので。
 
このプログラム自体は、セマンティックサービスの2大特徴としての「意味解析」や「知識(オントロジー)の活用」という部分はいずれも殆どなさそうです。

なのに、セマンティックな香りがするのは何故だろう?といろいろ考えました。
サービスの最大の特色は、5W1H のWhereとWho をリアルタイム(When)で駆使していることのようにみえます。5W1Hメタデータを縦横に活用している感じ。

それで大事なことに思い至りました。
・地図や人脈情報、って、豊かな構造をもって様々な情報を有機的に関連付けられるのだからオントロジーの一種と言ってもじゃぁないか?!

時間軸は1本しかないですが、刻み幅、持続時間、納期、繰り返し、などなど、やはり結構豊かで大事で有用な構造をもっています。

そこで、Who, Where, When を使うだけで、これらの特殊オントロジーを活用しやすいので、5W1H使っただけでセマンティックな感じがする、と。
 
対する一般オントロジー(?)は、What のオントロジーと言っても良いかもしれない。

Whatにはモノ(物体)、とコト(出来事)の2種類があり、HOWはコトの属性(あり方)で、、 と続きはまた後日。

Friends on Fire に戻ります。実はこれは、 Yahoo!のFire Eagleという、個人の現在位置情報をプロットし、API提供するプラットフォーム上のアプリケーションです。Yahoo!自身の作品。
http://fireeagle.yahoo.net/


自分の居場所を登録するプラットフォーム的サービスで、その上にさまざまな具体的なアプリが作られています:

http://fireeagle.yahoo.net/gallery
には、自ら作った公式アプリのFriends on Fire!以下、いろいろ紹介されています:
A new official app from the Fire Eagle team! Find your friends on the map, share your location and post short messages, tips and invitations on the map!

EagleTweet 
EagleTweet is a small web service that updates Twitter with the current location.
これを使うと、twitterにメッセージ流す際に現在地が自動で挿入されるようです。

Radio Pop
Radio Pop enhances your BBC radio listening. 
これは、使ってみないと便利さのツボがわからないかな。
Enabling you to create a personal record of the programmes you like and see what your friends and everyone else is listening to, and whether they are listening nearby.
ということで、同じ曲を誰かが近くで聴いているかどうかがわかるのが独自のメリットのようです。親近感を覚え、実際に会ってみては?ということなのでしょうか。
昔のラジオ・リスナー間の連帯感の現代版の感覚を増強するサービス?



Brightkite  
People. Places. Friends
輝く凧? 人々、場所、友人?
Brightkite connects you with the people around you. You can see who's in your vicinity, attach notes and photos to places, and keep track of what your friends are up to.
なるほど。やはり近所にいる友人の行動を、文章と写真を地図上に紐付けて、わかりやすく把握して、コミュニケーションを促進しようということのようです。

今日現在、全部で72本のアプリがあるようです:
http://fireeagle.yahoo.net/gallery/all
 
仕事探し、なんて実用的なものもありますね。

 よろしければ、 72のサービスのいくつかをご覧の上、こちらのコメントなどにご紹介ください。
 
 
 

Good!獲得数: 41

アクセス: 1582

 
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年04月29日

Kallout, "ショートカット型"セマンティックサービス, 5/13にもご紹介

Kallout, "ショートカット型"セマンティックサービスという分類は、MECE原則にはもとるものの、SBI HGさんが付けた3分類の中ではわかりやすいものです。
IE8アクセラレータの仕組みも、うまく使えば、 "ショートカット型"セマンティックサービス となります。
 
ps.
 実は、5月中旬にリリース予定で、セマンティック技術やサービス、ビジネスに興味ある方のためのコミュニティを準備中です。というか、既に試運転しています。
SNS + Groupware + Semantic Filtering (匿名化や自動伏せ字化)
という新世代のアプリケーションです。 "Mextクリッパー" が、ストレージとして他のクラウドを場借りしていたのに対し、ストレージも、カレンダー/スケジューラも、公開/非公開の制御も全部自前で用意したパッ ケージ。これをそのまま、あるいはさらにカスタマイズしたものを法人、団体様からの引き合いにお応えして提供いたします。
 一般公開前 に、この「セマンティック・カフェ」(予定名)に入ってみたいという方は、期間限定でご招待させていただきます。登録予定のメールアドレスから、 nomuran@metadata.co.jp までご連絡ください。まだコンテンツは少ないですが、自然言語処理やセマンティック関連のイベントカレンダーを共有したり、様々な知識、ノウハウを蓄積 し、アイディアを生み出すきっかけにあふれたカフェにしたいと思います。
 
 
 

 下書き
2009/04/29

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年04月22日

週アス「ウェブの未来大予想」 ≒ セマンティックサービス

 
 少し間があきました。この間、バイラルマーケティングの原点を振り返って(2001年のセス・ゴーディンへのインタビュー記事を参照して)、ソーシャル活性化の秘密を探ろうとした原稿、そして、グリッドとクラウドの本質的な違いに気づいてまとめた原稿を下書き保存しつつ公開を見送りました。(2010.5.3自分のTwitterについての予言に気付き公開)
 そこへ、知人が週刊アスキー4.28号の標記特集をみつけてくれました。これは素晴らしい。
 インターネットの時代になってPC雑誌の老舗が続々と倒れる中、週刊アスキーは、独特のとんがった視点、何でもありっぽい雰囲気を演出しながら知性や感性に訴えるネタを出し続けて命脈を保っておられます。1999年に東京の青山で福岡編集長(当時)にお会いしてお話して以来、彼の存在が、独特の魅力の源泉だ、と確信していました。
 当時、月刊アスキーといえば遠藤諭さん、週アスといえば福岡俊弘さん。お2人とも、表に顔を出す個性的な編集者の代表格として尊敬しておりました。現在も総編集長ということで、いつも期待して、特集を眺めておりました。特に、日本経済新聞社のTさんから、福岡さんが「次はセマンティックしかない」と最近発言された、と聴いていたので、今回の特集も「なるほど!」と感じた次第。
 特集の内容は期待を上回るもので、「3.0」的なサービスを取り上げてくれています。次の「大予想」ごとに数本の先進サービスを紹介してくれています。
  1.  人やモノがつながる検索が流行! (昔のカレシがわかっちゃう!?)
  2. カメラで撮影した動画で検索! (テキスト入力はもう古い!!)
  3. ブックマークがウェブアプリで埋まる! (もうソフトはいらない!?)
  4. タイムマシーン地図が登場!     (未来の地形がわかる!!)
  5. Twitterでは満足できない!! コメントも居場所もリアルタイムに共有する!
  6. ブラウザー戦争がさらに加速! (ブラウザーの可能性に感動!)
  7. すべての知識はウェブから学ぶ! (学校がなくなる!?)
  8. 未来はウェブが予測する!   (2300年のブームは何?)
 こうして目次化してみると、一見普通のWebアプリ紹介特集の体裁を装っていながら、中身のとんがりぶりを確認できる感じがします。
 「 1.人やモノがつながる検索が流行!」 とは、すなわち、広い意味でのセマンティック・ウェブです:
  • ウェブにちらばる情報が、より詳しく(自動的に)分類、タグ付けされてデータベース化される。
  • 検索結果はテキストの羅列でなく項目の関連性がビジュアルに把握できるように進化
 1点目は セマンティック・ウェブのコンセプトそのものですね。2点目は、既に、Cuil の出力結果表示の2Dビジュアルレイアウトや、オントロジー検索の結果を見せてくれるfavikiなどで体験することができます。特集で取り上げられたのは、5W1H Mextractrからも、WHO(人名)抽出結果の誘導先として採用している、Spyseeです。創業者の石田さんのインタビューに「"キーワードを入力、検索結果のページを行き来しながら内容を理解"というプロセスに必要な時間を劇的に短くしたい」とあります。Mextractrアクセラレータと全く同じ目標を共有しています。
 Spysee以外には、商品間の関連のネットワークを「見える化」した、Amaznodeが取り上げられています。
 
「2. カメラで撮影した動画で検索!」 まだ動画ファイル全体を検索条件にできるサービスはないようですが、10年近く前から、静止画間の類似検索は少しずつ実用化の努力がなされていました。
  • 画像分類の半自動化
  • 写真のタグ付けが進み、画像に移っているものが何か検索可能に! 
  • 写真データから3次元空間を割り出し異なる角度から移った被写体も認識できる?
個人的には、もう少し手前の課題、たとえば、「先週末、日光に行って素晴らしかった。自分がとった春の華厳の滝と比べて秋はどう見えているのか知りたい」と思ったら1秒後に、ぴったりの美しい写真が出てくるように、まずはウェブ全体を連携させなければ、と思っています。
  具体的に紹介されている画像(による)検索サービスは、次の3つです。Zemantaで有名になった自動タグ付け機能などセマンティックサービスもあります。
 以下、駆け足でご紹介。
 予想の3では、デスクトップ・アプリとくらべて何ら遜色ないウェブアプリや、その究極形ともいえるブラウザ内のOS、ウェブOSが紹介されています。
  予想の4は、既にあった過去地図、古地図、火星の地図などを紹介しつつ、3次元化、4次元化した地図サービス上で、さらに高度で面白いマッシュアップが出てくることを予想しています。GPSケータイやGPS内蔵デジカメの普及がさらにマッシュアップの流れを促進する、とも。
 予想の5でも GPSケータイを活用。これによりアルタイムで5W1Hを共有し、コミュニケーションを促進する方向性を予想しています。手間をかけずに情報発信しつつ、プライバシーはだんだん失われていく方向ではないか、とのコメントもあります。
 予想の6は、いまブラウザが面白い!ということで、Safari4のシアター風UIが代表で紹介されています。
 予想の7は学習とナレッジマネジメントの話。eBook, Academic Earth, American History in Videoが紹介されています。
 予想の8は、データの力に頼るだけでなく、その解析を推し進め、膨大な計算パワーを駆使したWebサービスの台頭を予想。その象徴として、大量データの集約と解析による未来予測の可能性に言及しています。紹介サービスは博報堂生活総合研究所の「未来年表」。このサービス自体は、政府機関やシンクタンクの調査レポートという、ヒトの頭で咀嚼、分析された2次情報をインプットとしているようですが、事業企画担当者などにとって便利なサービスになっているようです。
 うーむ、、書き始めたときは、どれとどれが セマンティックサービスで、これはまた別のトレンド、という風に分けてご紹介しようかと思っていましたが、なかなか無理がありました。
 集約や誘導、絞り込みの手がかりにもメタデータは必須だし、リッチなUIを伴う便利サービス(より早く、手間無く、わかりやすく)にしても、何かの自動解析エンジンをその場で動かすか、あるいは既に構造化しておいたデータベースを用いています。ほぼ全部がセマンティックサービスに該当する、と言っても言い過ぎではないかもしれません。(ブラウザはそれを支える表現力と高速性を提供しているということで)
 
 
 
 
 

Good!獲得数: 86

アクセス: 2440

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年04月15日

バイラル温故知新:セスゴーディン、YouTube, Gigazine、そしてMextractr?

Bold headのセス・ゴーディンは、10年以上前、有名人のEメールアドレスを収集して、一部勝手に自著(メルアド集めただけ!)に収めて出版する、という変わったことをしました。
 
その後、バイラルマーケティングの本で一世を風靡。
 
このバイラルマーケティングは、遺伝子を埋め込み、感情を揺さぶり、メッセージを、別の(ウケねらい)コンテンツにのせて伝播させていく仕組みです。何か、セマンティック的!と感じます。
 
少なくとも、事務的でフラットな(失礼!)KW広告、リスティング広告とはエラく違う。
 


ソーシャルとも違います。

ねずみ講やチェーンメールとも似て非なるところがある。


アイディアをどんどん付加して、、と、セス・ゴーディン氏は、
2001年頃に、ニコ動の元祖のようなことをいっている。

 
そう、麻薬のように吸引力、説得力のある動画と結びついたときに、バイラルマーケティングは最強の効果を発揮しました。


YouTubeでは、ウケねらいが大成功して100万アクセスになれば、自然発生的にバイラル効果が出る感じ。直接、他人、他媒体に伝播させているわけじゃないけど、、そう、メタデータやリンクが増えることは、伝播、感染と同じ効果がある。たとえ、データ本体の場所は元のままでコピーされなくとも。

Magic Cap (Telescript)弥一部のP2Pテクノロジーが、「ウイルスのようだ」と嫌われてか?、普及に至らなかったのは、実際に侵入してくる気持ち悪さも一因だったことでしょう。

 
仮想的な伝播なら抵抗が無い、ということで、メタデータが「感染」を媒介する時代。 
 
だから、Twitterはいずれ大流行することでしょう。
 

下書き
2009/04/15

 
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年04月09日

"Mextクリッパー"準備で息を呑んだMextクリッパー" リリース準備で息を呑んだ瞬間

昨日8日、無事予定通り、"Mextクリッパー" というサービスを公開することができました。関係各位に深く感謝申し上げます。
今回は、おかげさまで多数のメディアにとりあげていただくことができました。もちろんこちらCnetでも、ニュースに書いていただきました。
おかげで、ニュース検索のサイトをみると、「読売新聞、**時間前掲載」のように、枠が確保された有力マスコミでの採録状況が逐一伝わり、開発でがんばってくれた弊社社員も感激する瞬間がありました。
以前はてな日記に書きましたが、 今回もプロの文章力に感動。新ソフト、サービスの本質を凝縮してヘッドライン要約に、わかりやすく表現してくれました。

文章をドラッグするだけでGoogle Calendarに予定を自動登録--「Mextクリッパー」  読売新聞

Webページ上の予定をGoogleカレンダーに登録できるIE8対応ツール INTERNET Watch

Googleカレンダーに簡単登録、IE8アクセラレータ「Mextクリッパー」が公開 マイコミジャーナル
メタデータ、スケジュール自動認識&登録サービス「Mextクリッパー」提供開始 EnterpriseZine
文章をドラッグするだけでGoogle Calendarに予定を自動登録--「Mextクリッパー」 ZDNet Japan
IE8の選択テキストから日付や場所をGoogle カレンダーへ登録「Mext Clipper」 窓の杜
メタデータ、IE8でアポ情報を登録可能なサービスを提供 キーマンズネット
”「Mextクリッパー」は、同社が開発した、日本語テキスト(普通の文章)から意味情報を自動抽出し、表現の統一正規化)や数値化を行なうサーバソフトウェア「Mextractr」(Metadata extractor)をサーバ側で動作させているサービス。”
 
   今回は、プレスリリース対応(原文殆どそのままというのも普通なのに!)であるにもかかわらず、わずか数分の間に、実際に使ってみた記者さんが多かったのにも驚き、感激しました。「お、使える!」と評価して1,2時間後に記事にしてくださった感じのするものもありました。独自のWebページ上で使ってみた画面写真を入れたことや、署名により、評価内容と責任意識が伝わってきます。
 また、BtoB、企業内個人向けのサービス、という趣旨をこめて発表したつもりが、 窓の杜に、フリーウェアの延長のプロダクトのように取り上げられたのも予想外でした。(インプレスGさん全体の窓口にお知らせし、掲載媒体はお任せしました)
 これは名誉なことです。意味解析技術をコアに、エンタープライズの人手不足解消、コスト削減を目標にサービスを組み上げたはずが、「うん、これは誰でも簡単に使える。Web上の文房具みたいなものだからユーティリティのジャンルのフリーウェアとして紹介しとこうか」(想像)という感じで取り上げていただけたのは有り難いです。ユーザインタフェースについてもある程度自信をもつきっかけになりそうです。
  さて、以上で、"Mextクリッパー" リリース直後の速報、感想はおわりです。標記の件、「リリース準備で息を呑んだ瞬間」についてですが、上の標題群をみてお気づきでしょうか? 
 

リリース準備で息を呑んだ瞬間

 実はサービス提供者側としては事前にハラハラどきどきだったことがあります。
 マイクロソフトが、打倒Googleを祈念し(きっと)、多くのユーザがWeb検索をあまり使わないようになることを願って(たぶん)開発したアクセラレータ。我々は、このアクセラレータから、Google Calendarにメモ書きを記録するサービスを作ってしまったのです! 
 「今後は他のクラウドも自由に選べるようにしますので、、」と電話口でマイクロソフトの原田さんにしゃべった私の声は少し震えていたかもしれません。そのお返事を伺って息を呑んだのでありました。「ユーザのWeb環境が少しでも便利になり、新境地のUIを提供してくれるなら大歓迎です。もちろん近い将来Live Calendarに対応してくれたら社内でも大っぴらに使えて個人的には有り難いですけどね。(笑)」
 Silverlight2あたりから、公然とマルチプラットフォーム(OS)での開発、運用環境をアピールしてこられたマイクロソフトさんの変身ぶりは印象的でしたが、まさかここまでとは。電話口でのおべんちゃらに過ぎないわけじゃない証拠に、実名入りで「賛同のコメント」を寄せてくれました:
オリジナルのリリース記事より引用:
メタデータ、Web閲覧メモやスケジュールをクラウドにクリッピングする "Mextクリッパー" サービスを無償提供開始
【スケジュール登録が10秒で完了】 
【いま注目した情報を逃さずクラウドにクリップ】
 ・・・  ・・・  ・・・  ・・・  ・・・  ・・・  ・・・ 

□ 賛同企業からのコメント
 マイクロソフトは、「Mextクリッパー」アクセラレータの発表を歓迎します。アクセラレータをはじめとしたIE8 のアドオンは、日本で既に100以上のサービスがリリースされており、これらはIEアドオンギャラリーで公開されています。メタデータ株式会社様が最初にリリースした「5W1H Mextractr」は、日本語を解釈して5W1Hの意味で色分けし、検索エンジンを経ずにサービスに誘導する大変ユニークなアクセラレータでした。今回の「Mextクリッパー」も非常にユニークなアクセラレータで、Web記事やWebメールからイベント情報を抽出したり、Web閲覧メモをクラウドに登録できる画期的なアクセラレータです。IE8の可能性をさらに拡大するとともに、IE8を入り口としたWebの利便性を新たな領域に高めるものとして大いに期待しています。マイクロソフト株式会社 
コマーシャル Windows 本部
シニアプロダクトマネージャ
原田 英典 

 神に誓っていいますが、、というより財務表で証拠の提示も可能ですが、 マイクロソフトさんとは金銭の授受を伴う契約関係などありません。研究所には若干競合となる技術シーズもお持ちであるにもかかわらず、上記のように明言、表明してくださっています。
  以上が、事前に舞台裏で起きた出来事です。
 
 事後の感想としましては、、 マスコミもユーザさんも、マイクロソフトの最新の発明「アクセラレータ」とGoogle Calendarをつないだことには無関心なご様子だったのが逆に驚きでした。拍子抜けした感じです。
 試用してみて1分で、「うん、これ、使える」と思っていただけるのはソフト開発者冥利に尽きます。余計な背景などに関心はらわず、新機能の本質を体感、理解していただけるのは本当にうれしいものです。我々は、この嬉しさを再び味わいたくてソフト開発を続けているようなものです。
  いつでもどこでも、ちょっとしたメモを何でもクラウドに書き留められるようになって、われわれの生活はどう変わるか。自ら体験しつつ、さらに次のセマンティックサービスや、ソーシャルシステムとの融合をはかり、利便性を高めてまいりたいと思います。企業向けにはコスト削減効果が数値で明確に出るくらい、セマンティックサービスのご利益を高めてまいりたいと思います。
 

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年04月03日

セマンティック技術アンケート結果から 〜3/16コンファレンス拾遺

 もう1度、3/16のセマンティックWebコンファレンスのことを書きます。
個々の発表内容にご興味の向きには、開催概要の頁またはプレゼン資料のダウンロード頁から入手をお奨めいたします:
http://s-web.sfc.keio.ac.jp/conference2009/index.html
http://s-web.sfc.keio.ac.jp/conference2009/proceedings.html
 会議全体としては、「オントロジー」と、「SNS」という2つのキーワードが目立っていたと思います。
オントロジーはメタデータとメタデータの関係を記述したものだし、SNSは、書き込み日時や個人名(ハンドル名)等のメタデータがコメント等にも自動記録される(だからWikiより楽ちんで混乱しない面がありますね)、という意味で、メタデータ活用は当たり前。その先に一歩進めようとした意欲的な研究成果が披露された、ということができます。
 メタデータを抽出し、他の情報リソースに関連付け、紐付ける。メタデータを軸足に、マッシュアップ、情報連携、気の利いた検索をする。例えば、全文検索でできないことをする。そもそも検索キーワードが無くて「いつ誰がどんなカテゴリーで投稿した記事」という手がかりしか無くても社内文書が見つかる。これらの応用もまだまだ緒についたばかり、といえるでしょう。
   前回はMextractrアンケートでしたが、今回は、次世代Web、セマンティック技術全般について、委員会のメンバーが、今回のコンファレンス登録者252名に対してアンケートを取り、集計された結果についてです。富士通研究所の津田宏さんが代表でとりまとめ、当日発表されました。その内、興味深い設問と回答について、許可を得て、下記に引用いたします。
 
 質問1: 所属されている組織ではどのようにWebを利用していますか? (複数選択可)
 
  さりげない設問ですが、興味深い結果を導けています。「正式な社内情報の連絡」は、社内ポータル設置とほぼ同義かと思われます。社内個人ページ、ブログ、SNSを合わせて71/252というのは、回答者が先進的なマインドをお持ちの方々であるわりには小さい数字と感じました。スケジュール・グルーウェアがWebベースに移行しているのが139/252は予想よりやや大きい数字です。Notesがこれに入っているかどうかで(バージョンによって違うかもしれませんね)解釈も多少代わってきますが、スケジュール・グルーウェアについては、レガシーな専用クライアントは退潮の一途を辿る、とみてよさそうな気がします。
 

1つとばして、質問3です。
質問3: 仕事でWeb技術を使う上での不満は? (最大3つ選択可)


 「量が多すぎて情報が探せない」が89/252というのは、やや予想より小さい数字です。はっきり言って、プライドが邪魔して、自分が情報洪水でおぼれかけていることを認めたくない、という心理が働いたかもしれない、と最初は勘ぐりました。しかし、実際には、目の前の情報の扱いに追われて、自分がいかに大量の有望情報を見逃しているか、あるいは、存在自体に気づいていないという事実を自覚していない、意外に「満足した」ユーザが多いのかもしれません。こんな人には、ライバル企業で同じ業務に従事している優秀な人が1人で購読している5000本のフィードや、ソーシャルブックマークをお見せすると効果的かもしれない、と妄想しました。
  キーワードがうまく設定できない、と認める方は、いまの検索エンジンの欠陥や拙さに腹を立てているかもしれません。あるいは大変謙虚に、検索エンジンは良いのに自分のスキルが未熟だ、と評価されているのかもしれません。いずれにしても、エンジン and/or UI (キーワード示唆機能等も含む) のテクノロジの進化が求められる結果、と思われます。

  「情報の信頼性」と、「新旧の情報の混在」は現状の非セマンティックなWebの大問題といえるでしょう。文書全体の発行年、という基本的なメタデータすら、強い制約条件(AND条件で必須)とされていないことから、検索エンジンのノイズは依然かなり多い状況と思われます。

 


質問4: 「セマンティック技術」として期待するものは? (最大3つ選択可)


「大量に作られるログ的な情報を次々と整理して溜めてくれる」
「わざわざ検索しなくても必要な情報を勝手に教えてくれる」

これら2つの選択肢は、ユーザが何もしなくても自動的に整理したり、関連情報を自動的にゲットしておいてくれる、という期待です。ソフトウェア・エージェントの機能、といっても良いでしょう。

「自然言語や文章から情報を検索できる」
「様々な言語の情報を探して日本語で結果をくれる」

これら2つは自然言語処理への期待。


「製品名などうろ覚えで入力しても適切に近そうなものを検索してくれる」
「専門的な内容でも易しい言葉で探すことができる」

これらは、オントロジーなどを活用した知識利用検索といえます。


「複数の情報源を一度で意味的に横断して検索してくれる」  

「状況(場所時間etc )にあわせた検索 」
この2つこそセマンティックサーチの典型、という感じです。意図を察したり文脈・状況を察して、秘書のように適切なものを見つけてくれる。少なくとも、ユーザ側が、データベースの配置など、機械の都合に合わせたりしなくて良いように情報アクセスできるようになって欲しい、ということで、実装面ではクラウドへの期待にもつながっているかもしれません。

 
「内容の信頼性によって区別して返してくれる」
「新しい情報が追加されると古い情報は自動で消してくれる」

これらは、セマンティックWebの"Trust"という最上位層への期待だったり、自動で文書の進化系統樹を辿って、古い無効な情報を素早くスキップできたい、という期待です。後者は、実はPageRankの構造的な問題点、すなわち、多くの「自分より新しい!」ページから参照されている【古い】ページのランクが上がりやすい、という問題のおかげで、最新の改版文書の方が目立たなくなる、というのを何とかしてくれ、という要望でもあります。アカデミックな価値、権威からすると、ある分野、アイディアのオリジナル、創始者が偉いわけなので、PageRankでもいいかもしれません。しかし、ビジネス現場の文書はこれでは困ります。鮮度が高く、outdatedな情報をそぎ落とした最新情報が、【事前に注目】され、待望されているみたいに、空きスロットすなわちメタデータを用意しておく、という、抜本的な対策が求められているのかもしれません。セマンティック技術のベンチャーで、それに取り組んでいるところがあるのと、エンタープライズWebコンテンツ管理のワークフローに、そのような考え方を2002年から取り入れたBrandSoft社の活動に改めて注目してみたい気がいたします。

「検索結果をリストだけでなく,表とか色々な形で見える化してくれる」
「文書だけでなく,人とかモノ,ノウハウ(動画)が検索できる」

瞬時に把握できる見える化、すなわち、人間が意味を素早く理解できるようにメディア変換して欲しい、という期待は、情報爆発とともに拡大していくでしょう。メディアが違っても「同じ意味のもの」なら同じように検索されて欲しい、という期待もうなずけます。それには、画像、動画、単語・文章の違いを超えて、メタデータを共通化する、というのがストレートな対策のように思えます。

 
質問5: 企業内でセマンティック技術の導入が難しい要因は何でしょう?

 
 この回答は、研究者、技術者にとっては耳の痛いものがあります。運用の問題であれば、ユーザ側が変化できない、というネックになりますが、「技術がまだ未熟」、そしてそれ以上に「効果が不明」(評価尺度さえ不明?)というのがシビアです。ただ面白そうだから、そこに意味表現を作れそうだからやってみただけ、という無責任な研究姿勢では、結局、実際に役立つものは作れない、というメッセージをユーザから突きつけられた、と思っておいて良いでしょう。
 KPIを定義して進化の方向性を明らかにし、ROI (Return of Investment)を数値化する。この作業を怠ることなく、製品・サービスの開発、改良に取り組んでまいりたいと思います。
 

Good!獲得数: 80

アクセス: 1818
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年03月24日

5W1Hメタデータ自動抽出Mextractrアンケート 於慶應三田3/16セマンティックWebコンファレンス→3/24追記

 以前の記事でご案内した、慶應大学SFC研究所主催のセマンティックWebコンファレンスに主催側に名を連ねさせていただき、参加いたしました。大変熱心な聴衆にご参集いただきました。あえて、その気迫に負けないほどすばらしい基調講演以下が続いた、と書かせていただきます。
http://s-web.sfc.keio.ac.jp/conference2009/proceedings.html
↑ こちらの 予稿集ページ(まとめてDLするのに便利)で、講演内容についてご確認ください。
  パネルの2番手で、ポジション・ペーパーの発表よろしく、「なぜ向こう5年間でエンタープライズに必然的にセマンティック技術やインフラ、サービスが入っていくか?」について10分少々語らせていただきました。
 16:25−17:55 パネルディスカッション「エンタープライズ3.0に向けて」
モデレータ: 萩野 達也 (慶應義塾大学 環境情報学部)
パネリスト:

岡本 真 (ヤフー株式会社)
野村 直之 (メタデータ株式会社) [PDF]
佐藤 宏之 (日本電信電話株式会社) [PDF] 
津田 宏 (株式会社富士通研究所) [PDF]
渡邉 圭輔 (三菱電機株式会社)  
長野伸一 (株式会社東芝) [PDF]

 
 「グランズウェル」という、【顧客側の大変化】に対応して企業側が何らかのソーシャルの仕組みを入れる必要があり、それに呼応して、業務プロセス、特にCRM、サポートを中心とするナレッジマネジメントの仕組みが変化する。その際に、外部のネット(インターネット)の環境とまったく異なる次のような条件に阻まれる:
・人口が4,5桁少ない
・キーワード検索やPageRankが無力
・本業をサボってボランティアにうつつを抜かしてとの心理的圧力 などなど
これらを解決するのに、人々の代理としてのエージェントを駆動するエンジンとしてのセマンティック技術が必要であり、また、 5W1Hを中心とした文書メタデータと、オントロジー等を駆使したセマンティック検索が極めて重要になってくる。
以上、足掛け17年の大手製造業の業務経験や、サービス業のナレッジマネジメントでコンサルティングした経験に基づき、自分の存在、自分が設立した会社の存在を賭けて信じているビジョンを語ることができました。
 この後の討論も、聴衆からの鋭い質問で非常に盛り上がりました(→3/24※末尾に討論の骨子を追記しました)。パネリストもお互いに勉強になり、親交を深めることができました。主宰、司会の慶應義塾大学SFC研究所、特に、萩野先生に心より感謝申し上げます。
  メタデータ 株式会社としては、 5W1Hメタデータ自動抽出エンジン、そしてその具体的な製品であるMextractrについて、下記のアンケートを実施させていただきました。参加者の半数近い方に熱心にご記入いただき、大きな手ごたえを感じました。以下、統計処理した数字をグラフにしてご紹介いたします。
  ●1.Mextractrをご存じでしたか?

  セマンティックWebに強い関心をもった聴衆の方を母集団としているので、もっとYesが多くてもおかしくない、と考え、「もっと広く知っていただかなくては」と思いを新たにしました。
 

●2.メタデータ自動抽出機能はあなたにとってどのくらい重要でしょうか(5者択一)
a.不可欠  b.有用な選択肢  c.有用になる可能性あり  d.興味深い  e.不要


  8割方の回答者がその場で、5W1Hメタデータ自動抽出のデモをご覧になったばかりだったことも影響したとは思いますが、「不可欠」という回答が予想以上に多かったです。「興味深い」にチェックされた方で、その後、コンタクトを希望された人もおられるため、b., c., d.の違いはあまり大きなものではない、という解釈もあり得ます。
 

●3.2の質問で想定された応用用途はどんなものですか?
組み合わせるIT: グループウェア・カレンダー SNS  CMS  社内レガシー統合
        DB・文書管理  マッシュアップ開発ツール  新広告スペース

 
  これについては、Mextractrで想定したカテゴリ、ご紹介したマッシュアップアプリの中から、回答者の業務に近いものを選んでいただいた感じがします。
 

その用途    : 5W1H数値インデキシング(5W1Hサーチ支援)
          匿名化  日本語のWebAPI化(5W1H連携マッシュアップ支援)


  5W1Hの日本語の記述を、漢字表記を含めて数値として理解し、正規化、マッシュアップができること。それが、様々なエンタープライズ・アプリにおいて共通する、賢い検索機能(単なる文字列一致でない検索)にとって決定的に重要である、と皆様お考えのようです。
 

●4.3の用途で取り出したいor扱いたい情報の種類はどんなものですか?
イベント・スケジュール情報  個人情報  文書メタデータ
営業・サポート情報  社内知識共有向け情報  BtoCコンテンツ



   これについては、イベント・スケジュールや個人情報が多いと予想したのがはずれる結果になりました。代わって、文書メタデータが圧倒的に多く、それと少し重なりそうな、社内知識共有向け情報にも票が集まっています。後者は、外部のネット上の有用記事を想定された方もおられそうです。だとすると、膨大な外部記事には、Mextractrによって有用なメタデータを付与し、オントロジー等の助けも借りながらピンポイントの絞り込みを行って推薦して欲しい、という切実な要求が反映しているのかもしれmかせん。

 

●5.3の応用用途で重要になりそうな5W1Hはどれでしょうか。
いつ  どこで  誰が  何を  いくらで  その他※特定の形式で取り出したい要素や特定の分野があればお書きください。
 例:製品型番、閉店時刻、食材名、静電容量、etc.

 

 「その他」を、「5W1H全部」という意味でチェックされた方もおられましたが、その場合、全てに1票ずつ入れられたものとして集計しました。「いつ」「どこ」で過半数いくか、という予想と異なり、「誰」と「何」が過半数となりました。「誰」への支持は、KnowWHOやプロジェクトでの人材マッチングの重要性が相変わらず強いことを示唆してくれています。

 「何」については、特定業務でカギとなる、さまざまな名称、概念を想定されている可能性を感じました。予想よりも、カスタマイズへの要求が強い、と解釈すべきかもしれません。

 

●6.メタデータ活用で実現するソリューションで、興味のあるものはどれですか?
  ( ) 情報共有とプライバシー保護の両立  ( ) 情報連携、マッシュアップ
  ( ) レガシーデータの再利用  ( ) 個人情報保護
  ( ) 5W1H条件で検索するためのメタデータ・インデキシング

 やはり、情報連携、マッシュアップの可能性への支持が圧倒的でした。次いで、文字列に頼らない、数値による5W1H 検索への期待が高いのを改めて確認。「情報共有とプライバシー保護の両立」については、KPI, ROIが今一歩はっきりしないのがネックとなり、伸びきれなかったのかもしれません。

 
●7.Mextractrの活用を検討する場合に、気になるポイントはどこでしょうか。
 
  最後の設問では、精度、価格、カスタマイズ性を気にされる、ということで、今後の参考になります。具体的な事例を通して、これらについて、さらに目安、ガイドラインを詳細化してまいりたいと思います。オントロジーを知識リポジトリとして併用し、自動抽出したメタデータから有用なものに絞って他リソースと連携させるソリューションへのニーズが高いことも掴めましたので、以前の計画よりも前倒しで取り組んでまいりたいと思います。
 個別の案件について、魅力的で、コスト削減にもなる提案を第三者(代理店さんなど)が容易にできるように、さらに実践を重ねてまいります。
 今後ともどうぞよろしくお願いいたします。


--

※パネル討論の骨子(会場からのご質問の8割と野村による回答)
Q. Web検索で「問題解決」しようとして、間違った答を含むページに騙されないようにしたり、予測違いを修正したいときどうしたら良い?
A. 3点お答えします。まず、検索結果で十分なのかどうか、古くて使えない(outdated、obsolete)情報、データでないかどうか、5W1Hの時間軸WHENに沿って版管理のリンクを追うような仕組みでセマンティックWebや検索エンジンを進化させる必要があるでしょう。このニーズは切実なので確実に次の進化の1つに入ってくると思います(我々もがんばります)。
 次に、「これでは十分ではないこと」になるべく早くユーザが気づくようにしむける必要があります(検索屋さんの商売には支障ある機能かもしれませんが勇気をもって実行すべし)。そのために大事なのは「空欄」。表の中に空欄があれば、ヒトは気になります。空欄の存在を明らかにするには、回答の論理構造を「メタデータの枠」の形で表現するのがシンプルな解決法。つまり、データより先にメタデータを定義し、ユーザに見せることで「空欄」、情報が足りないことを一目瞭然にできるのです。メタデータの、隠れた重要な役割と言って良いでしょう。
 3番目に、別の知識源(広くオントロジーと言ってもいいでしょう)から得た計算式や表によるシミュレーションで、検索結果の予測を検証することが考えられます。セマンティックWebのTrust=信頼性確保の一方法です。
 
 Q. 動画のメタデータって大事ですが、自動で付けられませんか?
 A.  画像解析(色立体)でシーンの切れ目、あと、マルチメディア辞書でダイレクトにメタデータ抽出はできなくはない。15年前位から、MIT Media Lab.などで研究されていたが、実用化にはまだ工夫が必要でしょうか。
補足:個人情報保護のメタデータについて、テキスト由来のものと画像のメタデータと共通化すると実用化が進みそう。情報大航海プロジェクトでこの取り組みをやっています。
 
Q. Web 3.0アプリはどんなもの?
A.  ソーシャルに頼ってきた「2.0」と違って、「一人でも使える」、というところにポイントがあるかも。Salesforce.comや、優れたグループウェアは一人で使っても役立つはず(個人事業の営業履歴の管理、ToDoの整理/生成などで)。もちろん、チーム力を発揮できない分、セマンティック技術等を駆使した十全なマッシュアップ、コンテンツのサポートを巧みに取り入れたものがうまくいくでしょう。
 
 
 
 


Good!獲得数: 83

アクセス: 2614
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年03月14日

DEMO'09のGwabbitはコンタクト情報抽出で20ドル

今月初め、DEMO'09という、米国ベンチャーの新技術、新製品お披露目イベントが開催されました。
知人のジャーナリストNさんが、自身で行かれたわけではないですが(もっと大きな海外イベントにはよく取材に行かれてましたが)、記事を見つけてメールしてくださいました:

> PC Watchの以下の記事を読んでいて、Mextractrを連想しました。
> 「メールから5秒でコンタクト情報をアドレス帳に取り込むOutlookアドイン」
> http://pc.watch.impress.co.jp/docs/2009/0304/demo01.htm

はい。5W1H的な情報、人がビジネスを営む、社会生活する際のコンタクト情報をメール末尾の署名欄から自動抽出してアドレス帳に取りこむソフトですから確かに似ています。
「似ている」ことは、XMLの標準規格の点からも裏付けられます。
Gdataが、Mextractrが主に使っているEvent Kind以外に、Contact Kind, Message Kind (および3種に共通するCommon Element)から成っているからです。
人名、所属、役職。働く場の住所。人か場所の電話番号。これらが基本的なContact情報のメタデータです。
 他に、米国には、SMBXMLがあり、日本には、OCRメーカや葉書作成ソフトメーカ間で合意されたContact XMLというのがあります。米国版には、小切手の宛先や社会保障番号(Social Security Number)がほぼ必須情報として存在したり、国・地域や文化・商習慣によって要素や構造が少し違ってきます。
 ともあれ、1名分のアドレス帳データをきっちり作るのには意外に時間がかかるもの。目の前に必要なデータが全部あって、正しく切り取ってコピペすれば良いだけであっても、1,2分はかかるでしょう。それが5秒というのだから、ビジネスマンの創造的思考を妨げず、知的生産性を拡大するのに役立ってくれそうです。
http://www.gwabbit.com/
トップページの動画を見るだけでどんな風に使えるのかがわかります。 
http://www.gwabbit.com/faqs.php
を見ると、名寄せ支援機能があったり、 若干の学習機能があるかのような記述もみられます。
さらに詳細なところまで、米国在住が長かった弊社外部スタッフ(今のところ)のKさんが試用、評価してくれました。曰く、「文末付近の電話番号らしき数字列をトリガーとしてsignatureの場所を認識している」らしいので、現状、例えば、signature内に電話番号が入っていないと、全く認識されない、などの問題点があるようです。また、相手の引用文よりも下にあるsignatureは認識されないなど、不具合とおぼしきものもありました。

情報を正しく抽出できるかどうか、という観点での評価結果は以下の通り、とご指摘いただきました。

(a) 名前、e-mailアドレスはsignatureに書いてあれば、そこから優先して取得する。書いてない場合、または、認識できなかった場合、メールのヘッダーから取得する。

(b) 電話番号らしき数字が並んでいるものがあれば、その近辺をsignatureとして認識しているらしい。

例:
Johnny Smithson 姓、名
WiseStampCorp 会社名
   
976.56.456425132 携帯電話 →この行が無いと不可
John@wisestamp.com 電子メール
http://www.wisestamp.com webページ
 
電話番号にはなり得ない数字(6桁以下?)が入っていると認識されない。
Johnny Smithson 認識されず
WiseStampCorp 認識されず
456-786 認識されず
http://www.wisestamp.com 認識されず
 
(c) 姓名の直後に会社名が入っているのは、認識されるが、役職名が入っていると、signatureとして認識されなくなる。姓名の直後に地名が入っていると、それが会社名として認識される。
Kind regards,  
   
John Johnson 認識されず
Manager 認識されず
Telephone: +44 870 444 1896 認識されず
Mobile: +44 960 444 1896 認識されず
Fax: +44 870 444 1898 認識されず

Tony Carrith 姓、名
Tokyo, Japan 会社名 (誤認識)
Mobile: +983-23832842 携帯電話
Email:  tony@wisestamp.com 電子メール



(d) 1行になっているsignatureも認識される。

Jon Smithsony | WiseStampAgain | T: +675.51.23989132 | john@wisestamp.com | http://www.wise.se

 
(e) 電話番号が2つある場合、一つ目を会社電話、二つ目を会社ファックスとして勝手に認識する。

Phone: 800-555-1234 (H); 800-555-7890 (O)
一つ目: 会社電話 ; 二つ目: 会社ファックス


(f) 住所は全く認識されない。

Chuck Cherry 姓、名  
Myanmar Hope Christian Mission, Inc. 会社名  
308 South Oxford Road   住所が認識されず
Springfield, IL 62704-1258   住所が認識されず
Phone: 800-555-1234 会社電話  
Email: example@example.com 電子メール  
Web: http://www.myanmarhope.org webページ  
 
(g) 大学の部署、所属等は認識はされるものの、いくつか間違いがある。
John Johnson 姓、名
Department of Physics, 役職 (誤認識)
Harvard University 会社
Telephone:  617 444 1896 会社電話
Mobile: 617 444 1896 携帯電話
Fax: 617 444 1898 会社fax
(h) signature に含まれる他人の引用句は、影響を与えない。
Johnny Smithson 姓名
617-456-7859 会社電話
   
"Oh, so they have internet on computers now?" -- Homer Simpson
 
かようにまだ改良すべき点は見受けられますが、是非頑張って欲しいもの、と思います。
 ビジネスモデル的にはどうでしょうか。
アドレス帳という、知識編集の効率化、自動化に的を絞ったのは悪くないかもしれません。
※ターゲットをとことん絞り抜け!というVCさんからの圧力による判断という匂いがしますが。。
ただ、私なら、企業のバックエンド、サーバ側、公衆ならクラウドの側にこの機能を置いて、様々なシステム、業務フローの中で常時編集と活用が進むように取り組むと思います。
なぁんて、全然人ごとじゃありません。
こちらは「イベント」のメタデータ自動認識から入ったけれど、コンタクト情報も合わせて認識できるエンジンを早期にリリースしたいです。コンタクト情報の塊を拾いつつ、即時に活用するアプリも育てていくことで、かけ算で御利益が高まっていきそう、だからであります。
例:イベントカレンダー向けにも、イベント会場やイベント主催者のコンタクト情報を集めて構造化しておくことで有用性が高まる。
 



Good!獲得数: 37

アクセス: 1770
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年03月09日

なぜARよりセマンティックがWeb 3.0に相応しいか?

  拡張現実AR (Augmented Reality)も、セマンティック技術も、10年以上前から研究者が有用性をアピールしてきた、古くて新しい技術です。このブログは後者に軍配をあげる立場です。セマンティック技術の方が今後切実に必要とされ、Web 3.0の本命になる、との確信の下で書いています。そんな者にとっても、最近ARという言葉を聴く機会が増えてきました。
  筆者の知人だけをとってみても、KNNの神田敏晶さん、そして、日経BP社 IT Proの何人かの記者さんは、ARにコミットしておられます。 元NECの同僚だった暦本純一さんも創立にかかわったクウジットさんもARの関係だし、他にも多くの研究室から飛び出しそうな技術が日本にはあります。(数年前に情報処理学会大会で画像解析&合成の応用のセッションの座長をお引き受けして感心して発表に聞き入ったことがあります)
  少々強引ながら、印刷・出版業界さんのいう「クロスメディア」なコンテンツの扱いもAR的な情報メディアの進化、拡大の方向性、といえるかもしれません。Cnetブログでも経産省の村上さんが非常に説得力のある論考を、豊富な事例とともに、あげておられますね:
印刷改革のヒントは、印刷の中にある
  それでも尚、セマンティックこそが次世代Weの本命と確信しています。それは、メディアの表現力を拡大拡張するという、ユーザ、消費者を疲弊させる方向(広告・マーケティングは往々にしてこの方向ですね)とは正反対を向いているからです。人々の自然な意味記憶に沿うように情報を絞り込み、わかりやすくアレンジして必要最小限、控えめに伝えようとするのがセマンティックだからです。
  多くのユーザは、メールボックスを見るのが苦痛で不快になっています。情報爆発の中でおぼれかけ、押し流されそうになっているにもかかわらず、欲しい情報には行き当たらない。いや仮に、必須の情報・知識が目の前を通り過ぎようとしていても、それが分かり易い形で「私はあなたに必要ですよ!」とアピールしてくれないために、見過ごしてしまう。
  こんな絶望的な状況を解決してくれる技術こそ必要不可欠ではないでしょうか?
「ぼくは毎朝5000本のフィードに目を通し必要な記事は全部読んで反応している」と豪語するようなマッチョな人もいます。※そんな人の中にも、案外他人のイベントに足を運ばずに情報の意味を正しく理解しないまま表面的なトレンドに流されている人もいるかもしれませんが。
  でも、大多数の普通の人は、検索結果のランキング20番目までに、欲しかったものと全然関係のないものが数本でもヒットしていたら、それらに気をとられて、本来求めていたモノが何だったか忘れちゃったりするのです! こんな野蛮な状況をあと5年も10年も長続きさせて良いでしょうか?
  良くないとすれば、現行のWeb検索エンジンなんかよりももっと高精度に、人間の意味理解、意味記憶に沿う形で、適量をわかりやすく提示してくれる(もっと言えば広告なんか見せない)システムが強く求められているのではないでしょうか。
  1992年頃、フィラデルフィアのペンシルバニア大キャンパスで、George A. Miller先生(人間の短期記憶バッファが非常に小さいことを証明した論文"Magical Number 7(+-)2"をきっかけに認知心理学を創始された人)とWordNetのことで打ち合わせした際、情報爆発への対策について議論したことがあります。ヒトの感覚器官や言語処理能力、短期記憶を急に進化させるのは無理なので、結局長期記憶・2次記憶とスムーズにインタフェースを組んだシステムが必要なのではないか。長期記憶は意味記憶とも呼ばれます。自分が世界を理解した結果としての広大で複雑な知識体系にカッチリと紐付け、組み込まれること(つまり【理解】すること)で記憶が定着する。
  このように丸暗記(=短期記憶。一方「語呂合わせ」は疑似意味理解・疑似長期記憶でしょうか)でなく、ヒトが情報を自然に消化吸収して正しく対応するためには、長期記憶に照らした意味理解が不可欠。そこで例えば、ベタ書きのテキストの塊でなく、そこからメタデータを抽出して大見出し、小見出しとし、インデントした箇条書きに変換するなり、関連図を自動検索して引用するなり、というアシストを行えば、理解は速まり且つ深まるのではないか。
 それが出来るなら、システムが、長期記憶に照らした意味理解を支援することが出来たことになる。このような一連の技術は、まさにセマンティック技術と呼ぶべきでしょう。このような支援には、コンテクスト(作業文脈)の補充や、コンテクスト・スイッチ(背景、話題、ゴールがガラリと変わったこと)を強く印象付けるためのアシストも必要でしょう。その類としてARなりVRが機能するのであれば、セマンティック技術の仲間として大歓迎。だから、ダイナミック・ドリル・ダウンや音声による ガイダンスなどのリッチなUIはとても大切だと思います。
 
  以上、題名は少々挑発的、挑戦的だったかもしれませんが、わりとオーソドックスなことを書いているかと思います。あまりにユーザ本位なため、広告や、派手なIT投資(ハードが絡むとコストが跳ね上がりますね→※)に背を向けているところがあるやもしれませんが、そんなソフトウェア・ベンチャー仲間がどんどん出てきて欲しい、と思っております。
→※「派手なIT投資」が嫌悪され、「コスト削減」提案に注目が集まる不況だからこそ我々に大きなチャンスがあります。変化(チェンジ!)が求められています。IT投資のコストパフォーマンスを劇的に改善しなければなりません。定量的なコスト削減効果の数値ROI(Mextractrでの一例)を提示すべく、我々も頑張っています。
 

Good!獲得数: 99

アクセス: 2701

 

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年03月03日

3/16セマンティックWebコンファレンス2009で楽しみなこと

 今回、ご案内 、ご招待、というスタンスで書きかけていたのですが、途中で疲れてしまいました。無料のイベントに「素晴らしいですよ!」と、背中押しをさせていただくのは意外とエネルギーを消耗するようです。そんな文章って、読む側も疲れるのでは?と思い至ったのが、執筆が滞った原因です。
 そこで、ブログらしく、自分自身の期待、わくわく感を記録すればそれで十分ではないか、と思って元気復活。折りしも、まもなく定員いっぱいで申し込み打ち切り予定との案内が出ています:
http://s-web.sfc.keio.ac.jp/conference2009/ 
2009年3月5日追記:〆切となりました。
Web 3.0、セマンティック、エンタープライズシステムの次世代に興味ある方にだけ伝われば良いでしょう。ついでにプチ毒吐きすると、Webを見ていればどんな情報、知識でも手に入る、と勘違いしている人にも告知無用ではないか、となります。次世代Web、「3.0」世代になったら、セマンティック技術による強力な絞込みや、知識取得の支援、そして意味解釈アシストができて来るので状況はだいぶマシになりそうです。でも、 まだそうなってないし。
 それに、上記の程度の「3.0」ではまだまだ、今回の基調講演者のような、知識創造・伝達の達人、巨人の役割を代替するべくもありません。数ヶ月だらだらかけてWeb眺めて耳学問する時間があったら、半日か1日、自分とは異質の理解、コミュニケーションをする知性に直接触れるほうが何10倍も効率良い。でも、そんなヒューマン・サービスこそ希少資源であり、残り少なくなっているのだから、気の乗らない人を無理に誘うのは理不尽というもの。
以上のように割り切ったら、気が楽になりました。というわけで、半ば独断と偏見になりますが、もしよろしければ以下、ご笑覧ください。
 

 Web3.0に向かうセマンティックWeb

前回 はリンクだけの予告でした。サブタイトルはこのようになっています。
セマンティックWebコンファレンス2009 〜Web3.0に向かうセマンティックWeb〜
 すぐに思い出されるのは2年ちょっと前のニューヨークタイムズの記事「常識が道案内してくれるWeb?」 です。
  • A Web guided by common sense?---Entrepreneurs try to mine intelligence By John Markoff / The New YorkTimes Published: November 12, 2006
 Web 2.0とは、後だしジャンケンのネーミングでした。オライリーさんいわく、「ユーザ参加でデータ量が爆発し、軽量言語ですぐマッシュアップできるWeb APIも出てきた。ずいぶんWebの様子が変わってきたから、ここらで、メジャー・バージョンの番号を上げましょうか」ということで、「2.0」だったのだから、まさに、後だしジャンケンです。だから、オライリーさん流には、始まる前から「3.0」って言ってはいけない、というのもうなずけます。でも、「2.0」って言っちゃったら「3.0」が気になるのは人情というもの。メジャーバージョン番号を意識させちゃったのだから、次を予測するのも自由でしょっ、ってなものかもしれません。
 まだ気が早い、という指摘が2006年当時にあった一方で、いやそんな前世紀からTim Berners Leeが言っていた「セマンティックWeb」なんて古い、何をいまさら?という声もありました。
 ともあれ、古くて新しいSemantic Webにようやく陽が当たるときがきた、と言ってもよかったかもしれません。6,7年続いたベンチャー企業の応用努力がようやく身を結んで、具体的に便利さを体感できるセマンティック・サービスが現れ始めた。2007年が元年となりそう、という予想が出てきたわけです。他に、ヘラルド・トリビューンのこんな記事もありました:
http://www.iht.com/articles/2006/11/12/technology/web.1112web.php
 
  それで思い出しました。XMLコンソーシアムの設立間もない頃、2001年度の活動として、Semantic Webのアプリケーションの姿を数名の仲間とともに描いたのであります。資料そのものは会員限定で恐縮ですが、第1回XMLコンソーシアムWeekの概要紹介ページで下記をご確認いただけます:
2002年6月12日 第4日
http://www.xmlconsortium.org/seminar/w01/prog_4.html
「常識を備えたSemanticWebのエージェントに検索させてみる」

(株)ジェー・アイ・イー・シー 大泉 英之  
  PDF(945KB)
Video
『若い奴は演歌は聴かない』って知ってる検索エンジンの試作イメージ」

法政大学           野村 直之 
 

セマンティックWebコンファレンス2009の私的ハイライト

 http://s-web.sfc.keio.ac.jp/conference2009/ 
  最初は、国領二郎先生が、SFC研究所長として挨拶されます。SFC研究所上席所員の上司、というよりは、各種政府委員で多忙な日々をおくられ、日本で大学院の授業をブログ&動画で進めた草分けであり、学術論文でCtoCの出現を予言したりオープン・ソリューション社会到来のビジョンを執筆するなど偉大な活躍をされていることは周知かと存じます。個人的には、 5,6年前にビジネスモデル学会KM研究会に登壇していただいたりしてお世話になっています。
  斉藤信男先生の基調講演。Webを「グローバルOS」と言われるところにシビレます。あちら側にあちこりに発電所がある、というイメージの「クラウド」よりも1歩も2歩も前進している感じがするからです。そして、その知的で動的なWebが基本インフラとして知識社会を支える。そのための技術群がセマンティック技術であり、普及のための標準規格が大切。
 電総研の大OBとしてコンピュータの歴史を通観し、「いまのコンピュータや通信システムはまだまだだ」と思い続けてきた斉藤先生の口から、「こんどこそ本物の知的処理」と言われると信憑性を感じることでしょう。
 続く田中博先生の基調講演も感慨深いものがあります。かつての人工知能ブームの火付け役の1つ、世界最初のエキスパートシステムMyCin (感染症診断システム)の成功を受けて、日本でも、、というわけではないでしょうが、東大計数工学から医学部へと転じられ、現在も医療情報の研究のトップに君臨されている田中先生です。ライフサイエンス分野で、何10年も追求してきた知識体系を、セマンティックWebのオントロジーの規格を参考に、また相互運用性によるアプリケーションの開花を願いつつ実用化する。さまざまな障害により本格的離陸の遅れた医療分野の知識処理がいよいよブレイクする、という期待に溢れた講演になるのでは、と期待しています。
  セマンティックWeb委員会の活動報告は、苦節?年、長年国内で少数の同志の間でがんばってこられた皆様によるサーベイと、具体的な活動報告です。何人かの発表者の皆様には、折に触れてお世話になってまいりました。
 午後は、同じ委員会メンバーの皆様による、実用化システムと、現在進行中の研究プロジェクトの紹介です。情報大航海のように短期集中の研究プロジェクトと比べると、さまざまなルーツをもち、少数ながら実際にお客様が付いている息の長いプロジェクトが多いように思います。オントロジーの整備と、オントロジー活用検索をベースにした基盤整備の取り組みもある中で、コンテンツ間の関連付け、コンテンツの体系化をセマンティック技術で実現する「SNSをビジネスツールに」という発表に注目しています。
 同じ富士通グループの津田さんは、情報内容を適切に保護する、コンテンツ中心のセキュリティの構想を発表されるようです。個人情報フィルタ製品を世に問うている私の会社と同じ方向を向いていると思われ、しっかり聞いておきたいところ。
  NTT研究所と京大・石田先生は、産学連携SNSによる、産学マッチングの成果を披露されるようです。前回 ご紹介したiMageがその後どうなったか。社内応用を飛び出して、大学へ、そして産学連携のアプリケーションとしてどのように使われるようになったか。RDFのグラフ構造のマッチングがどの程度の規模で実用になり始めたか。これらの問題意識をもっておられる方は聴講必須、といえるでしょう。
  サイバーエッヂさんは、OpenCalaisやMextractrと似たテーマ、5W1Hを扱ったシステムを紹介されるようです。
 トピックマップ一筋(10年以上?)の内藤さん。やや孤高の規格、技術という印象もありましたが、今回は、異名同意語、同名異義語、そして多義性の問題、というセマンティック検索の問題に真正面から取り組み、解決をはかったWebサービスを見せてくれる、ということで期待しています。
 阪大の発表概要はやや難解にみえますが、機械設計の際にその機能構造を形式知化するのにオントロジーを用いているとのこと。XML言語のメタ・エディタであるxfyを用いて実装している、ということなので、有用性がどのように評価できるのか、見ることができそうです。
 Yahoo!ディレクトリをSemanticWebの規格によりオープン化したSearchMonkeyについては以前のブログで概要を紹介しています。これは、Yahoo! USのお仕事だったのでいまいち情報が少なかったのですが、今回、ヤフー株式会社さんからご紹介いただける、ということで、楽しみです。
 パネル討論「エンタープライズ3.0へ向けて」。最近の本ブログで、「なぜ企業内には切実にセマンティック技術が必要となるか」書かせていただきました。これをコアに、私の発表分9枚のスライドを萩野先生にお送りしたところです。
 モデレータの萩野先生、ヤフー岡本さんがどのような視点を提供されるか楽しみです。NTT研究所の佐藤さんからは、拙ブログを読んだ感想を頂戴しています。パネルがますます楽しみになった、ということで、事前にエールを交換した形。東芝の長野さんには、先日2/16のセミナーをご紹介し、チームの方に参加いただきました。三菱の渡邊さんとは、12月5日に少しお話させていただきました。そして、富士通研究所の津田さんとはICOT以来の長年のお付き合いです。今回お声をかけてくださったのも彼です。数年前の情報処理学会大会での パネルの司会も見事でした。パネリストながら、場を仕切る鋭い発言を今回も期待しちゃいます。
  最後に、午後やっている展示です。以上の講演で紹介されるシステム +1(one)となります。
「+1(one)」が Mextractrということで、足を運ばれた方にはいろいろ楽しんでいただきたい、と願っています。下記の5W1Hサイコロを、飾りのためにもってまいりますが、インタビュー式のアンケートにお答えくださった人全員に差し上げられるだけ確保できるか未知数です。駄目な場合はどうかご容赦ください。
 
  それでは、もしよろしければ、3/16当日、慶應大学三田校舎でお会いしましょう。




Good!獲得数: 96

アクセス: 2354
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年02月27日

13のセマンティック・サービスを紹介させてただきました

  前回「12のセマンティック・サービスを紹介」を書いてから少し日が経ってしまいました。
※あまり間があくと、ブログ自体が削除されかねないので今後は注意しなくては。。
 さて、当日は、本ブログからご招待した方を含め、皆様、熱心に聴講、コメントいただき、まことに有り難うございました。当方も勉強になりました。勉強といえば、講演者4名が、自分の担当分以外について勉強になり、有意義でした。改めて、企画をされたJAGATさんに感謝申し上げます。
 内容ですが、最初、なぜWeb 3.0世代でセマンティック技術の台頭が見込まれているか、市場動向をふまえてお話しました。下図のようにエンタープライズにソーシャルの要素がどんどん入ってくる中で、外部のWebと比べて圧倒的に「人材不足」だから、というのが1つの大きな理由です。
 

「ネット全体で成功した “ソーシャル” は企業でも本当にうまくいくのか?」

・懸念: 圧倒的に少ない母集団 (4〜5桁以上異なる)
・ファシリテータ不足、活性化スキル不足
・社内外のリソースを横断で関連付けるニーズが大
・キーワードレス(ゼロターム)検索など「ぞんざい」でリアルタイム性の高い要求
 例:「去年の暮れに隣の事業部の偉いサンが出してインパクトのあった10頁位のレポートを出しておいてね。」

 この論点については、次回詳しくご紹介予定の、3/16 セマンティックWebコンファレンス2009のパネルにて討議予定ですので、さらに考察が深まりそうです。パネリストとして、楽しみにしております。
 以下、13の セマンティック・サービスを1つ1つご紹介したいところではありますが、他の講演者の分については、もう少し自分自身で咀嚼し、新たな解釈を加えてから、と考えています。そこで、「12」がいつのまにか「13」に変わった、追加分だけ取り上げて書くとともに、自分自身の発表から図面を引用して解説、ご報告したいと思います。

 メタデータのグラフ表現上の探索エンジンiMageのアプリ「人材マッチングシステム」

 
 直前に追加された講演は、iMageとその応用の紹介でした。紹介者は日本ユニシス小林茂さんです。iMageは、NTT情報流通プラットフォーム研究所NTTソフトウェアの共同研究の成果物。information Mixable graph explorerの略で、「アイメージ」と読みます。ほぼ一定の構造、形式で書かれた研究プロジェクト提案書とその付属資料(参考論文集が多いようです)から研究者、論文、プロジェクト、技術名、コミュニティの関係図をグラフの形で抽出します。受け皿となるXML言語は、W3Cによる"本家" SemanticWebの規格RDF, RDF-Sなどです。下図にその例があります。
 
 http://www.ntt.co.jp/journal/0804/files/jn200804062.pdf を元に小林茂さんが作図。
  iMageは、このようなグラフ構造を作り、類似の構造、パタンをみつけるソフトウェアです。新たな知識・情報の抽出・発見を行う次世代Web流通エンジン、と位置づけられています。このiMageエンジンの1アプリケーションとして、人材マッチングシステムを開発し、評価実験した結果が、 NTT技術ジャーナル 2008.4  に報告されています。
  SemanticWebの規格で表現したグラフ構造、その上のラベルの類似性から,プロジェクトに必要な人材やそのavailabilityを、広範囲から探索したりできるアプリを実際に作ったところが素晴らしいと思います。グラフ構造のデータさえ整備できていれば、

「ある技術について詳しい人」
「ある技術についてSNSにおいて積極的に交流している人」

など、比較的 "柔らかい条件" で検索して、視覚的にわかりやすく 表示するのも容易と思われます。
iMageというエンジンの汎用性、スケーラビリティなど興味は尽きないです。今後の類似研究や、ビジネス化に大いに期待したいところです。
 

Mextractrの動作原理他

 今回、Mextractrは、OpenCalaisと対比して解説いたしました。Mextractrの場合、日本語のプレーンテキストを入力として、AtomにくるんだGDataの形で5W1H抽出結果を出力する、ということで、入出力仕様はわりと単純です。そこで、内部構成や動作、そして、中間段階で活用している自社製の意味分類体系コードをご紹介しました。

 
  さらに、5W1Hごとに色分け出力された結果をアルバイトさんが快適に編集できる5W1Hエディタを用いてDB上のXMLを編集し、そうして加工したデータを本番Webサーバにdeployして運用するイメージをご紹介。

  今月発表の最新アプリとして、皆様に使って頂ける、アクセラレータ版5W1H Mextractr (IE8とFireFox3で動きます)のデモをお見せしました。皆様、こちらからインストールして是非使ってみてください。なお、FireFox3の方は、これを先に入れておいてください。
 
  メイドめーるの画期的な点、すなわち、push型でスケジュールや付加情報(天気予報など)を教えてくれたり、何より、メイドさんに「お返事が書ける!」、「予定を読み取って自動でマイ・カレンダーに登録してくれる!」という点をアピールさせていただきました。
 
 

 

国内でも今後セマンティック技術活用へ

  結論はこれでございます。
 
以上です。
なお、総計122枚の入魂のスライドがございます。
是非見てみたい、という方には、何らかの方法で個別にお渡ししたいと存じますので、適宜コンタクトしてください。
 
 
 
 ------------

Good!獲得数: 43

アクセス: 2419

 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年02月09日

ソーシャルとセマンティックの関係について

先般ご案内していた2月4日のビジネスモデル学会第10回KM研究会は、おかげさまでほぼ満場のご参加をいただき、大変盛り上がりました。最も活発にご質疑・ご討論に参加された3名にOK Wave兼元社長からのご献本3冊を無事贈呈。大半の方にご記入いただいたアンケートにも、密度の高い基調講演他への感謝のお言葉、鋭いコメントがちりばめられていました。皆様どうもありがとうございました。
 
私自身はパネルの司会に先だって、ソーシャルとセマンティックの関係について講演してまいりました。

"Social with Semantic"

  題名が韻を踏んでいるのは、内容的にも面白い対称性、双対性があるからであります。「グランズウェル」によってソーシャル・テクノロジーによる顧客(Crowd)の変化と、CRM(顧客関係管理)の劇的変化の流れが昨年まとめられたので、今後はどうなるだろう、と考えたわけです。
 学会では事例を深く掘り下げて分析し、理論、基礎的な考察から未来予測をする、というスタンスが求められます。そこで温故知新。10数年前のナレッジマネジメント(KM)と現在のソーシャル技術インフラとは質的、量的にどう違うかなど議論しました。
 これらの議論については後日、当日の記録をKM研究会事務局サイトで公開するとして、ここでは自分自身の着眼点に触れます。次のスライドにあるように、当初のSemantic Web、AI研究では、「有用なWeb空間を建設するために人々(Social)がメタデータや、オントロジー(メタデータ間の関係、構造)を手分けして記述すべし」という関係にあった。だから、うまくいかず、 Semantic Webも長年日の目を見なかったのではないか、と指摘。

 図中でGDAというのは、元産総研・現サイバーアシスト研究所の橋田浩一さんの提唱したGlobal Data Annotationのタグセットのことです。品詞など、言語的な属性を記述する仕組みが豊富で、野村の研究開発にとっても身近で馴染みがあったためにたまたま例としてあげさせていただきました。他にも、NTT研究所の淵さんが、一般ユーザに楽しみながらメタデータを付与してもらうオンライン・アプリケーションを10年位前に提唱されたのが先駆的な動きでした。アカデミックな研究が象牙の塔を出て、実社会(といってもサイバースペースですが)との接点において知識インフラの成長をはかろうとしたのは、「2.0」の先駆けだったかもしれません。OK Waveよりも先行していましたが、一般ユーザが「品詞」などを楽しんで付与するとは考えられず、無理があったともいえるでしょう。
 ともあれ、ソーシャルの手を借りて、「あればめちゃくちゃ役に立つ」メタデータやその構造(オントロジー)を拡充しようとしたわけです。メタデータをコーディングする人を外注で雇い、巨額の研究費を使って少量のデータを作ろうとしていた90年代初頭までの国家プロジェクト的やり方ではうまくいかなかったし、もうお金もない、という事情が手伝っていたといえるでしょう。多数の一般ユーザの手をボランティア的に借りてセマンティック・Web的な仕組みをを建設しよう、という流れは前世紀末頃から目立ってきたわけであります。
 その後、 Web 2.0で、データがとことん重要であり、ユーザ参加、そして、分類カテゴリ自体も、フォークソノミーという形で、緩く民主的に、ボトムアップに決めていく、という流れが、主流にまでなりました。大手WebサイトのCGM (Consumer Generated Media)、UGC (User Generated Contents) をテコにビジネスを拡大し、先行者利益を確かなものにする、という激しい競争原理の中で淘汰され、生き残ったやり方だ、ということもできます。
 そんな中から、斬新で有用なアプリケーション機能も少しずつ現れ、SNSの様々なバリエーションによって、UGCの蓄積が進みました。四季折々の金閣寺の写真の中からぴったりのものを1枚選んで引用したければ、英語サイトのFlickrに行った方が便利で早いという時代がありました。しかし、Kinkaku-ji templeの写真が数万枚になってくると、 こんどは選ぶのが大変になります。それを解決するのに、意味的な属性(何月何日の何時頃、どんな天候の下でどの角度から、どう撮ったか)や、写真自体の解析結果、そして、主観的な評など、様々なメタデータが付いていることが決定的に重要です。このことを明らかにしてくれたのが、Web 2.0の大きな功績でした。情報量の爆発の結果、そうなるのは見えていた、という主張もありましょうが、後出しじゃんけんの主張よりは、実社会で実証されたことの意義を高く評価することができます。

 昔軍事用のプロトタイプ製品が最高の機能・性能・品質を達成して(MIL規格)、それを民生用におろしていた時代は終わり、今は正反対に、民生用、それも無料サービスの中で実験的な先端サービスが提供された後で企業向けに徐々に取り入れられるようになりました。「これを”IT Consumerization” と呼ぶ」と、リアルコムの吉田健一取締役が2年ほど前に日本語でわかりやすく解説してくれています。
 では、企業内や、地域コミュニティの内側で、インターネット全体で成立したようなソーシャルによる知識集積、コンテンツの集積や構造化が進展するものでしょうか? まず、参加者の絶対数が4、5桁少ないというハンディはいかんともし難いものがあります。あるテーマを細分化した興味ごとに、優秀な知見が違いに刺激し合って蓄積、成長していくほど、多数の専門家が控えている、という贅沢な前提は無理です。企業やコミュニティがある特定の専門テーマに特化している、とはいっても、その業界全体の知識や知恵をカバーしきれるものではありません。研究開発にしてもマーケティングにしても、それより2桁、3桁多い専門家が外部に記述した知識を活用するのが必須となるでしょう。
 しかも、そのような知識、情報を手動でタイムリーに、必要となったコンテクストの中で「使える」形で取りこむのは至難です。常勝を誇るにはスーパーマンのような情報処理能力と、膨大な時間が必要。本業の合間にそうそう時間を捻出できるものではありません。 となると、人間に変わって、コンピュータ・エージェント、ソフトウェアの仕組みに代行させるしかないのではないでしょうか? メタデータの自動付与、メタデータ間の関連付け、メタデータを活用した高精度の検索と、それを支える、メタデータやオントロジーの共通化、標準規格が求められます。そうなってはじめて、バックに控える膨大な母集団情報からノイズレス、ピンポイントで必要な知識や情報だけをとってこれるようになる可能性があるのではないでしょうか。さらに、エージェントが新しい有用な情報や構造の候補を提示して、知識拡充自体も強力に補助することで、コミュニティ(あるいは個人)を中心とした知識拡充のサイクルが回っていく、という考えです。

"Crowd with Cloud"


  低コスト、特に初期費用が格安で済み、その後も「使っただけ」料金を払えば良い仕組みとして、Cloud computingが注目をあびています。サーバやデータの保守の煩雑さから解放されたい、というニーズも大きく、不況の今こそSaaS、Cloudへの流れが一挙に加速する可能性は大いにあります。
 これらは一般によく言われていることなので、KM研究会としては、ナレッジ創成、ナレッジ活用の仕組みとして今世紀になって注目されているCrowd Sourcingと結びつけて考えてみました。上図が現状を表し、下の方の図は、5〜10年後の姿を予測したものです。
 上図では、ネット上の様々なマッシュアップの仕組みを利用して、自分にとって簡単便利なインタフェースを介して、背後の膨大な情報、知識を活用する姿を描いています。自分にとって簡単便利なインタフェースの究極の1つが昔のアッシー君、メッシー君に変わる、「ググ夫くん」「ぐる夫くん」。情報やレストランを検索するようなノイズにまみれた汚れ仕事はそれが好きで得意そうなボーイフレンドに任せてしまい、自分はケータイのメールを彼(ら)に送って待つだけという最近の若い女性のライフスタイル(?)です)。
 本人が自らやるにせよ、代行してもらうにせよ、質の高い、有用な知識、情報をピンポイントで手に入れるにはコツが要ります。IE8アクセラレータのような「加速」の仕組みが求められるのは当然として、 その上の実際のサービス・メニュー、具体的な個々のコンテンツ・サービス、その仕組みを予め選定して、自分にとって便利な七つ道具のように整備、常備し、いつでも一瞬で取り出せるようにしておく必要があるのではないでしょうか。このように「なんとか用」「さらにこんな目的、状況で絞り込む場合」などの、道具の使いこなしノウハウみたいなものをオンライン・ツールの中に履歴、設定パラメータ(コントロールパネル)、メタデータ、オントロジー、のような形で保存しておく必要があるでしょう。

 こうして、手元の道具が洗練され、発達していくと、それをCloudに投げて共有し、お互いに便利になろう、という側面からも、 Cloud Computingが進展していきそうな予感がしています。さすれば、さまざまな基本的な道具自体もCloudからその都度引っ張ってきて(Excelの計算式が瞬時に世界中からピンポイントで現れてくれるイメージでしょうか)、どうしても新作が必要なもの、ローカルでしか通用しないものだけ、コミュニティや個人の手元の手製の道具箱を使う、ということになるでしょう。CommunityはCommunity Cloudを使い、個人はPersonal Cloudを使う。個人は、なんらかのコミュニティに属して、主体的にCrowd の知識拡充に関わったり、お隣のコミュニティに助けてもらって知識、情報を借用したりする。借用するのは、知識、情報そのものであったり、それをその場で作り上げるためのデータ構造化のノウハウ、すなわち、メタデータやオントロジーのローカル規格だけかもしれません。
 2月4日のKM研究会では、以上を15分程度で駆け足で喋りました。事後もメールでご質問、コメントいただき、大変感謝しております。そんな中から、かつて大変お世話になった、リコーの金崎技師長とのやりとりを引用し、本稿を締めくくりたいと思います:


・・・ご指摘のポイントは考えたことがなかったので有り難かったです。
kanasaki> SemanticがSocialに奉仕するというとき、Semanticは
kanasaki> さまざまなものに奉仕できてその一つがたまたまSocialなのか、
kanasaki> あるいはより本質的なつながりがあるのか・・・

 ソーシャルは、ネット全体に比べると非常に小さなコミュニティ規模("社内"は全てそうですね。社内の同好の集まりとなると社員数の数10分の1、数100分の1以下でしょう)では、どうしてもセマンティック技術を必要としていると思います。その逆ですが、、まず、コミュニティから編集、エッセンスを抽出した結果をグローバルなSemantic Webにある程度の知識フレームをもっていくべき(個人もコミュニティ「世界」に貢献したいはずだから)。
 こう考えると、普遍性のあるセマンティックのかなりの部分は、ソーシャルか産み出され、あるいは少なくとも検証されていく(そういえばオバマ政権で特許の審査に"市民レビュー"というWeb2.0的ソーシャルの仕組みを導入すると宣言されましたね!)、という意味で、セマンティックの発展も、ソーシャルに負うところが大きい、といいかとおもいます。

 
ps. 変わり種のIE8アクセラレータ "5W1H Mextractr" をリリースしました!
 プレスリリースでは、「主要21社」の1つに入れていただきました。"メタデータ" "IE8" で検索してみてください。
 マイクロソフトさんの下記公式サイト、または Mextractrサイトからインストールできます。便利な使い方など、時々ご紹介してまいりたいと思います。誘導先サービスや新機能のリクエストなど、いつでもコメントください。
http://ieaddons.com/jp/Details.aspx?Id=1912
おかげさまで好評で、ダウンロード数、評価数ともに好調です。
http://www.mextractr.net/  (FF3で使いたい方はこちらからどうぞ)
 
pps. 2/4 の開催にあたっては、日本印刷出版技術協会JAGATさんに会場を提供していただき、大変お世話になりました。この場を借りて、御礼申し上げます。
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年01月26日

旅行関連の2サービスを2008年の10大セマンティック・ウェブ・サービスから

まずは業務連絡風に。前回の記事の後半にビジネスモデル学会第10回KM研究会(2/4於池袋)のご案内をしました。1つ嬉しいニュースです。基調講演の1人、山崎秀夫さん(普段は取材して本書く人)を取材して書いた「みんなの知識がビジネスになる」の著者の1人、OK Wave兼元社長のご好意で、この本を3部、献本いただけることになりました。当日、最も活発に議論に加わられた参加者で、まだこの書籍をお持ちでない人に差し上げたいと思います。奮ってご参加ください。
さて、先週23日に、西新橋のナレッジワークスさん にて月例のXML Consortium Web2.0部会を開催。
14名のメンバーが集まって、エンタープライズ2.0、中でもソーシャル、セマンティックの技術やビジネスについて広く深く論じることが出来ました。ナレッジワークスさんとIBMさんがエンタープライズ・サーチを活用し人)たソリューション提供に尽力されていることから、下記のような資料が「セマンティック」関連として紹介されました:
・IBMのEnterprise2.0, セマンティック的サービス事例:
「エンタープライズサーチ」〜OmniFind Enterprise Edition 
http://download.boulder.ibm.com/ibmdl/pub/software/dw/jp/events/tn22-kawase.pdf
「エンタープライズ・マッシュアップ」
http://download.boulder.ibm.com/ibmdl/pub/software/dw/jp/events/tn23-moritani.pdf
「企業内に浸透しはじめたSNS、Enterprise2.0はこうなる」
http://www.xmlconsortium.org/seminar08/080624/data/080624-03.pdf
(3番目はXMLコンソーシアム会員専用)
 
セマンティック技術については、理事企業のNTTソフトさんの関わった取り組みも大変興味深かったです:
・次世代Web情報流通エンジンを用いた人材マッチングシステムiMAGE http://www.ntt.co.jp/journal/0804/files/jn200804062.pdf
私の方からは、多彩なセマンティック技術とその基盤、共通規格を開発し、広く公開しようとしている情報大航海プロジェクトにおける個々の取り組みを紹介しました:

http://www.igvpj.jp/index/pdf/08project_pamphlet_J.pdf

 
TripIt! は5W1Hを元に旅程を最適化、提案してくれるサービス
  TripItは一言で言えばユーザの旅行計画を管理するアプリケーション。便利さの肝は、英語圏の主な旅行素材の予約確認メール(航空券、レンタカー、宿、鉄道、など部分的にでも) plans@tripit.comに着信を転送するだけで、「良きにはからった」旅行プランを作り、管理してくれるところにあります。
 tripit1メール転送 →  tripit itenary旅程をまとめる tripit3
  米国内で何か実際に手配して購入しないと本当の感触はつかめないかな、と思いつつ、当面出張の予定もないので、それはしばらく延期させていただくとして、感想を少し書きます。
 「難しいところを回避して人海戦術でできるタスクに限定して、アプリ全体の完成をうまいこと前倒しにできたようだな」という感想であります。 つまり、数百種の一定の書式の予約確認メールのテンプレートを全部用意することで、そこから、5W1Hのパラメータを正確に(おそらく98%はいくでしょう)抽出。そこから計算し、割り出せる、旅程全体の最適化や制約条件の自動適用、管理あたりで頑張ったようだ、というものです。
 ハンズオンで支援している非常に賢く、経験のあるVCさんが命がけで新しいアイディアを出すのに付き合ったようだな、という憶測も妥当に思えます。 
  弊社メタデータ株式会社の5W1H抽出エンジンMextractr の応用としても中盤工程以降は全く同じことを考えていました。先を越されて残念、というよりは、
・新市場開拓を先行して頑張ってくれてありがとう!
・中流・下流工程の要求精度(旅程の最適化や変更の精度)を、市場での実験でぜひ確かめて欲しい。
・特定のEmailレイアウトに限定したことがビジネスのネックにならないか、確かめて欲しい。
 
  その上で、汎用の5W1H抽出エンジンとUIでどこまで上流を代替できるか、別の入り口、アイディアを出しつつ、旅程作り・修正(とても大変!)の自動化率向上に貢献してまいる次第です。 
 
UpTake はWhat,Whereを入力すると訪問先を提案してくれるサービス
 updat   
 
 上図のように、入り口は、旅行全体のWhatとWhere、すなわち、旅行のテーマ、目的と、おおまかな場所(米国内ですが)を指定するフォームとなっています。旅程の中の個々のパーツ(飛行機とか)は、細かい位置の指定をFrom, Toで書いたり、移動時間とかの制約を入れたりする必要がありますが、ここでは、まずはざっくりとしたターゲットの場所を指定させるというコンセプトのようです。
 ここでWhatとされているのは、Whyすなわち、旅行目的、旅行コンセプトに近いと思います。個々の旅程のitemごとのwhatならば、 「***博物館見学」とかの, ToDo itemになることでしょう。
 
uptake2
  1つ残念なのは、上図のように、 golf watching と入れたら、腕時計ショップの案内が上位にならんだこと。ゴルフ場の案内もありましたが、ツアー観戦という理解など、単語間の意味の関連性はまったくとらえてくれなかったようです。現在進行形のingを切り落とすなど、英語形態素解析はかけていますが、格構造のような意味構造は拾えていない、、いや、単純に、単語表記を正規化してAND条件をとることもしていない、と想像されます。
  よくある素材検索の集約(マッシュアップ)サービスに、5W1Hの一部の構造を導入して利便性を高めようとした、という感じでしょうか。
 機械が自動処理すべきはずの事実情報。5W1Hに凝縮された事実情報を活用して、マッシュアップやリンク自動生成による付加価値増大に正面から取り組んでいるサービスはとても大切。今後も鋭意ご紹介してまいりたいと思います。
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年01月19日

2008年の10大セマンティック・ウェブ・サービス紹介サイトなど

 

 先日、1/9に品川の日立システムアンドサービスさんで開催された XMLコンソーシアム Dayで、Web 2.0部会のメンバーが、セマンティックサービスについて話してくれました。技術や規格、そして「ソーシャル」との接点の1つとして期待されるOpenSocial APIを紹介してくれたのは東芝ソリューションの西一嘉さんと、日本ユニシス小林茂さん。セマンティック的なサービスの事例については、日立システムアンドサービスの湯本正典さんが日本のkizasi(流行る兆しの言葉をジャンル別に自動集計し紹介)と、海外のTwine(知識編集)を。IT Frontierの加藤晶子さんがレストラン検索のBooRahを。そして、ナレッジワークスの亀山悦治さんがSemanticの技術をブロガー向けに提供するZemantaを紹介してくれました。
 個々の内容は、XMLコンソーシアム・サイトの掲載資料に委ねます。ここでは、これらのサービスを選ぶ1つのきっかけとして小林さん、西さんが紹介してくだったTop 10 Semantic Web Products of 2008の概要と、その中から旅行サービのユニークな側面を紹介したいと思います。

セマンティック, Sematic, semantic ..

  XMLコンソーシアム Dayは、対外的な講演で、XMLやWebの技術に通じているわけではない聴衆の方に、新サービスやテクノロジーの本質を伝える、という使命があります。そこでWeb 2.0部会の最初のところで、湯本さんが次のようにすっきり整理して説明してくれました:

Semantic Web:W3Cで定義されたもの (Tim B. Leeの提唱)
semantic web:広くメタデータ等を利用したもの
semantic technology:情報の意味や関連性等を理解しそれに基づいて処理を行うもの
semantic service:semantic technologyを利用したサービス

 最初の2つですが、RDFというオンライン・リソースの関連付けを規定したXML記法をベースとしたW3Cの規格は「大文字セマンティック・ウェブ (Upper case "Semantic Web")」と呼ばれたりします。そして、microformatsやローカルな取り決めを含めて何らかの共通メタデータを活用した仕組みを「小文字セマンティック・ウェブ (Lower case "semantic web")」と呼ばれたりします。前者は唯一の規格だから固有名詞、後者は、今後もより優れたデファクト標準が出てくるかも、今でもいろいろあるし、というニュアンスで普通名詞だからです。
 米国西海岸主導のWeb 2.0派は(東西海岸の対比の記事はこちら)、どちらかというと後者のmicroformatsを支持する局面が多いとか、より大規模で統一的な世界知識ベースを指向する人は前者の"Semantic Web"を指向する人が多いようです。また、microformatsは、HTML言語にSemanticなタグを埋め込んだという意味でクライアント側から、ボトムアップに少しずつ便利にしよう、というアプローチであり、 "Semantic Web"はサーバー側で正確な意味の摺り合わせができるようにきっちり決めて統一していこう、というアプローチといえるでしょう。このあたり、技術が語られる文脈によって、適切な解釈、ニュアンスを使い分けていただけると良いかと思います。

2008年の10大セマンティック・ウェブ・サービス紹介サイトから5本

  readwriteweb.com という先進的なWebの技術やサービスの最新状況を紹介するサイトに、Top 10 Semantic Web Products of 2008があります。実は、もう10本のサービスが同サイトで紹介されていますが、こちらは適宜またの機会に触れるとして、Top 10を駆け足で眺めてみましょう。

1. Yahoo Search Monkey: 

 検索のためのオープンな開発者向けプラットフォームです。 自社のみが開発し、サービス・インするのであれば、別にその内部の情報構造を開示する必要はありません。しかし、多くの外部の協力を得て、セマンティックな構造化を行い、共通的に洗練させていこうというのであれば、自社固有のメタデータ構造を開示するか、Semantic Webなど公開の共通規格をもちいて従来の様々な意味構造(ソーシャルグラフとか)を書き換えて、データの可搬性も高めていかねばなりません。こうして協力を募ったデータの所有権を認め、それを用いたアプリの開発を外部に奨励することで、オープンなセマンティック・インデックスの開発に着手した、ということで、極めて高く評価されています。共通メタデータ、インタフェースには、RDF (Semantic Webの基盤層) だけでなく、microformatsや、Atom, RSS, そしてOpenSearchなどのAPIやページ抽出のインタフェースを柔軟に採用しているようです。

2.  Powerset :

 前回のブログでご紹介しました。 Top 10 Semantic Web Products of 2008のさらに先のリンクを参照いただければ見て取れるように、あたかも文章を理解しているがのごとくに振る舞う、ピンポイントに絞り込む能力の高い検索エンジン用の自然言語処理技術です。MSNがこれを用いてどう精度向上してくれるかが注目されています。検索エンジンの仕事は、他に「検索可能なカバレージの拡大」、「高速化」、そして、もっと基礎的な部分でのランキング結果の改善もあるので、現状のUIでは結果が見えにくいかもしれません。とはいえ、意味選択能力を備え、人手によらずに自動でセマンティックな領域で問題解決をしてくれるエンジンということで、依然高い注目を集めています。

 3. Open Calais :

 これは、ある自然言語処理ベンチャーをロイターが買収したメタデータ自動抽出エンジン、サービスです。実は、カバレージや解析の深さは違うものの、私の会社、メタデータ株式会社のMextractr 5W1H抽出エンジンとかなり似たことを英語(近く仏語も出るらしい)でやってくれるサービスです。意味属性の識別を、モノ名詞や数量表現を中心に5W1H階層化して詳細に(300数10種類)解析可能なMextractrに対し、イベント(出来事)の分類がやや細かく、他は大雑把であること、正規化や数値化して、他の表現メディア(地図、カレンダー他) とすぐにマッシュアップできるようにする、などの機能は無いようです。しかし、最新のVersion 4 では、Wikipedia, GeoNames、Internet Movie Database (IMDB), Shopping.com 等の巨大Webデータベースとリンクしたり、他の人々とメタデータを共有する仕組みを充実させ、商用サービス指向を強めています。

4. Dapper MashupAds : 

   Dapperは、一時期多くが名乗りをあげたマッシュアップ作成サービスでしたが、その発展のためのビジネスモデルを考えた結果、 広告を適切に「マッシュアップ」する仕組みで差別化をはかろうとしているようです。確かに、現状のAdSenseなど、ブログなどの広告スペースに自動供給される広告は、「なぜこんな広告がこんな無関係な文章の下に出るのだ?」と首をかしげることが多いです。そこへ、「このスペースにはこんな意味内容の広告をはめ込んでね」と宣言できるような仕組みがあって、コンテンツ作成者、Web制作者・運営者側が少し歩み寄れば、大きく改善するのでは、とDapperの開発者達は考えたように思えます。

 5. hakia :

 Powersetと同様、自然言語の意味解析により精度を向上させようとしている検索エンジンです。検索対象よりも質問文を解析することを重視しているとのこと。 OntoSemという独自技術や、Semantic API の提供、Yahoo! BOSSの初めて利用して広大なYahooのインデックスと連携した、などが特徴。

 次回は、5W1Hメタデータが縦横無尽に活躍し、自動的に旅程を最適化してくれるような、具体的なサービスから紹介してまいります。
どうかお楽しみに!
 
 
最後に、この場を借りて、セマンティックに関係ある直近の学会研究会のご紹介です。
どなたでも無料でご参加いただけますので、奮ってご参加ください。まだ空席ありますが、お早めのお申し込みをお奨めいたします。

【ご招待】2/4 第10回KM研究会 「ソーシャル vs セマンティック」 KMを加速するのはどちらか?

ご参考:
ビジネスモデル学会KM研究会公式ページ

Mixi BM学会第10回KM研」


posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年01月12日

英語で流行ったセマンティック・サービスが日本(語)でも流行るとは限らない

 初回の最後にセマンティック・ウェイブというタイトルにした理由を書きました。このタイトルは決してオリジナルではなく、そのものずばりの名前のサイトがあります:
http://www.semanticwave.com
また、Semantic Wave 2008というレポートが、project10xというところから出されています。若干の個人情報と引き換えにExecutive Summaryを下記サイトの下方からダウンロードすることができます。
http://project10x.com/

 この中で、「現在始まろうとしているWeb3.0は、意味表現のWebであり、散在する知識を結びつけるものだ」、としています。つながった知識をうまく働かせ、もっと自分の作業に関連ある有用かつ楽しい体験としてインターネットを使いこなせる仕組みがSemanticなWebである、と主張しています。
  Semantic Technologyがいずれ5兆円市場となる、という報告は実は3年前に出ています:
http://findarticles.com/p/articles/mi_m0EIN/is_2006_Jan_11/ai_n26723778 決して煽るわけではありませんが、かといって筆者の独りよがりでもない点お含みいただきたく、紹介させていただきました。

日本語での紹介

 日本向けに、「Webを変える10の破壊的テクノロジー」の最終章に「セマンティック技術」をあげたのは、JETROの渡辺弘美さんです:
http://www.csaj.jp/government/other/2007/070626-1_jetro-ny.pdf  また、週刊アスキーに長年「仮想報道」を連載されている歌田明弘さんが、ドイツをはじめ欧州でセマンティック技術の研究開発が盛んなことを書いておられます。

なぜかグーグルが興味を示さないセマンティック検索
国をあげてグーグルに対抗しようとしているヨーロッパ

 これらについて、記事が出た当時のコメントを付けた拙はてな日記も適宜ご参照ください。

単語の意味推定は日本語の検索でも十分有効?

 上記の引用でも紹介されている単語の意味推定を目玉としたPowersetのセマンティック検索ですが、買収したマイクロソフトが検証を重ねているという報道があります:
MS、Live SearchにPowersetの技術を取り入れ

 日本語対応も進めているようです。ここで「単語の意味の推定は日本語の情報検索でも十分有効か?」という問いをたててみました。  Web以前の引用だったので正確なリンクが無くて恐縮ですが、ある言語研究機関が、米国と日本の農村の家庭の主婦を対象に、朝起きてから夜寝るまでに用いた単語のすべてを記録し、異なり数を比較した調査がありました。
 結果は、英語は数千単語程度だったのに対し、日本語側は、1万前後の単語数となったとのこと。これを、日本人の方が知性が高いなどと誤読するのは早計も甚だしいわけです。  ほぼ同等のコミュニケーションの内容、質、量であったのに、異なり単語数に2倍以上の開きがあったことを素直に解釈すれば、1単語の意味の数に2倍以上の開きがあったから、ということができます。ここではその理由、原因まで深く追求することはしません。1つだけ想像すると、英語国民の方が新しい事物に出会ったとき、なるべく平易にネーミングする傾向があるのに対し、日本語では難しげに新規の名前を付けたりその概念専用にカタカナ語をあてがったりする傾向があるからかもしれません。
 ともあれ、この結果を受け入れるなら、日本語処理の場合、単語への分かち書きさえすませておけば、英語に比べて、検索キーワードが複数の意味をもつ頻度はかなり低いことになります。とすると、日本語のキーワード検索の体感精度向上のためには、何か別のことを優先的に(前倒しで)実施した方が有効となる可能性があります。別の施策を優先し、単語の意味の推定は後回しにした方が良いかもしれないのです。
 かように、セマンティックの時代には、テクノロジーやその活用について、言語依存性、文化依存性が深まっていくことが考えられます。海の向こうで流行っていることが必ず「次に来る」などと早計せず、自分の目で、本当に役立つ技術を峻別し、ライバルに先駆けて採用していくような思考法が求められるのではないでしょうか。


本記事は、2009/01/12のCnet記事の引っ越し掲載です:
http://japan.cnet.com/blog/nomura/2009/01/12/entry_27019365/
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年01月10日

2009年は"セマンティック・サービス"元年




2009年、"セマンティック"なサービスが頭角を現してくる、と確信し、本ブログを始めます。"セマンティック" って何?といえば、『意味処理』のことだよ、と簡潔に答えることはできます("意味"って何?という難問はスルーしちゃって ;-)。しかし、なぜ今"セマンティック"なアプローチが必要とされるようになったか、Web 3.0の本命とまでいえるのか、そもそも何が"セマンティック"なのか(普通の自動処理と何が違うか)、などの様々な疑問に答なければ、、ちゃんと理解したことになりませんよね?
実際に様々なサービスを試用しつつ、その本質を理解する必要がありそうです。そして、これらのサービスがさらにどのようなニーズを喚起していくかを体感することで、次世代のWeb体験を予測していけるようになる気がいたします。

 そのためには実際に様々なサービスを試用して、セマンティックの本質を理解する必要もありそうです。これらのサービスがさらに次のニーズを掘り起こすこともあるでしょう。このようにして、皆様が次世代のWeb体験を予測していくのを僅かばかりでもお手伝いしていけたら幸いです。

 

ごあいさつ

 あけましておめでとうございます。長年、自然言語処理、中でも意味、概念を扱う深い処理や、文脈解析の産業応用を手がけてきた野村直之と申します。公的な場での執筆は、2005年に "Web 2.0 for Enterprise" と言い出して、2006年3月から1年間、同名の連載コーナーを日経IT Proにもって以来となります。どうぞよろしくお願いいたします。

 機械翻訳、情報検索・要約の研究開発に取り組んできた手応えから、自然言語処理は、おそらく永遠に精度100%には到達しない、と悟りました。だから、機械とヒトが協力して少しずつ精度を上げ、意図通りの動きをさせる仕組みを作るための基本的な道具立てとして、XMLとSemantic Webに注目してまいりました。実はWeb 2.0も、データ中心主義、中でもUGC(User Generated Contents;和製英語でCGM)を梃子に成長したサービスの多くは、XMLと、Semantic Web的な仕組みの一部を活用していました。たとえRDFなどのSemantic Web自体の規格は使っていなくとも、何らかの意味をもった「タグ」によってコンテンツ間を関連付けているからです。そのパワーの片鱗は、YouTubeやFlickrの隆盛をみただけでも感じ取れるといって良いでしょう。

 

"ポストWeb 2.0" のニーズについて

 では、"2.0"の次は何か?といわれて "セマンティック(Semantic)" が注目されるのはなぜでしょうか。次のような背景、事情が考えられます。

(1)"タグ"の類の共通化が足りなくて不便である

(2)既存のナイーブなタグだけでは爆発した情報量に対応できない

(3)特に、従来のWeb全文検索では思うような整理された検索結果が出てこない

(4)ソーシャルフィルタリングでは分類・秩序立てが不十分だったり弊害が生じる

(5)Webアプリケーション群の上で何かの作業をやるのにコピペして検索したりなどの人手の雑作業が多すぎる(つい脱線してしまい知的作業が効率低下)


 (1)「"タグ"の類の共通化が足りない」ですが、例えば、SNSのプロフィール発信用の語彙(タグ)とXMLの構造について、OpenSocialを作って共通化がはかられています。汎用のメタデータ標準なら、以前からDublin Core(意味の標準), RDF(表現の標準)が提供されてきました。RDFは汎用的過ぎて使いにくかったり高速・リアルタイム処理向きではない面がありますが、徐々に普及してきているようです。

 (2)「ナイーブなタグだけでは爆発した情報量に対応不可」で思い出すのは、"Web 2.0"のFolksonomy(フォークソノミー)です。Folksonomyでは、分類名をユーザ、コミュニティ参加者が自由に付けることができるため、付け方が不統一で綴り誤りもあったり、その場のコンテクストを共有する者("スレ(thread)を読んだ者")の間でしか意味が通じ合わなかったりする弊害がありました。何より、似て非なるサービス、全然違うサービスと組み合わせて、コンテンツを連携させたいというときに無力だという問題もありました。要するに、ある程度以上はスケール・アップし難いわけです。また、タグ間の関係付けを機械が(Webが)理解していてくれれば、もっと気の利いたサービスができそうな気がします。

 (3)「従来のWeb全文検索の限界」について。ジャーナリストの佐々木俊尚さんや欧州の検索関係者、日本の情報大航海プロジェクトの関係者、エンタープライズ・サーチの唱道者らが、従来型Web検索の問題点を指摘し続けています。キーワード検索だけではノイズが多くて、情報量増大に追随できないというのです。Powersetのように、綴りが同じ単語でも意味の違いによって検索結果を分ける、という解決の試みがあります。また、Cuilのように、検索結果をジャンルごとに秩序立てて分類、表示するという、別の側面からの解決の試みがあります。他にも沢山のことがなされるべきであるように筆者には見えます。

(4)「ソーシャルフィルタリングの限界」ですが、そもそも、多数派に支持されたコンテンツがひたすら目立つようになることへの危惧があります。ガリレオ・ガリレイの「それでも地球は回る」(ローマ法王庁は1992年になって地動説を公式に認めました。それくらい往時の多数派の圧力は強い!)ではないですが、少数派の意見や、注目されない事実が、しかるべきタイミングで必要な人の眼前に【必ず】現れてくれるようにしたければ、ソーシャルフィルタリングとは違った仕組みが必要になりそうです。

(5)はWebアプリケーション上の能動的な作業、創造的な知的発信のための環境や道具立てについてです。こうしてブログの原稿を書いていても、しょっちゅうコピペをし、何かを調べたりシミュレーションするためのサービスを探し、選び、その結果に基づいてさらに引用したりしなかったり、という作業を行っています。相当な集中力がないと、「あれ、今の作業はそもそも何の論拠を探していて、何をどうわかりたいためにやってたんだっけ?」と本題から脱線しがちです。何故でしょうか? どうもまだまだ雑作業が多いせいではないでしょうか? Web上のコンテンツどうし、機能(サービス)どうしでうまく連携してくれれば、もっと本題を考えるのに集中できるような気がしはしないでしょうか?

 (6)以下に、「安心して情報共有する仕組みが無い」とか、「文章と動画(絵コンテ)など表現メディアを自動的に関連付けたり相互変換してくれる仕組みが無い」とか、あげることもできるでしょう。これらを含め、個々の具体的なアプローチについては、おいおい時宜をとらえてご紹介したいと思います。

 ここでは、どうも、以上全てについて何か、「セマンティック」と総称できる新しいインフラ、技術、サービスが求められているらしい、とだけ指摘しておきたいと思います。

 

なぜセマンティック・"ウェイブ" としたか


 ここで、「なぜセマンティック・"ウェブ" じゃないの?」という質問に答えておくべきでしょう。セマンティック・ウェブの提唱者は、Webの父Tim Berners Lee卿です。彼には数回お会いして、気さくに話しかけられたこともあるし、お世話になったMITに本拠を置くW3Cには多大な敬意をはらっています(それでもWeb 2.0の"アンチW3C"的な性質が今日のWebの隆盛を支えた面は否定できないとこちらに書きました)。にも関わらず、いくつかの理由で(これについてもおいおい書きます)、彼のSemantic Webが全面的に次世代のWebを支配するとは思えないところがあります。

 Semantic Webを使いやすくすべく補強するだけではなく、単語の意味選択からエージェント的な仕組み、個人情報保護と情報共有を両立する仕組み、5W1Hによるコンテンツ間の半自動連携に至るまで、様々なセマンティックなサービスが次々と誕生して、ポストWeb 2.0のWebを便利にしていくのではないか。

 この動きは、単なる技術だけではないし、新たなニーズが次々とさらに贅沢なニーズを喚起する側面もあります。また、昨今、アテンション・エコノミーが意識され、人々の時間こそが至高の稀少資源(他のモノやサービスは潤沢に只同然に提供され得る)となっています。こんな時代に、Webの先端的な部分にあるセマンティックなサービスが個人の情報活動、ひいては購買活動、そして企業の業務に影響を与えないはずはありません。

 今後、さまざまなセマンティックな技術、Web上のセマンティックなサービスを取り上げ、膨大な情報と向き合う人間を支援する試みと、その市場を展望してまいりたい。そんな意味で、セマンティック・ウェイブというタイトルとした次第です。どうかお付き合いいただけたら幸いです。

   つづきはこちら 




本記事は、2009/01/09のCnet記事の引っ越し掲載です:
http://japan.cnet.com/blog/nomura/2009/01/09/entry_27019325/
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2024年12月08日

12のセマンティック・サービスを紹介

先月、2008年の10大セマンティック・ウェブ・サービス紹介ページについてのブログを書きました。さらに、2007年のtop 10を加え、本コーナーでまだ取り上げていない下記のサービスを取り上げた講演会を2/16東京・杉並で開催。次回のブログで、当日の様子を軽くご報告したいと思います。
「ビジネス活用がすすむ次世代ウェブサービス 〜Web2.0からEnterprise2.0へ 〜セマンティック・サービスの現状と未来」
 開催日程・開催時間:2009年02月16日(月) 14:00-17:00(受付開始:13:30より)
 日本ユニシス小林茂,日立システムアンドサービス湯本正典,ナレッジワークス亀山悦治, メタデータ 野村直之 (以上、講演者)
 

「セマンティック・サービス」 講演の目次

 「エンタープライズ・サーチの次のハイライトはセマンティック技術の取り込みである」、と野村総研さんがぶちあげてくれたのを引用(インプレス・ビジネス刊「IT Leaders」2009年2月号)。セマンティックがいよいよ「3.0の本命になる」ことを、本講演の事例を通じて皆様に体感していただけるかと存じます。
 
 
目次全体はこうなっています:


1.本講演の狙い、背景
    Enterprise2.0 ,特にソーシャル関連市場予測
    なぜ今“セマンティック”が必要か?

2.セマンティック・サービスの事例
   - Twine, Inform, Evri
   - hakia , Powerset, Zemanta
   - Faviki,Juice
   - TripIt!  UpTake

3.  セマンティック技術の実際
 〜5W1H Mextractr とOpenCalais 
    マッシュアップによる応用
    印刷・出版オンライン化で付加価値化を達成するヒント

 

企業内で「なぜ今“セマンティック”が必要か?」

言い換えると、 「ネット全体で成功した “ソーシャル” は企業でも本当にうまくいくのか?」

 ・懸念: 圧倒的に少ない母集団 (参加者数が4〜5桁以上異なる)
・ファシリテータ不足、活性化スキル不足
・社内外のリソースを横断で関連付けるニーズが大
・キーワードレス(ゼロターム)検索など「ぞんざい」でリアルタイム性の高い要求
 例:「去年の暮れに隣の事業部の偉いサンが出してインパクトのあった10頁位のレポートを出しておいてね。」

   エンタープライズでは、ネット全体に比べると、圧倒的に人手不足なのでそれを代行する、エージェント的な機能が必要。このようなシンプルな論理で、セマンティックの必要性を概括します。今回ご紹介する事例がどこまで気の利いたものになっているかは評価中。一般(BtoC)向け公開サービスが先行して厳しい試練に耐え、強力に実用になる形で数年以内に企業に入ってくるのは間違いないと思います。
 ※だって上記のように、ニーズは外部Webよりはるかに強いのですから!!
 

ご紹介するセマンティック・サービスの概要

Twineは、外部からクリッピングした知識的なものに半自動でメタデータ、その間の関係(オントロジー)を付与します。精度、不足を補うソーシャルの仕組みも備えています。

 Informは、オンライン出版社のコンテンツを分析し、出版社の独自のコンテンツアーカイブ、また関連したサイト、ウェブ上の大量のコンテンツへのリンクを作成するサービス。

Evriは、Web上に掲載されている、コンテンツ、ニュースなどに登場する、
人、場所、モノ などを関連付けて表示する検索エンジン。SPYSEEに似ているようです。「search less. understand more.」として、検索試行回数少なく、意味のある関連情報を次々に手繰れるよう、目指しています。

hakiaや、Powersetは、検索ワードの意味を解釈するセマンティック検索エンジン。
様々な工夫を凝らして、現在のWeb検索エンジンとはまるで違って、検索意図を反映した、ノイズの少ない結果を出してきます。

Zemantaは、ブロガー入力した文章を解析し、幾つかのサイトから関連情報(写真、文字情報)を自動抽出します。画面に表示された自動検索結果をブログに取入れるUIもシンプルで使い易いようです

favikiは、ブックマークレットによりタグを付けるタイプのソーシャルブックマーク(Webページにタグを付ける)。Folksonomyだと発散してしまいがちなのを、Wikipediaにある用語をタグにうまく統制してくれるようです。自動メタデータ付与ではないけれど、14の言語に対応し、例えば日本語と英語の結びつけが可能。タグの一意性(概念の同一性)を機械翻訳経由で英語版wikipediaで確保しているあたりが、世界知識ベースの基礎としての片鱗を見せてくれている感じです。

juiceはZemantaと似た自動検索系のサービス。Webページ上で選択した領域に関する関連情報をサイドバーに表示。画像,動画をサイドバーに貯め込むことができるという、ユニークなブックマークです。自然言語解析により,文脈に合わせた情報を提示する「知的発見エンジン」と称しているようです。

TripIT!とUpTakeの概要は、前のブログをご参照ください。

Mextractr(日本語)とOpenCalais(英語)はいずれも、普通の文章から5W1H的なキーワードを自動抽出するエンジンです。

以上について、API(あれば)がどうなっていて、どんな複合アプリが組めそうかの感触もお伝えします。また、一部についてはビジネスモデルや活用アイディアに踏み込んでお話、デモができると思います。さらに、MextractrとOpenCalaisについては仕組みや、意味分類体系などのリソースについてもご紹介。

 
今後、各サービスの最新状況を含めて、本欄からもお知らせしてまいりたいと思います。

posted by メタデータ at 13:08| Comment(0) | TrackBack(0) | semantic