2009年03月24日

5W1Hメタデータ自動抽出Mextractrアンケート 於慶應三田3/16セマンティックWebコンファレンス→3/24追記

 以前の記事でご案内した、慶應大学SFC研究所主催のセマンティックWebコンファレンスに主催側に名を連ねさせていただき、参加いたしました。大変熱心な聴衆にご参集いただきました。あえて、その気迫に負けないほどすばらしい基調講演以下が続いた、と書かせていただきます。
http://s-web.sfc.keio.ac.jp/conference2009/proceedings.html
↑ こちらの 予稿集ページ(まとめてDLするのに便利)で、講演内容についてご確認ください。
  パネルの2番手で、ポジション・ペーパーの発表よろしく、「なぜ向こう5年間でエンタープライズに必然的にセマンティック技術やインフラ、サービスが入っていくか?」について10分少々語らせていただきました。
 16:25−17:55 パネルディスカッション「エンタープライズ3.0に向けて」
モデレータ: 萩野 達也 (慶應義塾大学 環境情報学部)
パネリスト:

岡本 真 (ヤフー株式会社)
野村 直之 (メタデータ株式会社) [PDF]
佐藤 宏之 (日本電信電話株式会社) [PDF] 
津田 宏 (株式会社富士通研究所) [PDF]
渡邉 圭輔 (三菱電機株式会社)  
長野伸一 (株式会社東芝) [PDF]

 
 「グランズウェル」という、【顧客側の大変化】に対応して企業側が何らかのソーシャルの仕組みを入れる必要があり、それに呼応して、業務プロセス、特にCRM、サポートを中心とするナレッジマネジメントの仕組みが変化する。その際に、外部のネット(インターネット)の環境とまったく異なる次のような条件に阻まれる:
・人口が4,5桁少ない
・キーワード検索やPageRankが無力
・本業をサボってボランティアにうつつを抜かしてとの心理的圧力 などなど
これらを解決するのに、人々の代理としてのエージェントを駆動するエンジンとしてのセマンティック技術が必要であり、また、 5W1Hを中心とした文書メタデータと、オントロジー等を駆使したセマンティック検索が極めて重要になってくる。
以上、足掛け17年の大手製造業の業務経験や、サービス業のナレッジマネジメントでコンサルティングした経験に基づき、自分の存在、自分が設立した会社の存在を賭けて信じているビジョンを語ることができました。
 この後の討論も、聴衆からの鋭い質問で非常に盛り上がりました(→3/24※末尾に討論の骨子を追記しました)。パネリストもお互いに勉強になり、親交を深めることができました。主宰、司会の慶應義塾大学SFC研究所、特に、萩野先生に心より感謝申し上げます。
  メタデータ 株式会社としては、 5W1Hメタデータ自動抽出エンジン、そしてその具体的な製品であるMextractrについて、下記のアンケートを実施させていただきました。参加者の半数近い方に熱心にご記入いただき、大きな手ごたえを感じました。以下、統計処理した数字をグラフにしてご紹介いたします。
  ●1.Mextractrをご存じでしたか?

  セマンティックWebに強い関心をもった聴衆の方を母集団としているので、もっとYesが多くてもおかしくない、と考え、「もっと広く知っていただかなくては」と思いを新たにしました。
 

●2.メタデータ自動抽出機能はあなたにとってどのくらい重要でしょうか(5者択一)
a.不可欠  b.有用な選択肢  c.有用になる可能性あり  d.興味深い  e.不要


  8割方の回答者がその場で、5W1Hメタデータ自動抽出のデモをご覧になったばかりだったことも影響したとは思いますが、「不可欠」という回答が予想以上に多かったです。「興味深い」にチェックされた方で、その後、コンタクトを希望された人もおられるため、b., c., d.の違いはあまり大きなものではない、という解釈もあり得ます。
 

●3.2の質問で想定された応用用途はどんなものですか?
組み合わせるIT: グループウェア・カレンダー SNS  CMS  社内レガシー統合
        DB・文書管理  マッシュアップ開発ツール  新広告スペース

 
  これについては、Mextractrで想定したカテゴリ、ご紹介したマッシュアップアプリの中から、回答者の業務に近いものを選んでいただいた感じがします。
 

その用途    : 5W1H数値インデキシング(5W1Hサーチ支援)
          匿名化  日本語のWebAPI化(5W1H連携マッシュアップ支援)


  5W1Hの日本語の記述を、漢字表記を含めて数値として理解し、正規化、マッシュアップができること。それが、様々なエンタープライズ・アプリにおいて共通する、賢い検索機能(単なる文字列一致でない検索)にとって決定的に重要である、と皆様お考えのようです。
 

●4.3の用途で取り出したいor扱いたい情報の種類はどんなものですか?
イベント・スケジュール情報  個人情報  文書メタデータ
営業・サポート情報  社内知識共有向け情報  BtoCコンテンツ



   これについては、イベント・スケジュールや個人情報が多いと予想したのがはずれる結果になりました。代わって、文書メタデータが圧倒的に多く、それと少し重なりそうな、社内知識共有向け情報にも票が集まっています。後者は、外部のネット上の有用記事を想定された方もおられそうです。だとすると、膨大な外部記事には、Mextractrによって有用なメタデータを付与し、オントロジー等の助けも借りながらピンポイントの絞り込みを行って推薦して欲しい、という切実な要求が反映しているのかもしれmかせん。

 

●5.3の応用用途で重要になりそうな5W1Hはどれでしょうか。
いつ  どこで  誰が  何を  いくらで  その他※特定の形式で取り出したい要素や特定の分野があればお書きください。
 例:製品型番、閉店時刻、食材名、静電容量、etc.

 

 「その他」を、「5W1H全部」という意味でチェックされた方もおられましたが、その場合、全てに1票ずつ入れられたものとして集計しました。「いつ」「どこ」で過半数いくか、という予想と異なり、「誰」と「何」が過半数となりました。「誰」への支持は、KnowWHOやプロジェクトでの人材マッチングの重要性が相変わらず強いことを示唆してくれています。

 「何」については、特定業務でカギとなる、さまざまな名称、概念を想定されている可能性を感じました。予想よりも、カスタマイズへの要求が強い、と解釈すべきかもしれません。

 

●6.メタデータ活用で実現するソリューションで、興味のあるものはどれですか?
  ( ) 情報共有とプライバシー保護の両立  ( ) 情報連携、マッシュアップ
  ( ) レガシーデータの再利用  ( ) 個人情報保護
  ( ) 5W1H条件で検索するためのメタデータ・インデキシング

 やはり、情報連携、マッシュアップの可能性への支持が圧倒的でした。次いで、文字列に頼らない、数値による5W1H 検索への期待が高いのを改めて確認。「情報共有とプライバシー保護の両立」については、KPI, ROIが今一歩はっきりしないのがネックとなり、伸びきれなかったのかもしれません。

 
●7.Mextractrの活用を検討する場合に、気になるポイントはどこでしょうか。
 
  最後の設問では、精度、価格、カスタマイズ性を気にされる、ということで、今後の参考になります。具体的な事例を通して、これらについて、さらに目安、ガイドラインを詳細化してまいりたいと思います。オントロジーを知識リポジトリとして併用し、自動抽出したメタデータから有用なものに絞って他リソースと連携させるソリューションへのニーズが高いことも掴めましたので、以前の計画よりも前倒しで取り組んでまいりたいと思います。
 個別の案件について、魅力的で、コスト削減にもなる提案を第三者(代理店さんなど)が容易にできるように、さらに実践を重ねてまいります。
 今後ともどうぞよろしくお願いいたします。


--

※パネル討論の骨子(会場からのご質問の8割と野村による回答)
Q. Web検索で「問題解決」しようとして、間違った答を含むページに騙されないようにしたり、予測違いを修正したいときどうしたら良い?
A. 3点お答えします。まず、検索結果で十分なのかどうか、古くて使えない(outdated、obsolete)情報、データでないかどうか、5W1Hの時間軸WHENに沿って版管理のリンクを追うような仕組みでセマンティックWebや検索エンジンを進化させる必要があるでしょう。このニーズは切実なので確実に次の進化の1つに入ってくると思います(我々もがんばります)。
 次に、「これでは十分ではないこと」になるべく早くユーザが気づくようにしむける必要があります(検索屋さんの商売には支障ある機能かもしれませんが勇気をもって実行すべし)。そのために大事なのは「空欄」。表の中に空欄があれば、ヒトは気になります。空欄の存在を明らかにするには、回答の論理構造を「メタデータの枠」の形で表現するのがシンプルな解決法。つまり、データより先にメタデータを定義し、ユーザに見せることで「空欄」、情報が足りないことを一目瞭然にできるのです。メタデータの、隠れた重要な役割と言って良いでしょう。
 3番目に、別の知識源(広くオントロジーと言ってもいいでしょう)から得た計算式や表によるシミュレーションで、検索結果の予測を検証することが考えられます。セマンティックWebのTrust=信頼性確保の一方法です。
 
 Q. 動画のメタデータって大事ですが、自動で付けられませんか?
 A.  画像解析(色立体)でシーンの切れ目、あと、マルチメディア辞書でダイレクトにメタデータ抽出はできなくはない。15年前位から、MIT Media Lab.などで研究されていたが、実用化にはまだ工夫が必要でしょうか。
補足:個人情報保護のメタデータについて、テキスト由来のものと画像のメタデータと共通化すると実用化が進みそう。情報大航海プロジェクトでこの取り組みをやっています。
 
Q. Web 3.0アプリはどんなもの?
A.  ソーシャルに頼ってきた「2.0」と違って、「一人でも使える」、というところにポイントがあるかも。Salesforce.comや、優れたグループウェアは一人で使っても役立つはず(個人事業の営業履歴の管理、ToDoの整理/生成などで)。もちろん、チーム力を発揮できない分、セマンティック技術等を駆使した十全なマッシュアップ、コンテンツのサポートを巧みに取り入れたものがうまくいくでしょう。
 
 
 
 


Good!獲得数: 83

アクセス: 2614
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/37525753

この記事へのトラックバック