2009年06月29日
セマンティックな技術と従来法の境目
セマンティックな技術と従来法の境目
「辞書登録するだけですね?」
「いいえ、違います」
draft
2009年06月15日
KM, CRM, 在宅勤務にもセマンティック技術で対応を
「新型インフル発生で,改めてノートPCの持ち出し禁止を考える」[2009/05/14] の中に、次の記述があります:
テクノロジで解決できる領域がある
ただ,悲観的な状況ばかりではない。パンデミックを含めたリスクマネジメントやBCP対策を取り始めた企業においては,一律的な「ノートPCの持ち出し禁止」対策を改め,
2005年4月に個人情報保護法が施行されてから、組織内組織の責任回避による過剰反応、現実にはあり得ない「リスク・ゼロ」(→失敗学の解説書を参考)を目指して、ノートPCの社外持ち出しを一切禁止にした会社も多いようです。これで、BCMに対応して在宅勤務や、出先での業務が遂行できるのでしょうか?
私は、HDD250GBのノートPCを常時持ち歩いて、仕事のコンテクストに常にアクセスできるようにしています。アイディアが浮かんだとき、それが揮発しない数秒以内に、ネット上のしかるべき関連文書にアクセスできる環境がまだ実現していないからです。常時携帯する個人の「脳力」拡大ツールとして、HDD無しのthin client + 完全ネット常時接続に切り替えられるほどのネット環境はまだ手にできていないからです。
テクノロジで 個人情報を5000件未満にほぼ保証できれば
上に引用した「テクノロジで解決できる領域がある」という記事ですが、具体的にどんなテクノロジかは明記されていません。メタデータ社が提供する技術、サービスで1つ正面から問題解決できるものがあります。個人情報フィルタです。会社site (metadata.co.jp) のtopに現在、次のように、社内SNS製品に組み込んだ個人情報フィルタの入出力例を掲示しています:【部外秘を自動で伏せ字に】
この個人情報マスキング・エンジンは、オンライン、WebAPIでの活用がメインではあります。しかし既に、ネットワーク到達可能なファイルシステム上の、Word, Excelファイルも、オリジナルのバックアップを社内サーバにコピーすると同時に持ち出しPC中では伏せ字にしてしまうソリューションも開発中。完成に目処が立ちました。
これを用いれば、素のままで既に95%の精度なので(社員名簿や取引先人名録などがあればその部分は99%以上の精度に向上可能)、仮に10万件の個人情報が含まれていても、最悪でも5000件未満に確実に削減し、万一の漏洩時にもリスクを極小にすることができます。個人情報保護法の定める個人情報の集まり、という概念がおおむね5000件以上、ということで、実際のリスクはもちろん、規制や罰則が格段に厳しくなる範囲を下回り、計算可能、マネッジ可能、受け入れ可能なリスクに押さえ込むことができます。
そして何より、ビジネスのスピードを落とさないこと、加速していけることが重要。情報共有とセキュリティの両立、というKM(ナレッジマネジメント)の長年の課題をテクノロジによって解決が図れます。コストアップや創造性低下と表裏一体の運用管理の変更、人的体制の強化に頼るだけでは達成は覚束なかった。過去の経験が示しています。
実際、 人間に「墨入れ」作業をやってもらうと、仮に飽きずに続けられたとして、95%の精度はなかなか出ません。特に見落としが防げないし、なんといっても、左端文字から右端文字まで正確に範囲指定して置換する作業を、1ファイルあたり何十回も何百回もやり続ける、という苦痛に耐えられる人はあまりいません。膨大な時間もかかる。外注するなら納期による遅れが生じる。ともかく、人手では「はっ」と気がついてから1分以内に数万の個人情報をマスキングしてから即座に外出や帰宅をする、などの芸当は不可能と断言することができます。
ビジネスにおいて、情報共有とセキュリティの両立が求められる領域はまだまだ沢山ありそうです。KMの1部門であるCRM (Customer Relationship Management;顧客関係管理)においても、顧客の個人情報を扱いつつ、それを適切な範囲でタイムリーに社内情報共有しなければなりません。個人情報以外の部分を参照しなければ問題解決できない技術チームには、なるべく余計な個人情報を見せずに、リアルタイムに情報を流したいものです。文書内容を全部見せちゃうか、全然見せないかのAll or Nothingでは、業務フローは効率良くまわらないし、ましてや新知識創成の刺激を幅広い同僚に与えるナレッジマネジメント(KM)を実践しているとは到底いえません。
All or Nothingでは突破口が開けなかった業務シーンについて、高精度な個人情報フィルターなどのセマンティック・テクノロジーが貢献できる部分は非常に多いのではないか。最近、ビジネスを推進しながら、こんな手応え感じています。
CRMの分野で最先端を行く企業は、昨秋日本語訳の出た「グランズウェル」を参考に、顧客を巻き込んだソーシャルテクノロジーの活用を推進される例が増えています。一歩踏み込んだソーシャル・インフラ、例えば、マーケティングSNSを導入した場合、Webフォームからいきなりどんなことを書かれてしまうかも分かりません。監視対象が多すぎたり、検閲の基準が曖昧と指弾されて炎上するようなこともあり得るでしょう。
そこで、セマンティック・テクノロジーにより、第三者の個人情報の暴露(覆水盆に返らず)や、有害情報(アダルトやバイオレンスなど)、違法な情報(米国では核兵器の作り方など)を高精度で365日24時間自動監視。NG可能性大のものは公開を保留し、人手のチェックに委ねる。人間は、機械が何でひっかかったか根拠を一目瞭然に色付きで見ながら公開可否の最終判断をする、という解決手段が使えるようになります。人手を増やさなくともカバレージを拡大でき、機械ならではの客観性、公平性を担保することができるので、マーケティングSNSのみならず、BtoCの会員制Webサービス全般にも有効な手法だと思われます。
カテゴリー: 未分類
Good!獲得数: 31
アクセス: 1501
2009年06月04日
Whoに付随するWhenについて
「Whoに付随するWhenについて」って何だよ?といわれれば、一番わかりやすい具体例で回答します。生年月日(date of birth)、あるいは誕生日(birthday)です。個人名に従属する固有の属性であり、詐称しない限りは、一生変化しません。
1つのポイントは、5W1Hといっても、フラットに、独立に存在するだけでなく、階層化された属性構造、知識構造の中にあって、時々上下関係が入れ替わったりする、ということであります。2009年4月1日入社、というイベントWhatを上位に設定すれば、その出来事に関わる様々な属性の中で、入社式の場所Where、その開催費用How Muchとならんで、いやずっと重要なのが、新入社員の名前Whoの集合です。
人間には無数の属性があり、それこそ、くだらないものをあげれば、左小指の第一関節と第二関節の間に生えている一番長い毛の長さ、なんていう数値属性(メタデータ)もあります。これよりも、はるかにマシな生物・医学的属性、社会的属性、その他、WHOに従属するメタデータは多数あるわけですね。
「Whoに付随するWhenについて」 の話題に戻ります。
生年月日以外にどんなものあるでしょうか?
結婚記念日。1度セットされれば、変化はしません。でも人によっては複数加わることもあるし、古い方は実質消去されたも同然の扱いになることもあるでしょう。現在の配偶者の誕生日、という属性を定義すれば、変化します。
体重、、毎日変化します。40歳過ぎて身長が2cm伸びた人もいるので、これも変化します。スキル的な属性、住所Whereなんかも変化します。
ころころ変わる属性、とくに、個人、法人の基本属性を常に新鮮な状態に更新し、管理することでビジネス価値を生んでいるL社もあり、メタデータ管理は価値の源泉となり得ます。
今日6月4日は、亡父の命日です。
12年前、徳島に単身赴任中のこと。父は、21世紀の日本のエネルギー政策を考える官民合作のシンポジウムのホスト役として、最後のお客様を送り出した直後、クモ膜下出血で、倒れました。打ち所が悪く、2度と意識を取り戻すことがありませんでした。
死に目に会えませんでした。始発の飛行機でかけつけた6月4日の朝には冷たくなっていました。実は3日の深夜にこときれていたにも関わらず、次男の私がその日に対面できたことにするため、数分間の裁量という範囲で、死亡診断書を書いた医師が日付を書き換えてくれました。
父は私を、文字通り目の中に入れても痛くないくらい可愛がってくれ、35年間、周囲に自慢し続けました。おかげで反抗期もなく、シニアな人々、先輩たちは、デフォルト、信頼できる人なのだ、という確信をもって私は成長することができました。これだけでも限りなく父に感謝しています。
葬儀の2週間後に、当時団長として運営していたアマチュアオーケストラの演奏会がありました。メインのプログラムは、ベートーベンの交響曲第3番『英雄』。
第一ホルンを吹きながら、第二楽章『葬送行進曲』では涙が止まらなくなりました。私の英雄だった父の思い出を振り切り、狩の楽しさを思い切り表現する第三楽章以下、なんとか乗り切れたのは団員仲間のおかげです。トリオのHigh Eb を決めて!お父さんのために頑張って!というオーラが、事情を知る全団員から伝わってきたのです。
一切の事情を知ってか知らずか、徳島のJ社の社長は、仕事に戻った私を2階級特進させました。それに応えるべく毎日17時間働いて必死に頑張り、世界初の単体サマライザ(文章要約ソフトウェア)製品を出し、それをきっかけにマイクロソフトの成毛社長(当時)が「使いたい」と申し出てくれて歴史的な握手の後、株価が17連続Stop高。社長の含み資産を1000億円増やして、なんとかお気持ちに応えることができました。
恒久的に変わらない Whoに付随するWhenで、生年月日と対となるのは、亡くなった日、そして命日です。
Where2.0の隆盛を横目に、Whenはいまいち地味ですが、いやいや何のその、Timeline、年表は、大きな付加価値を生む、応用可能性に満ちあふれています。メイドめーるの秘書機能を強化し、「週末の空き時間に入れておいて」とか、「Aさんからメールの返事が来たら翌日までにこれをやる、って予定に入れておいて」とか、スケジューラにリマインドさせるように登録できたらどんなに便利でしょう。そして、文章を解析する際にも登場人物が存命中の出来事かが問題解決の有用な手がかりになることがあり得ます。
もっと短い時間幅では、プロジェクトの準備期間、実施期間、終結・レビュー期間中の出来事だったのかどうかと、誰かを次の仕事にアサインできるか、などの旬な、鮮度の高い属性を管理するのに、Whenの値は必要不可欠なものとなります。人間と結びついたWhenの最たるものはマイ・カレンダー。自分がいつどこにいて何をしているのか、それを機械が常にフォローし続けてくれれば、生活は一段と便利になると思われます。
私が時々披露する失敗談をここで書きます。
2007年2月、シリコンバレー出張中、オフの日に、500m隣の会場で第一回YouTube Dayが開かれていることを知らずに特ダネを逃して地団駄踏んだ。帰国後に、自分のメールボックスにMLでのイベント案内を見つけ、ショックに追い打ちかけられた。
ここで得られた教訓は、自分の身体は1つしかない、ということです。実に当たり前。でも、その事実をITに応用しきっている人がどれだけいるでしょうか?
当時5W1H抽出エンジンのMextractrがあれば、自分の予定を、シンプルなエージェント・プログラムに見てもらい、その時間帯に30分以内に移動できる場所で関心ありそうなイベントで絞り込めたはずなのです。(2,3のWebAPIをマッシュアップするだけで実現できます)
そんなこんなで、Whoに付随するWhenを管理すると、ビジネスチャンスを逃さず、大いに付加価値をもたらす、ということは、ほぼ自明かと思います。
普段から考えていたことはありますが、父の命日に改めてその重要性を確認できました。またしても父に感謝です。
※すみません、禁を破って、公的媒体に、思いっきり私的なことを書いてしまいました。こんなことも、経営や研究開発のエネルギーになっている、ということで、ご容赦いただけたら幸いです。
Good!獲得数: 20
アクセス: 1274
2009年05月20日
5/26-7:MextPNE(Mextクルー), セマンティック・カフェ+αに触れる2日間
SNSのデビューって難しいですね。
第一号会員を作り出す作業なんてプログラミングの続きみたいなものだし、その後もしばらく動作確認、改修作業が続きます。試運転にお付き合いいただく友人、知人を徐々にご招待していって、20名を超えたくらいから、ようやくコンテンツも新規入会者さんにとって最初から見えている感じになって、実体が出来てきます。そして、いつ「完成?」してお披露目となるのかも、なんとなくずるずるひっぱっていく感じで、判然としません。会員番号1500万を超えたミクシさんでさえ「β version」と未だに表示しておられます。
産声をあげたばかりのSNS『セマンティック・カフェ』のデビュー日を明確に決めるのは難しかったですが、とりあえず、ベースとなる製品の発表と同時といたしました。
命名 『セマンティック・カフェ』
5/20発表の社内SNS新製品"MextPNE"(現Mextクルー)を自ら用いてセットアップ、運用しているSNS『セマンティック・カフェ』デビューしました。
4月下旬以来の短期間でしたが、手嶋屋の手嶋守社長、マイロプス折坂さん、NTTデータ酒瀬川さん、日本ユニシス小林さん、凸版印刷松川さんはじめXMLコンソーシアムWeb2.0部会のメンバー、エンカフェの吉弘さん、キズナの田端厚賢さん他、ご協力いただいた沢山の方々、ご関心お寄せくださった皆様に感謝申し上げたいと思います。
5/26-7 東京ドームCityでハンズオン展示会
IPAX'2009に是非お越しください。MextPNE(現Mextクルー)のもととなった、手嶋屋さんのOpenPNEも展示されます。また、クラウド時代のセキュリティ、中小企業、地方企業のセキュリティ、IT教育、そして、ベンチャー先輩企業の講演など、盛りだくさんです。未踏スーパークリエーターの展示は個人名に「★」が付いています。5W1Hメタデータ抽出エンジンMextractr をコアにした各種製品、サービス、ソリューションにご興味の向きは、e-21 ブースを目指しておいでください。
当日 アンケートにお答えいただけば、5W1Hサイコロの特注品を1個贈呈いたします。
当日ベールをとる新サービスとして、Mextractr のアクセラレータをIE8, FF以外のブラウザで使えるサービス、iPhone(iPod touch)を使ったデモなんかもあります。
セマンティック・カフェ のコミュニティ立ち上がり状況
nomuranが登録しているコミュニティリスト全21から、引用します: 医療オントロジー (3) | Web API (4) | Metadata Inc. (4) |
ひみつのプロジェクト (3) | クラウド、IT新プラットフォーム (1) | MextPNEについて (4) |
賢いCMSについて考える (1) | Whereのコミュニティ (4) | How Muchの部屋 (3) |
ソーシャル・テクノロジー (1) | Mextractr, Open Calais.. : 5W1H extractors (1) | SemTech2009 (4) |
この他、学会系や、2社間で、PDF,ZIPを共有しつつマルチスレッドで議論するクローズドコミュも出来ていますし、グループを作って即、そのメンバー間でカレンダー共有、という運用も立ち上がっています。
MextPNEの2大独自機能の画面例
以下、画面だけです。説明は、こちらまで。興味もたれた方は、是非、 セマンティック・カフェ に入ってみてください。そして、【中から】いろいろな便利機能を使ってみてください。
宛先:(下記の全角「@」を半角’@’に変えて宛先としてください)
semantic-cafe@metadata.co.jp
件名:参加
本文:(空でも良いです)
カテゴリー: Mextractr, social, semantic
Good!獲得数: 35
アクセス: 2343
2009年05月15日
2009年05月10日
5/13 200頁の資料贈呈:セマンティックWebから○マンティックWebへ
創立10年目のXMLコンソーシアムでは、昨年度後半の活動成果を一斉ご披露する XML Consortium Weekが間もなく開催です。
http://www.xmlconsortium.org/seminar09/090512-13+19-20/090512-13+19-20-info.html
↑こちらでは、事前申し込みを奨励していますが、当日いきなりのお立ち寄り歓迎です。
会場内無線LANでPDF資料DL
講演や新作デモの資料ですが、今回から紙の配布を廃止しています。従来、電子版は、年会費10万円をお払いいただいた法人または個人事業主のみ、いつでもアクセスok(過去9年分の資料がDL可)という形でした。今回は、足をお運びいただいたお客様全員、無料で会場内専用無線LANにアクセスして資料をお持ち帰りいただくことになりました。PCをお持ちでないお客様は、USBメモリかCDR生disk(DVD不可)をお持ちください。5/13でしたら、Web 2.0部会メンバー何人かに頼んで、資料をcopy できるようにいたします。
5月13日(水) は、クラウド(Azure中心)、セマンティック、ソーシャル
会場:日立システムアンドサービス 品川本社
http://www.hitachi-system.co.jp/j_profile/map_honsya.html
最寄駅:JR品川駅港南口 徒歩0分 ; 入館方法:20F セミナー受付へ直接お越し下さい。
概要:
エンタープライズに、ソーシャルや軽量データ連係・クラウドなどの"2.0"的な仕組みがどのように入っていくか。また、その際の問題点を、セマンティック技術に象徴される"3.0"的な仕組みでどう解決するかについて講演とパネル討論を行います。
1. Enterprise2.0 アプリを支えるクラウド基盤としてのAzure(40分) 宮崎昭世(日立ソフトウェアエンジニアリング)
2. 企業で最近のセマンティックサービスをどう活用できるか?(100分) 〜10数本の公開セマンティックサービス事例とユーザ・ストーリ、セマンティックマッシュアップ、OpenSocial等5W1H活用事例のご紹介
野村直之(メタデータ) 湯本正典(日立システムアンドサービス) 亀山悦治(ナレッジワークス) 加藤晶子(アイ・ティ・フロンティア)
白井亨(アイ・ティ・フロンティア) 小林茂(日本ユニシス) 西一嘉(東芝ソリューション) 松川昌洋(凸版印刷)
3. パネル討論「社内ソーシャルの問題解決と活性化のヒント」(100分) 〜G-nexti, encafe動画, セマンティック・カフェ by MextPNE (Mextractr+OpenPNE)等の新しい試みとともに モデレータ: 酒瀬川泰孝(NTTデータ)、加藤晶子(アイ・ティ・フロンティア)
ゲスト: 吉弘 辰明様(エンカフェ)
野村直之(メタデータ) 松田圭子(メタデータ) 宮崎昭世(日立ソフトウェアエンジニアリング) 西一嘉(東芝ソリューション) 小林茂(日本ユニシス)
---------------------------------------
世間で「クラウド」は非常に盛り上がっていますが、、実は、 標準化団体でもあるXMLコンソーシアムでは、冷ややかな目で見る人が多かったりします。日経IT Proの谷島さんなども、「どこが新しいのだ!?(反語の勢い)」とほえてらっしゃったりしますが、、最近その理由がわかった気がしています。
ヒント:「グリッド」とクラウドをくらべてみましょう。
グリッドのほうがよほどフェアで、企業エゴによる囲い込み、プラットフォーム間の覇権争いとは無縁なものがあったように思います。最初から、乗り換え前提に規格を共通化しようとしてきたわけ。XMLもWeb Servicesもそうでした。Web 2.0は、、BtoCが先行して、C優先で健全な競争をしてきた側面が強いと思います。しかし、クラウドは??
まだまだ「こうだ」と断じるには時期尚早。
当日は、OpenSocialの使いこなし、運用、ビジネスモデルの面で、徹頭徹尾ユーザ利益にたった健全な競争ができるのか、といった議論に発展できるかと存じます。こちらをお読みの論客の皆様に、是非、議論に参加していただけたら、と願っています。
セマンティック・サービス10数本を一挙紹介
こちらのコーナーで以前紹介したサービスについて、画面を参照しながら解説。資料のページ数は132ページとなりました。この他に、ソーシャル、口コミ、オントロジーを活用した米国のレストラン案内BooRahについて、新たに提供されたAPIの概要を解説しつつ、豊かな生活、いや、人生(QoL) を追求する、「○マンティックWeb」を初提唱いたします。セマンティック・マッシュアップのデモ もお見逃しなく。セマンティック・サービスのAPIを駆使して、非常に面白いマッシュアップの試作結果を初披露いたします。
社内ソーシャルはグループ企業の巻き込み方まで発展
社内で、安心情報共有できるだけでなく、社員一人 一人 の思いまで他部署と共有するにはどうしたら良いか? その際のKPIは何か(本音版、建前版)?第三部の「ソーシャル」では、NTT Dataグループでサービスインしたばかりの企業グループSNSの事例紹介から、今後、セマンティック技術を駆使して部門セキュリティを保持できるようにした、全く新しいSNSベースの情報共有の仕組みまで、意欲的な試みをご紹介します。
エンカフェ社長の吉弘辰明様をゲストにお招きし、SNS間の緩やかな連携、協調の仕組みから、動画共有を融合した利点他、最新の取り組みをご紹介いただきます。
さらに、セマンティックをテーマにした招待制のSNSに、当日いらしたお客様をご招待いたします。様々な特典のある無料セミナー、ということで、よろしければご参加ください。事後も、継続的にメリットあるかと思います。
何よりも、登壇のメンバーと忌憚のないとこと、自由に議論できる貴重な機会として活用していただけたら幸いです。
ps. (5/11朝)
世界最大のオントロジー(らしい)DBpedia。それをラッピングしてブログ執筆支援で頭角を現したZemanta。それを呼び出して双方向機械翻訳により他言語で使えるようにしたFaviki。これらについてご説明します。
さらに、BooRahのレストラン検索でもオントロジーを使っています。
セマンティックWebから、人生を豊かにする○マンティックWebへ。
カテゴリー: Cloud, Mextractr, social, semantic
Good!獲得数: 42
アクセス: 2659
2009年04月30日
Yahoo!のFire Eagleは自分の居場所を登録するプラットフォーム
一言でいえば、友人がどこにいるかリアルタイムで地図上で確認できるサービス。
「友人」の情報を取得するのは、FacebookのAPIから、ということで、Facebook上のアプリケーションです。Yahoo! US 製。
http://apps.facebook.com/on-fire/
最初、この画像から、「知らない人でも、自ら 公開 を選択すれば居場所がわかるのかな? なんか危ないなぁ」と思ったのですが、これはあくまでデモのようです。ログイン前でしたので。
このプログラム自体は、セマンティックサービスの2大特徴としての「意味解析」や「知識(オントロジー)の活用」という部分はいずれも殆どなさそうです。
サービスの最大の特色は、5W1H のWhereとWho をリアルタイム(When)で駆使していることのようにみえます。5W1Hメタデータを縦横に活用している感じ。
それで大事なことに思い至りました。
・地図や人脈情報、って、豊かな構造をもって様々な情報を有機的に関連付けられるのだからオントロジーの一種と言ってもじゃぁないか?!
時間軸は1本しかないですが、刻み幅、持続時間、納期、繰り返し、などなど、やはり結構豊かで大事で有用な構造をもっています。
そこで、Who, Where, When を使うだけで、これらの特殊オントロジーを活用しやすいので、5W1H使っただけでセマンティックな感じがする、と。
対する一般オントロジー(?)は、What のオントロジーと言っても良いかもしれない。
Whatにはモノ(物体)、とコト(出来事)の2種類があり、HOWはコトの属性(あり方)で、、 と続きはまた後日。
http://fireeagle.yahoo.net/
自分の居場所を登録するプラットフォーム的サービスで、その上にさまざまな具体的なアプリが作られています:
http://fireeagle.yahoo.net/gallery
には、自ら作った公式アプリのFriends on Fire!以下、いろいろ紹介されています:
A new official app from the Fire Eagle team! Find your friends on the map, share your location and post short messages, tips and invitations on the map!
EagleTweet
EagleTweet is a small web service that updates Twitter with the current location.
これを使うと、twitterにメッセージ流す際に現在地が自動で挿入されるようです。
Radio Pop
Radio Pop enhances your BBC radio listening.
これは、使ってみないと便利さのツボがわからないかな。
Enabling you to create a personal record of the programmes you like and see what your friends and everyone else is listening to, and whether they are listening nearby.
ということで、同じ曲を誰かが近くで聴いているかどうかがわかるのが独自のメリットのようです。親近感を覚え、実際に会ってみては?ということなのでしょうか。
昔のラジオ・リスナー間の連帯感の現代版の感覚を増強するサービス?
Brightkite
People. Places. Friends
輝く凧? 人々、場所、友人?
Brightkite connects you with the people around you. You can see who's in your vicinity, attach notes and photos to places, and keep track of what your friends are up to.
なるほど。やはり近所にいる友人の行動を、文章と写真を地図上に紐付けて、わかりやすく把握して、コミュニケーションを促進しようということのようです。
今日現在、全部で72本のアプリがあるようです:
http://fireeagle.yahoo.net/gallery/all
仕事探し、なんて実用的なものもありますね。
Good!獲得数: 41
アクセス: 1582
2009年04月29日
Kallout, "ショートカット型"セマンティックサービス, 5/13にもご紹介
IE8アクセラレータの仕組みも、うまく使えば、 "ショートカット型"セマンティックサービス となります。
ps.
実は、5月中旬にリリース予定で、セマンティック技術やサービス、ビジネスに興味ある方のためのコミュニティを準備中です。というか、既に試運転しています。
SNS + Groupware + Semantic Filtering (匿名化や自動伏せ字化)
という新世代のアプリケーションです。 "Mextクリッパー" が、ストレージとして他のクラウドを場借りしていたのに対し、ストレージも、カレンダー/スケジューラも、公開/非公開の制御も全部自前で用意したパッ ケージ。これをそのまま、あるいはさらにカスタマイズしたものを法人、団体様からの引き合いにお応えして提供いたします。
一般公開前 に、この「セマンティック・カフェ」(予定名)に入ってみたいという方は、期間限定でご招待させていただきます。登録予定のメールアドレスから、 nomuran@metadata.co.jp までご連絡ください。まだコンテンツは少ないですが、自然言語処理やセマンティック関連のイベントカレンダーを共有したり、様々な知識、ノウハウを蓄積 し、アイディアを生み出すきっかけにあふれたカフェにしたいと思います。
下書き
2009/04/29
2009年04月22日
週アス「ウェブの未来大予想」 ≒ セマンティックサービス
少し間があきました。この間、バイラルマーケティングの原点を振り返って(2001年のセス・ゴーディンへのインタビュー記事を参照して)、ソーシャル活性化の秘密を探ろうとした原稿、そして、グリッドとクラウドの本質的な違いに気づいてまとめた原稿を下書き保存しつつ公開を見送りました。(2010.5.3自分のTwitterについての予言に気付き公開)
そこへ、知人が週刊アスキー4.28号の標記特集をみつけてくれました。これは素晴らしい。
インターネットの時代になってPC雑誌の老舗が続々と倒れる中、週刊アスキーは、独特のとんがった視点、何でもありっぽい雰囲気を演出しながら知性や感性に訴えるネタを出し続けて命脈を保っておられます。1999年に東京の青山で福岡編集長(当時)にお会いしてお話して以来、彼の存在が、独特の魅力の源泉だ、と確信していました。
当時、月刊アスキーといえば遠藤諭さん、週アスといえば福岡俊弘さん。お2人とも、表に顔を出す個性的な編集者の代表格として尊敬しておりました。現在も総編集長ということで、いつも期待して、特集を眺めておりました。特に、日本経済新聞社のTさんから、福岡さんが「次はセマンティックしかない」と最近発言された、と聴いていたので、今回の特集も「なるほど!」と感じた次第。
特集の内容は期待を上回るもので、「3.0」的なサービスを取り上げてくれています。次の「大予想」ごとに数本の先進サービスを紹介してくれています。
- 人やモノがつながる検索が流行! (昔のカレシがわかっちゃう!?)
- カメラで撮影した動画で検索! (テキスト入力はもう古い!!)
- ブックマークがウェブアプリで埋まる! (もうソフトはいらない!?)
- タイムマシーン地図が登場! (未来の地形がわかる!!)
- Twitterでは満足できない!! コメントも居場所もリアルタイムに共有する!
- ブラウザー戦争がさらに加速! (ブラウザーの可能性に感動!)
- すべての知識はウェブから学ぶ! (学校がなくなる!?)
- 未来はウェブが予測する! (2300年のブームは何?)
「 1.人やモノがつながる検索が流行!」 とは、すなわち、広い意味でのセマンティック・ウェブです:
- ウェブにちらばる情報が、より詳しく(自動的に)分類、タグ付けされてデータベース化される。
- 検索結果はテキストの羅列でなく項目の関連性がビジュアルに把握できるように進化
Spysee以外には、商品間の関連のネットワークを「見える化」した、Amaznodeが取り上げられています。
「2. カメラで撮影した動画で検索!」 まだ動画ファイル全体を検索条件にできるサービスはないようですが、10年近く前から、静止画間の類似検索は少しずつ実用化の努力がなされていました。
- 画像分類の半自動化
- 写真のタグ付けが進み、画像に移っているものが何か検索可能に!
- 写真データから3次元空間を割り出し異なる角度から移った被写体も認識できる?
具体的に紹介されている画像(による)検索サービスは、次の3つです。Zemantaで有名になった自動タグ付け機能などセマンティックサービスもあります。
以下、駆け足でご紹介。
予想の3では、デスクトップ・アプリとくらべて何ら遜色ないウェブアプリや、その究極形ともいえるブラウザ内のOS、ウェブOSが紹介されています。
予想の4は、既にあった過去地図、古地図、火星の地図などを紹介しつつ、3次元化、4次元化した地図サービス上で、さらに高度で面白いマッシュアップが出てくることを予想しています。GPSケータイやGPS内蔵デジカメの普及がさらにマッシュアップの流れを促進する、とも。
予想の5でも GPSケータイを活用。これによりアルタイムで5W1Hを共有し、コミュニケーションを促進する方向性を予想しています。手間をかけずに情報発信しつつ、プライバシーはだんだん失われていく方向ではないか、とのコメントもあります。
予想の6は、いまブラウザが面白い!ということで、Safari4のシアター風UIが代表で紹介されています。
予想の7は学習とナレッジマネジメントの話。eBook, Academic Earth, American History in Videoが紹介されています。
予想の8は、データの力に頼るだけでなく、その解析を推し進め、膨大な計算パワーを駆使したWebサービスの台頭を予想。その象徴として、大量データの集約と解析による未来予測の可能性に言及しています。紹介サービスは博報堂生活総合研究所の「未来年表」。このサービス自体は、政府機関やシンクタンクの調査レポートという、ヒトの頭で咀嚼、分析された2次情報をインプットとしているようですが、事業企画担当者などにとって便利なサービスになっているようです。
うーむ、、書き始めたときは、どれとどれが セマンティックサービスで、これはまた別のトレンド、という風に分けてご紹介しようかと思っていましたが、なかなか無理がありました。
集約や誘導、絞り込みの手がかりにもメタデータは必須だし、リッチなUIを伴う便利サービス(より早く、手間無く、わかりやすく)にしても、何かの自動解析エンジンをその場で動かすか、あるいは既に構造化しておいたデータベースを用いています。ほぼ全部がセマンティックサービスに該当する、と言っても言い過ぎではないかもしれません。(ブラウザはそれを支える表現力と高速性を提供しているということで)
Good!獲得数: 86
アクセス: 2440
2009年04月15日
バイラル温故知新:セスゴーディン、YouTube, Gigazine、そしてMextractr?
その後、バイラルマーケティングの本で一世を風靡。
このバイラルマーケティングは、遺伝子を埋め込み、感情を揺さぶり、メッセージを、別の(ウケねらい)コンテンツにのせて伝播させていく仕組みです。何か、セマンティック的!と感じます。
少なくとも、事務的でフラットな(失礼!)KW広告、リスティング広告とはエラく違う。
ソーシャルとも違います。
アイディアをどんどん付加して、、と、セス・ゴーディン氏は、
2001年頃に、ニコ動の元祖のようなことをいっている。
そう、麻薬のように吸引力、説得力のある動画と結びついたときに、バイラルマーケティングは最強の効果を発揮しました。
YouTubeでは、ウケねらいが大成功して100万アクセスになれば、自然発生的にバイラル効果が出る感じ。直接、他人、他媒体に伝播させているわけじゃないけど、、そう、メタデータやリンクが増えることは、伝播、感染と同じ効果がある。たとえ、データ本体の場所は元のままでコピーされなくとも。
Magic Cap (Telescript)弥一部のP2Pテクノロジーが、「ウイルスのようだ」と嫌われてか?、普及に至らなかったのは、実際に侵入してくる気持ち悪さも一因だったことでしょう。
仮想的な伝播なら抵抗が無い、ということで、メタデータが「感染」を媒介する時代。
だから、Twitterはいずれ大流行することでしょう。
下書き
2009/04/15
2009年04月09日
"Mextクリッパー"準備で息を呑んだMextクリッパー" リリース準備で息を呑んだ瞬間
今回は、おかげさまで多数のメディアにとりあげていただくことができました。もちろんこちらCnetでも、ニュースに書いていただきました。
おかげで、ニュース検索のサイトをみると、「読売新聞、**時間前掲載」のように、枠が確保された有力マスコミでの採録状況が逐一伝わり、開発でがんばってくれた弊社社員も感激する瞬間がありました。
以前はてな日記に書きましたが、 今回もプロの文章力に感動。新ソフト、サービスの本質を凝縮してヘッドライン要約に、わかりやすく表現してくれました。
○文章をドラッグするだけでGoogle Calendarに予定を自動登録--「Mextクリッパー」 読売新聞
○Webページ上の予定をGoogleカレンダーに登録できるIE8対応ツール INTERNET Watch
○Googleカレンダーに簡単登録、IE8アクセラレータ「Mextクリッパー」が公開 マイコミジャーナル○メタデータ、スケジュール自動認識&登録サービス「Mextクリッパー」提供開始 EnterpriseZine
○文章をドラッグするだけでGoogle Calendarに予定を自動登録--「Mextクリッパー」 ZDNet Japan
○IE8の選択テキストから日付や場所をGoogle カレンダーへ登録「Mext Clipper」 窓の杜
○メタデータ、IE8でアポ情報を登録可能なサービスを提供 キーマンズネット
”「Mextクリッパー」は、同社が開発した、日本語テキスト(普通の文章)から意味情報を自動抽出し、表現の統一正規化)や数値化を行なうサーバソフトウェア「Mextractr」(Metadata extractor)をサーバ側で動作させているサービス。”
今回は、プレスリリース対応(原文殆どそのままというのも普通なのに!)であるにもかかわらず、わずか数分の間に、実際に使ってみた記者さんが多かったのにも驚き、感激しました。「お、使える!」と評価して1,2時間後に記事にしてくださった感じのするものもありました。独自のWebページ上で使ってみた画面写真を入れたことや、署名により、評価内容と責任意識が伝わってきます。
また、BtoB、企業内個人向けのサービス、という趣旨をこめて発表したつもりが、 窓の杜に、フリーウェアの延長のプロダクトのように取り上げられたのも予想外でした。(インプレスGさん全体の窓口にお知らせし、掲載媒体はお任せしました)
これは名誉なことです。意味解析技術をコアに、エンタープライズの人手不足解消、コスト削減を目標にサービスを組み上げたはずが、「うん、これは誰でも簡単に使える。Web上の文房具みたいなものだからユーティリティのジャンルのフリーウェアとして紹介しとこうか」(想像)という感じで取り上げていただけたのは有り難いです。ユーザインタフェースについてもある程度自信をもつきっかけになりそうです。
さて、以上で、"Mextクリッパー" リリース直後の速報、感想はおわりです。標記の件、「リリース準備で息を呑んだ瞬間」についてですが、上の標題群をみてお気づきでしょうか?
リリース準備で息を呑んだ瞬間
実はサービス提供者側としては事前にハラハラどきどきだったことがあります。マイクロソフトが、打倒Googleを祈念し(きっと)、多くのユーザがWeb検索をあまり使わないようになることを願って(たぶん)開発したアクセラレータ。我々は、このアクセラレータから、Google Calendarにメモ書きを記録するサービスを作ってしまったのです!
「今後は他のクラウドも自由に選べるようにしますので、、」と電話口でマイクロソフトの原田さんにしゃべった私の声は少し震えていたかもしれません。そのお返事を伺って息を呑んだのでありました。「ユーザのWeb環境が少しでも便利になり、新境地のUIを提供してくれるなら大歓迎です。もちろん近い将来Live Calendarに対応してくれたら社内でも大っぴらに使えて個人的には有り難いですけどね。(笑)」
Silverlight2あたりから、公然とマルチプラットフォーム(OS)での開発、運用環境をアピールしてこられたマイクロソフトさんの変身ぶりは印象的でしたが、まさかここまでとは。電話口でのおべんちゃらに過ぎないわけじゃない証拠に、実名入りで「賛同のコメント」を寄せてくれました:
オリジナルのリリース記事より引用:
メタデータ、Web閲覧メモやスケジュールをクラウドにクリッピングする "Mextクリッパー" サービスを無償提供開始
【スケジュール登録が10秒で完了】
【いま注目した情報を逃さずクラウドにクリップ】
・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
□ 賛同企業からのコメント
マイクロソフトは、「Mextクリッパー」アクセラレータの発表を歓迎します。アクセラレータをはじめとしたIE8 のアドオンは、日本で既に100以上のサービスがリリースされており、これらはIEアドオンギャラリーで公開されています。メタデータ株式会社様が最初にリリースした「5W1H Mextractr」は、日本語を解釈して5W1Hの意味で色分けし、検索エンジンを経ずにサービスに誘導する大変ユニークなアクセラレータでした。今回の「Mextクリッパー」も非常にユニークなアクセラレータで、Web記事やWebメールからイベント情報を抽出したり、Web閲覧メモをクラウドに登録できる画期的なアクセラレータです。IE8の可能性をさらに拡大するとともに、IE8を入り口としたWebの利便性を新たな領域に高めるものとして大いに期待しています。マイクロソフト株式会社
コマーシャル Windows 本部
シニアプロダクトマネージャ
原田 英典
以上が、事前に舞台裏で起きた出来事です。
事後の感想としましては、、 マスコミもユーザさんも、マイクロソフトの最新の発明「アクセラレータ」とGoogle Calendarをつないだことには無関心なご様子だったのが逆に驚きでした。拍子抜けした感じです。
試用してみて1分で、「うん、これ、使える」と思っていただけるのはソフト開発者冥利に尽きます。余計な背景などに関心はらわず、新機能の本質を体感、理解していただけるのは本当にうれしいものです。我々は、この嬉しさを再び味わいたくてソフト開発を続けているようなものです。
いつでもどこでも、ちょっとしたメモを何でもクラウドに書き留められるようになって、われわれの生活はどう変わるか。自ら体験しつつ、さらに次のセマンティックサービスや、ソーシャルシステムとの融合をはかり、利便性を高めてまいりたいと思います。企業向けにはコスト削減効果が数値で明確に出るくらい、セマンティックサービスのご利益を高めてまいりたいと思います。
2009年04月03日
セマンティック技術アンケート結果から 〜3/16コンファレンス拾遺
個々の発表内容にご興味の向きには、開催概要の頁またはプレゼン資料のダウンロード頁から入手をお奨めいたします:
http://s-web.sfc.keio.ac.jp/conference2009/index.html
http://s-web.sfc.keio.ac.jp/conference2009/proceedings.html
会議全体としては、「オントロジー」と、「SNS」という2つのキーワードが目立っていたと思います。
オントロジーはメタデータとメタデータの関係を記述したものだし、SNSは、書き込み日時や個人名(ハンドル名)等のメタデータがコメント等にも自動記録される(だからWikiより楽ちんで混乱しない面がありますね)、という意味で、メタデータ活用は当たり前。その先に一歩進めようとした意欲的な研究成果が披露された、ということができます。
メタデータを抽出し、他の情報リソースに関連付け、紐付ける。メタデータを軸足に、マッシュアップ、情報連携、気の利いた検索をする。例えば、全文検索でできないことをする。そもそも検索キーワードが無くて「いつ誰がどんなカテゴリーで投稿した記事」という手がかりしか無くても社内文書が見つかる。これらの応用もまだまだ緒についたばかり、といえるでしょう。
前回はMextractrアンケートでしたが、今回は、次世代Web、セマンティック技術全般について、委員会のメンバーが、今回のコンファレンス登録者252名に対してアンケートを取り、集計された結果についてです。富士通研究所の津田宏さんが代表でとりまとめ、当日発表されました。その内、興味深い設問と回答について、許可を得て、下記に引用いたします。
質問1: 所属されている組織ではどのようにWebを利用していますか? (複数選択可)
さりげない設問ですが、興味深い結果を導けています。「正式な社内情報の連絡」は、社内ポータル設置とほぼ同義かと思われます。社内個人ページ、ブログ、SNSを合わせて71/252というのは、回答者が先進的なマインドをお持ちの方々であるわりには小さい数字と感じました。スケジュール・グルーウェアがWebベースに移行しているのが139/252は予想よりやや大きい数字です。Notesがこれに入っているかどうかで(バージョンによって違うかもしれませんね)解釈も多少代わってきますが、スケジュール・グルーウェアについては、レガシーな専用クライアントは退潮の一途を辿る、とみてよさそうな気がします。
1つとばして、質問3です。
質問3: 仕事でWeb技術を使う上での不満は? (最大3つ選択可)
「量が多すぎて情報が探せない」が89/252というのは、やや予想より小さい数字です。はっきり言って、プライドが邪魔して、自分が情報洪水でおぼれかけていることを認めたくない、という心理が働いたかもしれない、と最初は勘ぐりました。しかし、実際には、目の前の情報の扱いに追われて、自分がいかに大量の有望情報を見逃しているか、あるいは、存在自体に気づいていないという事実を自覚していない、意外に「満足した」ユーザが多いのかもしれません。こんな人には、ライバル企業で同じ業務に従事している優秀な人が1人で購読している5000本のフィードや、ソーシャルブックマークをお見せすると効果的かもしれない、と妄想しました。
キーワードがうまく設定できない、と認める方は、いまの検索エンジンの欠陥や拙さに腹を立てているかもしれません。あるいは大変謙虚に、検索エンジンは良いのに自分のスキルが未熟だ、と評価されているのかもしれません。いずれにしても、エンジン and/or UI (キーワード示唆機能等も含む) のテクノロジの進化が求められる結果、と思われます。
「情報の信頼性」と、「新旧の情報の混在」は現状の非セマンティックなWebの大問題といえるでしょう。文書全体の発行年、という基本的なメタデータすら、強い制約条件(AND条件で必須)とされていないことから、検索エンジンのノイズは依然かなり多い状況と思われます。
質問4: 「セマンティック技術」として期待するものは? (最大3つ選択可)
「大量に作られるログ的な情報を次々と整理して溜めてくれる」
「わざわざ検索しなくても必要な情報を勝手に教えてくれる」
「自然言語や文章から情報を検索できる」
「様々な言語の情報を探して日本語で結果をくれる」
「製品名などうろ覚えで入力しても適切に近そうなものを検索してくれる」
「専門的な内容でも易しい言葉で探すことができる」
「複数の情報源を一度で意味的に横断して検索してくれる」
この2つこそセマンティックサーチの典型、という感じです。意図を察したり文脈・状況を察して、秘書のように適切なものを見つけてくれる。少なくとも、ユーザ側が、データベースの配置など、機械の都合に合わせたりしなくて良いように情報アクセスできるようになって欲しい、ということで、実装面ではクラウドへの期待にもつながっているかもしれません。
「内容の信頼性によって区別して返してくれる」
「新しい情報が追加されると古い情報は自動で消してくれる」
「検索結果をリストだけでなく,表とか色々な形で見える化してくれる」
「文書だけでなく,人とかモノ,ノウハウ(動画)が検索できる」
質問5: 企業内でセマンティック技術の導入が難しい要因は何でしょう?
この回答は、研究者、技術者にとっては耳の痛いものがあります。運用の問題であれば、ユーザ側が変化できない、というネックになりますが、「技術がまだ未熟」、そしてそれ以上に「効果が不明」(評価尺度さえ不明?)というのがシビアです。ただ面白そうだから、そこに意味表現を作れそうだからやってみただけ、という無責任な研究姿勢では、結局、実際に役立つものは作れない、というメッセージをユーザから突きつけられた、と思っておいて良いでしょう。
KPIを定義して進化の方向性を明らかにし、ROI (Return of Investment)を数値化する。この作業を怠ることなく、製品・サービスの開発、改良に取り組んでまいりたいと思います。
Good!獲得数: 80
アクセス: 1818
2009年03月24日
5W1Hメタデータ自動抽出Mextractrアンケート 於慶應三田3/16セマンティックWebコンファレンス→3/24追記
- http://s-web.sfc.keio.ac.jp/conference2009/proceedings.html
- ↑ こちらの 予稿集ページ(まとめてDLするのに便利)で、講演内容についてご確認ください。
16:25−17:55 パネルディスカッション「エンタープライズ3.0に向けて」
-
モデレータ: 萩野 達也 (慶應義塾大学 環境情報学部) パネリスト: 岡本 真 (ヤフー株式会社)
野村 直之 (メタデータ株式会社) [PDF]
佐藤 宏之 (日本電信電話株式会社) [PDF]
津田 宏 (株式会社富士通研究所) [PDF]
渡邉 圭輔 (三菱電機株式会社)
長野伸一 (株式会社東芝) [PDF]
「グランズウェル」という、【顧客側の大変化】に対応して企業側が何らかのソーシャルの仕組みを入れる必要があり、それに呼応して、業務プロセス、特にCRM、サポートを中心とするナレッジマネジメントの仕組みが変化する。その際に、外部のネット(インターネット)の環境とまったく異なる次のような条件に阻まれる:
・人口が4,5桁少ない
・キーワード検索やPageRankが無力
・本業をサボってボランティアにうつつを抜かしてとの心理的圧力 などなど
これらを解決するのに、人々の代理としてのエージェントを駆動するエンジンとしてのセマンティック技術が必要であり、また、 5W1Hを中心とした文書メタデータと、オントロジー等を駆使したセマンティック検索が極めて重要になってくる。
以上、足掛け17年の大手製造業の業務経験や、サービス業のナレッジマネジメントでコンサルティングした経験に基づき、自分の存在、自分が設立した会社の存在を賭けて信じているビジョンを語ることができました。
この後の討論も、聴衆からの鋭い質問で非常に盛り上がりました(→3/24※末尾に討論の骨子を追記しました)。パネリストもお互いに勉強になり、親交を深めることができました。主宰、司会の慶應義塾大学SFC研究所、特に、萩野先生に心より感謝申し上げます。
メタデータ 株式会社としては、 5W1Hメタデータ自動抽出エンジン、そしてその具体的な製品であるMextractrについて、下記のアンケートを実施させていただきました。参加者の半数近い方に熱心にご記入いただき、大きな手ごたえを感じました。以下、統計処理した数字をグラフにしてご紹介いたします。
●1.Mextractrをご存じでしたか?
セマンティックWebに強い関心をもった聴衆の方を母集団としているので、もっとYesが多くてもおかしくない、と考え、「もっと広く知っていただかなくては」と思いを新たにしました。
●2.メタデータ自動抽出機能はあなたにとってどのくらい重要でしょうか(5者択一)
a.不可欠 b.有用な選択肢 c.有用になる可能性あり d.興味深い e.不要
8割方の回答者がその場で、5W1Hメタデータ自動抽出のデモをご覧になったばかりだったことも影響したとは思いますが、「不可欠」という回答が予想以上に多かったです。「興味深い」にチェックされた方で、その後、コンタクトを希望された人もおられるため、b., c., d.の違いはあまり大きなものではない、という解釈もあり得ます。
●3.2の質問で想定された応用用途はどんなものですか?
組み合わせるIT: グループウェア・カレンダー SNS CMS 社内レガシー統合
DB・文書管理 マッシュアップ開発ツール 新広告スペース
これについては、Mextractrで想定したカテゴリ、ご紹介したマッシュアップアプリの中から、回答者の業務に近いものを選んでいただいた感じがします。
その用途 : 5W1H数値インデキシング(5W1Hサーチ支援)
匿名化 日本語のWebAPI化(5W1H連携マッシュアップ支援)
5W1Hの日本語の記述を、漢字表記を含めて数値として理解し、正規化、マッシュアップができること。それが、様々なエンタープライズ・アプリにおいて共通する、賢い検索機能(単なる文字列一致でない検索)にとって決定的に重要である、と皆様お考えのようです。
●4.3の用途で取り出したいor扱いたい情報の種類はどんなものですか?
イベント・スケジュール情報 個人情報 文書メタデータ
営業・サポート情報 社内知識共有向け情報 BtoCコンテンツ
これについては、イベント・スケジュールや個人情報が多いと予想したのがはずれる結果になりました。代わって、文書メタデータが圧倒的に多く、それと少し重なりそうな、社内知識共有向け情報にも票が集まっています。後者は、外部のネット上の有用記事を想定された方もおられそうです。だとすると、膨大な外部記事には、Mextractrによって有用なメタデータを付与し、オントロジー等の助けも借りながらピンポイントの絞り込みを行って推薦して欲しい、という切実な要求が反映しているのかもしれmかせん。
●5.3の応用用途で重要になりそうな5W1Hはどれでしょうか。
いつ どこで 誰が 何を いくらで その他※特定の形式で取り出したい要素や特定の分野があればお書きください。
例:製品型番、閉店時刻、食材名、静電容量、etc.
「その他」を、「5W1H全部」という意味でチェックされた方もおられましたが、その場合、全てに1票ずつ入れられたものとして集計しました。「いつ」「どこ」で過半数いくか、という予想と異なり、「誰」と「何」が過半数となりました。「誰」への支持は、KnowWHOやプロジェクトでの人材マッチングの重要性が相変わらず強いことを示唆してくれています。
「何」については、特定業務でカギとなる、さまざまな名称、概念を想定されている可能性を感じました。予想よりも、カスタマイズへの要求が強い、と解釈すべきかもしれません。
●6.メタデータ活用で実現するソリューションで、興味のあるものはどれですか?
( ) 情報共有とプライバシー保護の両立 ( ) 情報連携、マッシュアップ
( ) レガシーデータの再利用 ( ) 個人情報保護
( ) 5W1H条件で検索するためのメタデータ・インデキシング
やはり、情報連携、マッシュアップの可能性への支持が圧倒的でした。次いで、文字列に頼らない、数値による5W1H 検索への期待が高いのを改めて確認。「情報共有とプライバシー保護の両立」については、KPI, ROIが今一歩はっきりしないのがネックとなり、伸びきれなかったのかもしれません。
●7.Mextractrの活用を検討する場合に、気になるポイントはどこでしょうか。
最後の設問では、精度、価格、カスタマイズ性を気にされる、ということで、今後の参考になります。具体的な事例を通して、これらについて、さらに目安、ガイドラインを詳細化してまいりたいと思います。オントロジーを知識リポジトリとして併用し、自動抽出したメタデータから有用なものに絞って他リソースと連携させるソリューションへのニーズが高いことも掴めましたので、以前の計画よりも前倒しで取り組んでまいりたいと思います。
個別の案件について、魅力的で、コスト削減にもなる提案を第三者(代理店さんなど)が容易にできるように、さらに実践を重ねてまいります。
今後ともどうぞよろしくお願いいたします。
--
Q. Web検索で「問題解決」しようとして、間違った答を含むページに騙されないようにしたり、予測違いを修正したいときどうしたら良い?
A. 3点お答えします。まず、検索結果で十分なのかどうか、古くて使えない(outdated、obsolete)情報、データでないかどうか、5W1Hの時間軸WHENに沿って版管理のリンクを追うような仕組みでセマンティックWebや検索エンジンを進化させる必要があるでしょう。このニーズは切実なので確実に次の進化の1つに入ってくると思います(我々もがんばります)。
次に、「これでは十分ではないこと」になるべく早くユーザが気づくようにしむける必要があります(検索屋さんの商売には支障ある機能かもしれませんが勇気をもって実行すべし)。そのために大事なのは「空欄」。表の中に空欄があれば、ヒトは気になります。空欄の存在を明らかにするには、回答の論理構造を「メタデータの枠」の形で表現するのがシンプルな解決法。つまり、データより先にメタデータを定義し、ユーザに見せることで「空欄」、情報が足りないことを一目瞭然にできるのです。メタデータの、隠れた重要な役割と言って良いでしょう。
3番目に、別の知識源(広くオントロジーと言ってもいいでしょう)から得た計算式や表によるシミュレーションで、検索結果の予測を検証することが考えられます。セマンティックWebのTrust=信頼性確保の一方法です。
Q. 動画のメタデータって大事ですが、自動で付けられませんか?
A. 画像解析(色立体)でシーンの切れ目、あと、マルチメディア辞書でダイレクトにメタデータ抽出はできなくはない。15年前位から、MIT Media Lab.などで研究されていたが、実用化にはまだ工夫が必要でしょうか。
補足:個人情報保護のメタデータについて、テキスト由来のものと画像のメタデータと共通化すると実用化が進みそう。情報大航海プロジェクトでこの取り組みをやっています。
Q. Web 3.0アプリはどんなもの?
A. ソーシャルに頼ってきた「2.0」と違って、「一人でも使える」、というところにポイントがあるかも。Salesforce.comや、優れたグループウェアは一人で使っても役立つはず(個人事業の営業履歴の管理、ToDoの整理/生成などで)。もちろん、チーム力を発揮できない分、セマンティック技術等を駆使した十全なマッシュアップ、コンテンツのサポートを巧みに取り入れたものがうまくいくでしょう。
Good!獲得数: 83
アクセス: 2614
2009年03月14日
DEMO'09のGwabbitはコンタクト情報抽出で20ドル
知人のジャーナリストNさんが、自身で行かれたわけではないですが(もっと大きな海外イベントにはよく取材に行かれてましたが)、記事を見つけてメールしてくださいました:
> PC Watchの以下の記事を読んでいて、Mextractrを連想しました。
> 「メールから5秒でコンタクト情報をアドレス帳に取り込むOutlookアドイン」
> http://pc.watch.impress.co.jp/docs/2009/0304/demo01.htm
「似ている」ことは、XMLの標準規格の点からも裏付けられます。
Gdataが、Mextractrが主に使っているEvent Kind以外に、Contact Kind, Message Kind (および3種に共通するCommon Element)から成っているからです。
人名、所属、役職。働く場の住所。人か場所の電話番号。これらが基本的なContact情報のメタデータです。
他に、米国には、SMBXMLがあり、日本には、OCRメーカや葉書作成ソフトメーカ間で合意されたContact XMLというのがあります。米国版には、小切手の宛先や社会保障番号(Social Security Number)がほぼ必須情報として存在したり、国・地域や文化・商習慣によって要素や構造が少し違ってきます。
ともあれ、1名分のアドレス帳データをきっちり作るのには意外に時間がかかるもの。目の前に必要なデータが全部あって、正しく切り取ってコピペすれば良いだけであっても、1,2分はかかるでしょう。それが5秒というのだから、ビジネスマンの創造的思考を妨げず、知的生産性を拡大するのに役立ってくれそうです。
http://www.gwabbit.com/
トップページの動画を見るだけでどんな風に使えるのかがわかります。
http://www.gwabbit.com/faqs.php
を見ると、名寄せ支援機能があったり、 若干の学習機能があるかのような記述もみられます。
さらに詳細なところまで、米国在住が長かった弊社外部スタッフ(今のところ)のKさんが試用、評価してくれました。曰く、「文末付近の電話番号らしき数字列をトリガーとしてsignatureの場所を認識している」らしいので、現状、例えば、signature内に電話番号が入っていないと、全く認識されない、などの問題点があるようです。また、相手の引用文よりも下にあるsignatureは認識されないなど、不具合とおぼしきものもありました。
情報を正しく抽出できるかどうか、という観点での評価結果は以下の通り、とご指摘いただきました。
(a) 名前、e-mailアドレスはsignatureに書いてあれば、そこから優先して取得する。書いてない場合、または、認識できなかった場合、メールのヘッダーから取得する。
(b) 電話番号らしき数字が並んでいるものがあれば、その近辺をsignatureとして認識しているらしい。
Johnny Smithson | 姓、名 |
WiseStampCorp | 会社名 |
976.56.456425132 | 携帯電話 →この行が無いと不可 |
John@wisestamp.com | 電子メール |
http://www.wisestamp.com | webページ |
電話番号にはなり得ない数字(6桁以下?)が入っていると認識されない。
Johnny Smithson | 認識されず |
WiseStampCorp | 認識されず |
456-786 | 認識されず |
http://www.wisestamp.com | 認識されず |
(c) 姓名の直後に会社名が入っているのは、認識されるが、役職名が入っていると、signatureとして認識されなくなる。姓名の直後に地名が入っていると、それが会社名として認識される。
Kind regards, | |
John Johnson | 認識されず |
Manager | 認識されず |
Telephone: +44 870 444 1896 | 認識されず |
Mobile: +44 960 444 1896 | 認識されず |
Fax: +44 870 444 1898 | 認識されず |
Tony Carrith | 姓、名 |
Tokyo, Japan | 会社名 (誤認識) |
Mobile: +983-23832842 | 携帯電話 |
Email: tony@wisestamp.com | 電子メール |
(d) 1行になっているsignatureも認識される。
Jon Smithsony | WiseStampAgain | T: +675.51.23989132 | john@wisestamp.com | http://www.wise.se |
(e) 電話番号が2つある場合、一つ目を会社電話、二つ目を会社ファックスとして勝手に認識する。
Phone: 800-555-1234 (H); 800-555-7890 (O)
|
(f) 住所は全く認識されない。
Chuck Cherry | 姓、名 | |
Myanmar Hope Christian Mission, Inc. | 会社名 | |
308 South Oxford Road | 住所が認識されず | |
Springfield, IL 62704-1258 | 住所が認識されず | |
Phone: 800-555-1234 | 会社電話 | |
Email: example@example.com | 電子メール | |
Web: http://www.myanmarhope.org | webページ |
(g) 大学の部署、所属等は認識はされるものの、いくつか間違いがある。
John Johnson | 姓、名 |
Department of Physics, | 役職 (誤認識) |
Harvard University | 会社 |
Telephone: 617 444 1896 | 会社電話 |
Mobile: 617 444 1896 | 携帯電話 |
Fax: 617 444 1898 | 会社fax |
Johnny Smithson | 姓名 |
617-456-7859 | 会社電話 |
"Oh, so they have internet on computers now?" -- Homer Simpson かようにまだ改良すべき点は見受けられますが、是非頑張って欲しいもの、と思います。 ビジネスモデル的にはどうでしょうか。 アドレス帳という、知識編集の効率化、自動化に的を絞ったのは悪くないかもしれません。 ※ターゲットをとことん絞り抜け!というVCさんからの圧力による判断という匂いがしますが。。 ただ、私なら、企業のバックエンド、サーバ側、公衆ならクラウドの側にこの機能を置いて、様々なシステム、業務フローの中で常時編集と活用が進むように取り組むと思います。 なぁんて、全然人ごとじゃありません。 こちらは「イベント」のメタデータ自動認識から入ったけれど、コンタクト情報も合わせて認識できるエンジンを早期にリリースしたいです。コンタクト情報の塊を拾いつつ、即時に活用するアプリも育てていくことで、かけ算で御利益が高まっていきそう、だからであります。 例:イベントカレンダー向けにも、イベント会場やイベント主催者のコンタクト情報を集めて構造化しておくことで有用性が高まる。 |
Good!獲得数: 37
アクセス: 1770
2009年03月09日
なぜARよりセマンティックがWeb 3.0に相応しいか?
筆者の知人だけをとってみても、KNNの神田敏晶さん、そして、日経BP社 IT Proの何人かの記者さんは、ARにコミットしておられます。 元NECの同僚だった暦本純一さんも創立にかかわったクウジットさんもARの関係だし、他にも多くの研究室から飛び出しそうな技術が日本にはあります。(数年前に情報処理学会大会で画像解析&合成の応用のセッションの座長をお引き受けして感心して発表に聞き入ったことがあります)
少々強引ながら、印刷・出版業界さんのいう「クロスメディア」なコンテンツの扱いもAR的な情報メディアの進化、拡大の方向性、といえるかもしれません。Cnetブログでも経産省の村上さんが非常に説得力のある論考を、豊富な事例とともに、あげておられますね:
「印刷改革のヒントは、印刷の中にある」
それでも尚、セマンティックこそが次世代Weの本命と確信しています。それは、メディアの表現力を拡大拡張するという、ユーザ、消費者を疲弊させる方向(広告・マーケティングは往々にしてこの方向ですね)とは正反対を向いているからです。人々の自然な意味記憶に沿うように情報を絞り込み、わかりやすくアレンジして必要最小限、控えめに伝えようとするのがセマンティックだからです。
多くのユーザは、メールボックスを見るのが苦痛で不快になっています。情報爆発の中でおぼれかけ、押し流されそうになっているにもかかわらず、欲しい情報には行き当たらない。いや仮に、必須の情報・知識が目の前を通り過ぎようとしていても、それが分かり易い形で「私はあなたに必要ですよ!」とアピールしてくれないために、見過ごしてしまう。
こんな絶望的な状況を解決してくれる技術こそ必要不可欠ではないでしょうか?
「ぼくは毎朝5000本のフィードに目を通し必要な記事は全部読んで反応している」と豪語するようなマッチョな人もいます。※そんな人の中にも、案外他人のイベントに足を運ばずに情報の意味を正しく理解しないまま表面的なトレンドに流されている人もいるかもしれませんが。
でも、大多数の普通の人は、検索結果のランキング20番目までに、欲しかったものと全然関係のないものが数本でもヒットしていたら、それらに気をとられて、本来求めていたモノが何だったか忘れちゃったりするのです! こんな野蛮な状況をあと5年も10年も長続きさせて良いでしょうか?
良くないとすれば、現行のWeb検索エンジンなんかよりももっと高精度に、人間の意味理解、意味記憶に沿う形で、適量をわかりやすく提示してくれる(もっと言えば広告なんか見せない)システムが強く求められているのではないでしょうか。
1992年頃、フィラデルフィアのペンシルバニア大キャンパスで、George A. Miller先生(人間の短期記憶バッファが非常に小さいことを証明した論文"Magical Number 7(+-)2"をきっかけに認知心理学を創始された人)とWordNetのことで打ち合わせした際、情報爆発への対策について議論したことがあります。ヒトの感覚器官や言語処理能力、短期記憶を急に進化させるのは無理なので、結局長期記憶・2次記憶とスムーズにインタフェースを組んだシステムが必要なのではないか。長期記憶は意味記憶とも呼ばれます。自分が世界を理解した結果としての広大で複雑な知識体系にカッチリと紐付け、組み込まれること(つまり【理解】すること)で記憶が定着する。
このように丸暗記(=短期記憶。一方「語呂合わせ」は疑似意味理解・疑似長期記憶でしょうか)でなく、ヒトが情報を自然に消化吸収して正しく対応するためには、長期記憶に照らした意味理解が不可欠。そこで例えば、ベタ書きのテキストの塊でなく、そこからメタデータを抽出して大見出し、小見出しとし、インデントした箇条書きに変換するなり、関連図を自動検索して引用するなり、というアシストを行えば、理解は速まり且つ深まるのではないか。
それが出来るなら、システムが、長期記憶に照らした意味理解を支援することが出来たことになる。このような一連の技術は、まさにセマンティック技術と呼ぶべきでしょう。このような支援には、コンテクスト(作業文脈)の補充や、コンテクスト・スイッチ(背景、話題、ゴールがガラリと変わったこと)を強く印象付けるためのアシストも必要でしょう。その類としてARなりVRが機能するのであれば、セマンティック技術の仲間として大歓迎。だから、ダイナミック・ドリル・ダウンや音声による ガイダンスなどのリッチなUIはとても大切だと思います。
以上、題名は少々挑発的、挑戦的だったかもしれませんが、わりとオーソドックスなことを書いているかと思います。あまりにユーザ本位なため、広告や、派手なIT投資(ハードが絡むとコストが跳ね上がりますね→※)に背を向けているところがあるやもしれませんが、そんなソフトウェア・ベンチャー仲間がどんどん出てきて欲しい、と思っております。
→※「派手なIT投資」が嫌悪され、「コスト削減」提案に注目が集まる不況だからこそ我々に大きなチャンスがあります。変化(チェンジ!)が求められています。IT投資のコストパフォーマンスを劇的に改善しなければなりません。定量的なコスト削減効果の数値ROI(Mextractrでの一例)を提示すべく、我々も頑張っています。
Good!獲得数: 99
アクセス: 2701
2009年03月03日
3/16セマンティックWebコンファレンス2009で楽しみなこと
そこで、ブログらしく、自分自身の期待、わくわく感を記録すればそれで十分ではないか、と思って元気復活。折りしも、まもなく定員いっぱいで申し込み打ち切り予定との案内が出ています:
http://s-web.sfc.keio.ac.jp/conference2009/
2009年3月5日追記:〆切となりました。
Web 3.0、セマンティック、エンタープライズシステムの次世代に興味ある方にだけ伝われば良いでしょう。ついでにプチ毒吐きすると、Webを見ていればどんな情報、知識でも手に入る、と勘違いしている人にも告知無用ではないか、となります。次世代Web、「3.0」世代になったら、セマンティック技術による強力な絞込みや、知識取得の支援、そして意味解釈アシストができて来るので状況はだいぶマシになりそうです。でも、 まだそうなってないし。
それに、上記の程度の「3.0」ではまだまだ、今回の基調講演者のような、知識創造・伝達の達人、巨人の役割を代替するべくもありません。数ヶ月だらだらかけてWeb眺めて耳学問する時間があったら、半日か1日、自分とは異質の理解、コミュニケーションをする知性に直接触れるほうが何10倍も効率良い。でも、そんなヒューマン・サービスこそ希少資源であり、残り少なくなっているのだから、気の乗らない人を無理に誘うのは理不尽というもの。
以上のように割り切ったら、気が楽になりました。というわけで、半ば独断と偏見になりますが、もしよろしければ以下、ご笑覧ください。
Web3.0に向かうセマンティックWeb
前回 はリンクだけの予告でした。サブタイトルはこのようになっています。セマンティックWebコンファレンス2009 〜Web3.0に向かうセマンティックWeb〜
すぐに思い出されるのは2年ちょっと前のニューヨークタイムズの記事「常識が道案内してくれるWeb?」 です。
- A Web guided by common sense?---Entrepreneurs try to mine intelligence By John Markoff / The New YorkTimes Published: November 12, 2006
まだ気が早い、という指摘が2006年当時にあった一方で、いやそんな前世紀からTim Berners Leeが言っていた「セマンティックWeb」なんて古い、何をいまさら?という声もありました。
ともあれ、古くて新しいSemantic Webにようやく陽が当たるときがきた、と言ってもよかったかもしれません。6,7年続いたベンチャー企業の応用努力がようやく身を結んで、具体的に便利さを体感できるセマンティック・サービスが現れ始めた。2007年が元年となりそう、という予想が出てきたわけです。他に、ヘラルド・トリビューンのこんな記事もありました:
http://www.iht.com/articles/2006/11/12/technology/web.1112web.php
それで思い出しました。XMLコンソーシアムの設立間もない頃、2001年度の活動として、Semantic Webのアプリケーションの姿を数名の仲間とともに描いたのであります。資料そのものは会員限定で恐縮ですが、第1回XMLコンソーシアムWeekの概要紹介ページで下記をご確認いただけます:
2002年6月12日 第4日
http://www.xmlconsortium.org/seminar/w01/prog_4.html
「常識を備えたSemanticWebのエージェントに検索させてみる」 (株)ジェー・アイ・イー・シー 大泉 英之 | PDF(945KB) Video | |
『若い奴は演歌は聴かない』って知ってる検索エンジンの試作イメージ」 法政大学 野村 直之 |
セマンティックWebコンファレンス2009の私的ハイライト
http://s-web.sfc.keio.ac.jp/conference2009/ 最初は、国領二郎先生が、SFC研究所長として挨拶されます。SFC研究所上席所員の上司、というよりは、各種政府委員で多忙な日々をおくられ、日本で大学院の授業をブログ&動画で進めた草分けであり、学術論文でCtoCの出現を予言したりオープン・ソリューション社会到来のビジョンを執筆するなど偉大な活躍をされていることは周知かと存じます。個人的には、 5,6年前にビジネスモデル学会KM研究会に登壇していただいたりしてお世話になっています。
斉藤信男先生の基調講演。Webを「グローバルOS」と言われるところにシビレます。あちら側にあちこりに発電所がある、というイメージの「クラウド」よりも1歩も2歩も前進している感じがするからです。そして、その知的で動的なWebが基本インフラとして知識社会を支える。そのための技術群がセマンティック技術であり、普及のための標準規格が大切。
電総研の大OBとしてコンピュータの歴史を通観し、「いまのコンピュータや通信システムはまだまだだ」と思い続けてきた斉藤先生の口から、「こんどこそ本物の知的処理」と言われると信憑性を感じることでしょう。
続く田中博先生の基調講演も感慨深いものがあります。かつての人工知能ブームの火付け役の1つ、世界最初のエキスパートシステムMyCin (感染症診断システム)の成功を受けて、日本でも、、というわけではないでしょうが、東大計数工学から医学部へと転じられ、現在も医療情報の研究のトップに君臨されている田中先生です。ライフサイエンス分野で、何10年も追求してきた知識体系を、セマンティックWebのオントロジーの規格を参考に、また相互運用性によるアプリケーションの開花を願いつつ実用化する。さまざまな障害により本格的離陸の遅れた医療分野の知識処理がいよいよブレイクする、という期待に溢れた講演になるのでは、と期待しています。
セマンティックWeb委員会の活動報告は、苦節?年、長年国内で少数の同志の間でがんばってこられた皆様によるサーベイと、具体的な活動報告です。何人かの発表者の皆様には、折に触れてお世話になってまいりました。
午後は、同じ委員会メンバーの皆様による、実用化システムと、現在進行中の研究プロジェクトの紹介です。情報大航海のように短期集中の研究プロジェクトと比べると、さまざまなルーツをもち、少数ながら実際にお客様が付いている息の長いプロジェクトが多いように思います。オントロジーの整備と、オントロジー活用検索をベースにした基盤整備の取り組みもある中で、コンテンツ間の関連付け、コンテンツの体系化をセマンティック技術で実現する「SNSをビジネスツールに」という発表に注目しています。
同じ富士通グループの津田さんは、情報内容を適切に保護する、コンテンツ中心のセキュリティの構想を発表されるようです。個人情報フィルタ製品を世に問うている私の会社と同じ方向を向いていると思われ、しっかり聞いておきたいところ。
NTT研究所と京大・石田先生は、産学連携SNSによる、産学マッチングの成果を披露されるようです。前回 ご紹介したiMageがその後どうなったか。社内応用を飛び出して、大学へ、そして産学連携のアプリケーションとしてどのように使われるようになったか。RDFのグラフ構造のマッチングがどの程度の規模で実用になり始めたか。これらの問題意識をもっておられる方は聴講必須、といえるでしょう。
サイバーエッヂさんは、OpenCalaisやMextractrと似たテーマ、5W1Hを扱ったシステムを紹介されるようです。
トピックマップ一筋(10年以上?)の内藤さん。やや孤高の規格、技術という印象もありましたが、今回は、異名同意語、同名異義語、そして多義性の問題、というセマンティック検索の問題に真正面から取り組み、解決をはかったWebサービスを見せてくれる、ということで期待しています。
阪大の発表概要はやや難解にみえますが、機械設計の際にその機能構造を形式知化するのにオントロジーを用いているとのこと。XML言語のメタ・エディタであるxfyを用いて実装している、ということなので、有用性がどのように評価できるのか、見ることができそうです。
Yahoo!ディレクトリをSemanticWebの規格によりオープン化したSearchMonkeyについては以前のブログで概要を紹介しています。これは、Yahoo! USのお仕事だったのでいまいち情報が少なかったのですが、今回、ヤフー株式会社さんからご紹介いただける、ということで、楽しみです。
パネル討論「エンタープライズ3.0へ向けて」。最近の本ブログで、「なぜ企業内には切実にセマンティック技術が必要となるか」書かせていただきました。これをコアに、私の発表分9枚のスライドを萩野先生にお送りしたところです。
モデレータの萩野先生、ヤフー岡本さんがどのような視点を提供されるか楽しみです。NTT研究所の佐藤さんからは、拙ブログを読んだ感想を頂戴しています。パネルがますます楽しみになった、ということで、事前にエールを交換した形。東芝の長野さんには、先日2/16のセミナーをご紹介し、チームの方に参加いただきました。三菱の渡邊さんとは、12月5日に少しお話させていただきました。そして、富士通研究所の津田さんとはICOT以来の長年のお付き合いです。今回お声をかけてくださったのも彼です。数年前の情報処理学会大会での パネルの司会も見事でした。パネリストながら、場を仕切る鋭い発言を今回も期待しちゃいます。
最後に、午後やっている展示です。以上の講演で紹介されるシステム +1(one)となります。
「+1(one)」が Mextractrということで、足を運ばれた方にはいろいろ楽しんでいただきたい、と願っています。下記の5W1Hサイコロを、飾りのためにもってまいりますが、インタビュー式のアンケートにお答えくださった人全員に差し上げられるだけ確保できるか未知数です。駄目な場合はどうかご容赦ください。
それでは、もしよろしければ、3/16当日、慶應大学三田校舎でお会いしましょう。
Good!獲得数: 96
アクセス: 2354
2009年02月27日
13のセマンティック・サービスを紹介させてただきました
※あまり間があくと、ブログ自体が削除されかねないので今後は注意しなくては。。
さて、当日は、本ブログからご招待した方を含め、皆様、熱心に聴講、コメントいただき、まことに有り難うございました。当方も勉強になりました。勉強といえば、講演者4名が、自分の担当分以外について勉強になり、有意義でした。改めて、企画をされたJAGATさんに感謝申し上げます。
内容ですが、最初、なぜWeb 3.0世代でセマンティック技術の台頭が見込まれているか、市場動向をふまえてお話しました。下図のようにエンタープライズにソーシャルの要素がどんどん入ってくる中で、外部のWebと比べて圧倒的に「人材不足」だから、というのが1つの大きな理由です。
「ネット全体で成功した “ソーシャル” は企業でも本当にうまくいくのか?」
・懸念: 圧倒的に少ない母集団 (4〜5桁以上異なる)
・ファシリテータ不足、活性化スキル不足
・社内外のリソースを横断で関連付けるニーズが大
・キーワードレス(ゼロターム)検索など「ぞんざい」でリアルタイム性の高い要求
例:「去年の暮れに隣の事業部の偉いサンが出してインパクトのあった10頁位のレポートを出しておいてね。」
以下、13の セマンティック・サービスを1つ1つご紹介したいところではありますが、他の講演者の分については、もう少し自分自身で咀嚼し、新たな解釈を加えてから、と考えています。そこで、「12」がいつのまにか「13」に変わった、追加分だけ取り上げて書くとともに、自分自身の発表から図面を引用して解説、ご報告したいと思います。
メタデータのグラフ表現上の探索エンジンiMageのアプリ「人材マッチングシステム」
直前に追加された講演は、iMageとその応用の紹介でした。紹介者は日本ユニシス小林茂さんです。iMageは、NTT情報流通プラットフォーム研究所とNTTソフトウェアの共同研究の成果物。information Mixable graph explorerの略で、「アイメージ」と読みます。ほぼ一定の構造、形式で書かれた研究プロジェクト提案書とその付属資料(参考論文集が多いようです)から研究者、論文、プロジェクト、技術名、コミュニティの関係図をグラフの形で抽出します。受け皿となるXML言語は、W3Cによる"本家" SemanticWebの規格RDF, RDF-Sなどです。下図にその例があります。
http://www.ntt.co.jp/journal/0804/files/jn200804062.pdf を元に小林茂さんが作図。
iMageは、このようなグラフ構造を作り、類似の構造、パタンをみつけるソフトウェアです。新たな知識・情報の抽出・発見を行う次世代Web流通エンジン、と位置づけられています。このiMageエンジンの1アプリケーションとして、人材マッチングシステムを開発し、評価実験した結果が、 NTT技術ジャーナル 2008.4 に報告されています。
SemanticWebの規格で表現したグラフ構造、その上のラベルの類似性から,プロジェクトに必要な人材やそのavailabilityを、広範囲から探索したりできるアプリを実際に作ったところが素晴らしいと思います。グラフ構造のデータさえ整備できていれば、
「ある技術について詳しい人」
「ある技術についてSNSにおいて積極的に交流している人」
iMageというエンジンの汎用性、スケーラビリティなど興味は尽きないです。今後の類似研究や、ビジネス化に大いに期待したいところです。
Mextractrの動作原理他
今回、Mextractrは、OpenCalaisと対比して解説いたしました。Mextractrの場合、日本語のプレーンテキストを入力として、AtomにくるんだGDataの形で5W1H抽出結果を出力する、ということで、入出力仕様はわりと単純です。そこで、内部構成や動作、そして、中間段階で活用している自社製の意味分類体系コードをご紹介しました。さらに、5W1Hごとに色分け出力された結果をアルバイトさんが快適に編集できる5W1Hエディタを用いてDB上のXMLを編集し、そうして加工したデータを本番Webサーバにdeployして運用するイメージをご紹介。
今月発表の最新アプリとして、皆様に使って頂ける、アクセラレータ版5W1H Mextractr (IE8とFireFox3で動きます)のデモをお見せしました。皆様、こちらからインストールして是非使ってみてください。なお、FireFox3の方は、これを先に入れておいてください。
メイドめーるの画期的な点、すなわち、push型でスケジュールや付加情報(天気予報など)を教えてくれたり、何より、メイドさんに「お返事が書ける!」、「予定を読み取って自動でマイ・カレンダーに登録してくれる!」という点をアピールさせていただきました。
国内でも今後セマンティック技術活用へ
結論はこれでございます。以上です。
なお、総計122枚の入魂のスライドがございます。
是非見てみたい、という方には、何らかの方法で個別にお渡ししたいと存じますので、適宜コンタクトしてください。
------------
Good!獲得数: 43
アクセス: 2419
2009年02月09日
ソーシャルとセマンティックの関係について
私自身はパネルの司会に先だって、ソーシャルとセマンティックの関係について講演してまいりました。
"Social with Semantic"
題名が韻を踏んでいるのは、内容的にも面白い対称性、双対性があるからであります。「グランズウェル」によってソーシャル・テクノロジーによる顧客(Crowd)の変化と、CRM(顧客関係管理)の劇的変化の流れが昨年まとめられたので、今後はどうなるだろう、と考えたわけです。学会では事例を深く掘り下げて分析し、理論、基礎的な考察から未来予測をする、というスタンスが求められます。そこで温故知新。10数年前のナレッジマネジメント(KM)と現在のソーシャル技術インフラとは質的、量的にどう違うかなど議論しました。
これらの議論については後日、当日の記録をKM研究会事務局サイトで公開するとして、ここでは自分自身の着眼点に触れます。次のスライドにあるように、当初のSemantic Web、AI研究では、「有用なWeb空間を建設するために人々(Social)がメタデータや、オントロジー(メタデータ間の関係、構造)を手分けして記述すべし」という関係にあった。だから、うまくいかず、 Semantic Webも長年日の目を見なかったのではないか、と指摘。
図中でGDAというのは、元産総研・現サイバーアシスト研究所の橋田浩一さんの提唱したGlobal Data Annotationのタグセットのことです。品詞など、言語的な属性を記述する仕組みが豊富で、野村の研究開発にとっても身近で馴染みがあったためにたまたま例としてあげさせていただきました。他にも、NTT研究所の淵さんが、一般ユーザに楽しみながらメタデータを付与してもらうオンライン・アプリケーションを10年位前に提唱されたのが先駆的な動きでした。アカデミックな研究が象牙の塔を出て、実社会(といってもサイバースペースですが)との接点において知識インフラの成長をはかろうとしたのは、「2.0」の先駆けだったかもしれません。OK Waveよりも先行していましたが、一般ユーザが「品詞」などを楽しんで付与するとは考えられず、無理があったともいえるでしょう。
ともあれ、ソーシャルの手を借りて、「あればめちゃくちゃ役に立つ」メタデータやその構造(オントロジー)を拡充しようとしたわけです。メタデータをコーディングする人を外注で雇い、巨額の研究費を使って少量のデータを作ろうとしていた90年代初頭までの国家プロジェクト的やり方ではうまくいかなかったし、もうお金もない、という事情が手伝っていたといえるでしょう。多数の一般ユーザの手をボランティア的に借りてセマンティック・Web的な仕組みをを建設しよう、という流れは前世紀末頃から目立ってきたわけであります。
その後、 Web 2.0で、データがとことん重要であり、ユーザ参加、そして、分類カテゴリ自体も、フォークソノミーという形で、緩く民主的に、ボトムアップに決めていく、という流れが、主流にまでなりました。大手WebサイトのCGM (Consumer Generated Media)、UGC (User Generated Contents) をテコにビジネスを拡大し、先行者利益を確かなものにする、という激しい競争原理の中で淘汰され、生き残ったやり方だ、ということもできます。
そんな中から、斬新で有用なアプリケーション機能も少しずつ現れ、SNSの様々なバリエーションによって、UGCの蓄積が進みました。四季折々の金閣寺の写真の中からぴったりのものを1枚選んで引用したければ、英語サイトのFlickrに行った方が便利で早いという時代がありました。しかし、Kinkaku-ji templeの写真が数万枚になってくると、 こんどは選ぶのが大変になります。それを解決するのに、意味的な属性(何月何日の何時頃、どんな天候の下でどの角度から、どう撮ったか)や、写真自体の解析結果、そして、主観的な評など、様々なメタデータが付いていることが決定的に重要です。このことを明らかにしてくれたのが、Web 2.0の大きな功績でした。情報量の爆発の結果、そうなるのは見えていた、という主張もありましょうが、後出しじゃんけんの主張よりは、実社会で実証されたことの意義を高く評価することができます。
昔軍事用のプロトタイプ製品が最高の機能・性能・品質を達成して(MIL規格)、それを民生用におろしていた時代は終わり、今は正反対に、民生用、それも無料サービスの中で実験的な先端サービスが提供された後で企業向けに徐々に取り入れられるようになりました。「これを”IT Consumerization” と呼ぶ」と、リアルコムの吉田健一取締役が2年ほど前に日本語でわかりやすく解説してくれています。
では、企業内や、地域コミュニティの内側で、インターネット全体で成立したようなソーシャルによる知識集積、コンテンツの集積や構造化が進展するものでしょうか? まず、参加者の絶対数が4、5桁少ないというハンディはいかんともし難いものがあります。あるテーマを細分化した興味ごとに、優秀な知見が違いに刺激し合って蓄積、成長していくほど、多数の専門家が控えている、という贅沢な前提は無理です。企業やコミュニティがある特定の専門テーマに特化している、とはいっても、その業界全体の知識や知恵をカバーしきれるものではありません。研究開発にしてもマーケティングにしても、それより2桁、3桁多い専門家が外部に記述した知識を活用するのが必須となるでしょう。
しかも、そのような知識、情報を手動でタイムリーに、必要となったコンテクストの中で「使える」形で取りこむのは至難です。常勝を誇るにはスーパーマンのような情報処理能力と、膨大な時間が必要。本業の合間にそうそう時間を捻出できるものではありません。 となると、人間に変わって、コンピュータ・エージェント、ソフトウェアの仕組みに代行させるしかないのではないでしょうか? メタデータの自動付与、メタデータ間の関連付け、メタデータを活用した高精度の検索と、それを支える、メタデータやオントロジーの共通化、標準規格が求められます。そうなってはじめて、バックに控える膨大な母集団情報からノイズレス、ピンポイントで必要な知識や情報だけをとってこれるようになる可能性があるのではないでしょうか。さらに、エージェントが新しい有用な情報や構造の候補を提示して、知識拡充自体も強力に補助することで、コミュニティ(あるいは個人)を中心とした知識拡充のサイクルが回っていく、という考えです。
"Crowd with Cloud"
低コスト、特に初期費用が格安で済み、その後も「使っただけ」料金を払えば良い仕組みとして、Cloud computingが注目をあびています。サーバやデータの保守の煩雑さから解放されたい、というニーズも大きく、不況の今こそSaaS、Cloudへの流れが一挙に加速する可能性は大いにあります。
これらは一般によく言われていることなので、KM研究会としては、ナレッジ創成、ナレッジ活用の仕組みとして今世紀になって注目されているCrowd Sourcingと結びつけて考えてみました。上図が現状を表し、下の方の図は、5〜10年後の姿を予測したものです。
上図では、ネット上の様々なマッシュアップの仕組みを利用して、自分にとって簡単便利なインタフェースを介して、背後の膨大な情報、知識を活用する姿を描いています。自分にとって簡単便利なインタフェースの究極の1つが昔のアッシー君、メッシー君に変わる、「ググ夫くん」「ぐる夫くん」。情報やレストランを検索するようなノイズにまみれた汚れ仕事はそれが好きで得意そうなボーイフレンドに任せてしまい、自分はケータイのメールを彼(ら)に送って待つだけという最近の若い女性のライフスタイル(?)です)。
本人が自らやるにせよ、代行してもらうにせよ、質の高い、有用な知識、情報をピンポイントで手に入れるにはコツが要ります。IE8アクセラレータのような「加速」の仕組みが求められるのは当然として、 その上の実際のサービス・メニュー、具体的な個々のコンテンツ・サービス、その仕組みを予め選定して、自分にとって便利な七つ道具のように整備、常備し、いつでも一瞬で取り出せるようにしておく必要があるのではないでしょうか。このように「なんとか用」「さらにこんな目的、状況で絞り込む場合」などの、道具の使いこなしノウハウみたいなものをオンライン・ツールの中に履歴、設定パラメータ(コントロールパネル)、メタデータ、オントロジー、のような形で保存しておく必要があるでしょう。
こうして、手元の道具が洗練され、発達していくと、それをCloudに投げて共有し、お互いに便利になろう、という側面からも、 Cloud Computingが進展していきそうな予感がしています。さすれば、さまざまな基本的な道具自体もCloudからその都度引っ張ってきて(Excelの計算式が瞬時に世界中からピンポイントで現れてくれるイメージでしょうか)、どうしても新作が必要なもの、ローカルでしか通用しないものだけ、コミュニティや個人の手元の手製の道具箱を使う、ということになるでしょう。CommunityはCommunity Cloudを使い、個人はPersonal Cloudを使う。個人は、なんらかのコミュニティに属して、主体的にCrowd の知識拡充に関わったり、お隣のコミュニティに助けてもらって知識、情報を借用したりする。借用するのは、知識、情報そのものであったり、それをその場で作り上げるためのデータ構造化のノウハウ、すなわち、メタデータやオントロジーのローカル規格だけかもしれません。
2月4日のKM研究会では、以上を15分程度で駆け足で喋りました。事後もメールでご質問、コメントいただき、大変感謝しております。そんな中から、かつて大変お世話になった、リコーの金崎技師長とのやりとりを引用し、本稿を締めくくりたいと思います:
・・・ご指摘のポイントは考えたことがなかったので有り難かったです。
kanasaki> SemanticがSocialに奉仕するというとき、Semanticは
kanasaki> さまざまなものに奉仕できてその一つがたまたまSocialなのか、
kanasaki> あるいはより本質的なつながりがあるのか・・・
ソーシャルは、ネット全体に比べると非常に小さなコミュニティ規模("社内"は全てそうですね。社内の同好の集まりとなると社員数の数10分の1、数100分の1以下でしょう)では、どうしてもセマンティック技術を必要としていると思います。その逆ですが、、まず、コミュニティから編集、エッセンスを抽出した結果をグローバルなSemantic Webにある程度の知識フレームをもっていくべき(個人もコミュニティ「世界」に貢献したいはずだから)。
こう考えると、普遍性のあるセマンティックのかなりの部分は、ソーシャルか産み出され、あるいは少なくとも検証されていく(そういえばオバマ政権で特許の審査に"市民レビュー"というWeb2.0的ソーシャルの仕組みを導入すると宣言されましたね!)、という意味で、セマンティックの発展も、ソーシャルに負うところが大きい、といいかとおもいます。
ps. 変わり種のIE8アクセラレータ "5W1H Mextractr" をリリースしました!
プレスリリースでは、「主要21社」の1つに入れていただきました。"メタデータ" "IE8" で検索してみてください。
マイクロソフトさんの下記公式サイト、または Mextractrサイトからインストールできます。便利な使い方など、時々ご紹介してまいりたいと思います。誘導先サービスや新機能のリクエストなど、いつでもコメントください。
http://ieaddons.com/jp/Details.aspx?Id=1912
おかげさまで好評で、ダウンロード数、評価数ともに好調です。
http://www.mextractr.net/ (FF3で使いたい方はこちらからどうぞ)
pps. 2/4 の開催にあたっては、日本印刷出版技術協会JAGATさんに会場を提供していただき、大変お世話になりました。この場を借りて、御礼申し上げます。
2009年01月26日
旅行関連の2サービスを2008年の10大セマンティック・ウェブ・サービスから
さて、先週23日に、西新橋のナレッジワークスさん にて月例のXML Consortium Web2.0部会を開催。
14名のメンバーが集まって、エンタープライズ2.0、中でもソーシャル、セマンティックの技術やビジネスについて広く深く論じることが出来ました。ナレッジワークスさんとIBMさんがエンタープライズ・サーチを活用し人)たソリューション提供に尽力されていることから、下記のような資料が「セマンティック」関連として紹介されました:
・IBMのEnterprise2.0, セマンティック的サービス事例:
「エンタープライズサーチ」〜OmniFind Enterprise Edition
http://download.boulder.ibm.com/ibmdl/pub/software/dw/jp/events/tn22-kawase.pdf
「エンタープライズ・マッシュアップ」
http://download.boulder.ibm.com/ibmdl/pub/software/dw/jp/events/tn23-moritani.pdf
「企業内に浸透しはじめたSNS、Enterprise2.0はこうなる」
http://www.xmlconsortium.org/seminar08/080624/data/080624-03.pdf
(3番目はXMLコンソーシアム会員専用)
セマンティック技術については、理事企業のNTTソフトさんの関わった取り組みも大変興味深かったです:
・次世代Web情報流通エンジンを用いた人材マッチングシステムiMAGE http://www.ntt.co.jp/journal/0804/files/jn200804062.pdf
私の方からは、多彩なセマンティック技術とその基盤、共通規格を開発し、広く公開しようとしている情報大航海プロジェクトにおける個々の取り組みを紹介しました:
http://www.igvpj.jp/index/pdf/08project_pamphlet_J.pdf
TripIt! は5W1Hを元に旅程を最適化、提案してくれるサービス
TripItは一言で言えばユーザの旅行計画を管理するアプリケーション。便利さの肝は、英語圏の主な旅行素材の予約確認メール(航空券、レンタカー、宿、鉄道、など部分的にでも) plans@tripit.comに着信を転送するだけで、「良きにはからった」旅行プランを作り、管理してくれるところにあります。
メール転送 → 旅程をまとめる
米国内で何か実際に手配して購入しないと本当の感触はつかめないかな、と思いつつ、当面出張の予定もないので、それはしばらく延期させていただくとして、感想を少し書きます。
「難しいところを回避して人海戦術でできるタスクに限定して、アプリ全体の完成をうまいこと前倒しにできたようだな」という感想であります。 つまり、数百種の一定の書式の予約確認メールのテンプレートを全部用意することで、そこから、5W1Hのパラメータを正確に(おそらく98%はいくでしょう)抽出。そこから計算し、割り出せる、旅程全体の最適化や制約条件の自動適用、管理あたりで頑張ったようだ、というものです。
ハンズオンで支援している非常に賢く、経験のあるVCさんが命がけで新しいアイディアを出すのに付き合ったようだな、という憶測も妥当に思えます。
弊社メタデータ株式会社の5W1H抽出エンジンMextractr の応用としても中盤工程以降は全く同じことを考えていました。先を越されて残念、というよりは、
・新市場開拓を先行して頑張ってくれてありがとう!
・中流・下流工程の要求精度(旅程の最適化や変更の精度)を、市場での実験でぜひ確かめて欲しい。
・特定のEmailレイアウトに限定したことがビジネスのネックにならないか、確かめて欲しい。
その上で、汎用の5W1H抽出エンジンとUIでどこまで上流を代替できるか、別の入り口、アイディアを出しつつ、旅程作り・修正(とても大変!)の自動化率向上に貢献してまいる次第です。
UpTake はWhat,Whereを入力すると訪問先を提案してくれるサービス
上図のように、入り口は、旅行全体のWhatとWhere、すなわち、旅行のテーマ、目的と、おおまかな場所(米国内ですが)を指定するフォームとなっています。旅程の中の個々のパーツ(飛行機とか)は、細かい位置の指定をFrom, Toで書いたり、移動時間とかの制約を入れたりする必要がありますが、ここでは、まずはざっくりとしたターゲットの場所を指定させるというコンセプトのようです。
ここでWhatとされているのは、Whyすなわち、旅行目的、旅行コンセプトに近いと思います。個々の旅程のitemごとのwhatならば、 「***博物館見学」とかの, ToDo itemになることでしょう。
1つ残念なのは、上図のように、 golf watching と入れたら、腕時計ショップの案内が上位にならんだこと。ゴルフ場の案内もありましたが、ツアー観戦という理解など、単語間の意味の関連性はまったくとらえてくれなかったようです。現在進行形のingを切り落とすなど、英語形態素解析はかけていますが、格構造のような意味構造は拾えていない、、いや、単純に、単語表記を正規化してAND条件をとることもしていない、と想像されます。
よくある素材検索の集約(マッシュアップ)サービスに、5W1Hの一部の構造を導入して利便性を高めようとした、という感じでしょうか。
機械が自動処理すべきはずの事実情報。5W1Hに凝縮された事実情報を活用して、マッシュアップやリンク自動生成による付加価値増大に正面から取り組んでいるサービスはとても大切。今後も鋭意ご紹介してまいりたいと思います。
2009年01月19日
2008年の10大セマンティック・ウェブ・サービス紹介サイトなど
先日、1/9に品川の日立システムアンドサービスさんで開催された XMLコンソーシアム Dayで、Web 2.0部会のメンバーが、セマンティックサービスについて話してくれました。技術や規格、そして「ソーシャル」との接点の1つとして期待されるOpenSocial APIを紹介してくれたのは東芝ソリューションの西一嘉さんと、日本ユニシス小林茂さん。セマンティック的なサービスの事例については、日立システムアンドサービスの湯本正典さんが日本のkizasi(流行る兆しの言葉をジャンル別に自動集計し紹介)と、海外のTwine(知識編集)を。IT Frontierの加藤晶子さんがレストラン検索のBooRahを。そして、ナレッジワークスの亀山悦治さんがSemanticの技術をブロガー向けに提供するZemantaを紹介してくれました。
個々の内容は、XMLコンソーシアム・サイトの掲載資料に委ねます。ここでは、これらのサービスを選ぶ1つのきっかけとして小林さん、西さんが紹介してくだったTop 10 Semantic Web Products of 2008の概要と、その中から旅行サービのユニークな側面を紹介したいと思います。
セマンティック, Sematic, semantic ..
XMLコンソーシアム Dayは、対外的な講演で、XMLやWebの技術に通じているわけではない聴衆の方に、新サービスやテクノロジーの本質を伝える、という使命があります。そこでWeb 2.0部会の最初のところで、湯本さんが次のようにすっきり整理して説明してくれました:Semantic Web:W3Cで定義されたもの (Tim B. Leeの提唱)
semantic web:広くメタデータ等を利用したもの
semantic technology:情報の意味や関連性等を理解しそれに基づいて処理を行うもの
semantic service:semantic technologyを利用したサービス
米国西海岸主導のWeb 2.0派は(東西海岸の対比の記事はこちら)、どちらかというと後者のmicroformatsを支持する局面が多いとか、より大規模で統一的な世界知識ベースを指向する人は前者の"Semantic Web"を指向する人が多いようです。また、microformatsは、HTML言語にSemanticなタグを埋め込んだという意味でクライアント側から、ボトムアップに少しずつ便利にしよう、というアプローチであり、 "Semantic Web"はサーバー側で正確な意味の摺り合わせができるようにきっちり決めて統一していこう、というアプローチといえるでしょう。このあたり、技術が語られる文脈によって、適切な解釈、ニュアンスを使い分けていただけると良いかと思います。
2008年の10大セマンティック・ウェブ・サービス紹介サイトから5本
readwriteweb.com という先進的なWebの技術やサービスの最新状況を紹介するサイトに、Top 10 Semantic Web Products of 2008があります。実は、もう10本のサービスが同サイトで紹介されていますが、こちらは適宜またの機会に触れるとして、Top 10を駆け足で眺めてみましょう。1. Yahoo Search Monkey:
検索のためのオープンな開発者向けプラットフォームです。 自社のみが開発し、サービス・インするのであれば、別にその内部の情報構造を開示する必要はありません。しかし、多くの外部の協力を得て、セマンティックな構造化を行い、共通的に洗練させていこうというのであれば、自社固有のメタデータ構造を開示するか、Semantic Webなど公開の共通規格をもちいて従来の様々な意味構造(ソーシャルグラフとか)を書き換えて、データの可搬性も高めていかねばなりません。こうして協力を募ったデータの所有権を認め、それを用いたアプリの開発を外部に奨励することで、オープンなセマンティック・インデックスの開発に着手した、ということで、極めて高く評価されています。共通メタデータ、インタフェースには、RDF (Semantic Webの基盤層) だけでなく、microformatsや、Atom, RSS, そしてOpenSearchなどのAPIやページ抽出のインタフェースを柔軟に採用しているようです。2. Powerset :
前回のブログでご紹介しました。 Top 10 Semantic Web Products of 2008のさらに先のリンクを参照いただければ見て取れるように、あたかも文章を理解しているがのごとくに振る舞う、ピンポイントに絞り込む能力の高い検索エンジン用の自然言語処理技術です。MSNがこれを用いてどう精度向上してくれるかが注目されています。検索エンジンの仕事は、他に「検索可能なカバレージの拡大」、「高速化」、そして、もっと基礎的な部分でのランキング結果の改善もあるので、現状のUIでは結果が見えにくいかもしれません。とはいえ、意味選択能力を備え、人手によらずに自動でセマンティックな領域で問題解決をしてくれるエンジンということで、依然高い注目を集めています。3. Open Calais :
これは、ある自然言語処理ベンチャーをロイターが買収したメタデータ自動抽出エンジン、サービスです。実は、カバレージや解析の深さは違うものの、私の会社、メタデータ株式会社のMextractr 5W1H抽出エンジンとかなり似たことを英語(近く仏語も出るらしい)でやってくれるサービスです。意味属性の識別を、モノ名詞や数量表現を中心に5W1H階層化して詳細に(300数10種類)解析可能なMextractrに対し、イベント(出来事)の分類がやや細かく、他は大雑把であること、正規化や数値化して、他の表現メディア(地図、カレンダー他) とすぐにマッシュアップできるようにする、などの機能は無いようです。しかし、最新のVersion 4 では、Wikipedia, GeoNames、Internet Movie Database (IMDB), Shopping.com 等の巨大Webデータベースとリンクしたり、他の人々とメタデータを共有する仕組みを充実させ、商用サービス指向を強めています。4. Dapper MashupAds :
Dapperは、一時期多くが名乗りをあげたマッシュアップ作成サービスでしたが、その発展のためのビジネスモデルを考えた結果、 広告を適切に「マッシュアップ」する仕組みで差別化をはかろうとしているようです。確かに、現状のAdSenseなど、ブログなどの広告スペースに自動供給される広告は、「なぜこんな広告がこんな無関係な文章の下に出るのだ?」と首をかしげることが多いです。そこへ、「このスペースにはこんな意味内容の広告をはめ込んでね」と宣言できるような仕組みがあって、コンテンツ作成者、Web制作者・運営者側が少し歩み寄れば、大きく改善するのでは、とDapperの開発者達は考えたように思えます。5. hakia :
Powersetと同様、自然言語の意味解析により精度を向上させようとしている検索エンジンです。検索対象よりも質問文を解析することを重視しているとのこと。 OntoSemという独自技術や、Semantic API の提供、Yahoo! BOSSの初めて利用して広大なYahooのインデックスと連携した、などが特徴。次回は、5W1Hメタデータが縦横無尽に活躍し、自動的に旅程を最適化してくれるような、具体的なサービスから紹介してまいります。
どうかお楽しみに!
最後に、この場を借りて、セマンティックに関係ある直近の学会研究会のご紹介です。
どなたでも無料でご参加いただけますので、奮ってご参加ください。まだ空席ありますが、お早めのお申し込みをお奨めいたします。
【ご招待】2/4 第10回KM研究会 「ソーシャル vs セマンティック」 KMを加速するのはどちらか?
2009年01月12日
英語で流行ったセマンティック・サービスが日本(語)でも流行るとは限らない
初回の最後にセマンティック・ウェイブというタイトルにした理由を書きました。このタイトルは決してオリジナルではなく、そのものずばりの名前のサイトがあります:
http://www.semanticwave.com
また、Semantic Wave 2008というレポートが、project10xというところから出されています。若干の個人情報と引き換えにExecutive Summaryを下記サイトの下方からダウンロードすることができます。
http://project10x.com/
この中で、「現在始まろうとしているWeb3.0は、意味表現のWebであり、散在する知識を結びつけるものだ」、としています。つながった知識をうまく働かせ、もっと自分の作業に関連ある有用かつ楽しい体験としてインターネットを使いこなせる仕組みがSemanticなWebである、と主張しています。
Semantic Technologyがいずれ5兆円市場となる、という報告は実は3年前に出ています:
http://findarticles.com/p/articles/mi_m0EIN/is_2006_Jan_11/ai_n26723778 決して煽るわけではありませんが、かといって筆者の独りよがりでもない点お含みいただきたく、紹介させていただきました。
日本語での紹介
日本向けに、「Webを変える10の破壊的テクノロジー」の最終章に「セマンティック技術」をあげたのは、JETROの渡辺弘美さんです:
http://www.csaj.jp/government/other/2007/070626-1_jetro-ny.pdf また、週刊アスキーに長年「仮想報道」を連載されている歌田明弘さんが、ドイツをはじめ欧州でセマンティック技術の研究開発が盛んなことを書いておられます。
「なぜかグーグルが興味を示さないセマンティック検索」
「国をあげてグーグルに対抗しようとしているヨーロッパ」
単語の意味推定は日本語の検索でも十分有効?
上記の引用でも紹介されている単語の意味推定を目玉としたPowersetのセマンティック検索ですが、買収したマイクロソフトが検証を重ねているという報道があります:
「MS、Live SearchにPowersetの技術を取り入れ」
結果は、英語は数千単語程度だったのに対し、日本語側は、1万前後の単語数となったとのこと。これを、日本人の方が知性が高いなどと誤読するのは早計も甚だしいわけです。 ほぼ同等のコミュニケーションの内容、質、量であったのに、異なり単語数に2倍以上の開きがあったことを素直に解釈すれば、1単語の意味の数に2倍以上の開きがあったから、ということができます。ここではその理由、原因まで深く追求することはしません。1つだけ想像すると、英語国民の方が新しい事物に出会ったとき、なるべく平易にネーミングする傾向があるのに対し、日本語では難しげに新規の名前を付けたりその概念専用にカタカナ語をあてがったりする傾向があるからかもしれません。
ともあれ、この結果を受け入れるなら、日本語処理の場合、単語への分かち書きさえすませておけば、英語に比べて、検索キーワードが複数の意味をもつ頻度はかなり低いことになります。とすると、日本語のキーワード検索の体感精度向上のためには、何か別のことを優先的に(前倒しで)実施した方が有効となる可能性があります。別の施策を優先し、単語の意味の推定は後回しにした方が良いかもしれないのです。
かように、セマンティックの時代には、テクノロジーやその活用について、言語依存性、文化依存性が深まっていくことが考えられます。海の向こうで流行っていることが必ず「次に来る」などと早計せず、自分の目で、本当に役立つ技術を峻別し、ライバルに先駆けて採用していくような思考法が求められるのではないでしょうか。
本記事は、2009/01/12のCnet記事の引っ越し掲載です:
http://japan.cnet.com/blog/nomura/2009/01/12/entry_27019365/
2009年01月10日
2009年は"セマンティック・サービス"元年
2009年、"セマンティック"なサービスが頭角を現してくる、と確信し、本ブログを始めます。"セマンティック" って何?といえば、『意味処理』のことだよ、と簡潔に答えることはできます("意味"って何?という難問はスルーしちゃって ;-)。しかし、なぜ今"セマンティック"なアプローチが必要とされるようになったか、Web 3.0の本命とまでいえるのか、そもそも何が"セマンティック"なのか(普通の自動処理と何が違うか)、などの様々な疑問に答なければ、、ちゃんと理解したことになりませんよね?
実際に様々なサービスを試用しつつ、その本質を理解する必要がありそうです。そして、これらのサービスがさらにどのようなニーズを喚起していくかを体感することで、次世代のWeb体験を予測していけるようになる気がいたします。
そのためには実際に様々なサービスを試用して、セマンティックの本質を理解する必要もありそうです。これらのサービスがさらに次のニーズを掘り起こすこともあるでしょう。このようにして、皆様が次世代のWeb体験を予測していくのを僅かばかりでもお手伝いしていけたら幸いです。
ごあいさつ
あけましておめでとうございます。長年、自然言語処理、中でも意味、概念を扱う深い処理や、文脈解析の産業応用を手がけてきた野村直之と申します。公的な場での執筆は、2005年に "Web 2.0 for Enterprise" と言い出して、2006年3月から1年間、同名の連載コーナーを日経IT Proにもって以来となります。どうぞよろしくお願いいたします。
機械翻訳、情報検索・要約の研究開発に取り組んできた手応えから、自然言語処理は、おそらく永遠に精度100%には到達しない、と悟りました。だから、機械とヒトが協力して少しずつ精度を上げ、意図通りの動きをさせる仕組みを作るための基本的な道具立てとして、XMLとSemantic Webに注目してまいりました。実はWeb 2.0も、データ中心主義、中でもUGC(User Generated Contents;和製英語でCGM)を梃子に成長したサービスの多くは、XMLと、Semantic Web的な仕組みの一部を活用していました。たとえRDFなどのSemantic Web自体の規格は使っていなくとも、何らかの意味をもった「タグ」によってコンテンツ間を関連付けているからです。そのパワーの片鱗は、YouTubeやFlickrの隆盛をみただけでも感じ取れるといって良いでしょう。
"ポストWeb 2.0" のニーズについて
では、"2.0"の次は何か?といわれて "セマンティック(Semantic)" が注目されるのはなぜでしょうか。次のような背景、事情が考えられます。(1)"タグ"の類の共通化が足りなくて不便である
(2)既存のナイーブなタグだけでは爆発した情報量に対応できない
(3)特に、従来のWeb全文検索では思うような整理された検索結果が出てこない
(4)ソーシャルフィルタリングでは分類・秩序立てが不十分だったり弊害が生じる
(5)Webアプリケーション群の上で何かの作業をやるのにコピペして検索したりなどの人手の雑作業が多すぎる(つい脱線してしまい知的作業が効率低下)
(1)「"タグ"の類の共通化が足りない」ですが、例えば、SNSのプロフィール発信用の語彙(タグ)とXMLの構造について、OpenSocialを作って共通化がはかられています。汎用のメタデータ標準なら、以前からDublin Core(意味の標準), RDF(表現の標準)が提供されてきました。RDFは汎用的過ぎて使いにくかったり高速・リアルタイム処理向きではない面がありますが、徐々に普及してきているようです。
(2)「ナイーブなタグだけでは爆発した情報量に対応不可」で思い出すのは、"Web 2.0"のFolksonomy(フォークソノミー)です。Folksonomyでは、分類名をユーザ、コミュニティ参加者が自由に付けることができるため、付け方が不統一で綴り誤りもあったり、その場のコンテクストを共有する者("スレ(thread)を読んだ者")の間でしか意味が通じ合わなかったりする弊害がありました。何より、似て非なるサービス、全然違うサービスと組み合わせて、コンテンツを連携させたいというときに無力だという問題もありました。要するに、ある程度以上はスケール・アップし難いわけです。また、タグ間の関係付けを機械が(Webが)理解していてくれれば、もっと気の利いたサービスができそうな気がします。
(3)「従来のWeb全文検索の限界」について。ジャーナリストの佐々木俊尚さんや欧州の検索関係者、日本の情報大航海プロジェクトの関係者、エンタープライズ・サーチの唱道者らが、従来型Web検索の問題点を指摘し続けています。キーワード検索だけではノイズが多くて、情報量増大に追随できないというのです。Powersetのように、綴りが同じ単語でも意味の違いによって検索結果を分ける、という解決の試みがあります。また、Cuilのように、検索結果をジャンルごとに秩序立てて分類、表示するという、別の側面からの解決の試みがあります。他にも沢山のことがなされるべきであるように筆者には見えます。
(4)「ソーシャルフィルタリングの限界」ですが、そもそも、多数派に支持されたコンテンツがひたすら目立つようになることへの危惧があります。ガリレオ・ガリレイの「それでも地球は回る」(ローマ法王庁は1992年になって地動説を公式に認めました。それくらい往時の多数派の圧力は強い!)ではないですが、少数派の意見や、注目されない事実が、しかるべきタイミングで必要な人の眼前に【必ず】現れてくれるようにしたければ、ソーシャルフィルタリングとは違った仕組みが必要になりそうです。
(5)はWebアプリケーション上の能動的な作業、創造的な知的発信のための環境や道具立てについてです。こうしてブログの原稿を書いていても、しょっちゅうコピペをし、何かを調べたりシミュレーションするためのサービスを探し、選び、その結果に基づいてさらに引用したりしなかったり、という作業を行っています。相当な集中力がないと、「あれ、今の作業はそもそも何の論拠を探していて、何をどうわかりたいためにやってたんだっけ?」と本題から脱線しがちです。何故でしょうか? どうもまだまだ雑作業が多いせいではないでしょうか? Web上のコンテンツどうし、機能(サービス)どうしでうまく連携してくれれば、もっと本題を考えるのに集中できるような気がしはしないでしょうか?
(6)以下に、「安心して情報共有する仕組みが無い」とか、「文章と動画(絵コンテ)など表現メディアを自動的に関連付けたり相互変換してくれる仕組みが無い」とか、あげることもできるでしょう。これらを含め、個々の具体的なアプローチについては、おいおい時宜をとらえてご紹介したいと思います。
ここでは、どうも、以上全てについて何か、「セマンティック」と総称できる新しいインフラ、技術、サービスが求められているらしい、とだけ指摘しておきたいと思います。
なぜセマンティック・"ウェイブ" としたか
ここで、「なぜセマンティック・"ウェブ" じゃないの?」という質問に答えておくべきでしょう。セマンティック・ウェブの提唱者は、Webの父Tim Berners Lee卿です。彼には数回お会いして、気さくに話しかけられたこともあるし、お世話になったMITに本拠を置くW3Cには多大な敬意をはらっています(それでもWeb 2.0の"アンチW3C"的な性質が今日のWebの隆盛を支えた面は否定できないとこちらに書きました)。にも関わらず、いくつかの理由で(これについてもおいおい書きます)、彼のSemantic Webが全面的に次世代のWebを支配するとは思えないところがあります。
Semantic Webを使いやすくすべく補強するだけではなく、単語の意味選択からエージェント的な仕組み、個人情報保護と情報共有を両立する仕組み、5W1Hによるコンテンツ間の半自動連携に至るまで、様々なセマンティックなサービスが次々と誕生して、ポストWeb 2.0のWebを便利にしていくのではないか。
この動きは、単なる技術だけではないし、新たなニーズが次々とさらに贅沢なニーズを喚起する側面もあります。また、昨今、アテンション・エコノミーが意識され、人々の時間こそが至高の稀少資源(他のモノやサービスは潤沢に只同然に提供され得る)となっています。こんな時代に、Webの先端的な部分にあるセマンティックなサービスが個人の情報活動、ひいては購買活動、そして企業の業務に影響を与えないはずはありません。
今後、さまざまなセマンティックな技術、Web上のセマンティックなサービスを取り上げ、膨大な情報と向き合う人間を支援する試みと、その市場を展望してまいりたい。そんな意味で、セマンティック・ウェイブというタイトルとした次第です。どうかお付き合いいただけたら幸いです。
本記事は、2009/01/09のCnet記事の引っ越し掲載です:
http://japan.cnet.com/blog/nomura/2009/01/09/entry_27019325/
2008年11月28日
Mextractr for MashupをXMLコンソーシアム製品セミナで発表中です
「メタデータ、企業内の「眠れるテキスト資産」を有効活用できるデータ統合ツール」:
http://techtarget.itmedia.co.jp/tt/news/0811/27/news02.html
「メタデータ、企業システムのデータ統合、WebAPI化、情報活用促進のための「Mextractr for Mashup」を発売」
http://japan.zdnet.com/release/story/0,3800075480,00040423p,00.htm
http://www.xmlconsortium.org/seminar08/081128-1218/081128-info.html
14:00-14:30
製品名:Mextractr for Mashup
会社名:メタデータ株式会社
製品概要:
Mextractrは、テキストから5W1Hの記述(いつ、どこ、誰、何、どう、いくら etc)を抽出します。抽出した5W1H情報は、元文書のメタデータとして文書管理に活用したり、 個人情報の発見や名寄せに活用できます。Mextractr for Mashupは、不定形テキストをマッシュアップ可能な情報へと加工するお手伝いをします。日付や場所を抽出し、正規化、数値化することによって素材間の意味ある紐付け、連携を可能にします。
社員一同、猛烈な頑張りで本日に備えてまいりました。XMLコンソーシアムの皆様、とくにイベント担当運営委員諸氏には大変お世話になりました。
代表の野村は基調講演者として本日発表の7製品の位置づけ、特徴を話したり、「グランズウェル」、「ソーシャル・テクノグラフィクス」といったEnterprise2.0化に有用な新概念の話をさせていただきました。
様々なお問い合わせ、お待ちしています。
news@metadata.co.jp
2008年09月07日
製品の正式名変更と社長ブログのMextractr関連記事
今月に入って、Mextractrメタデータ自動抽出エンジンをもとにした製品の正式名を、Mextractr個人情報フィルタに変更しました。
理由は、検索エンジンに、旧名称の一般名詞部分 "プライバシ・フィルタ"を入れると、液晶の視野角をわざわざ狭めるためのプラスチック板の広告ばかりがヒットするためです。
製品開発の舞台裏の話や、関連のビジネスの話題を書いた野村直之社長のブログはこちらです。
整理した内容をいずれ本コーナーにも掲載の予定ですが、速報として、上記の動的リンクをご利用いただければ、と思います。
試供版のお申し込み、順調に承っております。
少しでも多くの企業様にご利用いただくため、同じ社内での早いもの勝ちのような事態も生じているようですが、悪しからずご了承ください。何らのしばりもありませんので、お早めのお申し込み、お待ちしております。
2008年09月04日
Mextractr WebAPI利用のサンプルソースを掲載
http://api.emetadata.net/mashup/samples
Ruby、C#、Javaでのマッシュアップを素早くお試しになりたい際にご参照ください。
コード中のAPIキーの部分は、http://api.emetadata.net/signup から取得して置き換えてください。
# APIキー(取得して置換してください)
url += "&apikey=XXXXXXXXXXXX"
Program p = new Program();
p._key = "XXXXXXX";
//APIキー(取得して置き換えてください)
String key = "XXXXXXXXXXXXX";
2008年08月06日
ブログのタイトルを変更(拡張)しました。
2008年01月15日
サムネイル取得に代替API活用機能を実装しました
これまでは、API情報提供の各種サイトから引用させていただいていましたが、サムネイル生成APIを活用して、API提供元サイトのページからサムネイルを生成、取得するようにしました。
使用APIは以下の2つです。
*スクロール分までOK「IgWebCap 自動更新サムネイル生成サービス」
*HeartRails Capture
なぜ2つ?とお思いになる方もいらっしゃると思います。
そこが今回の工夫のひとつ「代替API機能」なのです。
Mashupアプリで心配な点のひとつに、WebAPIがメンテナンス中だったときや、急な負荷などでダウンしていたときどうするかという件があります。
そのような場合に備えて代替可能なAPIを呼び出せるように実装すれば、動作を保証できる確率が上げられます。
上記の2つのWebAPIは、動作の詳細指定方法などは異なりますが、機能上、api-matchが期待する動作を2つとも満たしています。一方を呼び出して、応答がない場合や失敗した場合などは他方を呼び出して、サムネイル生成の成功率を上げるようにしました。
ある機能の動作安定性を確保したいという場合に、実装を検討してはいかがでしょうか?
api-matchで同じ検索条件で見つかるAPI群の中から、機能概要やプロトコル、出力形式などを見比べると、代替可能なものを見つけやすいかと思います。ぜひご活用を!
2007年12月26日
[お知らせ]IE6での表示崩れへの対応をしました
回避策として、ブラウザがIE5およびIE6の場合には画面幅を970ピクセル固定としたレイアウトを使うように指定しています。
このため、IE5,IE6をお使いの場合には、これまでと異なり固定幅での表示となりますことをどうぞご了承ください。
(この表示指定では、ブラウザの文字サイズ「中」の指定のときにバランスのよい形になっていますが、その他の文字サイズでもお使いいただけます)
この件につきましてご指摘、ご意見をまことにありがとうございました。
今後とも機能拡張・改善を行ってまいります。
ひきつづき、API-match.comをどうぞご活用ください。
2007年12月18日
[お知らせ]日本語で海外API検索機能・メモ機能追加しました
・国産に加え、海外発のAPIの多くを登録し日本語で検索可能に。
・検索結果の1行要約も日本語で表示。
・新たにWebサービスの分類カテゴリを各APIに付与。
・ユーザが興味・関心のある分類カテゴリをチェックすることで、
該当するAPIの情報が現れた際にフィードで購読できる、
ウィッシュリスト機能を提供(ユーザ登録不要)。
・海外の有料版、サービス保証付WebAPIなど、登録データを大幅に
拡充しつつ検索を高速化。
・APIにメモを記入したり、公開されているメモを閲覧したりするメモ機能を追加。
・登録ユーザ向けに次の機能を新たに提供:
−「過去(1日、1週間、1月、すべて)の閲覧履歴を呼び出して活用」
−画面カスタマイズ(詳細画面の初期表示有無とライセンス文の表示量)
−個人メモ(非公開可)機能
操作につきまして:
検索機能の強化については、これまで同様に使っていただくことで、より充実した検索結果をご利用いただけます。
その他の新規機能については、可能な限り「見てわかる」インタフェースを目指していますが、オンラインヘルプにも追記いたしましたので参考にしてください。
今後も、ユーザの皆様からのご意見をもとに、より使いやすいサービスへと、改良を重ねてまいります。ひきつづきご活用いただき、マッシュアップ企画・開発に役立てていただけたら幸いです。
また、お使いになってのご意見、ご感想もひきつづきお待ちしています。
2007年12月14日
[お知らせ]12/12の「一時的に不安定」の状態への対応をいたしました
検索時の動作を変更し、よりメモリ消費を少なく、また、検索精度(主に適合率)を向上させるようにしました。これにより、Rubyプロセスが落ちる確率が低下しました。
また、検索結果の表示仕様を一部変更しました。100件を超える結果がある場合には、100件までを1頁とし、「前へ」「次へ」で100件ごとにアクセスできるようにしています。
このたびはご迷惑をおかけいたしました。また、「軽い検索」へのご協力をまことにありがとうございました。
今後も機能性・安定性ともに向上を目指してまいります。ひきつづきご愛用ください!また、ご意見・ご指摘、リクエストもお待ちいたしております。
GX100にワイコン
本体に近い重さがあってずっしりですが、実に楽しい、面白い、です。
お仕事で使うときは、知人のオフィスをとーっても広い部屋のように写すことができて喜ばれます。
また、会議の報告なんかでも、一般のコンパクト・デジカメでは不可能な、堂々とした全員写真を簡単に撮れます。
百聞は一見にしかず:
http://www.xmlconsortium.org/wg/web2.0/07/071130web20minute.html
デジ一眼+超広角レンズと比べて大変手軽でありがたいです。
2007年12月12日
[お知らせ]12/12 一時的に不安定になっています
現象としては、数百件以上ヒットするような検索語の投入時にRubyプロセスがOS(Unix)の Memory allocation エラーにより落ちることが確認されています。本日のところは、やや特殊なテーマ、適用領域が比較的狭いAPIを探索していただけると比較的長く使い続けられると存じます。
ご迷惑をおかけしますが、何卒どうぞよろしくお願いいたします。
2007年12月05日
SaaS World 2007でAPI-match.comをデモ
株式会社リクルートのブースでの「マシュアップ ライトニングトーク10H」では、多くのマッシュアップが開発者によってデモ・紹介されました。
ここに弊社もAPI-match.comを紹介する時間をいただいて参加しました。SaaSへの各種企業の期待感が高まっているのを示すように、イベント全体がとても賑わっていて、ブースでの説明にも人だかり。多くの方々に、マッシュアップ支援ツールの存在をお知らせすることができました。
Mashupediaサイトでの紹介記事
NextWeb Japanサイトでの紹介記事
2007年11月26日
[TIPS]メタなキーワードによる検索「 管理 」など
我々も、我々の友人もよく、
「いかにもエンタープライズの香りのするAPIはないですか?」
と訊かれることが多いです。
とりあえず「 管理 」と入れてみてください。結構多数ヒットします。(80件くらい)
Eメール配信サービス『ExactTarget』
タイムシート・マネジメント『Tiktrac』
→うん、個人向けじゃなさそうです。
FeedBurner フィード管理API
→バリバリにビジネスでしょうね。数1000本のフィードを読んでいる個人にも必要かもしれませんが。
オンライン広告管理『Yahoo Ads』
→これを個人で使えば、個人事業ですね。普通の小規模アフィリエータにも役立つのかなぁ。。
プロジェクト管理もWeb APIで「Backlog API」
→これもときどきブログ等で紹介されてますね。
オンデマンドの人材マネジメント『Employease』
→セルフサービスの人材獲得ツール??
CRM(顧客関係管理)サービス『Salesforce.com』
→100%企業向け。
企業向けドキュメント管理サービス『NetDocuments』
→100%企業向け。
写真の管理と共有のサービス『Google Picasa』
→これは基本的には個人向け。
「会議」だとヒットが数件ですが、これ:
会議室あります「ミーティングプラス 貸し会議室API」
→中小企業や、会議室が満杯でピンチ!のときに便利かもしれません。
それではまた、、
ps. 近くリリース予定の「公開メモ」機能は、素晴らしいことを書いていただいたら、DB本体の説明文等に組み入れさせていただけるよう、ライセンスを整備したいと思っています。
2007年11月12日
MA3の賞金はこれに化けました
GR-Dという高級コンパクトデジカメのズーム版で
7-8万円の頃、指をくわえてみていましたが、ちょうど
受賞のしばらく後に、5万とちょっとまで値下がり。
それまでは、仕事に個人所有のカメラを流用していた
ため、一も二もなく、買ってしまいました。
・35mmカメラ換算で、24mm-72mmの広角寄り標準ズームで室内に抜群に強い
・Video Camera(HDV)内蔵の44mm-440mmと見事に使い分け
・8GBカードが使えて、動画が6時間取れる
・1cm広角マクロ、4cm望遠マクロを駆使したボケは素晴らしい
・1:1の正方形フォーマットが6x6のハッセルを使っている気分
・・・
ROWA製の小型バッテリを2個1140円で買い足し。
これで十分ですがそれでもいざというときは、単四2本で動くので安心です。
センサーの小さなコンデジで広角にするにはレンズに大変な技術が必要。立派です。
そういえば、24mm-72mmというのは、EF24-70mmL という20万の標準ズームとほぼ同じ画角。おまけにステップズーム24,28,35, 50,72で、単焦点5本を切り替えている気分にもなれる。
素晴らしいです。写真のように、
先週のサンノゼ出張でアップル本社のストアで買ってきた首かけストラップをつけています。
Mashupediaさん、どうも有難うございました!
2007年11月03日
[お知らせ]「サマリー行をダブルクリック」して詳細表示可能となりました
検索結果表示画面の凡例として次を出しています:
¥商非限文RJ xxxx これはまだない「名無しのAPIサービス」
各文字に凝縮された意味についてはヘルプをご参照ください。
この行は実は内部的にはボタン・オブジェクトになっています。
2つの詳細画面に展開して見比べる、というのが本アプリのGUIの特徴ですので、そのどちらに出すかの指定にはDrag&Dropが必要だし自然。
こう考えて今の仕様ができたのですが、マウスでなくトラックパッドをお使いの方や、キーボードからなるべく手を離したくないという向きにはご不便をおかけしたかもしれません。
そこで、今まで「空席」だったダブル・クリックというアクションに機能を割り付けることにしました。シングル・クリックですと、Drag&Dropの最初の動作と区別できないので、機能の割付が無理だからです。
ここで2つの選択肢のどちらが良いか社内で議論。
最後まで悩ましかったです。
(1)いつも一定の場所に展開されてほしいから必ず左側に出現
(2)一番最近、意図して表示したものは消したくないはずだから、そちらを残して、古い方を上書き
いずれにしても、検索結果表示画面や、右上のマッシュアップの「ボウル」には残っている場合が多いので、残さなくて良い方の画面にDrag&Dropしてくれば、意図通りの比較はできるはず。その手間をかけずに俊敏に分析、企画を進めていけるのはどちらの仕様だろう、という議論だったのでありました。
まだ最終結論は出ていません。
現状は(1)です。
使ってみて如何でしょうか?
登録ユーザ様用のコントロールパネルに、どちらにするかの設定機能があれば良いかなぁ、とも思いますが、その場合でも、ゲスト様用のデフォルトをどうすべきかの問題は残ります。
他の機能追加の末にいずれ決定的理由が出てくるかもしれませんので、しばらくはこのままでまいろうかな、と思っているところです。続きを読む
2007年10月30日
[お知らせ]ユーザ登録、ユーザごとの閲覧履歴の再利用ができるようになりました
標記のとおり、ユーザ登録および、ユーザごとの過去の閲覧履歴の再利用ができるようになりました。
ユーザ登録のメリットは以下のとおりです。
* 検索、閲覧の回数制限がなくなります。(ゲストの検索は1日30回、API詳細閲覧は1日50回、企画書作成は1日3回までです。)
* 以前の閲覧履歴を呼び出すことができます。
* 画面表示の個人設定を指定して保存しておくことができます。
現状でのメリットはこの3点ですが、今後もより便利に使っていただける拡張を用意していきます。
今回の機能追加時に悩まされたのは、実は、ブラウザ間の表示の差を最小限にすることでした。IE7は特に、ボタンのwidthや、divのマージンなどに、指定・変更の余地のない(ように見える)値が設定されているようです。CSSで、idを指定して明示的にmarginやpaddingを0にしても(IE6やFirefoxでは反応するけど)反応しませんでした。悩ましいところです…。各種のブラウザに対応しているマッシュアップ開発者の方々、よい手がありましたらぜひ情報共有させてくださいませんか?
現状、IE6,IE7,FireFoxでの動作・表示確認をしてリリースしています。
追加機能のリクエストを歓迎しています!
ユーザ登録時にご案内する問い合わせ先ほか、この日記へのコメントもお待ちしています。
2007年10月27日
alternativeブログ「IT-とくにメタデータと音楽」をリンク
最近はapi-match.comを使って考えたことを時々書いています。
2007-10-20 FC2ソーシャルスパム対策 のクチコミ情報:18件
↑api-match TIPSのカテゴリに入れて良いかな。
国情報の追加•変更促進 Skype-IE 7.0.6の不思議なメタデータ
↑これは、Junyaさんにご意見伺いたい気がします。一般のブラウザでIPテレフォニーができるようになるとJTAPIなんかよりも、WebAPIによるマッシュアップが主流になるかもしれない、と。
2007-10-19 直鳥さん、内山さんのインタビューから
↑特に印象に残ったお言葉を抜粋した感想文です。
07-10-21 請求額確定通知 RSS
↑ Web 2.0関連のテクノロジーがどのように一般向けに応用されつつあるかについて、身近な話題を例に感じたことを書きました。
2007年10月23日
[TIPS]メタなキーワードによる検索 「 有料 」など
具体的な名称以外に、各種APIの属性名や属性値、といったメタなキーワードを入れて、意味のある結果を得ることができます。
例えば、有料 と入れてみてください。
現時点で11件くらいヒットします。
そのうち、5件が、「¥」マークがついています。
mashupedia APIの方、というか、その元のDBの方に依存している面もあるのですが、「30日の無料お試し版と有料版がある。」というAPIのデータがどうなっているか、要確認です。このあたり抜本的対策として近い将来は原作者、1次サイトと結んで、リアルタイムに正確性が保てたらなぁ、と思います。
APIの説明文に、なんらかの意味で「有料」という言葉がでてくるために、正しく「¥」なしの結果が出ることもあります。
例えば、文法的には合っているが日本語として意味をなさない文章を自動生成するワードサラダAPIです。その生成された例文の中に「有料」が出てきたというわけです。
例)
有料リンクを販売しているサイトのPageRankが大幅に下がったというものですが、国道136号通行止め解除。
これがヒットして悪いか、といわれると、「他にヒットするものがなければヒットさせてもいいかな」という程度でしょうか。
そのAPIの特徴を説明する文章に「有料」とあったとして、API自体は有料でなくとも、有料のサービスを探してくれるAPIとかなんかだったらそれなりに意味ありそうです。しかし、上の例は意味なさそう。
キーワード自動抽出エンジンのための1つ具体的な仕様拡充として、「例文」みたいに、一段レベルの低い(メタな、というより低い、としかいいようがないですね)位置づけの単語列があったら、除外するか、思い切りウェイトを下げるべき、なのでありましょう。
ともあれ、API比較・マッチングサイトでは、本来、メタデータ、すなわちAPIのプロフィールの厳密な指定が出来て良いはずですね。現状、ボタンが多いといわれがちなのをうまく整理した上で、「1文字の属性表示の並び」をpull downかradio buttonで組み合わせ指定できるような機能もいずれ作りたいと思っています。
2007年10月22日
2007年10月19日
[TIPS]本日のお題:「ストレージ」
マッシュアップアプリを作ろうとしていて、ファイルの置き場が必要になってきたとします。アプリを置くサーバマシン上にはストレージを置く余裕はないし、どうしよう。そもそもストレージ機能を自前で作るのもひと仕事だし。
ストレージを提供するWebサービスはいくつもあるんだし、APIで提供されてたりしないかなあ。
というわけでapi-match.comで検索をしてみます。
キーワードは直球で「ストレージ」これで2件出ました。
1)1GBストレージ[Adobe Share API」
2)海外の急成長SNS「Facebook API」
どんな違いがあるでしょう。api-match.com内の表示でざっと確認すると、こんなことがわかりました。
1)はアドビの提供するファイル共有サービスを使うもの。ユーザ登録、認証が必要で、無料で使える。REST呼び出しで使えるみたい。商用ライセンスもある。
2)はFacebookというSNSの情報をアップロードしたり取り出したりできるというAPI。その機能のひとつとして、登録ユーザの写真データの保存や読み出しができるようです。Facebookのユーザを対象にしたサービスを作るなら役に立ちそうですが、今回のようにストレージだけと考えると最適ではなさそう。
そこで1のサイトを見に行くと、使い方の詳細やユーザ登録画面があり、読みつつ、登録作業しつつ実装に近づいていきます。
(なおAdobe Shareのユーザ登録ですが、現在は直接サインアップできないため、メールアドレスを入力して、しばし待ってくださいという状況。「More invitations will be available soon.」とのことでした)
ほかにはないかな?と「ファイル共有」を探してみると、上記の1)の1件だけ。
じゃあ「共有」は…と見ると28件ありました。
いくつか関連しそうなAPIもありそう。ちょっと詳細を見てみましょうか…
それから別の興味をひかれるジャンルのものも発見!これも見ておこうっと。
今後もお題ごとにAPIを探す・調べるトピックを書いていきます。api-matchご活用のヒントとして役立てていただけたら幸いです。
ひきつづきご愛読くださいね。
2007年10月10日
「何かが足りない」マッシュアップ?
小池良次さんが、次のコラムを書いています:
「Web2.0を支える「マッシュアップ」・米国で早くもブームに陰り?」
例のガートナー曲線で、最初のピークを過ぎて、かつてのJava,XMLのように本格普及期、実用期を前に、雌伏の時代、過渡期を迎えているのかもしれません。
しかし、昨年シリコンバレーで開催された「マッシュアップブートキャンプ」で、近未来の「マッシュアップ・エコノミー」が議論されたり、大ブレイクの予兆を感じている人も引き続き多いように感じます。
一方、グリッド派などは懐疑的で、マッシュアップは過渡期の技術、という声もあるようです。
小池さん自身は次のように語ります。
Web2.0は、大ざっぱに言えば、コンピューター・サービスのコントロール権が企業からユーザーへ移る動きだが、マッシュアップは、その流れにピタリと一致する。とはいえ、ブログやチャットなどのようにインターネットで人気を集めるアプリケーションは幾何級数的に増加するのが常だ。そうしたアプリに比べると、マッシュアップは普及のための「何かが足りない」と言えるだろう。
我々は、その「何か」の1つを埋めるべく、api-match.comを立ち上げた、と言えそうです
いずれにせよ、今年2007年、エンタープライズ用途が試され始めたことは多くの人々の意見が一致するところのようです:
■企業アプリに導入を検討中
皆様、いかがお考えでしょう?
2007年10月05日
api-match.comのコンセプトは
今回は、まずご報告1点と、当サービスのコンセプトについて書きます。
報告:Mash up Award 3rd」にて「Mashupedia賞」受賞
2007年9月30日、API比較・マッチングサービスは、Sun・リクルート共催による「Mash up Award 3rd」にて「Mashupedia賞」を受賞しました。
ご愛用ありがとうございます。今後もさらなる機能拡張を準備中です、ひきつづきご活用ください。
・API比較・マッチングサービスのコンセプトについて
「発想を支援するツール」
WebAPIが数多く公開されはじめ、そのマッシュアップによるアプリケーション開発も活発になってきました。
開発環境も進化しています。軽量言語やさらにはプログラム不要のマッシュアップツールの公開などにより進化していて、マッシュアップWebアプリケーションの開発が快適・簡単になってきています。
「企画・構想に1、2ヶ月。開発は3日間。」というスタイルが珍しくなくなっている今、大切なのは発想ではないか?それを支援しよう!というのが、当サービスの根本にあるコンセプトです。
WebAPIの検索や詳細チェックと比較を手軽にできて、気に入ったAPIの中からピックアップしてマッシュアップ企画のたたき台をさらっと作る、というストーリーを描いて実装してみました。
UIや各機能については、今後もブラッシュアップしていきます。「縦長の画面構成だと操作が難しいね」「ドラッグドロップ以外の方法でAPIをチェックしたい」など、また機能拡張についても、利用者の方からさまざまな声をいただき、開発スタッフも改良・拡張アイデアがぐつぐつ沸いてきております!
使ってみてのご感想、ご要望などについて、このブログへのコメントも歓迎です。お気軽にいただけたら幸いです。
機能更新や拡張については、弊社サイトおよびこのブログでも随時お知らせしてまいります。乞うご期待!
2007年09月30日
MA3 Mashupedia賞受賞;応援ありがとうございました
久々に本格的に自然言語解析機能を設計したり、ルールや辞書を作ったり、類似判定アルゴリズムもいくつか考案。3週間がんばって締切日までにサービスインにこぎ着けたところ、マッシュアップのためのマッシュアップ、というメタ・レベルの先駆的な仕事、として高い評価を頂きました。
賞の名前にMashupや、Pediaが入っているのがすばらしい。「素早くAPIが調べられる!」「APIのプロフィール(メタデータ)比較が簡単!」と開発者さん達が言ってくださるのが嬉しかったです。
API比較 でGoogle検索し、1位をクリックするか、
http://www.api-match.com と直接入力。
何か、興味あるWebAPIの機能を現すキーワード(Google, Yahoo, Technoratiなどの固有名詞や、有料、などの属性名も可)を入れてみてください。あるいは、ヘルプをみてさまざまな機能をご覧ください:
http://www.metadata.co.jp/mashups/api-match-help.html
授賞式では、マッシュアッパーさんたちや、虎視眈々のAPI提供者さんなど、30名ほど新たな仲間ができました。
メタデータを軸足(pivot)にしたマッシュアップこそ、新たなエンタープライズシステム構築の本命、と言い切れるまで突っ走ってみたい、との思いを深めた1日でした。
2024年12月07日
12のセマンティック・サービスを紹介
「ビジネス活用がすすむ次世代ウェブサービス 〜Web2.0からEnterprise2.0へ 〜セマンティック・サービスの現状と未来」
開催日程・開催時間:2009年02月16日(月) 14:00-17:00(受付開始:13:30より)
日本ユニシス小林茂,日立システムアンドサービス湯本正典,ナレッジワークス亀山悦治, メタデータ 野村直之 (以上、講演者)
「セマンティック・サービス」 講演の目次
「エンタープライズ・サーチの次のハイライトはセマンティック技術の取り込みである」、と野村総研さんがぶちあげてくれたのを引用(インプレス・ビジネス刊「IT Leaders」2009年2月号)。セマンティックがいよいよ「3.0の本命になる」ことを、本講演の事例を通じて皆様に体感していただけるかと存じます。目次全体はこうなっています:
1.本講演の狙い、背景
Enterprise2.0 ,特にソーシャル関連市場予測
なぜ今“セマンティック”が必要か?
2.セマンティック・サービスの事例
- Twine, Inform, Evri
- hakia , Powerset, Zemanta
- Faviki,Juice
- TripIt! UpTake
3. セマンティック技術の実際
〜5W1H Mextractr とOpenCalais
マッシュアップによる応用
印刷・出版オンライン化で付加価値化を達成するヒント
企業内で「なぜ今“セマンティック”が必要か?」
言い換えると、 「ネット全体で成功した “ソーシャル” は企業でも本当にうまくいくのか?」 ・懸念: 圧倒的に少ない母集団 (参加者数が4〜5桁以上異なる)
・ファシリテータ不足、活性化スキル不足
・社内外のリソースを横断で関連付けるニーズが大
・キーワードレス(ゼロターム)検索など「ぞんざい」でリアルタイム性の高い要求
例:「去年の暮れに隣の事業部の偉いサンが出してインパクトのあった10頁位のレポートを出しておいてね。」
※だって上記のように、ニーズは外部Webよりはるかに強いのですから!!
ご紹介するセマンティック・サービスの概要
Twineは、外部からクリッピングした知識的なものに半自動でメタデータ、その間の関係(オントロジー)を付与します。精度、不足を補うソーシャルの仕組みも備えています。 Informは、オンライン出版社のコンテンツを分析し、出版社の独自のコンテンツアーカイブ、また関連したサイト、ウェブ上の大量のコンテンツへのリンクを作成するサービス。
Evriは、Web上に掲載されている、コンテンツ、ニュースなどに登場する、
人、場所、モノ などを関連付けて表示する検索エンジン。SPYSEEに似ているようです。「search less. understand more.」として、検索試行回数少なく、意味のある関連情報を次々に手繰れるよう、目指しています。
hakiaや、Powersetは、検索ワードの意味を解釈するセマンティック検索エンジン。
様々な工夫を凝らして、現在のWeb検索エンジンとはまるで違って、検索意図を反映した、ノイズの少ない結果を出してきます。
Zemantaは、ブロガー入力した文章を解析し、幾つかのサイトから関連情報(写真、文字情報)を自動抽出します。画面に表示された自動検索結果をブログに取入れるUIもシンプルで使い易いようです
favikiは、ブックマークレットによりタグを付けるタイプのソーシャルブックマーク(Webページにタグを付ける)。Folksonomyだと発散してしまいがちなのを、Wikipediaにある用語をタグにうまく統制してくれるようです。自動メタデータ付与ではないけれど、14の言語に対応し、例えば日本語と英語の結びつけが可能。タグの一意性(概念の同一性)を機械翻訳経由で英語版wikipediaで確保しているあたりが、世界知識ベースの基礎としての片鱗を見せてくれている感じです。
juiceはZemantaと似た自動検索系のサービス。Webページ上で選択した領域に関する関連情報をサイドバーに表示。画像,動画をサイドバーに貯め込むことができるという、ユニークなブックマークです。自然言語解析により,文脈に合わせた情報を提示する「知的発見エンジン」と称しているようです。
TripIT!とUpTakeの概要は、前のブログをご参照ください。
Mextractr(日本語)とOpenCalais(英語)はいずれも、普通の文章から5W1H的なキーワードを自動抽出するエンジンです。
以上について、API(あれば)がどうなっていて、どんな複合アプリが組めそうかの感触もお伝えします。また、一部についてはビジネスモデルや活用アイディアに踏み込んでお話、デモができると思います。さらに、MextractrとOpenCalaisについては仕組みや、意味分類体系などのリソースについてもご紹介。
今後、各サービスの最新状況を含めて、本欄からもお知らせしてまいりたいと思います。