2015年11月28日

ビッグデータ、人工知能を活用したビジネス、生活の今後 (その2)

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の26回目、最終回です。



 ビッグデータに後押しされるように台頭してきた今回の人工知能ブームが健全に開花し、過去2回のブーム(1950〜60年代、1980年代)のように期待外れのあまりにバブルがはじけて終わったりしないことを願いつつ、人間と機械の役割分担などについて引き続き具体化し、産業的な付加価値を追求してまいりたいと思う今日この頃です。現時点での方向性を探りながら、いくつか、これまで触れ足りなかった話題を取り上げます。

ビッグデータとAIが相互に不可欠な技術として発展

 最近の記事「ビッグデータの国内市場『年率27%で成長も課題山積』」によれば、ビッグデータの分析に使われる情報システムなどのインフラの国内市場は2014年時点の444億円から、年平均成長率27%のペースで拡大を続け、2019年に1469億円に上る見通しとのことです。いわゆるインテリジェント・ストレージや、検索・配信などの「上流工程」への投資が大半なのか、それとも、徐々に中流の分析や、経営判断への活用を支援するツール(例えば弊社のVoC分析AIサーバによるポジショニングマップ作成)の割合が増えていく見込みなのかは不明です。しかし、取りあえず、データという「事実」を踏まえた経営を日本企業が指向し、後戻りなく導入していく傾向、流れを読み取って、大変結構なことととらえたいと思います。

 本連載の初回「ビッグデータが経営判断に使えない本当の理由」で図示したように、ビッグデータ活用において中流・下流の、頭脳を使った「分析」がボトルネックになっているのを解決するために、人工知能が求められている状況もますます切実になっていくことでしょう。特に人工知能と意識されていなくとも、大量データの様々な機械学習手法や、マッチング、最適化の手法が今後ますます必要とされ、データやメタデータの構造化、交通整理と活用に必須のものとなっていくことでしょう。

 人工知能の側、特に、ニューラルネット(ディープラーニング)は、ビッグデータのおかげで実用性が確認、認識され、復活したともいえます。ビッグデータと人工知能が相互に必要不可欠のものとして、互いの発展の手段として機能し、一種の共振現象を起こしているともいえます。そのあたり、ウェブやソーシャルメディアで、それぞれ地球最大と言えそうな超巨大なビッグデータを押さえているGoogleやFacebookが人工知能関連の研究開発や応用を主導するのも必然と言えるでしょう。彼らは、ハッタリや浮わついたところなく、実データを現場で解析して付加価値を引き出すべく、機械翻訳や顔画像認識の精度向上でさりげなく(時に秘密裏に)、人工知能を適用しています。

 例の悲観論をはじめ、妙な挑発などせずに(もっとも「シンギュラリティ論」の教祖格であるレイ・カーツワイル氏は比較的最近Googleに入社したようですが)、自然体でニューラルネットを説明している、FacebookのAI研究所長、Yann LeCun氏の弁には好感が持てます。ディープラーニングを生データコンピューティング(end-to-end computing)と適切に形容した次のインタビュー記事は、実に適切に、新しいテクノロジーとそのビジネス応用への取り組み方を説明していると思います。

 「Yann LeCun氏は、Deep Learningについて「脳のように機能する」と表現することを嫌う。Deep Learningは実際の脳の機能からは、はるかに遠い。そのように表現することは誇大広告となり危険である。」

 「…新しいテクノロジーをビジネスに取り入れる際は、そのテクノロジーで実現できること・できないことを正しく理解する必要があります。現状のビジネス利用では「教師あり学習」が現実的であるなどの示唆があります。

 Yann LeCun氏がFacebookでの取り組みや今後の展望で述べている通り、Deep Learningの応用はさらに発展を遂げ、ビジネスでの利用が広がるでしょう。」

エージェント技術の復活と応用に期待

 前回の記事でご紹介した星新一のショート・ショート「肩の上の秘書(インコ)」では、相手に伝えたいことをぼそっとつぶやけば、ロボットのインコがそれを丁寧な、長い、非の打ちどころのないメッセージにして相手に向けて喋ってくれました。そして、同じように相手の(インコの)長い台詞を簡潔に要約し、冗長な台詞を聞いていなくとも要点を伝えてくれます。

 このインコが、もしごく簡単な(概括的な)指示を与えると「飛び立って」行き、具体的な目的地、交渉相手、情報入手先を自分で調べ、時に考えて探し、目的を達成して戻ってくるとしたら如何でしょうか? これは、細かく指図しなくとも“よきに計らう エージェント”、それも自分の領域外に出張して仕事を片付けてくれるタイプのモバイル・エージェントのイメージそのものといえます。

 「ザ・エージェント」といえば、トム・クルーズが演ずる、プロスポーツ選手の代理人が主役の映画です。選手本人に代わって契約内容を交渉するだけでなく、全米を飛び回って試合する選手に随行し、本人の様々な不平不満、悩み事を聞いて解決したりします。所属企業の本社に飛んで行って本人が詳細を見切れない条件交渉、法務書類の作成と締結なども行います。

 IT、ネットワーク上のソフトウエア技術としての「エージェント」も、似たものだといえます。エージェントの様々な定義や興味深い分類がこちらにあります。どれくらいの個体数が互いに対話をして協調作業を進めるかで分ける「社会的分類」や、どんな言語(専用言語か視覚言語か日本語などの自然言語か、表情を伴うか等)でコミュニケーションするか、あるいは、ネットワーク上を移動し、違うコンピュータに「お邪魔」するモバイル・エージェントかどうかの違いで分けた「機能的分類」があります。

 1980年代の第二次人工知能ブーム末期あたりにも、モバイル・エージェントの商用規格が流行りかけました。有名だったのは、ウェブの規格など使わない(という評価は後年ならではなのですが)、Telescript言語という独自規格。こちらの解説にあるように、ネットワーク上のエージェント(Agent)達の「出会い(Meeting)」「その場所(Place)」「移動(Travel)」「Connection(互いに異なる場所から呼び合う)」、そして、物理世界、リアルワールドにおけるご主人様から与えられる「権限(Authority)」「許可(Permit)」などを記述して制御する、ジェネラル・マジックが1990年にリリースした商用言語でした。

 これは本格的なエージェント指向でしたが、基盤技術として、Windows, Mac, Linuxなどのプラットフォームを選ばずに動作するJava言語が1995年に出て少し事情が変わりました。すなわち、もともとポータビリティとモビリティが高いJavaで書いたプログラムなら、モバイル・エージェントを非常に実装しやすいだろう、と目をつけられたわけです。さらに、様々なネットワーク上のデータのやりとりについては、HTTP(Hyper Text Transfer Protocol) すなわち、ウェブの規格でオブジェクトをやり取りすれば、さらに低コストで、幅広く普及するエージェントが作れるだろうということで、前世紀末にAglets(IBM)、Voyager(ObjectSpace)などが登場しました。

 個人的には、孤立した、自律型のヒューマノイド・ロボット1体よりも、多数のロボットが独自の「言葉」で猛スピードで効率よくコミュニケーションし、協調して働いてくれた方が嬉しい気がします。もちろん、その大半は、身体を持たないモバイル・エージェントです。物質(atom)から自由なビット列、デジタルデータであればコストゼロで瞬時に世界中を移動できます。身体が必要になったら、必要に応じてヒューマノイド・ロボットやドローン、小型潜水艇、地底探査機、ロケット、はやぶさ2のような人工惑星などに潜りこめば良いでしょう。3Dプリンターは、「身体」構造と素材データを授受しますが、その上に乗るソフトウエアも、自在に世界中を巡って問題解決をし、人間たちに奉仕するのです。

 アシモフが「はだかの太陽」で描いた、2万体のロボットが1人のご主人様の意図をくみ取って互いに協調して動く世界だって、実現できそうな気がするではありませんか!

 規格の標準化と差別化競争をうまく両立させないと産業的成功が難しいということはあるでしょう。また、エージェントを送り出す側はともかく、受け入れ側にとっては、送り手側の意図に沿って勝手な動きをする(もちろん受け入れ側の完全な許可とリソースの割り当てが必要ですが)という意味で、ウイルスのような存在に似ているので、サイバー空間の法秩序みたいなものも整備されていく必要があるでしょう。

人間は多数のエージェントを使って「楽」に

 エージェントの最大の特徴は、細かく指図しなくとも、時にはこちらの意図を察して“よきに計らってくれる”ところです。

 自分で調べずに何でも細かく質問する人のことを「教えて君」と呼び、「教えて君」がSNSのグループやコミュニティに登場したら「ググれカス!」(「ウェブ検索すればすぐ分かるようなことを公の場で質問して他人の時間を無為に奪うな、この馬鹿野郎!」という意味)と言えば良いのだ、というコンセンサスがとれているオンライン・コミュニティもあります。確かに今後は、あるカテゴリの知識の存在を大雑把に教えてもらったら、自分でその都度(オン・デマンドで)調べて行動できない人は疎んじられていくでしょう。さもないと、上記のようなソフトウエア・エージェントに負けてしまいます。

 いや、だからこそ、人間は楽ができるように、多数の専門家エージェントを使いこなすべきなのかもしれません。考えるのをサボりすぎてスポイルされないように、時々猛烈に考えさせてくれたり、創造性を刺激してくれる役割を果たす「きまぐれエージェント(星新一「きまぐれロボット」へのオマージュ)」のお世話にもなりながら。

 エージェントが自らの経験を参考に賢く行動し、感情を持ったりユーモアを解したように対話するプログラムも今後生まれてくるでしょう。弊社・メタデータ社でも数年前に、ウェブ超ロボ・不二子クラウディアと称して、短い依頼の言葉を解釈し、それに必要な、詳細な実行方法、実現手段は自分で調べて(知っておいて)、指示した人が詳細を知らないままでもキチンと仕事が片付くコンセプト・ロボ(ソフトウエア)のプロトタイプを作りました。

 最初は、大手クラウド・ベンダーの競争や囲い込み戦略のために、アマゾンのAWS、グーグルのGAE、マイクロソフトのAzureを全部覚えてクラウド対応ソフト作るなんてウザい! だから、仕様だけ指示すればこの3つのクラウドに対応したSaaS(ソフトウエア・アズ・ア・サービス)を自動生成してくれるエージェントが欲しかったのですが、これではあまりに専用用途に過ぎると考え、路線変更しました。

 マッシュアップ・アワードに出す作品だったこともあり、

  • 「APIの利用登録、API Key取得をお任せ」してしまえる。
     (何百、何千のAPIごとに利用規約も実際の登録方法も、API Keyの取得方法も違っててウザいから)
  • 「「ツンデレのおふざけ会話をしながら同窓会を一緒に企画し、電話、メール、LINE、Twitter、Facebookなどの様々なインスタント・メッセージなどの様々なメディアを適切に使い分けて連絡しなければならない元同級生への連絡を適切にやってくれる」
     (「みんな、自分ひとりくらい特別な手段で連絡してくれてもいいじゃないって、我儘なんだからぁ!」と愚痴りながら)

 リクルートホールディングズ社のメディア・テクノロジ・ラボで行った講演はこちらです。

 みなさんも、面倒な雑用を自分に代わってやってくれるエージェントが欲しくないですか? ウェブ上で抽選の行列に並んでみたり、ある裁量の範囲内で市場に売買注文を出してみたり、オークションの出品や落札をして、結果をメールやインスタントメッセージでちゃんと報告してくれたりするソフトウエアロボットです。元のシステムがそこそこ使い難いものじゃないと意味がないという説もあるので、具体例を出すのはちょっと憚られる面もありますが。

情報連携で「気の利く」エージェントがさらに増殖

 日経ビジネスオンラインのこちらの記事のインタビューで言及している、ひさじゅさん作の「シャチクノミカタ(社畜の味方)」も、社員の代理で上司の書き込みに「いいね!」してくれていた、という意味でエージェントだったと言えるでしょう。メタデータ社の高精度ネガポジ判定APIが実際の代読を行い、−1以上とか、+2以上とか、一定以上ポジティブな上司書き込みにのみ「いいね!」を自動で付与することで「うむ。こやつ(部下)は上司の言うことでも是是非非で評価する。なかなか見どころのあるやつだ!」と思わせ、あわよくば出世の助けになるかもしれない、というものでした。どの書き込みに「いいね!」したかがメール通知されてアリバイもばっちりだし、色々と完成度も高く、3万人以上のユーザーを集めてラジオやテレビ出演も果たされましたが、Facebook社のお気に召さなかったようで、惜しくも退場してしまいました。

 もぎゃさん作の「メイドめーる」も、Web受付嬢と同様に、メタデータ社の5W1H APIを用いて、秘書エージェントさんへの返信メールから日付(「明日」、「来週」などの相対的な表現も年月日に変換)を抽出してGoogle カレンダーに予定を自動登録したり、「昨日の会議の参加者へ資料送っといてね!」と依頼しただけで、資料を添付したメールを期日までに送っておいてくれたりするポテンシャルがあります。昨日の会議が複数あったとか、資料の候補が2つあったなど、あいまいな点があれば、依頼者に訊き返せば良い。このあたりの「気が利いている」度合いでも、鈍い人間を追い越してしまう可能性はあります。

 Web受付嬢は誕生以来、個人情報をお預かりして、PDF資料を添付して送信し続けています。内外のWebAPIを用いてオープンな環境で仕事をすることができるのも特徴です。ずばり、通常の対話ロボットと違って、知らないことを訊かれても、ネット上でWikipediaなどで知識検索をして、その結果を要約して教えてくれます。

 かように、ここ10年間で普及したAPIと、それらを束ねるマッシュアップの手法が、オン・デマンドで様々な仕事をこなすエージェント達の基盤として、非常に重要な役割を果たせるよう進化し、増殖してきました。API間の連携、APIとアプリ、ビッグデータの連携の鍵が「つなぐメタデータ」です。

 下図は、2010年に執筆した学術誌「情報の科学と技術」特集:メタデータの現在から、拙稿「ソーシャルメディアの時代に産業上の重要さを増すメタデータ自動抽出技術」において、図1「マッシュアップを支える軸足メタデータ」を引用したものです。

 右下の写真、車のダッシュボード上に置いたSony GPS-1が刻々と記録するタイムスタンプと緯度経度の組み合わせデータを、タイムスタンプを軸足メタデータとして、GPS機能なしのデジカメで撮った写真のExifメタデータに緯度・経度がパソコン上のソフトウエアで流し込まれます。反時計回りに左上に回って、今度は緯度経度が軸足メタデータとなって、WebAPIで自動取得したサムネイル画像をGoogle Maps上に、走行コースに沿ってプロットするマッシュアップが簡単に実行できます。

 このように、メタデータで動作するAPI群による情報連携はとてもシンプルですが、気が利いているということができるでしょう。そして、データや知識、プログラムなどを集めて適切に組み合わせて問題解決をせんとするエージェントにとって、実に扱いやすい仕組みになっているのです。

 ビッグデータと第3次人工知能ブームの時代。新世代のエージェント応用が開花する機は熟している、と言えるのではないでしょうか。

AIとエージェントが描く、IoTとIndustrie4.0の可能性

 前回、ビール・サーバーに接続して1滴単位で量や頻度、温度等を測定してインターネット経由でサーバーに通知するIoTデバイスについて書きました。これは、ERPパッケージで名高いドイツ企業SAPによるものでした。

 ドイツでは数年前から「Industrie4.0」と称して、ひたひたと(あまり英語で情報発信せずに)、インターネットを介して全産業におけるモノが緊密に結びつき、部品在庫削減による低コスト化と受注生産などが両立できる仕組みと、その標準化を準備してきました。素材や部品の工場と組み立て工場。そして、物流、販売店、さらに販売した後の製品までをインターネットでつなぐことで、「効率的な生産」、さらに「新たな需要の開拓」につなげようという取り組みです。日本では、「第4次産業革命」とも呼ぶようになってきているようです。

 NHKの今井純子解説委員によるこのページの真ん中あたりの絵、「第4次産業革命」のイメージが非常に分かりやすいので、是非ご覧ください。この凝縮された「時事公論」の番組の前半では、日本企業が過去最高益の更新、というニュースを眺めつつ、技術革新などによる本当の成長のための投資がなされているか(成長戦略)、このドイツで始まった取組みと対比してチェックする、というスタンスをとっています。

 (ビッグ)データの時代らしく、組み立て工場の中では、生産ライン上を(柔軟に)流れる半完成品にICタグが付いていて、「自分の完成には、あとこれとこれの部品や仕上げ剤が必要だけど、3時間以内に出荷するためには、あの部品の在庫がなくなる確率が50%あるのでそろそろ発注してほしい」などと「訴える」ことができます。このような状態の検出、判定、「訴え」はすべてIoTによって機械間で行われ、部品や素材工場や倉庫に自動的に通知がなされ、最適なタイミングで補充がなされるというわけです。

 このような仕組みがあれば、個別化少量生産、頻繁な仕様の変更を受け付けて競争力を向上させながら、在庫削減等でコストダウンが実現します。上記ページのさらに後半、「第4次産業革命(つながる工場)」から引用しましょう:

 さらに、ネットワークは、工場の外にもつながります。



  • ▼ 例えば、販売店とつながることで、注文の情報がすぐに工場に伝わり、納期を短縮できますし、
  • ▼ 部品が不足してくると、すぐに納入できそうな部品工場を自動的に探して、発注することで、在庫を減らし、コストを減らすことができます。
  • ▼ さらに、これまでのように、製品を納めておしまいではありません。製品ともインターネットを通じてつながって、稼働状況などを把握することで、保守サービスといった新たな事業につなげていくこともできる。こうした様々な可能性につながる取り組み…

 従来から日独共通の強みであった製造業にフォーカスすることに加え、標準化が重要なことから、ドイツ、欧州主導の研究・規格化で、米大手IT企業を寄せ付けないという意欲を読み取ることができます。とは言え、オープンな規格、競争原理の尊重、かつ低コスト志向で、多くのプレイヤーの参加を募っています。俊敏に、急な変更をも歓迎しつつ同時に在庫を削減するためには、ビッグデータをリアルタイムで高速に、かつ賢く解析する必要も生じるでしょう。人工知能的なリアルタイム計算、予測ができるソフトウエアがIoTの裏側で縦横無尽に動作し、モノとモノ、ヒトとモノとの最適なマッチングを実現していく。

 昭和時代のように自動化が画一化につながることなく、知的なIoTによってむしろ個別化、個性化しつつ、低コストが実現していく。中小企業や身近なサービス業も例外ではありません。ビッグデータと人工知能・エージェント的な要素が産業界に浸透することで描かれるIndustrie4.0は、なかなかワクワクするビジョンではないでしょうか。

おわりに 〜我々の働き方、再論

 「アルゴリズムが世界を支配する」という本があります。ここで「支配」というのは従属関係でもなんでもなく、宇宙の基本原理たる物理法則に「支配」されているというのと同様のニュアンスです。数学的に確かなモデルは普遍性を持ち、多くの現象、事例に「当てはまる」と言い換えても大差ありません。ですので、またぞろシンギュラリティで人間が機械に駆逐されるかのような悲観論に傾く必要はありません。

 人と機械が協調して、人々を幸福にしていくインフラは着々と整備されつつあります。Industrie4.0におけるIoTデバイス間のコミュニケーションや協調もしかり、ヒトの意思を代行するソフトウエア・エージェントもしかりです。きわめて多くのプレイヤー(大半が機械やソフトウエアになっていく)が参加するゲームで全体最適を実現する数学の法則(例えば2部グラフの最大マッチング)を恐れる必要は全くなく、積極的に活用し、それが高速に動作することを大いに喜べばよいと思います。

 このような人工知能的なソフトウエアにより、大量データの恩恵を受けて、気の利いた示唆を機械が与えてくれたり業務を進めてくれれば、人間はどんどん楽になります。しかし、「結局、AIに負ける心配がない職業とは?」で示唆した通り、「なぜだろう?」と考える人間には、意志や美意識をもってシステムを改良する、重要な役割があり続けます。

 最近の連載を読んで、中央官庁、大企業研究所、国立大、私立大などから、取材・インタビュー、講演依頼を次々といただきました。中には、人々の働き方に関するあまりの超楽観主義に、呆れてものも言えなくなったかに見える方もおられました。もちろん私だって、創造性のない仕事や生活を送っている人については大いに心配しています。過度なリテラシー指向、職業訓練指向のせいか(この方向の大学改革には反対です!)、他人や自分自身を、出来そこないの機械のように仕立てて働かせている人を見ると、「近い将来、人工知能に淘汰されちゃうよ!」と涙を流しそうになることもあります。

 10数年前だったか、厚労省の試算で、日本のホワイトカラーの生産性が北米の4割、西欧の6割にとどまるとするのを見て愕然したことを昨日のように思い出します。今にして思えば、欧米に比べて、日本の事務職の現場には、人工知能に淘汰されやすいような仕事の仕方をしている人が多かった、と言えるのではないでしょうか。

 私自身は、引き続き、人の能力を拡大するソフトウエアや、ビッグデータ分析手法の研究開発に邁進してまいります。テキスト(記号列)、画像、音声、動画等、入出力データの種類を問わずに生データを学習できるディープラーニングも手掛けるし、人間が苦手な、大量候補の全体最適解を求めてマッチングする手法を高速化し改良するなどの研究開発はますます面白くなります。

 と同時に、サービス科学を大学院生、MBA候補生らに教えつつ自ら応用したり、マーケティング、営業に苦心しながら経営者として10年近く、世のため人のため、付加価値の創成に努めてきたのをあと20年は続けていくつもりです。この過程で、皆様に考えを問わせていただく機会(執筆や講演等、Facebookなどのソーシャルメディアでも)など多々あると存じます。本連載は今回で終了しますが、今後ともどうぞよろしくお願いいたします。



posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年11月14日

ビッグデータとAIが変える仕事と生活(その1)

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の25回目です。


ラスト2回となりました。そこで、ビッグデータの活用と、そのための人工知能と人間の頭脳の役割分担などについて、徒然なるままに綴ってまいりたいと思います。

IoT機器にもっともっとビッグデータを生成させよう

 4月下旬、東京ミッドタウンで開催された日経ビッグデータカンファレンスで、国立情報学研究所長の喜連川優教授が最近のビッグデータ関連の研究成果、動向について基調講演をされました。彼は経産省系の情報大公開プロジェクトのリーダーとして、また文科省の「情報爆発時代に向けた新しいIT(情報技術)基盤技術の研究」において、一貫して「情報爆発という一大事に対抗する技術の開発をすべし」との危機感を前提に実用技術の開発を主導してこられた印象があります。

 途中でどんなに、Googleはじめ米国の巨大ベンチャーにうっちゃりをかけられようが不屈の精神で立ち直って、日本独自の強みを見出し、育てるべく、いったんボロボロになっても何度でも立ち直る。そのために、海外動向についても張り詰めた緊張感で、本質的な変化を鋭いアンテナでとらえる。内外から見て優勢とはいえない日本のIT、ICTを活性化する、リーダーの鑑のような存在、というイメージでした。

 それが、日経ビッグデータカンファレンス2015 Springでは、うってかわって、IoT(Internet of Things)を楽しみ、IoTデバイスにもっともっと大量のデータを生成させて、「情報爆発に拍車をかけろ!」と高らかに宣言したかに聞こえました。何だか、歌って踊れる明るいビッグデータの時代が来たみたいに感じた人もいることでしょう。

 個人的には、この豹変は大歓迎、大好きです。ビッグデータを始末に負えない難物として危機感を煽ったり、人々の仕事がなくなる、の類の悲観論を唱えるよりも「踊る阿呆に、見る阿呆。同じ阿呆なりゃ踊らにゃ損、損」の阿波踊りの精神で、自ら楽しんでいろいろやってみたほうが良いでしょう。ビッグデータの産業構造へのインパクト、ビジネス応用といえども、ユーモアのセンスさえ漂う、ノリノリの楽しそうな実験プロジェクトをどんどん起こし、その成果を宣伝したら良い。ビッグデータ、生情報、事実に基づく様々な新ビジネス施策がどんどん試みられるのを歓迎したいと思います。例えば、こんなのです:

「冷やし中華関連のビッグデータでエネルギー節減」

 いかが思われますか?

 小さな、安価なIoT機器が生産と消費を直結する象徴的事例をSAPさんが紹介してくれました。生ビールをお客さんに注ぐ口と、ビール・サーバの間のチューブに小さな中継器を入れてネットにつなぐだけで、注がれたビールを1滴単位で、リアルタイムで分量を測定。いつ、どこで、どんな品質(温度等)で、どれだけが客に提供され、消費されたかの完全なデータをメーカー等にフィードバックすることができる。やってみれば「これぞ、Missing linkだった!」と思えるような1つの小さな部品の付加が、デマンド・サイドから、リアルタイムで生産調整、品質管理を実現してしまえる痛快さ。既存のネットインフラ、できたばかりのビッグデータ解析システムのポテンシャルを最大限に引き出せるような、とても分かりやすいIoTデバイスでした。

“気の利いた” AIシステムが仕事や生活を支える

 生ビールを1滴単位で測定してくれるようなIoTデバイスが身の回りにあふれるだけで仕事や生活が便利になるか、といえば、なかなかそのようにはまいりません。仕事や生活に必要であり、充実させるメディアには、視覚や音声、言語で物事を理解し、時に学習し、その結果、自分の欲求や意思を、必要な相手(を見つけて彼ら)に伝えるという、人間ならではのコミュニケーションが必要だからです。

 以前、「パターン認識」は人工知能の目や耳と題した記事で、人間のコミュニケーションを支える認識、理解や学習、そしてメッセージを生成して伝えることも狭義の人工知能=「脳を模した情報処理」に準じて重要なことを記しました。

 文字認識や、錠剤の形状が合格品かどうか判定するのに特化したあまりAIっぽくない単機能、専用用途のシステムも、苦労して業務化し、実用レベルの精度が低コストで実現できたときにはIT屋は大喜びします。古き良き昭和時代の製造業の技術者よろしく、社会の裏方(名を残さぬ捨て石!?)として人々の便利生活を支える満足感とともに現役を引退する。こんなエンジニアが続出すれば、ユーザーの射幸心を最大限煽るゲームAIやら扇情的B級ニュースのレコメンドで競争するよりも、世界に貢献できるIT産業として光る存在になれるでしょう。

 人工知能の仕組みとしては、とくに超最先端、高度なものでなくとも、さりげない気の利いたデータ連携で、実に便利な情報ライフが実現することがあります。「‘つなぐ’メタデータを介した情報連携 」の図1「マッシュアップを支える軸足メタデータ」では、まず、ソニー社のGPS-1という単機能デバイスが日付時刻とともにひたすら現在位置の緯度・経度を吐き出し、それを介して、GPS由来の位置情報無しのJPEG画像のExifメタデータに緯度・経度を補完します。次に、この位置情報を用いることで、車でドライブした経路上にサムネイル画像をプロット。それらをクリックしたら大きな元画像を、旅程の順に眺めることができるマッシュアップの例を紹介しています。

 上記は、今から5年前に、学術雑誌「情報の科学と技術」の依頼で寄稿した論文からの引用です。この論文では、この他にも、Google Appsなどのクラウドアプリに、自然言語メールでメイドさん(に摸したAppsのアバター)宛てに送った文章から、予定追加の日付時刻、内容を読み取って自動でカレンダーにスケジュール登録する2008年のマッシュアップ・アプリ「メイドめーる」なども紹介しています。

 文章中から“5W1Hメタデータ”を自動で読み取って (デモはこちら)、カレンダーやグループウエア、SNSのタイムラインの当該個所に自動投稿させる。また、同じ出来事(5W1Hは“出来事=event”のメタデータです) に言及した記事を自動的に検索・収集して、串刺しで要約し、誰がどんな異なる意見を言っているのかを自動で箇条書きにする。これら、2008年の「メイドめーる」が垣間見せてくれた世界は7年経った現時点でもまだまだ本格的な実用期、広範な利用フェーズに入っていません。クラウドサービス上のコンテンツ間を、自然言語解析技術が自動抽出した5W1H =イベント・メタデータで結びつける。この便利さを実感するには、2008年の段階では、まだまだ皆様、情報洪水に溺れそうという段階には至っていなかったのかもしれません。

 今後、自分のSNSへの今日の書き込みから、人工知能が「ご主人様」に必要な情報を推定、ランキングして、取捨選択して、時には恐る恐る、時には自信たっぷりに対話しながらレコメンドしてくれる。

◆ユーザー=ご主人:「あ、それ大事だからカレンダーに入れといてくれ!」
◇アバター=メイド:「もう入れときましたよ〜 15分前になったら、腕時計が震えて気が付きますので」

 などと最小限のやり取りで、大事な予定を逃さないようになる日も近いのではないでしょうか? 2020年頃までには、ありふれた便利機能になっているように予想します。

「肩の上のインコ(星新一)」は人間関係をスムーズにしてくれるAI?

 星新一のショートショート「肩の上の秘書」をご記憶でしょうか。スパムメールと似ている、との指摘とともにあらすじを書いたこのブログを読むと、「発生から消滅まで一度も人間の意識を通過していない」文章が、メールボックスに溢れ始め、人によってはすでに90%以上が、一度も一瞥もしない未開封メールのままで終わる、という時代になってきました。

 こんな未開封メールの集まりの中にも、実は取引先の偉いさんのセミナー講演情報が入っていたりして、それを知らないまま本人に対面して気まずい思いをする、ということも起こるでしょう。いや、相手だけが不愉快に感じて、自分はしくじったこと自体気づかぬまま、みすみすビジネスチャンスを逃すほうが痛い、といえるでしょう。

 先の“5W1Hメタデータ自動抽出API”を組み込んでおけば、システムが黙々と未開封メールを「代読」し、検出した会社名、人名等を、営業履歴データベースやクラウド名刺サービスと照合します。この結果、「もしかしてVIPとの絶好のコンタクト機会?」などのダイアログ・メッセージとともに、遠慮がちにご主人様の気づきをうながし、ビジネスチャンスをものにして、事なきを得ることもあるでしょう。重要度や関連度のランキングや、セミナーに実際に行ける可能性を、同時に抽出した日付時刻(When)、場所情報(Where)からランキングし、カレンダーに仮登録することも可能です。

 メールの代読、過去、社員の誰かが交流した会社名、担当者名を網羅的に記録した営業DBや名刺情報クラウドへの問い合わせ、マッチした時の対策ミーティングの召集をセールスフォースのアプリ機能で実現したSalestractrという作品も2008年に、上記APIを活用したマッシュアップ・アプリとして誕生しています(紹介記事はこちら)。

 「肩の上の秘書」はもともと、コミュニケーション支援AIは単にお飾りの冗長な言葉に長々と展開するだけの無駄ではないか? そのような未来社会は不毛ではないか? とのアイロニーたっぷりの作品だったかと思います。でも、本当にそうでしょうか? 意味内容は同一でも、言い方が気に入らない、表現の配慮が足らないときに、そんな相手の言い方に怒った経験は絶無でしょうか?

 いくら論理的に会話、行動、判断しているつもりの人でも、始終、無礼な言い方をしてくる人と話をするのはうんざりでしょう。非の打ちどころのないほど丁寧で、その場の状況、相手の立場や考え方、価値観や気に入る表現などに配慮した「肩のオウム」が、コミュニケーション、人間関係を円滑にしてくれる、という効果は期待できないでしょうか?

 ショートショート「肩の上の秘書」の末尾も、バーのマダムの肩の上のインコのトークに癒やされる、で終わっているように、楽しく癒やされる効果を示唆しています。また、肩の上のインコは、相手の冗長な言い回しを簡潔明瞭な一言に要約してくれる働きもしてくれますので、イライラしなくて済むように配慮されていました。時間が無駄になるのだけが欠点かもしれません。この点をうまく解決できれば、近未来に「肩の上の秘書」なり、「腕時計や眼鏡の中の秘書」が実現してもおかしくないでしょう。

 前回記事の引用中に、AIが代替しにくい仕事として、フィジカルなおもてなしの例などがあがっていました。これがもっぱら言葉によるおもてなしであれば、その能力が最高クラスの人間の対話シナリオ、対話ノウハウをとことんコピーして作りこんだAIに、大多数の人間のおもてなし能力が及ばなくなってしまう、という事態は十分に考えられます。そんな羽目にならないよう、人間側は、機械的にマニュアルに従うのでなく、即興性、創造性をその場で発揮して、相手が最高に喜ぶおもてなしをその場で作り出せるくらいに鋭い感性、論理、想像力を駆使する必要があります。

 でも、それ以外の大部分の「安い」おもてなしは、早晩AIに取って代わられる可能性が高いし、そうなったとき、以前のとげとげしい言葉の針が飛び交う社会よりは、多くの人にとって心安らかに暮らせる社会になるかもしれない。

 次回、最終回となります。今回の続きとして1つ、「肩に止まったオウム」にごく簡単な指示を与えると「飛び立って」行き、具体的な目的地、交渉相手、情報入手先を自分で考えて探し、目的を達して戻ってくるイメージを語ってみたいと思います。これは、細かく指図しなくとも「よきに計らうエージェント」、それも自分の領域外に出張して仕事を片付けてくれるタイプのモバイル・エージェントのイメージです。20年以上前の前回のAIブームで一時脚光を浴びたのですが、クラウド、高性能端末、ディープラーニングが実用化される頃には一体どのようになっているでしょうか。その他、近未来予測のダイジェスト、ハイライトをいくつか書いてみたいと思います。



posted by メタデータ at 00:00| Comment(0) | TrackBack(1) | business

2015年10月30日

結局、AIに負ける心配がない職業とは?

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の24回目です。

人工知能ブーム再燃の真実(その9)

2015年10月30日 野村 直之

 これまで一貫して、人と機械が各々得意な能力を組み合わせて豊かな生産、生活が実現するという楽観論を展開してまいりました。膨大なデータに基づくランキング、判断や、超高速に力ずくですべての可能性を計算できる能力では、機械はほぼヒトを凌駕してしまうことでしょう。しかし、前回記事で触れたフレーム問題や、将棋で王手をかけられたら回避すべしといった基本原理の理解不足の類により、人がまだまだ優位な点が向こう数十年は残ると思います。

 将来、量子コンピュータなどの仕組み(アーキテクチャ)が飛躍的に進化するまでは、人間が未知の事態等に世界知識・教養を駆使して対応し、「適当に」計算を打ち切って妥当な判断を下す能力によって、高速に大量のデータ、パターンと照合するという力技では解決でき難い問題を解く役割が続く、ということであります。

 最適化の計算や、チェスや将棋の如き知的、論理的判断、シミュレーションのような課題ですら人間の優位性があるのなら、ましてや、倫理観に由来する価値判断や感覚、感性、感情、美意識を必要とする世界では、ここ当面、人間の圧倒的優位が続くでしょう。ただし、人間が生み出した「作品」のコピーと微修正、カスタマイズで済むケースでは、機械に分がある、という事態は早晩訪れるでしょう。その場合でも、クライアントが気に入らずに却下し、少しずつ新味を取り入れて再合成する、という時に人間による判断が機械を補助する方が効率は良くなりそうです。

 経済的指標、評価尺度で評価されたい向きには「人間が行った方がはるかに効率良く、何千倍も低コストで迅速にこなせる業務(やその断片)は、少なくとも数十年以上の未来まで存在し続ける」、と冷たい表現をした方が好まれるかもしれません。

「AIを教育する」弁護士と「AIに指示される」弁護士に二極化

 2015年初めの1カ月ほどで全5回放映された、NHKスペシャル「NEXT WORLD 私たちの未来」をご覧になった方も多いと思います。50年後の近未来を描いたドラマも印象的でしたが、それ以上に、2014年に取材された今日の現実の方が衝撃的でした。

 第1回の公式ページには掲載されていませんが、未来予測をテーマにしたこの回には、米国の最先端の弁護士事務所が登場しました。ここでは、判例検索・引用やその適用法のコツをモデル化して「人工知能」(AI) に教え込むことができる一握りの超エリート弁護士と、人工知能の指示通りに動いて実世界を這い回る大多数の下級弁護士に二極分解しています。このAIが公判用の文章をほぼ自動生成し、下級弁護士はそれを一応チェックはするものの、基本的には、膨大な知識や可能性がある中で、AIの指示した範囲を出ないで作業するとのこと。彼らの年収は300万〜400万円程度に落ち着く可能性があります。

 ここで、わざわざカッコ書きに括って「人工知能」としたのは、自らモデル化して学習していないという意味で人工知能以前の通常のエキスパートシステム(知識処理を担う専門家システム)のように思われたからです。これが進化して一種のシンギュラリティ超え、すなわち対象世界のモデル化や知識のモデル化においても人間の能力を上回る、より本物らしい人工知能となれば、最初にそれを設計した超優秀エリート弁護士すら、将来は不要な存在になってしまうかもしれません。

 膨大な過去の症例から目の前の患者に適合するものを選び出す能力においても、米国TVドラマDr. Houseの主人公たちが扱うようなハイエンドの難しいケース以外のほとんどは、AIが素早く低コストで診断をしていくようになるかもしれません。

 以上は、法律、医療という伝統的に社会的地位が高く、高収入とされていた専門家集団の仕事がAIの台頭によって大きく様変わりする可能性を示唆してくれました。

オックスフォード大『あと10年で「消える職業」「なくなる仕事」』

 英オックスフォード大学が702業種を徹底調査して判明したというリストによれば、現在、主にホワイトカラー業務・事務作業とされている仕事や、いわゆる職人的な仕事の約半数が機械にとって代わられる、との見通しが立てられています。その確率は90%以上とのこと。

 下記は、オックスフォード大でAI関連研究に携わるマイケル・A・オズボーン准教授、カール・ベネディクト・フライ研究員の著した論文『雇用の未来――コンピュータ化によって仕事は失われるのか』の中で、コンピューターに代わられる確率の高い仕事・職業で挙げられたものの一部です。

  • 電話販売員 0.99Telemarketers
  • 文書管理・サーチャー 0.99 Title Examiners, Abstractors, and Searchers
  • 仕立屋(手縫い) 0.99 Sewers, Hand
  • 計算オペレータ 0.99 Mathematical Technicians
  • 保険の裏書担当者 0.99  Insurance Underwriters
  • 時計修理 0.99 Watch Repairers
  • 集荷/運送エージェント 0.99 Cargo and Freight Agents
  • 税務申告書代行者 0.99 Tax Preparers
  • DPE,写真焼き増し 0.99 Photographic Process Workers and Processing Machine Operator
  • 口座開設担当員 0.99 New Accounts Clerks
  • 図書館の補助技官 0.99 Library Technicians
  • データ入力作業員 0.99 Data Entry Keyers

 以上が99%の確率で計算機に主な仕事を奪われる職種とされています。これらTop10を含む702の職種の中で、98% の確率でコンピューター化されるという仕事の上位11〜20位は、以下の通りです。

  • 時間計測器の組み立て・調整係 0.98 Timing Device Assemblers and Adjusters
  • 保険申請と契約処理担当員 0.98 Insurance Claims and Policy Processing Clerks
  • ブローカー補佐データ処理役 0.98 Brokerage Clerks
  • オーダリング処理担当者 0.98 Order Clerks
  • 融資スペシャリスト 0.98 Loan Officers
  • 保険の審査担当者 0.98 Insurance Appraisers, Auto Damage
  • スポーツの審判、審査担当員 0.98 Umpires, Referees, and Other Sports Officials
  • 金融機関窓口担当者 0.98 Tellers
  • 彫金師 0.98 Etchers and Engravers
  • 包装・梱包機器オペレータ 0.98 Packaging and Filling Machine Operators and Tenders
  • 購買担当者 0.98 Procurement Clerks
  • 出入荷・物流管理者 0.98 Shipping, Receiving, and Traffic Clerks
  • 平削り機械セッター、オペレータ(金属とプラスチック) 0.98 Milling and Planing Machine Setters, Operators, and Tenders, Metal and Plastic
  • 銀行等の与信分析担当 0.98 Credit Analysts
  • 部品のセールスマン 0.98 Parts Salespersons
  • 申請類の調整・審査者 0.98 Claims Adjusters, Examiners, and Investigators
  • 運転手や販売労働者 0.98 Driver/Sales Workers
  • 無線通信技師 0.98 Radio Operators
  • 法務秘書・パラリーガル 0.98 Legal Secretaries
  • 予約受付、会計・ Bookkeeping, Accounting, and Auditing Clerks
  • 検査官、テスター、並べ替え機、サンプル検査、計量の担当者 0.98 Inspectors, Testers, Sorters, Samplers, and Weighers
  • モデル業 0.98 Models

 以下、コンピューター化される確率が低い702位までのランキングが並んでいます。確率90%以上が171職種、確率80〜89%が93職種、確率70〜79%が51職種、確率60〜69%が56職種、確率50〜59%が32職種となっています。逆に、確率が1%未満のものは49職種あり、創造的な思考による問題解決を行うエンジニア、ソーシャルワーカー、キャリア(人生)教育をする先生や、分子生物学者などの研究者、結婚カウンセラーや、看護師、リハビリ療法士(確率0.28%)、緊急事態指揮官などが、彼らのモデリング手法による計算結果として挙げられています。いかにも、という職種が上下に多い中、一部の職人芸で「そんなに簡単にコンピューター化できるのかいな?」と思わされるものもあります。

 個人的に印象的だったのは、金融関係の業務担当者が多いこと。彼らの専門性、個別対応能力(裁量権と表裏一体)が意外に小さく、比較的容易にIT画面や対話ロボットに取って代わられると2013年時点で評価されていたことです。これを受けて、みずほ銀行、三菱東京UFJ銀行などのトップ銀行さん達が、近未来の大幅人員削減に向けて、ロボットや「人工知能」(具体的にはIBMワトソンなどの大量知識に基づく対話システム)の導入に一斉に走っているかに見えるのは思い違いでしょうか?

未来の職業の頂点に立つのは芸術家?

 さて、コンピューターによるビッグデータ解析の中間結果と対話しながら、人間ならではの高度な知的・論理的な洞察力と、結論を推論する能力により、機械以上に高度な判断がくだせる人々は生き残ります。特に、VoC分析AIサーバー のような強力な「弱いAI」を使いこなす意思のある人ならば(VoC分析AIサーバーは、問題解決への意思があり現場感覚を備えた人なら誰でも使いこなせるように設計されています)。

 このような知性のぶつかり合い、機械と人間の協調で最高の生産性、最適化を達成する業務ばかりが生き残るのではありません。上記702には、人間のメンタル、生理面へのサービスや、極端に複雑な緊急事態への対応など、合理的、論理的とは言い難い業務がコンピューター化されにくいものとして、低確率の数値とともにリストアップされています。

 加えて、前述のように、「倫理観に由来する価値判断や感覚、感性、感情、美意識」を生かした職業は、まだまだコンピューターを寄せ付けない能力、高い価値を人間が生み出し続けることでしょう。

 先日、某室内オーケストラの合宿にて芸術大学出身のプロ奏者の方と食事しながら会話したのですが、最近、ビジネス界、特にITや製造業のデザイン現場から、芸術系学部出身者(特に美術、デザイン)が引っ張りだこになっているという話を聞きます。人を惹きつけるウェブサービス、感性に訴えるデザインがロジック以上に高い価値を持つことは、ITの最前線に携わる人なら日々実感していることでしょう。

 米アップルを創業した故スティーブ・ジョブズの数々の業績にも、美的要素、感性、デザインが大きくかかわっていることを否定する人は少ないでしょう。かつて、iMacを見たビル・ゲイツが、色が豊富なだけで何の新しさもない無意味な製品だと言ったという噂(嘘かもしれません)を聞いたことがありますが、もしそれが本当なら、アップルのみならず、一般消費者がこぞってその発言を購買行動によって否定した事実が歴史に残ることでしょう。

 古き良き昭和時代、大企業サラリーマンになるのが「正しい男子の夢」とされていた時代に育った私は、父親から「芸術系学部にだけは行ってはいけない。"河原乞食"になるぞ!」と脅された記憶があります。母方の叔父の1人が東京芸大のチェロ科を出て、経済的にはあまり恵まれない生活をしていたのを横目で見たことから、父の言葉には一定の説得力がありました。30年以上前の大学生時代にも、所属する音楽部管弦楽団を指導する弦トレーナー(故人、奇しくも件の叔父と芸大で同期でした)T先生も「プロにだけはなるなよ。心の底から音楽を楽しんでいるだけでよい。今の君たちアマチュアの素晴らしさを捨てることになるのだから」と説諭され、複雑な気持ちになったのを今でも覚えています。

 しかし、今や、その芸術家こそが、最も人工知能に追いつかれにくい、ひょっとしたら永遠に機械を振り切ることのできる、ユニークでオリジナルな表現、付加価値をもたらす最高の職業として、そのプレゼンスを日々、高め続けているのかもしれません。

 もっとも、先の合宿での雑談の結論は「美校(美術学部)はいいですよね。企業から熱い注目浴びてもてはやされて。でも音校(音楽学部)は相変わらずですよね(笑)」というものでした。ですので、同じ芸術でも分かりやすい応用のあるジャンル・対象と、深く新しいビジネスモデル等を考えてIT専門家などと丁々発止のコラボ、ブレストなどをしないとなかなか価値が示しにくい専門もあるかもしれません。

 ただ、「音楽」の名誉のために付言するなら、J.S.バッハの知能指数や数学的能力が非常に高かった、と推定されているように、音楽と数学の能力には高い相関があることが知られています。畏れ多い元同僚のマービン・ミンスキー博士もバッハ演奏で素晴らしい能力を披露していたように、知性を反映した芸術的能力で商品・サービスを差別化する必要が生じるまで、デザイン競争が先鋭化してくれば、音楽性と称される人間の謎の能力が引っ張りだこになる日もそう遠くないのかもしれません。これはクラシック音楽のみならず、実は、即興でアレンジ、作曲した新鮮な価値をリアルタイムで生み出し続けるジャズの世界から、産業的価値が生み出される胎動を、ライブハウスなどで最近感じているのであります。

「なぜ?」を問い続ければ機械と差別化できる

 NHKで毎週放映されているスーパープレゼンテーションこと、TED talkには、たまに指揮者など芸術系のスピーカーが登壇します。

 指揮者についてのこの講演などは、ビジネスリーダー、プロジェクトリーダーはどうあるべきかについての深淵な示唆を与えてくれるのみならず、なぜこの演奏はこう生き生きしているのだろう、という疑問へのヒントも与えてくれます。

 そうです。この「なぜ」という問いかけこそ、自意識や価値観、世界観、人生観を当面は持てないでいる人工知能が最も苦手とする部分なのです。「なぜ」の答えには、具体的回答から、禅問答のように抽象的なレベルまで、様々な飛躍したレイヤーの回答があり得ます。そのどのあたりが相手にとって適切なのか、常識や、相手の反応に応じて絶妙に切り替えるような人工知能ができるにはまだまだ、見通せないくらい遥か遠い道のりがあります。

 「なぜ」という問いかけは、物心ついた小さな子どもが両親を悩ませるがごとく、シンプルに誰でも、どんな対象についても発することができます。しかし、回答は難しい。ファストフード店のアルバイトの身分から、この「なぜ」を自問自答し、ときに周囲に発し続けた結果として、その国のファストフード・チェーンの社長CEOまで上り詰めた例がある、と聞きます。「なぜ?」という問いをきっかけに目に見えない要因を突き止め、それを基に、様々なビッグデータ解析ツール、ツールを使い分けるなどして未来を予測し、抜本的な問題解決に至る斬新なアイデアを発案することは当面、人間にしかできないでしょう。

 この意味で、先の702の業務の生き残り確率にはとらわれず、どんな職業のどんなポジションにおいても「なぜ?」という問いを発し続けることで、人間らしい問題解決、機械には追従できない新発見を成し遂げ続けることは可能でしょう。こう考えれば、オックスフォード大学の論文など怖くない、といえるのではないでしょうか。

 そもそも、ラッダイト運動に始まる機械脅威論、ロボット脅威論には、マクロ経済的な視点を欠く面があります。すなわち、単純労働、辛い労働(かつては肉体労働)を機械が代行してくれるなら、人間は、根本的に「楽ができる」ようになるわけです。よほど、政財界トップが確信を持って低所得層を不幸にしよう、彼らに所得を分配するのはやめよう、とでも考えない限り(そうならない保障はありませんが)、機械が単純労働、辛い労働を担ってくれることで、人間はより創造的で楽しい業務に専念できるようになるはずです。

 単純事務からも解放されて、いわゆるベーシック・インカムで、最低限の生活なら「遊んで暮らせる」生活が訪れてもおかしくはありません。このマクロ的な予測を恐れ悲観する理由などどこにもない、というのが、AIやロボットによる人類の未来への悲観論に対する大きな反論です。

 AIの現場にいる人ほど、邪悪な意思を持つAIの開発などがいかに困難であるか、よく分かっています。彼らが今日(こんにち)恐れるのは、ソフトウエアのバグで人に危害を与えることです。勝手に人類を邪魔者、敵とみなすことのないような制御回路を先回りして設けることなど、人間が、量子コンピューターの数百種類の斬新なアーキテクチャを考える際に、十分余地があるでしょう。

 人工知能にまつわるつまらない悲観論はやめましょう。今現在、1度きりの人生をどう充実して、創造的に生き抜くのか考えることこそが、先の702種の仕事の機械化確率を提示された時に取るべきリアクションではないでしょうか。「自分はこのジャンルでこんな夢を実現したい。なぜなら、こんなビジョンが現実になれば、人々がこのように幸福になれるからだ」と一歩踏み出してみましょう(ちなみに人工知能は希望や夢をいつ抱けるようになるのでしょう?)。そうすれば、そのためにはどうしたら良いかの "How to" は、いくらでも人工知能的な賢いサービスが教えてくれるようになることでしょう。  人工知能たちが世界中のビッグデータ、オープンデータを解析して夢の実現のための手掛かりを見つけて提示してくれる素晴らしい時代が目の前に開けている。この連載の読者の皆様がこのように感じてくれたとすると、望外の幸福であります。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年10月14日

「賢いコンピュータ」が繰り出した、まさかの反則技

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の23回目です。

「賢いコンピュータ」が繰り出した、まさかの反則技

人工知能ブーム再燃の真実(その8)

2015年10月16日野村 直之

 SF作家アイザック・アシモフのロボット工学三原則に私が初めて触れたのは、1973年頃に読んだ『鋼鉄都市』(原題:The Caves of Steel)でした。感情をむき出しにするニューヨーク市警刑事と、人間そっくりのロボット刑事が「2人」がペアとなって互いの長所を生かして、何十年ぶりに起きた、論理的に考えて不可能と思われる殺人事件を解決していきます。

 昨今流行りの「人工知能脅威論」が気になる方や、人間の仕事が機械に奪われて失業者が溢れるのではないかと心配される方は、この『鋼鉄都市』やその続編の『はだかの太陽』(原題:The Naked Sun、「剥き出しの太陽」の方が原意に近いと思います) を読んでみることをお勧めします。後者の『はだかの太陽』では、理想郷を目指して地球人が進出した惑星ソラリアで、わずかな人口の人類が広大な土地に離れて暮らしており、立体視覚通信システム(今でいう仮想現実VRシステム) で必要な時だけ瞬時にコミュニケーションしています。そして、1人ひとりが2万体ものロボットにかしずかれ、豊かな暮らしを享受するという1つの極端な未来イメージがその副作用とともに描かれています。

アシモフの「ロボット工学三原則」

 アシモフが一連のロボットSF小説シリーズを30年にわたって執筆する中で一貫して前提とされてきたロボット工学三原則は、次の3カ条からなります。

  • 第一条 ロボットは人間に危害を加えてはならない。また、その危険を看過することによって、人間に危害を及ぼしてはならない。
  • 第二条 ロボットは人間にあたえられた命令に服従しなければならない。ただし、あたえられた命令が、第一条に反する場合は、この限りでない。
  • 第三条 ロボットは、前掲第一条および第二条に反するおそれのないかぎり、自己をまもらなければならない。

 ―2058年の「ロボット工学ハンドブック」第56版 、『われはロボット』より。

 初期の比較的単純なロボットの場合、次のような行動が見られたことが描かれました。第一条に従って倒れた人間を救いに近づこうとしたら、有害ガスに阻まれ、第三条が作動して元の場所に戻る。そこで自己への危険が去ったので、再び人間を救いに近づこうとするが再び有害ガスに阻まれて…というのを延々と繰り返した、というものです。

コンピュータが「反則技」を繰り出した!

 このロボット工学三原則は、技術がいくら進歩しても実現できないかもしれない、などと伝統的に議論されてきました。

 各条を守るために、ほぼ無限の可能性を検討して評価し尽くさなければならない、という『フレーム問題』というのがあります。この問題を回避するために、汎用的にさまざまな事態に対処することを諦めて、特定の問題解決に絞った人工知能(もどき)しか当面は作れないだろう、という議論もありました。

 目的を、将棋に勝つことだけに狭く絞ったコンピュータプログラムでさえ、この問題に突き当たったように見えた出来事が最近起こりました。ある将棋プログラムが、対戦中の計算量を節約するために、過去の膨大な対戦履歴データ中に存在せず、常識では考えられない反則技に陥るプロセスの評価を省略してしまいました。このため、対戦相手(人間)のある手をきっかけに、反則技を繰り出して人間に負けてしまったという珍事です。

 これについて、複数の棋士・関係者による見解が述べられているのを見ると、自分に王手がかかっているにもかかわらずそれを放置したということで、確かに、人間が盤面を見ていれば一目瞭然で、まず犯さない過ちだったろうというのが印象的です。王手を回避する、というのは、将棋の基本中の基本原則。自分を守る原則ということで、ロボット工学三原則の第三条に似ているといえるでしょう。開発者によれば、毎回ゼロからプログラムを作っているので、今回はたまたま作りこみ忘れていて、それを本番まで気づかなかったということです。

 コンピュータ科学の分野では、何かの制約条件を守りながら最適な解答を見つけ出すための問題解決手順(アルゴリズム)が多数考案されてきました。しかし、1日に訪問する客先を最短ルートで回るにはどうしたらいいか?(『巡回セールスマン問題』)など、一見単純・簡単そうな問題でも、計算量が爆発し、数十、数百の要素になっただけで、現在のスーパーコンピュータでも、太陽系の寿命の何百倍の時間の計算をしても計算が終わらないことが証明できてしまった問題もいくつもあります。

 その解決には、現在のディープラーニングや、発売されたばかりの単純な量子コンピュータがもっと高度に進化して、現在と全く違う原理で問題解決できるようにならなければならない、と考える研究者が多いです。あるいは、良い意味で人間のように「適当に」常識の範囲で、少ない解決案の検討ですませることになるかもしれません。この場合、ロボット工学三原則を機械に守らせることは実際上、不可能になってしまうことでしょう。

 Wikipediaにも解説されているように、アシモフによれば、ロボット工学三原則が適用されるのは自我を持って自分で判断を下せるロボットに限られています。

 "ロボット工学三原則が適用されるのは自意識や判断能力を持つ自律型ロボットに限られており、ロボットアニメに登場する搭乗型ロボットなど自意識や判断能力を持たない乗り物や道具としてのロボットに三原則は適用されない。現実世界でも無人攻撃機などの軍用ロボットは人間の操作によって人間を殺害している道具であるが、自意識や判断能力を持たないため三原則は適用されていない。"

 ところが、現時点で自意識、自我とは何であるかの定義は不明確であり、その実態は科学的に解明されていません。そこでこの制約をはずして、家電製品を含むあらゆる機械にこれらの原則を適用できるよう個別に設計してやればいいじゃないか、という議論が説得力を持ちます。しかし、どんな機械が相手としても、ロボット工学三原則を守らせる、すなわち、実装することは容易にできるのでしょうか?

ロボットが「ロボット工学三原則」を守るのは困難!

 最近、第一条を守らせる実験によればロボット工学の原則を守らせるのは実際的に困難だ、という記事が出ました:

「実験の結果ロボットがロボット工学三原則を守るのは困難だと判明」

 人間役のロボットが穴に落ちるのを、第一条を実装された「倫理ロボット」が防ぐことができるかどうか。英ブリストル・ロボティクス・ラボラトリーのロボット学者のアラン・ウィンフィールド氏とそのチームが実験したところ、守る相手が1体のときはうまくいくが、2体の人間役ロボットを相手にした途端に倫理ロボットは混乱をきたし、相手をうまく守れなくなったそうです。2体のうちどちらを守るかの決断を迫られたときに、機械らしく、「厳密に考え」ようとして迷って時間をロスし、2体とも救えなかったケースがあったといいます。

 もちろん人間でも、同じように混乱して文字通り二兎を追う者一兎をも得ず、という結果に終わることも多いでしょう。しかし、これは価値観の違いや、論理的な思考(計算)の速度がコンピュータよりはるかに遅いせいであり、コンピュータ(人工知能)ならそんな問題はないのでは? という楽観的な予測もあったことでしょう。実験結果を見ると、実際の日常世界で起こる多様な出来事において、ロボットに三原則を守らせることが非常に困難ではないか、と予感させるものがあります。

 ロボットに三原則を守らせることが困難ということは、自動運転車が実用化されようとしている昨今、深刻な問題といえます。例えば次のような事態をイメージしてみましょう。

・走行する道の横断歩道を、黄信号や赤信号になってから横断してくる人の安全を確保しながら、自分が進路をそらして電柱にぶつかって搭乗者に怪我させないようにもしなければならない。

 瞬時に膨大な思考(計算)と様々な判断をやってのけなければならないのは明らかだと思います。

 相手に怪我をさせることでより多くの命だけは救える、という難しいケースを想定してみましょう。こんなとき、あらかじめその通りのシナリオをプログラムされることなく、未知の事態で学習しながら適切な判断を下せる自動運転車ができるのは遠い未来のことのように思えます。

「自動運転」は交通事故を減らせるか?

 先日、ドイツの航空会社の副操縦士が自ら搭乗機を墜落させた事件の直後、「人間よりも機械に乗り物を操縦、運転させた方が安全なのでは?」という論調が流れました。しかし、仮にも何十年と教育を受け、暗黙知なども身に着けながら経験値を上げてきた人間なみに安全遵守能力(安全性能)を向上させるのは、かなり難しいのではないでしょうか。航空機の操縦だけの知識やテクニックに絞った専用人工知能を開発したとしても、先の将棋の反則技を繰り出すようなことは起こり得るわけです。このときの「反則」が想定外だった事態、例えば、計算の結果、海中に潜って空中の障害物(光線の加減を誤認した場合を含め)を回避する、などの手を繰り出してしまう可能性を根絶できるのでしょうか?

 実際に人命を左右するような応用を行う前に、さまざまな実験を徹底的に行って解決策を講じる必要があるでしょう。そして製品のリリース後も、別の人工知能を備えた交通制御システムなども協調的に支援する、などの対策を追加していくことになるのではないでしょうか。

 以上のように安全性を深く考えるのは必須だと考えつつも、やはり最終的には体調や精神状態が怪しい人々が多数、車を運転している現状よりも交通事故は減ってくれるだろう、と楽観しています。もちろん「自動運転車は馬を目指すべき」と提案させていただいた稿でも示唆しましたように、最終の意思決定を下す人間と機械の役割分担、インタフェースをとことん考え抜き、テスト、評価し抜いて、より適切な知性と感覚(センサー)を装備していくべきです。

 新たな発想も必要になり、社会的な合意も必要になってくるので、伝統的な日本のメーカーがあまり得意ではない領域かもしれませんが。それでも冒頭の『鋼鉄都市』が1950年代に描いていたように、人は人の得意なこと、機械は機械の得意な能力を巧みに結び付け、協調させることで、より良い問題解決、安全性の向上になることは間違いないでしょう。

 ヒューマン・エラーをどう低減させるか、というだけの一面的な発想では、機械の位置づけについてのダイナミックな発想が出にくいと思われます。この点、人工知能、あるいは人工知能的な哲学が、新たな視点、発想を提供することができると思います。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年10月02日

AIの健全な産業応用を考える

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の22回目です。

AIの健全な産業応用を考える

人工知能ブーム再燃の真実(その7)


 この連載はもともとビッグデータ分析の科学ということでちょうど1年前にスタートしました。多忙なITベンチャー経営の傍ら1年間、1度も欠かさずに書けたことに我ながら驚くとともに、ご協力いただいた方々、お取引先やメタデータ社の役員、社員には深く感謝しております。

 今回は「なぜ人工知能の話題が最近は多いの?」という疑問にシンプルな回答を書いてみたいと思います。

企業のニーズ:「データそのものはいくらでもあるし、収集や、ある程度の整備のめどは立った。でも最終的に経営改善、業績改善につながる分析結果を導き出すのに、生のビッグデータに人間がいきなり徒手空拳で(手作業で)臨んでも新たな知見など出てこない。そこで、コンピュータらしい力技を発揮して、従来は解析困難だったタイプのデータを、人間が見て何か発見したり仮説検証(定性的・定量的)したりするのを支援してほしい。」

 ビッグデータのブームが一段落したらやはり、人間技では対応できない解析、分析がネックになった。だから、強力な「弱いAI」が必要になった。そのため、人工知能への潜在的な期待が高まり、それに応えるソリューションも出てきたことで(たとえばVoC分析のこれ)、必然的にさまざまなメディアでも取り上げられるようになった、と考えていいのではないでしょうか。

 「従来は解析困難だったタイプのデータ」としては、非数値系のデータ、例えば不定形のテキスト(自然言語)のデータとか静止画像、動画像、音声信号の生データがあります。

 画像は、撮影・編集日時などの5W1H情報や映っている内容についてキーワード入力されたメタデータの類ではなく、画像そのもののことです。これらを扱うには、文章の構文解析、それを超えた意味解析や文脈解析、「常識」知識に照らした推論などが必要になったり、画像の膨大なピクセル情報から映っている人物や事物、背景映像が何であるか、いわばどんな意味内容を含んだ映像であるかを画像認識したりしなければなりません。両方とも、広い意味の「パターン認識」ととらえることができます。

「パターン認識」は人工知能の目や耳

 「パターン認識」、あるいはもっと広く「認識」というのは、「学習」「思考」とは異なるものです。ですが、通常のコンピュータ処理とは異質の、人工知能と呼んでも良さそうな感じがします。人間にしかできないというよりは、目や耳を備えて、危険を認識できる動物全般の能力といって良いでしょう。

 入力された生データは、画素数や文字数で数えると膨大な量になります。しかし「猫の尻尾が映っている」という認識結果(人によっては「画像の意味を理解」したと解釈するかもしれません)は、猫という記号と、その一部、尻尾という記号だけという、極く僅かな情報量(Byte数)に変換されます。

 このように「認識」あるいは「理解」するために、脳内の、さまざまな画像の特徴を記憶したデータベースと、その概念を理解した結果を格納した「辞書」のようなものを使っていると思われます。さらに、猫の尻尾に似ているけれど違うものについて、過去遭遇した場面、出来事の経験に照らして、例外扱いしたりすることもあるように思えます。

 「パターン認識」は、30年以上前から産業界で実用化されています。有名な応用の一つに、NECがいち早く手がけ、今やおそらく全世界の警察が活用している、指紋照合システムがあります。

 犯行現場などで見つかった指紋を、ホストコンピュータのデータベースに格納されている何千万人分もの両手(や両足?)の指紋と、あっという間に照合してしまいます。人間技ではない超高速、ビッグデータ対応が最初から実現していますので、強力な「弱いAI」ということができます。

 何十年も前から実用化されている、あまり有名でない、地味な応用に、工場で生産される薬の錠剤の形を人間に代わって「見て」、規格外の形状のものを排除するためのビデオ・センサと呼ばれるシステムがあります。音声認識、文字認識の世界では、元NEC研究所から九州大学教授に転出された迫江博昭博士が、DPマッチングという手法で、認識対象が、ひな形(「辞書」に入っている単語音声信号や文字画像)から、「変形」(音声の伸び縮みや画像の歪みなど)しているズレを吸収するアイディアを出し、当時の低速な計算機でもパターン認識ができるよう、郵便局用の音声認識機械や、手書き文字認識のシステムを実用化しました。

 人工知能という言葉は、専門家の間でも定義がはっきりしていません。個人的には、パターン認識は「学習」や「思考」、「感情」、「言語理解に基づく本当の対話能力」などとは違うので、人工知能からはずしたいと考えています。そこで、本セクションの小見出しは、「『パターン認識』は人工知能の目や耳」としました。

 だいぶ以前から実用化されているけれども、指紋や錠剤の形、手書き数字(郵便番号など)など、かなり専門特化した応用事例が多かったといえます。

 昨今は、人型ロボットが市場に出てきたことなどにより、汎用性の高いパターン認識へのニーズは高まりつつあるように思います。しかし、その場合でも、どんなものを見分け、聞き分ける必要があるのか、そのために、どれくらいの精度が必要なのかについて、いくつかのケーススタディについて具体的に見積もるべきだと思います。

 そして、現在の技術で、コストに見合う投資額で済むかどうか、きちんと見極めること。人工知能搭載だから賢い、などと思考停止したやり方では、本来うまくいくはずの応用でも失敗してしまいますので、くれぐれも注意したいところです。

社会の重要な裏方としてのAI

 前節で、警察署や郵便局、工場という応用現場に言及しましたので、「社会の重要な裏方」として機能するAIについて、少し考えてみたいと思います。

 2014年度に放映された、放送大学の専門科目現代化学第6回「機能性物質の化学1 〜物質の機能とは」(担当講師石井菊次郎学習院大学教授)では、冒頭で、撥水性繊維でできた布にコーヒーをこぼして見せて視聴者を驚かせた後、「社会の重要な裏方」として働く物質として次が挙げられています:

  • 接着剤・塗料など(ニカワからエポキシ樹脂、低融点ガラスへ)
  • 表面処理剤・潤滑油など
  • 印刷インクなど

 なるほど確かに、「日本の主要な塗料メーカー、潤滑油メーカー、インキメーカーを3社ずつ挙げなさい」と言われて即答できる人は少なさそうです。ですが、これらの製品が住まいや乗り物、工作機械、そして書籍や、印刷技術で作られるファッション・アイテムなどを支える、必要不可欠の存在であることに異論ある方は少ないでしょう。

  物質、材料を「部品」ととらえ、「社会の重要な裏方」として働くハイテク部品の例を考えてみると、日本企業しか作れないといわれていた部品の例として、

  • エンジン内部の超高温でも何年も劣化しないバネ
  • 一度締めたら絶対緩まないネジ

などが思い浮かびます。この他にも、日本の中小企業が世界需要をほぼ独占しているようなハイテク部品には枚挙にいとまがないでしょう。

 上記のような材料技術、部品製作技術が不断に改良され、応用製品を通して市場に出て、社会に貢献している産業分野は非常に健全であると言えるでしょう。

 その一方で、高性能化や安全確保に必要不可欠な技術開発が、(戦時に異常にスピーディに安全無視で技術開発されてしまったなどにより)積み残され、置き去りにされてしまった核関連技術の分野では、70年以上未解決の高レベル放射性廃棄物問題を引き起こしていたりします。比喩的にいえば、腕力や胸の筋力ばかり発達して足腰がまるで脆弱なアスリートみたいなものかもしれません。これでは、いくら当座、産業応用ができてしまっていても、大変な危険と厄災をもたらす事故や解決の目途が立たない廃棄物問題により市民が脅威にさらされ続けることになりかねません。

 人工知能についても、同様の危険があるでしょうか? 「これ一つでどんな問題も解決できる万能のAI」などが本気で喧伝され、無理を承知で強引に現場に適用されたりしたら、あるいは、本当に整備すべきだったデータやロジックがなおざりにされ、当面は人間が担う方が精度面でもコスト面でも優位なところに予算が回らないような事態が生じるかもしれません。

 これは、AIが、生物さえも成し遂げなかった、自らの意思による進化、自己改造など引き起こす「シンギュラリティ」を心配しているのではありません。もっと手前で、従来の工学、産業応用の基本プロセス、発展段階を踏まえ、社会の重要な裏方としてAIが機能するのをすっ飛ばして、派手な役回りのみが持ち上げられ、結局その反動で失望が広がったり、普通の機械、技術と共通する身近な危険が放置されるのを恐れています。

 次回、シンギュラリティ以前の未熟なAIが人々に危害を加えないかを考えるため、ロボット工学3原則について取り上げようと思います。



posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年09月19日

かな漢字変換の学習をみて温故知新

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の21回目です。

かな漢字変換の学習をみて温故知新

人工知能ブーム再燃の真実(その6)


 前回、末尾に次のように記しました:

 「…次回は、新世代の人工知能らしい「学習」とは何かについて、かな漢字変換から、人工知能分野とは少し違う領域の研究者が取り組んでいた機械学習について、また、最適化のタスクや、そのためのビッグデータのモデル化などに触れてみたいと思います。」

 このあと、私の会社であるメタデータ(株)から半年ぶりに、機械学習による全自動テキスト分類等の意味理解機能を搭載したことで初めて「人工知能(AI)」をうたった製品「VoC分析AIサーバ」を発表しました。そこでこの製品にも触れつつ、主に、これまでに実現している機械による学習について論じてみたいと思います。

弱いAIの理想は「透明な」道具

 もっともシンプルで、日本人のほとんどがなじんでいる「学習」機能といえば、かな漢字変換でしょう。一番最近の変換結果を最優先で候補として出す機能です。確かに便利ですが、これに対して「人間のように知的な振る舞いをする人工知能だ!」と感動する人は見当たりません。かな漢字変換などは、誤変換をしないのはもちろん、できれば変換自体を意識させないことこそが高性能の証しであり、自ら自我を持ったり目立ったりしてはいけません。

 存在が利用者の意識から消えてしまい、道具を使っているという意識がなくなってしまうほど手になじむ道具こそが理想の道具ではないか。これを「目に見えないものは意識していないだろう」という意味で、認知心理学やユーザーインタフェースの学会などでは“transparency”(透明性)と呼んで、非常に重要な概念として位置付けてきました。

 かと言って、別に透明人間や透明アルミニウム(映画スタートレックで登場)を作るような苦労は必須ではありません。紙と鉛筆の組み合わせでも、それで書くことに集中できて、道具を使っているという意識が消し飛び、道具の存在を忘れていられるならその人にとって十分に「透明な」道具なのであります。前回書いた、自動運転車が目指すべき「馬」も、熟練者にとっては透明な道具になっているのでありましょう。

インパクトのある誤変換との戦い

 残念ながら、かな漢字変換は精度が100%にならない宿命があります。そして、誤変換をユーザーに見せてしまった瞬間、その時点で、文章を紡ぐ思考が途切れ、道具の存在を意識せざるを得なくなります。インパクトの激しすぎる誤変換を見つけた時にみんなで投稿するサイト「誤変換の宴」というのが以前ありました。私より10年位後輩のM君が運営していたのですが、SNSやboketeの出現前に、ソーシャルなジョークの先駆けの役割を果たしていたと思われます。

 当時栄えたパソコン関係の雑誌にも時々、笑える誤変換の特集がありました。私が最も衝撃を覚えたのは、S社の某専用ワープロが「せんちょうさん」の誤変換を起こしたときの画面例です。「船長さん」が出てくるかと思いきや、変換結果の第一候補が「1000000000000003」だったのです。一瞬、かな漢字変換プログラムの致命的なバグ(トラブル)で、機械語という「0」「1」で記述された低レベルのコンピュータ言語のコード列がディスプレイに流れ出してきたのかと思いました。しかし、数字読み上げ規則(文法)を忠実に実装したS社のかな漢字変換は、残念ながら「人が数字をしゃべる時、概算で数量を把握し伝達するので、10桁以上も離れた位取りの数値を発音したりしない」という常識を備えていなかったため、激しいインパクトのあるおかしな、でも絶対に間違っているとまでは言いきれない変換結果を見せてくれたのでありました。

 他にもトホホな例として、女優の鶴田真由さんの名前を書こうとして、「鶴玉湯」というお風呂屋さんの名前になってしまったりした例などがあります。単語のジャンルというか意味カテゴリのシフトが、(文脈からの期待値から)著しく大きかったとき、インパクトは激しくなります。

 私の古巣でもあるジャストシステムのATOKチーム、ATOK辞書チームは大変優秀で、ごく最近になるまで、ビッグデータの物量と大量の機械学習、統計データの蓄積によるGoogleのクラウドかな漢字変換が精度で追いつけなかったほどです。15年〜20年ほど前にも、少なくとも上記のような「インパクト」の激しい誤変換を生じさせないよう、差分の自動評価に加えて、ATOK辞書チームで一生懸命、目視評価を併用してつぶしていました。

 気づいても黙認した唯一の例外が、全員登録を原則としていたジャストシステム社員の姓名です。社長・専務夫妻の名字が「浮川(うきがわ)」だったため、「今日の海釣りの釣果がいまいちなのは浮きが悪いからだ」と変換しようとしたら最後が「浮川類からだ」となっても、多数の変換のバランスをとる関係上、この名字を辞書から外さないことは黙認されたように記憶しています。現在はその限りではないかもしれませんが、入社した後の最初のATOKのリリースで、最初の変換候補が「野村直行」から「野村直之」に代わってくれたときは、それは嬉しかった覚えがあります。最盛期には日本のパソコンユーザーの8割が使っていたかな漢字変換辞書、システムが自分の名前を優先してくれたのですから! 

※一方、数年前にしばらくの間Google検索が、「野村直行」と入力すると「もしかして野村直之?」と訂正を促していた頃は、後ろめたいような、倫理にもとることを自分がやっているのではないか? と嫌な感じがしたものです。

「学習」機能で実用レベルの一線を超えた

 かな漢字変換は今後も改良が続きます。そもそも、かな文字列を漢字かな交じり文に変える技術は音声認識のために必要だ、と確信して最初に開発した、元東芝常務の森健一博士、天野真家さん(もちろん博士で教授ですが友達なので)らによって1979年に、4人で使える600万円位のワークステーションの形で産声を上げました。機械翻訳用のために、日本語の漢字かな交じり文を分かち書きするよりも、平がな文字列を「使える」水準の漢字かな交じり文字列に変換するほうがずっと難しい。これは直観のとおりです。このあたり、私がくどくど書くよりも、前述の森博士自身の研究開発の総括論文をご参照ください。さすが、オリジナル開発者だけあって、難しかったことも実に平易に解説してくれています:

 「我々の研究結果の結論を先に述べますと、実用レベルの「かな漢字変換方式」を実現するための鍵は、日本語文法の精緻化と同音異義語に関する利用者の使用頻度情報を、機械自身が自動的に学習する機能の開発にありました。」

 旧来の国文法がわずか10数ページ程度にまとめていた、厳密とは言い難い日本語文法を、品詞を細かく増やして定義し、文法ルール、制約条件も数千近くに及ぶまでに整備するとともに、どの切り方が最も正しい確率が高いかについては、辞書中のなるべく長い単語が採用される確率が高いように切り出す「最長一致法」が採用されていました。これは後年、最小コスト法という大量計算する一般的な手法と比べて、多くの場合に、少ない計算量で最適に近いほぼ同じ回答を出すことが証明されました。単語間の結びつきの違いで「子供は泣くが、猫は鳴く」が正しく変換されるように、共起辞書も丹念に人手で制作されていきました。

 そして、上記文献の図6の真ん中にある、
 ◆単語使用の学習機能
には、

  • 最頻度語の優先表示(同音異義語は使用頻度の順番に辞書に入れておく)
  • 最近使用語の学習機能

 とあり、これが、実用水準に到達する最後のカギだったと思われます。

 人類初の日本語ワープロに、最初からこの「学習」機能が入っていたわけです。

かな漢字変換とAIのその後

 その後、ジャストシステムにより、変換キー(PC-98等にあったXFERキー)よりも、分かち書きしない日本語では使用頻度が極少なのに一番押しやすいスペースバー(空白キー)で変換させるという工夫がなされました(皆に使ってもらうため、あえて特許は申請しなかった!)。ATOKが昇り竜のように頭角を現した頃には、このスペースバーすら押させずに、「随分たくさんの平がなが溜まってきた。助詞と思われる『が』『を』『に』の推計数からすると、ここらでコンピュータがユーザーに代わってスペースバーを押し、確定待ち状態にしてもいいのでは?」と判断して、ほどよい単位でユーザーに変換結果の確認を求める「自動変換」が搭載されました。しかし、これはユーザーインタフェース的に違和感が残る人が多かったようで、その後のバージョンでは次第に消えていきました。

 1980年代の第二次人工知能ブームには、かな漢字変換にも「AI変換」という言葉が使われ、より広めの文脈をある程度読んで、少しでも高い精度で変換する仕組みが追求されていきました。現在のかな漢字変換、特にクラウド型のものは、裏側には文法を教え込んだ、もしくは学習させた何らかのメカニズムと、辞書に加えてビッグデータから抽出された大量の常識知識のようなものなど、ミリ秒以下で何万回もの判断をしているような、賢い、「弱いAI」が存在しています。Googleのエンジニア、工藤拓さんの研究開発を漫画にしたこちらをご覧ください。今後も読心術という超能力でも備えない限り100%の精度にはなりませんが、より膨大なビッグデータ由来の知識をリアルタイムで更新することで精度を上げていくことでしょう。

 第二次人工知能ブーム当時の「AI変換」の実態は、1979年の初代ワープロの共起辞書に毛が生えた程度で、当時既にブームになっていた3層ニューラルネットなどは使われていませんでした。それは、ニューラルネットの計算量が理論的にも実際的にも非常に悪くて、当時の計算機のパワーがせいぜい、数10の要素(単語)の間の関係しか自動で学習できなかったため、数万以上もある単語の列などには対応できなかったからです。

 現在は、当時、例えば月額レンタル料が数10億円単位だったNECの初代スーパーコンピュータSX-2の1.3GFlops(毎秒13億回の浮動小数点演算)に対し、4万円以下で購入できるNVidiaのGTX970というビデオカードが2000個近いCUDAプロセッサを搭載し、4.0TFlops(毎秒4兆回の浮動小数点演算)と、3000倍の性能を叩き出しています。個人のパソコンでも700W以上の強力な電源を積めば、このビデオカード(実は超並列スーパーコンピュータ!)を4枚刺すことも可能です。ほぼこの計算パワーに比例して、多層ニューラルネットに何万もの要素(単語や画素など)の入出力を放り込んで全自動で生データと最終出力の関係を学習させ、徐々に精度を向上させることが可能になっています。

古くて新しい様々な技術が「学習」的な応用を支える

 最近、日経BPの浅川記者が、入魂の人工知能最新動向の記事を多数書かれました。その中に、UBICさんの例 があったのですが、いろいろな意味で考えさせられました。

 UBICさんのサイトに行くと、行動科学研究の成果によるPredictive Coding(直訳:予測型符号化)という名前の自動文書解析技術が紹介されています。動画をよく見ると、日本語を分かち書きできること、それらの出現頻度等に応じて、単語の重要度の数値組を作れること、それに対し、数値データマイニングで伝統的に使われてきた様々な統計量を適用して分析をするオーソドックスな手法のことのようでした。

 「伝統的」というのには、例えば、前述のかな漢字変換が誕生した1979年よりずっと以前から使われてきた相互情報量があります。これは、分子分母2項ずつの非常にシンプルな定義です。平たくいえば、ある2つの要素が同時に生じる(例えばその単語が使われる)確率を総合、平均的に求めるもので、2要素間の近しさ、遠さを正負の数値にしたもの。例えば、心理学実験で、集団中のAさんとBさんが一緒に同じ場所に現れやすければ正の値で、どうも互いに避けているのでは? と思われる状況が負の値となって、検証できたりします。要素を単語にしても全く同じで、1950年代前半以来様々に応用されてきたものです。(注:人工知能が誕生したダートマス会議は1956年)

 一挙に60年、時計の針を進めて、ビッグデータ時代の今日、例えば研究者でなく法律などの実務家が、従来、人間が丹念に順番に読むだけだったのに比べて、何十万もの単語のランキングが瞬時に出てきたり、共起関係の出現頻度も出てきて、書類ごとのトピックの違いが何となく一瞥して分かるようなシステムが安価に使えるようになったのは素晴らしいことと言えるでしょう。

 UBICさんの例で言えば、医療分野や法律分野という、少しの生産性向上、検索カバレージ、精度の向上が大きな経済価値を生み出すところに特化して、古くて新しい技術にもその分野、業界特有の運用ノウハウを蓄積して、価値の増大を図ってこられているはず。ですので、高度なSI、コンサルティング業に喩えて、大きな価値が認められるだろうことも容易に想像できます。

膨大な試行錯誤を代行する強力な「弱いAI」

 先週、メタデータ社が発表した「VoC分析AIサーバ」では、-3, -2, -1, 0, 1,2,3の7段階のネガポジ判定結果や、上記の単語ランキング、フレーズ(係り受け)ランキングが任意の組み合わせ条件で絞り込んだ結果に合わせて集計され、すぐに表形式で出力されます。出現頻度数をクリックすると、該当の生データ一覧が開き、また、絞り込んだランキングの結果全体をCSV出力して、自前の5種類の相関分析ツール以外にも、専門の統計パッケージや、Excelの3Dグラフに流し込むことができます(機械学習機能ではないので次回以降、適宜画面例を参照して解説します)。これだけでも、結果が予想できないアンケート自由回答や顧客の声(VoC)の分析には大助かりで、前節の基準では人工知能と呼ばれても良いくらいです。もちろん「弱いAI」です。分析レポートを作成する人間の分析能力を数10倍に拡大できた実績がいくつもあります。

自由回答テキストを全自動で解析、集計 〜人は高度な分析に専念

 「VoC分析AIサーバ」の最大の売りは、機械学習と階層意味分類を活用した全自動テキスト分類です。5階層、約1万種類の意味カテゴリが解析結果抽出されたほとんどの単語に付与されます。

[画像クリックで拡大表示]

 例えば「信頼」という単語の意味カテゴリoik70は日本語で階層的に表現すると、[人の活動]‐[精神作用]‐[心的反応]‐[信頼・謝意・敬意] となります。図中、「@」「A」と操作して、中部地方の回答者1013名に絞り込んだ母集団を、意味カテゴリの識別は、最大限の5階層、そして、T0〜T9までの10種類に自動分類しなさい、と、「B」「C」「D」の順に操作すると、「E」以下の「分類結果」に、その結果が現れます。

 先の、「信頼」と同様の意味カテゴリの共通部分が多い自由回答は、確かに、5本ともT8に分類されています。T8には、営業担当の信頼性の話題が集約されています。同様に、T4には営業マンが仕事の紹介を頑張っている記述が、T1には経済的条件が良いとする記述が、T2には対応、サポートの良さが、T3は仕事が決まる話題の記述が、各々集約されています。

 大事なのは、共通単語が1つもなくとも、表記が違っていても、意味が近ければ同じ分類にすることができている点です。前述の伝統的な手法とは一線を画しています。

 機械学習エンジンは、意味カテゴリの出現頻度のパターンから、適当な初期仮説を生成して、全記事をざっくりと所要の分類数、ここではT0〜T9までの10種類に分けます。その後、果たしてこの分類で、

  • 分類間の違い(距離)が十分大きいかどうか
  • 分類内の違い(距離)が十分小さいかどうか

 何10回も評価を繰り返しては、初期の分類を少しずつ修正していきます。

 その結果、ほぼ収束した、と判断されたものを分類結果として出力します。

 また、実行時ではありませんが、開発時、特に意味カテゴリの改良に際して、さまざまな候補の収集、摺り合わせに、さまざまな人工知能手法を採用しています。これまではひたすら「弱いAI」で人間の判断をサポートするシステムを運用していましたが、今後は全自動タイプの人工知能、例えばディープラーニング応用のビッグデータ解析エンジンを人間のパートナーとして採用し、類語や反意語、関連語の候補を自動学習した結果を人間がチェックすればよい形にもっていきます。こうして、機械と人間がタッグを組んだ最強の知識創出システムが生み出した知識構造を活用して高度な分析が素早くできるようにもってまいります。

 その次に、別種の人工知能を製品に追加搭載することも確定しています。それについては、当該のプレスリリース以降に解説させていただきたいと思います。

 また少し長くなりました。次回以降は、今回用に書いていた、SF作家アイザック・アシモフによるロボット工学の3原則(学習とも大いに関係あります)の実現性、また人工知能的な手法と人工知能的なご利益(ベネフィット)の違いについて書いてみたいと思います。



posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年09月05日

AI搭載だから賢い? ではルンバは知的なのか

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の20回目です。

AI搭載だから賢い? ではルンバは知的なのか

人工知能ブーム再燃の真実(その5)


 前回、マーケティングとしての「強いAI」 を話題にしました。ここで一つ思い出すのは、米マサチューセッツ工科大学(MIT)人工知能研究所(AI Lab)の客員研究員(Visiting Scientist)時代に、“人工知能の父”マービン・ミンスキー博士と恐れ多くも同僚として隣室(2週間ほどは同じ部屋!)で過ごしていた頃の雑談です。

 ミンスキー博士曰く、「強いAIを実現する研究者として作ってみたいのは、平日はいろいろ文句言いながらも真面目に仕事をするけれど、休日になると、スケジュールや体調、気分次第では何かやる気が出なくなって、ボーッと一日中フットボールの試合を見て独り言をつぶやいたりするコンピュータだ」。こんな機械の開発に研究予算を出してくれる政府も企業も、いかにも出てこなさそうですね(笑)。

 でも、人間そっくりの脳やセンサー、行動器官を備えたロボットが作りたいなら、確かに上記のようにヒトの性質までそっくり真似られるようでなければいけません。「優れた」ところだけ真似するのだけでは駄目。コンピュータはもともと超高速計算や膨大な記憶容量などで最初からヒトの脳より「優れた」ところがあったわけですから、そこを捨てていくような研究開発を行うのが「強いAI」の一面とも言えるでしょう。人口減少時代に、寂しい高齢者のパートナー・ロボットを開発したいならば、まさにそのような人間臭い、癒し系の「強いAI」が必要になってくることでしょう。

「掃除」は知的労働なのか

 世間や産業界で騒がれている人工知能(AI)の定義が、何か分からなくなってきた、という向きもいらっしゃると思います。私もときどきそうなりますので、文献を参照して確認することがあります。

 「そもそも人工知能(AI)って?

  A 人間の知的労働を、コンピュータに処理させるためのソフトウエアやシステムがAIだ。」

――エコノミスト誌、2015.1.27号 p.24 より

 「A」と書いてあるのは、「回答」という意味です。「知的労働」というのは紛れもなく、応用課題として解決されるべきタスク(仕事)で、従来人間の知能労働でしかできなかった(とされる)もののことを指しているようです。また、後半の説明では「人間の脳が日常行っている処理」と、急に違う定義に履き違えられてしまう感じがします。いずれにせよ、上の定義は、前半は狭すぎるし、後半は広すぎて、ちょっと違和感があります。

 例えば、最も身近に普及したAI応用製品と言われる「ルンバ」などのお掃除ロボットを見てみましょう。ルンバはMITの人工知能研究所所長を務めたロボット工学の権威、Rod Brooks博士の基本設計によるものです。センサーが察知して単純に障害物を避けるだけでなく、部屋の形状や家具の配置の地図を「頭の中」に作成し、無駄の少ない移動法を「考え」、かつ2度と同じところを通過せずに効率よく掃除します。人間でも同じところを(念入りに掃除するのでなく)、間違えて何度か掃いてしまうことがあるのに比べて、賢いかもしれません。また、充電器の位置を自分で探して充電されにいくなど、人間いらずの “自動性”が高まっていると言えます。

 それでも、掃除という作業、タスクには変わりありません。部屋の掃除に頭を使う余地は大いにあるとは思いますが、掃除のことを「人間の知的労働」と称する人はまずいないでしょう。お掃除ロボットの普及は、「こんなに考えて動いてくれるなら自動車の自動運転も任せて良いのではないか?」などの発想につながり、一般消費者がAIに肯定的になるのにも大いに貢献しているのではないでしょうか。

自動運転車の目標は「馬」だ!

 自動運転車のテストドライブに同乗する人に果たして保険が適用されるか寡聞にして知りませんが、一昔前なら、よほど勇気のある人しかそんな募集には応じなかったのではないでしょうか。おそらく、人工知能型のお掃除ロボットと日常暮らしている人ならば、自動運転車に不安なく乗ってみようと思う率がはるかに高いような気がします。ちなみに、自動車の運転って知的労働なのでしょうか? それを考える手がかりとして、車の運転と乗馬の違いについて少し考えてみ ましょう。

 自動車の性能が馬よりも落ちる点として、運転者が寝てしまったら終わり、というのがありました「馬のほうが自動車より賢くて高性能」という見解を初めて聞いたのは、筑波大駒場高校時代に漢文を教えてくれた高井先生がシベリア抑留時代の話をしてくれた時のことです。先生曰く「半分眠ってしまっても隊列の前の人馬に付いていってくれるので全く問題なく目的地に着くことができた。馬は素晴らしい!」と。極寒のシベリアで何度も生死の境をさまよった本人の語りでしたので、強烈な印象でした。

 私自身は5鞍しか乗馬の経験がないので到底その境地には至っていませんが、休ませておけば勝手にその辺の草を食べて自動的にエネルギー補給まで済ませてくれる点も車より優れているし、排せつ物は肥やしにこそなれ、排気ガスのように大気汚染で悪さすることがない点も優れていると言えるでしょう。

 かように、馬はセンサーと(3歳児並みの)知性を備え、危険を回避し、自動的に安全に目的地まで連れて行ってくれる点で自動車より優れていたわけです。AIはヒトばかりでなく、牛馬、犬猫、クジラなどの哺乳類や、一部のロボット研究者のように昆虫の知性を研究したりすることもあります。そこで、馬の知的能力を自動車に持たせるのが自動運転車の目標であり、これもAIなのだ、と言って良いでしょう。

 なお、お掃除ロボットには、あらかじめセットされたランダム、らせん、ジグザグなどのパターン通りに動くのが基本で、壁や家具にぶつかったときの方向転換の向きも一定、何度も通るうちにそのうち床全体がカバーされるでしょうという程度の、知性のかけらもないものもあります。このサイトでは4種類ほどに分類されていて、具体的な製品名があるので、製品選びに役立ちそうです。また、「必ずしも賢い自走式掃除機ばかりが、部屋を(低コストで)きれいにするという大目的にかなうとは限らない。2度拭きでよく汚れが落ちることもあるので。」などと理由付きで指摘している点、今後の「弱いAI」応用製品の設計思想を考える際に考慮すべきチェックポイントの1つとなりそうです。人間の場合も、賢い人ばかりが「使いやすい」とか「使って(互いに)快適」とは限らない、のと似ているかどうかまでは分かりませんが。

弱いAI の市場が花盛りとなる気配

 前節の記述は、ちょっとエコノミスト誌に意地悪だったかもしれません。ヒトの能力が実に多岐にわたり、汎用的であるように、機械にできることも実に多彩であり、タスクによっては、コンピュータの誕生以来、コンピュータの方がヒトより得意なものもたくさんあります。

 AI活用と称するには、何らかの知性を感じさせる作りになっていること。それは、ある種の「学習」だったり、単純な履歴データ活用を超えた「予測」だったり、もっと別種の知性の発揮だったりする。このあたり、個別に「何が新しくできるようになったか」精査する必要があります。安易に、「人間にしかできなかったことができるようになった。だからAIだ。」などとは言うべきではないでしょう。何も定義や切り分けができていないところへ「何にどれだけ役に立つのか」を評価することがますます難しくなってしまう危険があるからです。

 何か賢く「考えている」かの機能要素、原理により、従来は想定外だった水準の自動化率で、人手の仕事(知的労働に限りません)を代替し、省力化したり、人間以上のスピードや仕事量、仕事の質の高さを達成したものが人工知能応用システムと呼ばれるに値するのではないでしょうか。この意味で、エコノミスト誌2015.1.27号p.25以下の本題にある、「自動運転・AI・ロボットで注目の銘柄76社」はいいところを突いていると思います。

 残念ながら、まだ、私の会社・メタデータ社はこのリストに入っていませんが、近く、顧客の声(VoC=Voice of Customers)を分析するのに人間技では不可能だった膨大な意味抽出や、機械学習による自由テキスト記述の全自動分類などを新規搭載した製品を発表します。どうかご期待ください!

 76社の内訳ですが、3つの大分類のうち、自動運転を担う有望企業として、以下がリストアップされています:

  • 関連部品のメガサプライヤー3社(デンソー、日立、コンチネンタル)
  • 運転支援関連3社(日本電産、日信工業、アイシン精機)〜自動ブレーキや自動パーキング
  • 交通情報関連1社(住友電工)〜路上センサー情報から信号機の制御など
  • 車載半導体関連4社(ディジタルメディアプロフェッショナル、ルネサスエレクトロニクス、ザインエレクトロニクス、インフィニオン・テクノロジーイズ(独))
  • センサー8社(ソニー、アルプス電気、イリソ電子、オプテックス、日本セラミック、浜松ホトニクス、村田製作所、インターアクション)〜画像センサ、赤外線センサ、加速度センサ等
  • ソフトウエア4社(モービルアイ(蘭)他)〜立体動画解析、人工視覚他
  • 通信機器3社(OKI他)〜車車間通信他
  • カーナビ・地図関連2社(JVCケンウッド、クラリオン)〜クラリオンはGoogleカーナビに地図情報を提供
  • 入力・装置関連3社(アルパイン他)〜空中に画像を投影したり次世代タッチパネル、アップルの車載プラットフォーム「カープレイ」を手掛ける
  • 電子部品・半導体商社3社(ルネサスイーストン他)
  • 開発ツール1社(ZMP)〜AIを駆使した自動運転開発ツール「ロボカー」を販売。

 この他、自動運転と並ぶAIに大分類された訴訟支援(UBIC)、音声認識(アドバンストメディア)、コミュニケーションロボット(富士ソフト)、自動運転(ZMP)(物流ロボ「キャリロ」発売へ。マミヤOPの芝刈り機にもAIを供給)が挙げられています。

 ロボットという3つ目の大分類には、日本のお家芸、伝統の産業用ロボット14社に加え、新市場のサービスロボットが15社も(ホンダ、サイバーダイン、菊池製作所、パナソニック、セック、ソフトバンク、やまびこ、今仙電機、トヨタ、シャープ、大和ハウス、東芝(お掃除)、三菱重工(廃炉用)、グーグル、アイロボット(お掃除))、挙げられています。他に、ロボット用モーター、減速機、直動システム、センサー、建設機械の自動制御という分類に1〜3社が名を連ねています。

 次世代カー、自動運転車というと、「トヨタ対グーグル」などと、異業界の両雄一騎打ち、と揶揄されがちですが、幅広く産業全体を変革していくイメージが上記リストからだけでも浮かび上がってくるかと思います。非常に健全な、「弱いAI」の市場開拓の動きであり、ハードウエアやきめ細かな動き制御といった、日本企業が得意な領域でもありますので、個人的にも注目、応援しています。

“メタファの暴走”にご注意

 弱いAIの研究開発については、その性能の評価基準も多くの場合、明確なので、安心してその加速ぶりを眺めていくことができます。一方、先ほどのAIの定義に絡めて、「人間にしかできなかったことができるようになった」という言い方と同様、「人間のように仕事をするコンピュータ」という言い方も要注意です。

 以前のAIブームの時にも「人間がやるように何々ができるコンピュータプログラム」という言い方も流行りました。 中には、「人間がやるように形態素解析(分かち書き+品詞付与)をするプログラム」と堂々とうたった論文発表もあり、仰天した記憶があります。

 ヒトは、文章を読む際に「ここは動詞で始まる文節の切れ目で、その後に副助詞『も』、活用語尾、完了の助動詞が付いている」など考えながら、文を単語列に分解しているものでしょうか? 全部の単語について、分かち書きをちゃんと(機械がやるように)やっているのかも疑わしいし、品詞付与にいたっては、単語に品詞名を付与しながら母国語を聴いて理解している人など一人もいない、と断言して良いからです。学校で文法を教わっていない幼児なら「品詞ってなぁに?」と聞きますよね? 形態素解析というタスクはヒトの生得的能力とは随分違います。

 このようなエピソードなら、「研究者ってヘンね」と笑って済ませられるかもしれません。しかし、「知能」、「学習」、「予測」ということばが独り歩きし、知らず知らずのうちにユーザーに誤解を与えるとしたらそれは危険です。人間が幅広い教養と人徳を踏まえて知性を発揮したり、複雑高度な知識をその場で創造しつつ未知の問題を解決するような能力を学んだり、独創的な新経済理論を発案することで2025年の国際情勢を予測する、などの能力と混同されては困ります。これらは、「知能」、「学習」、「予測」などのことばが独り歩きしたことによる、メタファの暴走なのです。

 そもそも自動処理、自動で何かができる、というのはどういうことでしょうか? 蒸気機関の発明以来、いや、それ以前の、風車や水車の時代から、人力や牛馬の筋肉によらずに製粉や灌漑ができたり、人や物を動かしたりできるようになっています。梃子の原理で人力を拡大する装置でも、その動力源を見せなければ、「自動的に」動いているようにみえます。

「人工頭脳」の中枢には蒸気機関が…

 重力が動力源の面白い装置はピタゴラ装置ですね。自動的、自律的に見えるから面白い。風力が動力源で、本当に生き物のように見えてしまう、ストランド・ビーストというのもあります。

 無声SF映画「メトロポリス」をご存知でしょうか?

 マルクス主義が盛んだった時代に、制作年代1926年から100年後の2026年の未来都市は、一握りの支配者階級と、大多数の労働者階級に分かれ、主人公マリアが豹変して機械に支配された代弁者になってしまうくだり。そして暴かれた機械制御の中枢には、蒸気機関があり、すべての機械を制御していたのです。人工頭脳の象徴が、その当時の主力の自動機械だった蒸気機関であったことは大変示唆的なエピソードです。

 すなわち、それ以後も、その時代、時代の最先端の自動機械が比喩(メタファ)、象徴(メトニミ)として使われ、人の頭脳にすぐにでも取って代わるかのようなイメージを与えるようになるだろう、と示唆されたのであります。現在のコンピュータは、ディープラーニングなどのソフトウエアを載せたものも含め、ほとんど全部がプログラム格納方式、別名ノイマン型コンピュータです。これは、「0」(ゼロ)と「1」(イチ)の列を入力されたものが一部はデータとして、残りは制御を進め、切り替える「命令」として扱われ、粛々と機械的に、スイッチや、パチンコ台、そしてピタゴラ装置と同様に、厳密に「0」「1」の列の指示通りに動作する機械です。違いは、大規模、超高速に動作する点だけ、といっても良いでしょう。

 コンピュータには何らかのデータ保存装置があるので(紙テープやパンチカードも含め!)、そこにデータがある程度自動的に取り込まれたことをもって「学習」とか「記憶」と呼んでしまい、また勝手に妄想を膨らませる人もいるでしょう。ここにも「メタファの暴走」の罠がすぐそこに、ぱっくり大口を開けて待っています。さすがに、ハードディスクやUSBメモリにデータを保存しただけのことを「学習」と捉える人はいないでしょうが、プログラムの前回の実行履歴(ディスク装置に「記憶」されています)が自動で呼び出されただけで、「おー、学習機能があるのか、気が利いている」と感じる人は少なくないと思います。

 どんなコンピュータプログラムでも何か自動で動き、何がしかは賢く、あたかも自律的に動いているかに見えても不思議はない。これはコンピュータの誕生当初から、そう、半導体以前の真空管、あるいは天才・池田敏雄氏らが開発したFACOM-100のようなリレーを多数使った機械式コンピュータの時代から、どんなプログラムでも自動で、賢そうにふるまうことはできたという当然のことを意味します。「人工知能搭載だから賢い」というのもその内容、すなわち情報処理機械としての入出力と内部処理の仕様が具体的に定義されていなければ、自動処理機械だから自動で処理している、という同義反復しているような無意味な言説です。ジャーナリズムとしては控えるべきではないでしょうか。

 少し長くなりましたので、次回は、新世代の人工知能らしい「学習」とは何かについて、仮名漢字変換から、人工知能分野とは少し違う領域の研究者が取り組んでいた機械学習について、また、最適化のタスクや、そのためのビッグデータのモデル化などに触れてみたいと思います。



posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年08月19日

ビッグデータとAIは新しい消費市場を作りつつある

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の19回目です。


ビッグデータとAIは新しい消費市場を作りつつある

人工知能ブーム再燃の真実(その4)


 前回、「人類が生み出した超知能(神)が次の宇宙を生み出す??」など、究極のぶっ飛んだお話を書きました。今回は企業が保有するビッグデータの流通の話題などに大きくシフトしようかとも思いましたが、私自身、人工知能に再び取り組んでおり、健全に活用するスタンスの取り方が確定しきっていないので、引き続き現在の人工知能ブームに対して、様々な角度から冷静な目線を向けてみたいと思います。

20年前に予言されていた? ビッグデータによるシンギュラリティ

 昨今、急激に脚光を浴びている「超知能が全人類知を凌駕する」シンギュラリティに似た議論(その後見つけた例)は、30年位前にもありました。当時、自律的、自発的に学習する本格的な人工知能がなかなかできそうにないため、片端から機械に知識を詰め込んでやれば、いつか詰め込んだ以上の知識を類推などで学習できるようになるのでは、という意味での「臨界点」を目指す動きがありました。

 2つ前の連載の2ページ目「大規模知識ベースという副産物を生んだ当時の研究」でご紹介した、常識・知識ベース解プロジェクトの1つ、Cyc のDouglas B. Lenat教授は、(知識)量の違いが質の違いを生むと主張していました。FGCS第五世代コンピュータ国際会議の1つで、 Lenat教授は講演の最初に、「いつ機械は学習し始めるか?」(“When will machine learn?”)と大きく板書。その後、数10分、Cycプロジェクトの内容を紹介した後、当時のタイムスケジュール、ロードマップを聴衆が期待し始めたタイミングを狙って、

「199x年y月z日」と板書しました。

 すみません、確か、1994年12月あたりだったかと思うのですが、記憶、記録が定かでないので変数のままとさせてください。ポイントは、それがCycプロジェクトの(当時の)完了予定日であり、その日こそ、新規に人手で追加投入した知識量以上に機械が学び始める臨界点(割と堅実なシンギュラリティの定義と言えるでしょう)だ、とLenat教授が主張したところにあります。

 確かに、多様で膨大な常識・知識のストックがないと、新たに投入された記述から知識、情報(事実や意見)を取り込むことはできません。例えば次の例文を考えてみましょう:

例:彼は吠えて飛びかかってきた動物と向き合わざるを得なかった。

 「彼」は通常は人間の男性のことであり、人間は通常「吠えない」という知識を使って初めて、上記例文の中で「吠えた」のは「彼」でなく「動物だ」と判断できます。この知識がなければ、彼が吠えて、その後で、動物と向き合ったのかもしれないという可能性を排除できません。この曖昧さは、構文解析という、文の構造解析の結果に含まれる曖昧さなのですが、構文解析を正しく遂行するだけでも、膨大な量の常識知識を適切に表現して、正しく活用する必要がありそうです。また、それがかなり膨大になりそうであり、人間だからといっていつも正しく適切に知識をコンピュータに教えられるとは限らない。

 当時から、機械が常識を獲得できるようになるには何か大きなブレークスルーが必要だ、と感じていたのをお察しいただけるかと思います。もちろん、主に手動による知識のコーディングとその洗練、一定ボリュームになるまで歯を食いしばって実行する必要性を、天才人工知能研究者の名をほしいままにしたLenat教授らが確信していた事実は尊重されてよいでしょう。また、実際どの程度の量の知識を集めればよいのかをもっと研究すべしとか、人間の学習を真似るにはどの程度、人間と同様の脳の仕組みを真似る(=“強いAI”の発展)必要があったかとか、もっと執拗に追究すべきなのかもしれません。大規模知識ベース開発と並行して。

なぜ今、人工知能や高度な分析力がブームに? 〜ビジネス現場のニーズから考える

 現在なぜ、人工知能に関心と期待が集まっているのでしょうか? 前回までは、データ量や計算機の能力が何桁も増大したこと、また雌伏20年、当時の若手研究者が研究指導者になって、怖いもの知らずの若者に「取りあえず計算量のことは気にしなくてもいいから多層(4層以上)のニューラルネットで画像認識をやってみてくれ」などと示唆したなどのせいでブレークスルーが達成できてしまった、という事情もあるでしょう。

 しかし、全体としては「必要は発明の母」、ニーズの高まりが技術開発を促した側面が大きいように感じます。最大のポイントはやはり、ビッグデータ。昨年前半くらいまでに、大量データの収集とその“お掃除”、データの形式や網羅性の追求整備が進んだけれど、まだそれをあまり活かせていない。活かすためには、人手でも機械でも分析ができればよいのですが、本当にビッグデータなので、やはり全部は見きれない。目視できた範囲でも、それだけでは経営戦略に重大な影響を与える「何かを発見しろ!」「アイディアを出せ」と言われても何も出てこない。

 そこで、様々な角度で解析し、絞り込み、クロス集計などをかけるという統計的手法などを駆使してみたりします。しかし、次の場合は、人工知能的でない手法ではなかなか自動化が進みませんでした:

  • 元データが数値データではなくテキストや画像、音声などの不定形データの場合
    →人に代わって文章を代読したり、画像や動画中の物体や動きを認識する能力が必要
  • 数万〜数千万の生データを走査して、潜在するパターンや法則を発見する
  • どんなデータであるか皆目分からない大量データを自動分類し何らかの傾向、意味付けを与える

などなど。

 一方、マーケティング上、重要な役割を担うようになってきたソーシャルメディアを眺めてみたとき、例えばフェイスブックがその利便性、(企業にとっての)付加価値を高めるために、高精度な顔画像の自動認識を備えているのも重要です。これなどは、手動で友達をひもづけるインタフェースの上に、デフォルト(既定値)として自動認識結果が補完されかけているようにした、なかなか巧みな仕組みです。かつては人間にしかできなかった顔認識を自動化することで、友人、人間を「奴隷」のように機械に奉仕させることを回避できている、といえます。

 ゲーム中毒や個人情報の悪用問題など、IT自身の生み出した負の側面への対抗策にも、もはや人力では無理であり、ITをもってITを制するしかないのは、AIの懐疑派も認めるところではないでしょうか? まだまだ、出てきたばかりの新しい機能群のもたらす負の側面をコントロールしきるところまではいきません。しかし、このようなネガティブな気持ちになる作業を人が膨大な時間をつかって奴隷のように働くわけにはまいりません。やはり、人間の代行がある程度可能なAI的なITによって対応する、いわば、毒をもって毒を制する、というとになるでしょう。こんな表現ならば、IT懐疑派には歓迎されそうな気もいたします。

生活現場の興味・好奇心がロボットや人工知能に向かう

 モノは溢れかえり、サービスも、消費者のアテンションや時間、ひいてはお金を奪おうと手ぐすね引いてくれる。ウェブ検索を毎日行って情報や知識にアクセスする人々は必ずしも多数派ではなく、ソーシャルメディアの「友人」や、アマゾンをはじめとするECのソーシャルフィルタリングやレコメンデーションに従って、あまり考えずに買い物をして楽チンがしたい。でも時に、時間を節約しすぎて意図せざる商品が届き、失敗を悔やむ。

 こんな生活を続けていると、「あーあ、もっと自分の意図を賢く察してくれる忠実な召使いはいないものか? できればフレンドリーで、忍耐強く、優しくて、面白い奴が良いな!」と考えると、以前ご紹介したアマゾン製の円筒のようなロボットや、流行り始めたソフトバンクのPepperのパーソナル版が出てこないか、などの期待が募ってくることでしょう。

 TVからネットへ、という流れは、消費者、一般大衆が常に能動的に情報にアクセスしコントロールする方向へシフトしていることを必ずしも意味しません。周りの人もネットのサービスで連絡や相談をするようになったから、と引きずられて、何となく自然にネットを使うようになったユーザーも千万人単位でいるわけです。そんなユーザーは、少なくとも疲れている時、寛ぎたい時くらいは受け身でネットと接したいことでしょう。

 普段シビアにネットを使いこなしているヘビーユーザーだって同じかもしれません。TV時代のように、受け身で楽チンに接するあり方がそのままネットに移行するためには、現在のPCや、検索エンジンのインタフェースでは受け止めにくいわけで、そこに音声認識や対話型のスマホの新しいインタフェースが大発展する素地があります。そして、先ほどのロボットのような専用デバイスが大市場を築く可能性も大いにあります。

 先の連載の「クリックなしのネットショッピングをロボットが実現」 でご紹介した米アマゾンのEchoは、そのあたりのニーズの本命をずばり捕えている可能性があります。珍奇だからといって敬遠する理由はないでしょう。

マーケティングとしての「強いAI」

 私は一貫して「弱いAI」すなわち、人間の能力を拡大したり、人間と協力し合って互いの得意な能力を出し合って対話的に問題を解決するという人工知能を推進するという立場をとってきました。ところが、先のロボットでも、さりげなくアシストしてくれて楽チン、というのではなく、いかに人間らしく振る舞うかとか、人間の子供がするようなことが出来たり、わがままやジョークを言ったり、ということにも人々の多大な興味が集まります。

 これなどは、「見世物としてのAI」、「娯楽のためのAI」と呼ぶべきかもしれません。しかし、市場としてバカにできない大きさになる可能性があります。ゲームの裏側にAI的なプログラムがいるのも、ある意味自然です。一人だけで麻雀はできないので、他の3人のプレーヤーを用意してくれるプログラムは20年前からありました。プレーヤーに個性を持たせ、互いに喧嘩させることで「裏で3人が通じ合って八百長などしていない」ことを演出しているかのような麻雀ソフトもあったように思います。

 本物の人間並みのバリエーションで対話したり、本物の感情を持つには至らない対話ロボットであっても特定の個性的なキャラを持たせて、複数参加させることで時に予期せぬ(事前にプログラミングしきれない)対話の展開を生じさせることがあり得ます。直接のご利益や有用性はなかなか得られないかもしれませんが、少なくとも見ていて楽しい、3人以上の対話に参加して楽しい、という人間にとってのメリットは考えられるでしょう。

 翻って、NHKの「ネクストワールド」のような番組が高い視聴率をとって話題になるのも、1つには強いAI、人間みたいな知性を感じさせる技術、設計、デザインそのものに視聴者が大きな興味を持つからでしょう。この意味で、「強いAI」という、もともと科学技術、研究開発の方向性の哲学だったものがマーケティングの有望な概念としても機能していることが分かります。

 人工知能ブーム再燃の真実、まだ続きます。本稿末尾の負の側面として、「メタファの暴走」の話や、AIとは思われてこなかった機械学習の話、また、AI的な手法を用いながら全然そのように見えない、見せない問題解決の局面などご紹介してまいりたいと思います。



posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年08月05日

2045年、人工知能は人間を追い越す?

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の18回目です。


「2045年、人工知能は人間を追い越す?」

人工知能ブーム再燃の真実(その3)


 今回は、人工知能の進化をめぐる楽観論と悲観論について取り上げてみたいと思います。

 技術的な楽観が、人類にとっての悲観となることがあります。人工知能が人間の知能を追い越して進化するという設定で映画「ターミネーター」では未来世界で機械が人類を抹殺しようとしていました。また、最近の映画「トランセンデンス」では、アップロードされた人格が機械やITインフラを駆使して人間を支配しようとする。つまり、技術的には楽観的になることで人類にとって悲観的な未来を描く向きもあります。天才物理学者のホーキング博士まで、最近、そんな発言をしています。

 もっとも、実際に人工知能の研究開発や応用で苦労してきて、現場の最前線の技術を具体的に知悉している人はどちらかというと正反対の見方、すなわち、人間の素晴らしい能力はそんなに簡単には超えられないから心配には及ばない、と考えてきた人が多いように思います。

 ところが、20年近い沈黙を破って、人工知能研究者自身が超楽観的なストーリーとして、2045年に人工知能の知の総体が人類のそれを追い越し、自らを進化させ、超知能となっていく、といった発言が見られるようになってきました(例えば松尾豊氏の「シンギュラリティを超えないと言うのは、もはや難しいだろう」)。

 これは、検証不能の疑似科学かもしれません。しかし前回の人工知能ブームでも、「10年後の1998年には、人間と同じやり方で自ら学べる機械が出現する」などの予言が一部の書籍に見られたことを思い起こすと、人工知能の「ブーム」が本格化しつつあることの1つの証拠なのかもしれません。

シンギュラリティ問題:2045年に人工知能が人間を追い越す?

 情報処理学会の会員向け月刊誌「情報処理」2015年新年号の特集は、「人類とICTの未来:シンギュラリティまで30年?」というものでした。古くは、シュワルツェネッガー主演の映画「ターミネーター」で想定されたように、人工知能が何らかの本当の学習能力をいったん備えてしまえば、急速に自己進化を遂げてあっという間に人間の知能を超え、独自の(非)倫理観をもって、邪魔で非効率な人類の排除に乗り出すという臨界点も「シンギュラリティ」の1つのあり方です。

 一般には「特異点」ということで、人工知能の進化で何らかの後戻りできないポイントを通過すること。人間がコンピュータに教え込む知識量以上の知識をコンピュータが自ら獲得できるまでに学習能力が高まり、勝手に知識ベースを増大させられるようになることを指すでしょう。おそらくその次の段階で、知識の獲得、創造の仕方自体を自ら改善し進化させてしまうことが想定できますが、世間でのシンギュラリティ談義では、そのあたりが混同されているようにも見えます。

 この2つの特異点は区別したいです。ただ、実際に、コンピュータが本当に自ら知識を獲得したというのはどういうプロセス、状態なのか定義、判定するのは難しいでしょう。現在のGoogleさんの検索エンジンは、精度向上の仕事の相当部分が自動化されているはずですが、研究者が考案したアルゴリズム(計算手順)とデータ構造に基本的には依存しており、研究者のセンスを超えて気の利いた手法をコンピュータが勝手に「考え」たりはしていないはず。でも、その延長で、いつどのように「あれ、適合型の意味構造認識のアルゴリズム入れたけど、自分(研究者)の想定以上に賢くふるまっている」と判定できるのか、判断が難しいと思われるからです。

 2つ目の「(知識獲得・創造の仕組み自体を改変して)自らを進化させる」という特異点に至っては、お手本たるべき地球上の生物でさえ、自らの意思で自らを改造してきたわけではないので、さらに大きな疑問符が付きます。生物進化については、ダーウィンの自然淘汰説が主流なわけですから「機械が自らの意思で進化してしまうのはおかしいのではないか。少なくとも『強いAI』の立場で、とことん生物、人間をお手本に機械が進化する限りは」という説もあります。

 いずれにせよ、現時点で反証可能な仮説とは言い難く、個人的には、熱気とブームは認めますが、量子コンピュータや量子情報科学、そしてディープラーニングという名の古くからある多層ニューラルネットの原理や能力の解明がもっと進まないと、科学的な議論とならないように感じています。

SFとの境界線が消えた欧米のAIビッグプロジェクト

 「情報処理」2015年新年号では、さらに詳細に、シンギュラリティの肯定派、懐疑派(SF作家など)による詳細な議論のまとめと各国のプロジェクトなどが紹介されていますので、ご興味の向きは是非ご参照ください。京大の物理学博士(1970年)で神戸大学名誉教授の松田卓也さんによる「来たるべきシンギュラリティと超知能の驚異と脅威」には、様々な「超知能の作り方」が紹介されています。

  • 生物学的超人類:「高い知能を持つ男女を掛け合わせて…」あるいは遺伝子工学で
  • 知能増強:脳にチップを埋め込んだり赤血球大のコンピュータを脳内血管に常駐
  • 集合知能:「みんなの意見は案外(なぜか)正しい」の延長
  • 人工脳による集合知能:脳だけの人間を作り出して結合
  • 全脳エミュレーション:死んだ人の脳をガラス化して薄くスライスし、ニューロンとシナプスの3Dマップを作って機械上に再現してスイッチを入れたら故人の精神・魂が蘇るのではないかという研究プロジェクト。問題は、死の直前の、惚けた脳のコピーになること。
  • マインドアップローディング:よりソフトウエア的に、生きている人の意識からあらゆる脳内記憶、脳の活動をコンピュータに転送し、人を肉体から解放。
  • 機械人工知能:コンピュータでヒトの脳の働きをシミュレートする、古典的な、強いAIが目指してきた方向。現在のノイマン型コンピュータを前提とするEUのヒューマン・ブレインプロジェクトや、全く違うニューロモルフィックチップを開発して、従来型コンピュータの苦手な感性や感覚を担当させる。IBMがDARPA(米国防高等研究計画局)の協力下で遂行中のシナプス計画の手法。

 いかがでしょうか? SFと紙一重というか、SF的な予言、目標が10年後には実現しかねないくらい境界があいまいになってきている印象を受けないでしょうか? 

 EUのヒューマンブレイン計画は、2013年からの10年で12億ユーロほどの予算を90の研究機関に投じて脳を解明しようというものです。10万個のニューロンからなる新皮質コラム中で起こる現象を化学反応のあり方までコピーしてシミュレートするという、ブルーブレイン計画(2005年〜)は既に成功し、ネズミの知能は実現済といいます。その延長で、ネコの知能、サルの知能をクリアし、2023年頃に人間程度の知能を実現するとしているとのこと。いわゆる論理的思考だけでなく感情、感覚、そして、いまひとつ正体が分からない意識や自我まで、勝手に出現するだろうと当事者は予測します。

 この他の様々なプロジェクトが紹介された後、超知能は核兵器同然のものであり、人類を滅ぼすのでは、という心配が指摘されます。民間企業に任せていては倫理基準が働かないので、先のホーキング博士の心配が正夢になってしまうのではないか、しかし超知能の開発はかつての核軍拡競争に取って代わり、世界覇権を狙う各国がしのぎを削っているので誰にも止められないだろう、と。

 最後に、豪州出身のAI研究者 Hugo de Garisが、今世紀後半に、人類の知能の1兆倍の1兆倍の知能をもつ機械“Artilect”(超知性)ができると主張した話題が取り上げられます。de Garisは、圧倒的に愚鈍で足手まといの人類はその時点で滅ぼされると主張します。だから、そのような機械を作って良いかどうか賛成派と反対派が武力衝突を起こして超知性戦争という名の世界大戦が起き、どちらが勝つか分からない。さらに、“Artilect”(超知性)が誕生して人類が滅亡した後は、“Artilect”(超知性)が真空の揺らぎから新しい宇宙を作り出し、その中でまた100億年後くらいに人類のような知的生命体を生み出す、と。

 つまり、神が人間のような知的生命体を作ったのではなく、それは逆で、何らかの知的生命体が神(のような機械)を作り出し、その神(のような機械)が今の宇宙を作ったのではないか、と主張しているようです。半世紀後にも新しい神を人類が作り出して、その神に滅ぼされる。ここまでいくと、誇大妄想狂と言われても仕方なさそうです。

温故知新で30年後を予想

 ここで、中年以上の方には今や古典となったロバート・ゼメキス監督の映画「バック・トゥ・ザ・フューチャー」(1985年)を思い出していただきたいと思います。

 「バック・トゥ・ザ・フューチャー2」で舞台となった30年後の未来とはいつか? そう今年、2015年です。当時の予測、空飛ぶ自動車、空飛ぶスケートボード、しゃべる服(あれは当時から自然な音声合成を実現していたDEC Talkという発声エンジンを使って撮影されました)などは実現していません。必要もなかったからと言えるでしょうか。様々な本人認証システムなどは、銀行ATMでの掌紋認証や、網膜パターン認識による制限エリアへの入場許可、そしてノートPCに当たり前に指紋認証が付いてきたなど、より着実に幅広く浸透したといえるので、見事に予測が的中した、と言ってもいいでしょう。

 1985年当時は考えられもしなかった機器やサービスが現実世界に出現した例もあります。スマホアプリがクラウドと連携して便利なサービスを利用できる状況はごく当たり前になり、中高生達は、ごく最近出現したLINEのサービスがなければ生活が成り立たないくらいにさえなっています。

 とはいえ、たったの30年間ではこの程度の進化だったか、という印象が強いのではないでしょうか?

 シンギュラリティ論者は、2045年までの30年はこれまでと違ったすさまじい勢いで進化が加速するのだと言うでしょう。ただしそれには、1960年代から知られていたニューラルネットという手法が、1980年代に3層が実験されて数10の要素で表現できるモデルの学習は何とか実用化し、計算量がより多く結果も発散しそうと敬遠された多層ニューラルネット(実際には計算量が減る例もあることが最近示されたことを知って私はディープラーニングに肯定的に転じました)によるパターン認識や自動分類の精度向上という半世紀にわたる地道な進化の歴史を振り返ると、ブームやニーズに火がついて加速するとしても、シンギュラリティ論者の主張する進化の加速はにわかには信じがたいものがあります。

 思い出すのは、大変僭越ながら米MITの元“同僚”で、1993〜94年当時、よく音楽や自然言語の謎について議論した人工知能の父マービン・ミンスキーの名著『心の社会』です。これは同じ認知科学の巨人で現代言語学の父ノーム・チョムスキーに言わせれば反証可能性がなく、科学の産物ではない、とされましたが、重要な示唆に富んでいたと私は評価いたしました。『心の社会』出版記念シンポジウムに相当する「ミンスキー・シンポジウム」がマサチューセッツ州ケンブリッジ市のMITキャンパス内Cresgi Auditoriumで開催された際、彼のスピーチで鮮明に覚えているくだりがあります。

 「類人猿から決別して現生人類へ向けて確実な進化が始まった400万年前から、1万年に1種類ずつくらい、全く新しい、認知、理解、様々な知識、判断、行動の意思決定など(感情は猫にもあるのでもっと古いだろう)を司る新しいアーキテクチャ、脳内のサブ・システムの情報処理の仕組み、ハードウエアやソフトウエアの構造が誕生し、時に不整合なまま追加されていったのではないだろうか? 」

 自然言語の誕生は4万年ほど前と言われます。それ以後に4種類。400万年で、400種類もの異なる仕組みがヒトの脳に付け加わって、うまく機能した系統だけが生き残ってきたとするならば、多層とはいえ、単純で画一的な神経回路網上の結合度が教師データで変化するだけのニューラルネットですべての脳機能が表現できる、とする論法には無理があるように感じます。もちろん、違う仕組みのコンピュータ上で同じ機能が再現できる可能性は否定しきれないですが、その効率、実現可能性は必ずしも高いとはいえないと思います。

 というわけで、今後10年、20年、30年で、人工知能の匂いのする知的なソフトウエアやロボットは着実に普及するものの、2045年に機械の知性が人類を追い越すという第一のシンギュラリティは訪れないだろう、という予測に私は賭けます。生きていれば83歳ですので、掛け金を払うかもらうか、いずれにせよ、結果を確認できる確率は五分五分くらいかなと思いつつ(祖父が99歳、父が68歳に亡くなっているので自分はちょうど中間の83.5歳まで生きるつもりでいます)、楽しみにしています。

 そういえば、治療型のナノボットなど、医学の進歩によって、2045年の平均寿命が100歳になるという主張もあるようですね。その時点で生まれる赤ん坊についてのことであり、現在の国際紛争、テロや貧困が撲滅されていれば有り得ないことではない、というくらいに期待したいと思います。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年07月22日

AI応用はどこに向かっているのかをざっくり整理する

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の17回目です。


AI応用はどこに向かっているのかをざっくり整理する

人工知能ブーム再燃の真実(その2)


 新年の最初の記事を書いてから2週間の間、ディープ・ラーニングや量子コンピュータを含む、最近の人工知能関連の話題、研究の最前線について問い合わせを受けて調べ、考える機会が顕著に増えました。本業の合間にじっくり考えたり、若手研究者と話をしてきたわけですが詳細は別途お話しするとして、ここ四半世紀、計算量が爆発的に増えるため個人的には懐疑的なスタンスを取ってきた多層ニューラルネット(≒ディープ・ラーニング)について、肯定的に評価するようになったという変化がありました。

 お引き合いや問い合わせは、いわゆるビジネス応用についてのものが多いわけですが、人工知能応用の5年後、10年後を語れ、と言われた時に、研究の最前線、その勝算について考えないわけにいきません。とはいえ、基礎的なアルゴリズムの「勝ち筋」が仮に分かったとしても、産業に、生活に、ITインフラに、多彩な影響を与える応用がどうなるかが簡単に読めるわけではありません。

 そこで、具体的な応用テーマを眺める前に、人工知能にはどんな種類があるのか、どんな分類法をすれば見通しが良くな(った気がす)るか、元旦の初夢で思いついた「人工知能の3軸分類」を用いてご紹介したいと思います。

人工知能は万能にあらず。様々な種類、方向性がある

 ビジネスマンの会話の中でも、テレビ番組への取り上げられ方でも、人工知能には様々なニュアンスが伴います。画像や動き、音声を認識したり、人間の言葉や感情を僅かでも解釈するような技術要素が入れば人工知能だし、チェスや将棋、囲碁のように人間がプレイヤーとなって頭を使うゲームや作業も、全般に人工知能と呼ばれがち。少し気の利いた、進んだ会話を自覚する人々の間では、楽器の演奏など身体を駆使した、従来は人間にしかできなかった作業全般も人工知能、ロボット技術と認知されています。本連載で以前取り上げた対話ロボットというソフトウエアや、クイズに答えるソフトウエアはランキング、レコメンデーションと似た技術の延長にあるにもかかわらず、やはり人間臭いところから人工知能、と認識されていることでしょう。

 少し幅広く「知的なふるまいをするソフトウエア」と緩く定義しておいて、どんな種類の人工知能(以下、AIと略記) があるのか考えてみたいと思います。

 予告させていただいた「初夢」では、従来からある「強いAI」対「弱いAI」、「専用AI」対「汎用AI」に加えて、「大規模知識・データに基づくAI」対「小規模知識・データで動くAI」という3つの軸で分類し、様々な位置関係に色々な違ったタイプのAIがあるととらえてみよう、と思い立ちました。

 「強いAI」とは、「人間の脳と同じふるまい、原理の知能を作る」ことを目指すAI研究のことを指します。「弱いAI」は、「人間の能力を補佐・拡大する仕組みを作る」ことを目指すので、必ずしも人間の脳の構造や、機能さえも解明する必要はないということになります。

 汎用、専用というのは、相対的に取ることもできます。たとえば、チェスしかできない機械と、チェスも将棋も、囲碁もできる機械とを比べたら、後者のほうが汎用的と言えるでしょう。ただしAI研究の世界ではもっと次元の違う汎用性、例えば知識を新たに自分でその場で獲得しながら使いこなしていけるという、メタ知識をもって未知の事態にある程度対応できるAI、汎用の学習能力を持ったAIのことを汎用のAIと呼ぶことが多いようです。知識やデータの多いか少ないかの違いは、読んで字のごとくです。

人工知能(AI)の3軸分類

  • 強いAI vs 弱いAI
  • 汎用AI(万能、広い) vs 専用AI(個別、狭い)
  • 知識・データが多量 vs 知識・データが少量

「強−弱」「専用−汎用」「知識・データの量」の3軸で分類

 この3Dグラフ上のいくつかの位置について見てみましょう。

 まず、「強いAI」で「汎用的」で、「大規模知識・データ」を備えているAIなら、人間のような認知、理解、学習も全部できた上で、人間が苦労してプログラミングして教え込むことなく、何千種類もの専門家の知識を急速に自分で獲得して、全知全能のようにふるまうという機械となるでしょう。このようなAIが、いつか質的にも人間の理解や発想の能力を超えて、超・知性として進化し始める特異点がある、と考えるのが「シンギュラリティ(2045年問題)」論者です。

 次に、今度は具体例としてIBM社の初代「ワトソン」コンピュータがどんな種類のAIであるか考えてみましょう。まず、人間のクイズ王を凌駕するほどの大量知識を備えていることには誰も異論はないでしょう。次に、その構造や「理解の仕方」がどうかというと、確かに様々なジャンル(文学、歴史、地理、物理、化学、生物、地学、数学、音楽、映画、などなど)に通じているようには見えますが、各専門知識を、その専門にある程度合わせた構造で持つ場合もあり(数式や年号など)、それを足し合わせた仕組みということで、専用AIの集合体と位置付けるほうが適切でしょう。

 言語の構造、すなわち、主語と述語「***がどうした」、目的語と述語「***をどうする」のパターンが似ているという、浅い知識照合で解答候補をランキングしている部分は汎用的とも言えるのですが、逆にその分野の専門知識を備えているというには程遠いと言えます。検索エンジンのランキングや、ECサイトのレコメンデーションエンジンに近いと言えるわけで、IBM社自身が当初言っていたように、処理方式の主要部はAIではない、という評価が妥当かもしれません。

 ふくらはぎの辺りに電極、センサーを取り付けて、脳波が足の筋肉にどんな指令を出し、それがフィードバックされるかを刻々と測定して筋力をアシストし、寝たきりの人を歩行できるようにしたCyberdine社のHALはどうでしょうか。失われた能力を補完し復活を手助けするという機能は「人間の能力を拡充」に含まれるので、明らかに「弱いAI」に該当します。汎用的とは言えないので専門的。知識量が将来増えるのかもしれませんし、知識量の数え方、計り方もよく分かりませんが、百科事典の数百万項目やウェブ上の知識情報に比肩できる水準ではないでしょうから、小規模知識・データ、に該当すると言えるでしょう。

 アシストする臓器が「人間の脳」という事例も近い将来出てくるように見聞します。分かりやすく具体的に描いた例として、米国の近未来SF TVドラマ“Intelligence” の主人公ガブリエルの脳に埋め込まれたチップでネットに接続し、膨大な情報を自在に引き出して、「サイバー・レンダリング」と呼ばれる機能で脳内に3Dイメージを再構成し、それを通常の脳機能で“眺めて”、何かを解釈、発見するようなことが実現したとしましょう。「弱いAI」であり、超「大規模知識・データを活用」したものであり、脳がインターネットに直結するようなもので、汎用の仕組みで脳の能力を拡大するわけですので「汎用AI」と言っても良いのではないでしょうか。

IoTの人工知能はどこに位置付けられるか 

 年初にラスベガスで、過去最高の約17万人を集めて、世界最大級の家電展示会CES(Consumer Electronics Show)2015が開かれました。

 個人的には、Royal Gateの梅村社長がモバイル決済デバイス、システムを引っ提げてブースを構え、日本のベンチャーとして気を吐いたのが非常に嬉しかったですが、全体としてはやはりモノのインターネットIoT(Internet of Things)が最大の話題であったようです。

 あらゆる家電製品、デバイスがインターネットにつながると言っても、CES2015で注目されたのは次の4つです:

  • ウエアラブル
  • ドローン/ロボティクス
  • スマートホーム
  • 自動車

 四半世紀前の第2次人工知能ブームでは、人工知能はソフトウエアである、というのが通常の理解だったと思います。それがここへ来て、さまざまなハードウエアや、生体との連動、融合と言っていいような応用の動きが注目されたり、ドローンのように人間や、人間が操縦する航空機器では対応できなかったような問題解決や視点(新しい芸術的映像)も生まれています。

 これらは全般に、人間の能力、特に乳幼児が当たり前にできることを忠実に機械に真似させようとする(言葉の覚え方を含め!)といった「強いAI」の方向とは正反対の方を向いていると言えるでしょう。住宅や自動車など、ヒトより大きな人工物に知性を持たせたり、IoTと言わずに「ソーシャル・マシーン」と呼ぶ向きのように、かつての、一人の人間という単一個体についての科学的探究(認知科学ですね)から飛翔して、人間集団に機械の個体も加わって違和感のないふるまいをさせたりする方向性が注目されています。これも、第3次ブームの特徴ではないかと思います。

 次回は、人工知能の進化をめぐる楽観論と悲観論について取り上げてみたいと思います。人工知能がすぐにも人間の知能を追い越して進化するように見積もることで、映画『ターミネーター』や『トランセンデンス』のように機械が人間を支配しようとする、技術的には楽観的になることで人類にとって悲観的な未来を描く向きもあります。ただし現場の最前線の技術を具体的に知悉している人は、どちらかというと正反対の見方をする人が多いようです。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年07月08日

ネグロポンテさんの“既に行ってきた未来”

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の16回目です。


ネグロポンテさんの“既に行ってきた未来”

人工知能ブーム再燃の真実(その1)


 新年明けましておめでとうございます。

 新聞、雑誌の新年号は伝統的に、溜めておいた中から明るい話題を拾って新年の目玉記事にしたりするものですが、今年はそうでもなかったようです。その解釈はともかく、本記事は年が明けてから書いていますので、後出しジャンケンと言われぬようということもあり、10年、30年、さらにもっと先の未来まで視野に入れて人工知能の産業応用、生活への浸透をテーマに展望してみたいと思います。

 「ビッグデータが支える、25年ぶりの人工知能ブーム 〜ロボット、自動通訳、IBMの『次の柱』もビッグデータの賜物」で書いた「ブームの到来」は早計に過ぎないか? また、なぜ今、人工知能なのか? 四半世紀前と違ってなぜ今回はうまくいきそうなのか? これらの疑問にある程度答えておかないと、歴史や貴重な知識体系から学ばず、同じ失敗を繰り返す危険が無きにしもあらずだからであります。

未来を読むためには温故知新が重要

 私が米マサチューセッツ工科大学(MIT)人工知能研究所(通称“AIラボ”)に研究員としてお世話になった1993〜94年から20年が経ちました。MITのメディアラボにも1、2度表敬訪問しましたが、当時のニコラス・ネグロポンテ所長は私に対し、“Right Institution, but wrong Laboratory!”と言って、同じMITというニアミスなのになぜうちの研究所(メディアラボ)に来なかったのだ?と笑いました。

 そのネグロポンテ所長の言葉に対しては、「日本語や英語などの言語の研究は奥深く、シンプルな少数の手法だけではなかなか翻訳や検索などの実用システムは作れないので、デモ作り至上主義のメディアラボでは首になっちゃいますよ!」とおどけて答えたものです(当時のメディアラボは、“Demo or Death”というほど全研究員に対してデモ作りを重視しており、理論や分析は実際、後回しというスタンスの研究者が多かった気がします)。

 AIラボでは理論的ブレークスルーを目指し、言語について、今でいうビッグデータを構造化し、分析し、その妥当性を複数の認知科学的な手法で評価する仕事に、年間363日は没頭したものです(残りの2日は、フリーウェイを300km飛ばしてタングルウッド音楽祭に出向いたのと、日本からの客人への応対に費やしました)。

 ネグロポンテ教授は、昨年のTEDトーク (邦訳「スーパープレゼンテーション」でNHKが放映) の中で、過去30年間、およそ隔年で彼の話した内容を振り返り、“I have actually been to the future!(かつて私は実際に未来に行ったものだ)”と断言しました。それくらい当時から未来を先取りして、様々な21世紀のシステムやソフトウエアを試作し、動かして見せたということですね。

 『Being Digital』(物質=Atomより情報=Bitが経済社会の主役となる)という彼の「預言書」には20年後、30年後の生活様式、例えば電子端末を指でこすって新聞や雑誌を読むようになる、などと書かれ、「そんなことは絶対にありえない!」とジャーナリストに猛攻撃をくらったことを勲章のように感じる、と語っていました。グーグル・ストリートビューの撮影にそっくりなことをグーグルより20年以上前にやっていたビデオ映像など、先見の明の証明としてなかなか説得力がありました。

大規模知識ベースという副産物を生んだ当時の研究

 ネグロポンテ先生の足元にも及びませんが、それでも同じMITながら違う研究所で研究生活を送った者として、25年前の人工知能ブームと、今日の人工知能への期待とを対比し、取り巻く環境の違いなどを少々綴ってみたいと思います。

 四半世紀前、日本が国威をかけ、千数百億円の国家予算を投じて取り組んだ第五世代コンピュータ開発機構ICOTのプロジェクトは失敗に終わったとされています。これは知的なコンピュータ、推論マシンの開発や並列プログラミングに重きを置いていましたが、自然言語処理も重要な研究テーマの1つでした。

 人工知能的なコンピュータの実現には自然言語理解が不可欠、という主張は当時のICOTの予算配分も左右したし、最近では、機械の知的能力の総量が全人類の知的能力を超える「シンギュラリティ」の代表的論客Kurzweil博士(米グーグル社)も信奉するところと言われます。

 ICOTの判断に当時、機械翻訳開発に注力していた富士通、NEC等の大手メーカー8社が加わって、大規模知識ベース、特に計算機が言葉を”理解”するための辞書の開発プロジェクトがスピン・オフ。私自身も開発メンバーとなったEDR電子化辞書プロジェクトが立ち上がりました。これは機械翻訳に人工知能的要素を取り入れて言葉の意味をとらえ、文脈に応じておおよその訳し分け(例:bankは「銀行」?「(川の)浅瀬」?) ができることを目指した野心的なものです。日本語や英語などから独立の概念体系と概念記述を50万概念について構築しようとして、ある程度の知識資産を残すに至りました。

 この当時、他国では別のアプローチで2つ、大規模知識ベースの研究開発が走っていました。一般の社会人が当たり前に知っている様々な“常識” 知識を、専門の知識編集者が機械に入力する、Douglas B. Lenat教授らの“Cycプロジェクト”と、もっと実証性・客観性・再現性を重んじて「概念でなく単語(英単語)の間の関係ネットワーク」構築を目指した、George A. Miller教授らの “WordNet : An Electronic Database”(野村も”WordNet for Linguisticsの章”のアイデア発案者であり執筆者の一人として加わっています)です。

 EDRと合わせて、3つの大規模知識ベースとも、ビッグなデータという資産を残しました。当時の専用マシン向けのソフトウエアが現状はほとんど動作しなかったり、保守改良されない状態になっているのに対してずっと良く、予算投入した甲斐があった、ということができるでしょう。中でも、WordNetは、英語以外の言語にアレンジされて構築が進み、来る本格人工知能を開発するための強力な知識インフラとして、現在も成長を続けています。

インフラ、社会環境の激変

 冒頭の自問に戻ります。

「四半世紀前と違って、なぜ今回はうまくいきそうなのか?」

 1つの材料としては、上記のようにかつての人工知能研究ブームの遺産があり、その後、ノウハウ、経験を積んだから、という技術開発側の事情も確かにあります。しかしそれ以上に、ビッグデータと、それを組織化・活用してスマホのアプリなどの形で様々なサービスが提供され、またAPIという使いやすい部品がクラウドでいつでも使えるという状況によって、「真に役立つ」人工知能的なアプリを作りやすくなったという事情の方が大きいように感じます。

「なぜ、今、人工知能なのか?」

 ネット上のデジタル情報量が10年で1000倍と指数関数的に増える「情報爆発」が継続し、自分に必要な情報を読み切れない、選択肢が多すぎて全部トライしている時間がなくなってきた、という人々のニーズは重大です。情報は飛躍的に増えており、目下の判断、意思決定にとって肝要な、自分に最適な情報に行きつけず、情報洪水の中で溺れかけてしまう。だから、本当にベストの解でなくてもいいから、そこそこ使える、頼れる解を「友達」に聞こう、というソーシャルに向かう解決法もありました。しかし、皆が分野ごとに全知全能の友達をそろえているわけではありません。人とのコミュニケーションには膨大な時間がかかるし、ギブ・アンド・テイクの収支に気を遣うあまり疲弊していく人も出てきます。

 「届いたメールを全部読める人などいなくなっている。でも、庶民全員が秘書を四六時中控えさせておくわけにはいかない」という状況で、不都合を回避、軽減するほとんど唯一の解は「機械に代読させる」ことではないでしょうか。ここに、特に先述のKurzweil博士が主張する「自然言語理解」を中心とした人工知能的アプリケーションへのニーズがあります。

 文章を代読したり、さらには、そこから得られたパラメータ(メタデータ!)をもとに、細々とした雑用を、いちいちその詳細は報告せずに、自分でやり方を調べて、こなしてくれる。このような「代行者」としての人工知能がいてくれたら本当に便利ですね。かつての人工知能ブームの末期にも、ネット上をお出かけして他のコンピュータから教えを乞いて問題解決をするモバイル・エージェントが提案されました。エージェントを記述するTelescriptという名の言語も現れましたが、広く普及するには至りませんでした。

 ここ四半世紀で、パーソナルコンピュータの計算速度は何桁も速くなり、インターネットも大容量化して、無線で動画を見放題という、かつては想像もできなかったほどの利便性、体感速度を実現するに至りました。また、機械同士がコミュニケーションするインフラとして IoT (Internet of Things: モノのインターネット)のための軽量言語MQTTが普及し始めたり、そもそも大量データの供給源として、多彩なセンサーが使われるようになり、例えばスマホを振る“シェイク”動作のログを延々とクラウドに吐き続ける仕組みが当たり前のように普及してきました。3Dプリンターに象徴される多彩な出力デバイスが、アイデアを文字通りに具現化したり、サービスの形で供給する具体的な手段として現れ、年々、劇的に価格低下しています。

 計算機の速度が上がっただけで、かつては使いものにならないほど遅かったアルゴリズム(計算手順)が実用になってくる場合もあります。あるいは、たくさん計算できるようになった分、精度が低くて実用にならなかった診断や単純な予測処理が、実用的な精度にもっていけるようになった、ということもあります。

時は“命”なり!

 以上、ニーズとシーズの両面から「機は熟してきた」と論述しましたが、実は、ニーズとシーズは全く独立・分離したものではありません。「優れた道具は、持ち手に新しい使い方を閃かせ、もはや発明者、制作者の思惑を超えて独り歩きする」というアラン・ケイの言葉の通り、優れたインタフェース・デザインの道具は使い手の創造性を刺激し、新たな問題解決に使われ、新たなニーズ、ひいては市場を開拓していくものです。

 逆に、もちろん、伝統的な教訓「必要は発明の母」も然り。多彩なソーシャルメディアからごく短期間に吸い上げたニーズにこたえるサービスがすぐに実現し、使い手に渡ってフィードバックを受けて改良される。これを象徴する出来事の一つが、孫正義さんがツイッターで、フォロワーからの何らかの要望を含む書き込みを読んで「やりましょう!」と宣言し、2〜3週間後に「できました!」と言ってまたツイッターで報告したというエピソードです。これは2010年か2011年の流行語大賞になるのでは、とつぶやかれ、また、その後も、2013年のソフトバンク株主総会で「やりましょう」と言ってしまった事件などが記憶に新しい人もおられることでしょう。やらされる社員さんたちは大変ご苦労様ですが、ユーザーにとってはこのように迅速にニーズを吸い上げてもらえる環境、インフラは歓迎するしかない、と言えるでしょう。

 この他にも、四半世紀もの間には歴史的事件がいくつも起こり、ビジネス上のトレンドも何度も変化してまいりました。中でも、9・11や3・11を経て、人々はますます自分の時間の貴重さ、それがかけがえのない有限の資源であることを自覚するようになった変化は大きいと思われます。かつては、“Time is money”「時は金なり」と言われていた程度だったのが、いやはや“Time is life!”「時は命なり!」です。

 他人の時間を無為に奪うことは、文字通り、その人の命の一部=有限な人生の時間を奪っていく”partial murder”「部分的な殺人」である。こうした消費者の意識の変化を前提にした経済モデルとして、「アテンション・エコノミー」 が生まれ、様々なメディア間で、消費者の時間を奪い合う様子に注意が集まるようになりました。

 こうなってくると、新参者のサービスの多くが、「ユーザーの細切れの時間に使ってもらう」とか、「細切れの時間の集約に寄与する」とか、「ユーザーが迅速に適切に判断できるよう集約・要約する」とか、さらには、「たくさんの雑用を代行する」というカテゴリに該当するようになってきます。この「雑用」というのが曲者で、これぞ人間の得意分野である融通の利く対応や、優れた柔軟性を求められることが多いのです。だから、このようなニッチ時間を活用する雑用的なサービスが「人工知能的」な様相を呈してくるのに何の不思議もありません。

 少し長くなりましたので、元旦の初夢で思いついた、「人工知能の3軸分類」のご紹介など、次回にしたいと思います。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年06月25日

ソーシャル要素を取り入れてビッグデータのアプリは魅力的になる 〜健康増進、ドライブの友、犯罪捜査支援にも

 前回、ビッグデータをフル活用したアプリとして、Mashup Award 10で最優秀賞を受賞した「無人IoTラジオ Requestone (リクエストーン)」や、「intempo」をご紹介しました。ビッグな音楽メタデータ「グレースノート」を活用して、演奏時間をはじめとする様々な条件、キーワードの合致等を見て選曲するところがミソでした。

 メタデータ賞を受賞した「Steky Memory」は、クラウド上で写真を、自分の感動の言葉付きでアルバムとして管理できる点が「今日(こんにち)的」な特色の1つでした。これをもう1歩進めて、登録ユーザーみんなが投稿・記録ができて、自分自身の目標管理や進捗管理が可能なばかりか、友人・仲間と一部データを共有して互いに励みになる、というソーシャル要素を入れたアプリも受賞作の中にあります。

首都大学東京・渡邉研究室の作品群

 Mashup Awardに実力勝負で殴り込みをかける大学の先生や大学院生は数少ないですが、その中で、首都大学東京・ネットワークデザイン研究科の渡邉英徳先生とその研究室は例年上位に入り、様々な賞を受賞されています。

 前回記事では、一昨年のMA8で優秀賞(準優勝)に輝いた 「コトバノモリ」の感情解析応用ポイントなどをご紹介しました。制作者の原田さんは、今回のMA10ではご自身の体験を生かして、駅における妊産婦さんの声と一般ユーザーの声をマッチングさせる「Babeem」を作り、Geek Girls部門賞を受賞。全体ランキングの中でも FINAL進出の栄誉に輝きました。

 渡邉先生自身も主力で加わった作品としては、コトバノモリの前年MA7に「東日本大震災アーカイブ」を出品して優秀賞を獲得(準優勝)。「マッシュアップ技術を活用することで、社会に対して何ができるのか提示した、これまでの Mashup Awards の金字塔的な作品」とまで高く評価されました。

 MA8では「東日本大震災マスメディア・カバレッジ・マップ」で、震災直後にマスメディア報道が伝えた情報と,現実の被災状況や支援を必要としていた地域など,インターネット・ユーザーによってボトムアップで提供された情報を,デジタル・アース上に統合して可視化。その結果をもとに,非常時にマスメディアとオウンメディアを相補的に活用するためのシステムとインターフェイスのデザイン手法を提案されました。災害直後の混乱の中、マスメディアとソーシャルメディアを立体地図、航空写真上で統合してより適切な判断を支援するという、国民の命を守る社会的意義の大きなアプリだ、といえるでしょう。

 これらの開発技法、ノウハウを広める意味で、共著で、書籍『Google Earthアプリケーション開発ガイド』(KADOKAWA/アスキー・メディアワークス)も出しておられます。もう1冊、一般向けにデジタルアーカイブを紹介し、その意義を説いた本として『データを紡いで社会につなぐ デジタルアーカイブのつくり方』(講談社現代新書)があります。

 渡邉研究室の様々な作品は、そのデータ作りに協力した地元の人をはじめ、様々な人々に使われ、時には研究室メンバーが積極的にインタビューに出向いたりして作品にフィードバックしているところが一味違います。作品と社会とのつながりに常に気を配り、ビッグデータやオープンデータを単に即物的に扱うのではなく、データの提供者、利用者にどう貢献し、引いてはより良い社会の実現にどう寄与するかを考えている様子、その背景が上記の新書本から伝わってきます。

公式気象情報の空白を埋める台風ウォッチアプリ

 今年のMA10では、「台風リアルタイム・ウォッチャー」がCivic Tech部門賞(by Code for Japan)を受賞しました。Code for Japan Summitで行われたCivic Tech部門賞決勝で最優秀賞に選ばれた作品です。

 公式情報としては、既に整理、構造化された国立情報学研究所の「デジタル台風:台風画像と台風情報」を用い、非公式情報としてはウェザーニューズの会員が提供する「減災リポート」を用いています。その名の通りの作品ですが、何よりパソコンで実際に使ってみることをお勧めいたします。概要紹介パネル原稿で概要を、GIGAZINEによる解説記事で使い方を、ハフィントン・ポスト記事にて制作者自身による解説、評価内容をご参照ください。

 「減災リポート」のデータは、前々回の記事で解説した「東日本大震災マスメディア・カバレッジ・マップ」と同様、地面から鉛直方向に時間軸を設定し、時空間的なビジュアライゼーションを施しています。これによって、各地における災害の推移がわかります。

 その一例として、沖縄の様子を以下に示します。下から上に向けて時間が経過しています。台風通過前後で、アイコンの色が「緑(災害に対する備え)」→「赤(強風被害)」→「青(水害)」と変化していることがわかります。


 「TV、ネットの公式サイト(気象庁など)ではこう言っているが実際どれくらい酷くなりそうなんだろう? 一足先に暴風圏内に入った隣町の人は予想以上だったと言っているかなぁ?」などの疑問に、ビジュアルで一瞥できるように答えてくれる仕組みは、斬新といえるでしょう。Google Earthという立体地理情報ビッグデータの基盤の上に、分量が多すぎて人間が読み切れない非公式情報を公式情報と併せてマッシュアップしたことで、命が救われるということも出てくることでしょう。

 首都大学東京の理事長は川淵三郎・日本サッカー協会会長(1964年東京五輪代表選手)です。2020年東京五輪に向けて、お膝元の大学としてますます社会的意義、インパクトの大きな斬新なビッグデータ活用アプリを作っていかれることと思います。

車の通行情報データの応用例:犯罪捜査支援や車内娯楽

 災害ばかりでなく事故への対応や、犯罪の捜査支援にもビッグデータが活用できることを示してくれたマッシュアップ作品があります。MA10の「目撃車 by METY」 がその例です。

目撃車とは:
事件や事故(当て逃げなど)があった時、目撃者探しが急務ですよね。
目撃車サポーターに登録している車のオーナーは、いつ、どこを走っていたかを、目撃者捜しに協力するために提供しています(トヨタITC クルマ情報API利用)。目撃車とは、事件や事故があったその当時、その場所を走っていた車のオーナーをデータベースから検索し、電話やメールで目撃情報を問い合わせることができるサービスです。

 ネガティブな事態からのリカバリだけでなく、楽しさを増す方向でクルマ情報APIを活用したアプリもありました。昨年のMA9の優秀賞作品「Quiz Drive」です。

 みんなでドライブした時、渋滞などを自動検知して、アプリがクイズを出してきます。仲間でドライブする時の新たな楽しさを創造した作品といえます。間違った回答をした時の罰ゲームまで用意されている周到さ。ビッグデータの1つといえるカーナビ相当の情報に大きく頼りつつ、場所情報(緯度と経度)だけで決まるのではない点など飽きが来ず、実際に使い続けていってほしいという実用化への思いが感じられました。動画もご覧ください。

公式動画:こちら
利用シーンの実写動画:こちら

 交通関係で実用化志向のアプリといえば、同じくMA9で優秀賞とCivic Hack賞を受賞したスマホアプリ「バスをさがす福岡」(画像はこちら)に言及しないわけにはいきません。

 バス交通が非常に発達した福岡では、あまりの路線の充実のため、最適な解を選ぶのが難しかった。そこへ、最新の渋滞情報も含めてどのバスに乗ればいいか、乗ったら何時に着くかなどをマッシュアップ。

 「バスをさがす 福岡」は、今から乗るバスを知りたい時、出発地点と目的地のバス停を指定することで「どの路線番号のバスに乗ればいいか」「目的地に何時に着くのか」「運賃はいくらか」「待っているバスは、今どの辺りか」「バスがどのバス停に止まるのか」を素早く確認することができます。

 この動画の開発者の言葉から、利用者の不安を取り除くことを徹底的に追求したことが伝わってきます。開発の経緯を聞くと、オープンデータはどうあるべきか(更新頻度)などの問題意識も伝わってきます。

 このマッシュアップ・アプリがいかに実用的だと評価されたか。何よりの証明は、今からちょうど1年前のこのプレスリリース「『バスをさがす 福岡』が生まれ変わって、『にしてつバスナビ』へ!」にとどめを刺すでしょう。

 元々、超小さくて若い会社であるからくりものが「勝手に」開発・リリースしたアプリでしたが、西鉄公式アプリのベースとして採用されたという経緯は非常に珍しく、地元福岡でも驚きを持って迎えられました。

 最初に西鉄へご挨拶に伺った際、まるで職員室に向かう学生のように「あー絶対怒られる」と思っていた我々を暖かく迎えていただき、まさかの公式化へ導いてくださった西鉄自動車事業本部や西鉄情報システムの皆様、また、出会いのチャンスを設けていただいた皆様にも大変感謝しております!

 Mashup Awardへの出品作品の多くがアイデア先行だったり、実用というにはデータ量も機能の整理もまだまだで、早期プロトタイプとしか言いようのない作品が主流です。そんな中、商用サービスにほぼそのまま採用された稀有な例として、歴史に残ることと思います。

みんなで記録するライフログも集まればビッグデータ

 健康管理やダイエット系のアプリで、自分の食べたものや運動の記録、そして、体重をはじめとする健康情報を入力すると、グラフや助言、励ましの声が得られるようなサービスが人気を集めています。たとえば「あすけん」はよくある発想としてソーシャル化し、各人がOKした範囲の情報がほかの会員に公開され、参考に供されたりしています。もちろん、大人数の大量の生データを解析して、助言が有効だったか等、フィードバックしてシステムを日々改良していることと思われます。

 MA9 の優秀作品の中でこのタイプの代表格として目を引いたのが「毎朝体操」です。コンテンツとして、「スマホを持ってラジオ体操」してもらい、それを採点し、視覚化するというなかなかユニークな発想をした点だけでも高評価に値すると思いますが、加えて実にきめ細かな作りこみに感心させられます。


 自ら体操して使い込んで改良するとともに、多数のユーザーの声を聞いて改善してきた痕跡が随所に認められます。体操着で発表を行い、最後に「やりますよね!?」といって会場全体を巻き込んでラジオ体操させたプレゼンの手腕も見事でした。

 この「毎朝体操」が蓄積したデータを解析すると、いったいどんな分析結果が得られるのでしょうか。運動しているのにちっとも痩せないとこぼす人が実はカロリー消費の少ないサボった動きをしていることが順当に判明するのか、あるいは逆に意外な方法で楽に短時間体操するだけでダイエットできるコツを示唆してくれるようになるのか。まずは、楽しさと、ついついやってしまう“習慣性”を備えたアプリの開発に期待しましょう。測定が先か、効果が先かの問題はマネタイズに苦労するベンチャーに任せて、と一般ユーザーは気楽に構えていても良いのかもしれません。

タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年06月11日

これはユニーク! ビッグデータが支える秀逸アプリ 〜感動するとスマホが勝手に写真を撮る

11月は毎年恒例、リクルートさん主催のマッシュアップ・アワードの表彰式を兼ねたファイナル・バトル、懇親パーティがあります。

 マッシュアップ・アワードは、「既にそこにあるビッグデータとの対話(その1)〜破壊的に安く、早くアプリを作る」でご紹介したように、APIを用いたプログラミング・コンテストです。今年は10周年記念大会ということで、全国各地でのハッカソン(24時間とか1泊2日でお題や素材に合わせたアプリをその場で考案して作っちゃうイベント)やアイディアソン(ハッカソンの前半、企画・アイデアまとめまでのイベント)を、1年がかりで開催し続けるという長丁場の最終ステージとなりました。

マッシュアップ・アワードと当社の関わり

 マッシュアップ・アワードを創始したのは八木一平さん(当時リクルート メディアテクノロジラボ、現・大阪ガス)と藤井彰人さん(当時サン・マイクロシステムズ、現・KDDI) 。草創期、私も八木さんに相談されて「Web APIという、完成度が高く利用しやすいプログラミング部品を使って、エンジニアの発想や、高速に作りながら考えることを支援する」といったコンセプトを固めていくのに微力ながら貢献させていただきました。

 第3回では当社としてのマッシュアップ作り支援のため、Web APIを様々に検索し、組み合わせを検討しながら選べるカタログサービス「API比較・マッチングサービス」 を、これ自体をマッシュアップ作品として開発し、部門賞を獲得しました。第4回以降は一貫して、5W1H個人情報検出APIを提供。ほかにもネガポジAPI、感情解析API、願望検索(したいこと検索)APIなど、人工知能的なテキスト解析APIを提供してまいりました。これらのリンク先に、応用作品のリストがあります。

 その後も歴代の事務局さん、ほかのAPIを提供される他社さん、そしてAPIを利用したマッシュアップ作品を作られるエンジニアさんたちと深く長くお付き合いしてきたこともあり、昨年の第9回 MA9では事務局からの挨拶の時間にスピーチをさせていただきました(写真下)。

「きれいやな〜」とつぶやくとスマホが風景をパチリ

 第4回以降、部門賞、協賛企業賞、APIパートナー賞など名前は変わっていますが一貫して、当社提供のAPIを利用した最優秀作品に「メタデータ賞」を授与してまいりました。今回の受賞作品は「Steky Memory」という名のスマホ向けアプリです。

 作者は明石高等専門学校在籍で来年大学院進学予定の松田裕貴さん。本人による作品紹介文を引用します:

美しい景色や美味しい料理…ステキなものに出逢った時、写真に記録を残したい。
でも、画面越しに見るのはもったいないと思いませんか?
Steky Memoryは、あなたの「すごい!」や「美味しい!」といった言葉をトリガーに、写真を自動撮影してくれます。
また、撮影した写真を時系列で振り返ることもでき、クラウド上(OneDrive)で写真をアルバムとして管理することもできます。

 こちらの専用ウェブサイトのリンクから、アンドロイド携帯やタブレットでダウンロードして使ってみることができます。友だちと街を散策している時などの自分の会話を常時音声認識させ、それを感情解析APIで解析し続け、言葉に感動や感情の動きが含まれていることを検出した瞬間、自動でシャッターを切ります。

 リアルの発話に含まれた感情を検出してカメラのシャッターを切らせる、という自由な発想に驚きました。標準で写真と言葉をクラウドに保存していくので、ライフログから感動シーンだけを切り取った「感動シーン・ログ」ともいえる仕組みである、と評価できるでしょう。

 全APIパートナー賞のページから、授賞理由、コメントを引用します:

サーバーサイド・テキスト解析系API利用としては珍しいスマホアプリでした。 美しいデザイン、仕上げ、完成度もさることながら、音声認識を経て感動の類の言葉が発せられたことを感情解析APIで判定し、そのときだけ、その瞬間シャッターが切られるという斬新かつシンプルなインタフェースに驚きました。 写真、認識結果、日付時刻などのメタデータ一式をクラウドに即保存というのも今日的であり、ユーザの手間をかけさせまいとする配慮も素晴らしいです。 日々の気持ちの動き、感動の体験をすべて記録する、「幸福なライフログ」という印象を持ちました。

 当社の松田圭子取締役が松田裕貴さんに贈呈したメタデータ賞(写真上)の中身ですが、ラズベリーパイという名の超小型コンピュータ・キットに、Bluetoothでスマホのシャッターを切る装置が一脚、そして、スマホカメラのレンズに取り付ける魚眼・広角の各アダプタとクローズアップレンズ、という盛り合わせです。彼のプロフィールやフェイスブックでの活動内容を拝読し、今後もユニークな作品、それもハードウエア込みの面白い作品を作り続けていってほしい、との願いを込めての選択でした。

 感情解析APIの利用作品には毎年ユニークで素敵な作品が多いのです。ご紹介すると、今回惜しくも賞を逃したソーシャル安否確認、恋文、さらに昨年の作品群はこちらです。

 そして一昨年は、首都大学東京・ネットワークデザイン研究科・渡邉英徳研究室の大学院生・原田真喜子さんによる コトバノモリが全作品中の準優勝に相当する優秀賞を受賞。この作品は、ツイッター上で、商品やブランド名の評判がどのような感情的評価で分布しているかを一目で把握できた感じになれるということで、マーケティングやマーケットリサーチ関係者にも大変好評です。学会等でも受賞しており、詳細は、査読付きの学術論文“特徴語抽出と感情メタデータ付与によるウェブ上の語彙の概念の視覚化”(原田真喜子,渡邉英徳,映像情報メディア学会誌第68巻第2号,page J78-J86)で説明されています。なお、この年に感情解析APIを活用したマッシュアップ作品の一覧はこちらです。

音楽ビッグデータを活用して、人工知能がDJに

 さて、10年前の草創期から、マッシュアップ作品の多くがGoogle Maps APIを使っていました。先の連載の通り、構造化されたビッグデータを背後に備えたAPIを使うだけで、ビッグデータ応用システムになるという次第です。

 今回の最優秀作品は、音楽ビッグデータを活用した作品です。
  ●「無人IoTラジオ Requestone (リクエストーン)」

 メールやツイッターなどでBGMのリクエストを受け付け、あたかもDJのようにリクエスト内容を機械が読み、YouTubeAPIから取得してきた曲のタイトルを音声で読み上げ、音楽を流すという無人のラジオ・リクエスト放送サービスです。

 曲のリクエストだけでなく、例えばイベントの感想などをRequestone宛に送ると、メール文面の雰囲気を言語解析し、その雰囲気に合わせた口調で読み上げ(VoiceTextAPIを利用、音声垂れ流し)、さらに雰囲気に合わせた曲をGracenoteAPIのムード情報から選曲して曲をかけることもできるとのこと。上記の作品紹介ページから作者自身のコメントを引用します:

目玉の機能は、放送に対する”リクエスト”。
あなたの面白エピソードや、ちょっと人には言えない相談、今聴きたい曲や気分など、昔懐かしの“ハガキ職人”な気分になって、Requestoneにメールを送ってみてください。
VoiceText DJ.Edi が、あなたのメールを読み上げて放送をお届けしてくれ、ピッタリの曲を推薦してくれますよ。
また、IoTであることを活かして、ハードウェア連携機能を搭載。
放送中に「いいね!」を届けることが出来るボタンや、センサーから周辺情報を取得し、災害放送などの緊急連絡もサポートします。

 テキスト解析して様々な単語を抽出したものを、Gracenoteの音楽メタデータAPIに投げると、各楽曲についてジャンル、アーティストの活躍年代・地域や経歴、ムードなどの属性情報と照合してくれます。この中から適合度の高かった楽曲を曲目推薦してくれる、と思われます。Gracenoteとは初耳の方もいらっしゃるかもしれません。音楽CDをパソコンにセットするとあーら不思議、どこからともなくアルバム情報やトラック情報が補われて便利ですが、あの背後で動いている仕組みです。

 Gracenoteのことを巨大な音楽ビッグデータと呼んだりもしますが、正確には音楽そのものではないので、全世界の音楽メタデータを収集したデータべースを持ち、ネットを介して情報提供しているサービス、と言えるでしょう。比較的最近、その仕組みをAPIとして、ソフトウエアや機械から呼び出して使えるように公開し始めたということになります。

 再生して流すべき音楽データそのものは、次の2つのAPIから取得します。YouTubeAPI、melocyAPI  また、音声合成(テキストをしゃべる)APIを介して読み上げるべき関連文章を取得するのに、朝日新聞記事APIを使っています。

 これらも、データ収集の方法こそそれぞれ違いますが、ビッグデータを構造化して提供しているAPIにほかなりません。10年前の、単純に地図上に何でもかんでも置いていく類のマッシュアップ・アプリと比べて、なかなか賢そうなひねったアイデアでビッグデータを活用している、と言えるのではないでしょうか。

 今回のマッシュアップ・アワード(MA10)では、ほかにも巨大な音楽メタデータの力を借りた面白いアイデアの作品があります。たとえば、これ: intempo

      ■使い方

  1. 出発駅と目的駅を入力し、自動的に表示される候補から乗りたい電車を選択します。
  2. しばらく歩くと、アプリが一定距離内での歩幅や歩数を自動計算します。
  3. 流れる音楽のテンポで歩けば、出発時刻に間に合うようにちょうどよく駅につきます。

 詳細は、上記リンク先におまかせするとして、音楽のリズム、テンポ(速度)という属性を活用し、それに合わせて歩いていくと、ぴったりの時間に駅に到着、というアイデアがナイスだと思います。少し似たアイデアに、MA5の優秀作品、キャストオーブンというのがあります。

 電子レンジの温め時間の長さにピッタリの動画を、YouTubeから探してきて自動で再生してくれる、ということで、探索の手がかりとなるデータが秒数だけというあたり、まだまだシンプルだったといえるでしょう。

 次回は、ユーザーが毎日のように使ってせっせとデータをサーバーに送ると、その結果、次第にビッグデータが出来上がっていくタイプの作品を紹介したいと思います。

タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年05月27日

ビッグデータが支える、25年ぶりの人工知能ブーム 〜ロボット、自動通訳、IBMの「次の柱」もビッグデータの賜物


米グーグル、米フェイスブック、米ツイッターなど大手ネット企業が、大規模なユーザー作成コンテンツを構造化して利便性を高めたビッグデータ活用を奨励し、特にAPI(アプリケーション・プログラミング・インタフェース)の形で公開することにより、企業や団体の広義のマーケティング活動を変革してきた事例を紹介してまいりました。

 大量の構造化データは、一種の「知識」として様々な入力情報に多彩な加工(いわゆる有用情報の抽出、発見、集約などを含む)を施して出力させるのに役立ちます。この情報加工・生産を行う「知識」の役割モデルについては、以前の記事『ビッグデータが変えた「知識よりもデータが偉い」?』に簡潔に図解させていただきましたのでご参照ください。

半導体事業に代わるIBMの柱は「ツイッター分析」!

 今月見聞したビジネス関係の記事で最も感慨深かったのが、日経コンピュータ・浅川直輝記者によるこの記事です。『60年続けてきた半導体製造を手放すIBM、「Watson」に社運を賭ける』

 単に米IBMが米ツイッター社と提携した、というニュースリリースととらえた向きもあったようですが、その実態は、IBMの主力事業の1つの転換でした。

 人工知能的なビッグデータ解析、特に膨大な非構造情報の代表格であるツイッターのテキスト情報を解析して、経営指針を左右する発見や仮説の検証を行い、生データ分析に基づくコンサルティングサービスを行う。これは、弊社・メタデータ株式会社がやっていることとあまり変わりません!

 メタデータ社のような零細ハイテクベンチャーはもちろん、つい最近上場承認されたデータセクションさん(橋本大也さん、澤博史さん、おめでとうございます!)、一足早く上場されたホットリンクさんのように、売り上げが数億〜10億円規模の会社であっても、一般ビジネスマンの方々の感想は「なるほど新産業の芽生えなのかもしれませんね。しばらくはニッチの新規ビジネスでしょうが」というものにとどまりそうです。

 しかし、かつて「産業のコメ」とまで言われた半導体事業に取って代わり、次世代の高収益事業であるビジネス・コンサルティングに軸足をシフトしたIBMが中核事業に位置付けた、というニュースは、ビジネスマンの方々にとっても驚嘆に値するのではないでしょうか。上記リンク先記事1ページ目の下記引用と、3領域の重なりを示すベン図をご覧ください:

“さらに注目すべきは、ツイッターとの提携が、IBMが注力領域とする「データ」「クラウド」「エンゲージメント(モバイル+ソーシャル)」といった3領域すべてに関わる案件という点”

 本記事2ページ目の『無償版も提供、分析サービス利用者のすそ野を広げる』などは、零細ベンチャーとして脅威に感じる面もなくはないですが、それ以上にあのIBMが本腰を据えて主力事業と位置付けたくらい、まさに広大な潜在市場であることが世界に広く周知されたことはありがたいです。この連載が一貫して唱えている、「生データ(事実)に基づく俊敏な経営を目指して、より高度な分析、判断に注力すべし」と同じことを巨大な広報力で発信してくれて、多くの企業経営者のマインドが一斉に切り替わってくれることが期待されるからです。

 IBM自身の行く末が本当にこの舵切りにかかっている、とIT proの中村編集長も語っています。『IBMを変えるのは、Watsonかイェッター氏か』

 半導体事業売却の概要と、PCサーバー事業をLenovo社に売却など1月の発表についてはこちらの記事『IBM、赤字の半導体事業を15億ドル支払ってGLOBALFOUNDRIESに譲渡』にあります。やはり不退転の決意であることが伝わってきます。

クリックなしのネットショッピングをロボットが実現

 いくらIBMといえども、B2Bすなわち企業向けのビジネスですから、一般消費者として、ビッグデータの分析、活用が浸透してくるのかは水面下、背後の動きであり、いまひとつピンとこないかもしれません。

 一方これが、以前『ソーシャル・マシンの主役=アバター、対話ロボット』にてご紹介した、ウェブページ上の対話ロボット (上の図)だったり、ソフトバンクさんの感情ロボットPepperとなると、俄然幅広く、個人の興味をかきたててくれます。

 Pepperは少なくとも当面は店頭設置からお目見えするようですが、米アマゾンのEchoちゃんは、199ドル(お急ぎ便プライム会員なら99ドル)でいきなり家庭の中に入ってきます。実体は小さな黒い茶筒。時間や天気のことを聞いたら答えてくれるし、エベレストの標高を答えてくれたり、「(この音楽)ちょっとストップ!」などと言いながら対話的に好きなBGMを選んでリビングルームに流すのに付き合ってもくれます。もちろんアマゾンですからお買い物を指示することもできます。ギフトラッピングの指定等も受け付けてくれて、後は商品の到着を待つばかり。具体的な利用イメージ、機能の概要については、このリンク先記事の埋め込み動画をご覧ください。

 クイズ番組「ジョパディ」でクイズ王を破った初代ワトソンコンピュータは、インターネットにつながっていませんでした(リンク先記事)。しかしアマゾンのEchoは、動画中の子供が「全知全能みたい!」と驚愕しているように、インターネットにつながって、百科事典的な知識(構造化されたビッグデータの一種です!)を駆使して回答します。クラウド化された “頭脳” の大きな利点の1つに「常時最新の情報、知識にアップデートしつつリアルタイムで状況を教えてくれる」というのがあります。DVDカーナビがクラウドカーナビに到底かなわない(リンク先記事)のも、このメリットのためです。

リアルタイムの「自動通訳電話」がついに実現へ

 私が社会人になった1980年代に、NECの中興の祖、小林宏治会長が C&C (Computer & Communication) の象徴として必ず実現する、と宣言したプロダクトが自動通訳電話でした。私自身も音声認識、機械翻訳、音声合成の3つの要素技術を集約したC&C情報研究所メディアテクノロジ研究部の研究員として機械翻訳部分を担当していました。

 バブル経済の破綻や、ニューラルネット計算量爆発の破綻(後者はまだ未解決ですのでディープ・ラーニングには要注意!)などにより、いわゆるAIブームが終焉を迎える少し前から統計的手法、すなわち大量の生データに基づく音声処理、自然言語処理の研究が発展し始めました。

 人間の頭で考えて編集された膨大な文法、訳し分けノウハウを集積したルールベース機械翻訳などに取って代わり、あるいは補完する形で「なぜか分からないけどこう表現される」というレベルの膨大な言語知識が(半)自動学習された“事例ベース機械翻訳”として次々と実用化されていきました。まさに、ビッグデータ活用の音声処理、言語処理です。

 私の古い知人、米国の友人で、IBMやマイクロソフトに勤めた技術者の中には元言語学者もいます。言語学者の大半はノーム・チョムスキーの提唱した普遍文法の流れを汲んで、極めて抽象度の高い研究、すなわち英語、日本語のみならず数千のすべての言語に共通する少数の基本原理と、その差異を生み出すパラメータを探求する理論科学に従事しており、上記1980年代の人工知能研究時代のルールベース、知識処理以上に紙と鉛筆、頭脳だけで勝負しているところがありました。

 しかし、その元言語学者がIBMやマイクロソフトにて大量の実例、すなわちビッグデータ活用の自然言語処理に転向したおかげで、翻訳精度は目に見えて向上し始めました。その到達点の1つとして、米マイクロソフトのスカイプがリアルタイム自動通訳機能を提供開始、というニュースが最近流れました。『MicrosoftがSkypeで自動通訳のテスト開始へ―Live Translator、登録受付中』

 YouTubeのリアルタイム音声認識、自動翻訳字幕に馴染んでこられた方も、もし自動通訳電話が使えるようになったら世界の見知らぬ人と会話してみたいと思い、新しい世界が開けるかもしれません。私自身、英語・日本語間では使おうとは思いませんが、スワヒリ語やタガログ語しか話せない人からその場で何か情報を引き出しなさい、と言われたら、リアルタイム自動通訳に頼るしかないでしょう。このような機能が必要不可欠になる時代の到来をこの目で見られるよう、また、それに貢献できるよう、引き続き、楽しく精進してまいりたいと思います。


posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年05月13日

「狭告」の効果が激増するクリエイティブの条件とは? 〜既にそこにあるビッグデータとの対話(その5)

機械の進化で、人はますます“クリエイティブ” に専念

 上の見出しは普通に読めば、機械が雑用、単純な事務処理、情報処理を代行してくれることで人間は人間にしかできない人間らしい創造性(クリエイティビティ)溢れる活動に集中できるようになる、と解釈されるでしょう。情報爆発が進行する中、人が読み切れない大量の受信メールやウェブ記事をソフトウエアが代読してくれ、わずかに含まれていた有用そうな情報(例えばアドレス帳や営業データベースに含まれる姓名と一致した人物の講演案内)だけをピックアップして提示してくれる機能など、2020年頃には当たり前に使われるようになっているのではないでしょうか?

 日経ビジネスオンラインに以前、私がインタビューされた記事「やる気が出て仕事が楽しくなり、出世の手伝いもしてくれるソフトとは?」では、このように機械が膨大な単純読解作業などを代行してくれて、「人はますます“クリエイティブ”に」シフトする未来ビジョンが描かれています。

 一方、広告の世界で「クリエイティブ」と言えば、広告コピーと呼ばれる耳目を集める短文や、画像(静止画、動画)をもっぱら指します。昭和時代には「いい日旅立ち」のような国民的名コピーが少数作られ、享受されていた感がありますが、デジタル化の進行により、検索連動広告に付与する10数文字のコピーなど、1企業でも同時に大量に投入され、効果次第で頻繁に書き換えられるようにもなりました。

 フェイスブックのソーシャル広告に代表される「狭告」では、クリックされるか否かは画像次第(画像によってクリック率が7〜8割も左右される)とも言われます。目を引きさえすれば良い、と割り切ってしまったのか、社会人向け講習会の広告画像が女性の水着写真になっているのも見たことがありますが、これは行き過ぎ。クリックした後で「騙された!」と思われては逆効果でしょう。

 正攻法、すなわちソーシャル広告の目的や、「こんな人たちにクリックしてほしい」というターゲットを前回記事のように綿密に考え、ターゲットの目線で興味を引きつつ商品、コンセプトに関連ある画像を選んで調整していく、という作業はクリエイティブです。商品知識に精通した人が必ずしも画像選び、作画デザインを得意とするわけではありません。そこで最近では、後者をクラウドソーシングする「ReFUEL4」というサービスが立ち上がり、注目を集めているようです。「作画デザインをする人」と「画像を選ぶ人」を分けることでソーシャル広告作成の効率化を図る、という狙いから生み出されたサービスであると言えます。

地域の健康増進を支援する調剤薬局のクリエイティブ

 前回記事「実践! 下町商店街の活性化に「狭告」を活用  〜 既にそこにあるビッグデータとの対話(その4)」から、課題2を再掲いたします:

課題2 そこで採用した広告クリエイティブ(画像と文章)を提示し、それらを見たら、思わず、自分の潜在顧客がクリックしたくなる理由を述べてください。また、クリックしてフェイスブックページに移動したときに、納得、満足していただくには、ページにどんなコンテンツや機能(アプリ)が求められるか、2,3挙げてください。

 今回の記事で最初に登場するのは、法政大学大学院イノベーションマネジメント研究科・今年度『ソーシャルメディア論』受講生の新田慶子さんです。

 彼女のビジネス定義、事業ドメインはこうなっています:

* ビジネス定義

地域の健康を見守る機能を持った調剤薬局を開局する

 そして、調剤薬局業界の事業環境を、独自の問題意識を通して簡潔に展望した上で、上記事業ドメインを踏まえた差別化ポイントを次のように訴求し、ソーシャルメディア活用のスタンス、目的を明確にしています:

* 将来のビジネスについて

 全国の調剤薬局は5万店舗を超えているが、上位5社のシェアは7%という極めて細分化された市場となっている。また、究極の立地産業と言われており、顧客のほとんどは立地だけで調剤薬局を選択している。そして最近は、規制緩和によるドラッグストアやコンビニなど、異業種からの調剤参入が競争を激化させている。

 現在の調剤薬局は立地の良さや、買い物ついでに行けるなど、利便性追求の方向に進んでいるが、本来の薬局は地域に根ざし、地域の人々の健康を見守る機能を果たすべきである。その本来の機能を備えた、治療ではなく、健康になれる薬局を造り、拡げていくためにソーシャルメディアを活用する。

 そのためにはまず、構築するフェイスブックページに、該当する地域の住民から「いいね!」をたくさん獲得すること。次に、彼らにリピーターになっていただくべく良質なコンテンツを充実させていく、という基本方針を描きます。

 初めてこの調剤薬局のフェイスブックページを目にする、日頃から健康に特段の関心があったり将来の健康不安を抱えている人々に「おや、何だろう? これは私の健康増進のヒントを与えてくれるページではないかな?」と思わせるクリエイティブが期待されます。そして、一度「いいね!」してくれた人々のタイムラインにも、クリックして再訪してくれそうな興味深い、アイ・キャッチできる画像を定期的に供給していく必要があります。

「元気」「安心」感性に訴えるイメージを提示

 ターゲットの属性については開業予定地域、自分の身体・健康に特に関心を持ちやすい年齢に絞るなどして広告の費用対効果を上げることなどが考察されました。問題の「趣味・関心」については試行錯誤、すなわち、推定リーチ(ターゲット属性の人数の総和)とにらめっこしながら調整した結果、次のような初期セットとなりました。

*広告ページのターゲットについて

 - - - 中略 - - -

 ターゲット層の趣味、関心は医療、看護、科学、農業など、広くヘルスケアに関連する分野と、ヘルスケア関連以外に新聞、本、雑誌、漫画または電子書籍など、情報に興味を持つ層も含めた。また、トライアスロンやボディビルなど長期間に身体を作ることに関心がある層は、最適な栄養の摂り方や身体のメンテナンス等の情報を必要としているため設定した。以上のようなターゲット層に薬局が健康をサポートする機能を担うところであると認知してもらい、立地以外の条件で調剤薬局を選択し、かかりつけ薬局を持つ ことを促したい。

 既存薬局との差別化では、「立地以外の条件で調剤薬局を選択」というのがポイントです。すなわち、病院のすぐ近くに立地すれば安泰という既存の調剤薬局のスタンスから大きく差別化し、地域住民の健康を見守るというミッションを果たす新概念の薬局を目指すと明確に示すことが、「課題2」に答える主眼となります。

 リアル店舗の看板に取って代わる広告クリエイティブや、ページのバナー画像としてどんな画像を用意したら良いでしょうか。このあたり、論理と感性が見事に調和した画像作り、画像選びを行う必要があります。新田さんはどのように選択を進めたでしょうか。

*画像  元気になれる、心地良い、安心できるイメージの画像を(複数)選択した。

・元気がでるイメージ

ビビッドカラーの錠剤で目を引く、元気なイメージ。薬剤情報以外に、何か元気になれる要素がありそうに感じさせる。


 最初は、赤系統の多い、血色の良い元気なイメージで、アイキャッチと目標イメージ(“To Be”image。抽象的ですが)を狙う、ということのようです。目標イメージ重視であれば、

ジョギングして楽しそうにしている人の笑顔など、「自分が元気になったらこうなりたい」という目標自己イメージを未来の鏡のように見せてあげるテもありますね。

と講評しました。

 次は、薬のイメージから日常生活に視点をシフトします:

 カプセルの中の新鮮な果物が健康で元気なイメージ。薬の専門家というだけでなく、健康全般に良いヒントをもらえると思わせる。


 感性に訴える効果は十分認められそうです。そこで、論理で補完しました:

一般向け、40歳代以下向けには結構と思います。50代以上や、糖尿の家系ならもう少し若い層でも、流行りの糖質制限食を実行している人もいるので、彼らにとってのフレッシュで健康的なもの、例えば糖質のごく少ない野菜や、新鮮なイワシ(DHA!)を並べたバージョンもあると良いでしょう。

店舗やスタッフの好イメージを訴求する

 次は、店舗や店舗のスタッフのイメージを提示して、安心して健康相談できそう、と意識してもらう画像。スタッフと客、スタッフのみ(客視点)、の2点です。

・安心できるイメージ

 何でも相談できる薬局のイメージ。普段は聞きにくいと思っていることを気軽に相談できる薬局を思わせる。



安心して相談してくださいというイメージ。この薬局は頼れると感じさせる。

 これについては、やや辛口の講評を添えました:

安心のイメージは人によって随分違う、難しい課題と思います。多くの試行錯誤が必要となるでしょう。

 スタッフの視線から見て、心からリラックスした笑顔で安心して相談している自分の姿が映っている画像も良さそうです。動画だけでなく静止画も、誰の目線なのか、どの登場人物に自分を重ねて感情移入するかという観点で、ある程度論理的に、感性的な効果を予想できることを踏まえた講評です。

 最後は、「心地良さ」を訴求する2点です。

・心地良さのイメージ

 人工的な薬ではなく、自然の感じが心地良さを表現しているイメージ。

[画像クリックで拡大表示]

グリーンと白の錠剤が安心と心地よさをイメージ。

 生薬、天然成分のイメージ、そして、1点目とは対照的な中間色、自然な色合いで身体に良さそう、と感じてもらえそうな写真の選択。心地良さはどちらかというと内服するものよりも、自分を取り巻く環境、英語でambience という言葉が示すあらゆる外部要因のイメージを取り込んだ方が良いかもしれません。

 実店舗では、話し声が心地よく響くような音響設計、ノイズさえも心地良く、静かすぎないことでプライバシーは守られる感じ、匂いも心地良いものを目指すべきでしょう。店舗の快適さをイメージさせる画像には多くのバリエーションが有り得るので、薬局に限らず国内外の様々な優れた快適店舗の画像を参考に、実店舗と乖離し過ぎない良い画像を選択すること。これは多種多彩な商材を扱う店舗全般にも通用する、クリエイティブ画像選択のコツの1つになるでしょう。

期待されるコンテンツはヘルスケア情報

 課題2の後半、「いいね!」してくれたアクセス者が満足し、継続的に訪問し、新規投稿にも「いいね!」やコメント、シェアしてくるようなコンテンツはどんなものが期待されるか、新田さんはどのように調査分析、考察したでしょうか。

*広告をクリックして納得、満足していただくための、コンテンツや機能(アプリ)

 参考のため、他の調剤薬局のフェイスブックページを確認したが、ほとんどが薬局内でのイベント(飲み会関係)の写真などで占められ、ヘルスケアに関する情報がタイムラインになかった。最も多くフェイスブックページにいいね!を獲得している調剤薬局(グローバル薬局、フェイスブックページのいいね!は8147件)は、タイムラインにヘルスケア情報を掲載していた。

 地域住民の健康をケアする調剤薬局のフェイスブックページにはヘルスケア情報が欠かせない。タイムラインには季節ごとのヘルスケア情報などをタイムリーに掲載し、Q&Aのアプリなどで探したい情報が検索できるようにする。また、日々の食事内容を入力すると、不足している栄養を表示し、何を食べると良いか、また効果的なサプリは何かを表示できるようなアプリがあると良い。

 以下が私のコメントです。

反応を見ながら、日々さらなるアイデアを出し、工夫をしていってください。コンテンツの蓄積は大変な財産になります。リピート客の確保には、「今日は何の日」などの様々な蘊蓄系の蓄積や、時事ネタなどをコンスタントに効率よく提供していく方策にも思いを巡らしてみてください。

 以上の抜粋以外にも様々な考察、企画、実習などを経て、新田さんは薬局神無月というフェイスブックページを、実店舗の開局に先立ってオープンしました。上記レポートの提出後も、昨今急速に関心の高まっている低糖質食についての重要な情報、健康上気になる情報をコンスタントに投稿されているようです。その記事内容にふさわしく、美しく興味深い写真を添えて、思わず目を向けたくなる記事が並んでいます。

商店街フェイスブックページの人気コンテンツ

 前回登場した、北村咲子さんたちが運営する、東十条銀座商店街フェイスブックページのクリエイティブは、どうなっているでしょうか。せっかくですので新田さんとは棲み分けて、広告クリエイティブでなくオーガニック、すなわち、フェイスブックページのタイムラインに掲載され、購読者(ページ全体に「いいね!」した人)に流れる記事の写真をご紹介します。

 複数のスタッフで対応しているだけに、全体の統一感を意識して出すべく、シンボル・キャラクター犬、ラブちゃんのイメージをバックボーンに持たせているのが大きな特徴です。特に着ぐるみ制作プロジェクトについて、前回記事に掲載した設計図面から、制作中の工場の様子、そして、完成品の写真が掲載されています。 ずーっと追っかけていた人は、お披露目の日、『12/7(日)』と『12/21(日)』午後に商店街をラブちゃんと歩き、ラブちゃんと握手して記念撮影したくなってしまうことでしょう。

 ラブちゃん以外は、アーケードなし商店街のメリットなどの蘊蓄的な記事を除けば各店舗の主力商品、目玉商品や名物(店主?)をフィーチャーした画像、紹介文で記事をまとめています。例えば、初期(「いいね!」数がまだ50未満)の段階で、広告なしで242人にリーチしたコンテンツは神谷珈琲のものでした。下記のように考えて投稿した結果が「吉」と出たか否かは、インサイトと呼ばれる、リーチした人数、本投稿への「いいね!」数、コメント数、シェア数により、評価されます。

◆4回目の投稿 9/7(日) 商店街店舗アンケートを実施し、より良い商店街になるための努力をしていることをお知らせした。個別の店舗が登場しておらず、森を見て木を見ていない印象を読み手に持たれぬよう、商店街の店舗を初めて登場させた。商店街アンケートにてFacebook掲載に積極的にOKの店舗を発見できたということがこの企画の源である。記事の珈琲店は、我々が広告を行った層を含む30代〜50代のお客様の獲得に力を入れているとのことだった。コーヒーというのは、普段は商店街を利用しない男性をはじめ多くの方に響きやすいということで、トップバッターには最適であったと考える。
図 9/7(日) 実施4回目投稿の内容とインサイト(9/8 10:00 現在)

 11/10夜の時点でインサイトを見てもらったところ、神谷珈琲の投稿のエンゲージメント(読者によるアクションの全体)は次のようになっています。

  • いいね!    57件
  • コメント     5件
  • シェア      0件

 なお、私の友人で、フェイスブックはまだやっていないけれど、Google検索だかで上記の記事を見て、割と近所なので行ってみた、ログインできていれば「いいね!」した、という人もいました。神谷珈琲については後日、2杯目は半額、という印象的な写真入りの記事でフォローアップし、「2度びっくり、2度美味しい」ことで記憶に刻まれるような配慮がなされています。人は、3度接して好感が続いていれば実際にその商品・サービスの入手に動く、と言われます。適度な間隔を置いて、店員さんやお店の雰囲気に絡めるなど、また一ひねりした内容の3度目の投稿をすることで、商店街の必須アイテムとして神谷珈琲の認知を得ることができるようになるでしょう。

 個々の商店、商品の投稿記事をもう1つだけ。投稿後ほどなく多くの人にシェアされたおかげで、多数にリーチした記事を紹介します。伊勢屋さんのたい焼きの記事です。


 この記事が、広告なしで、ほかの個別商品紹介の投稿の数倍も多くシェアされ、数倍も多くの人にリーチした理由、原因は何でしょうか? 率直な評価としてこれは、たい焼きを大切そうに両手で持った、店主さんの最高の笑顔のおかげではないでしょうか。このように、売り手側のポジティブな気持ちをストレートに表現する画像というのが、存外、ポジティブな反応「美味しそう! 自分のタイムラインにも載せたいな(友達にも見せたいな)」を引き出せるということは覚えておいて良いと思います。

 後日、実際に支援スタッフがお店に足を運んでインタビューしたところ、このフェイスブック記事を見て買いに来ました、と申告してきたお客さんはさすがにいなかったようです。しかし、いつもお客さんの流れ、顔を見ている店主さんから、見たことのない新顔のお客さんの比率は明らかに増えたようだとのコメントは得られました。

 今後、手軽にソーシャル経由の訪問数の目安を得つつ、何より訪問を増やすためには、個別店舗ごとのチェックイン・スポット登録を行うこと、そして、チェックインを増やすためにスタンプラリーの電子版・オンライン版としてのチェックイン・ラリーを企画したり、もれなく適用される割引サービスをチェックイン・クーポンで実現する、などの施策が活用可能です。

競合他社との常時比較が可能に

 フェイスブックページの管理者になると、上記「インサイト」の数字が見えるようになります。そればかりでなく、競合企業のページやレファレンスとしたいページを複数登録して、ページへの「いいね!」数(ファン数)、その週単位の増減、今週の投稿、今週のエンゲージメント(いいね!、コメント、シェアの合計)を常に比較表示することができます。

 自社フェイスブックページが登録している競合ページの一覧を公開してくれる会社はほとんどありませんので、貴重な事例として、東十条銀座商店街のレファレンス・ページ一覧をお預かりしてきましたので、参考までにご紹介いたします:


 ここ数回、生データやユーザーの反応(インサイト)と対話しながら、ビッグデータを間接的に活用する話題を取り上げました。まだしばらくは、ソーシャル・リスニングや投稿を中心とした新しいマーケティング手法の話題を続けようと思います。特に、「いいね!」した人のみに見せるページやアプリの特典、ポイント等をインセンティブとすることが11月5日以降、禁止されたこともあって、良記事や魅力的な写真を載せるという正攻法がますます重要になっています。

 そのため、投稿されたテキストを解析する潜在ニーズも増大していると感じます。そこで次回以降、人間に代わって投稿を読んで何らかの判断をするサービスの先駆的な事例(例:シャチクノミカタ)などをご紹介してまいりたいと思います。


タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年04月30日

実践! 下町商店街の活性化に「狭告」を活用 〜既にそこにあるビッグデータとの対話(その4)

前回の記事「有望な『潜在顧客』から順に“狭告”を見せる! 〜既にそこにあるビッグデータとの対話(その3)」では、膨大な個人属性、興味・関心プロフィールが顕在層と共通する潜在層にだけ広告を見せるSocialAd99というサービスが開拓した可能性を示しました。

 今回は、前々回記事「超絶ピンポイント! もはや広告ではなく“狭告”だ」で解説したフェイスブック広告出稿の基本を踏まえて、他のアンケート調査結果から得た仮説を併用し、実際にローカルビジネスのフェイスブックページ活性化を行った「東十条銀座商店街」の事例を紹介します。

 実行したのは北村咲子さん。彼女は、法政大学大学院イノベーションマネジメント研究科の私の講座『ソーシャルメディア論』の今年度受講生です。

 講座の前半には、悩める企業ソーシャル担当者さん中心に7万2000人以上が購読するソーシャルメディアマーケティングラボ(Social Media Marketing Lab.)の編集長・藤田和重さんが特任講師として登壇。企業ソーシャル運用の実際を豊富な事例とともに紹介してくれました。

 以後、私の講義の過程で、自身のフェイスブックページを立てて、広告出稿を行い、それについてのショート・プレゼンを受講生全員にやってもらいながら、講評、アイデア付加などを行いながら進めるという実践的な講義。本番さながら、というよりも本番そのものの真剣勝負です。

コピペでは絶対に対応できないレポート課題

 2週間半の夏期集中講義(火木土の午前2コマずつ)が終盤に差し掛かった頃、成績を付ける必要もあって、次の2つのレポート課題を出しました。

課題1 自分の将来ビジネスの顧客を想定し、広告作成ページと「対話」しながらターゲットを精密化し、なぜそのように設定したかを論述してください。

課題2 そこで採用した広告クリエイティブ(画像と文章)を提示し、それらを見たら、自分の潜在顧客が思わずクリックしたくなる理由を述べてください。また、クリックしてフェイスブックページに移動した時に、納得、満足していただくには、ページにどんなコンテンツや機能(アプリ)が求められるか、2、3挙げてください。


 近年、特に今年になって、大学院のレポート課題や、あろうことか修士論文や博士論文をコピペで出す学生がいる問題が騒がれるようになりました(教育現場は戦々恐々としていますね)。

 数年前までは、知識を問う課題も出していたのですが、その際にも具体的な事例を探してもらう課題では「AやBやCなどの特徴を【持たない】Xについての事例を示し、コメントせよ。」という出題とし、通常ならざるサービス商品についての理解を問うなど工夫をしました。お察しのように、見事に正反対の「AやBやCなどの特徴を【持った】Xについての事例」をウェブ検索で引っ張ってきて、そのページにあった考察らしき文章をそのままコピペしてきた例が過去に1つだけあり、落第点を付けたのを覚えています。

まずは、事業ドメインと「思い」を定義する

 オリジナルな素材と論考が求められる上記2課題では、たとえ一部であろうと、コピペでレポートを作成するのは不可能です。身体を張って、実体験を語り、真剣勝負で議論する講義に対しては、院生側も同じように全力でボールを打ち返してもらわねばなりません。北村さんはどのように答えてきたでしょうか。

 まず、「課題1 自分の将来ビジネスの顧客を想定」のところで、経営者、事業責任者の視点で、事業ドメインと事業への「思い」を記します:

将来のビジネスについて

 私の将来のビジネスは、地域活性化支援と跡取り女性支援との2本柱である。地域活性化の仕事とともに、跡取り女性(事業承継した女性)を対象とした経営者教育のコンサルティングを行う予定である。事業承継した女性は地方に残された女性であることが多い。息子は都会に出たり父親に反発したりすることが多い中、昔であれば「娘婿」に白羽の矢が立つところ、近年は娘自らが事業承継している例が増えている。女性は男性と比べて社会貢献や地域貢献活動に巻き込まれることが多い。それ故に、跡取り女性へのコンサルティングの中には、地域との付き合い方や地域活性化の内容が一部含まれる。別の角度から見れば、地域活性化の中で、跡取り女性支援ということもありうるだろう。

 互いに重なり、シナジーのある2つの柱を明確化した上で、ネガティブととらえられがちな点(地域活動に時間を奪われる)を、ポジティブな活性化の端緒と捉え直すという着眼、発想があります。その上で、その具体的な解決手段を以下のレポート中に記すことが示唆されている、優れたイントロとなっています。

 今回のフェイスブックページの作成は、「東十条銀座商店街」にさせていただいた。それは、後進育成に熱意のある東京都中小企業診断士協会の朝倉久男城北支部長の掛け声に若手診断士総勢10名が集まり、東十条銀座商店街を支援しているからだ。私は平成27年に診断士登録の予定ではあるが、法政大学経営大学院の教育は診断士業界で信頼が厚く評判が良いため、前倒しで参加が認められた。フェイスブックページは、我が商店街にとって時期尚早感もあったが、いいね!などの数字を示すことが商店街店主へのモチベーションにつながると考える。

 大学院に来る前から手がけていたプロジェクトで、診断士の資格取得前に活動を認めさせ、さらに、フェイスブックページの作成とソーシャル広告出稿を今回の『ソーシャルメディア論』講義の中で着手しました。その実績を先行させつつ、情報公開により地域住民と商店街の結束を高めるという戦略を考え、北村さんは本番そのもののフェイスブックページ「東十条銀座商店街」を作りました。

商店街のファンを増やす「オーガニック」な試み

 商店街のファンを増やす方法はウェブサイトへの誘導と同様、「オーガニック」な方法と、広告を活用した方法があります。

 オーガニックは、画像、テキストともに「クリエイティブ」と呼べるような優れたコンテンツを提供し、閲覧した人が思わず友人にも見せたくなるようなバイラル(viral)性を目指すことで、広告を作らずにフェイスブックページへのアクセス数(個々の記事の閲覧数や「いいね!」の数)や、ファン(ページ全体に「いいね!」した購読者)を増やすやり方です。

 商店街ですので、定番の人気商品や名物店主さん(?)、オブジェ、キャラクターなどを巡回して紹介するのが正攻法と思われます。その通りに実施している様子が「東十条銀座商店街」で見て取れます。加えて、頻繁に現場に足を運んで、天候に言及したり、一人称の視点で目に映るものを描写することで、あたかも商店街を歩いているかのような臨場感、現場感を出しています。一方、少し引いた視点で、アンケートによればこんな人々がいらしていた、など居住地に言及する場面もあります。

「川を越えた足立区新田、埼京線十条駅に近い中十条の方々も来てくださっていることが分かりました( ´ ▽ ` )ノ 予想より商圏が広かったです。今後は、みなさまに分かりやすいイラストMAPを作る予定です!」

 この記事を読んだ人が思わず、一緒になって東十条銀座商店街に人を呼び込みたい、という気にさせるような、「内幕披露」のテクニック発揮に、期せずして成功していると思います。「いいね!」数の増加状況を語り、嬉しさを吐露するのも自然体で、読者を同じ側に立たせてしまっている感じがします。しかし、相手の反応を想像し、慮りながら情報の提示の仕方、タイミング、情報量についてしっかりと計算して、満を持して、東十条銀座商店街のウェブサイトを紹介しています。チームによるフェイスブックページの運用事例として、なかなか深いレベルで連携できているように見えます。

 さらに、私の助言もあって(笑)、リサイクルショップで発見した掘り出し物の楽器、100年の歴史がある和菓子屋の饅頭の意外な中身など、蘊蓄系のコンテンツを取り上げたり、食べ物にしてもファッションにしても旬な季節ネタを提示して、足を運んでいただくための一貫した工夫があります。加えて1つユニークなのは、「ラブちゃん」という商店街の犬のキャラクターによる、現在進行形のキャンペーンの進捗報告です。

 フェイスブックページのアイコンがこのわんちゃんなのですが、だいぶ以前から「いる」にもかかわらず、いま一つ認知されていませんでした。そこで、様々なアピールを試みる中で、限られた予算から着ぐるみを制作して、商店街に登場し、面白いポーズや動きをしてみせよう、という企画を自ら率先して定期的にリークしていく旨、宣言してしまいました。

 恐らく、書いている本人が着ぐるみに入って汗をかきかき、商店街を訪れる子供達と握手したりするのではないか。こう想像したのは私だけではないでしょう。それほどまでに、あっけらかんとした、明るい書き手のキャラクターが記事投稿によく表れているからです。

 先日の日曜日、現地を実際に案内してもらいました。神谷コーヒー店で2杯目半額のお替わりをしたり、壁の洒落た洋風のデザイン画が犬を描いたものだ、と発見したりしてきました。各店にも挨拶し、以前変わったオブジェを購入したりした旨、お話をさせていただきました(徒歩圏内に住んでいたのです)。思わず釣り込まれて和菓子、餃子、靴、球根なども購入しかけましたが、電車で移動することを考えて、プレゼント用の購入は和菓子のみにしました。でも超大玉トマト4つで280円とか秋刀魚90円とかの誘惑には勝てず、いろいろ買い足して地下鉄王子神谷駅に向かいました。

アンケートから広告ターゲティングの初期仮説を抽出

 ビッグデータとの対話について書かなくてはいけません。前々回、前回と、フェイスブック広告による興味関心のターゲティング、その画面操作についてなど詳述しましたので、デモグラフィック・データや興味関心によるターゲット絞り込みの一般論については、そちらをご参照ください。

 特に思い出していただきたいのは、初期仮説に基づいてターゲットを絞った後で、広告のクリック率などでその効果を測定し、はかばかしくなければそれを変更、修正して改善を試みるという点です。そのプロセスを加速したければ、違うターゲット向けに同時に2つ以上に分けて広告を出稿し、クリック率等の違いを見るというやり方が可能です。

 偶然性を排除しきれないので、なぜそうなるのか考察したり、実際に「いいね」してくれた人にオンライン・インタビューをしてみるなど、数字だけを頼りにしないことも大切です。

 北村さんをはじめとする支援メンバーは、より良い商店街を目指してアンケート調査を行っていました。

ターゲット設定とその理由

 今回、やってみて分かることがあると思いFacebook広告セットを作成し、実際に広告を出した。ターゲットは、今年3月に実施した商店街交通量調査・来街者調査(同時開催)により、“北区在住、男女両方、35〜44歳、エンターテイメント、スポーツ、趣味、健康、食に対していいね!をしている人”とした。詳細は下記である。

◆調査日
平成26年3月7日(金)、10:00〜18:30、天候 晴れのち曇り
平成26年3月9日(日)、10:00〜18:30、天候 晴れ
7日(金)は午後一時雲が厚くなったが、概ね天候は良好で人通りは多かったものと推測される。

◆調査地点
東十条駅方面のA地点、コモディイイダ近辺のB地点、王子神谷方面のC地点の合計3か所で調査を実施した。



 来街者調査(n=201)では、自宅から来られた方が93%、その他、「病院」「美容室」など他の用事の途中が2.5%、職場からが2.5%となった。アンケート回答者のお住まいは、47.1%(王子神谷1丁目:29.4%、王子5丁目:11.3%、東十条3丁目:6.4%)が商店街近隣に集中していた。また、8位に川を渡った足立区新田が入ったものの、北区の方がほとんどであった。そのため、“北区在住の方”のみを今回の広告ターゲットにした。

 結果的にはシンプルな「北区在住」となりましたが、事前にこれほど綿密に調査した上で広告を見せる対象を決めるケースは少ないのではないでしょうか。上記の意思決定の際に、必ずしも意識化されなかったかもしれない論理を添えて、レポートには次のように講評を入れました:

 「まずコアとなる顧客層を取り込む、という戦略ですね。特に搦め手(豊島区など全くの新規層を開拓すべき特別な理由がない限り)を使うべき必然性がなければ順当と思います。コア層をある程度取り込んだ後は、足立区新田地域の既存顧客の周辺住民が「草刈り場」に近く、大幅顧客増ひいては売上増の鍵を握っている可能性があるということで、ちょっと意外な良さ、バリューや、北区のイメージなどを品良くアピールするような作戦を立て、実施しても良いでしょう。」

 まずは魅力的であること、次に、意外に安い掘り出し物があるということ、ショッピングの散策自体が楽しいこと、自転車があればあまり時間がかからず移動できること、の順に、少数派だった足立区民にアピールする。何ならこれらのイメージを語る広告を、足立区民向け限定で順繰りに掲載していくことで、仮説を検証しつつ商店街への誘導を図っても良いのではないでしょうか。

男女比、年齢構成比をどうとらえるか

 通行量調査によれば、来街者の男女比は平日は女性が58.0%と構成率が高くなっているものの、平日・休日を合わせた商店街全体の来街者性別は女性が全体の53.7%でほぼ男女半数ずつに近くなっている。平日の7038人に対し、休日は9039人(128.4%)と来街者が増加したが、特に男性は平日の153.9%と大きく来街者が増え、休日はほぼ男女同数になっている。

通行量調査「男女比率」

 来街者の年代については、60代以上の高年齢者が31.8%、高校生以下が11.6%の構成率となった。幅広い客層を持ち、ファミリー層も多く来街していると言える。商店街というと高年齢者のイメージが強いかもしれないが、通行量調査では平日・休日とも30代〜50代の購買力のある年代が来街者のメインになっている。通り過ぎるだけで買い物をしないという人へのアプローチを強化すれば、商店街は売り上げの成長余地が多分にあると思われる。そのため、30代〜50代の中からFacebookで検証しやすい“35〜44歳”“45〜54歳”が広告ターゲットの候補に上がった。さらに、ゆるキャラ「ラブちゃん」を今後推してゆくことが決め手となり、小さな子供がいる確率が高い“35〜44歳”をターゲットにした。

通行量調査「年代別来街者数」

 以上に対する私のコメントは、授業中の口頭での報告内容を覚えていたため、次のようになりました:

 「口頭では、この年齢層の、特に女性が、オンラインでないリアルのクチコミのパワーが大きい、というのも理由に挙げていましたね。こちらは実測に基づくものではなく、純粋な仮説ではありますが、せっかくですので、漏らさず、レポートに盛り込みましょう。」

 「実測調査については、その結果が予想通りだったのか、意外だったのか(どう予測と違っていたか)、商店主側にも尋ねておくと良いでしょう。それによって、彼らの認識が改まり、個々の戦略、戦術が改善される可能性があります。」

商店街に対する興味・関心とは

 商店街というと、主に毎日の生活必需品を求めて来街するわけですので、特定の趣味に分化している消費者を細かくセグメント分けをするイメージはありませんでした。今後は、よりきめ細かいターゲティング、隣接商店街との差別化にあたって、趣味性に訴えるべく、特定の趣味を持つ顧客へ特別なメッセージを込める可能性はあるでしょう。しかし、当初は商店の種類、構成、そして下記のアンケート結果から、北村さんは、素直に「食への関心」の高い人を重点ターゲットに選びました。


 東十条銀座商店街は、日常生活に必要な「食」を扱う店舗が多い。商店街の品種構成では、よく買うものとして「鮮魚」「野菜・果物類」「和・洋菓子、パン」が多かった。そのため、「食にいいね!をしている人」をまずはターゲットにした。

 「実際によく買うものだけではなく、「食材調達に便利な商店街」とか「ここへ来るとなんか美味しい感じ」などのイメージ、認知がされているかどうかを調査、推理する。さらに、その現状の強みをさらに強化するのか、弱みを補うターゲティングをするのか、なども具体的に書き下し、意識して広告キャンペーン等を張ることで、今後の様々な施策が有機的に一貫したものとなることでしょう。」

 長くなりましたので、効果測定や、課題2のクリエイティブとその評価については、また次回に続けたいと思います。


タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年04月16日

有望な「潜在顧客」から順に“狭告”を見せる! 〜既にそこにあるビッグデータとの対話(その3)

 前回記事「超絶ピンポイント! もはや広告ではなく“狭告”だ  〜 既にそこにあるビッグデータとの対話(その2)」の中で、フェイスブック広告がターゲットを1才刻みの年齢、市区町村単位の居住地、出身校、所属企業・団体などで絞り込み、きめ細かく設定できることを書きました。

 ターゲットの興味・関心は、おそらくは「いいね!」したページの種類や、場合によっては記事の属性をフェイスブック社のビッグデータ解析技術で分析、数万〜数十万種類に分類した結果を活用して設定することができます。利用者(広告出稿者)側としては、全世界10数億人・日本人2000万人の個人データ、個人の興味・関心や活動についてのビッグデータを元にしたターゲティングを、まずは信頼することになります。そして、試行錯誤によってクリック率や新規「いいね!」数の改善を図りながら、より効果的なターゲット層をとらえるべくシフトを目指し、きめ細かくチューニングしていく。

 この広告の費用対効果ですが、数年前の時点でGoogle Adwords広告の60倍良い、という参考数値が米国で出されたように記憶しています。既存のファンの友達を対象にする/はずす、などソーシャルならではの効果のおかげなのか、当初は現在以上に安かったと言われる閲覧単価・クリック単価でピンポイントに狭告できたせいなのか、はたまた、誘導先のフェイスブックページやイベントページ等の作りが良く、内容が充実していたためなのか。個別の評価はなかなか困難です。

 しかし、1日100円から出稿でき、自社フェイスブックページに発信する情報を毎日受信してくれるファン(ページ全体へ「いいね!」した人々)を増やす広告を最短1分ほどで手軽に作成、実施できる媒体として既に確固たる地位を築いたと言えるでしょう。

 将来、仮にフェイスブック社自身が調子悪くなったとしても、既に企業が知ってしまった「狭告」の概念を継承して発展させ、効果や利便性をより高めたシステムが必ず代替するようになるでしょう。現に、元々ツイッターのクローンとして出発した中国の「微博」(weibo.com)では、音楽配信等の独自機能の開発と並んで効果的なフェイスブックの機能を改善して採用する流れで、昨年夏頃からフェイスブック広告と類似した微博フィード広告をフェイスブック同様、安価に出稿できるようになっています。

 ピンポイントにターゲットを選定し、効果測定を繰り返して少しずつ最適な顧客層を探り当てたり、異なる顧客層へ少しずつ巡回しながら展開するキャンペーン(例えば1週間以内に誕生日を迎える***な人々、と指定)を実施可能な「狭告」は、ますます隆盛を誇るようになり、決して廃れることはないでしょう。

顕在層と興味・関心を共有する「潜在層」を見つける!

 さて、前回記事の末尾にこう書きました。

 かつては、個々のフェイスブックページ単位で、それらのページに「いいね!」している人を対象に広告(いや、もはや、「狭告」と呼ぶべきでしょうか)を打てることを知り、驚きのあまりSocialAd99という広告ターゲティングのためのSaaS(ソフトウエア・サービス)まで開発してしまいました。

 SocialAd99は、2011年4月に発表した、フェイスブック上の興味・関心の推定を行う「狭告」ターゲティング・ツールです。フェイスブック社がページの分類カテゴリを未整備だった当時、可能だった次の2つの機能を活かして実現しました。

  1. フリーワードによる公開クチコミ検索
  2. 個々のフェイスブックページを指定した広告出稿

 アイデアをざっくり書いてみます。まず、ブランド名、商品名、キャンペーン用のキーワードなどをいくつか指定して、フリーワードによる公開クチコミ検索(ウェブ検索エンジン経由)を行います。その結果、数千、数万の公開クチコミが見つかり、その投稿者の基本データのページ情報についても公開されている限りアクセスできるようになります。当人の興味・関心は、どのフェイスブックページに「いいね!」したかでかなり具体的に知ることができます。

 2011年初頭、このような仮説を立てました:
【仮説】同様のフェイスブック・ページ群に「いいね!」している人は同様の興味・関心を持っている可能性が高い。特定のブランド名、商品名、キャンペーン用のキーワードなどを既に知っている「顕在層」と同様の興味・関心を持っている人々は、同様のフェイスブックページ群に「いいね!」している。

 この仮説に基づいて、ブランド名、商品名、キャンペーン用のキーワードなどをまだ知らないながらも、知れば興味・関心を持ってくれる可能性の高い「潜在層」を、同様のフェイスブックページ群に「いいね!」している人々の中に多く見い出すことができます。下の図はこれを表したものです。


 上の例では、当時のauのAndroid搭載スマートフォンの画期的な新製品、IS03というキーワードを記した顕在層を、「氷山の一角」という意味で三角形の頂点に位置づけています。この顕在層が「いいね!」しているフェイスブックページについては、「いいね!」している総人数が分かります。そして、総人数の何%が顕在層として「IS03」を含むクチコミを発信しているかの比率が分かります。この比率の高い順に、広告を見せる対象にしていくのです!

 IS03をまだ知らない、あるいは友人やコミュニティに発言をするほどにはIS03が気になっていないと思われる「潜在層」(上図の赤い点)が含まれる濃度・確率が高い、すなわち、広告に反応してくれる可能性が高い、と推定されるからです。

総人数を決め、高反応率ターゲットに広告を見せる

 下の図は、当時SaaSとして提供していたアプリ「SocialAd99」のメイン画面です。

 「IS03」というワードを含むクチコミ発信者の比率が大きい順に、上からフェイスブックページを並べています。

 最上位の会社は、新型スマホを活用したビジネスを行っているのか、ただの偶然か分かりませんが、わずか56人しか「いいね!」していないページであるにもかかわらず、3人も「IS03」と発言していたことがわかります。断トツで高い比率です。

 2位のKDDIのページは、いかにも関係者であり、高比率になるのは分かります。以下、新型スマホのニュース発信ページなど、なるほどと納得できる、多人数が購読するページや、一見関係なさそうなページが下へと続きます。


 このメイン画面の操作ポイントはただ一つ。フォームに、ターゲットとする人数を入力するだけです。ここでは1万人と指定し、それに近い9691人が広告ターゲットとなったことを示しています。この際、原則として上位から、すなわち顕在層の比率が大きいページから順番に、その「いいね!」数を加算していきます。1万人に近い数字になったところ、ボーダーラインで急に大人数になってしまった場合は、そのページを飛び越えて比較的少人数の下位のページを採用し、指定人数に近づけます。

 これは肉屋さんで、購入したい量が「500g」ならそれに近づくように肉片を取捨選択し、正確なグラム数489gとその金額、バーコードを印字したシールを貼り付けるような感じでしたので、「お肉屋さんアルゴリズム」と呼んでいました。

 その後は、基本的にこの画面の指示通りに広告出稿します。CVRというのは、出稿した場合に実際に反応のあった率をフィードバックする欄で、この結果に応じてランキングを再調整する準備をしていました。

「既存の広告ビジネスモデルの破壊」というアキレス腱

 SocialAd99は2011年4月15日の発表時、OEM供給先のサイバーエージェントのプレスリリース「意味解析型広告ターゲティングツール」が株式情報系メディアに大きく取り上げられ、株価が上昇した主因として記載されました。


 そして2011年夏、幕張で開催されたInterep2011に出展し、見事、ベンチャー部門のグランプリを獲得しました。この写真は、審査委員長の村口和孝さん(日本テクノロジーベンチャーパートナーズ(NTVP)代表)から、副賞のガラスの盾を私が授与されている様子を撮影した記念写真です。ちなみに村口さんは、あのディー・エヌ・エー(DeNA)が開発に数十億円を費やし、さらに追加投資を必要とした時に、ただ一人それに応じて巨額のキャピタルゲインを得た伝説の投資家です。

 しかしながらその後、SocialAd99は事業としてうまく離陸させることができませんでした。後半工程の、広告出稿自体を自動化するためのAd APIの利用が当時、米国の数社にしか許諾されておらず、米国フェイスブック副社長がシンガポールから来日した機会などに折衝するも、どうものらりくらりといった感じで、日本の小さなベンチャーのアイデアを評価して利用許諾という快挙を勝ち取ることはできませんでした。

 出稿作業自体は全体の作業量、計算量に比べれば微々たるものなのに、という忸怩たる思いを抱えつつ営業を続けましたが1年少々で断念。振り返ってみると、より本質的な理由は、ソーシャル広告が手間をかければかけるほど広告出稿代行手数料(20%が相場)が下がってしまう、という点にありました。

 すなわち、広告代理業の伝統的な手数料ビジネスモデル自体を否定・破壊し、それに取って代わるビジネスモデルを同時に打ち立てなければ成功が覚束ない事業だったということであります。

 10年ほど前に、松島克守東京大学教授・ビジネスモデル学会長が「技術革新とビジネスモデル革新は2年おきとか、せいぜい交互に挑戦すべきであって同時に達成するのは至難」と研究発表していたのを思い出します。もちろん資本力など体力をつけ、政治的にもフェイスブック米国本社に日参する勢いで立ち回り(アイデアだけ食べられてしまうリスクもあったわけですが)、「広告」を「狭告」にして費用対効果を向上させた対価を納得ずくで喜んでお支払いいただくビジネスモデルを浸透させる力があれば、成功した可能性はあると思います。

 とは言え、プラットフォームビジネスの常として、SocialAd99が依拠していた2大機能、

  1. フリーワードによる公開クチコミ検索
  2. 個々のフェイスブックページを指定した広告出稿

 これらがなくなってしまえばSaaSが成立しなくなる、というアキレス腱は引き続き存在していました。結果から見れば、さらに事業を大きくして大型投資した直後に前提が消滅するような経緯に至らず、良かったのかもしれません。でも、ベンチャー企業としてはそのようなリスクを計算しつつも全く新しい付加価値、事業の創成に果敢に挑戦し続けるべきであることは言うまでもありません。

 SocialAd99の貴重な経験を活かして、新世代のプラットフォームにおいて「狭告」の付加価値を高める挑戦、とくにクチコミ文章の意味解析という得意技を活かしていく所存です。提携相手、クライアント企業ともWin-win-winの関係を構築する仕組みを見極めた上で、人と人、人と商品サービスのマッチングを最適化して人々の幸福増大に貢献できるよう邁進してまいりたいと思います。

タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年04月02日

超絶ピンポイント! もはや広告ではなく“狭告”だ 〜既にそこにあるビッグデータとの対話(その2)

今回取り上げるのは、単一システムの存在自体がビッグデータ、と言えるフェイスブックです。「単一システム」というのは、あまりに巨大過ぎてバックアップが作れず、保守、検証、実験、改修、機能追加など、ほぼいきなり本番システムで素早く実行しているからで、実際、地球上に分散しつつも唯一無二の存在ということです。

 フェイスブックのシステムは実に巨大です。10数億人の個人会員全員が、任意の25MB(メガバイト)のファイルや1GB(ギガバイト)までの動画を無制限にいくつでも即座にアップロードできつつ、あの高速レスポンスを実現しているのですから、データ・ストレージ容量だけをとってみても想像を絶するものがあります。

 現時点(米国時間2014年9月26日)までに更新のあった数字を、こちらから、いくつか拾ってみましょう。

 企業などが発信するフェイスブック・ページ(旧称ファン・ページ)の総数は5000万。フェイスブック・ページは「第二のホームページ」と言われ、さまざまなアプリを組み込んで、豪華なサイトを作り、多数の一般ユーザーに「いいね!」して会員(購読者)になってもらうものです。大企業の場合はブランドごとにフェイスブック・ページを作ったりするので、重複や未登録(日本産のモノの大多数はまだ未登録ではないでしょうか)による過不足を考えて、ブランド数と商品名の総数が5000万種類というのは結構妥当な数字かもしれません。

 ちなみに、「いいね!」数最大のページは、レディ・ガガの6735万件超かと思ったら、もう1ケタ上がありました。Facebook for Every Phoneというフェイスブック・ページで、なんと、「いいね!」数が、5億776万件超です。

 各フェイスブック・ページには月平均36回の投稿がなされている、ということから、大規模であるだけでなく、ミクシィなどほかのメディアの企業ページよりもアクティブに使われている状況が見てとれます。平日に1日平均1、2回の更新なら十分に潜在顧客、ファンの関心をつなぎとめ続けることができます。この何倍も多く投稿してしまうと、うるさがられて「いいね!」を解除されてしまう危険性がありますから、ビジネス上妥当な投稿頻度であると言えるでしょう。

 いくら反響が大きくとも、それが売り上げにつながらなければ意味がない、という意見もあるでしょう。これに対しては、フェイスブック・ページから自社サイトに誘導された1クリックあたりの平均売上が、1ドル24セントという数字があります。

出典:Social Intelligence Report, ADOBE DIGITAL INDEX, Q1 2014

 「第二のホームページ」でありながら、投稿の25%が顧客からの質問で占められることから、ケタ外れに双方向的であることが分かります。企業側からの投稿に対する何らかの反応(いいね!、コメント、シェア)の75%は投稿から5時間以内になされており、本家ウェブサイトに比べてはるかに反応が早く、リアルタイム性に富んでいることが分かります。

 このほか、少ない文字数の投稿の方が好評だと示すデータ、飲食店や小売店などのローカルビジネスの顧客の反応の数字、42%のユーザーが具体的な取引・購買に結びつくようなページ体験を希望している等等、フェイスブック・ページについての統計がこちらに豊富に載っています。世界平均や米国の事情と、日本の数字、比率とでは違いもありましょうが、大いに参考にすることはできるでしょう。

 フェイスブック・ページに投稿した記事は、ページに「いいね!」してくれたファン全体の数%から10数%の目に触れることが多いようです。写真や動画、記事の質が高く、ウケが良くて、結果として個別記事に「いいね!」を多く稼げれば、さらに多くのファンのタイムラインにサマリー配信されるという仕組みになっているため、正攻法で優れた投稿を継続すべし、というインセンティブとなります。こうした投稿による反響を得る努力は、商品ページ等に誘導するためウェブにおける検索順位を上げる努力と相似しているため、「オーガニック(organic)」な効果と呼んでいます。

 オーガニックと対比されるのは、広告です。ウェブ検索における検索連動広告は、何らかの目的を持ったウェブページへの誘導を行うものですが、フェイスブック広告の場合、

  • フェイスブック・ページ自体への誘導
  • フェイスブック・ページ内の特定記事(キャンペーン情報ほか)への誘導
  • イベントページへの誘導
  • 一般ウェブページへの誘導…

 このほか「広告を作成」の緑のボタンを押すと、図1の画面が出てきて、アプリのインストールや、クーポンの利用、動画の再生を促す、などの直接アクションを起こさせるためのフェイスブック広告のバリエーションがあることが分かります。

広告ターゲットを詳細に絞り込む

 広告作成の詳細はスキップして、どんなフェイスブック・ユーザーをターゲットとして広告を見せていくか、という核心部分を見てみましょう。フェイスブック・ユーザーの膨大な個人属性データ、人間関係データ、興味関心データ、行動データを押さえているがゆえに、膨大なターゲティング、潜在顧客属性の絞り込みの可能性があることはお察しいただけると思います。

 取りあえず私の会社、メタデータ株式会社のフェイスブック・ページ、“リアルタイムCRM by メタデータ株式会社”全体への「いいね!」を増やすことを目的として、下の画面の状態とし、広告出稿の操作を進めてみます。


 この画面の下方には、オーディエンス(広告の視聴者)というセクションがあり、どんな人に広告を見せるかについて、詳細に指定し、絞り込めるようになっています。

 一番上から、地域(居住地)、年齢、性別、言語、その他のユーザー層、とあり、基本ユーザー属性を複合的に指定することが可能です。これらは「国勢調査的なデータ」という意味でデモグラフィック・データ、略してデモグラフィック (demographic) と呼ぶことがあります。

 日本の場合、地域は市区町村の単位まで指定が可能。米国では郵便番号による、さらに詳細な指定が可能です。市区町村指定時の注意は、ローマ字でないと受け付けてくれないことが多い点です。

 年齢は、フェイスブック利用者の下限である13歳から64歳の間の任意の範囲を1歳刻みで、もしくは上限なしを指定できます。性別、言語(日本語、英語(イギリス)、英語(米国)等)、は素直にそのまま指定します。

他属性や投稿から“推定”した属性も

 「その他ユーザー層」をクリックし、プルダウンすると、現時点で「交際」、「学歴」、「職歴」、「ファイナンス」、「住宅」、「民族」、「世代」、「子供がいる人」、「政治(米国)」、「ライフイベント」というユーザー属性の種類が出てまいります。

 例えば「交際」を選ぶと、「恋愛対象」と「交際ステータス」が出てきます。「恋愛対象」は男性のみか、女性のみか、女性と男性の両方を指定している人を対象とするか、不明としている人を対象とするか、を選ぶことができます。恋愛対象が例えば女性であっても、そのユーザーの性別は男性かもしれないし、女性かもしれないということですね。

 「交際ステータス」には、「独身」、「交際中」、「既婚」、「婚約中」、「不明」、「シビルユニオン」、「ドメスティックパートナー」、「オープンな関係」、「複雑な関係」、「別居中」、「離婚」、「配偶者と死別」があります。これらの中には、何らかの意図を持って、属性登録や表示を正直にはしていないユーザーもいますので、そこは割り引いてターゲティングを考える必要があります。

 「学歴」中の「学歴(大卒、修士、博士号、他)」、「専攻」は、予想通りというか順当な指定と思われるでしょう。少々、瞠目に値しそうなのが、「学歴」中の「学校」、「大学の在籍期間」という属性です。特定の大学名をいくつか指定して、何々大学と何々大学の卒業生にのみ広告を見せる、という指定が可能なのです。さらにその中で、いつ在籍していたかの年次の指定まで可能。これが、「何々大学出身の貴方へ!」という広告が結構頻繁に表示されるゆえんであります。

 学歴とくれば「職歴」。勤務先の会社名、役職、業界を指定することができます。「ファイナンス」は「収入」と「純資産」の指定が可能ですが、なんと、さまざまなほかの属性や、行動、発言(?)から推定する機能だそうです。現時点では米国のみでの機能、ということですが、普及してきたらちょっと物議を醸すことになる予感がします。同様に「住宅」についても、「住宅タイプ」、「住宅の所有」、「住宅の市場価値」、「家族構成」とあり、これらでターゲットにされた、外れた、と万一ユーザーに知られたりしたら炎上の可能性がありそうです。

 「ライフイベント」は言葉だけでは意味不明ですが、下記の選択肢を見ればなるほど、と思われます。

 「出身地から離れている」、「婚約中(1年未満)」、「婚約中 (3カ月未満)」、「婚約中 (6カ月未満)」、「家族から離れている」、「就職・転職」、「新しい交際関係」、「新婚 (3カ月未満)」、「新婚(6カ月未満)」、「新婚(1年未満)」、「最近転居した」、「近日誕生日」、「遠距離恋愛」

 例えば「近日誕生日」という人に絞り、自分へのプレゼントを選んでいそうな人に広告を見せるというのは、年中ターゲットが順繰りに交代、巡回していくこともあり、商品・サービスによっては非常に効果的でしょう。自分へのプレゼント以外にも、その広告で見た商品をアマゾンのウィッシュリストに載せ、家族、近親者、友達 にプレゼントしてもらおう、という発想と行動を促せるかもしれません。

 下図のように、ここまで丹念にきめ細かくユーザー属性を絞り込んできましたが、肝心の「趣味・関心」のところまで差し掛かって紙数が尽きました。


 かつては、個々のフェイスブック・ページ単位で、それらのページに「いいね!」している人を対象に広告(いや、もはや「狭告」と呼ぶべきでしょうか)を打てることを知り、驚きのあまりSocialAd99という広告ターゲティングのためのSaaS(ソフトウエア・サービス)まで開発してしまいました。次回はその経緯も含めて、現在はどのように、どの程度の興味・関心まで絞り込めるのかなど試行錯誤しながら紹介してまいりたいと存じます。

タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年03月18日

既にそこにあるビッグデータとの対話(その1) 〜破壊的に安く、早くアプリを作る

 前回、既存知識がほとんど無料になった時代の象徴として、米マサチューセッツ工科大学(MIT)が最初に無償公開を始めたOCW(オープンコースウェア)と、米スタンフォード大学のコーセラ(Coursera)の話題を取り上げました。OCWが元祖で老舗ながらも、文脈からはeラーニングとしては古臭いかのような印象を与えたかもしれず、最新の取り組みの方もご紹介しておかないとフェアじゃないな、と思っていたちょうど良いタイミングで、友人である宮川繁教授(MIT および東大)が寄稿した記事が日本経済新聞に掲載されました。
『東大、米大学とネット提供 講義公開で「知の革命」 宮川繁 マサチューセッツ工科大学教授(東京大学特任教授) MIT、月に140万人 思考も国境越える』2014/9/15付 日本経済新聞 朝刊

 スタンフォード発のコーセラの刺激は当然あったと思いますが、固有名詞としてのコーセラを包含する普遍的なシステムであるムーク(MOOC:Massive Open Online Course=大規模公開オンライン講座)の立ち上げにMITとハーバードというボストンの2校、それに宮川教授が兼務で取り持つ東京大学が加わって、知の世界の体験を大規模に地球上に広めようとしています。

 私は、OCWを提案した検討委員会の当初メンバーで、数年間OCW教員諮問委員会議長を務めたが、なぜMITは全教材の無償公開を始めたのかとよく聞かれた。
 その時いつも紹介したのは「お金は分けると減るが、知識は分けると増える」という、MITのチャールズ・ベスト前学長のことばだ。オープン・エデュケーションの理念はここに尽くされる。ムークやOCWなどを通じてオープン・エデュケーションを行うことは、実は大学のミッションを具体的な形で実行することであり、だからこそこれだけの支持を集めたのだ。― Prof. Shigeru Miyagawa(MIT & Univ. of Tokyo)

 私が1993年から94年にかけてMITにお世話になっていたときの学長がベスト教授でした。「お金は分けると減るが、知識は分けると増える」という言葉は懐かしさとともに、さもありなん、という気がいたします。これまでの連載でも触れましたが、知識を囲い込んで(実は公開されている情報に過ぎないのに売り込み相手にだけは隠して)“チラ見せ体験”を割引販売する情報商材のようなビジネスが、いかに不自然でゆがんだものであるかまで言い尽くしていると思います。

 与えよ、さらば、与えられん。

 お金を頂戴できるのは、個別の問題解決にまで踏み込んだり、そのためのツール、整備済みのデータを提供して初めてその対価が発生する、と考えて良いように思います。

整備済みのビッグデータを背景に持つGoogle Maps

 さて、ビッグデータなんて日ごろ縁がない、見たことも聞いたこともないとおっしゃる人も、知らず知らずのうちにビッグプレーヤーたちが提供するビッグデータのお世話になっている、と言われたら驚かれるでしょうか。

 ウェブで何かの施設の場所や、企業の地図を調べたことがある人なら1度は使ったことがあるGoogle Maps。と言えば「なーんだ!」という反応の方がほとんどと思います。

 ふと、「日経 野村直之 Google Maps」の3語で検索してみたところ、8年前に執筆したこんなページが見つかりました。
「Google Maps for Enterpriseに見るGoogleらしさ」

 2005年のこと、対話的で消費者が発信するウェブといわれたWeb2.0が企業情報システムにも浸透すると予言したら、不謹慎極まりない!とお叱りを受けましたが、12月に世界で初めて、メタデータ社の当時のウェブサイトに“Web2.0 for Enterprise”という言葉を載せました。それから半年ばかり後に書いた上記の記事は、私の予想通り“Google Maps for Enterprise”が登場したけれども、ビジネスモデルは労働集約型のサポートサービスとなり、到底Adwordsのような高収益のマネタイズは難しいだろうと示唆したものです。

 あれから8年も経ちますが、有料アプリとしてのGoogleAppsが広告事業にとって代わり得るようになったようには見えず、Microsoft Officeを脅かしつつも消耗戦になっているだけではないか、というようにも見えます。であれば「Googleらしさ」を失ってでもソフトウエア(SaaS、クラウドサービス)の利用から直接収益を上げる方向へ舵を切れば良いのに、などと思ったりします。

 「破壊者Googleへの恐怖」を語る切り口で言えば、従来のシステム・インテグレーションを、エンタープライズ・マッシュアップによって大幅に簡便化し、価格破壊を起こしつつある、と言うこともできます。このようにみれば、決して小さな出来事ではなく、IT業界(特に日本のIT業界)の体質転換を迫る歴史的事件、とさえ言えるかもしれません。

 しかし、この体質転換は、IT業界にとっても良いことであり、もちろん、ユーザー企業にとっても歓迎すべきことである、と考えています。次回以降、この観点で、今後の企業情報システムのあり方について考察してまいります。――野村直之(2006年8月)

 「価格破壊」については、当時ベストセラーになった梅田望夫さんの「ウェブ進化論」のエピソードが印象的でした。彼が社外取締役を務めていたNECの役員会で、Google Mapsに桜前線をオーバーラップさせたウェブアプリのデモ版を見せ、開発費用を他の役員さんたちに当てさせた時のことです。ある役員が「5億円!」と言ったのに対して、梅田さんは「一人のマッシュアップ技術者の3日分の人件費と機材使用料入れて13万円位」と答えたという趣旨の話が紹介されていました。

 マッシュアップとは、既に世の中にあるプログラミング素材であるAPIを使うことで、数行のコードを書くだけで容易にアプリケーションを作れる、一種の破壊的なプログラミングの流儀です。マッシュアップ・プログラミングのコンテストも10回目。メタデータ社の関わりも10年目で、8回連続でプログラミング素材としてのAPIを提供しています。

 ちなみに今年は10月24日の締め切りまで十分時間がありますので、皆様ぜひ「願望検索(したいこと検索)」、「ネガポジAPI」、「感情解析API」、「5W1H抽出API」などのテキスト解析APIを使って、お手持ちのデータを解析して引き出した価値にアイデアをまぶし、面白くも有用なアプリを開発してみてください!企画専門、アイデアソンへのご参加も歓迎です。


 Google Mapsのマッシュアップはまぎれもなく、背後に備わった整備済みのビッグデータを素早く、極めて低コストで活用する手法として、この8年間ですっかり定着したと言えるでしょう。世界最大のAPI情報ポータルであるProgrammable Webには、2014年9月15日現在で2550のマッシュアップ・アプリが登録されています。さまざまな応用事例、アイデアのバリエーションを辿ってみることができます。

 2006年初め、ITベンチャーを起業した直後の私は20、30とビジネスプランの草稿を書いても、どれもグーグルが物量にモノを言わせた無料サービスで蹴散らしてきそうで、夜中に恐怖で冷や汗かいて飛び起きるような日々でした。そんな中、知人が1000人以上いる企業情報システムの世界で、いち早くGoogle Maps/Appsを足掛かりに健全な価格破壊と利便性の提供、短期間、低コストでシステムを入れ替えられる体質にすべしと書いて発表したのは、自分のことを棚に上げていたようで赤面ものですが、少々早過ぎたこの提言は大きくは間違っていなかったのではないでしょうか。

既存のカーナビを優に駆逐しつつあるGoogle Maps

 ビジネス的なコメントは以上にして、Google Mapsの中身を見ると、ついに日本独自のハードウエア一体型ITの雄だったカーナビを滅ぼしかねないほどにまで成長しました。

 週末にレンタカーを借りましたが、オプションのカーナビは付けずに、その位置にNexus5を立てかけて、Google Mapsによるナビをずっと起動させておきました。

Nexus5で動かした、Google Mapsのカーナビ機能

 1度使えば分かりますが、これで十分です。視力にハンディのある人ならば、無線ルーターと、7インチから9インチ位のAndroid Padを持ち込めば良いでしょう。

 以前所有していた(文字通りの炎上で壊れた)10万円ほどの専用カーナビと比べて、恐ろしいほどきめ細かく高精度です。5メートルも狂うことなく、実に正確に現在位置をトレースしてきます。Quad Core 2.26GHz、メモリ2GBというパワーにも助けられていますが、何よりもクラウド側に、専用カーナビのDVD1枚程度の容量では到底太刀打ちできない膨大なデータが常に最新の状況に合わせて更新されているのだから、勝負にならないことは最初から―――そう、よーく考えていれば、8年前から分かっていたのではないでしょうか。

 今回からは「データと対話」の延長として、それをAPIやウェブアプリという形で使いやすくされたものを低廉に誰もが活用できる、というスタンスに移りました。ウェブアプリといえば、膨大な個人属性や企業情報等を擁するフェイスブックの広告出稿画面を使って、従来では考えられなかった精緻なマーケティングを実施できるようになったことに触れなければなりません。次回以降、生データ、ビッグデータと対話しながら、自分の事業のターゲットを絞り込み、より精緻にシフトするというのはどういうことか、具体例を通じて示してまいりたいと思います。

タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年03月04日

なぜ「データと対話」しなければならないか(その4) 「オリオン」はビールか星座か

 私は現在、法政大学専門職大学院イノベーションマネジメント研究科で、「ソーシャルメディア論」の講義をしています。ちょうど「データと対話」を実習してもらう機会があり、さりげないブランド名や商標について、取りこぼしが少なく(高再現率R)、勇み足・エラーが少ない(高適合率P)外部データの収集がいかに難しいか、体感していただきました。その中で、単位のためでなく授業を取ってくれている山本千誉さん(石垣島出身。故郷で中小企業診断士を開業すべく奮闘中)が真っ先に挙げてくれたお題「オリオンビール!」がとても良い例題だったので、机上でデータと対話しながら、質の高いクチコミの収集を試みてみます。

 意思決定や次期施策をまとめるために、欲しいクチコミだけを必要なだけ集めたい、という課題を共有してみてください。

 前々回、「ジョージア」を例に、「結果を見るまでは、どんな検索式が適切か分からない」と主張いたしましたが、どうもこの具体例がいま一つ特殊ではないか、とのコメントをいただきました。急に涼しくはなりましたが、まだまだ仕事帰りの生ビールが美味しい季節ですので、身近な例として、ビールの名前に言及しているツイートを集めてみることにしましょう。新たな目標は、“本音メディア”であるツイッター上で、“オリオン” ビールのクチコミを集めることです。

 国内で販売されているビール類(エール=aleや発泡酒、いわゆる第三のビールを含む)は、数え方にもよりますが千数百種程度も存在しています。その中には、ほとんど正式名称で呼んでもらえなかったり、「生中!」などとブランドを指定してもらえず、記事の後のほうでやっと銘柄がかすかに推察できるようなケースもあります。「水曜日のネコ」のように固有名詞と言い難いようなブランド名や、地名の通称ではないかと思われるもの(“Coedo”=小江戸:埼玉県川越市の通称)も存在します。

 「一番搾り」くらいになってしまえば、もはや普通名詞として使われる(醤油、麦芽等の一番搾り)ケースのほうが無視できるくらい稀なので逆に心配いりません。ユニークな一意に定まる略称であれば大きな問題はありませんが、多種多様な文脈に出現する固有名詞はなかなかやっかいです。

 このように、いろんなジャンルの固有名詞が存在する代表例が「オリオン」でした。まず、シンプルに、オリオン とだけツイッターの検索フォームに入れてみましょう。検索対象は「すべて」です。

オリオンビールのクチコミ集めは、大変!

 9月1日朝の時点では、こんな結果が出ています。

  • 「ごめんオリオンならとっくに潰してるんだ」
  • 「9/14の15時から宇都宮市オリオンスクエアで宇都宮カクテルクラブの33店舗のバーが本格カクテルをお出しします」
  • 【交換希望】AGF AMNESIA(アムネシア) ジェネオン 缶バッジの交換して下さる方を探してます。《譲》オリオン(300円+送料で譲渡可能です。)《求》シン、トーマ、ケント 宜しくお願いします。
    http://twitpic.com/dntbny
  • オリオン現る Orion Appears
    http://blog.polaris-hokkaido.com/2014/08/orion-appears-6.html
  • 【ラバーグッズ譲渡】ブラコン,アムネシア,薄桜鬼,P4,WORKING,日常、右京,光,梓,弥,絵麻,ケント,ウキョウ,オリオン,土方,りせ,ぽぷら,麻衣
  • 【ライブ情報】『RESTORATION』出演決定 9月15日(月・祝) OPEN 15:00
    ※PrizmaXのライブは18:30〜スタート予定です(終演後、特典会あり)
    ■場所 沖縄・ホテル オリオン モトブ リゾート&スパ
  • オリオン
  • 本日のC-1プロレス、19時開始予定です!はい!私も出るのはこれです!時間間違えてたー!良かったら皆様見に来てください!オリオンスクエアでやってます!
  • 今年オリオン座が無くなるらしい。爆発するのはベテルギウス。

(・・・途中、かなり省略・・・)

  • 「君がオリオン 1」 後藤みさき | ためし読みはこちら=> | フラワーコミックス
  • 【キーンランドC】武豊復帰!好調オリオンでVだ(サンケイスポーツ)
  • 桐生オリオン座.....懐かしい
  • 調理完了!今宵はマヨネーズを使わない自家製ポテトサラダ、昨夜の角打ち再現春雨サラダ!ポークソテーにいい浸かり具合の鮪ヅケ!オリオンゼロでスタート!
  • オリオン通のお化け屋敷、27日まで延長!
  • オリオンツアー、スターエクスプレスなどの格安で乗れる高速バスの予約がインターネットでできて便利
  • オリオンジャズで、市ジャズの演奏をききに。 @ オリオン通りイベントスペースにタッチ!
  • うへえくそかわ…オリオンなぞる
  • 今日のスタンドを発現ッ! スタンド名「オートツイート・ナムコ・シコ」! オリオンを加速する能力! セリフ「キモいッ! キモいッ!」
  • 日本語だけで国際交流ができちゃうんです。そう、オリオンならね。 #opu #大阪府立大学 http://ameblo.jp/orion-fudai/
  • マーモット MARMOT オリオン パンツ テクニカルアルパインパンツとして作られたオリオンパ...
  • オリオンの生ビールお安くします!ぜひ遊びに来てください(・`д´・)
  • アサヒ の アサヒ オリオン夏いちばん 350ml缶 (沖縄県限定のビール) 350ML × 24缶 を Amazon でチェック!

 最後の2つだけがオリオンビールのことを言っていると思われます。なかなか出てこなくて大変でした。検索するタイミングにもよりますが、多くの場合、「オリオン」だけではビールのことは1割も出てこないのではないでしょうか。

 「オリオン座」を排除するために、「座」という字を含むツイートを除外しても、

  • 冬はオリオンで決まりってことで。当たったらなんかしてくれそうだよね?
  • 【初音ミク】夏の夜のオリオン【オリジナル曲】(5:03)
  • 〈譲〉画像参照(トーマ/ウキョウ/ケント/イッキ/オリオン)
     〈求〉シングッズ(画像優先)/薄桜鬼 斎藤関連(アムネ優先)
  • オリオンをなぞる
  •  ・・・

 という調子です。冬のオリオンが星座で、夏のオリオンならビールかと思いきや、そうでもありません。

 世の中、本当にいろんな「オリオン」がいますね。芸名、架空のキャラクタ、星座、星座に似たホクロ、競走馬、ぬいぐるみ、宇宙船、広場や商店街、道路名、映画館etc. 何のことを言ってるか、よく分からないものも散見されます。

 写真がなければ、どれが星座で、どれがアニキャラかもわからないものがあります。一言、「オリオン」とあるだけの場合、その前後の対話、本人のつぶやきの文脈や趣味、嗜好を知らないと曖昧なまま。ひょっとするとビールのことを言っている可能性もあるかもしれませんが、どうも上の例ではオリオンビールに言及したツイートは一つもないようです。

  • オリオン、うめーなぁ!
  • オリオンはコクがあるのに爽快なのど越し!

 ならばかなりの確率でビールのことを言っていると思われます。

 しかしながら、「うめー」が、アニキャラの定番の特技のことかもしれませんし、

  • オリオン、キレが良いな

 であってもビールの「コクとキレ」のことではなく、立ち居振る舞い、演武の腰のキレが良い、とほめている可能性があります。競走馬のコンディションが良いことを言っているかもしれません。

 さすがに、オリオンとビールの両方を含むツイートだけを検索すれば、ノイズは激減します。

 しかし、これでは、適合率Pは高められても、

  • やはりゴーヤチャンプルー食べながら飲むのはオリオンしかないよな

 みたいな、明示的に「ビール」という3文字を含まないツイートは全部落ちてしまい、再現率Rはかなり下がってしまうことになります。

 このほか、 botという文字列を含むユーザー名による発言は一律に落とす/採用する、とか、小売店の売り込みのつぶやきは消費者の声ではないのでお店のユーザーIDを丹念に収集(そのためにはプロフィールやつぶやき内容を読まねばなりません)・参照し、リストを作る、などの準備が必要です。

知識発見の前処理としてノイズ除去は重要

 昨年の物理学の大きな話題は、重力の源となるヒッグス粒子(場)の発見でした。そのためには、何兆回もの実験でデータを取り、ほとんどがノイズであるものを重ね合わせて差分から意味を読み取っていく、そのためのコンピュータプログラムを何百本と、何年もかけて作成してはデータを加工し、とことん自分を疑いつつ、どうしてもヒッグス粒子の振る舞いとしか説明できない現象(=シグナル)を何年もかけて浮かび上がらせる、という作業を大変優秀な物理学者たちが数百人がかりで取り組んだと聞きます。

 もっと身近な業務知識、未知のビジネス法則の発見のためにも、データを適切なツールによって眺めて絞り込み、構造化、再編成し、再び、不足データ、関連データを補充してから絞り込む、といったデータとの対話が必須です。すなわち、データと対話することが、インテリジェンスの発見、新知識の創造プロセスの勘所、本質であり、極めて重要なのであります。

 “目的志向、問題解決志向で、データ収集の上流段階から、その吟味、加工、構造化、見える化、そして、人の頭脳による分析に至るまで、「データと対話」し、「洞察」→「仮説発見(着想)」→「検証」→・・・というサイクルを繰り返し、必要に応じて前工程へとフィードバックをかける。これなくしては、無駄に大量データを購入させられたり、見当違いのデータをモニタリングし続けることになり、いくら洞察を得たくとも、その低品質なデータのままでは「無い袖は振れない」状態にとどまってしまいます。”

 この好循環サイクルに入る前に、「ノイズの除去」としか言いようのない、有用なデータの候補(のみ)に絞り込むという、前工程での地道な作業があることを今回、かなり実感していただけたのではないかと思います。この作業経験豊富な職人の技には大きな価値があり、本来無料のデータであっても、適合率P、再現率Rともに高レベルでかつ客観的、中立的に、消費者の本音を正しいネガポジ比率で集めるという専門的な作業には大きな価値があります。

タダになる知識…超一流大学の教材も今や無償公開

 さて前回、検索すれば誰でもアクセスできるようになった既存知識よりも、今後の経営判断を左右する新しい知見、新知識の素を含んでいるかもしれない生データの方が価値が高くなってきた、と書きました。

 「知識が安くなった」ことの象徴的なエピソードを補足しておきましょう。高度な知識の代表例として、大学や大学院の講義資料、教材を挙げるのに異論のある方は少なかろうと思います。私にとっては大変懐かしい米マサチューセッツ工科大学(MIT)が2001年に始めたOCW(オープンコースウェア)は、大学等で正規に提供された講義とその関連情報(教材)を、全世界の教員・学生・自学習者が自由に利用できるようにインターネット上で無償公開する活動です。「知」の分野での社会貢献を目的とするとともに、世界中に当該コースを提供する大学の評判を高め、質の高い学生を集める一助となる期待もあったことでしょう。

 MIT版の元祖OCWのデータフォーマットが公開され、日本でも10を超える数の有名大学で採用され、JOCWのような組織もできています。MITでOCWの広報担当を務めてこられた宮川繁教授(MIT Linguistics & Language; 2013年より東京大学教授を兼務)によれば、教材類の公開に先立ってビジネスモデルを散々検討・シミュレーションしたところ、コスト負担のためには寄付を募り、徐々に公開対象を広げて、いずれは全教材を無償公開へと持っていくのが最も財政的に好ましい、という結論になったそうです。

 日本の大学からのOCW提供コンテンツ数は2005年の153から拡大の一途をたどり、2013年初の段階で、3061となっています(JOCWのサイトより)。ただ、8割以上が日本語によるもので、英語版は489 (16%)。今後、英語コンテンツを量、質ともに充実させていくことによって、日本の大学を志す世界の学生が増え、国際競争力を増すことにつながるのではないでしょうか。

 本家MITのOCWを使って、貧しいアジア、アフリカ諸国の優秀で意欲的な若者が独力で極めて高度な知識を身に着けた例も多いと聞きます。いわゆる100ドルPCの類が人類に最も貢献するためのインフラ、コンテンツの1つが、OCWと言ってよいのではないでしょうか。

 OCWで公開されているのは、いわゆる主教材の資料だけではありません。試験問題やレポート課題、最近では、当初は対象外だった講義風景のビデオまで公開されるケースがあります。ここまで無償にして良いのか、年間4万ドルを超える授業料を払う学生が馬鹿を見るのではないかという心配に対しては、実際に生の授業で丁々発止の質疑応答に参加し、あたかも医者に「個別診断と処方箋」を受けるような体験ができること(MITでは90分で50回以上の質問が学生から出る光景や、世界的な研究者でもある教授がその場で答えに詰まって次回までの宿題にさせてもらう場面を目撃したことがあります)、そしてもちろん学位が得られることに授業料に見合う価値がある、とプライドを持っているように見受けられました。

 試験問題(とその解答)まで公開してしまうと、2度と同じ問題を使えないということにもなり、いきおい教員が毎年緊張して最新最適の課題を与える、という副次効果があったといいます。

 10年近く前、ブログが世に出て間もないころに慶応大学の國領二郎先生が、1つのブログのタイムラインに、教師も教室内の学生も、なぜか教室にいない学生も寄ってたかって書き込んで討論のような授業を進める様子を、当時私が主宰していたビジネスモデル学会ナレッジマネジメント研究会にて紹介してくれました。創発的な2度と再現できないような体験を共有することで活きた知識を摂取し、また知識創造に参加することで知識を生み出し操るための「メタ知識」を授けることに相当程度、成功していたように拝察しました。

スタンフォード発のコーセラは受講管理まで行う

 高等教育の歴史に大きな足跡を刻み、ブレイクスルーとなったOCWですが、2012年に西の米スタンフォード大学から営利団体として生まれたコーセラ(英名:Coursera)のe-ラーニングが最近、急速に勢力を増しています。世界中の多くの大学と協力し、それらの大学のコースのいくつかを無償でオンライン上に提供するところはOCWと共通していますが、オンライン受講管理・試験・修了までの仕組みが前面に出ています。無料お試し期間の後は、少額ながら「学費」を支払わねばならない点もOCWと違います。有償の分、ちゃんとテストを受けて採点してもらえたり、修了証をもらうことができます。

 コーセラは、発足して半年余りの2012年11月の時点で196カ国から190万人もの生徒が一つ以上の授業に登録。修了率は6〜7%とのことでした。現在(2014年8月31日時点)、907万人の受講生がいて、110の大学等から提供された744の講座の1つ以上を学んでいます。

 ためしに、本連載のテーマである“big data”と入れて、コースを選んでみましょう。日本の大学ではなかなか講座名自体にビッグデータを含む講義にはお目にかかれなさそうですが、4つのコースがヒットしました。

 米国コロンビア大、ワシントン大、インドのデリー工科大、そして、上海の復旦大から、次の講座が提供されています。

[画像クリックで拡大表示]

 検索にはヒットしませんでしたが、コース説明に“Big Data”が出てくる講座は、他にもありました。たとえば、ジョンズ・ホプキンズ大学の「データ解析」です。

 これらのコースの教材を検索して、「データと対話」すべきことが語られているか、私も教師のはしくれとして精査したい欲求にかられます。ビッグデータの名を借りつつ、伝統的な統計学やデータベース理論を教育しているらしき大学もあれば、コロンビア大のように、知識発見のためのツールやモデルを活用して知識や推論についての教育にビッグデータを活用する、という実践的、自己説明的な講座もあるようです。

 「データと対話」、すなわち、データの中身を吟味するという試行錯誤から、分析方法、モデル化の方針にさえも影響を与え、軌道修正するようにフィードバックすべき、というあたりまで、コロンビア大のコースには含まれているかもしれません。もっとも、私が本連載で述べてきたようなデータとの対話については、現場でビッグデータの海に溺れそうになり、泥まみれになって格闘し、そこから叡智を昇華させようと呻吟したことのある人でないと、なかなか語れないだろう、と思います。ともあれ、どなたか、上記講座を受講してみて、このあたり、フィードバックしてくださるとうれしいです。

 講師のサイン入り修了証以上に、知識習得、実践の過程で得られた知見を社会で共有するという、いわば「ソーシャル・ラーニング」という仕組みにまで発展すれば、素晴らしいと思います。一方向的な授業になかった面白さを味わう「生徒」間の連帯が世界中に広がり、相互の対話を通じて、文字通り「生きた」教材がますます成長し続けていくだろう、と予想するのは楽観的に過ぎるでしょうか。

 以上、かつては何万ドルの支出と、一定以上の年限が必要だった高等教育の教材が無料、もしくは格安で提供され、誰でもその気になれば、簡単にアクセスでき、修了できるようになった、というお話でした。

 次回以降は「データとの対話」において、収集対象自体が事前に定義できず、少しずつ移ろいゆく場合にどのような試行錯誤や、検索のユーザーインタフェース(検索・絞り込みのパラダイム)が必要とされるかについて考えてみたいと思います。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2015年02月21日

なぜ「データと対話」しなければならないか(その3) 検索の「品質」は企業の命運すら左右する!

 本ブログの以前の回「ビッグデータが変えた『知識よりもデータが偉い?』 」では、それがどういうことか、何を意味するのか、明快な回答を出しきれませんでした。記事中の「知識と情報の違いをどう捉えるか」の項では、情報検索と知識検索の違いにまでは踏み込みませんでした。

 とは言え今日、単なる情報検索ならウェブと一部の専門検索エンジンでできますし、知識検索なら辞書やWikipediaのような百科事典的サイト、また、特定の目的に沿って問題解決の手順や処方箋に近い知識の記述を求めるならば人力検索サイトに頼る方法がある(まだ回答がなければ質問を投げておくこともできる!)ということを、情報リテラシーのある人なら皆知っています。

 お盆の時期に、戦争と平和、国民主権と民主主義(経済奴隷でないことも含む)について考えながら、ふと気づきました。2010年以降のビッグデータの時代に、知識よりデータが偉いのは当たり前である、と。

 上に記した知識検索の方法により、既に知られている知識や問題解決方法は容易に素早く手に入るようになりました。言い換えれば、既存の知識は前世紀に比べてはるかに安く、多くの場合「無料」で入手できるようになりました。しかし、未知の知識、問題解決方法、その前提としての現状把握、その原因分析(なぜこんな数字になったのか?など)について言えば、生データを適切なツールを通して解析し、試行錯誤(データと対話!)を繰り返さねばなりません。その分析能力には、属人性や能力差が存在し続けます。

 ビッグデータ活用のためにコストをかける大きな理由は、そこに前人未踏の新発見、問題解決のための新知識の創造、そして、それらの業務化による競争力確保ができるという期待、見込みがあるからです。流通した途端にタダ同然となる既存知識と違って、未知の、まだ囲い込み可能な新知識は百万倍もの価値があるでしょう。それを生み出せる源泉こそが生データ。だから「データの方が(既存)知識より偉い」のです。

 知識発見のためには、データを適切なツールによって眺めて絞り込み、構造化・再編成し、再び不足データ、関連データを補充してから絞り込む、といったデータとの対話が必須です。すなわち、データと対話することがインテリジェンスの発見、新知識の創造プロセスの勘所、本質であり、極めて重要なのであります。ちなみに、アライドアーキテクツ社とメタデータ社が8月15日に共同発表した「ソーシャルアナライザー」は、データとの対話をスムーズに支援する機能を備えており、適切な検索式セットをコンサルティングして提供するオプションメニューを持つサービスです。

 目的志向、問題解決志向で、データ収集の上流段階からその吟味、加工、構造化、見える化、そして、人の頭脳による分析に至るまで「データと対話」し、「洞察」→「仮説発見(着想)」→「検証」→…というサイクルを繰り返し、必要に応じて前工程へとフィードバックをかける。これなくしては、無駄に大量データを購入させられたり、見当違いのデータをモニタリングし続けることになります。いくら洞察を得たくとも、低品質なデータのままでは「無い袖は振れない」状態にとどまってしまいます。

検索精度の評価指標、「適合率」と「再現率」

 前回は、外食検索サイトの検索窓に最も多く投入されるキーワードの1つが「ビール」だというトピックをご紹介し、一般ユーザーは多くの場合、検索対象について明確なイメージや具体的な条件、制約条件を描かないまま検索に臨んでいる、と指摘しました。

 そのような時に、ウェブサイト側から対話的に知識を提供しつつ、ユーザーの潜在的な願望を具体化、顕在化させていくプロセスには様々な可能性があり、認知心理学の助けを借りても不十分と考えられます。実際のデータそのものが多彩であり、ユーザーの個性も多様だからです。

 そこで、ここでは仮にユーザーの目標、狙っている検索対象のイメージが明確であり、検索の「正解」が揺らぎなく定まっているものと仮定します。「本当の正解の集まりA」と、「システムの出力の集まりS」を並べて表現した下の図をご覧ください。私くらいまでの中年世代なら、小中学校で習った「集合」のベン図(Venn’s Diagram)だ、懐かしい!と思い出されるでしょう。

[画像クリックで拡大表示]

 AとSの重なり部分(集合論では“交わり”と呼びます)が、システムが正しくヒットさせた正解の集まりHとなります。この検索がどれくらい良かったのか?といわれたら、

システムが正解としたSのうちどれだけが本当の正解だったか H/S = P
本当の正解Aのうち、どれだけシステムがカバーできたか H/A = R

 この2つが基本的な評価指標となります。

 PはPrecisionの頭文字。日本語では、「適合率」といいます。これは、狭義の精度といえますが、直観に訴える表現としては、「ランキング中の間違ったヒットの少なさ」と言い換えても良いでしょう。

 Rは、Recall の頭文字。日本語では、「再現率」といいます。どちらも分かりにくいですね。これはずばり、「カバレージ」、「(本当の正解からの)取りこぼしの少なさ」と言い換えれば、しっくりくるかと思います。

どちらの指標を重視するかは局面によって変わる

 正解が定義できている限り(実世界ではこれが難しいのですが)、このP=「適合率」とR=「再現率」をうまく使い分けることで、ゴールへ向けて、正しくデータとの対話を進め、必要な知識や法則を発見しやすくなります。このPとRの使い分けについて、技術開発系の企業で従来から幅広く業務化されていた「特許サーチ」を題材に考えてみましょう。

 2006年度と2007年度、同志社大学ビジネススクールに招かれて、技術評価について各3回の講義と、実習レポートを担当した時のことです。

 まず、ある企業の中で特許サーチを行って、新規事業向けの技術開発を社内で行うべきか否かを決める局面を想定してみてましょう。次に、もう製品発表間近で、念のためにビジネスモデル特許の類を含めて、他社の特許を侵害していないか調べる局面です。同じ特許サーチでも、PとRについて対照的な結果となります。以下、レポートを公開評価していた時の議論の概要です:

  1. 特許サーチは、自社の技術開発ならびにその知的財産権確保、ひいては安心して関連製品を製造販売できるようにするための極めて重要なタスク
  2. 特に、研究開発投資を行い、製造せんばかりになって、それどころか量産後に、あるいは一定量販売後に、先行他社による類似特許が見つかったとあっては、賠償金の支払いや製品回収、製造販売差し止め(特許権は超強力!)を食らいかねない、悲惨な事態に陥る
  3. かといって、 特許サーチに縛られて研究者の自由な発想がしぼんでしまっては元も子もない
  4. そこで、ブレインストーミングを何度か繰り返して研究テーマを選び、絞る上流工程において、自社の強みを技術面で評価、確認するなどの目的で特許サーチを行う。この主目的は、【読むに値する、非常に参考になる関連特許を適量発見】することになる。故に、読み手である技術者にとってノイズまみれでなく、狙ったテーマについて高い比率で、欲しかった特許明細書が多く含まれることが望ましい。すなわち、P=適合率重視!
  5. 一方、テーマが確定、固定し、研究成果が出ることが確実になって、そこから生み出される商品スペックがある程度固まってきた時には、万が一にも、ほぼ同一の先行発明があっては、将来、上記2のような多大な損害を被り得る。そこで、自社特許内容とよく似た特許が存在していたら1つの取りこぼしもないことを目標に、検索できなければならない。すなわち、R=再現率重視!

 いかがでしょうか? 同じ特許サーチでも、その正しさ、適切さの評価基準が、研究開発のフェーズが上流か、下流かによって、P重視、R重視、と変わっていくことがイメージできたら幸いです。

 また、特許サーチという業務が、まさに「データと対話」する作業であることもイメージできたのではないかと思います。すなわち、上流では、最初の検索試行の結果を見て探索の方向を切り替え、ブレインストーミングの進行に合わせて、重点サーチ対象をシフトしていき、サーチ結果を分析、咀嚼して、テーマ自体に修正を加える、といった作業となります。高度に創造的な作業が、「データと対話」しながら行われていくわけであります。

 下流工程の場合、R重視、すなわち、取りこぼしを極限まで減らすべく、同じ内容なのに全然違う言い回し、表現が使われていないか、「データと対話」しながら調べていく感じです。ある程度見つかった類似特許中の表現、その特許が引用している文献中での、鍵となる概念の呼称や言い換えなどを、試行錯誤を繰り返しながら網羅していくわけです。こちらはあまり創造的ではないにせよ、実在のデータと対話しない限り、R=再現率を向上させるのが不可能なことは明らかだと思います。

 まとめとして、少し強引かもしれませんが、次のように話を一般化することができると思います。

 ビッグデータ分析の目下の主目的が、

  • 「発見」であるときは、P=適合率重視のアプローチで、
  • 「業務化」であるときは、R=再現率重視のアプローチで、

 それぞれ中間結果を評価しながら、分析を進めていくこと。

 これが、データとの対話を進めてビッグデータ活用を成功させる鍵の1つではないでしょうか。


posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | AI

2015年02月07日

なぜ「データと対話」しなければならないか(その2) 東京五輪と言えば…どの東京五輪

某外食情報サイトの方から、「野村さん、うちのサイトの検索窓に一番多く投入される単語が何か分かりますか?」と聞かれたことがあります。

野村:「さぁ、何でしょう。飲み会の幹事さんが、仲間とリーズナブルにおいしく楽しめる場を見つけようというのですから、まずは場所と、個室があるか、禁煙か、逆に喫煙可か、みたいな条件ですかね。場所の指定なら、鉄道の駅くらいの粒度で指定しそうだから、一番乗降客が多くて飲み屋も多い“新宿” あたりが最多の検索キーワードでしょうか」

検索サイト担当者:「それが何と、“ビール”なんですよ! 全検索キーワードの20%超を占めることもあります」

野村:「えぇ!? そんな無意味な! 絞り込もうという目的意識で、検索の途中結果を眺めつつ条件を次第に増やし、候補を減らそうとしてシステムと対話するのが普通のユーザーではないんですか?」

検索サイト担当者:「いやぁ、普通の人は、そんなに合理的に理路整然と考えてネットを使うわけじゃないみたいですよ。いま、欲しいな、いいな、と思ったら、何となく頭に浮かんだ短い言葉を入れる、という人の方が多いみたいです」

 宴会場を選ぶその時、何となく頭に連想され、浮かんできたもの(例えば“ビール”)をそのまま検索ワードにする人が多い。この示唆を得た時の新鮮な驚きと衝撃は今でも鮮明に覚えています。IT屋がトップダウンに考えたモデルを、コンシューマー向けサービスに押し付けてはいけない、と悟った瞬間でもありました。

 データの母集団がどうなっているか分からない状況で、自分の狙いを他からどう差別化するか論理的に考え、その場で対話的に獲得した諸条件を総合的に最適に満たすために、中間結果を目視しながら最短距離で、効率よく絞り込む。そしてその結果と理由=「なぜ良い店であるか」を1ダースくらいの条件で表現するなどして同僚に説明し、判断を正当化する。このようなユーザーは「少数派」である、という前提でサービスは作らないと、そのサービス事業者は倒産してしまうことでしょう。

 とはいえ、検索試行を繰り返してみないとそもそもどんなデータ(上の例ではお店の種類、候補)があるのかも分からない、などの事情は変わりません。なので対話は必要です。もしかすると対話の味付けとして、システムがより賢く、ご主人様の意図や好み、制約条件を推察しながら、魅力的な候補を(時にはスポンサーの意向を反映して恣意的に)提示していく、といったチューニングがコンシューマー向けには求められているのかもしれません。いわば、同じ対話でもユーザー主導というより、ユーザーはより受け身で楽ちんできるようにシステムが饒舌、お喋りであるべきと言えますね。

 居酒屋選びでネットの検索窓に「ビール」と入れる人は、おそらく自分の理想の検索結果や、具体的な条件を描く前に検索サイトに来てしまったのではないのでしょうか。ゴール不在の検索。それが主流であるならば、最初から明確な目的、具体的な条件が定まった状態で、検索、絞り込みをするというより、検索の試行をしながらそれらを明確化していくのが一般ユーザーと言えるかもしれません。

実際に「どのイベントのことか」が曖昧

 前回の末尾に、
“「口パク」や「東京五輪」などの例を手掛かりに、単語切り出しの曖昧さも、同綴り異語の問題も、単語の多義性の問題もクリアしているにも関わらず、実際にどのイベントに言及しているかの曖昧性のせいで、データ収集にノイズが入る問題を取り上げます”
と書きました。

 例えば企業の商品プロモーション、キャンペーン等の際に、特定のイベントについてのネガポジ比率(ネガティブ=否定的な意見と、ポジティブ=肯定的な意見の比率)の推移を見たい、というニーズは切実なものです(実際にネガポジ比率を自動的に判定するソフトには、例えばこれがあります)。

 その際、対象となる膨大なクチコミのデータに対して投入する絞り込みキーワードによって、実は違うイベントに言及したクチコミが検索結果に多数混入してしまうと、キャンペーン等の効果測定の精度がガタ落ちになってしまいます。

 まず「東京五輪」というワードを取り上げましょう。「東京五輪」なら言及対象は一つに決まるのでは?という質問がありました。答は否、ノーですね。首都大学東京、渡邉英徳研究室の「東京オリンピック1964アーカイブ」も堂々ヒットしますし、温故知新で前回の例と比べる議論、そしてメインスタジアム建設の話題から現在の国立競技場を取り壊すなという議論など、1964年の東京五輪が主役の記事も多数あります。さらに、第二次大戦のためにキャンセルされた「幻の東京五輪1940」もあります。

 調査・分析対象のトピックを分類し、絞り込むのに、対象のイベント自体が雑然と混ざってしまってはまずいので、5W1H解析なども併用して、詳細な分析の前にデータを腑分けしておく必要があるでしょう。

 さて、「口パク」といえば、国内外で有名人が生出演、生演奏を装いながら実際にはコンディションの厳しいライブの現場では歌わずに録音を再生したり、極端な例では第三者に歌わせる(NHKの朝ドラ「あまちゃん」では、“シャドウ”と呼ばれていましたね)など、非難され、騒がれる事件が繰り返し起きています。

 「口パク」についての消費者の本音に目を通し、そのタイプごとの比率を知ることは、広報・マーケティング担当にとって極めて重要と考えます。イベント主催者側の過剰演出的なものを消費者がどの程度許容してくれるか、その境界線を具体的に知るヒントが得られるからです。そのためのテキスト・ビッグデータの情報源としてはやはり、辛辣な本音がさくっと書かれるツイッターが現状ではベストのように思われます。

 「口パク」に関連する事件、イベントが複数あるので、その記事の文脈をよく解読しないと、単に「口パク」といっても、どの「口パク」のことを言っているのか噛み合わず、そそっかしい人は誤解してしまうこともあるでしょう。

 「口パク」と一緒に、検索エンジンに投入されるキーワードの上位10件の表示を見ただけで、皆さん、特定のイベントに言及した「口パク」に絞ろうとしている努力が一目瞭然です。

口パクに関連する検索キーワード

perfume口パク akb 口パク
山下智久口パク 口パク 歌手
akb48 口パク 嵐 コンサート 口パク
山p 口パク ももクロ 口パク
mステ 口パク 少女時代 口パク

 私は、これらのイベントのほとんどを知りませんでした。上記だけでは検索ノイズの除去にはまだまだ不十分であると考えられます。そんな時は、「口パク」1語で上位にランクされた中から「まとめサイト」を見つけ、そこを開いてみると良いでしょう。今回、邦楽限定ながら、「口パクで歌っているなと思う歌手は誰?(日本人・外国人含む)」というサイトがヒットしたので開けてみると、6ページにわたって、数十人以上の名前が出てきました。これにより、特定のイベントや、自社所属のタレントに絞った評判分析などもできるようになります。

 記憶では、五輪の開会式や閉会式で「口パク」が世界的な大騒ぎになった事件がいくつかありました。これらについてはご興味に応じて調べていただくとして、ツイッター検索からの外し方です。例えば「口パク -ジャニーズ -アナ雪 -アナと雪(“-”は半角マイナス記号)」と、ツイッター検索窓に入力してEnterキーを押してみてください。単に、「口パク」とだけ入れた時とは、ガラリと変わった結果が出てきます。

「やらせ」的要素をいかにさじ加減するか

 上例の「口パク -ジャニーズ -アナ雪 -アナと雪」 の延長で(文字通り、検索式を「延ばし」ます)、最近多い具体的な出来事、特定の歌手、グループや流行りの動画を少しずつ外して検索してみてください。一般消費者が、イベント主催者、マーケティング情報提供者側のいわゆる「やらせ」的なものに、どんな感情、リアクション、許容度をもっているのかに関する、重要な生の声を多数拾うことができるでしょう。

 一歩踏み込んだ本音の企画を試みる際に、それが意図的な「炎上マーケティング」でない限り(いや「炎上マーケティング」なら、なおさらその制御のために)、少しは混入する「やらせ」的な要素のさじ加減を具体的にどう調整したら良いか、貴重な洞察を得ることができると思います。

 「データと対話」、まだまだ続きます。


posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年01月24日

なぜ「データと対話」しなければならないか(その1) 富士急「で」出かける? 富士急「に」出かける?

 本連載では一貫して分析のあり方、大切さをテーマとしていますが、「ビッグデータの時代」という言葉を表面的に解釈すれば、大量のデータが溢れているのだな、HDDをはじめとするストレージが必要、重要なのだな、というイメージが湧いてきてもおかしくありません。

 今回は、現状、骨の折れる作業となっている大量のデータ集めに際して、どんなデータをどう集めるか、どう(どんな構造で)溜めるかという課題を論じてみたいと思います。闇雲に、乱暴にやるのでなく、「データと対話」しながら収集量を抑え、検索・収集法を微妙にコントロールして変え、利用目的をある程度は考慮して適切な構造で溜めるべし、という方向性を推奨してまいります。

大容量ストレージの価格、再び低下

 半導体の場合のムーアの法則(集積密度が18〜24カ月ごとに倍になる)に準じて、HDDについてもここ数十年間、一貫して容量増・高密度化が起こり、劇的にコストパフォーマンスは改善されてきました。しかし、数年前のタイの水害で、それがぴたっと止まり、しばらく一定価格で推移してきましたが、ここへ来て競争再開。価格低下と大容量・高密度化が動き始めました。

 Akiba PC HotlineのPCパーツ相場情報は開始以来、好きで眺めていました。先日しばらくぶりに見たところ(5末版)、大容量化・低価格化再開の様子を具体的に実感することができました。

  • ・6TB(テラバイト)のHDDが現実的な価格(3万円台前半)に
  • ・2.5インチの1.5TB 9.5mm厚(PS4内蔵HDDの換装に使える)が1万円を割った
  • ・「HDDを100TB分購入するともれなくPS4をプレゼントされるキャンペーン」

 3つ目のキャンペーンのニュースは、「個人で100TBのストレージ容量を所有する人が普通に出てくる」という想定もさることながら、データのストレージこそが主役(お金を払う対象)であり、PS4、すなわち高性能なコンピュータ本体が「おまけ」とされていることに感慨を覚えます。

 企業向けのディスクアレイや、インテリジェント・ストレージ(データベース機能搭載)の値段は大変高いので、個人としてはピンときませんが、上記のような個人向けストレージの動向から、ビッグデータ、大量データが主役の時代になったのを感じることができます。

データは分析・活用のために収集するもの

 連載初回に掲載した図を再掲します。

「ビッグデータの活用の上流から下流まで 〜情報/データのライフサイクルに即して」

 初回には、現状では下流工程の分析、活用にまだまだ踏み込めていないが、分析、活用こそが大事である、と書きました。上図を下から上に眺めれば、本来は、活用の狙いを定めてから、どんな分析を行うかを考え、設計し、それに合わせて上流のデータ収集、加工にあたるべきことまで示唆されている、と言えるのではないでしょうか。

   ストレージなど、ハードウェアの価格は大きく低下し、業務によってはコスト全体に占める割合が無視できるくらいになってきています。コストに占める割合が大きいのは、データの取得、入手と保存を適切に正しく行い、扱いやすい構造のデータベースに落とすまでの人件費等です。データ内容の過不足、誤り、重複、形式の不統一を調整するデータ・クリーニングの外注費だったり、その支援ソフトウェアの代金だったり、はたまた、なぜか無料で全世界に公開されているデータを購入するための代金だったり。これらの出費も、現状では馬鹿にならないと思われます。

 ここのデータ収集が結局有料で大きなコストがかかるならば、狙いから外れた対象の社外データを無駄に購入するなどという余計な出費をなくし、集めたデータが何度でも有効に活用されるよう運用しなければならないでしょう。以下、データ収集自体を効率よく行うために、「データと対話」すべきことを書きます。

結果を見るまでは、どんな検索式が適切か分からない

 社内データも社外データも、一般に全量を眺めるのは無理ですから、必ず、検索・絞り込みの作業が入ります。このときの検索条件(以下「検索式」と呼びます)をどうしたら良いか。「そんなの最初に決めたキーワードを入れるだけじゃないか」と言う人は、適切なデータ収集を行った実務経験があまりない人だと思われます。

   まずはごく単純に、「商品名」「ブランド名」「地名」等の固有名詞の例を見てみます。

例:「ジョージア」
 広告宣伝が功を奏したようで、缶コーヒーのジョージアのオフィシャルサイトが、Googleでもbingでも検索結果のトップに来ました。缶コーヒーのWikipedia解説ページやFacebookページ、日本コカ・コーラ株式会社のページに交じって、当然ながら上位に、「(米)ジョージア州」についてのページ(Wikipedia、bingマップ)が食い込んできます。

 そして、今回「データと対話」してみて私が初めて知ったのが、次の2つです。

週刊ジョージア
週刊ジョージアは、働く男たちを手のひらから応援するスマホ・マガジンです。グラビアあり、コミックあり、エンタメありと盛りだくさん!月〜日で毎日更新!!

ジョージア魂賞 〜選べ、チームのためのベストプレー〜 | 日本 ...
ファン投票で選ぶベストプレー「ジョージア魂賞」!投票すると毎回豪華賞品が当たるチャンス!今すぐ投票してみよう!! NPB.or.jp 日本野球機構オフィシャルサイト NPBトップ 読売ジャイアンツ 中日ドラゴンズ 東京ヤクルトスワローズ ...

 それぞれGoogle検索のtop 10、bing検索のtop 10に1つずつ見つかりました。

 ツイッターなどで、缶コーヒーについての口コミだけを調べたい、あるいは米国の州についてだけ調べたい、スマホ週刊誌についてだけ調べたい、などの時には検索式を工夫する必要があるな、とすぐにお察しと思います。仮に、100%の精度がほしい、すなわち、取りこぼしもなく、勇み足もない(検索結果に別の意味の「ジョージア」がない)ようにデータ収集しろ、と言われたら結構難しいだろう、とも思われたかと思います。検索結果の2ページ目以降も徹底精査し、「ジョージア」が出てくる文脈の前後に出てくる特徴的な言い回しや記号にも着目して、排除する条件として検索式を長くしていく必要があるからです。

 日本語の「ジョージア」はまだ、英語のGeorgiaよりマシであることは、旧ソ連崩壊の時期に最新情報を英語で見張っていた多くの人が知ったことと思います。“Georgia”と1語、全く同じ綴りで、旧ソ連・中央アジアの「グルジア共和国」のことも意味するからです。もちろん、日本人のほとんどが知らないような商品名、ブランド名が海外で使われているかもしれない。英数字列の言葉は、たとえ日本語を検索しようとしても、社外データを収集する際には常にこのような「同綴り異語」の問題がつきまといます。

多義性問題を解決する「係り受けランキング」

 同じ言葉が違う意味で使われる問題(多義性問題といいます)も厄介で、技術だけでは解決しきれないのが現状です。

例:「富士急」
 え? 何が問題なんだろう? とお思いになった方もいらっしゃるでしょう。

 人間は、文脈や状況に応じて、いとも簡単に言葉の意味を無意識に選び取っているため、何が難しいのか分からないという疑問が湧いてくるのです。

 「富士急」という固有名詞ですが、ざっと挙げただけで3つの違う意味があります。それを、主語-述語や目的語-述語などの係り受け関係でみてみましょう。

A)富士急が・・・急騰
B)富士急で・・・出かける
C)富士急に・・・出かける

 もうお分かりですね。A)は、富士急行株式会社の株のこと(東証9010)、B)は、富士急行線の鉄道路線、C)は富士急ハイランドという遊園地のことを意味します。

 このように、係り受け関係が定まると、意味やテーマが急激に絞り込まれます(完全にではありません)。このため、係り受け関係でランキングするだけで、多義性問題の多くが解決でき、文章のテーマ、例えばお客様の声をアンケート等で調査した結果、自由回答文章に多く含まれるテーマを上位から抽出し、人間によるまとめあげと分析、対策立案へとつなげることができます。

 メタデータ社の製品「アンケート分析Pro」には、同じ係り受けの組み合わせの出現数をクリックすると元記事を瞬時に参照できる機能が搭載されています。前後関係からも重要テキストを選別してまとめて「フルテキスト類似検索」の検索窓に入れると、全体として似た文章を上位から類似度順に並べてくれるので、お客様の声の中で目立ったいくつかのテーマごとに、ほぼ同趣旨の声をおおよそ網羅する作業も非常に短時間で完了します。

 次の図は、昨年の東京五輪決定の前後1カ月に「#東京五輪」を含むツイッターの書き込み数千件に対して、回答者属性と「五輪決定がうれしいか」「2020年に向けて景気は良くなるか」の選択肢回答を付加した疑似アンケートを「アンケート分析Pro」にかけた結果です。自由回答に模したツイート中に 「予」の字を含むものから抽出した係り受け(活用形は基本形に変換)のランキングを示しています。さまざまな想定内の予定の類を差し置いて、超能力少年が2020年の未来都市東京で活躍する大友克洋氏のマンガ「AKIRA」 が、30年前に2020年東京五輪を「予言」していた驚き、というテーマが上位を占めていることが一目瞭然です。

[画像クリックで拡大表示]

 ここで、前ページの図で赤く囲った「選手−予定」が面白そうだったので、件数の「3」をクリックし、この係り受けを含む記事を表示させると:

[画像クリックで拡大表示]

 この3件のテキストを全部つないで、検索式として(!)、類似検索の画面に投入した結果が下図です。

[画像クリックで拡大表示]

 3件のうち一つが、データベース全体の中でとりわけ特徴的な(他にあまり出てこない)、選手村の除染をテーマにした書き込みだったため、最上位にその書き込みが来ました。類似度ランキングは、右端の棒グラフと類似度・関連度の数値でご確認ください。

 他の2件が、2位、3位、と続いた後、選手村予定地付近の不動産の売れ行きの記事や、テロ対策、選手村も絡む経済効果、などの記事が続きます。一番下の書き込みは「東京五輪コンドーム戦争」という産経新聞記事の引用です。選手村に絡めて、早くもこんな裏話が出てきたかと苦笑させられました。全産業が色めき立っているかの様子が素早く発見できたのは、この「係り受けランキング」から「類似検索」を連携させた結果ならではの収穫でした。

「分かち書き」に起因する問題も残る

 技術的には順番が前後した形になりますが、表記上の問題で、検索・絞り込み・データ収集で大きなノイズが出てきてしまうことがあります。これは「分かち書き」をしない日本語のような言語で顕著です。下記は実際に困っている状況を目にした例です:

例:GAGA →「誰か【がが】まんしなければ」
  義経 →「資本主【義経】済と社会主【義経】済」

 検索エンジンやデータベースの絞り込みに際して、「気を利かせた」つもりで、異表記に自動展開されてしまうことがあります。GAGA→「がが」など、常識ある社会人ならば、そんな展開は有害無益と分かっていても、ソフトウェアがそのような仕様で動作し、しかも、単語でなく、文字列の一致で処理されてしまうと、上例のようなおかしな検索結果が出てきてしまいます。

 2番目の「義経」問題ですが、実際に、某図書館で老婦人が「義経千本桜」の解説書を見つけようとして、マルクス、エンゲルス、レーニンの著作ばかりがヒットした現場を目撃したことがあります。老婦人は茫然として固まってしまいました。あまりの落差に「機械が壊れている」と思われても仕方がありません。

 この問題の解決には、分かち書きをして単語の切り出しとその基本属性(名詞、動詞、など)を決めた上で単語検索を行い(活用形の文字面が違っていても原則一致させます)、どうしても取りこぼしが出てきた時のために補助的に文字列検索も併用する、というやり方をとる以外には良策はなさそうです。

 分かち書きも、かな漢字変換と同様、永久に精度100%にはならないでしょう。「東京都」→「東京|都 →とうきょうと」なのか、それとも「東|京都 →ひがしきょうと」なのか。前者が多く出てくるだけで、後者でないとは言い切れないことから、人間でも間違えることがあるわけですから。

 次回は、「口パク」や「東京五輪」などの例を手掛かりに、単語切り出しの曖昧さも、同綴り異語の問題も、単語の多義性の問題もクリアしているにもかかわらず、実際にどのイベントに言及しているかの曖昧性があるためにデータ収集にノイズが入る問題を取り上げます。また、100%の精度が望めない(かな漢字変換なんかもそうですね!)時に、どのように実用的な精度を達成するかを評価する指標についてご紹介する予定です。




posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | AI

2015年01月10日

ビッグデータから「仮説」を掘り出す方法 〜スモールデータの手法も駆使し「発見」への仕組みを作る

前々回、前回と、2014 FIFA サッカーW杯の“ビッグデータ時代”らしさをテーマに書きました。日本が決勝トーナメントに進み、あわよくばベスト4にでも勝ち残っていれば、今回もサッカーの話題となったかもしれません。しかし平均的日本人より相当サッカー好きと思われる私でも、週に1、2度ダイジェストを見て『ドイツのゴールキーパー、ノイヤー すげーっ!』『コスタリカGKのナバスも同じ位すごい!』と血が騒ぐ程度で、世間はすっかり落ち着いてしまったかに見えます。

 そこでサッカー関係の落穂拾い的記事は適宜、Facebookページ「リアルタイムCRM」(2010年に開設したメタデータ社のページ)に掲載するとして、今回のこの前文を最後に、通常連載に戻りたいと思います。

・サッカー関係の落穂拾い的記事
「ツイッター社自身によるハッシュタグ #ワールドカップ のまとめページ」
「応援するチームの国旗を選んで選手や監督をフォローして盛り上がるサービス」

※一気に100人近くフォローしてしまい、W杯終了後「困ったな…」と密かに思われたとき頼れるツール、justunfollowなども紹介しています。よろしければ、“リアルタイムCRM”に「いいね」してやってください。リンク付きのサマリーは、ツイッターアカウント @metadata_inc でも読むことができます。

 ドイツ、ブラジル、オランダ、アルゼンチンのベスト4決定時点で、ハッシュタグ#WorldCupを含むツイートで印象的だったのは下記の集計です。今回の戦績に見られるように、現在のサッカーは欧州と南米の2大陸が強く、特にプロのクラブチームではドイツ、イギリス、スペイン、イタリアをはじめとする欧州が圧倒的に強い選手を抱えていることを如実に物語っていると言えるでしょう。こんな集計も生データの迫力・説得力の一種と言ってよいのではないでしょうか。
@knottystop W杯ベスト4に残った国の所属クラブ別人数
<9名>バイエルン(独)
<5名>フェイエノールト(蘭)、チェルシー(英)
<4名>バルセロナ(西)、マンチェスターシティ(英)、ドルトムント(独)、インテル(伊)
<3名>アーセナル(英)、レアルマドリード(西)、パリ・サンジェルマン(PSG・仏)、シャルケ(独)、ナポリ(伊)、アヤックス(蘭)

有意な仮説の着想と検証に「統計学」では限界

 前回記事・「生データを踏まえた記事の迫力」、前々回記事・「大量の生データから意外な事実が分かった件」
に象徴されるように、生データの迫力や、発見を誘発する力はどこから生まれるのでしょうか?

 特に、少々乱暴な感覚的な結論(「前半、終始押されていた“感じ”」など)や、どうしても検証したい・証拠を見たいと思っていた仮説について、従来よりケタ違いに大きな生データを集計したものが検証を可能にしてくれれば、まさに非常に強力な説得力を持つでしょう。現場の人が何となく感じていた「予断」のようなものでさえ、それらが証明されること、あるいは覆されるのを待っているわけです。

 パラメーターが多数に上り、その値も数百、数千、数万のバリエーションを持っていると、その組み合わせを総当たりすればあっという間に数百万、数億以上の仮説の元が出てきます。それらを統計処理でしらみつぶしにするのも良いですが、果たしてそれが優れた分析に結びつくでしょうか? No(否)と思います。それはいくらビッグデータといっても、本当に99.9%の有意性で結論づけられるほどの網羅性は通常望めないからです。

 例えば、口コミに出てくるトピックやテーマの出現頻度について何か結論を出すことを考えてみましょう。思い切り単純化し、2つの言葉の組み合わせでテーマが語られるとして、10数万の基本語彙、そして数百万、数千万は使われている固有名詞、複合語の類を組み合わせただけで軽く数億〜数10億種類の組み合わせが出てきます。それらが十分多数回出現して、使用頻度に差が出てくるグラフを描くには、高頻度の言葉の組み合わせが数億回出てくる水準までデータ量を「超ビッグ」にして、やっと正しい、揺れないデータが取れるのかなと思います。これがやや悲観的にせよ、まだまだ楽観的にせよ、天文学的スケールを超えたデータ量になります。

 数10億×数億といえば10の18乗という数。新聞1年分が10万記事程度で、1記事が平均10文とすればわずか100万文ですから、新聞記事なら10の12乗(1兆)年分が必要です。このような収集は事実上不可能。集めている間に、数百年程度で言葉の使い方が大幅に変化していってしまうどころか、残り50億年という太陽系の寿命をも遥かに超えてしまいます。もっとも、1億人が毎日書き、話す日本語をすべて取得できればもっと早いし、使用頻度のデータとしては文字通り十分ではあるわけですが。

 ただし、仮にすべての日本語をリアルタイムで収集、分析できても(ちょっと嫌な社会ですね)、昨日今日以前の過去のデータに過ぎません。明日以降はどんな出来事が起きて、どんな言葉の組み合わせが多く(少なく)語られるかという予測には不十分とも言えます。

 このように、有限の装置、材料(単語など)によって無限の発話のバリエーションを生み出せる「言語」を相手に、統計学が全自動で仮説を抽出、発見してくれるものでしょうか? 無理でしょう。

 何の構造モデルも持たず、結論に近い仮説も持ち合わせていなければ、有意な仮説の検証をすることはできません。何か言葉で表現するしかない対象については、少なくとも当面は人間が、鋭い洞察力を駆使して仮説立案と検証をしていくことになるでしょう(脳内の知識の構造は非常に洗練され、かつ2単語の組み合わせに留まらない膨大な使用パターンの情報を持っています)。

 あらかじめ有意差が生まれるパターンの情報があり、その検証方法について仮説を立ててから解析、分析に取り組むことで、有用な発見・検証にたどり着くものと思われます。これは、単純なデータの集計とは著しく違います。

 前々回、前回、そして上述の「単なる集計だけで興味深い」対象を選んだ際にも、どの分類軸で、どんなデータをどう集計したら面白い発見があるか(あるいは現場の感覚を定量的に検証できるか)の予想があったからこそ、首尾よく面白い結果を出せるのではないでしょうか。

何でも「ビッグデータ用ツール」でなくてもいい

 少し視点を変えて、従来のスモールデータの運用、すなわち厳選された社内データを規格・仕様通りにきれいにデータベースシステムに収納し、検索、参照、管理する世界と、ビッグデータ的なツール・手法を対比してみましょう。

 スモールデータ用のツール・手法の具体例については、データウェアハウス(DWH)や、最近ではマスター・データ・マネジメント(MDM)などのキーワードでたくさんの商用製品やサービスがヒットしますので、そちらをご照会ください。

 ここでは様々なツールや手法があるとして、そのすべてがビッグデータ用に使えるのか、そして、使うべきかを考えてみます。下の図のように、多種多数の七徳ナイフやコンパスを駆使し、組み合わせて、データ整備と分析の流れをスモールデータの世界で組んでいたとしましょう。

 HadoopやMapreduceなどのビッグデータ解析向けの専用ツールは確かに、汎用のデータベースシステム、逐次処理のデータ処理プログラムほどの汎用性は持ちません。並列処理をスムーズに行って、どこかでうまく合流させるために様々な制約があります。また、道具の世界で必ずしも「大は小を兼ねない」ように、小規模のきれいなデータを扱うことはかえって苦手だったりもします。

「ビッグ」を解析した後で「スモール」を分析すればOK?

 以前お話ししたかと思いますが、「これこれ以上のデータ量ならビッグデータ」という客観的定義は通常、存在しません。私が好きな定義は、「(その状況、条件で)人間の手に負えないデータ量ならビッグデータ」というものです。

 では、現場には両者が存在するとして、ビッグデータ用のツール・手法と、スモールデータ用のツール・手法をどう組み合わせて使ったらよいでしょうか? 

 素直に考えれば、ビッグデータの集計、解析の結果「スモール」になったデータを、スモールデータ用のツールで精緻に分析すれば良いじゃないか、となるでしょう。

 それを描いてみたのが上の図です。大きな漏斗がビッグデータ用で、その下の小さな漏斗がスモールデータ用。小さな漏斗の上に「i」とあるのは、厳選、吟味され、組織の死命を制するような情報「intelligence」の頭文字とでも解釈ください。

 でも、これでは少し単純化し過ぎのようにも思えてきます。1つ前の図と説明をご覧になると、「あれ? そもそもビッグデータ用のツールでは、全部の生データを処理しきれなかったんじゃなかったっけ?」と思い出します。

 その点を描き加えてみたのが上の図です。下方には5種類の漏斗があって、いろんな種類のデータを各々処理し、違う形で吐き出したり、集約したり、通知したり、配信したりしているイメージ図となっています。入口も、必ずしもビッグデータ解析用の漏斗から出てきたデータだけを扱っているわけではありません。人手でコントロールした別種のデータや、もともとスモールデータだったものも一緒に加えることで、現場の業務フローにおけるデータの流れのモデルを作っています。

 このようなイメージをあらかじめ持っておけば、最新のビッグデータ用ツール群ですべての種類のデータを一様に1つのシステムで扱わねばならないのではないか、とか、その方が効率や費用対効果が高いのではという不安を拭い去ることができるでしょう。

 極論するなら、紙と鉛筆による考察さえもツール群に混ぜておくべきです。実際、ブルーオーシャンを見つけるための経営ツールであるポジショニングマップや、発想のツールであるマインドマップなどについては手書きが奨励されていることをお聞き及びの方も多いかと存じます。

「発見」までのあと一歩を支援するシステム

 ダベンポート教授は、ビッグデータ活用のゴールを「発見」と「業務化」に分類しました。前節の図は、「業務化」をイメージしたものと捉えていただいて結構です。「発見」については、本稿では「発見」と「仮説の(定量的)検証」とに分けて、どちらも等しく重要としています。

 これらのどちらがより難しいかといえば、言葉面の印象通り「発見」の方だろう、という主張に反論する人は少ないかと思います。単に難しいというより、属人性が高い。すなわち分析担当者によってできたりできなかったり、目の前にあるものをそのまま述べた月並みで陳腐な程度に留まったり、天才的な洞察による業界初の大発見ができたり、といったように差が大きくなるものと言えるでしょう。

 では、この属人性を軽減し、誰でもほぼ必ず一定水準以上の面白い発見を得られるようにするために、システムはどのような支援が出来るでしょうか?

 ここで、前々回ご説明したなでしこジャパンのロンドン五輪の試合中のつぶやきを感情解析したグラフを再掲します。


 小鳥のアイコンの右に記したツイート群を感情解析した折れ線グラフが、4本中央に描かれています。さらに、オレンジ色と青色の吹き出しの中には試合中の出来事、事実が淡々と記入されています。この時は、パッケージ製品ではなく、個別リサーチ用に特別に用意したシステムでしたが、今後この吹き出し内容のような外部データ、異種コンテンツと解析結果を並べ、重ね合わせ表示する機能を標準装備する作業を進めています。なぜなら、時間軸という共通軸を用いて、同じ出来事を眺めている人々のつぶやきと、その出来事の内容、属性には本来、因果関係が存在するものであるからです。

 人工知能ではないので、「なぜそうなったのか?」を推論する機能が汎用的に使えるのはまだまだ先のこと。でも、この最後の「なぜ?」という因果関係に気づくという高級な役割こそ、分析官という人に任せれば良いではないですか。そして、何もないところから何かを発想できるような能力には確かに個人差が大きいでしょうが、このように、因果関係が本来含まれていてしかるべき異種データを、時間軸上に結びつけて見せるだけで新鮮な景観が見えてくる。あと一歩考えを進めるだけで、発見が生まれます。

 例えば、右下部分を見て、「ぎゃぁぁ!」「あああ、やられた!」「いやー、やられた!」などのつぶやきのすぐ近くに、「【後半10分】カナダにシュートを決められる」とあった時に、その因果関係を読み取れない人はほとんどいないでしょう。しかし、グラフに目を移して、その際の感情の動きがネガティブに振れるだけでなく、一部の感情がポジティブに振れた(怒り・怖れの類のネガティブが減った)、ということまで素直に読み取れば、それは「発見」です。相手にゴールを決められても、自国選手を罵る、嘲る、といった発言は出てこないという、ある意味、意外な分析を行うことができます。

 このあたり、100%誰でも発見ができるとまでは保証できなくとも、99%の発見率に近づけるような分析マニュアルを作ることは十分可能でしょう。※実はメタデータ社では、そのような分析マニュアルを既に創造し保有しています。

 以上、やや抽象化した議論となったため、イメージ図を多用したりしました。また最後に具体例を追求した結果、再びサッカーの試合を分析した例に戻ってきてしまいました。なかなか最先端の分析論、今後あるべきツールの要求仕様を語るのは難しい、ということで、今後も時々サッカーの話を出すかもしれませんが、引き続きご容赦、ご笑覧いただけたら幸いです。

タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2014年12月26日

W杯で楽しむデータ分析の妙味

本稿は、6/20(金)の日本対ギリシャ戦が終わった直後にまとめ、第3試合の対コロンビア戦が終わった時点で、この前文のみ書き直しています。下記本文をお読みになった上で、
「日本 対 コロンビア」
を眺めてみてください。

 いったんは冷静に敗戦を受け止めたサポーターも、「なぜ、こんなに日本が攻撃的サッカーで優勢に試合を進めていたのに大敗したのだ!?」と驚くような数字とグラフが目に飛び込んでまいります。この乖離を徹底分析することで、今後の勝利につながる活路が見えてくるのではないでしょうか。

 以下、ビッグデータ時代のW杯ならではのデータ分析を楽しめるウェブサイトなど、いくつかの興味深く新しい試みを眺めてみたいと思います。ビッグデータが単なる話題から、日常生活にビジネスに浸透しつつある様子を感じとれるのではないでしょうか。

勝敗要因分析もビッグデータ時代の流儀で

 前回2010年のW杯時点では存在しなかったメディア、サービスに、ハフィントンポスト日本版(2013年5月〜)があります。2014年2月にブラジル版を出し、現地取材で詳細な生データを取ることが可能になったせいか、試合中のデータを集計した結果を淡々と掲載しています。それらのページのタイトルは実にシンプル。対戦した2国名を並べているだけです。

「コートジボワール 対 日本」

「日本 対 ギリシャ」

 一番上に、支配率、シュート、クロス、コーナーキック、ファウルの数が対比され、大きい数字が太字になっています。対コートジボワール戦は支配率58%、シュート21、クロス23、コーナーキック8。ファウルのみ日本が1つ多い13。対ギリシャ戦では、日本が支配率なんと81%、シュート18、クロス25、コーナーキック5 (ギリシャ7)、ファウル23と苦闘ぶりが要約されています。続く「試合経過」には、パス成功本数、シュート失敗、得点、カード(イエロー、レッド)、選手交代が時系列上にプロットされています。

 驚いたのは「プレイヤーポジション」(下の図)。試合中の各選手の「平均位置」がサッカー場の上にプロットされ、その各2選手間を結ぶ線分の太さで、パス成功本数を図解しています。日本の初戦では、日本がコートジボワールに押されていたことが一目瞭然です。


 コートジボワールがフォワードの選手を中心に相手側コートに踏み込んでいるのに対し、日本選手はコート中央付近でせき止められています。

 日本を示すグラフは、ザックジャパンが目指した攻撃型サッカーではなく、伝統的な侍ジャパンの、守備を固めて少ないチャンスを狙うサッカーではないか、と見えます。すべての生データを処理したこの図が、試合の勝敗要因を如実に表しているとさえ言えましょう。

 ちなみに、対ギリシャ戦のプレイヤーポジションはこうなっています。


 81%もの時間、ボールを支配していた日本が押している様子(平均位置が敵陣の選手が8人。ギリシャは4人)が分かります。

 さらに、シュート(失敗/得点)の位置をプロットした図、各選手の位置と動き、パス成功率、セーブ数、ハイボールキャッチ数、タックル、インターセプト回数、ドリブル数、カード(イエロー/レッド)、についてはリンク先をご参照ください。勝利に貢献した選手、敗因となった選手の動きが集約されています。これによって、人間の主観による総合的印象や各選手の評価が検証されたり、逆に権威ある解説者の勝敗要因分析が覆ることもあるかもしれません。

 これはわがままな要望ですが、上記の図上の点や線の上をクリックしたら、当該場面のショートビデオ画面がポップアップして再生されてほしいと思いました。異なる角度、拡大率の動画を全パスから、ボールに関わっていない選手の動きまで全部とらえたら数万、数10万本のショートビデオを正確にリンクすることになり、手動では到底コスト的に見合わないでしょう。自動認識結果を保存して、関連コンテンツへの紐づけにすべて反映されるような“賢い”システムを構築することが今後求められていくでしょう。

生データを踏まえた記事の迫力

 生データを忠実に集約した結果を基に試合を総括し、意見を述べている記事もいくつも出ています。

「ワールドカップ日本代表の敗因は何か? データで浮かび上がる「コートジボワールの秘策」

 おそらくハフィントンポストから、部分集計結果などより詳細なデータの提供を受けているのでしょう。前半15分までのコートジボワール選手の平均位置とパス回しを図解して、次のように事実を踏まえて“慎重なゲーム運び”とコメントしています。

 “コートジボワールはジェルビーニョが前に残る形。ボランチとセンターバックが回し合う形で、コートジボワールもまた慎重にゲームに入っている。”

 日本先制後15分〜30分の間の日本選手の平均位置とパス回しを示し、この時間帯こそが日本らしい試合運びをできていたことを、図を根拠に示します。

 “先制後、日本にエンジンがかかる。吉田麻也を起点に香川、長友、本田らがパス回しに加わる。長谷部、山口はやはり慎重な位置取り。日本がもっとも「らしかった」時間帯。”


 説得力がありますね。ビッグデータの解析結果、集計結果を引用しつつ、短く的確に分析レポートを執筆する際の参考にしたいような文章です。以下、ピンチやチャンス、「ドログバ投入以降から逆転まで」何が変わったかを見事に視覚化してくれます。生データ集計結果が圧倒的に雄弁であることを思い知らされます。

ヒトが「なぜ(Why)」を考える、さらに深い分析

 さらに踏み込んだ深い分析は、さすがにその道の専門家、サッカー取材のプロによるものに求めることができました。

「日本 初戦で逆転負けの要因は」

 「なぜ(Why)」にまで踏み込んだ分析には、いったん生データから離れ、集計結果から全体を俯瞰した上で、価値判断、重要性の評価により個々の要因の重み付けから選択、切り捨てを行う必要があります。こうして得られた仮説をインタビュー等によって検証し、その証拠付きで提示する必要もあります:

 “左サイドバックの長友選手は、「ボールを回されてかなり体力を消耗してしまった。コートジボワールはフィジカルだけではなく技術があるし、組織のレベルも高かった」と振り返りました。”

 これらができるのは、少なくとも当面は人間の専門家だけでありましょう。このように、比較的事実に忠実なレポートと、「なぜ(Why)」にまで踏み込んだレポートを対比し、参考にすることで、企業が自社ブランドのマーケティングの反響から分析するプロセスの確立に役立てることもできそうです。たかがサッカー記事、と侮ってはいけません。

ソーシャルメディアの大量コメントを楽しむ

 一方、エンタテインメントに徹して、ソーシャルメディアにあふれる独断と偏見による意見をあれこれ読む、というのも楽しいものです。

 「監督の猫の目采配が悪い」といった伝統的な解説記事を長々読まされるとストレスを感じることがあります。ツイッターの書き込みのように、著名人や知人の独断と偏見を簡潔に、かつ大量に読めると、それはそれで多面的な価値観や多彩な表現力に感心し、彼らの心象風景を追体験できる上質なエンタテインメントとして味わうことができます。同じ時間で、より大量に、多彩な情報を受け取れないと脳が不満を示すようになったのかもしれません。「ビッグデータ×ソーシャル」の時代ならではの変化と言えそうです。

「ワールドカップ日本代表、専門家はギリシャ戦をどう見たか Twitterまとめ【第2戦0−0】」

予測はどうなったか?

 前回引用したBloombergによるW杯直前の予想では、決勝選がブラジル対スペインとなっていました。予選リーグのポイント獲得予測が、コロンビア 5.5→7.0、 コートジボアール4.2→4.1 、ギリシャ3.2→3.1 日本 3.5→2.0 と変化しています。


 敗退したスペインに代わって、アルゼンチンが決勝選でブラジルの対戦相手となり、準優勝との予想。

 これら、ポイント算出のアルゴリズム(計算手順)を是非見てみたいと思います。探しても見つからなかったので、ご存じの方は是非ご教示ください。どこかで人間の専門家による修正過程が入っていても結構。そのルールも含めて、企業におけるビッグデータ分析、その結果の解釈と、意思決定に活かすプロセスの設計のために非常に参考になる気がします。

データの視覚化にはこんな用例も

 東北大学工学部情報知能システム総合学科で自然言語処理を担当する乾健太郎教授の研究室のネガポジ判定APIを使った、朝日新聞のつぶやきリアルタイム分析グラフのページが頑張っています:

 1分間を1秒に加速して、その間のツイート(ツイッターのつぶやき)のネガポジ比率を円グラフに表現したゴージャスなアニメです。

 「日本、よくボール回る」の瞬間のポジティブ比率も高いですが、「惜しくもシュートはずれる」の類の時にも、有意にポジティブ比率が高くなっています。一昨年、メタデータ社が、なでしこジャパンの試合のデータ分析で発見した知見の正しさが、ここでも裏付けられました。

 大量テキストから面白い集計結果が得られるのは、ソーシャルのデータばかりではありません。国内のほとんどのTV番組の情報を書き起こしているエム・データさんが、W杯開幕前1カ月間にTVに登場した選手の登場回数ランキングをFacebookページで発表してくれています:

「もっと見る」のリンクを押すと、下記がでてきます

******

【W杯】大会前報道回数ランキング

■日本代表編
1位 本田圭佑 (479回)
2位 香川真司 (385回)
3位 大久保嘉人 (348回)
・・・

 エム・データさんは、こんな名前の団体の会長企業であり、TVメタデータを軸にしたコンテンツ連携の付加価値を梃子にビジネスをされているユニークな企業です。

第5回 NPO法人日本メタデータ協議会主催 カンファレンス
 『テレビ発。メタデータサービスの現状と未来』

 エム・データでは30人ほどのスタッフが常駐し、分担してTVを見て、画面に映った物体の名称から何から、メタデータとして役立ち得るものを片っぱしから入力しまくっている、と聞きます。ちょっと目からウロコの発想。デジタルTVのコンテンツ制作で、複雑にからむ権利関係を解きほぐし、上流のデジタル・メタデータが下流に素直に流れてきてくれたとしても、それですべてのTVメタデータがカバーできるわけではありません。

 例えば、画面の背景左にスカイツリーが美しくぼやけて映っている、などのデジタル・テキストデータは制作現場には元々存在していないはずです。このようなデータが書き起こされることで、関連コンテンツの自動検索や、必要部署への自動配信が可能となり、ますます大きな価値をもたらしてくれるようになるでしょう。

 エム・データさんのTVメタデータ活用といえば、「ミスター・デジタルアーカイブ」、「ミスター・ビッグデータ」、「ミスター3D視覚化」、などなどの称号が相応しい、首都大学東京・ネットワークデザイン研究科の渡邊英徳先生の研究室が、素晴らしいビッグデータ可視化アプリを先日発表しています。


 「続:マスメディア報道の空白域をビッグデータで可視化する」


 このハフィントン・ポスト記事の中で、弊メタデータ社のAPIに触れています。TVメタデータから地名を抽出しているのが、弊社の「5W1H抽出API」だからです。各局ごとの報道地域の図示や、減災リポートと重ねて表示することにより、傾向を一目で把握する一助となっています。目に美しく意味の把握しやすい、文字ビッグデータ可視化の最先端の姿。


 首都大学東京ネットワークデザイン研究科渡邊研究室では、3、4年前から、弊メタデータ社のネガポジ・感情解析APIを使って、優秀論文賞、マッシュアップアワード準優勝などを獲得しておられます。コトバノキが有名ですが、他にも、歌詞の感情解析の結果から、明るい、暗いメロディーを自動作曲するなど、SF的なアプリ作品も誕生しています。

ソーシャルでは「半構造データ」が激増中

 ツイッター、Facebook以外にも、写真共有のInstagramや、ビデオアートのVimeoなど、様々な専用メディアがソーシャルの仕組みで隆盛を誇っています。


 この画面は、FIFA公式のInstagramページです。Instagramはもともと、スマホなどで気楽に撮影した写真をアート調、セピア調などに大胆にその場で加工して投稿し共有するためのサービスでしたが、気軽に作って味わえるお洒落さが、品位を維持・向上したいFIFAのお眼鏡にかなったということでしょうか。

 いずれにせよ、前回2010年のW杯の時点では存在すらしていなかったInstagramのような仕組みを使って、マスメディア経由と比べてケタ違いに大量のコンテンツを提供し、それを介してファンとの国際的な交流をFIFAが図るようになったのは注目に値する動きでしょう。

 画像や動画に限定し、自動編集されることを前提に一定のお作法で書きこまれたキャプション(説明テキスト)などの「半構造データ」が激増し、これまたビッグデータを形成しています。これらコンテンツは、時にTVメタデータを介して、またはテキストからの5W1H(イベントのメタデータ)抽出を介して、健全にビジネスに応用され、消費者やアプリ・ユーザーの娯楽、ひいては幸福増大に貢献できる日を待ちわびているように思えてなりません。

 チャンスは目の前にたくさん転がっています。今後も、時にスポーツ関係のビッグデータ活用にならって、コンテンツの権利関係や個人情報保護に留意しつつ、ビジネスへの応用を鋭意考えていきたいと思います。そして日本発のビジネスモデルの存在感を世界に示していけたらと考えます。

タグ:ビジネス
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business

2010年04月13日

iPad 触りました! 大ブレイクの予感

   昨日午後から、弊メタデータ株式会社の臨時株主総会を開催。引き続く取締役会に新たに加われた社外役員さんが、「米国帰りの社員にもって帰ってきてもらいました!」と、取り出したのがなんと iPad !  
 
  早速触ってみました。ニヤニヤを抑えることができません:
 

  くるくる回してみたら、画面が素早く回転していきます。それを止めるロック・スイッチが、1辺にあります。
  最初のメニューや入力画面は、予想通り、手元のiPodTouchとよく似ています。触ってみて初めて「へぇー!」とびっくりしたのが、画面正面下部の丸い黒いスイッチ(角の丸くなった白線の四角が描かれてるやつです)。これが、iPodTouchのものと全く同じサイズと、触感、押下感なのです。iPodTouchかiPhoneに馴れた人にはこれで良いでしょうが、マシン全体のバランスを考えると、もう少し大きめのボタンにした方が良かったかしれません。
   画素数は相当多いはずなのに、動作はきわめて軽快。初代iPodTouchの数倍は速い感じでした。さすが、CPUメーカを買収してGHz級のチップを投入しただけのことはあります。
 全体に非常に頑丈な印象。比べちゃうと600g台のノートPCなんかはペラペラの壊れ物で、おっかない気がします。しかし、高密度で重量感もある(持ち歩くと軽いのですが)ので、「1mの高さから落っことしたらどうなるだろう」と心配も出てきました。→他人の所有物なので、実験するわけにはいきません。
  数分触っただけなので、体感の感想は以上です。総じて、写真や動画で見たより好印象で、「これは使わねば!」という気にさせられます。純粋に新しいフィーチャーは少ないはずなのに、斬新なソフト、コンテンツが出てくる予感がしました。例えば:
鳥肌が立つ未来の電子書籍、Alice for the iPad
  セミ動画というのでしょうか。イラストや絵の内部の一部だけ動いたり(栃木のトリックアートミュージアムや、ハリーポッターのホグワーツ魔法学校の校舎内を思い出します)、といったアプリがどこまで流行るかはわかりません。でも、子供の絵本は大きく変わってきそうです。
  では、お年寄りはどうでしょう。こちらは弊社社外取締役で慶應大学名誉教授の齋藤信男先生で、1人で何台ものコンピュータを毎日使っておられるので、決して本人のことではありませんが、「これはPCが使えなかった高齢者の多くが使えますね」と発言されました。その通りだと思います。
 
 
  やはり、百聞は一見にしかず。実機を触ったことで、iPad上でのメタデータ連携、活用のアイディアもいろいろ出てきました。ごちゃごちゃした操作メニューを嫌うマシンがメジャーになればなるほど、コンテンツ間の自動連係、レコメンドなどのニーズは高まります。より良い未来を向いて鋭意仕事をするぞーっ、と決意を新たにしました。
   追記です。本当に猫でも使えるiPad!!

iPadで遊ぶ猫:
http://www.youtube.com/watch?v=Q9NP-AeKX40&feature=player_embedded

 

カテゴリー: business, social, semantic

Good!獲得数: 66

アクセス: 6450
 
 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2010年03月24日

情報大航海から次世代パーソナル推進コンソーシアムへ

 
自然言語処理応用、新しい画像インタフェースから、身にまとうセンサーや携帯の位置情報の出すメタデータをオンライン、リアルタイムで連携する様々なプロトタイプまでを生み出してきた情報大航海プロジェクトが年度末で閉幕します。
その成果を発展的に継承し、産業応用、新市場開拓に結びつけるべく、明日、経済産業省に以下のメンバー企業が参集して、一種の「引き継ぎ」を行ってまいります。

 【会議名】成果展開会議
【日  時】平成22年3月25日(木) 10:30〜11:30
【場 所】経済産業省 本館2階2東6共用会議室
【議事(案)】
     1.開会                  
     2.挨拶    
     3.パーソナル情報検討ラウンドテーブルの成果について
     4.次世代パーソナルサービス推進コンソーシアムの制度検討について
     5.総括               
      6.閉会


【ご参加企業(予定)】 ※順不同
ネットレイティングス株式会社
ビットワレット株式会社
株式会社イベントバンク
楽天株式会社
株式会社博報堂
インディゴ株式会社
株式会社DRUM
株式会社サーベイリサーチセンター
凸版印刷株式会社
デジタル・アドバタイジング・コンソーシアム株式会社
東京大学空間情報科学研究センター
情報セキュリティ大学院大学
ニフティ株式会社
富士通株式会社
株式会社タクサシステムズ
株式会社フライトシステムコンサルティング
株式会社ピコラボ
NECビッグローブ株式会社
株式会社シリウステクノロジーズ
株式会社NTTドコモ
メタデータ株式会社
アムドクス・インタラクティブ
株式会社キューデンインフォコム
三菱電機株式会社
株式会社ぐるなび
株式会社NKB
 

連続して、 同じメンバーにより、次の会合です:

【会議名】次世代パーソナルサービス推進コンソーシアム
ワーキンググループ活動報告会
【日  時】平成22年3月25日(木) 11:40〜12:30
【場 所】経済産業省 本館2階2東6共用会議室
【議事(案)】
     1.開会・資料確認
2.平成21年度制度検討ワーキンググループ活動報告および
 平成22年度制度検討ワーキンググループ活動計画
3.平成21年度サービス検討ワーキンググループ活動報告および
 平成22年度サービス検討ワーキンググループ活動計画
4.平成22年度技術検討ワーキンググループ活動計画
5.事務局連絡
6.閉会

 たとえば、SNSやTwitter上に溢れる、個人情報入りのメッセージ、行動情報から、個人情報のみ適宜自動でマスキング(「適宜」とは、k-匿名性という、個人をk人未満には特定できないようにDBを照合しながら自動で部分マスキングするような処置です)することにより、きめ細かなリアルタイム・マーケティング用のデータがとれたりします。行き着く先は、マイノリティ・リポートの映画の世界かもしれませんが、今後のビジネス、マーケティング活動は確実にこの方向に向かうでしょう。

 携帯デバイスがセンサーとして、且つ、人々の行動、発言に影響を及ぼす情報アクセス機器として、個人の行動にますます大きな影響を与えて参ります。こんな環境下でも、プライバシーを守り抜き、よりノイズの少ない、ニーズとピンポイントのマッチングを果たすべく、セマンティック技術カンパニーとして、上記「同志」の法人様達と連携して奮闘してまいる所存です。

 
by nomuran こと メタデータ 野村直之
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2010年03月15日

3/16- XMLセキュリティ、XMLとサービス、気象庁防災情報XML

 
今週はXMLコンソーシアム最終講演のパート2です。

またしても直前のご案内となりすみません。
16日午後は、私もIBM箱崎にて、下記を聴講いたします。

http://www.xmlconsortium.org/seminar09/100310-11+16-18/100310-11+16-18-info.html

 13:00-14:00 セキュリティ部会
-----------------------------
概要:
XMLセキュリティ技術の活用に焦点を当てて活動してきた成果を報告します。
暗号化・電子署名を始めとするツールの種類と利用方法および注意点。そしてXML署名については世の中の利用事例も報告します。

「セキュリティ部会活動報告」
松永 豊(東京エレクトロンデバイス)

「XMLセキュリティツール/製品調査報告」
林 正樹(富士通)

「互換性、課題と対策:暗号化/署名ツール検証報告」
大沼 啓希(日本IBM)、宮地 直人(ラング・エッジ)

「XML署名事例調査報告」
宮地 直人(ラング・エッジ)
 
-----------------------------
14:10-15:40 XML設計技術部会
-----------------------------
(1)XML設計技術講座開催結果報告
昨年の勉強会を引き継ぎ、今年は XML設計技術講座を開催しました。本講座の要とともにXML設計技術の学習方法をご紹介いたします。

(2)類似XMLメッセージ間の変換方法を検討して
気象庁防災情報XML(JMAXML)メッセージをCommon Alart Protocl(CAP)メッージに変換する方法を検討しました。検討をとおして得られたXML設計時の慮点をご紹介いたします。

-----------------------------
15:50-16:50 招待講演
-----------------------------

産業技術総合研究所 社会知能技術ラボ長 橋田 浩一様 「サービスの価値を相互運用する技術」
価値の高いサービスを実現するには、ステークホルダの間での目的と関連情報の共有による共同作業が必要ですが、実際にはそのような条件が整っていないケースもしばしばあります。サービス科学の観点から、データとサービスの相運用とそのための研究や標準化のあり方について考えたいと思います。

-----------------------------
17:00-18:30 パネル「社会とビジネスの明日を支えるXML」
-----------------------------
基調講演のテーマでもある「IT、ネットの技術の今後10年、社会とビジネスにどのようにインパクトを与えるか」を中心の論点に据え、XMLの歩みを振り返将来展望を交えて、産業界と学術界の識者が語り合います。

パネリスト(50音順):
小川 豊様(日本ユニシス 執行役員 総合技術研究所長、XMLコンソーシアム理事)
新 誠一様(製造業XML推進協議会 運営委員長、 電気通信大学 教授)
橋田 浩一様(産業技術総合研究所 社会知能技術ラボ長)
村上 敬亮様(経済産業省 産業技術環境局 地球環境対策室長)
山本 修一郎様(名古屋大学教授、前XMLコンソーシアム理事)
和田 芳明様(日本銀行金融機構局 金融データ管理担当総括 企画役、 XBRL Japan会員、XBRL International理事) モデレータ:
和泉 憲明様(産業技術総合研究所 社会知能技術ラボ主任研究員)

 
3/17-8は、 気象庁防災情報XMLを使った実証実験の報告です。とくにこちらにご注目を:

14:50-15:20 次世代Web活用部会
--------------------------------
次世代Web活用部会では,次世代の検索技術の1つとして意味を解釈する検索を実現する方法を検討しています。今回は雨の言い回しに関して,地方毎に異な雨量を対応させる方法として,セマンティックWeb技術を利用した実装の試を紹介します。

小林 茂 (日本ユニシス)
西 一嘉 (東芝ソリューション)
湯本 正典(日立システム)

当日のwalk in受付も可能です。どうぞよろしくお願いいたします。

 

 

 

カテゴリー: Mextractr, business, social

Good!獲得数: 9

アクセス: 907

 
 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2010年03月09日

3/10- XMLコンソーシアム最終講演 

 
先週金曜、5日のセマンティックWebコンファレンス2010は、多数のご来場、ありがとうございました。
本コーナーを読んでくださっている方々からも、100名くらいは来ていただいていた感じでした。
 Linked Object Dataによって、「こんどこそ!」常識ベースをボトムアップにつないで形成していきたい、という武田先生の熱い思いも感じ、いろいろ勉強になりました。まずは、御礼を兼ねて、当日の講演資料のご案内です:
◆「セマンティックWebコンファレンス2010」
http://s-web.sfc.keio.ac.jp/conference2010/index.html
予稿集ページ: 
http://s-web.sfc.keio.ac.jp/conference2010/proceedings.html
5. パネルディスカッション「セマンティックWebとLinked Open Dataクラウド」
野村 直之 (メタデータ株式会社)のパネル発表資料:
http://s-web.sfc.keio.ac.jp/conference2010/0404-nomura.pdf
 

3/10- XMLコンソーシアム最終講演 

 いま、 OSSコンソーシアムの運営委員会に出席しています。こちらは、一足早く昨年、Linuxコンソーシアムが10周年を期に発展解散して発足した団体です。
 XMLコンソーシアムが発足して10年たちました。昨今もクラウドなど、基盤層(誤解を恐れず書けば「下層」)でも十分まだまだ議論が必要なところもありますが、節目でもあり、発展的解散を目指して、今月でお開きとなる予定です。
 最後のセミナーシリーズを下記の要領で開催いたします:
・3月10日(水)-11日(木)、3月16日(火)-18日(木)
 第9回XMLコンソーシアムWeek
http://www.xmlconsortium.org/seminar09/100310-11+16-18/100310-11+16-18-info.html 
初日のアジェンダ作りと司会など担当しましたので、下記の通りご案内させてください。 
※遅すぎたご案内をお詫び申し上げます。 
 斎藤先生@W3C Associate Chairの講演が今から楽しみです。
=========================================

テーマ
=========================================

「社会とビジネスの明日を支えるXML」

=========================================
スケジュール
=========================================
-----------------------------------------
3月10日(水) 会場:日立ソフト(品川シーサイド)
-----------------------------------------
-----------------------------------------
13:00-14:00 基調講演:
「IT、ネットの技術は今後10年、社会とビジネスにどのようにインパクトを与えるか」
-----------------------------------------
斎藤 信男様
慶應義塾大学名誉教授
W3C Associate Chair for Asia

----------------------------------------

14:10-17:10 次世代Web活用部会
----------------------------------------
概要:
XMLコンソーシアム発足以来、基盤技術部会/テクノロジー部会のセマンティックWeb WG、ドキュメント・メタデータ活用部会Web2.0部会、そして最終年に世代Web活用部会として、アプリ寄り、先端的なXML、Web活用の動向を一貫して追及した軌跡を、本部会で活動してきた中心メンバーによるパネル討論形式で振り返り、今後を予想します。


=======================================
会場のご案内
=======================================
 日立ソフトウェアエンジニアリング 本社
 〒140-0002 東京都品川区東品川四丁目12番7号
 http://hitachisoft.jp/company/map_honsha2.html
 最寄駅:
  りんかい線 『品川シーサイド駅』より 徒歩1分
  京浜急行線 『青物横丁駅』より 徒歩8分

 

ps いまから決断され、ご来場された方、先着1名様に、
 先週5日金曜日のセマンティックWebコンファレンス予稿集
   
  の冊子を差し上げます。200部しか存在しない貴重品です。;-) 
  奮ってご参加ください。
 
 
 
   

カテゴリー: business, social, semantic

Good!獲得数: 23

アクセス: 9642
 
 
 
by nomuran こと メタデータ 野村直之
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2010年03月03日

『個人情報99』、『有害情報99』、3/5 慶應三田でご紹介

 
 ここのところ根を詰めて、標記ソフトウェアの提供へ向けて準備してまいりました。
これらは、情報の内容に踏み込んで解析し、人間による意味解釈の手間を軽減するセマンティック技術の産物です。

『個人情報99』 と『有害情報99』

メタデータ自動抽出エンジンがコアにあり、個人情報を識別して様々に処理・加工するAPIをもつ『個人情報99』紹介文を、インプレスのEnterprise Watchさんが簡潔に書いてくださいました:
メタデータ、個人情報を自動判別し伏せ字にする「個人情報99」など‎ -
 メタデータ株式会社は3月3日、フィルタリングソフト「個人情報99」「有害情報99」を発表した。同日より提供を開始する。 個人情報99は、文章内容を解析し個人情報を判別するフィルタリングソフト。テキストデータから個人名や住所といった個人情報を自動で、、

 個人情報99
 http://www.metadata.co.jp/privacy99.html

 『有害情報99』についてもポイントをおさえて書いてくださっています。
 有害情報99は、文章内容を解析し有害情報を判別するフィルタリングソフト。有害表現オントロジーを複数備えることで、高精度な有害情報検出を実現。また、文体適合システムを利用することで、コミュニティ内の文体にあわせた解析を行うこともできる。サーバー導入タイプとSaaSタイプを用意。

 有害情報99
 http://www.metadata.co.jp/yugai99.html

 日刊工業さんは、ほぼ全文を、丁寧にご紹介してくださいました:
http://www.nikkan.co.jp/newrls/rls0303o-07.html
 是非、図入りでご覧いただけたら、と思います:
http://www.metadata.co.jp/pdfs/Joho99-Metadata100303PressRel2.pdf
 

セマンティックWebコンファレンス2010

  慶應義塾大学SFC研究所主催のセマンティックWebコンファレンスが今年もやってまいりました:
http://s-web.sfc.keio.ac.jp/conference2010/
今年のテーマ、LODクラウドには疎いので、大部分の時間は、展示コーナーで本日発表の『個人情報99』『有害情報99』をご紹介させていただく予定です。自由に触っていただけますし、関連資料も贈呈いたします。
メタデータ株式会社
『個人情報99』『有害情報99』
[概要] 高精度な内容フィルタリング・ソフト,『個人情報99』,『有害情報99』を中心に,ご紹介いたします. 対象サイトごとに異なるフィルタリング・ポリシーや文章の特徴に応じて半自動収集した有害表現オントロジーを活用.文体学習可能な高精度な係り受け解析(中高生の携帯書込みから中高年の論文まで)や住所の文法,日本人の姓・名を数10万搭載した辞書,文脈内の名簿管理(未知語の意味を推定)等により実用性を高めました. 昨年展示の『メタデータ自動抽出ソフトウェア「Mextractr」』は,日付・曜日の対応誤りチェック,訂正機能を備え,進化しています.
 
 最後の時間帯は、慶應理工学部の非常に優秀な学生さん@弊社で時々仕事してもらっている、にお任せし、下記に登壇いたします。
 
16:30−17:55 パネルディスカッション「セマンティックWebとLinked Open Dataクラウド(LODクラウド)」
モデレータ: 萩野 達也 (慶應義塾大学 環境情報学部)
パネリスト: 武田 英明 (国立情報学研究所)
野村 直之 (メタデータ株式会社)
乙守 信行 (株式会社MetaMoJi)
細見 格 (日本電気株式会社)
長野 伸一 (株式会社 東芝)
主にビジネスの観点から聴き手、突っ込み役に回る予定です。
 
なお、 http://twitter.com/nomuranでつぶやきました通り、今ご案内してもご参加いただけなくなってしまいました:
 申込み締め切られていました。 すみません。;_;  この申込ページが実に情報性があり、セマンティック技術の導入や普及に関する背景や問題意識が垣間見えるもので有用でした。これも閉じていたのでキャッシュをご紹介です:http://bit.ly/dCndoJ 
 パネルやりながらつぶやけるか、、挑戦してみますね。
では!
 
 
 


 

カテゴリー: Cloud, Mextractr, business, semantic

Good!獲得数: 11
アクセス: 1285

 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2010年02月14日

リアルタイムに意味内容を伝えてくれるから有用で面白い

 
ご賢察のように、Twitterのことです。
 最近ハマってます。学会中継もやりました( #KM11 )。生活や仕事に影響出ている、、と言わざるを得ません。でも、ポジティブに評価すると共に、次々と気がつく「ここをこうしたらもっと便利。楽しい。」というあたりをセマンティック技術でなんとかならないかな、と考えたりしています。
 スポーツ選手は基本、有名人です。その彼らの日常、、いや本番の直前直後(さすがに本番の最中は無いだろうなぁ)の視点、真剣勝負の緊張感を共有できるとあっては、面白くないはずありません。
その意味で、ねおさんによる公式アカウント集は圧巻です:
Vancouver 2010 Winter Olympics
 

NHKもダダ漏れだぁ! 

↓このダダ漏れは素晴らしいです。
「バンクーバーオリンピック ライブストリーミング」 〜日本国内で生放送されない競技を中心に、国際信号をライブでお届けします。
 http://www9.nhk.or.jp/olympic-streaming/
 NHK広報局   NHK_PR  実況や解説はありませんが、逆に、本当にそこで見ているような感じがします。 QT @NHK_PR: RT @NHK_olympic: 【【ライブストリーミング】リュージュ 男子1人乗り 前半をお届けしています! http://bit.ly/bBvwuz #nhk_olympic 
  広報担当ご自身が上のように書いている、まさにその通り。何の音声解説も無いことが、こんなに迫力、臨場感を生み出す、というのは予想以上でした。
 特設アカウントからは、リアルタイムに勝負の状況のサマリーが告知されてます。
NHKバンクーバーオリンピック   NHK_Olympic  【ライブ情報】女子モーグル予選 里谷多英22.15点 現在10位 村田は予選通過 http://bit.ly/9avnOU #nhk_olympic 
 これをもとに、TVを点けるかどうか、判断する人が増えているようです。今回の五輪で初の現象、といえるでしょう。
  1. NHKバンクーバーオリンピック   NHK_Olympic  【ライブ情報】女子モーグル決勝 里谷多英12.85点 第2エアーで転倒 あぁっ残念.. http://bit.ly/9avnOU #nhk_olympic 
事実だけでなく、感想(感情)、コメントさえも簡潔に流されている。
そして、忙しい人のためにか、ハイライトシーンが準リアルタイムで編集され、Webでクリッカブルになっている!
NHK_Olympic 【サイト紹介】女子モーグルなど午前中に放送した競技動画を公開しました #nhk_olympic
http://www9.nhk.or.jp/olympic3/

TV欄、番組案内は「形式」:項目名のみ 〜見ようか決められなかった

  改めて、Twitterは何故面白いのか、考えてみます。表面的な現象としては、みんなで盛り上がる雰囲気、お茶の間の連帯感が日本中、世界中に拡がるから、みたいに、よく言われます。生中継が長時間連続するオリンピックなら、まさに体感しやすいことであります。
  もう少しシビアに時間の使い方の判断を迫られる状況で、なぜ有用か、考えてみますと、普通のTV欄のように「女子モーグル予選」とだけ書いてあっても、それを見るべきか判断する材料、意味内容がまるで不足していたことに気づきます。「自分にとって、今見る価値があるのか?」→例えば応援している選手が好成績を出しつつあれば、見る価値も上がるのではないでしょうか。
 正直、昨日深夜のジャンプ競技ノーマルヒルは、【日本選手が活躍してくれれば】 見たかったものでした。デジタル番組表をクリックして、生中継を録画。朝、60倍速で再生し、「あ、成績ふるわなかったのね。国際映像で、あまり大写しにされてないし。」で終わり。1分眺めて消去して終わりです。
 しかし、短く、「里谷早ぇー!」というフレーズが目に飛び込んできたらどうでしょう? とたんに「自分にとって見る価値ある意味内容だ。重要性が増している。今見ないと、『どうなるかな?上位に食い込めるのかな?』というワクワクどきどきがバカみたいで意味なくなる(旬でなくなる)から大画面を点けようか。」という気にもなります。
 きっかけとしてのサマリーの効果を超えて、「結果を知っちゃうと楽しみがなくなる」という域に達し、Twitter自粛すべし、という意見を出された方もおられました:
  1. Zhi-Ze zhi_ze Twitterは録画派には最強の敵ですよね。 RT @ru_ru_ru: twitter恐るべし。オリンピックの実況や結果でタイムラインがネタバレの嵐だよwww生中継で視聴してる時間以外、twitter自粛しようかな・
  より多くの人の心を掴み、インパクトが大きかった出来事については、自分がフォローしている人々から、打ち寄せるさざ波のようにツイートが寄せられます:

  1. shundora   ああーもったいない。おしい><。怪我大丈夫かな?
  2.  hellhammer_shin  あー里谷転倒...。
  3. nobmizz  ★僕のTL悲鳴だらけ。 #golin #followmejp #sougofollow
  4. a2yuki  里谷ーーー、良かったのにーーー、残念! #nhk_olympic #olympicjp
  5. sundaymel  うわーー!たえちゃーん!!  #nhk_olympic #gorin #isspo
  6. hujimiya 残念
  7. isoidev  里谷あああああああああ…
  8. yamaji  日本中が「あーーーーーーーーーーーー」

 これらを「まとめ」る意図か、よくつぶやかれた単語を、おそらくボットが自動で、下記のように「里谷 といえば」という書き出しで凝縮してくれるアカウントも登場しました:
 鮮度抜群のつぶやきを単語で巡る  t_cloud 里谷 といえば、 里谷、10位 里谷多英 多英 #olympic スピード #olympicjp エア 要素 期待 愛子 1 tps http://j.mp/dpFMjJ
 
  形式から意味内容へ。超ウルトラ鮮度の高い情報配信・共有の時代が突如訪れたような五輪鑑賞体験でした。
 

カテゴリー: business, social, semantic

Good!獲得数: 41

アクセス: 1294
 
 
by nomuran こと メタデータ 野村直之
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2010年01月29日

2010年はソーシャルを支えるセマンティックか

 

学会研究会もソーシャル花盛り

 本日は、情報処理学会の自然言語処理研究会&情報学基礎研究会の合同研に久々に出席しました。オフィスから徒歩圏内で助かりましたが、内容は1年前よりずっと充実している印象。ソーシャルメディアの解析が大きなセッションとなっていました。学会研究会の大きなテーマ、潮流を形成したくらい、多くの領域にソーシャルが影響を与えています。
  ソーシャルメディア研究の1つの流れが、人間のQ&Aや対話の研究、そしてその裏返しとも応用ともいえる、対話ロボット作りとその評価の研究です。後者は最近は「ボット」、少し以前ならEliza以来の「人工無能」といえば思い出される人が多いでしょうか。
 季節柄、院生さんの発表が多かったですが、中でも北大の荒木先生の研究室の人による、優れた(気の利いた、心のこもった、、)対話のできるボット作りの研究がおもしろかった。
 まず、人間なら有り得ない発話も含めて応答候補を、複数の方式(対話継続を目的としたEliza型や相手の発話を引用してコメントする受容/共感型、Webを知識源として面白い回答返す、など)で複数生成しておく。そしてそれらが過去の人間による対話、発話例のどれかとどれだけ似ているかを評価。良く似たものは自然な対話例に近いからそれを選んで発話して返す。このようなハイブリッド方式(演繹と帰納の融合)で、少しでも人間らしい対話ができるように、ということでナイス。敬意を表して「複数の方式による返答が混在すると人格が複数、交代してるみたいにならないか?」と質問したところ、今後、表現レベルや内容レベルで「スムージング」して解決したいとのこと。ともあれ、退出の際には、古巣の研究会が良い活動してて嬉しい、とTwitterにつぶやきました。
 

Twitter で俄然注目度が高まった"ボット"

 Twitterといえば、企業発Twitterで、担当者のTwitter疲れを回避するのにボット併用は十分有効と考えられます。それどころか、退屈な人間を超える珍回答でウケたりもできるでしょう。「Webを知識源として面白い回答返す」かわりに、「社内知識、商品/サービスについての網羅的な知識を張り合わせて回答返す」というまじめなボットなら、不勉強な人間を超えたパフォーマンスを発揮できる可能性すらあります。「燃え尽き症候群」の回避から、より気の利いた会話、手慣れた対話の知識(有限状態機械)を埋め込むことで、担当者のパーソナリティ、属人性に依存しがちなのを少しでもカバーできるかもしれません。
  そう、特徴的な属性をもった言葉を相手の言葉やWebから見つけてきてタイムリーに返答する、などは、やはりセマンティック技術なのです(どうかんがえてもシンタックス、形式的処理ではないですね)。優秀なボットに、企業発Twitterを「手伝わせる」というのは、 「ソーシャルを支えるセマンティック」の一構図であります。1年前は、両者を対置して、相互に補う構図を描きました。しかし、ここ1年のソーシャルの発展(日本では半年ちょっと前まではソーシャルアプリは無きに等しかった)、特にリアルタイムメディアの凄まじい隆盛に押されました。表に出て大ヒットするセマンティックサービスが今後は出現するかもしれませんが(弊社も挑戦します)、しばらくはソーシャルの勢いがとまりそうにありません。
 現在、Twitterには、数百くらいボットが生息していると推測されます.容易には人間かボットが区別のつかない、人間やボットもいます。 本日も、@NHK_PRさんが次のように書いてました。
@NHK_PR 修造さんがボットだと教えて下さった皆様、ありがとうございました。ずっとお話ししてしまうところでした・・・・orz 
 これが反響を呼びました:
  1. google000 本日のお前が言うな  QT @kamijou_touma: 修造bot絶対中に人がいるだろ!! RT @shuzo_matsuoka @NHK_PR 昔から「勝ってガットを張り直せ」というだろう!!駄目駄目駄目!油断禁物!勝負はおうちに帰るまで!遠足を忘れるな!! RT @NHK 
  2. yen_town @NHK_PR え、@nhk_prもbotでしょ?
  3. tkrdk @NHK_PR NHK広報さん可愛い…
  4. mutaguchi . @shuzo_matsuoka@NHK_PR のやり取りウケるw
  私はこのshuzo_matsuokaさんという超元気な「気合い入れ」ボットについて、昨日次のように書きました:
@nomuran #KM11 #twitterJP 課題:属人性の低減:ボットの活用 というサブテーマの詳細事例です: @shuzo_matsuoka さんというボットにフォローされました! おそらく手動だと思いますが、きっと定期的に自動的にフォロー返ししているボットも出てきているかと思います。
  一方、人間というふれこみ(現職の自民党議員さんが敬語使って話しかけていた。これが冗談だったら相当ギャフンだ)のハマコーさんは、私は実はボットではないか、と疑ったのですが、はぐらかされました:
@555hamako 「ニセモノかホンモノかが大事なのではなく、そこに本当の、ホンモノの「魂」が入っているかどうかが問題なのである!」
@nomuran  ↑なんて格言をシャッフルして出しているボットみたい。でも、元気出そうなので、生身でもどっちでも良いや! これからフォローしますね。わくわく。。( 6:00 PM Jan 28th  555hamako宛)
 

ソーシャルを支えるセマンティックアプリの実用化

 続いて、Evri というセマンティックサービスのエージェント機能みたいなEvriBotのこととか、LinkedIn会員の旅行計画をたてやすくした、TripItというセマンティックサービスのソーシャルアプリ版のことも書きたかったのですが長くなりすぎました:
ご参考:TripIt! は5W1Hを元に旅程を最適化、提案してくれるサービス 
 個人情報や有害情報をチェックするのもセマンティック技術です。続きは、有料で恐縮ながら、2/3 のPAGE2010コンファレンス「Webはどこまで賢くなれるか」でお話します。 事後に感想を交えて一部の図版をこちらにも書かせていただくかと思います。
 

Twitterで #KM11 に来れ! 

 この日は、上記に先立って午後イチに、BM学会KM研究会も開催いたします。
 2010/2/3 第11回KM研究会「リアルタイムCRM!」 Twitter中継!
この研究会のTwitterハッシュタグは、#KM11 です。
 敢えてUST中継はやらず、会場にいるひとがとことんつぶやきまくって、主な内容はほとんどTwitterでオンライン、リアルタイムで把握できるようにさせていただく予定です。2/3 13:00-15:30 は、 http://twitter.com/nomuran から #KM11 をクリックしていただきたく、どうぞよろしくお願いします。事前にも事後にも書き込み大歓迎です。すでに相当、リアルタイムCRMについてのメッセージがたまっています。
http://twitter.com/#search?q=%23KM11
例; パネリストの日本IBM根本さんからのメッセージを引用して:
  1. 114101_2928994_normal nomuran #KM11 日本IBM根本さん曰く:「最近はTwitterアカウントをいくつか使用してマーケティングしております。段々アカウント数が増えてきて、今は10アカウントくらい同時に動かしており、運営もけっこう自動化しております。」凄い!#kaishanohoshi #twitterJP 
 
  オフラインの定員は36名ですが、オンラインは無制限。10倍超のご参加を期待いたしております。どうぞよろしくお願いもうしあげます。
 
ps 上記で、記号の類や、Twitterの用語でご不明な点、3月のセミナー等で承りたいと存じます。適宜、Twitterでコメントしたり絡んでいただけるとさらに喜びます。どうぞよろしくお願いいたします。
 
 
 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2010年01月21日

同義語検索はシンプルなセマンティック検索

Switch on → スイッチオン 
 20日午後、慶大の坪田知巳教授がオフィスに来られ、メタデータとセマンティック技術が拓く、「編集」の新次元について、大変有益な議論ができました。それについては、おいおい、進捗に合わせて公表してまいるとして、このとき、編集者のスキルを養成する「スイッチオン・プロジェクト」が話題となりました。
 カタカナが正式名称らしいですが、 Switch onプロジェクト でGoogle検索。ヒット結果の要約文の中で、「スイッチオン」  などと太字で表示されました。英単語の和訳というか、ローマ字化した単語が検索語として上位にひっかっかったわけであります。
 

Google、検索結果の概要で同義語も強調表示に

  http://www.itmedia.co.jp/enterprise/articles/1001/20/news082.html
Googleは1月19日、そうした結果の概要部分(スニペット)で同義語を強調表示し始めたことを明らかにした
 例として、 「photo(写真)」を検索すると「photos」「photograph」のように、スペルが近い言葉のみならず、「picture(写真)」もヒットさせていく、とのこと。ノイズ、勇み足もしばらくは増えるでしょうが、従来路線の延長で、もっともらしいランクを出そうとする中で、同義語によるヒット結果を高ランクにしていく路線を決定した、ということでしょう。
 
 以上は、紛れもなく、セマンティック検索です。
Bingに統合されたPowersetは、単語の語義を区別して、余計なヒットを抑止するという「適合率向上」 を主眼としていました。しかし、本来ヒットすべき、意味的に類似の文書(しかし一致文字列は皆無!)を上位に出せるという「再現率向上」を主眼としたセマンティック検索にGoogleは乗り出した、ということであります。
 下記の関連記事のうち、リアルタイム検索以外は、全部セマンティック検索と呼んで良いように思います。

関連記事

 
 昨年12月の怒濤の発表と違い、Googleも2010年は、いよいよセマンティック技術の本格応用、サービスインをメインにすることにした、という感じを受けます。
 
 
 
 
 
by nomuran こと メタデータ 野村直之
 
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2010年01月10日

「10大 セマンティック製品 2009」

 少々遅まきながら、昨年末、ReadWriteWebから発表された「10大 セマンティック製品 2009」を概観します。
 
 、、と思ったら、SBI HGさんが、たんたんと和訳してくださってました。感謝です!
 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年12月31日

2009初頭の10の予想・期待は当たったか?

 ソーシャルの大波に洗われた2009年が終わろうとしています。
私も、3年近く前にとった Twitterのアカウントnomuranを再開。Mashup Award 5thの土壇場で、Twitter APIで応募できるようになりました。OpenSocial APIなどと並んで一大トレンドとなりました。Metadata社提供の4 APIのうち、有害情報フィルタAPIを活用した某作品も、Twitter APIで取り出した情報を加工する、というマッシュアップ作品でした。
その一方、セマンティックAPIと呼べるAPI、機能部品も地味ながら増えたと思います。前回紹介のYahoo! Search Monkeyは、シンプルなアプリで、セマンティックの御利益を見せてくれたし、2009年前半は、Microsoftが、後半は、Googleが目を見張る進歩を見せてくれました。
標記は、ReadWriteWebに約1年前にあげられた、次の記事を意識しています:
Semantic Web Wish List 2009
 2008年のセマンティック製品10+10を踏まえ(2009年版も最近発表→後日紹介します)、上記の期待が書かれました。編集部によるものと、ハンガリーの博士課程の学生さんによるものと、5+5があげられています。
筆頭は、Microsoftが、PowerSetの意味弁別エンジンを取り入れて、Google検索を超える検索エンジンを出すこと、そして、その挑戦を受けて立ったGoogle検索がまた進化を遂げることへの期待でした。競争こそ素晴らしい、と。
この期待は、6月のBingのデビュー、それが最新イベントの検索などで、実際にGoogleの精度を上回ったことで実現。さらに、12月になって、Googleが様々な拡張で応えたことで、見事にかなえられた、といえるでしょう。
2番目は、Dapperのような仕組み、もしくはその競合があらわれて、セマンティック広告を配信するアプリケーションが立ち上がること。これは、AdModsが750億円でGoogleに買収されたことによって、水面下に潜行したような感じです。しかし、見えないところで激しい競争が既に始まっているような気がします。
 個人会計(家計簿)は、全員が確定申告する欧米特有のものなので、ちょっと省略。医療関係の応用は、SemTech2009ではフィーチャーされたものの、研究を超えて大きなビジネスの流れにはなりきっていない印象を受けます。
 ハンガリーの博士課程学生Zoltán Andrejkovics氏の期待は下記でした:
  1. Smart notes; 自然言語処理による、見つけやすいメモ帳。
  2. Smart RSS; いちいち手動管理しないで済む、目下の興味を解析するRSS 
  3. Mind writing; オントロジー活用(?)で、単語指定でなく、おもいついた概念をコンピュータに伝えられるアプリ
  4. Assistant; 自分の執筆やネット上の行動を反映する自分の分身。仕事やスケジュール調整を自動で代行してくれる。
  5. Smart bookmarks; 上のSmart notesのように使えるブックマーク
これらは、技術面で具体的な注文を付けているので、次回以降、2009年版Top 10 Semanticアプリの評価に合わせてご紹介したいと思います。
以下は、おまけです。
ReadWriteWeb版のTwitter回顧と、50以上の Semantic Web関係者のTwitterアカウント:
http://www.readwriteweb.com/archives/twitter_trends_in_2009_a_retrospective.php
http://www.readwriteweb.com/archives/50_semantic_web_pros_to_follow_on_twitter.php
 

 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年12月20日

Y! Search Monkey日本語は検索結果にマッシュアップ

 今年はじめ頃、Yahoo!さんのUS と日本で、セマンティックな取り組みの状況がだいぶ違うことに触れました。ここへ来て、良いものはこだわりなく導入する、という方針が実行されつつあるのか、さらに、Yahoo! Japanさん独自のわかりやすい、アプリの形でセマンティック技術を提供してくれる方向になっているかに感じました。 
  Search Monkeyというのは、Yahoo!カテゴリという貴重な、企業分類(Webの玄関もつ企業の分類かな)のオントロジーを、第三者が拡張し、カテゴリを追加できるような仕組み、と理解していました。それがこのほど日本でも、、というニュース見て、元Yahoo!の方にTwitterで紹介されたリンクをクリック:
http://gallery.search.yahoo.co.jp/welcome
 
 あれ? これが Search Monkeyだっけ? 確かにお猿さんの顔はおんなじだけど。。
と思った疑問が、「中の人」たつをさんのブログ で解消。
http://chalow.net/2009-12-17-1.html
 
 検索結果を見やすく魅力的にする「Yahoo!検索プラグイン」、というアプリの形で登場したということだったのですね。
 
 画像や、メタデータを付加して表示する「マッシュアップ型の検索結果表示」は、Googleさんも昨年から導入。検索結果ページ全体をいかにオーガナイズして、ブロックごとに、テーマや属性(メタデータ)に沿った関連情報を表示できるか。まるで、新聞紙面のレイアウト企画のように検索結果を構成する仕組みは、Cuil が先行していたかと思います。 
http://d.hatena.ne.jp/nomuran7/searchdiary?word=Cuil
 
  Search Monkey日本版は、検索結果のブロック追加のようなことを、プラグインという形で、ユーザが自分で管理、コントロールできる、というところが、検索のベテランユーザにウケることと思います。 
http://gallery.search.yahoo.co.jp/
にあるような、さまざまな 専門サーチのAPI を簡単に貼り付ける、という仕組みは、
 IE8アドオンと比べると、違う層に受け入れられそう。
どちらもマニアックともいえるのですが。。
ソーシャルの要素をうまく取り入れた方が、今後勝利する、、という予感がします。 
http://japan.cnet.com/blog/nomura/2009/02/08/entry_27020136/
 「 ソーシャルとセマンティックの関係について 」


カテゴリー: business, semantic

Good!獲得数: 29

アクセス: 9532
 
by nomuran こと メタデータ 野村直之
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年11月29日

[MA5] Tmeeting:オンライン会議・議事録自動生成マッシュアップなど

 Twitter の#MA5 はじめ、速報メディアで既にご存知の方も多いと思いますが、29日午後、リクルート本社ビルにて、Mashup Award 5thの最終選考と表彰式が行われました。メタデータ抽出APIや個人情報・有害情報APIを活用した『メタデータ賞』授与と、多数のAPI提供関係者、作品応募者様と交流のため、出かけてまいりました。
 キャラバンに続いて、松田圭子取締役が登壇して、賞品の「メタデータ生成器」を贈呈。


この後、ご所属のネットイヤーグループさんが、IT開発に最近注力していることなど、数年来の知己の石黒社長まじえて歓談させていただきました。
Tmeetingの作者の皆様、おめでとうございました!
 

ネットイヤーグループ、「Mashup Award 5」で部門賞を受賞
〜自然言語処理技術を使った新しい会議活性化ツール「Tmeeting」〜

http://www.netyear.net/about/press/2009/20091130a.html
 

『メタデータ賞』獲得のTmeetingとは?

 Tmeetingという、オンライン会議&リアルタイム議事録自動作成システムです。
 ・各参加者がTwitterライクに発言を書いてそれをリアルタイムで共有。
  とともに、弊社5W1H抽出APIを使って、5W1Hの具体性のある。重要で「建設的」な発言がどれだけ出ているかの比率を随時判定して円グラフ表示したり、「■スケジュール」といった小見出しを自動生成して、5W1H APIで拾ったメタデータを中心に議事録を生成します。

  ※Web chatを使い易く、オーガナイズされたデザインにして、議事録作成が楽ちんになるオンライン会議に仕立てた、ということで、Lingr がマネタイズのために目指すべきだった姿の1つを押さえているように思います。

5W1H Mextractrを使った優秀賞獲得作品OpenSocial Dashboard

 

  『メタデータ賞』的に次点だったのは、昨年、『セールスフォース賞』と『メタデータ賞』をW受賞した
  MashMatrix社長の富田慎一さんによるOpenSocial Dashboard。これは、ソリューション、特定の応用のイメージは少々希薄。でも、話題のOpenSocial で取り出せる様々な情報をガジェットの用にWebページ上に表示するとんがった作品です。画面上にその中に有意味なものを絞り込んで表示するのに、弊社5W1H APIを使っています。


 
 優秀賞獲得、おめでとうございます!
 ちなみに、Twitter API と日テレAPIなど2,3の情報源から新着を集約して見せるYakitori。リアルタイムで集約したのをそのまま垂れ流しするのでなく、弊社有害情報フィルタを通しています。それがセーフティネットのようになるはず、ということで使ってくれているものでした。
 また、受賞式の様子とか、他のセマンティック・アプリの動向、とくに、スマートフォン特有の地磁気センサーAPIを使った作品などについても触れてまいりたいとおもいます。 
 
ともあれ、受賞者の皆様、おめでとうございました!
 http://twitter.com/search?q=%23MA5#search?q=%23MA5
http://twitter.com/nomuran
 
 


カテゴリー: Mextractr, business, social, semantic

Good!獲得数: 72

アクセス: 1033
 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年11月16日

GRAPE 〜消費者1個人専用広告への第一歩か?

 11/11に、GRAPE という新サービスがスタートしました。
 
http://www.grapenet.jp/
「世界初、社会貢献型モバイルコンテンツプラットフォーム」
 Optで鍛えた 大変優秀なモバイル系企画能力を備えた株式会社ハロのイセオサムさんの企画、そして、実装は、株式会社レオンテクノロジーさんによるものです。
 GRAPEは、広告をはじめとするコンテンツ(逆にいえば広告以外も可)を、コンテンツ・プロバイダーさんから供給を受けつつ、独自の編集を行うコンテンツチャンネル(GRAPE)を介して、複数のメディアに対し、各々カスタマイズを行い、同時に各々異なるタイアップ企画を行えるプラットフォームです。
「コンテンツチャンネル」というのは、コンテンツ・プロバイダーさんと、掲載メディアさんとのタイアップページという位置づけとなります。
カスタマイズの内容は、メディアごとに専用のロゴ、カラーを設定したりで、これらにより、オリジナルのタイアップ企画を生成します。
掲載メディアから誘導されたお客様が、コンテンツ・プロバイダーさん側サイトで何らかのアクションを行うごとに、掲載メディアさんに対して成果報酬費用が支払われる仕組みとなっています。シンプルな課金の仕組みで、掲載メディア側が勝手になにやら無理したり作為的な演出を行いたくなるような、単価向上等のインセンティブがないため、継続性が高いこと。そして、結果的に、エンドユーザにとっても不快さ、ストレスを与えない、という「三方良し」を狙っているようです。中間手数料の一部を、戦争や災害によって傷ついた子供たちのケアを行うKIDS EARTH FUNDの支援に活用、とのことで、GRAPE運営者を介して、コンテンツ・プロバイダー、掲載メディア、そしてエンドユーザさんが世界の子供達に貢献できる、という仕組みとなっています。

パーソナライズド広告に至る背景

1 to 1 マーケティングの概念は、今から18年前に誕生しました:
" One To One Future" , Rogers & Peppers, 1991
その8年後位、20世紀末に米日でブームとなり、OneToOne Marketing On the Web という Rogers & Peppersによる少数限定の実践道場(※私が2000年にシカゴで参加したときはIBMのASP担当部長さんなど5名でした)などで、Webサイトのパーソナライゼーション、マス・カスタマイゼーションの研究と実践が進みました。
※道場への参加体験を踏まえた論文を情報処理学会で発表しました:
『1to1 マーケティングに基づくE-ビジネスのための技術要件』  立ち読みじゃ不足、という向きはこちら
  しかし、これらの新しいマーケティングの概念が、いきなり広告、Broadcastingの世界に影響を与えるには至りませんでした。この間、検索連動広告などが出てきたため、コンテンツのカスタマイズより、配信、選別が圧倒的に先行したためです。消費者一人一人専用に広告内容やを生成する、という仕組みに必要な技術開発、コストダウン、はこれからの課題です。消費者個人の目下の興味(on time / off timeで違うし、時間が経てば興味も移りゆく)を自動抽出し、極めて高精度な、ピンポイントのコンテンツ選別には、高度なセマンティック技術が必要。意味解析や、背景知識(行動履歴含む)や、一般常識もある程度は活用する必要があります。
 究極の個人専用コンテンツ生成の仕組みは、2054年のワシントンDCを舞台にした、スピルバーグ製作の未来SF映画『マイノリティ・リポート』に表現されています。私は2003からDVDを友人・知人に貸してこのような広告実現のための自然言語処理技術開発の重要性を訴えてきました。せっかくですので、友人・夏野剛さんの近著『グーグルに依存し、amazonを真似るバカ企業』第三章 ウェブビジネスの未来、から引用しましょう。
「未来の広告のカタチ 〜個人最適化
・・私が考える近未来のカスタマイズ広告イメージは、 、トム・クルーズ主演のSF映画『マイノリティ・リポート』に 出てきた形態だ。この映画で描かれる2054年の未来世界では、マス広告はもはや存在しいていない。生体認証によって個人が判別されている時代なので、街を歩けばその人に合った広告が飛んでくる。例えば、GAPの店舗に入った主人公は虹彩認識で個人が特定され、「先日のタンクトップはいかがでしたか?」といったアナウンスが流れる。」
「マイノリティ・リポートで描かれた広告がどれくらい先になるかはわからないが、現在も研究が進められている広告のカスタマイズがますます精度を増していくだろうことが予測されると同時に、個人的に楽しみでもある。」(引用終わり)
 そして、高精度なピンポイント広告、個人専用に生成された広告と相性が良いのは携帯です。2050年頃に、立体ホログラム映像が街中に現れたりするようになるまでは、携帯、スマートフォンの天下ありましょう。
 GRAPEは、大画面TVの前に座って、ときどき携帯で関連コンテンツを楽しみながら視聴するスタイルから、関連コンテンツへの誘導を考えているようです。今後が非常に楽しみです。

納得性(説明性)の高いマッチングが鍵

  では、今後、編集者・技術開発者を含めた4者のWin-Win-Win-Winを実現するにはどうしたら良いでしょうか? 1つの鍵は、納得性、透明性だと思います。Yahooさんのインタレストマッチなど、開いた頁上のテキストを全て解析し、過去何ヶ月もの履歴を全部使ってしまう「総合評価」型は引き続き苦戦が予想されます。ユーザの興味が日々変化すること、とくに、今観たTVの内容などに即応して何か調べたくなる、といったニーズに対応できないことが問題だからです。
 そこで、コンテンツのリアルタイム解析、意味抽出、というセマンティック技術と、リアルタイム・コラボ系のソーシャルメディアの活用が突破口を開いていくように思います。少々手前味噌ですが、 「なぜこのコンテンツがレコメンドされたのか?」、普通のユーザにガラス張りに納得できるやり方は、5W1Hや、そのコンテンツ特有のメタデータを明示し、「こんな手がかりがこんだけあったからレコメンドしたのですよ〜」とビジュアルにさりげなく表示する方法でしょう。これは検索エンジンの「キャッシュ」をクリックすると、色付けてハイライトしたキーワード群が表示されて納得できるのと似ています。
 自分が入れたキーワードしか表示されないのでは疲れちゃうので、比較対象の両コンテンツや、番組テーマに即したメタデータ、自動生成したキーワード群、それも概念・意味内容が同じなら文字列が不一致でもちゃんとヒットするオントロジー技術を用いて、自動的に適切なコンテンツをレコメンドする。なぜこいつがレコメンドされたのか、一目で納得できる。こんなカタチが好感されることでしょう。
 妙なインセンティブの仕組みがあると、上記のようなセマンティック・レコメンデーションも信用を失いかねません。ですので、GRAPEのような仕組み、ビジネスモデルと、下記5W1H Mextractrのようなマッチング技術は非常に相性が良い、と考えています:
マイコミジャーナル: 文章から単語を抽出して検索をサポート - IE8アドオン「5W1H Mextractr」
 

 
 

 

カテゴリー: business, semantic

Good!獲得数: 158

アクセス: 894

 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

GRAPE 〜消費者1個人専用広告への第一歩か?

 11/11に、GRAPE という新サービスがスタートしました。
 
http://www.grapenet.jp/
「世界初、社会貢献型モバイルコンテンツプラットフォーム」
 Optで鍛えた 大変優秀なモバイル系企画能力を備えた株式会社ハロのイセオサムさんの企画、そして、実装は、株式会社レオンテクノロジーさんによるものです。
 GRAPEは、広告をはじめとするコンテンツ(逆にいえば広告以外も可)を、コンテンツ・プロバイダーさんから供給を受けつつ、独自の編集を行うコンテンツチャンネル(GRAPE)を介して、複数のメディアに対し、各々カスタマイズを行い、同時に各々異なるタイアップ企画を行えるプラットフォームです。
「コンテンツチャンネル」というのは、コンテンツ・プロバイダーさんと、掲載メディアさんとのタイアップページという位置づけとなります。
カスタマイズの内容は、メディアごとに専用のロゴ、カラーを設定したりで、これらにより、オリジナルのタイアップ企画を生成します。
掲載メディアから誘導されたお客様が、コンテンツ・プロバイダーさん側サイトで何らかのアクションを行うごとに、掲載メディアさんに対して成果報酬費用が支払われる仕組みとなっています。シンプルな課金の仕組みで、掲載メディア側が勝手になにやら無理したり作為的な演出を行いたくなるような、単価向上等のインセンティブがないため、継続性が高いこと。そして、結果的に、エンドユーザにとっても不快さ、ストレスを与えない、という「三方良し」を狙っているようです。中間手数料の一部を、戦争や災害によって傷ついた子供たちのケアを行うKIDS EARTH FUNDの支援に活用、とのことで、GRAPE運営者を介して、コンテンツ・プロバイダー、掲載メディア、そしてエンドユーザさんが世界の子供達に貢献できる、という仕組みとなっています。

パーソナライズド広告に至る背景

1 to 1 マーケティングの概念は、今から18年前に誕生しました:
" One To One Future" , Rogers & Peppers, 1991
その8年後位、20世紀末に米日でブームとなり、OneToOne Marketing On the Web という Rogers & Peppersによる少数限定の実践道場(※私が2000年にシカゴで参加したときはIBMのASP担当部長さんなど5名でした)などで、Webサイトのパーソナライゼーション、マス・カスタマイゼーションの研究と実践が進みました。
※道場への参加体験を踏まえた論文を情報処理学会で発表しました:
『1to1 マーケティングに基づくE-ビジネスのための技術要件』  立ち読みじゃ不足、という向きはこちら
  しかし、これらの新しいマーケティングの概念が、いきなり広告、Broadcastingの世界に影響を与えるには至りませんでした。この間、検索連動広告などが出てきたため、コンテンツのカスタマイズより、配信、選別が圧倒的に先行したためです。消費者一人一人専用に広告内容やを生成する、という仕組みに必要な技術開発、コストダウン、はこれからの課題です。消費者個人の目下の興味(on time / off timeで違うし、時間が経てば興味も移りゆく)を自動抽出し、極めて高精度な、ピンポイントのコンテンツ選別には、高度なセマンティック技術が必要。意味解析や、背景知識(行動履歴含む)や、一般常識もある程度は活用する必要があります。
 究極の個人専用コンテンツ生成の仕組みは、2054年のワシントンDCを舞台にした、スピルバーグ製作の未来SF映画『マイノリティ・リポート』に表現されています。私は2003からDVDを友人・知人に貸してこのような広告実現のための自然言語処理技術開発の重要性を訴えてきました。せっかくですので、友人・夏野剛さんの近著『グーグルに依存し、amazonを真似るバカ企業』第三章 ウェブビジネスの未来、から引用しましょう。
「未来の広告のカタチ 〜個人最適化
・・私が考える近未来のカスタマイズ広告イメージは、 、トム・クルーズ主演のSF映画『マイノリティ・リポート』に 出てきた形態だ。この映画で描かれる2054年の未来世界では、マス広告はもはや存在しいていない。生体認証によって個人が判別されている時代なので、街を歩けばその人に合った広告が飛んでくる。例えば、GAPの店舗に入った主人公は虹彩認識で個人が特定され、「先日のタンクトップはいかがでしたか?」といったアナウンスが流れる。」
「マイノリティ・リポートで描かれた広告がどれくらい先になるかはわからないが、現在も研究が進められている広告のカスタマイズがますます精度を増していくだろうことが予測されると同時に、個人的に楽しみでもある。」(引用終わり)
 そして、高精度なピンポイント広告、個人専用に生成された広告と相性が良いのは携帯です。2050年頃に、立体ホログラム映像が街中に現れたりするようになるまでは、携帯、スマートフォンの天下ありましょう。
 GRAPEは、大画面TVの前に座って、ときどき携帯で関連コンテンツを楽しみながら視聴するスタイルから、関連コンテンツへの誘導を考えているようです。今後が非常に楽しみです。

納得性(説明性)の高いマッチングが鍵

  では、今後、編集者・技術開発者を含めた4者のWin-Win-Win-Winを実現するにはどうしたら良いでしょうか? 1つの鍵は、納得性、透明性だと思います。Yahooさんのインタレストマッチなど、開いた頁上のテキストを全て解析し、過去何ヶ月もの履歴を全部使ってしまう「総合評価」型は引き続き苦戦が予想されます。ユーザの興味が日々変化すること、とくに、今観たTVの内容などに即応して何か調べたくなる、といったニーズに対応できないことが問題だからです。
 そこで、コンテンツのリアルタイム解析、意味抽出、というセマンティック技術と、リアルタイム・コラボ系のソーシャルメディアの活用が突破口を開いていくように思います。少々手前味噌ですが、 「なぜこのコンテンツがレコメンドされたのか?」、普通のユーザにガラス張りに納得できるやり方は、5W1Hや、そのコンテンツ特有のメタデータを明示し、「こんな手がかりがこんだけあったからレコメンドしたのですよ〜」とビジュアルにさりげなく表示する方法でしょう。これは検索エンジンの「キャッシュ」をクリックすると、色付けてハイライトしたキーワード群が表示されて納得できるのと似ています。
 自分が入れたキーワードしか表示されないのでは疲れちゃうので、比較対象の両コンテンツや、番組テーマに即したメタデータ、自動生成したキーワード群、それも概念・意味内容が同じなら文字列が不一致でもちゃんとヒットするオントロジー技術を用いて、自動的に適切なコンテンツをレコメンドする。なぜこいつがレコメンドされたのか、一目で納得できる。こんなカタチが好感されることでしょう。
 妙なインセンティブの仕組みがあると、上記のようなセマンティック・レコメンデーションも信用を失いかねません。ですので、GRAPEのような仕組み、ビジネスモデルと、下記5W1H Mextractrのようなマッチング技術は非常に相性が良い、と考えています:
マイコミジャーナル: 文章から単語を抽出して検索をサポート - IE8アドオン「5W1H Mextractr」
 

 
 

 

カテゴリー: business, semantic

Good!獲得数: 158

アクセス: 894

 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年11月09日

私がPCの画面をデジカメで撮る理由 〜主体vs客体のログ

 
 
   PCの画面をデジカメで撮ったことのある人、手〜上げて!? とここで叫んだら、何人くらいの方が手をあげられるでしょうか?
  何のために?という疑問に答えて、1つ、誰でも痛切に必要とするシーンを考えると、
「重要な原稿を未保存のままマシンがフリーズしたとき」というのが思い浮かびます。
画面コピー(Print Screen, Grab etc.) など一切動かないから、リセット(reboot)して、さきほど入力したのを手早く再入力するには、画面をデジカメで撮る( or 液晶を複写機台に置くかハンディスキャナでスキャンする)しかないでしょう。
  「おいおい、そんな特殊な状況、デジタル機器がエラーってときだけ、汚いアナログ経由もやむを得ない、なんてのは当たり前な話で、ズルイよ。もっと普通の面白い状況で、積極的に画面を撮影してるんだろ?」
  はい、その通りです。そもそも、デジカメが、高速ドキュメントスキャナより速い、数10分の1秒以下でコピーができてしまう複写機だ、と10年以上前に認識して以来、そのような必要性があったときに使ってまいりました。さらに遡れば、ビデオデッキがうまく録画できない放送をビデオカメラでメモったり、、音声に限って言えば、外部音声出力端子のなかった白黒TVのスピーカの音をラジカセ内蔵マイクで録音したり(小学4年の頃なので37年前)、ということも、必要なら実行してました。
 近年は、相手がデジタル機器だろうが、即時にメモる機能が使えないときは、躊躇無く、自分の興味や発想の流れを記録する、ライフ・ログ的な位置づけで、デジカメで撮ることがあります。下記はその一例です:

  何かメールで面白い質問をいただき、それに自分の文章を引用して返信したいけど、すぐには適切な内容の取捨選択が終わらない。その際に、メインの引用文の候補をWeb検索でみつけて真ん中に表示し、関連の書籍のタイトルや目次、関連頁を開き、さらに、携帯メールの存在も記録。こうして、次にナレッジワークを再開する際に、その時点での発想の流れ(コンテクスト)を十全に復活できるようにするのであります。
  特に、いつ割り込みがかかるかわからない現場で仕事しているとき、一種の発想の煌めきを失わないための「安心」料として、10数秒の準備と、一瞬のシャッターボタン押下の時間は有意義だと思います。たまにはボイスメモも付けますが、、こちらはあまり聞き返す時間が取れることは少ないです。画像やテキストに確実にヒモ付けしたり、その画像やテキストの閲覧時に自動で音声が再生されるような良いソフトを常用できていないせいかもしれません。
 アイディアの源泉の多くは、異種の情報源や異分野の知識がぶつかりあってスパークした場にあるようです。だから、異なるデバイス(紙を含む)にまたがって、その作業コンテクストを記録する必要があります。
 日本経済新聞&慶應大学の坪田知巳さん著の「2030年メディアのかたち」に、ワーテルローの戦いの勝敗情報は、「投機をやろう!」というコンテクスト、意思をもった者以外には無価値だった、という重要な指摘がなされています。かように、コンテクスト無しでは、多くの情報は無価値になってしまう。
 しかるに、殆どのソフトウェアや、デバイスは、それ単体でのログ記録機能しかありません。WindowsやMacなどのマルチウィンドウ記録機能(画面キャプチャや、WSHによるマクロ記録)は、個人の作業コンテクストを記録する上では、他の従来メディアよりずっとマシかもしれません。しかし、ARばりにリアルの物体と混ぜて記録する能力など、カメラ無しには不可能なところがあります。
 コンテクストへの紐付けは、情報に意味をもたらす作業です。まさにセマンティックな情報処理といえるでしょう。この紐付け作業を、情報を使いこなす主体を中心に行うことで、人間の知的能力を大きく拡大できるはず。こう信じて、最近数年間、技術開発、製品・サービスの開発を行ってまいりました。メタデータをもたないテキスト情報から5W1Hを自動抽出することで、情報間の関連付け(紐付け、マッシュアップ)は飛躍的に効率化します。
 さらに、Mextクリッパーは、Web上の情報を自分で切り取って、「いつ、自分が何に、どこで(URL)注目したか」を素早く記録するツールとして、「主体のログ」を志して開発し、提供しました。他のリソースとの関連付けですが、他の「何時何分」に行った作業のログと統合し、タイムスタンプが近ければ、「統合された主体のログ」として完成に近づくことでしょう(残るは脳内活動の直接記録か。。)。
 情報の意味づけ、価値付けを考えたら、主体のログは限りなく重要です。逆に、客体のログ(個々のデバイスやソフトウェア、サービスがはき出すログ)は何なのか? 客体には原則、意志も理由も価値観もありません。  自然現象、たとえば、台風や洪水を考えてみるに、被害者にとっては悲劇ではあっても、自然自体が邪悪な意思をもってたり、「しかしながら」「畜生復讐してやる」「前回はあそこをいじめたから今回はこの地域をいためつけてやろう」など考えて起きているものではありません。真に意思、自意識を備えた人工知能ソフトウェアができるまでは、いかに賢い機器、ソフトウェアであっても同様です。奴ら、何も考えてないのです。奴らがはき出すログの意味を読み取り(なぜそうなるのか?等)、解釈するのは、主体たる人間のお仕事です。
※ソフト開発経験者なら、バグがあったときのエラーメッセージが、真の原因とは似ても似つかぬものであることに慣れっこになっているので、頷かれることと思います。
  主体たる自分は、1人しかいません。(よね?同姓同名でない本当の自分が2人いて俺は2カ所に同時に存在できる、という人がいたら名乗り出て下さい) つまり、同時には、1つの場所にしかいられない、という5W1Hの制約があります。また、マルチ思考、並列思考を本当に同時にできる度合いも著しく制限されているので、10数秒以内、 というタイムスパンではほぼ同じテーマで思考や情報処理を行っていることでしょう。その連続、連鎖が主体のログです。自身の思考を中心に、センサーがとらえた刺激(input)を記録し、それをOutputや内部の連想と関連付けて記録する。そして、いつでも必要な際に取り出せる(キーワード検索だけじゃ弱い!)、というのが、ヒトの知的能力を拡大するのに決定的に重要なのではないかと思います。
 そのためのセマンティック技術を開発し世に広めたい。ということですが、とりあえずは、自分がかけている眼鏡に、スーパーハイビジョン動画記録機能が備わっている必要がある、ということかもしれません。まだそこまでハード技術が進歩していないので、いまは、CasioのHigh Speedデジカメを極力持ち歩くようにしています。まだまだ理想の記録器には遠いですが、雀のジャンプ歩行がカンガルーのように見えたり、一部、人間の通常の認知能力を超えた記録機能があるので痛快です。
  いつでもどこでも記録ができたら、、やはりクラウドに 自動転送して、構造化されたストレージの中で、自由自在に関連検索できるように、ということになりましょうか。OCR,音声認識、そして5W1H抽出や、オントロジーによる(キーワード一致に依存しない)関連付けがフルに機能して、発想を広げてくれることになるでしょう。
  これらの仕組みの背後に、さりげなく共有や、知的出会いのソーシャル機能を付ければ、集合知、セレンディピティが効果的に働く確率が上がりそうです。
 ヒトの認知能力、知能、発想力を拡大する弱AI(→第44回人工知能基礎論研究会強AI、認知科学の成果を如何に弱AI、製品開発に反映できるか』)の研究開発は、まだまだこれからです。でも、Webやソーシャル技術、そしてセマンティック・エンジンを含む様々なWeb APIのおかげで、かつてのAIブームの時代よりもはるかに現実味を帯びてきた気がいたします。
 

 

カテゴリー: Cloud, Mextractr, business, semantic

Good!獲得数: 122

アクセス: 2531

 
 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年11月04日

MA5 マッシュアップ創り、追込み頑張って!

 あっという間に月日は流れ、本日、MA5、Mashup Award 5th の作品提出締め切り日です。
Twitterの#hashtag(ハッシュタグ) は#MA5。
昨年までと同様、今回も、ぎりぎりまでエントリAPIが追加されていったのですが、終盤近くになって、ついに、Twitter APIを使っただけでも応募可能となりました。昨日、nomuranこと私は、以下のようにつぶやきました:
Twitter APIだけで#MA5の参加資格有りとなったので、2,3割はそっち系かも。でも、賞獲りには、マイナーなAPIを使うのがコツですよ〜 あと1日。#MA5応募者のみなさま、体調に気をつけて頑張って下さい!
  我々も、5W1H抽出エンジンと、有害情報検出エンジンについては、REST (Atom,XML)版に加えて、JSONP版APIを10月に追加しました。これで、多彩なクライアントアプリが大いに作りやすくなった、ということを具体的なアイディアをいくつか書いて例示しようかと思っていたのですが、〆切近くにそういうことをして皆様の設計をかき乱したりしては、などと遠慮しちゃいました。(単に多忙過ぎて手が及ばなかっただけで、、ごめんなさい!)
 東京開催のマッシュアップキャラバンでは、 個人情報マスキング、WebAPI検索、を加えた4つのAPIをデモしてお見せすることができました。主催者のリクルートさんが、次のように書いてくれてます:
http://mashupaward.jp/blog/caravanginza/

メタデータ の松田さんからは、メタデータさんの4種類の提供 API についてデモを交えて解説いただきました。

業務用途にも使える API なので、特別賞(テーマ賞)のEnterprise Mashup 賞(エンタープライズ・マッシュアップ賞) にも合いそうです。

  この部分だけ写真が無かったので、以下に掲載しました:
■ #MA5 マッシュアップキャラバンの感想+21日もOpenSocial
当日、生中継で私がつぶやいたログはこちらです:
■ [twitter] 本日の#MA5マッシュアップキャラバンのログです。
 

 最後に一言。
まだ間に合います! 下記4つのAPIのどれかを使って(追加して)、『メタデータ賞』や、『エンタープライズマッシュアップ賞』を狙って下さい。

◎API比較・マッチングサービスAPI

提供:メタデータ株式会社 API:API比較・マッチングサービスAPI
URL:http://www.mextractr.net/developer/ma5/api-match
国内外のWebAPI約2,000のカタログ検索サービスです。APIの基本スペックを表...

◎有害情報フィルタAPI
提供:メタデータ株式会社 API:有害情報フィルタAPI URL:http://www.mextractr.net/developer/ma5/of 有害情報フィルタAPIは、有害情報の疑いがあるテキストを検出するAPIです。日本語テキスト...
◎個人情報フィルタAPI
 提供:メタデータ株式会社 API:個人情報フィルタAPI URL:http://www.mextractr.net/developer/ma5/pf 個人情報フィルタAPIは、個人情報を伏せ字化するAPIです。日本語テキストを受け取ると、...
◎Mextractr 5W1H抽出API

 提供:メタデータ株式会社 API:Mextractr 5W1H抽出API
URL:http://www.mextractr.net/developer/ma5/mext Mextractr
WebAPIは、イベント(出来事)のメタデータ自動抽出APIです。日本語テキストを受け取...

 
ps 
WebAPI比較マッチングサービスの登録APIの中で、「これこそセマンティックAPI!」といえるものがあれば良かったのですが、部品単体では、せいぜい「セマンティックサービスの素材となりやすい」としか言えないようです。このあたり、Twitterの140字では到底書ききれないので、こちらで書いてみたい次第です。
※Twitterで、本質だけずばっと簡潔に書けちゃう楽ちんさに馴れると(人間は、、というか私は、か、易きに流れてしまいますね)、起承転結、レイアウト、図表を添えて説明文書を作るのが大変になりますが、、がんばります。
 
pps
最重要の追記を昨日書き忘れました。
作品の応募完了後も、改良、改造が可能です。
あまり派手にやると、非同期に逐次審査が進むなか、審査員によって違うものを見て評価することになりますが、それでもかまわなければどうぞ、というのが事務局さんのスタンス。ともかく応募してしまうのが吉、というノウハウでした。
「このことを昨日知っていれば!」と思われた方には恐縮です。
お互い(マッシュアップ創造者とWebAPI制作者)、来年、さらにパワーアップすべく、がんばりましょう!
 
 


カテゴリー: Mextractr, semantic

Good!獲得数: 33

アクセス: 1124
 
by nomuran こと メタデータ 野村直之
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年10月05日

"APIマッチ"のセマンティック技術

 標記の"APIマッチ"とは、"WebAPI比較・マッチングサービス" のことです。

”本WebAPI検索サービスをWebAPI経由でマッシュアップアプリに組込みたい方はこちら→ ... 検索結果一覧で、 のついているAPIはMA5協賛企業の提供するAPIです。 Summary文のDrag&Dropに加えWebAPI詳細を参照する矢印ボタン を付けました。”
 前回の日記「セマンティックAPI 4種、MA5に提供」でご紹介させていただいたせいか、実際にMashup Award応募予定者さんのニーズが高まっているせいか、 最近、"WebAPI"で検索してベスト10に返り咲きました。
 この他の辿り着き方ですが、検索エンジンに "dnavi" と入れてみて下さい。国会図書館オンラインの「データベースのデータベース」Dnaviをクリックし、フォームに、WebAPI (or Web API) と入れると唯一ヒットするのが、"WebAPI比較・マッチングサービス" です。
※Dnavに"Web"と入れても上位3つくらいにヒットすると思います。
 

"APIマッチ"のドメイン名の変遷

  "APIマッチ"のために最初に取得したドメイン名は、gimu-kenri.netでした。2007年8月のことです。MA3にチャレンジャーとして、マッシュアップ作品を作ってdeployし応募するために取得しました。
 「義務と演技」、、もとい、「義務と権利」。別にCGMサイトじゃありません。WebAPIのライセンス文章を自動解析し、ある文が、誰かの義務について記述していれば「」、権利なら「緑」、禁止なら「」で表示するようにしました。通常「誰か」とは、甲か乙、ここでは、WebAPIの提供者vs利用者となります。そこで、利用者視点を優先し、利用者の関する、義務、権利、禁止ならば、上記の色分けに加えて、太字で表示するようにしました。最初から、英語と日本語の両ライセンス文に対応しました。

 

  応募の直前になって、「いずれ海外の利用者にも、日本発の優れたAPIをどんどんスピーディに検索して、出自を問わずに使ってもらいたいし、、」と考え、ドメイン名を変更。2つの主なユース・ケースとして、【比較】と、【マッチング】を想定しました:
【比較】2つの似たAPIの基本プロフィールを見比べて片方ずつ落としていき、残ったものを採用。
【マッチング】マッシュアップに両方とも使いたいAPIを見比べて繋がるかどうか、内容の整合性がとれるかをチェック。
  両者の英単語をとって、compare & matching。さらに、できるだけ短く、安い(.com/.netなら安い)ものにしよう、と考えて順序を入れ替え、api-match.comを最有力候補としました。実際にこのドメイン名が空いていることを確認し、応募の直前に入れ替えた次第です。
  実はその後も半年以上は、gimu-kenri.netでもアクセスできる状態でした。でも、その後、バイリンガル化を推し進め、何回か検索して検索履歴がたまった状態でもその状態のまま 日→英、英→日、と移行できる国旗ボタンを付けたあたりで、もはやgimu-kenri.netは不要、と判断。リクルートの事務局さんも、"APIマッチ"と呼んで覚えてくださるようになっていたので、「ドメイン名さん、ご苦労様でした」とばかり、更新せずに終了させました。
 

"APIマッチ"のセマンティック技術

 でも、 gimu-kenri.netという名は無くなっても、義務なら「」、権利なら「緑」、禁止なら「」という色分け機能は残っています。これが、メタデータ株式会社が初めて世間に公開したセマンティック技術です。形式言語のセマンティクスや論理学のModal Logic (様相論理→命題をくるみその外側に確からしさや信念・価値判断に関する述語を規定したもの) に相当する自然言語表現を自動抽出し、文の役割(筆者による位置づけ) を判定して色分けするものです。
 1980年代の人工知能ブームで一時流行りましたが、機械翻訳の高精度化以外に、シンプルな応用用途を見つけられていなかったような微かな記憶があります。 今回の解析対象は、WebAPIのライセンス文(Terms of Service)です。
 日本では法律関係の人材があまりに稀少で、かつ多くの場合、「ご説明はよくわかりました。で、ソースコードって何ですか?」という質問を、背景説明を2時間した後に訊いてこられるようなことになります。その上にXMLや、APIの概念、そのWeb版に必要な免責規定や利用者の権利と義務を正当に理解していただくのは相当な難事業になります。
 結論としては、「WebAPIを使うエンジニア(か企画担当でよ〜く出来た人)」がライセンス文を読みこなすしかありません。これは辛い作業です。本物の法律文に近ければ近いほど、ちんぷんかんぷんで眠くなるか頭が痛くなることでしょう。これは、英語ネイティブが英語のライセンス文を読む場合も同じです。
 一方、 "APIマッチ"君は、ライセンス文が本物の法律文に近ければ近いほど、高い精度で、義務「」、権利「緑」、禁止「」の色分けができます。要点をながし読みしたいとき、重要な禁止事情だけ急いで再チェックしたいときなど、とても助かります。(私自身助かっています)
  こんなささやかな、ナイーブな用途にも、セマンティック技術をどんどん応用していくことで、少しでもWebが介在する世の中が便利で、ユーザも提供者も幸福になれると良い。誰にも作業を押しつけないでやろうとするならば、やはり大部分、機械が自動で作業するのが良いのではないか。
 マルクス経済学で提唱された「労働の疎外」 をテクノロジーの力で追放したい!と、経済学を専攻していた父の書斎で35年前に痛切に願った思いが心中でまだ生きているようです。そのせいで、どちらかといえば、、自分でやるなら、ソーシャルよりセマンティック、と考えるのだな、と改めて自省しました。
 
 
 ↑これがユニークな、デュアル詳細画面の表示です。
 恣意的に、ばらばらに書かれたAPIドキュメントのサイトを読み込む苦痛から、マッシュアップエンジニアを解放するため、基本的なメタデータが一目で表形式でならべて参照できるようにしました。
 ざっと眺めたら、上方のsummary行(APIの名前や見出し)から、次に詳細画面で眺めたいAPIを選び、マウスでつまんで左右どちらかにDrag&Dropしてください。
 あるいは、 のボタンを押してください。
 振り返りたくなったら、「閲覧履歴」のタブで、一度参照したAPIの一覧を見ることができます。つなぎたい順番にクリックすると、マッシュアップ企画書のドラフトができます。電車の中で、アイディアの続きを練ってください。
 MA5の〆切は、30日後の11月4日です。
 
ps 他のAPI のうち、特に、5W1H Mextractrについて hatena日記に書きました。
   APIというより、アプリ、IE8アクセラレータ版についての最近のマイコミジャーナルの紹介記事の補足のようなものです。
 

 テゴリー: Mextractr, business, semantic

Good!獲得数: 112

アクセス: 1348

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年09月19日

セマンティックAPI 4種、MA5に提供!

 

セマンティックAPI 4種、MA5に提供しました!

 今年もやってきた、MA (Mashup Award)の季節。昨年の4倍のパワーで協力しております。

MA2からMA4まで

イベントを生み出したリクルートさんと第2回あたりから親しくさせていただき、関わりが始まりました。2007年の第3回では、チャレンジャーとして、マッシュアップ作品を会社で2週間で作って応募。Mashupedia賞をいただきました。このとき、他の受賞者さんを中心に数10名のエンジニア仲間(MAの輪)とのつながりができ、大きな財産となりました。
 そして、昨年2008年のMA4では、出来たての5W1Hメタデータ自動抽出API "Mextractr"をたずさえて、協賛企業として参加。約100人がAPI Keyを取得され、6作品がこのAPIをマッシュアップして応募されました。それらを含む、昨年暮頃に作られたマッシュアップ作品の一覧をご参照ください。
 嬉しいことに、これら6作品で、4つもの賞を獲得してくれました。
BtoBの傑作は、『セールスフォース賞』 を受賞したSalestractr。メール本文中の法人名や個人名をMextractr が自動抽出してSalesforce APIに投げ、関わりのあった法人や窓口担当者さんとの過去のやりとりを自動表示。次になすべきこと(ToDo)を、新型インフルエンザで休んでいる同僚に替わって的確に判断し、ワークフローに登録、実行することができます。
ここにあるBtoCの傑作は、『メイドめーる』です。 MA4じゃなくてAward on Rails2008の受賞ですが。passiveな機能としては、その日のGoogleカレンダーの予定を串刺しでサマライズして携帯やPCメールに送ってくれるのがコアです。その日の天気予報が雨や雪なら、「ごしゅじんさま傘をお忘れなく」と言ってくれます。activeな機能が、「お返事」を書いたら、そこから5W1Hを読み取って、当該の日付時刻のGoogleカレンダーの予定を登録してくれる機能です。ここに、Mextractr が使われています。「再来週火曜日15時〜19時に誰々と飲み会」なんて、追加の予定を書いて送信すると、その日が今年の9月の第三週であれば、「9月29日の予定ですね。ちゃんと登録しておきましたからね!」って元気よく返事してくれます。

MA5には新たに3種のセマンティックAPIを追加

  セマンティックといえば、MA3に API比較・マッチングサービスというマッシュアップ作品を出した時点から、既に、 セマンティック機能を実装していました。ライセンス文をスクロールして読んでいるとき、義務は、権利は、禁止はで表示されます。英語も日本語も、80%前後の精度で取れていると思います。フレンドリーな丁寧語の文体は苦手。いかにも法律文らしい、契約書そのまんまの表現ほど得意です。
 今回、この「WebAPIのカタログ機能を提供したWebサービスをWebAPI化」という、ぱっと聴くとややこしいことをやりました:
【MA5】API比較・マッチングAPI 
 
 MA4から出している 5W1Hメタデータ自動抽出API "Mextractr" は、精度向上、カバレッジ拡大、高機能化、高速化、など、進化しています:
【MA5】Mextractr 5W1H抽出API
 
 5W1Hの個人情報を抽出できるのだから、隠すこともできる。ついでに、電話番号、Cカード番号、住民票コード(いずれもvalidなものだけ)も隠すことで、安心、安全にCGMを運用できるようにするにはこれを使います:
【MA5】個人情報フィルタAPI   
 
 最後は、 最先端の仕組み、「ミニ・オントロジ+構文解析により文脈で意味が異なるフレーズを区別できる有害情報フィルタ」です:
【MA5】有害情報フィルタAPI  
具体的な機能、弁別能力については、以前書いた記事をご参照ください。
 
 以上について、 デモ、ハンズオンの体験をご希望の方は、是非、9月28日の下記セミナーにお越し下さい。
「有料SNSの作り方」みたいなタイトルなので勘違いされる向きもありますが、紐無しの、無料セミナーです。;-)
【参加募集】9/28「有料会員〜売り上げ増に直結するSNS」セミナ
主催株式会社ロイヤルゲート、株式会社エスアイアソシエイツ、メタデータ株式会社
日時2009年9月28日(月)13:30〜16:30
場所文京シビックセンター3階 会議室B  地図
東京都文京区春日1丁目16−21
対象者BtoB/BtoC顧客向けSNSや、そのための決済/フィルタリングの仕組みを導入ご検討されている方
定員30名  ※先着順です。奮ってご参加ください。
参加料無料
前提知識何かのSNS(例:Mixi)のご利用経験、有料サイトビジネス企画への期待など
Agenda
 

 お申し込み

はこちら

 エスアイアソシエイツ岩井淳行
『SNSとECのこれからの融合』 

 〜事例をふまえて

ロイヤルゲート: 梅村圭司
SNSを利用した課金モデルの作り方 
 ・まだまだできるSNSを使った課金モデル
 ・オンライン決済の進歩でここまでできる
 ・継続課金モデルがここまですごい
 ・モールとの連携でEコマースとの連携を
 ・事例紹介
  課金型相談業務SNS
  人材派遣マッチング機能付きSNS
  会員属性毎の機能分けコンサルティングシステムSNS
  名刺交換機能付きSNS
  ラクガキできるイラスト投稿SNS

■ メタデータ 野村直之
『カレンダー自動連携WebAPI、および
個人情報有害情報マスキングWebAPIのご提供について』 

 『こっそり予告 〜コメント内容を自動チェックするブログパーツ!』

お申し込み/資料請求ページへ

  最後のパートで、4種のAPIの使い方も軽くご紹介します。可能ならばマッシュアップ事例をご紹介したいですが、、そのためには何より大事な、マッシュアップねた、アイディアを練っておく必要があります。そのためには、是非、http://www.api-match.com/ をしばらく使って、閲覧履歴のタブをクリックし、つなぐAPIを順番にチェックして、マッシュアップの企画書を生成してみてください。
 もちろん、 他のパート、岩井社長、梅村社長の講演も非常に興味深く、私自身、とても楽しみにしています。
ご遠慮なく、奮ってご参加ください。
ps 9/25 XMLコンソーシアム次世代Web活用部会は、HTML5がテーマ。
【参加募集】9/25(金)★HTML5=次世代Web開発の必修科目!
http://sns.xmlconsortium.org/wg-web20/
こちらでも、ご参加お待ちしています。
 

 

 

 

 

カテゴリー: Mextractr, business, social, semantic

Good!獲得数: 98

アクセス: 1474

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年08月19日

8/25『ソーシャルマーケティング実践』セミナー

 既にYahoo!ニュースにも転載されているようですし、ベタな名前ながら、『ソーシャルマーケティング実践』セミナーで検索して、www.socialnetworking.jpさんのページが1位になるのでご存知でらっしゃるかもしれません。
 ソーシャルとセマンティックの関係についての記事をご覧いただくと、「企業がソーシャルを実践する際の人手不足(CGM監視の人手からCRMを本業に組み込むナレッジマネジメントまで)の問題を解決するためにセマンティック技術が有望」、というロジックをご確認いただけると思います。
理論の次は、実践、事例による検証です。今回のセミナーでは、そもそも企業のソーシャル活用が新しいステージに入ったことを示す象徴的な出来事を山崎秀夫さんに語っていただき、次世代マーケティングの先駆的事例をいくつかご紹介します。そして、それを支えるITインフラとしてのマーケティングSNSや、CGM公開のリスク管理のためのセマンティック・エンジンをご紹介します。

 【背景】米国Fortune 100の54社が既にTwitterを広報・マーケに活用:

http://www.garbagenews.net/archives/942834.html

 チャットによるCustomer Supportが以前から広まっていた米国と日本の違いはあれ、いずれ日本でも、「目線を合わさずに片方向的に親しくなれる」Twitterフィードを活用したマーケティングは早晩「来る」と予想されます。

 その第一ステップを通過した顧客への次のサポートは、低コストなマーケティングSNSで顧客コミュニティを醸成すること、と捉えました。その際のリスク管理のためにメタデータ社では個人情報フィルタや有害情報フィルタを提供し始めました。(自社SNS製品『Mextウェル』内蔵版と、フィルタ機能のみのWebAPI版があります)

 以上を背景に、SNS評論の第一人者、山崎秀夫さんを招き、Beat Communicationsさん、エスアイアソシエイツさんと共催で下記セミナーを開催いたします。

よろしければ、下記ページからお申し込みの上、是非いらしてください。

 『ソーシャル・マーケティング実践』セミナー

 http://www.mextractr.net/seminar090825

● 開催概要
――――――――――――――――――――――――――――――――――――――
【名  称】『ソーシャル・マーケティング実践』セミナー
【開催日時】2009年8月25日(火)13:30〜16:30  [開場13:20]
【会  場】文京シビックセンター3階 会議室A
      東京都文京区春日1丁目16−21(春日・後楽園駅階上)
        http://metadata.co.jp/about/access_map.html
――――――――――――――――――――――――――――――――――――――
Agenda:
■招待講演:山崎秀夫
   『マイケルジャクソン葬儀などテレビとSNS、Twitterの融合にみる
    マーケティング!!』
    〜ソーシャルテレビを進めるフェースブックに注目!!

■ Beat Communication: 加治まゆみ
   『CGM Marketing と Social Technology』 
    〜クチコミマーケティングを成功させる上で必要なものと
     Beat Media, Beat Proの機能説明と導入事例のご紹介

■ エスアイアソシエイツ: 岩井淳行
   『顧客コミュニティサイトの構築と支援の実践から』 
     事例1 株式会社学研様
http://www.kurasse.jp/ (クラッセ)   
     事例2 株式会社インターネットインフィニティー様 別宮社長
http://www.caremanagement.jp (ケアマネジメントオンライン)


■ メタデータ: 野村直之
『個人情報・有害情報フィルタによるCGMユーザのセルフ修正機能』
  〜炎上しにくい、安全・安心・低コスト運営の
      ソーシャルメディア実現のために

マーケティングSNS『Mextウェル』への実装例
http://www.mextractr.net/summary/mext-well
 
  こうして改めて眺めてみると、山崎さんの講演はもちろん、加治さん、岩井社長、別宮社長のお話、いずれもとても楽しみです。沢山のノウハウや、センス(ニーズとシーズのマッチングの嗅覚)を身につけられるような気がします。
  選挙にもどんどんTwitterが使われ、先週はSAPがLinkedInの個人の就業履歴work experiencesをAPIで活用してしまうプラグインを出すなど、桁外れのスピードで利なソーシャル・テクノロジーが浸透する米国との差は開くばかり、との焦り覚えることもあります。しかし、手をこまねいていても仕方ありません。
 エンジンやアプリケーションを作り、使って頂きながら、皆様に次世代サービスを早く導入して競争力を上げていけたら、と考えつつ実践する次第です。

 
 

カテゴリー: Mextractr, business, social, semantic

Good!獲得数: 30

アクセス: 1287
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

bing vs Caffeine 序論

 少しご無沙汰しました。
 この間、例のbing がYSTに取って代わるニュースについての反響などに、negativeな意味で驚いたりしました。何10人もの錚錚たる人々のコメントに、「なぜ?」という視点が欠落していたからです。それでは、技術の本質、ひいてはビジネスの本質に切り込むことはできません。
 実用精度の面で、bingが本当に脅威だからこそ、Googleは慌ててCaffeineを公開したフシがあります。Caffeineの検索結果は、正式版Googleの結果と現状、殆ど替わりません。例えば、被リンクをベースにしたPage Rankアルゴリズムの致命的な欠点「古い記事(obsolete, expired articles) が上位に登場しがち」 を10年以上にわたって騙し騙しマイナー改良しつつ及ばない現状をそのままひきずっています。
 bingはセマンティック検索エンジンです。主なポイントを2つあげると:
●同じ綴りの単語でも違う語義(例:order:注文、順序etc.)なら区別して検索
●5W1Hのインデックスを重視。特に、日付がマッチする最新記事がヒットしやすい。
  例えば"2009年8月19日"で検索すると最新のイベント情報が上位に集まる。  →
 5W1H MextractrをMSのサイトで1クリックしてadd-onすると 「八月十九日」なんかも自動で数値化・正規化して、bingの検索窓に"2009年8月19日"を入れてくれて便利です。
 他にも様々な特長があります。見慣れたGの検索結果を忘れて(そもそも絶対の正解など無いのです!)、虚心坦懐に眺めてみると、bingの精度が非常に良いことがわかってくることが多いと思います。
 この認知が進むと、非常にシンプルなビジネスモデルの、公衆検索市場でGoogleの占有率が下がります。 アクセラレータなど、そもそも検索窓をわざわざ開いてコピペする作業自体をスキップする工夫でブラウザが進化したり、Yahoo!が先導する、Search Monkey等による、WebプラットフォームのSemantic Web化と相性の良いbing が5年以内に次世代Webの覇者になる可能性は十分にあるでしょう。
 
 続く、、かもしれません。
 
 
 
 

カテゴリー: Mextractr, semantic

Good!獲得数: 31

アクセス: 1373
 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年08月10日

次期FireFoxはセマンティック指向?他3題噺

FireFox3.6以降について、セマンティック志向の気配を感じました。

モジラ、「Firefox 3.6」の機能リストを発表

http://japan.zdnet.com/news/internet/story/0,2000056185,20397515,00.htm

「ブラウザが緯度と経度の座標だけでなく、通りや都市、郵便番号など人間に分かりやすい呼称も表示できるようにする変更点がある。承認されたウェブサイトが地図上でユーザーの現在地や近くにあるカフェを表示するといった位置情報サービスの追加は、「Firefox 3.5」の目玉の1つである。」

いわゆる逆ジオコーディング機能に過ぎないともいえます。しかし、まさにこの点が重要。緯度経度のような、非人間的な数値をユーザに見せるべきではない、という設計思想は立派にセマンティックサービスのもののように感じます。

弊社でいえば、5W1H抽出WebAPIのリアルタイムモードで、日付の相対表現を絶対日付に変換してくれる機能が該当します。例えば、
再来週の火曜日、と今日書いたら、弊社エンジンが「理解」して、2009-08-25という日付オブジェクトに変換して、スケジューラに記入したりしてくれます。メイドめーるでもお使いになれるので是非お試しください。

8月25日と入力させるのに、1から12迄の月名を指定するpull down(これはJan.〜Dec.の英語版を直訳した悪しき風習だと思う)や、1〜31の日付を指定させたり、といったことを、なぜ人間がやるのでしょう? 「来週は予定ふさがっているからその次の週で、火曜日だ!」と思いついたら終わりでしょう? あとの雑作業は機械にやらせるべき!

こう考えるのが、semantic仲間じゃないのかな、と思うわけです。
このあたり、吟味すれば、Web3.0のデザインパターンとビジネスモデル、という論文の「7原則の1つ」になるかもしれません。;-)

 次は、主にソーシャルのネタです:

「オンライン顧客コミュニティのための12のベストプラクティス 」

SNSベンダからみると、顧客のマーケティングSNSをtake off して安定飛行までもっていくのは大変(社内SNS比)。そこで、下記リンクにあるような虎の巻をうまくアレンジし、噛み砕いて、セミナーなどで発表することもとても重要な気がします:

http://japan.zdnet.com/news/internet/story/0,2000056185,2...

オンライン顧客コミュニティのためのベストプラクティス
1.コミュニティのニーズを第一に考える。
2.コミュニティはほとんどの場合は技術的な問題ではない。→例外はあるけど
3.積極的なコミュニティ管理が必要不可欠である。
4.コミュニティの成功を測るためには、新しい基準が必要となる。
5.顧客ソーシャルネットワーク、草の根顧客コミュニティ、企業が開始した顧客コミュニティは密接に関連はしているが、まったく異なる生き物だ。
6.顧客コミュニティはマーケティングチャネルとして機能するが、その形は従来のものとは異なる。
7.企業の参加度が高いほど、コミュニティもうまく働く。
8.コミュニティがアイデンティティを発見するまでは、成長は起こらない。
9.コミュニティを共同で所有しコントロールすることが、信頼と関与を生む。
10.多くのコミュニティは非常に社会的な存在であり、社会的なルールが適用される。
11.コミュニティに近寄ってもらうのではなく、コミュニティの方へ近づくことは、リスクもあるがより発展性のある戦略だ。
12.コミュニティを企業の他のCRM関係の側面と結びつける。
  

 得体のしれないところのあるコミュニティに謙虚な視線を貫くことで、あまり自信満々な記事になっていないところが交換もてますね!

 

最後は、もっと広く、SaaS 、クラウドが小見出しになっちゃうような大きな話題です。MSのSharePoint が他の大テーマと同格に扱われているので驚いた、というのがpick upした理由。
スペシャル ≫ 特集 ≫ IT業界を生き抜く秘密10箇条

■低コスト・高価値のWeb 2.0戦略10選

http://japan.zdnet.com/sp/feature/07tenthings/story/0,3800082984,20398002-2,00.htm
1: 基本に戻る: 自社のウェブサイトを整える
2: ウェブ開発フレームワーク(ブラウザ、フロントエンド)
3: ウェブ開発フレームワーク(ブラウザ、バックエンド)

4: Microsoft SharePoint  →文書共有ツールから、様々なソーシャル機能搭載「無料版であるWindows SharePoint Servicesは、Windowsに付属しているものだが、ビジネスインテリジェンス、報告、統合などの機能がある上に、一つのアプリケーション開発プラットフォームでもある」

5: SaaS
6: クラウドコンピューティング
7: マイクロブログ
8: 社内ソーシャルネットワーキング
9: 開発者と財務部門の間のギャップを埋める
10: 小さく考える

まわりが非常に大まかなテーマのキーワードであるのに対し、4: Microsoft SharePoint  だけ、突出して具体的なので驚いた次第です。関連していくつかビジネスの芽を見つけましたが、、また育ちかけてきたらご報告できるかもしれません。
 
 


カテゴリー: business, social, semantic

Good!獲得数: 46

アクセス: 1533
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年07月22日

7/22次世代Web活用部会, 7/23ビジネス専用SNSセミナー

東京でも間もなく始まる75%の部分日食を楽しみにしてましたが、あいにくの空模様です。なんとなく暗く、寒くなる(94年にボストンで真夏に皆既日食を体験したとき「寒さ」が強烈に印象的でした)、という以外は期待できなさそうです。せっかく、NASA認定の眼鏡を5つ用意して、 日食観察の準備完了だったのに少し残念。
 
でも、本日、明日はその後がお楽しみです。

7/22次世代Web活用部会

http://www.atmarkit.co.jp/event/calendar/detail.php?event_id=21328 今年、10年目の節目で最終年度を迎えそうなXMLコンソーシアムの、Web2.0部会改め、次世代Web活用部会の最初の月例会です。非会員様のお試し参加含め、もちろん無料。先端ビジネス、Webの尖った知識、人脈を得る絶好のチャンスではないでしょうか。本日突然の来訪でも歓迎いたします。

=======================================
★第1回XMLコンソーシアム 次世代Web活用部会
7月22日13時30分〜17時15分
於 アカデミー茗台 7階洋室 定員30名
http://www.city.bunkyo.lg.jp/gmap/detail.php?id=1995
東京都文京区春日2-9-5
電話番号:03-3817-8306
=======================================

■アジェンダ:
13:30〜14:10
・『Handbookサービスについて』
〜ブログ感覚でiPhone/iPodTouch用コンテンツ作成・配信
 講演:穴沢悦子(インフォテリア スマートソフトウェアビジネス部長)
http://ja.ihandbookstudio.net/what-is-handbook

14:10〜14:30
・『Reflex iTextサービスについて』
〜クラウドならではの無限のスケーラビリティを簡単に体験
 講演:竹嵜伸一郎(バーチャルテクノロジー 代表取締役)
http://blog.virtual-tech.net/2009/06/reflex-itext-google-app-enginepdf.html

14:30〜15:15
・『社内SNS、マーケティングSNSの運営者はセマンティック技術で大助かりになるか?』 
 デモ&ネタ提供:野村直之(メタデータ 代表取締役)
http://www.next-communication-marketing.net/program/pr_b.html#b14
→XMLコンソーシアム後援イベントでの講演「安心して情報共有できる社内SNSやリスクに強いマーケティングSNSには何が必要?」

         〜休憩〜

15時30分〜17時15分
・次世代Web活用部会の活動紹介
・活動形態、テーマ、ネタの募集、ブレスト
・今年度目標(成果物)
・リーダ選出、他
・まとめと次回日程、アジェンダ

ご参考:
「次世代Web活用部会ワイガヤ会議室 (旧Web2.0部会)」
http://sns.xmlconsortium.org/wg-web20
「ビジネスモデル学会第10回KM研究会「ソーシャル vs セマンティック」」:
http://www.biz-model.org/modules/news/article.php?storyid=52

 

7/23ビジネス専用SNSセミナー

http://www.atmarkit.co.jp/event/calendar/detail.php?event_id=21341&genre_id=18 23日午後は、春日・後楽園駅3階(エリアは障害者会館)のC会議室で、上記アジェンダ 『社内SNS、マーケティングSNSの運営者はセマンティック技術で大助かりになるか?』 を技術ではなく、あくまでサービス、ソリューションとして、現場にどんな御利益があるか、ノーツ後継・代替ソリューションになれそうか、など利用者サイドの視点でご紹介いたします。
http://www.mextractr.net/seminar09723
多くの「ビジネスSNS」は、実際には、汎用のSNSパッケージ、一般個人会員向けSNSサービスと大差ないものを案件ごとにデザイン、カスタマイズして提供されていたもののように見えます。・・・
少々、挑発的ですね。(笑)
社内SNS特有のニーズには、例えば次のようなものがあったのではないでしょうか?
  • 「部外秘から顧客情報や値引き価格情報などを除いて素早く情報共有したい」
  • 「ミーティングの予定調整に多大な時間を費やしている中間管理職が予定を素早く確実に登録・変更して関係者に周知。背景情報(例:事前配布文書)なども瞬時に共有したい」
  • 「本業が激務のため社内掲示板が閑古鳥だったのを、他の社内外のWebから10秒で記事をクリッピング、引用してコメント添えられるようにして活性化したい」
  • 「記事を書いているときにイントラ上の関連文書を苦労せずに参照したい」
 基本コンセプトは:
★中間管理職主導で本業のナレッジワークに有効(仕事の創造性向上、高速化、効率化、コスト削減)な初めてのビジネスSNS
というものです。

 
もう1つ、不特定多数の消費者、一般顧客が書き込めるマーケティングSNSの問題解決策をご紹介。外に開かれたSNSのための、有害情報自動監視&自主訂正促進、という全く新しい次世代のセマンティックサービスです。青少年ネット規制法対抗策として大変強力。人間に(砂を噛むような有害情報監視ばかりなどという)不毛な仕事をさせない!という、信念、ビジョンで創り上げたエンジン、システムです。
 
23日午後も、まだ若干空席があり、受付中です(もちろん無料)
 上記URLからどうぞお申し込みください。
 
なお、来月は、8/25に同じ会場A会議室にて、エンタープライズ・サーチにおける5W1Hメタデータ検索の利便性をテーマにする予定です。テーマ、内容について、本欄からもご意見承りたいと存じます。どうぞよろしくお願いいたします。
 

 

 

 

カテゴリー: Cloud, Mextractr, business, social, semantic

Good!獲得数: 12

アクセス: 1334

 
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年07月10日

セマンティック技術で強化したSNS 2製品を発表しました

  来週の講演展示会2日半(前日の東京国際フォーラムへの搬入準備含め)の準備と、XMLコンソーシアムの主宰部会の準備、そして、講演の満席御礼セミナーの準備で大忙しの日々です。
セマンティック技術で強化したSNS 2製品のプレスリリース文はこちらです:『LAN上のWord/Excel関連文書を5W1Hで自動検索、部署単位で社内外と連携、有害情報フィルタを搭載したビジネスSNS新製品2点を発売
※画面中心の補足資料はこちら
  斬新な機能が半ダースほど入ってますので、少しずつご紹介したいと思います。いっぺんに聴いて、導入検討してみよう、という方は、 満席御礼セミナー「ビジネス専用SNS、社内SNS、企業間SNS、マーケティングSNSについて」へ足をお運びくださると、効率良いかと存じます。
※画面例さえ見ればすべてわかる!という向きは、
  http://www.metadata.co.jp を17.5秒間見つめてください。
 5コマの象徴的な画面を、3.5秒間ずつ表示しております。画像をクリックすると、解説のあるサイトへ跳んでまいります。
 

文脈で判定結果の変わる有害情報フィルタ

   さて、以下で、のっけから、アダルトな文例が登場して恐縮です。※お客様と話す際には、「朝っぱらから」「昼間っから」などと申しております。
 
  ガーラさん他、多くの事業者さんが、用語リストにある単語や文字列を含む文章を、要注意として管理者に通知して見せる、という素朴な処理を行っておられます。その場合、「改行コードを【挿入】」を問題視してしまったり、という勇み足もかなりやらかしてしまいます。逆に、個々の単語自体は問題ないのに、組み合わさると明らかにエロい場合、検出できなくなってしまいます。
例: 私、例の大学教授と、昨日、結局、寝ちゃった。
 もちろん、大学教授 【が】 試験監督中に寝たりするのは全然問題ないわけです。(職務怠慢かどうかは別として ;-)
 
 特許と絡むので、どんな仕組みで、文脈の中で問題となる表現かどうかを判定しているかの詳細は書けませんが、下記のような識別ができます:
例: 釘を刺す→OK、お前を刺す→NG
    バイクに跨る→OK、顔に跨る→NG
    体を被せる(幼児を守って)→OK 体を激しく重ねる→NG
 
  なぜこんな仕組みが必要かというと、現在、もっぱら人手で監視している、いわゆる有害情報の識別を、少しでも多く自動化しなければならないからです。2009年4月施行の、(悪名高き)青少年ネット規制法。規制内容、条件がいくら曖昧で問題といっても、実際に小学生をもつ親としては、ネット上のコンテンツを自動で分類し、せめて年齢認証画面を通らねば見れない場所に区別して置いておいて欲しい、とは願うわけです。
 「誰かが不快になる」という基準ではあまりに主観的で多彩すぎると思われます。ですので、「PTA的基準で、まだ性教育も受けていない自分の子供に見せられない。意味がわかったら困っちゃう。」というものを、レンタルDVDショップのアダルトコーナーののれんの奥みたいなページにしまっておきたい、というわけです。
 ここで問題になるのが、誰でも書き込める掲示板やコメント欄。同法によれば、いわゆるCGM、第三者の書き込みであっても「サーバー管理者」 が一定の責任を負い、排除、削除する努力義務がうたわれています。その解釈、運用次第では、他社の無料CMS上で書いているブログのコメント欄のアダルトな書き込みや犯行予告を放置しただけで、罪に問われる(禁固刑または罰金刑)可能性が出てこないとも限らない、という状況にあります。
 ※「悪法も法なり」のソクラテスほど私は杓子定規じゃありません。実際、児童ポルノの単純所持禁止の法案については、ちょっと皮肉を込めてこんなブログを書いています。しかし、自由な言論のためにこそ、子供など弱者のためのルールが必要、とも考えるので、青少年ネット規制法にも一理ある、と思っています。
 さて、マーケティングSNSの話題です。「グランズウェル」の流れ、うねりは押しとどめようもなく、多くの企業は、Web2.0のサービスに馴れた消費者と対等目線で付き合う必要に迫られています。その有力なツールが、マーケティングSNSです。
 4,5年前から、海外ではハーレー・ダビッドソンのバイク・ユーザ向けSNSや、国内ではANAフレンドパークなど、消費者サービスや、顧客の本音の声に耳を傾けることのできるマーケティングSNSが一定の成功を収めてきました。早期に採用した企業の英断は立派だったと思います。未だに、「何を書き込まれるかわからないので怖くて出来ない」という企業が大半のようにみえるからです。
 それにも一理あります。マーケティングSNSには、外部の一般ユーザがうっかりと、あるいは故意に有害な情報を書き込んでしまうリスクがあります。未成年が加入できるSNSの場合、状況は日々深刻化しています。昨年暮頃から、DeNAさんは新潟に450人の監視センターを立ち上げて巨額の経費をかけておられます。Mixiの監視担当も100人規模以上で、いたちごっこのような毎日に疲弊しておられるといううわさを聞きます。
 

人手による監視の何がどう問題なのか? 機械は何が得意か?

 莫大な人件費、という以外に次の点をあげることができます。

「人手による監視は完璧にはほど遠い」:
・網羅されにくい。意外に精度が低い。
 飽きていない状態で85%程度の網羅。間違って削除することもある。

・基準が不統一 →ユーザの離反や炎上の危険
 個人間で意見が分かれる。
 基準が共有されない。
 同一人物でも文脈や気分で判断が揺れる

・遅れが発生 (非real time) →書き込んだ直後に掲載保留、などは不可能。
 
これを裏返すと、高精度な解析能力を備えた機械の優位点が浮かび上がってきます:

・網羅性 
 厭くことなく高速に網羅的にチェック可能
 適合率と再現率のバランスの調整が可能
   ↑勇み足許容度 vs 取りこぼし許容度
・高精度
 ベースライン精度を機械が確保。人間がエディタで効率良く修正。
・基準が統一 
 ユーザ辞書の形で複数の基準を設定し共有可能
・リアルタイム性
 「疑い有」を公開せずに保留できる。セルフ編集を促したり、コミュ内で民主的に協同編集も可能。

 
「適合率と再現率のバランスの調整が可能 (勇み足許容度 vs 取りこぼし許容度)」は、次を意味します。
「少しでも疑いあれば漏らさないように」「その代わり、拾ったものの半分は有害でない」ように、というチューニングが可能。逆に「拾ったものは90%以上有害だけど、半分くらい取りこぼす」というチューニングもできる。辞書の中の有害度合いの候補情報や、文脈をどこまで拾うかのパラメータの変更で、これらは可能になります。
 人間が、「前回は小学4年以下に有害という基準でやったけど、今回は中学2年以下に有害という基準でお願いします」と言われて、そのようにコントロールできる可能性は非常に低いと言わざるを得ません。仮にできるとするなら、大部の冊子にまとめた基準、判定ガイドラインとくびっぴきで、膨大な時間をかけて1つ1つチェックシートを埋め、過去の類例を検索して参照しながら判断した場合に限られるでしょう。同じ知識(基準、判定ガイドライン)を実装してしまえば、機械のスピードと正確さに叶うはずがない、といえるでしょう。
  また、判定しているのが機械だ、とわかれば、判定を受けた人はべつに怒りがわいてきたりしないのではないでしょうか? せいぜい、「またか。面倒だなぁ」と苦笑しながら、編集してみる、という人が多いのではないでしょうか。人的監視と警告の場合、「あのコミュは潰してないのに、、あの記事は削除してないのに、どうして俺のだけ!?」という憤りを逃れることはできないでしょう。微妙な総合判断の根拠を完璧に論理的に言い尽くせるものではありません。ですので、問答無用で不公平(とユーザには思われる)な処分を続けることになります。
 これではわざわざ莫大なお金をかけて、炎上の火種を植えて歩いているようなものですが、それでもやらざるを得ない、という経営判断をされているはず。そして、不毛で辛い、人手の監視業務をずーっと続ける人がどんどん増員されていく。365日24時間3交代制の監視センターの光景など、想像しただけでも気が滅入ってきます。
 何より、人をいくら増やしても、詳細な判断条件、ノウハウが蓄積され、どんどん再利用できるようになるわけではありません。逆に、不統一ぶりがどんどん拡大していくことでしょう。機械による自動判定の結果を、書いた本人や管理人が判断、コメントを加えることで、統一的な基準を充実させ、よりきめ細かく判定できるように一様に改善していくことも可能になります。対象となったフレーズと、その意味解釈結果(人によって異なります)、判定結果、判定理由等を記録し、紐付け、検索可能な形で共有し、再利用していく。ある程度は人手による運用も可能かもしれませんが、やはり、自動判定ツールを中心とした、知識管理システムを導入するのが理想かと思われます。
 それでも最後はイタチごっこかもしれません。でも、それはそれで良いと思います。エロティックな表現はとても豊かでクリエイティブなものです。クリエイティブな文学表現を奪ってはいけません。ただ、子供から隔離できるように、創造性に敬意を表しつつ、追随し、精度を恒常的に高めていく仕組みを作るべきだ、と考えるのであります。
 最後に一言。 有害情報フィルタを使って、
枕を高くして“グランズウェル”を実践しましょう!
 
※名前の由来など、リンク先↑にございます。
 
 

カテゴリー: Mextractr, business, social, semantic

Good!獲得数: 99

アクセス: 1478

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年07月05日

朝日新聞への提案 〜5W1H分離で再有料化

  今回の買収報道には驚きました。てっきり、広告モデルで収益上げるノウハウ、SEO効果とPV自体をCnet買収で吸収するための策、と思いきや、日経でデジタルメディアを先導されたTさんによれば、For Saleだったのを、asahiパソコンとかがなくなってIT方面が弱くなっていた朝日が、やや何となく引き受けたらしい、という情報があったそうです。
  戦略性が感じられない、ということですが、これはベンチャー設立と同様、事後に戦略を打ち立て、強化しても良いのではないか、と思います。
  そこで、実は以前から、Asahi.comさんに提案していた標記の「再有料化計画」について、Cnetブロッガーとして概要を書いてみます。
 有料記事にするのは良いけれど、ログイン、パスワード入力を必須にすると、検索エンジンにはかからなくなります。最新の注目記事を、そのコンテンツ自体の魅力によって、キーワードから検索してもらえないのでは、記事自体に対価をいただくモデルとして致命的。
 そこで、次のようにします:
■記事から、Mextractr によって、5W1Hを抜き、伏せ字にする。抜いた5W1Hは、タグに、出現順、もしくは、5W1Hごとに50音順に入れてHTMLページを生成。
 その結果ですが、、SEO効果は元記事通りそのまま残ります。いや、事実報道などで最重要の要素、5W1Hがタグに入っているのだから、元記事よりもSEO効果は高くなる可能性も十分あります。
 そして、辿り着いた読者が読む文章はこんな感じです:
【原文】
メタデータ、Web閲覧メモやスケジュールをクラウドにクリッピングする "Mextクリッパー" サービスを無償提供開始 メタデータ株式会社(本社:東京都文京区、代表:野村直之)は4月8日、Web記事やWeb メールの本文からイベント情報や打ち合わせ日時の情報(以下アポ情報)の5W1H(いつ、どこで、何を、等)を抽出して、クラウド上の個人カレンダー、スケジューラの登録画面上の「タイトル」「日時」「場所」等のフォームに自動で振り分けて登録可能とする“Mext クリッパー”サービスの提供を開始した。メリットは、【スケジュール登録が10 秒で完了】、そして【いま注目した情報を逃さずクラウドにクリップ】の2つである。
 
【5W1Hを伏せ字にした結果】
メタデータ、Web閲覧メモやスケジュールをクラウドにクリッピングする "Mextクリッパー" サービスを無償提供開始
【…法人・団体名 1…】(本社:【…住所1(都道府県)…】【…住所1(市区町村)…】、代表:【…個人名1…】)は4月8日、Web記事やWeb メールの本文からイベ ント情報や打ち合わせ日時の情報(以下アポ情報)の5W1H(いつ、どこで、何を、【…個人名2…】)を抽出して、クラウド上の個人カレンダー、スケ ジューラの登録画面上の「タイトル」「日時」「場所」等のフォームに自動で振り分けて登録可能とする“Mext クリッパー”サービスの提供を開始した。 メリットは、【スケジュール登録が10 秒で完了】、そして【いま注目した情報を逃さずクラウドにクリップ】の2つである。
  何か起きた出来事の骨子は十分わかります。それが重要なことであれば、ちゃんと原文の形で読みたくなることでしょう。 ソース中のタグと丹念に対照すれば、読めなくはありません。しかし、より多くの時間とストレスがかかります。
 そこで、「すぐ、ちゃんと読みたいぞ」と思って、「購読」ボタンを押すと、1ヶ月1500円のカード引き落としで読めるようになる、という仕組みです。
  いかがでしょうか?  週刊アスキーの仮想報道の連載の中で歌田明弘さんは、今回だけ新聞社間のカルテル、談合を認めて、一斉に有料化を、という説を唱えておられました。あるいは、大手は潔く会社をたたみ、極小のコストで有料コンテンツを細かく小売りする報道ベンチャーが多数乱立する近未来像についても書いておられました。
  これらと比べて、上記の拙提案には、十分、現実性と、移行性と、日本の風土に合った「軟着陸」のビジネスモデルが含まれているように思うのです。しかし、もちろんAvex主導のCCCDが、「元データを損なう」技術は絶対に受け入れられない、と拒否反応を一部で起こした事実も忘れられません。このときは、レッドブック、オレンジブックなどのCDの規格を破るとともに(構造データがXMLでなくなるようなものか、、)、一部のCDプレーヤーのピックアップがトラッキング迷いで激しく動き、音質の低下のみならず、CDプレーヤーの寿命を縮める可能性があって、批判されました。
 これに比べれば、アスキーテキストの文字コードの規約も、HTMLの規約も完全に守ったまま、また、道具であるPCにも何ら悪影響を与えないまま、正当なSEO効果、即時性、面倒な手続きなく記事全体を眺めることができる、などの点で、「5W1H分離」の提案には一定の優位性があるように思います。
 テクノロジーでカバーできるところはテクノロジーで頑張る。今後の日本経済、日本発のソフトウェア、ネット上のビジネスの進展のためには、「技術は輸入、物まねばかりで寂しい」と言われた悪評を跳ね返しつつ、海外で類例の無い領域を開拓すべきではないでしょうか? そのような芽をみつけるたびに、「ガラパゴス」と言って非難するよりは、同様のテクノロジーとビジネスモデルを海外に輸出することを考えても良いのではないでしょうか?
 
 
 
 
 
 

カテゴリー: Mextractr, business, semantic

Good!獲得数: 204

アクセス: 3750
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2009年06月29日

セマンティックな技術と従来法の境目

 
セマンティックな技術と従来法の境目
 「辞書登録するだけですね?」
「いいえ、違います」
 
 
 
draft
posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic