2015年02月21日

なぜ「データと対話」しなければならないか(その3) 検索の「品質」は企業の命運すら左右する!

 本ブログの以前の回「ビッグデータが変えた『知識よりもデータが偉い?』 」では、それがどういうことか、何を意味するのか、明快な回答を出しきれませんでした。記事中の「知識と情報の違いをどう捉えるか」の項では、情報検索と知識検索の違いにまでは踏み込みませんでした。

 とは言え今日、単なる情報検索ならウェブと一部の専門検索エンジンでできますし、知識検索なら辞書やWikipediaのような百科事典的サイト、また、特定の目的に沿って問題解決の手順や処方箋に近い知識の記述を求めるならば人力検索サイトに頼る方法がある(まだ回答がなければ質問を投げておくこともできる!)ということを、情報リテラシーのある人なら皆知っています。

 お盆の時期に、戦争と平和、国民主権と民主主義(経済奴隷でないことも含む)について考えながら、ふと気づきました。2010年以降のビッグデータの時代に、知識よりデータが偉いのは当たり前である、と。

 上に記した知識検索の方法により、既に知られている知識や問題解決方法は容易に素早く手に入るようになりました。言い換えれば、既存の知識は前世紀に比べてはるかに安く、多くの場合「無料」で入手できるようになりました。しかし、未知の知識、問題解決方法、その前提としての現状把握、その原因分析(なぜこんな数字になったのか?など)について言えば、生データを適切なツールを通して解析し、試行錯誤(データと対話!)を繰り返さねばなりません。その分析能力には、属人性や能力差が存在し続けます。

 ビッグデータ活用のためにコストをかける大きな理由は、そこに前人未踏の新発見、問題解決のための新知識の創造、そして、それらの業務化による競争力確保ができるという期待、見込みがあるからです。流通した途端にタダ同然となる既存知識と違って、未知の、まだ囲い込み可能な新知識は百万倍もの価値があるでしょう。それを生み出せる源泉こそが生データ。だから「データの方が(既存)知識より偉い」のです。

 知識発見のためには、データを適切なツールによって眺めて絞り込み、構造化・再編成し、再び不足データ、関連データを補充してから絞り込む、といったデータとの対話が必須です。すなわち、データと対話することがインテリジェンスの発見、新知識の創造プロセスの勘所、本質であり、極めて重要なのであります。ちなみに、アライドアーキテクツ社とメタデータ社が8月15日に共同発表した「ソーシャルアナライザー」は、データとの対話をスムーズに支援する機能を備えており、適切な検索式セットをコンサルティングして提供するオプションメニューを持つサービスです。

 目的志向、問題解決志向で、データ収集の上流段階からその吟味、加工、構造化、見える化、そして、人の頭脳による分析に至るまで「データと対話」し、「洞察」→「仮説発見(着想)」→「検証」→…というサイクルを繰り返し、必要に応じて前工程へとフィードバックをかける。これなくしては、無駄に大量データを購入させられたり、見当違いのデータをモニタリングし続けることになります。いくら洞察を得たくとも、低品質なデータのままでは「無い袖は振れない」状態にとどまってしまいます。

検索精度の評価指標、「適合率」と「再現率」

 前回は、外食検索サイトの検索窓に最も多く投入されるキーワードの1つが「ビール」だというトピックをご紹介し、一般ユーザーは多くの場合、検索対象について明確なイメージや具体的な条件、制約条件を描かないまま検索に臨んでいる、と指摘しました。

 そのような時に、ウェブサイト側から対話的に知識を提供しつつ、ユーザーの潜在的な願望を具体化、顕在化させていくプロセスには様々な可能性があり、認知心理学の助けを借りても不十分と考えられます。実際のデータそのものが多彩であり、ユーザーの個性も多様だからです。

 そこで、ここでは仮にユーザーの目標、狙っている検索対象のイメージが明確であり、検索の「正解」が揺らぎなく定まっているものと仮定します。「本当の正解の集まりA」と、「システムの出力の集まりS」を並べて表現した下の図をご覧ください。私くらいまでの中年世代なら、小中学校で習った「集合」のベン図(Venn’s Diagram)だ、懐かしい!と思い出されるでしょう。

[画像クリックで拡大表示]

 AとSの重なり部分(集合論では“交わり”と呼びます)が、システムが正しくヒットさせた正解の集まりHとなります。この検索がどれくらい良かったのか?といわれたら、

システムが正解としたSのうちどれだけが本当の正解だったか H/S = P
本当の正解Aのうち、どれだけシステムがカバーできたか H/A = R

 この2つが基本的な評価指標となります。

 PはPrecisionの頭文字。日本語では、「適合率」といいます。これは、狭義の精度といえますが、直観に訴える表現としては、「ランキング中の間違ったヒットの少なさ」と言い換えても良いでしょう。

 Rは、Recall の頭文字。日本語では、「再現率」といいます。どちらも分かりにくいですね。これはずばり、「カバレージ」、「(本当の正解からの)取りこぼしの少なさ」と言い換えれば、しっくりくるかと思います。

どちらの指標を重視するかは局面によって変わる

 正解が定義できている限り(実世界ではこれが難しいのですが)、このP=「適合率」とR=「再現率」をうまく使い分けることで、ゴールへ向けて、正しくデータとの対話を進め、必要な知識や法則を発見しやすくなります。このPとRの使い分けについて、技術開発系の企業で従来から幅広く業務化されていた「特許サーチ」を題材に考えてみましょう。

 2006年度と2007年度、同志社大学ビジネススクールに招かれて、技術評価について各3回の講義と、実習レポートを担当した時のことです。

 まず、ある企業の中で特許サーチを行って、新規事業向けの技術開発を社内で行うべきか否かを決める局面を想定してみてましょう。次に、もう製品発表間近で、念のためにビジネスモデル特許の類を含めて、他社の特許を侵害していないか調べる局面です。同じ特許サーチでも、PとRについて対照的な結果となります。以下、レポートを公開評価していた時の議論の概要です:

  1. 特許サーチは、自社の技術開発ならびにその知的財産権確保、ひいては安心して関連製品を製造販売できるようにするための極めて重要なタスク
  2. 特に、研究開発投資を行い、製造せんばかりになって、それどころか量産後に、あるいは一定量販売後に、先行他社による類似特許が見つかったとあっては、賠償金の支払いや製品回収、製造販売差し止め(特許権は超強力!)を食らいかねない、悲惨な事態に陥る
  3. かといって、 特許サーチに縛られて研究者の自由な発想がしぼんでしまっては元も子もない
  4. そこで、ブレインストーミングを何度か繰り返して研究テーマを選び、絞る上流工程において、自社の強みを技術面で評価、確認するなどの目的で特許サーチを行う。この主目的は、【読むに値する、非常に参考になる関連特許を適量発見】することになる。故に、読み手である技術者にとってノイズまみれでなく、狙ったテーマについて高い比率で、欲しかった特許明細書が多く含まれることが望ましい。すなわち、P=適合率重視!
  5. 一方、テーマが確定、固定し、研究成果が出ることが確実になって、そこから生み出される商品スペックがある程度固まってきた時には、万が一にも、ほぼ同一の先行発明があっては、将来、上記2のような多大な損害を被り得る。そこで、自社特許内容とよく似た特許が存在していたら1つの取りこぼしもないことを目標に、検索できなければならない。すなわち、R=再現率重視!

 いかがでしょうか? 同じ特許サーチでも、その正しさ、適切さの評価基準が、研究開発のフェーズが上流か、下流かによって、P重視、R重視、と変わっていくことがイメージできたら幸いです。

 また、特許サーチという業務が、まさに「データと対話」する作業であることもイメージできたのではないかと思います。すなわち、上流では、最初の検索試行の結果を見て探索の方向を切り替え、ブレインストーミングの進行に合わせて、重点サーチ対象をシフトしていき、サーチ結果を分析、咀嚼して、テーマ自体に修正を加える、といった作業となります。高度に創造的な作業が、「データと対話」しながら行われていくわけであります。

 下流工程の場合、R重視、すなわち、取りこぼしを極限まで減らすべく、同じ内容なのに全然違う言い回し、表現が使われていないか、「データと対話」しながら調べていく感じです。ある程度見つかった類似特許中の表現、その特許が引用している文献中での、鍵となる概念の呼称や言い換えなどを、試行錯誤を繰り返しながら網羅していくわけです。こちらはあまり創造的ではないにせよ、実在のデータと対話しない限り、R=再現率を向上させるのが不可能なことは明らかだと思います。

 まとめとして、少し強引かもしれませんが、次のように話を一般化することができると思います。

 ビッグデータ分析の目下の主目的が、

  • 「発見」であるときは、P=適合率重視のアプローチで、
  • 「業務化」であるときは、R=再現率重視のアプローチで、

 それぞれ中間結果を評価しながら、分析を進めていくこと。

 これが、データとの対話を進めてビッグデータ活用を成功させる鍵の1つではないでしょうか。


posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | AI

2015年01月24日

なぜ「データと対話」しなければならないか(その1) 富士急「で」出かける? 富士急「に」出かける?

 本連載では一貫して分析のあり方、大切さをテーマとしていますが、「ビッグデータの時代」という言葉を表面的に解釈すれば、大量のデータが溢れているのだな、HDDをはじめとするストレージが必要、重要なのだな、というイメージが湧いてきてもおかしくありません。

 今回は、現状、骨の折れる作業となっている大量のデータ集めに際して、どんなデータをどう集めるか、どう(どんな構造で)溜めるかという課題を論じてみたいと思います。闇雲に、乱暴にやるのでなく、「データと対話」しながら収集量を抑え、検索・収集法を微妙にコントロールして変え、利用目的をある程度は考慮して適切な構造で溜めるべし、という方向性を推奨してまいります。

大容量ストレージの価格、再び低下

 半導体の場合のムーアの法則(集積密度が18〜24カ月ごとに倍になる)に準じて、HDDについてもここ数十年間、一貫して容量増・高密度化が起こり、劇的にコストパフォーマンスは改善されてきました。しかし、数年前のタイの水害で、それがぴたっと止まり、しばらく一定価格で推移してきましたが、ここへ来て競争再開。価格低下と大容量・高密度化が動き始めました。

 Akiba PC HotlineのPCパーツ相場情報は開始以来、好きで眺めていました。先日しばらくぶりに見たところ(5末版)、大容量化・低価格化再開の様子を具体的に実感することができました。

  • ・6TB(テラバイト)のHDDが現実的な価格(3万円台前半)に
  • ・2.5インチの1.5TB 9.5mm厚(PS4内蔵HDDの換装に使える)が1万円を割った
  • ・「HDDを100TB分購入するともれなくPS4をプレゼントされるキャンペーン」

 3つ目のキャンペーンのニュースは、「個人で100TBのストレージ容量を所有する人が普通に出てくる」という想定もさることながら、データのストレージこそが主役(お金を払う対象)であり、PS4、すなわち高性能なコンピュータ本体が「おまけ」とされていることに感慨を覚えます。

 企業向けのディスクアレイや、インテリジェント・ストレージ(データベース機能搭載)の値段は大変高いので、個人としてはピンときませんが、上記のような個人向けストレージの動向から、ビッグデータ、大量データが主役の時代になったのを感じることができます。

データは分析・活用のために収集するもの

 連載初回に掲載した図を再掲します。

「ビッグデータの活用の上流から下流まで 〜情報/データのライフサイクルに即して」

 初回には、現状では下流工程の分析、活用にまだまだ踏み込めていないが、分析、活用こそが大事である、と書きました。上図を下から上に眺めれば、本来は、活用の狙いを定めてから、どんな分析を行うかを考え、設計し、それに合わせて上流のデータ収集、加工にあたるべきことまで示唆されている、と言えるのではないでしょうか。

   ストレージなど、ハードウェアの価格は大きく低下し、業務によってはコスト全体に占める割合が無視できるくらいになってきています。コストに占める割合が大きいのは、データの取得、入手と保存を適切に正しく行い、扱いやすい構造のデータベースに落とすまでの人件費等です。データ内容の過不足、誤り、重複、形式の不統一を調整するデータ・クリーニングの外注費だったり、その支援ソフトウェアの代金だったり、はたまた、なぜか無料で全世界に公開されているデータを購入するための代金だったり。これらの出費も、現状では馬鹿にならないと思われます。

 ここのデータ収集が結局有料で大きなコストがかかるならば、狙いから外れた対象の社外データを無駄に購入するなどという余計な出費をなくし、集めたデータが何度でも有効に活用されるよう運用しなければならないでしょう。以下、データ収集自体を効率よく行うために、「データと対話」すべきことを書きます。

結果を見るまでは、どんな検索式が適切か分からない

 社内データも社外データも、一般に全量を眺めるのは無理ですから、必ず、検索・絞り込みの作業が入ります。このときの検索条件(以下「検索式」と呼びます)をどうしたら良いか。「そんなの最初に決めたキーワードを入れるだけじゃないか」と言う人は、適切なデータ収集を行った実務経験があまりない人だと思われます。

   まずはごく単純に、「商品名」「ブランド名」「地名」等の固有名詞の例を見てみます。

例:「ジョージア」
 広告宣伝が功を奏したようで、缶コーヒーのジョージアのオフィシャルサイトが、Googleでもbingでも検索結果のトップに来ました。缶コーヒーのWikipedia解説ページやFacebookページ、日本コカ・コーラ株式会社のページに交じって、当然ながら上位に、「(米)ジョージア州」についてのページ(Wikipedia、bingマップ)が食い込んできます。

 そして、今回「データと対話」してみて私が初めて知ったのが、次の2つです。

週刊ジョージア
週刊ジョージアは、働く男たちを手のひらから応援するスマホ・マガジンです。グラビアあり、コミックあり、エンタメありと盛りだくさん!月〜日で毎日更新!!

ジョージア魂賞 〜選べ、チームのためのベストプレー〜 | 日本 ...
ファン投票で選ぶベストプレー「ジョージア魂賞」!投票すると毎回豪華賞品が当たるチャンス!今すぐ投票してみよう!! NPB.or.jp 日本野球機構オフィシャルサイト NPBトップ 読売ジャイアンツ 中日ドラゴンズ 東京ヤクルトスワローズ ...

 それぞれGoogle検索のtop 10、bing検索のtop 10に1つずつ見つかりました。

 ツイッターなどで、缶コーヒーについての口コミだけを調べたい、あるいは米国の州についてだけ調べたい、スマホ週刊誌についてだけ調べたい、などの時には検索式を工夫する必要があるな、とすぐにお察しと思います。仮に、100%の精度がほしい、すなわち、取りこぼしもなく、勇み足もない(検索結果に別の意味の「ジョージア」がない)ようにデータ収集しろ、と言われたら結構難しいだろう、とも思われたかと思います。検索結果の2ページ目以降も徹底精査し、「ジョージア」が出てくる文脈の前後に出てくる特徴的な言い回しや記号にも着目して、排除する条件として検索式を長くしていく必要があるからです。

 日本語の「ジョージア」はまだ、英語のGeorgiaよりマシであることは、旧ソ連崩壊の時期に最新情報を英語で見張っていた多くの人が知ったことと思います。“Georgia”と1語、全く同じ綴りで、旧ソ連・中央アジアの「グルジア共和国」のことも意味するからです。もちろん、日本人のほとんどが知らないような商品名、ブランド名が海外で使われているかもしれない。英数字列の言葉は、たとえ日本語を検索しようとしても、社外データを収集する際には常にこのような「同綴り異語」の問題がつきまといます。

多義性問題を解決する「係り受けランキング」

 同じ言葉が違う意味で使われる問題(多義性問題といいます)も厄介で、技術だけでは解決しきれないのが現状です。

例:「富士急」
 え? 何が問題なんだろう? とお思いになった方もいらっしゃるでしょう。

 人間は、文脈や状況に応じて、いとも簡単に言葉の意味を無意識に選び取っているため、何が難しいのか分からないという疑問が湧いてくるのです。

 「富士急」という固有名詞ですが、ざっと挙げただけで3つの違う意味があります。それを、主語-述語や目的語-述語などの係り受け関係でみてみましょう。

A)富士急が・・・急騰
B)富士急で・・・出かける
C)富士急に・・・出かける

 もうお分かりですね。A)は、富士急行株式会社の株のこと(東証9010)、B)は、富士急行線の鉄道路線、C)は富士急ハイランドという遊園地のことを意味します。

 このように、係り受け関係が定まると、意味やテーマが急激に絞り込まれます(完全にではありません)。このため、係り受け関係でランキングするだけで、多義性問題の多くが解決でき、文章のテーマ、例えばお客様の声をアンケート等で調査した結果、自由回答文章に多く含まれるテーマを上位から抽出し、人間によるまとめあげと分析、対策立案へとつなげることができます。

 メタデータ社の製品「アンケート分析Pro」には、同じ係り受けの組み合わせの出現数をクリックすると元記事を瞬時に参照できる機能が搭載されています。前後関係からも重要テキストを選別してまとめて「フルテキスト類似検索」の検索窓に入れると、全体として似た文章を上位から類似度順に並べてくれるので、お客様の声の中で目立ったいくつかのテーマごとに、ほぼ同趣旨の声をおおよそ網羅する作業も非常に短時間で完了します。

 次の図は、昨年の東京五輪決定の前後1カ月に「#東京五輪」を含むツイッターの書き込み数千件に対して、回答者属性と「五輪決定がうれしいか」「2020年に向けて景気は良くなるか」の選択肢回答を付加した疑似アンケートを「アンケート分析Pro」にかけた結果です。自由回答に模したツイート中に 「予」の字を含むものから抽出した係り受け(活用形は基本形に変換)のランキングを示しています。さまざまな想定内の予定の類を差し置いて、超能力少年が2020年の未来都市東京で活躍する大友克洋氏のマンガ「AKIRA」 が、30年前に2020年東京五輪を「予言」していた驚き、というテーマが上位を占めていることが一目瞭然です。

[画像クリックで拡大表示]

 ここで、前ページの図で赤く囲った「選手−予定」が面白そうだったので、件数の「3」をクリックし、この係り受けを含む記事を表示させると:

[画像クリックで拡大表示]

 この3件のテキストを全部つないで、検索式として(!)、類似検索の画面に投入した結果が下図です。

[画像クリックで拡大表示]

 3件のうち一つが、データベース全体の中でとりわけ特徴的な(他にあまり出てこない)、選手村の除染をテーマにした書き込みだったため、最上位にその書き込みが来ました。類似度ランキングは、右端の棒グラフと類似度・関連度の数値でご確認ください。

 他の2件が、2位、3位、と続いた後、選手村予定地付近の不動産の売れ行きの記事や、テロ対策、選手村も絡む経済効果、などの記事が続きます。一番下の書き込みは「東京五輪コンドーム戦争」という産経新聞記事の引用です。選手村に絡めて、早くもこんな裏話が出てきたかと苦笑させられました。全産業が色めき立っているかの様子が素早く発見できたのは、この「係り受けランキング」から「類似検索」を連携させた結果ならではの収穫でした。

「分かち書き」に起因する問題も残る

 技術的には順番が前後した形になりますが、表記上の問題で、検索・絞り込み・データ収集で大きなノイズが出てきてしまうことがあります。これは「分かち書き」をしない日本語のような言語で顕著です。下記は実際に困っている状況を目にした例です:

例:GAGA →「誰か【がが】まんしなければ」
  義経 →「資本主【義経】済と社会主【義経】済」

 検索エンジンやデータベースの絞り込みに際して、「気を利かせた」つもりで、異表記に自動展開されてしまうことがあります。GAGA→「がが」など、常識ある社会人ならば、そんな展開は有害無益と分かっていても、ソフトウェアがそのような仕様で動作し、しかも、単語でなく、文字列の一致で処理されてしまうと、上例のようなおかしな検索結果が出てきてしまいます。

 2番目の「義経」問題ですが、実際に、某図書館で老婦人が「義経千本桜」の解説書を見つけようとして、マルクス、エンゲルス、レーニンの著作ばかりがヒットした現場を目撃したことがあります。老婦人は茫然として固まってしまいました。あまりの落差に「機械が壊れている」と思われても仕方がありません。

 この問題の解決には、分かち書きをして単語の切り出しとその基本属性(名詞、動詞、など)を決めた上で単語検索を行い(活用形の文字面が違っていても原則一致させます)、どうしても取りこぼしが出てきた時のために補助的に文字列検索も併用する、というやり方をとる以外には良策はなさそうです。

 分かち書きも、かな漢字変換と同様、永久に精度100%にはならないでしょう。「東京都」→「東京|都 →とうきょうと」なのか、それとも「東|京都 →ひがしきょうと」なのか。前者が多く出てくるだけで、後者でないとは言い切れないことから、人間でも間違えることがあるわけですから。

 次回は、「口パク」や「東京五輪」などの例を手掛かりに、単語切り出しの曖昧さも、同綴り異語の問題も、単語の多義性の問題もクリアしているにもかかわらず、実際にどのイベントに言及しているかの曖昧性があるためにデータ収集にノイズが入る問題を取り上げます。また、100%の精度が望めない(かな漢字変換なんかもそうですね!)時に、どのように実用的な精度を達成するかを評価する指標についてご紹介する予定です。




posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | AI