本ブログの以前の回「ビッグデータが変えた『知識よりもデータが偉い?』 」では、それがどういうことか、何を意味するのか、明快な回答を出しきれませんでした。記事中の「知識と情報の違いをどう捉えるか」の項では、情報検索と知識検索の違いにまでは踏み込みませんでした。
とは言え今日、単なる情報検索ならウェブと一部の専門検索エンジンでできますし、知識検索なら辞書やWikipediaのような百科事典的サイト、また、特定の目的に沿って問題解決の手順や処方箋に近い知識の記述を求めるならば人力検索サイトに頼る方法がある(まだ回答がなければ質問を投げておくこともできる!)ということを、情報リテラシーのある人なら皆知っています。
お盆の時期に、戦争と平和、国民主権と民主主義(経済奴隷でないことも含む)について考えながら、ふと気づきました。2010年以降のビッグデータの時代に、知識よりデータが偉いのは当たり前である、と。
上に記した知識検索の方法により、既に知られている知識や問題解決方法は容易に素早く手に入るようになりました。言い換えれば、既存の知識は前世紀に比べてはるかに安く、多くの場合「無料」で入手できるようになりました。しかし、未知の知識、問題解決方法、その前提としての現状把握、その原因分析(なぜこんな数字になったのか?など)について言えば、生データを適切なツールを通して解析し、試行錯誤(データと対話!)を繰り返さねばなりません。その分析能力には、属人性や能力差が存在し続けます。
ビッグデータ活用のためにコストをかける大きな理由は、そこに前人未踏の新発見、問題解決のための新知識の創造、そして、それらの業務化による競争力確保ができるという期待、見込みがあるからです。流通した途端にタダ同然となる既存知識と違って、未知の、まだ囲い込み可能な新知識は百万倍もの価値があるでしょう。それを生み出せる源泉こそが生データ。だから「データの方が(既存)知識より偉い」のです。
知識発見のためには、データを適切なツールによって眺めて絞り込み、構造化・再編成し、再び不足データ、関連データを補充してから絞り込む、といったデータとの対話が必須です。すなわち、データと対話することがインテリジェンスの発見、新知識の創造プロセスの勘所、本質であり、極めて重要なのであります。ちなみに、アライドアーキテクツ社とメタデータ社が8月15日に共同発表した「ソーシャルアナライザー」は、データとの対話をスムーズに支援する機能を備えており、適切な検索式セットをコンサルティングして提供するオプションメニューを持つサービスです。
目的志向、問題解決志向で、データ収集の上流段階からその吟味、加工、構造化、見える化、そして、人の頭脳による分析に至るまで「データと対話」し、「洞察」→「仮説発見(着想)」→「検証」→…というサイクルを繰り返し、必要に応じて前工程へとフィードバックをかける。これなくしては、無駄に大量データを購入させられたり、見当違いのデータをモニタリングし続けることになります。いくら洞察を得たくとも、低品質なデータのままでは「無い袖は振れない」状態にとどまってしまいます。
検索精度の評価指標、「適合率」と「再現率」
前回は、外食検索サイトの検索窓に最も多く投入されるキーワードの1つが「ビール」だというトピックをご紹介し、一般ユーザーは多くの場合、検索対象について明確なイメージや具体的な条件、制約条件を描かないまま検索に臨んでいる、と指摘しました。
そのような時に、ウェブサイト側から対話的に知識を提供しつつ、ユーザーの潜在的な願望を具体化、顕在化させていくプロセスには様々な可能性があり、認知心理学の助けを借りても不十分と考えられます。実際のデータそのものが多彩であり、ユーザーの個性も多様だからです。
そこで、ここでは仮にユーザーの目標、狙っている検索対象のイメージが明確であり、検索の「正解」が揺らぎなく定まっているものと仮定します。「本当の正解の集まりA」と、「システムの出力の集まりS」を並べて表現した下の図をご覧ください。私くらいまでの中年世代なら、小中学校で習った「集合」のベン図(Venn’s Diagram)だ、懐かしい!と思い出されるでしょう。
AとSの重なり部分(集合論では“交わり”と呼びます)が、システムが正しくヒットさせた正解の集まりHとなります。この検索がどれくらい良かったのか?といわれたら、
システムが正解としたSのうちどれだけが本当の正解だったか H/S = P
本当の正解Aのうち、どれだけシステムがカバーできたか H/A = R
この2つが基本的な評価指標となります。
PはPrecisionの頭文字。日本語では、「適合率」といいます。これは、狭義の精度といえますが、直観に訴える表現としては、「ランキング中の間違ったヒットの少なさ」と言い換えても良いでしょう。
Rは、Recall の頭文字。日本語では、「再現率」といいます。どちらも分かりにくいですね。これはずばり、「カバレージ」、「(本当の正解からの)取りこぼしの少なさ」と言い換えれば、しっくりくるかと思います。
どちらの指標を重視するかは局面によって変わる
正解が定義できている限り(実世界ではこれが難しいのですが)、このP=「適合率」とR=「再現率」をうまく使い分けることで、ゴールへ向けて、正しくデータとの対話を進め、必要な知識や法則を発見しやすくなります。このPとRの使い分けについて、技術開発系の企業で従来から幅広く業務化されていた「特許サーチ」を題材に考えてみましょう。
2006年度と2007年度、同志社大学ビジネススクールに招かれて、技術評価について各3回の講義と、実習レポートを担当した時のことです。
まず、ある企業の中で特許サーチを行って、新規事業向けの技術開発を社内で行うべきか否かを決める局面を想定してみてましょう。次に、もう製品発表間近で、念のためにビジネスモデル特許の類を含めて、他社の特許を侵害していないか調べる局面です。同じ特許サーチでも、PとRについて対照的な結果となります。以下、レポートを公開評価していた時の議論の概要です:
- 特許サーチは、自社の技術開発ならびにその知的財産権確保、ひいては安心して関連製品を製造販売できるようにするための極めて重要なタスク
- 特に、研究開発投資を行い、製造せんばかりになって、それどころか量産後に、あるいは一定量販売後に、先行他社による類似特許が見つかったとあっては、賠償金の支払いや製品回収、製造販売差し止め(特許権は超強力!)を食らいかねない、悲惨な事態に陥る
- かといって、 特許サーチに縛られて研究者の自由な発想がしぼんでしまっては元も子もない
- そこで、ブレインストーミングを何度か繰り返して研究テーマを選び、絞る上流工程において、自社の強みを技術面で評価、確認するなどの目的で特許サーチを行う。この主目的は、【読むに値する、非常に参考になる関連特許を適量発見】することになる。故に、読み手である技術者にとってノイズまみれでなく、狙ったテーマについて高い比率で、欲しかった特許明細書が多く含まれることが望ましい。すなわち、P=適合率重視!
- 一方、テーマが確定、固定し、研究成果が出ることが確実になって、そこから生み出される商品スペックがある程度固まってきた時には、万が一にも、ほぼ同一の先行発明があっては、将来、上記2のような多大な損害を被り得る。そこで、自社特許内容とよく似た特許が存在していたら1つの取りこぼしもないことを目標に、検索できなければならない。すなわち、R=再現率重視!
いかがでしょうか? 同じ特許サーチでも、その正しさ、適切さの評価基準が、研究開発のフェーズが上流か、下流かによって、P重視、R重視、と変わっていくことがイメージできたら幸いです。
また、特許サーチという業務が、まさに「データと対話」する作業であることもイメージできたのではないかと思います。すなわち、上流では、最初の検索試行の結果を見て探索の方向を切り替え、ブレインストーミングの進行に合わせて、重点サーチ対象をシフトしていき、サーチ結果を分析、咀嚼して、テーマ自体に修正を加える、といった作業となります。高度に創造的な作業が、「データと対話」しながら行われていくわけであります。
下流工程の場合、R重視、すなわち、取りこぼしを極限まで減らすべく、同じ内容なのに全然違う言い回し、表現が使われていないか、「データと対話」しながら調べていく感じです。ある程度見つかった類似特許中の表現、その特許が引用している文献中での、鍵となる概念の呼称や言い換えなどを、試行錯誤を繰り返しながら網羅していくわけです。こちらはあまり創造的ではないにせよ、実在のデータと対話しない限り、R=再現率を向上させるのが不可能なことは明らかだと思います。
まとめとして、少し強引かもしれませんが、次のように話を一般化することができると思います。
ビッグデータ分析の目下の主目的が、
- 「発見」であるときは、P=適合率重視のアプローチで、
- 「業務化」であるときは、R=再現率重視のアプローチで、
それぞれ中間結果を評価しながら、分析を進めていくこと。
これが、データとの対話を進めてビッグデータ活用を成功させる鍵の1つではないでしょうか。