2015年02月21日

なぜ「データと対話」しなければならないか(その3) 検索の「品質」は企業の命運すら左右する!

 本ブログの以前の回「ビッグデータが変えた『知識よりもデータが偉い?』 」では、それがどういうことか、何を意味するのか、明快な回答を出しきれませんでした。記事中の「知識と情報の違いをどう捉えるか」の項では、情報検索と知識検索の違いにまでは踏み込みませんでした。

 とは言え今日、単なる情報検索ならウェブと一部の専門検索エンジンでできますし、知識検索なら辞書やWikipediaのような百科事典的サイト、また、特定の目的に沿って問題解決の手順や処方箋に近い知識の記述を求めるならば人力検索サイトに頼る方法がある(まだ回答がなければ質問を投げておくこともできる!)ということを、情報リテラシーのある人なら皆知っています。

 お盆の時期に、戦争と平和、国民主権と民主主義(経済奴隷でないことも含む)について考えながら、ふと気づきました。2010年以降のビッグデータの時代に、知識よりデータが偉いのは当たり前である、と。

 上に記した知識検索の方法により、既に知られている知識や問題解決方法は容易に素早く手に入るようになりました。言い換えれば、既存の知識は前世紀に比べてはるかに安く、多くの場合「無料」で入手できるようになりました。しかし、未知の知識、問題解決方法、その前提としての現状把握、その原因分析(なぜこんな数字になったのか?など)について言えば、生データを適切なツールを通して解析し、試行錯誤(データと対話!)を繰り返さねばなりません。その分析能力には、属人性や能力差が存在し続けます。

 ビッグデータ活用のためにコストをかける大きな理由は、そこに前人未踏の新発見、問題解決のための新知識の創造、そして、それらの業務化による競争力確保ができるという期待、見込みがあるからです。流通した途端にタダ同然となる既存知識と違って、未知の、まだ囲い込み可能な新知識は百万倍もの価値があるでしょう。それを生み出せる源泉こそが生データ。だから「データの方が(既存)知識より偉い」のです。

 知識発見のためには、データを適切なツールによって眺めて絞り込み、構造化・再編成し、再び不足データ、関連データを補充してから絞り込む、といったデータとの対話が必須です。すなわち、データと対話することがインテリジェンスの発見、新知識の創造プロセスの勘所、本質であり、極めて重要なのであります。ちなみに、アライドアーキテクツ社とメタデータ社が8月15日に共同発表した「ソーシャルアナライザー」は、データとの対話をスムーズに支援する機能を備えており、適切な検索式セットをコンサルティングして提供するオプションメニューを持つサービスです。

 目的志向、問題解決志向で、データ収集の上流段階からその吟味、加工、構造化、見える化、そして、人の頭脳による分析に至るまで「データと対話」し、「洞察」→「仮説発見(着想)」→「検証」→…というサイクルを繰り返し、必要に応じて前工程へとフィードバックをかける。これなくしては、無駄に大量データを購入させられたり、見当違いのデータをモニタリングし続けることになります。いくら洞察を得たくとも、低品質なデータのままでは「無い袖は振れない」状態にとどまってしまいます。

検索精度の評価指標、「適合率」と「再現率」

 前回は、外食検索サイトの検索窓に最も多く投入されるキーワードの1つが「ビール」だというトピックをご紹介し、一般ユーザーは多くの場合、検索対象について明確なイメージや具体的な条件、制約条件を描かないまま検索に臨んでいる、と指摘しました。

 そのような時に、ウェブサイト側から対話的に知識を提供しつつ、ユーザーの潜在的な願望を具体化、顕在化させていくプロセスには様々な可能性があり、認知心理学の助けを借りても不十分と考えられます。実際のデータそのものが多彩であり、ユーザーの個性も多様だからです。

 そこで、ここでは仮にユーザーの目標、狙っている検索対象のイメージが明確であり、検索の「正解」が揺らぎなく定まっているものと仮定します。「本当の正解の集まりA」と、「システムの出力の集まりS」を並べて表現した下の図をご覧ください。私くらいまでの中年世代なら、小中学校で習った「集合」のベン図(Venn’s Diagram)だ、懐かしい!と思い出されるでしょう。

[画像クリックで拡大表示]

 AとSの重なり部分(集合論では“交わり”と呼びます)が、システムが正しくヒットさせた正解の集まりHとなります。この検索がどれくらい良かったのか?といわれたら、

システムが正解としたSのうちどれだけが本当の正解だったか H/S = P
本当の正解Aのうち、どれだけシステムがカバーできたか H/A = R

 この2つが基本的な評価指標となります。

 PはPrecisionの頭文字。日本語では、「適合率」といいます。これは、狭義の精度といえますが、直観に訴える表現としては、「ランキング中の間違ったヒットの少なさ」と言い換えても良いでしょう。

 Rは、Recall の頭文字。日本語では、「再現率」といいます。どちらも分かりにくいですね。これはずばり、「カバレージ」、「(本当の正解からの)取りこぼしの少なさ」と言い換えれば、しっくりくるかと思います。

どちらの指標を重視するかは局面によって変わる

 正解が定義できている限り(実世界ではこれが難しいのですが)、このP=「適合率」とR=「再現率」をうまく使い分けることで、ゴールへ向けて、正しくデータとの対話を進め、必要な知識や法則を発見しやすくなります。このPとRの使い分けについて、技術開発系の企業で従来から幅広く業務化されていた「特許サーチ」を題材に考えてみましょう。

 2006年度と2007年度、同志社大学ビジネススクールに招かれて、技術評価について各3回の講義と、実習レポートを担当した時のことです。

 まず、ある企業の中で特許サーチを行って、新規事業向けの技術開発を社内で行うべきか否かを決める局面を想定してみてましょう。次に、もう製品発表間近で、念のためにビジネスモデル特許の類を含めて、他社の特許を侵害していないか調べる局面です。同じ特許サーチでも、PとRについて対照的な結果となります。以下、レポートを公開評価していた時の議論の概要です:

  1. 特許サーチは、自社の技術開発ならびにその知的財産権確保、ひいては安心して関連製品を製造販売できるようにするための極めて重要なタスク
  2. 特に、研究開発投資を行い、製造せんばかりになって、それどころか量産後に、あるいは一定量販売後に、先行他社による類似特許が見つかったとあっては、賠償金の支払いや製品回収、製造販売差し止め(特許権は超強力!)を食らいかねない、悲惨な事態に陥る
  3. かといって、 特許サーチに縛られて研究者の自由な発想がしぼんでしまっては元も子もない
  4. そこで、ブレインストーミングを何度か繰り返して研究テーマを選び、絞る上流工程において、自社の強みを技術面で評価、確認するなどの目的で特許サーチを行う。この主目的は、【読むに値する、非常に参考になる関連特許を適量発見】することになる。故に、読み手である技術者にとってノイズまみれでなく、狙ったテーマについて高い比率で、欲しかった特許明細書が多く含まれることが望ましい。すなわち、P=適合率重視!
  5. 一方、テーマが確定、固定し、研究成果が出ることが確実になって、そこから生み出される商品スペックがある程度固まってきた時には、万が一にも、ほぼ同一の先行発明があっては、将来、上記2のような多大な損害を被り得る。そこで、自社特許内容とよく似た特許が存在していたら1つの取りこぼしもないことを目標に、検索できなければならない。すなわち、R=再現率重視!

 いかがでしょうか? 同じ特許サーチでも、その正しさ、適切さの評価基準が、研究開発のフェーズが上流か、下流かによって、P重視、R重視、と変わっていくことがイメージできたら幸いです。

 また、特許サーチという業務が、まさに「データと対話」する作業であることもイメージできたのではないかと思います。すなわち、上流では、最初の検索試行の結果を見て探索の方向を切り替え、ブレインストーミングの進行に合わせて、重点サーチ対象をシフトしていき、サーチ結果を分析、咀嚼して、テーマ自体に修正を加える、といった作業となります。高度に創造的な作業が、「データと対話」しながら行われていくわけであります。

 下流工程の場合、R重視、すなわち、取りこぼしを極限まで減らすべく、同じ内容なのに全然違う言い回し、表現が使われていないか、「データと対話」しながら調べていく感じです。ある程度見つかった類似特許中の表現、その特許が引用している文献中での、鍵となる概念の呼称や言い換えなどを、試行錯誤を繰り返しながら網羅していくわけです。こちらはあまり創造的ではないにせよ、実在のデータと対話しない限り、R=再現率を向上させるのが不可能なことは明らかだと思います。

 まとめとして、少し強引かもしれませんが、次のように話を一般化することができると思います。

 ビッグデータ分析の目下の主目的が、

  • 「発見」であるときは、P=適合率重視のアプローチで、
  • 「業務化」であるときは、R=再現率重視のアプローチで、

 それぞれ中間結果を評価しながら、分析を進めていくこと。

 これが、データとの対話を進めてビッグデータ活用を成功させる鍵の1つではないでしょうか。


posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | AI

2015年02月07日

なぜ「データと対話」しなければならないか(その2) 東京五輪と言えば…どの東京五輪

某外食情報サイトの方から、「野村さん、うちのサイトの検索窓に一番多く投入される単語が何か分かりますか?」と聞かれたことがあります。

野村:「さぁ、何でしょう。飲み会の幹事さんが、仲間とリーズナブルにおいしく楽しめる場を見つけようというのですから、まずは場所と、個室があるか、禁煙か、逆に喫煙可か、みたいな条件ですかね。場所の指定なら、鉄道の駅くらいの粒度で指定しそうだから、一番乗降客が多くて飲み屋も多い“新宿” あたりが最多の検索キーワードでしょうか」

検索サイト担当者:「それが何と、“ビール”なんですよ! 全検索キーワードの20%超を占めることもあります」

野村:「えぇ!? そんな無意味な! 絞り込もうという目的意識で、検索の途中結果を眺めつつ条件を次第に増やし、候補を減らそうとしてシステムと対話するのが普通のユーザーではないんですか?」

検索サイト担当者:「いやぁ、普通の人は、そんなに合理的に理路整然と考えてネットを使うわけじゃないみたいですよ。いま、欲しいな、いいな、と思ったら、何となく頭に浮かんだ短い言葉を入れる、という人の方が多いみたいです」

 宴会場を選ぶその時、何となく頭に連想され、浮かんできたもの(例えば“ビール”)をそのまま検索ワードにする人が多い。この示唆を得た時の新鮮な驚きと衝撃は今でも鮮明に覚えています。IT屋がトップダウンに考えたモデルを、コンシューマー向けサービスに押し付けてはいけない、と悟った瞬間でもありました。

 データの母集団がどうなっているか分からない状況で、自分の狙いを他からどう差別化するか論理的に考え、その場で対話的に獲得した諸条件を総合的に最適に満たすために、中間結果を目視しながら最短距離で、効率よく絞り込む。そしてその結果と理由=「なぜ良い店であるか」を1ダースくらいの条件で表現するなどして同僚に説明し、判断を正当化する。このようなユーザーは「少数派」である、という前提でサービスは作らないと、そのサービス事業者は倒産してしまうことでしょう。

 とはいえ、検索試行を繰り返してみないとそもそもどんなデータ(上の例ではお店の種類、候補)があるのかも分からない、などの事情は変わりません。なので対話は必要です。もしかすると対話の味付けとして、システムがより賢く、ご主人様の意図や好み、制約条件を推察しながら、魅力的な候補を(時にはスポンサーの意向を反映して恣意的に)提示していく、といったチューニングがコンシューマー向けには求められているのかもしれません。いわば、同じ対話でもユーザー主導というより、ユーザーはより受け身で楽ちんできるようにシステムが饒舌、お喋りであるべきと言えますね。

 居酒屋選びでネットの検索窓に「ビール」と入れる人は、おそらく自分の理想の検索結果や、具体的な条件を描く前に検索サイトに来てしまったのではないのでしょうか。ゴール不在の検索。それが主流であるならば、最初から明確な目的、具体的な条件が定まった状態で、検索、絞り込みをするというより、検索の試行をしながらそれらを明確化していくのが一般ユーザーと言えるかもしれません。

実際に「どのイベントのことか」が曖昧

 前回の末尾に、
“「口パク」や「東京五輪」などの例を手掛かりに、単語切り出しの曖昧さも、同綴り異語の問題も、単語の多義性の問題もクリアしているにも関わらず、実際にどのイベントに言及しているかの曖昧性のせいで、データ収集にノイズが入る問題を取り上げます”
と書きました。

 例えば企業の商品プロモーション、キャンペーン等の際に、特定のイベントについてのネガポジ比率(ネガティブ=否定的な意見と、ポジティブ=肯定的な意見の比率)の推移を見たい、というニーズは切実なものです(実際にネガポジ比率を自動的に判定するソフトには、例えばこれがあります)。

 その際、対象となる膨大なクチコミのデータに対して投入する絞り込みキーワードによって、実は違うイベントに言及したクチコミが検索結果に多数混入してしまうと、キャンペーン等の効果測定の精度がガタ落ちになってしまいます。

 まず「東京五輪」というワードを取り上げましょう。「東京五輪」なら言及対象は一つに決まるのでは?という質問がありました。答は否、ノーですね。首都大学東京、渡邉英徳研究室の「東京オリンピック1964アーカイブ」も堂々ヒットしますし、温故知新で前回の例と比べる議論、そしてメインスタジアム建設の話題から現在の国立競技場を取り壊すなという議論など、1964年の東京五輪が主役の記事も多数あります。さらに、第二次大戦のためにキャンセルされた「幻の東京五輪1940」もあります。

 調査・分析対象のトピックを分類し、絞り込むのに、対象のイベント自体が雑然と混ざってしまってはまずいので、5W1H解析なども併用して、詳細な分析の前にデータを腑分けしておく必要があるでしょう。

 さて、「口パク」といえば、国内外で有名人が生出演、生演奏を装いながら実際にはコンディションの厳しいライブの現場では歌わずに録音を再生したり、極端な例では第三者に歌わせる(NHKの朝ドラ「あまちゃん」では、“シャドウ”と呼ばれていましたね)など、非難され、騒がれる事件が繰り返し起きています。

 「口パク」についての消費者の本音に目を通し、そのタイプごとの比率を知ることは、広報・マーケティング担当にとって極めて重要と考えます。イベント主催者側の過剰演出的なものを消費者がどの程度許容してくれるか、その境界線を具体的に知るヒントが得られるからです。そのためのテキスト・ビッグデータの情報源としてはやはり、辛辣な本音がさくっと書かれるツイッターが現状ではベストのように思われます。

 「口パク」に関連する事件、イベントが複数あるので、その記事の文脈をよく解読しないと、単に「口パク」といっても、どの「口パク」のことを言っているのか噛み合わず、そそっかしい人は誤解してしまうこともあるでしょう。

 「口パク」と一緒に、検索エンジンに投入されるキーワードの上位10件の表示を見ただけで、皆さん、特定のイベントに言及した「口パク」に絞ろうとしている努力が一目瞭然です。

口パクに関連する検索キーワード

perfume口パク akb 口パク
山下智久口パク 口パク 歌手
akb48 口パク 嵐 コンサート 口パク
山p 口パク ももクロ 口パク
mステ 口パク 少女時代 口パク

 私は、これらのイベントのほとんどを知りませんでした。上記だけでは検索ノイズの除去にはまだまだ不十分であると考えられます。そんな時は、「口パク」1語で上位にランクされた中から「まとめサイト」を見つけ、そこを開いてみると良いでしょう。今回、邦楽限定ながら、「口パクで歌っているなと思う歌手は誰?(日本人・外国人含む)」というサイトがヒットしたので開けてみると、6ページにわたって、数十人以上の名前が出てきました。これにより、特定のイベントや、自社所属のタレントに絞った評判分析などもできるようになります。

 記憶では、五輪の開会式や閉会式で「口パク」が世界的な大騒ぎになった事件がいくつかありました。これらについてはご興味に応じて調べていただくとして、ツイッター検索からの外し方です。例えば「口パク -ジャニーズ -アナ雪 -アナと雪(“-”は半角マイナス記号)」と、ツイッター検索窓に入力してEnterキーを押してみてください。単に、「口パク」とだけ入れた時とは、ガラリと変わった結果が出てきます。

「やらせ」的要素をいかにさじ加減するか

 上例の「口パク -ジャニーズ -アナ雪 -アナと雪」 の延長で(文字通り、検索式を「延ばし」ます)、最近多い具体的な出来事、特定の歌手、グループや流行りの動画を少しずつ外して検索してみてください。一般消費者が、イベント主催者、マーケティング情報提供者側のいわゆる「やらせ」的なものに、どんな感情、リアクション、許容度をもっているのかに関する、重要な生の声を多数拾うことができるでしょう。

 一歩踏み込んだ本音の企画を試みる際に、それが意図的な「炎上マーケティング」でない限り(いや「炎上マーケティング」なら、なおさらその制御のために)、少しは混入する「やらせ」的な要素のさじ加減を具体的にどう調整したら良いか、貴重な洞察を得ることができると思います。

 「データと対話」、まだまだ続きます。


posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic