前々回、前回と、2014 FIFA サッカーW杯の“ビッグデータ時代”らしさをテーマに書きました。日本が決勝トーナメントに進み、あわよくばベスト4にでも勝ち残っていれば、今回もサッカーの話題となったかもしれません。しかし平均的日本人より相当サッカー好きと思われる私でも、週に1、2度ダイジェストを見て『ドイツのゴールキーパー、ノイヤー すげーっ!』『コスタリカGKのナバスも同じ位すごい!』と血が騒ぐ程度で、世間はすっかり落ち着いてしまったかに見えます。
そこでサッカー関係の落穂拾い的記事は適宜、Facebookページ「リアルタイムCRM」(2010年に開設したメタデータ社のページ)に掲載するとして、今回のこの前文を最後に、通常連載に戻りたいと思います。
・サッカー関係の落穂拾い的記事
「ツイッター社自身によるハッシュタグ #ワールドカップ のまとめページ」
「応援するチームの国旗を選んで選手や監督をフォローして盛り上がるサービス」
※一気に100人近くフォローしてしまい、W杯終了後「困ったな…」と密かに思われたとき頼れるツール、justunfollowなども紹介しています。よろしければ、“リアルタイムCRM”に「いいね」してやってください。リンク付きのサマリーは、ツイッターアカウント @metadata_inc でも読むことができます。
ドイツ、ブラジル、オランダ、アルゼンチンのベスト4決定時点で、ハッシュタグ#WorldCupを含むツイートで印象的だったのは下記の集計です。今回の戦績に見られるように、現在のサッカーは欧州と南米の2大陸が強く、特にプロのクラブチームではドイツ、イギリス、スペイン、イタリアをはじめとする欧州が圧倒的に強い選手を抱えていることを如実に物語っていると言えるでしょう。こんな集計も生データの迫力・説得力の一種と言ってよいのではないでしょうか。
@knottystop W杯ベスト4に残った国の所属クラブ別人数
<9名>バイエルン(独)
<5名>フェイエノールト(蘭)、チェルシー(英)
<4名>バルセロナ(西)、マンチェスターシティ(英)、ドルトムント(独)、インテル(伊)
<3名>アーセナル(英)、レアルマドリード(西)、パリ・サンジェルマン(PSG・仏)、シャルケ(独)、ナポリ(伊)、アヤックス(蘭)
有意な仮説の着想と検証に「統計学」では限界
前回記事・「生データを踏まえた記事の迫力」、前々回記事・「大量の生データから意外な事実が分かった件」
に象徴されるように、生データの迫力や、発見を誘発する力はどこから生まれるのでしょうか?
特に、少々乱暴な感覚的な結論(「前半、終始押されていた“感じ”」など)や、どうしても検証したい・証拠を見たいと思っていた仮説について、従来よりケタ違いに大きな生データを集計したものが検証を可能にしてくれれば、まさに非常に強力な説得力を持つでしょう。現場の人が何となく感じていた「予断」のようなものでさえ、それらが証明されること、あるいは覆されるのを待っているわけです。
パラメーターが多数に上り、その値も数百、数千、数万のバリエーションを持っていると、その組み合わせを総当たりすればあっという間に数百万、数億以上の仮説の元が出てきます。それらを統計処理でしらみつぶしにするのも良いですが、果たしてそれが優れた分析に結びつくでしょうか? No(否)と思います。それはいくらビッグデータといっても、本当に99.9%の有意性で結論づけられるほどの網羅性は通常望めないからです。
例えば、口コミに出てくるトピックやテーマの出現頻度について何か結論を出すことを考えてみましょう。思い切り単純化し、2つの言葉の組み合わせでテーマが語られるとして、10数万の基本語彙、そして数百万、数千万は使われている固有名詞、複合語の類を組み合わせただけで軽く数億〜数10億種類の組み合わせが出てきます。それらが十分多数回出現して、使用頻度に差が出てくるグラフを描くには、高頻度の言葉の組み合わせが数億回出てくる水準までデータ量を「超ビッグ」にして、やっと正しい、揺れないデータが取れるのかなと思います。これがやや悲観的にせよ、まだまだ楽観的にせよ、天文学的スケールを超えたデータ量になります。
数10億×数億といえば10の18乗という数。新聞1年分が10万記事程度で、1記事が平均10文とすればわずか100万文ですから、新聞記事なら10の12乗(1兆)年分が必要です。このような収集は事実上不可能。集めている間に、数百年程度で言葉の使い方が大幅に変化していってしまうどころか、残り50億年という太陽系の寿命をも遥かに超えてしまいます。もっとも、1億人が毎日書き、話す日本語をすべて取得できればもっと早いし、使用頻度のデータとしては文字通り十分ではあるわけですが。
ただし、仮にすべての日本語をリアルタイムで収集、分析できても(ちょっと嫌な社会ですね)、昨日今日以前の過去のデータに過ぎません。明日以降はどんな出来事が起きて、どんな言葉の組み合わせが多く(少なく)語られるかという予測には不十分とも言えます。
このように、有限の装置、材料(単語など)によって無限の発話のバリエーションを生み出せる「言語」を相手に、統計学が全自動で仮説を抽出、発見してくれるものでしょうか? 無理でしょう。
何の構造モデルも持たず、結論に近い仮説も持ち合わせていなければ、有意な仮説の検証をすることはできません。何か言葉で表現するしかない対象については、少なくとも当面は人間が、鋭い洞察力を駆使して仮説立案と検証をしていくことになるでしょう(脳内の知識の構造は非常に洗練され、かつ2単語の組み合わせに留まらない膨大な使用パターンの情報を持っています)。
あらかじめ有意差が生まれるパターンの情報があり、その検証方法について仮説を立ててから解析、分析に取り組むことで、有用な発見・検証にたどり着くものと思われます。これは、単純なデータの集計とは著しく違います。
前々回、前回、そして上述の「単なる集計だけで興味深い」対象を選んだ際にも、どの分類軸で、どんなデータをどう集計したら面白い発見があるか(あるいは現場の感覚を定量的に検証できるか)の予想があったからこそ、首尾よく面白い結果を出せるのではないでしょうか。
何でも「ビッグデータ用ツール」でなくてもいい
少し視点を変えて、従来のスモールデータの運用、すなわち厳選された社内データを規格・仕様通りにきれいにデータベースシステムに収納し、検索、参照、管理する世界と、ビッグデータ的なツール・手法を対比してみましょう。
スモールデータ用のツール・手法の具体例については、データウェアハウス(DWH)や、最近ではマスター・データ・マネジメント(MDM)などのキーワードでたくさんの商用製品やサービスがヒットしますので、そちらをご照会ください。
ここでは様々なツールや手法があるとして、そのすべてがビッグデータ用に使えるのか、そして、使うべきかを考えてみます。下の図のように、多種多数の七徳ナイフやコンパスを駆使し、組み合わせて、データ整備と分析の流れをスモールデータの世界で組んでいたとしましょう。
HadoopやMapreduceなどのビッグデータ解析向けの専用ツールは確かに、汎用のデータベースシステム、逐次処理のデータ処理プログラムほどの汎用性は持ちません。並列処理をスムーズに行って、どこかでうまく合流させるために様々な制約があります。また、道具の世界で必ずしも「大は小を兼ねない」ように、小規模のきれいなデータを扱うことはかえって苦手だったりもします。
「ビッグ」を解析した後で「スモール」を分析すればOK?
以前お話ししたかと思いますが、「これこれ以上のデータ量ならビッグデータ」という客観的定義は通常、存在しません。私が好きな定義は、「(その状況、条件で)人間の手に負えないデータ量ならビッグデータ」というものです。
では、現場には両者が存在するとして、ビッグデータ用のツール・手法と、スモールデータ用のツール・手法をどう組み合わせて使ったらよいでしょうか?
素直に考えれば、ビッグデータの集計、解析の結果「スモール」になったデータを、スモールデータ用のツールで精緻に分析すれば良いじゃないか、となるでしょう。
それを描いてみたのが上の図です。大きな漏斗がビッグデータ用で、その下の小さな漏斗がスモールデータ用。小さな漏斗の上に「i」とあるのは、厳選、吟味され、組織の死命を制するような情報「intelligence」の頭文字とでも解釈ください。
でも、これでは少し単純化し過ぎのようにも思えてきます。1つ前の図と説明をご覧になると、「あれ? そもそもビッグデータ用のツールでは、全部の生データを処理しきれなかったんじゃなかったっけ?」と思い出します。
その点を描き加えてみたのが上の図です。下方には5種類の漏斗があって、いろんな種類のデータを各々処理し、違う形で吐き出したり、集約したり、通知したり、配信したりしているイメージ図となっています。入口も、必ずしもビッグデータ解析用の漏斗から出てきたデータだけを扱っているわけではありません。人手でコントロールした別種のデータや、もともとスモールデータだったものも一緒に加えることで、現場の業務フローにおけるデータの流れのモデルを作っています。
このようなイメージをあらかじめ持っておけば、最新のビッグデータ用ツール群ですべての種類のデータを一様に1つのシステムで扱わねばならないのではないか、とか、その方が効率や費用対効果が高いのではという不安を拭い去ることができるでしょう。
極論するなら、紙と鉛筆による考察さえもツール群に混ぜておくべきです。実際、ブルーオーシャンを見つけるための経営ツールであるポジショニングマップや、発想のツールであるマインドマップなどについては手書きが奨励されていることをお聞き及びの方も多いかと存じます。
「発見」までのあと一歩を支援するシステム
ダベンポート教授は、ビッグデータ活用のゴールを「発見」と「業務化」に分類しました。前節の図は、「業務化」をイメージしたものと捉えていただいて結構です。「発見」については、本稿では「発見」と「仮説の(定量的)検証」とに分けて、どちらも等しく重要としています。
これらのどちらがより難しいかといえば、言葉面の印象通り「発見」の方だろう、という主張に反論する人は少ないかと思います。単に難しいというより、属人性が高い。すなわち分析担当者によってできたりできなかったり、目の前にあるものをそのまま述べた月並みで陳腐な程度に留まったり、天才的な洞察による業界初の大発見ができたり、といったように差が大きくなるものと言えるでしょう。
では、この属人性を軽減し、誰でもほぼ必ず一定水準以上の面白い発見を得られるようにするために、システムはどのような支援が出来るでしょうか?
ここで、前々回ご説明したなでしこジャパンのロンドン五輪の試合中のつぶやきを感情解析したグラフを再掲します。
小鳥のアイコンの右に記したツイート群を感情解析した折れ線グラフが、4本中央に描かれています。さらに、オレンジ色と青色の吹き出しの中には試合中の出来事、事実が淡々と記入されています。この時は、パッケージ製品ではなく、個別リサーチ用に特別に用意したシステムでしたが、今後この吹き出し内容のような外部データ、異種コンテンツと解析結果を並べ、重ね合わせ表示する機能を標準装備する作業を進めています。なぜなら、時間軸という共通軸を用いて、同じ出来事を眺めている人々のつぶやきと、その出来事の内容、属性には本来、因果関係が存在するものであるからです。
人工知能ではないので、「なぜそうなったのか?」を推論する機能が汎用的に使えるのはまだまだ先のこと。でも、この最後の「なぜ?」という因果関係に気づくという高級な役割こそ、分析官という人に任せれば良いではないですか。そして、何もないところから何かを発想できるような能力には確かに個人差が大きいでしょうが、このように、因果関係が本来含まれていてしかるべき異種データを、時間軸上に結びつけて見せるだけで新鮮な景観が見えてくる。あと一歩考えを進めるだけで、発見が生まれます。
例えば、右下部分を見て、「ぎゃぁぁ!」「あああ、やられた!」「いやー、やられた!」などのつぶやきのすぐ近くに、「【後半10分】カナダにシュートを決められる」とあった時に、その因果関係を読み取れない人はほとんどいないでしょう。しかし、グラフに目を移して、その際の感情の動きがネガティブに振れるだけでなく、一部の感情がポジティブに振れた(怒り・怖れの類のネガティブが減った)、ということまで素直に読み取れば、それは「発見」です。相手にゴールを決められても、自国選手を罵る、嘲る、といった発言は出てこないという、ある意味、意外な分析を行うことができます。
このあたり、100%誰でも発見ができるとまでは保証できなくとも、99%の発見率に近づけるような分析マニュアルを作ることは十分可能でしょう。※実はメタデータ社では、そのような分析マニュアルを既に創造し保有しています。
以上、やや抽象化した議論となったため、イメージ図を多用したりしました。また最後に具体例を追求した結果、再びサッカーの試合を分析した例に戻ってきてしまいました。なかなか最先端の分析論、今後あるべきツールの要求仕様を語るのは難しい、ということで、今後も時々サッカーの話を出すかもしれませんが、引き続きご容赦、ご笑覧いただけたら幸いです。