本稿は、6/20(金)の日本対ギリシャ戦が終わった直後にまとめ、第3試合の対コロンビア戦が終わった時点で、この前文のみ書き直しています。下記本文をお読みになった上で、
「日本 対 コロンビア」
を眺めてみてください。
いったんは冷静に敗戦を受け止めたサポーターも、「なぜ、こんなに日本が攻撃的サッカーで優勢に試合を進めていたのに大敗したのだ!?」と驚くような数字とグラフが目に飛び込んでまいります。この乖離を徹底分析することで、今後の勝利につながる活路が見えてくるのではないでしょうか。
以下、ビッグデータ時代のW杯ならではのデータ分析を楽しめるウェブサイトなど、いくつかの興味深く新しい試みを眺めてみたいと思います。ビッグデータが単なる話題から、日常生活にビジネスに浸透しつつある様子を感じとれるのではないでしょうか。
勝敗要因分析もビッグデータ時代の流儀で
前回2010年のW杯時点では存在しなかったメディア、サービスに、ハフィントンポスト日本版(2013年5月〜)があります。2014年2月にブラジル版を出し、現地取材で詳細な生データを取ることが可能になったせいか、試合中のデータを集計した結果を淡々と掲載しています。それらのページのタイトルは実にシンプル。対戦した2国名を並べているだけです。
「コートジボワール 対 日本」
一番上に、支配率、シュート、クロス、コーナーキック、ファウルの数が対比され、大きい数字が太字になっています。対コートジボワール戦は支配率58%、シュート21、クロス23、コーナーキック8。ファウルのみ日本が1つ多い13。対ギリシャ戦では、日本が支配率なんと81%、シュート18、クロス25、コーナーキック5 (ギリシャ7)、ファウル23と苦闘ぶりが要約されています。続く「試合経過」には、パス成功本数、シュート失敗、得点、カード(イエロー、レッド)、選手交代が時系列上にプロットされています。
驚いたのは「プレイヤーポジション」(下の図)。試合中の各選手の「平均位置」がサッカー場の上にプロットされ、その各2選手間を結ぶ線分の太さで、パス成功本数を図解しています。日本の初戦では、日本がコートジボワールに押されていたことが一目瞭然です。
コートジボワールがフォワードの選手を中心に相手側コートに踏み込んでいるのに対し、日本選手はコート中央付近でせき止められています。
日本を示すグラフは、ザックジャパンが目指した攻撃型サッカーではなく、伝統的な侍ジャパンの、守備を固めて少ないチャンスを狙うサッカーではないか、と見えます。すべての生データを処理したこの図が、試合の勝敗要因を如実に表しているとさえ言えましょう。
ちなみに、対ギリシャ戦のプレイヤーポジションはこうなっています。
81%もの時間、ボールを支配していた日本が押している様子(平均位置が敵陣の選手が8人。ギリシャは4人)が分かります。
さらに、シュート(失敗/得点)の位置をプロットした図、各選手の位置と動き、パス成功率、セーブ数、ハイボールキャッチ数、タックル、インターセプト回数、ドリブル数、カード(イエロー/レッド)、についてはリンク先をご参照ください。勝利に貢献した選手、敗因となった選手の動きが集約されています。これによって、人間の主観による総合的印象や各選手の評価が検証されたり、逆に権威ある解説者の勝敗要因分析が覆ることもあるかもしれません。
これはわがままな要望ですが、上記の図上の点や線の上をクリックしたら、当該場面のショートビデオ画面がポップアップして再生されてほしいと思いました。異なる角度、拡大率の動画を全パスから、ボールに関わっていない選手の動きまで全部とらえたら数万、数10万本のショートビデオを正確にリンクすることになり、手動では到底コスト的に見合わないでしょう。自動認識結果を保存して、関連コンテンツへの紐づけにすべて反映されるような“賢い”システムを構築することが今後求められていくでしょう。
生データを踏まえた記事の迫力
生データを忠実に集約した結果を基に試合を総括し、意見を述べている記事もいくつも出ています。
おそらくハフィントンポストから、部分集計結果などより詳細なデータの提供を受けているのでしょう。前半15分までのコートジボワール選手の平均位置とパス回しを図解して、次のように事実を踏まえて“慎重なゲーム運び”とコメントしています。
“コートジボワールはジェルビーニョが前に残る形。ボランチとセンターバックが回し合う形で、コートジボワールもまた慎重にゲームに入っている。”
日本先制後15分〜30分の間の日本選手の平均位置とパス回しを示し、この時間帯こそが日本らしい試合運びをできていたことを、図を根拠に示します。
“先制後、日本にエンジンがかかる。吉田麻也を起点に香川、長友、本田らがパス回しに加わる。長谷部、山口はやはり慎重な位置取り。日本がもっとも「らしかった」時間帯。”
説得力がありますね。ビッグデータの解析結果、集計結果を引用しつつ、短く的確に分析レポートを執筆する際の参考にしたいような文章です。以下、ピンチやチャンス、「ドログバ投入以降から逆転まで」何が変わったかを見事に視覚化してくれます。生データ集計結果が圧倒的に雄弁であることを思い知らされます。
ヒトが「なぜ(Why)」を考える、さらに深い分析
さらに踏み込んだ深い分析は、さすがにその道の専門家、サッカー取材のプロによるものに求めることができました。
「日本 初戦で逆転負けの要因は」
「なぜ(Why)」にまで踏み込んだ分析には、いったん生データから離れ、集計結果から全体を俯瞰した上で、価値判断、重要性の評価により個々の要因の重み付けから選択、切り捨てを行う必要があります。こうして得られた仮説をインタビュー等によって検証し、その証拠付きで提示する必要もあります:
“左サイドバックの長友選手は、「ボールを回されてかなり体力を消耗してしまった。コートジボワールはフィジカルだけではなく技術があるし、組織のレベルも高かった」と振り返りました。”
これらができるのは、少なくとも当面は人間の専門家だけでありましょう。このように、比較的事実に忠実なレポートと、「なぜ(Why)」にまで踏み込んだレポートを対比し、参考にすることで、企業が自社ブランドのマーケティングの反響から分析するプロセスの確立に役立てることもできそうです。たかがサッカー記事、と侮ってはいけません。
ソーシャルメディアの大量コメントを楽しむ
一方、エンタテインメントに徹して、ソーシャルメディアにあふれる独断と偏見による意見をあれこれ読む、というのも楽しいものです。
「監督の猫の目采配が悪い」といった伝統的な解説記事を長々読まされるとストレスを感じることがあります。ツイッターの書き込みのように、著名人や知人の独断と偏見を簡潔に、かつ大量に読めると、それはそれで多面的な価値観や多彩な表現力に感心し、彼らの心象風景を追体験できる上質なエンタテインメントとして味わうことができます。同じ時間で、より大量に、多彩な情報を受け取れないと脳が不満を示すようになったのかもしれません。「ビッグデータ×ソーシャル」の時代ならではの変化と言えそうです。
予測はどうなったか?
前回引用したBloombergによるW杯直前の予想では、決勝選がブラジル対スペインとなっていました。予選リーグのポイント獲得予測が、コロンビア 5.5→7.0、 コートジボアール4.2→4.1 、ギリシャ3.2→3.1 日本 3.5→2.0 と変化しています。
敗退したスペインに代わって、アルゼンチンが決勝選でブラジルの対戦相手となり、準優勝との予想。
これら、ポイント算出のアルゴリズム(計算手順)を是非見てみたいと思います。探しても見つからなかったので、ご存じの方は是非ご教示ください。どこかで人間の専門家による修正過程が入っていても結構。そのルールも含めて、企業におけるビッグデータ分析、その結果の解釈と、意思決定に活かすプロセスの設計のために非常に参考になる気がします。
データの視覚化にはこんな用例も
東北大学工学部情報知能システム総合学科で自然言語処理を担当する乾健太郎教授の研究室のネガポジ判定APIを使った、朝日新聞のつぶやきリアルタイム分析グラフのページが頑張っています:
1分間を1秒に加速して、その間のツイート(ツイッターのつぶやき)のネガポジ比率を円グラフに表現したゴージャスなアニメです。
「日本、よくボール回る」の瞬間のポジティブ比率も高いですが、「惜しくもシュートはずれる」の類の時にも、有意にポジティブ比率が高くなっています。一昨年、メタデータ社が、なでしこジャパンの試合のデータ分析で発見した知見の正しさが、ここでも裏付けられました。
大量テキストから面白い集計結果が得られるのは、ソーシャルのデータばかりではありません。国内のほとんどのTV番組の情報を書き起こしているエム・データさんが、W杯開幕前1カ月間にTVに登場した選手の登場回数ランキングをFacebookページで発表してくれています:
「もっと見る」のリンクを押すと、下記がでてきます
******
【W杯】大会前報道回数ランキング
■日本代表編
1位 本田圭佑 (479回)
2位 香川真司 (385回)
3位 大久保嘉人 (348回)
・・・
エム・データさんは、こんな名前の団体の会長企業であり、TVメタデータを軸にしたコンテンツ連携の付加価値を梃子にビジネスをされているユニークな企業です。
第5回 NPO法人日本メタデータ協議会主催 カンファレンス
『テレビ発。メタデータサービスの現状と未来』
エム・データでは30人ほどのスタッフが常駐し、分担してTVを見て、画面に映った物体の名称から何から、メタデータとして役立ち得るものを片っぱしから入力しまくっている、と聞きます。ちょっと目からウロコの発想。デジタルTVのコンテンツ制作で、複雑にからむ権利関係を解きほぐし、上流のデジタル・メタデータが下流に素直に流れてきてくれたとしても、それですべてのTVメタデータがカバーできるわけではありません。
例えば、画面の背景左にスカイツリーが美しくぼやけて映っている、などのデジタル・テキストデータは制作現場には元々存在していないはずです。このようなデータが書き起こされることで、関連コンテンツの自動検索や、必要部署への自動配信が可能となり、ますます大きな価値をもたらしてくれるようになるでしょう。
エム・データさんのTVメタデータ活用といえば、「ミスター・デジタルアーカイブ」、「ミスター・ビッグデータ」、「ミスター3D視覚化」、などなどの称号が相応しい、首都大学東京・ネットワークデザイン研究科の渡邊英徳先生の研究室が、素晴らしいビッグデータ可視化アプリを先日発表しています。
「続:マスメディア報道の空白域をビッグデータで可視化する」
このハフィントン・ポスト記事の中で、弊メタデータ社のAPIに触れています。TVメタデータから地名を抽出しているのが、弊社の「5W1H抽出API」だからです。各局ごとの報道地域の図示や、減災リポートと重ねて表示することにより、傾向を一目で把握する一助となっています。目に美しく意味の把握しやすい、文字ビッグデータ可視化の最先端の姿。
首都大学東京ネットワークデザイン研究科渡邊研究室では、3、4年前から、弊メタデータ社のネガポジ・感情解析APIを使って、優秀論文賞、マッシュアップアワード準優勝などを獲得しておられます。コトバノキが有名ですが、他にも、歌詞の感情解析の結果から、明るい、暗いメロディーを自動作曲するなど、SF的なアプリ作品も誕生しています。
ソーシャルでは「半構造データ」が激増中
ツイッター、Facebook以外にも、写真共有のInstagramや、ビデオアートのVimeoなど、様々な専用メディアがソーシャルの仕組みで隆盛を誇っています。
この画面は、FIFA公式のInstagramページです。Instagramはもともと、スマホなどで気楽に撮影した写真をアート調、セピア調などに大胆にその場で加工して投稿し共有するためのサービスでしたが、気軽に作って味わえるお洒落さが、品位を維持・向上したいFIFAのお眼鏡にかなったということでしょうか。
いずれにせよ、前回2010年のW杯の時点では存在すらしていなかったInstagramのような仕組みを使って、マスメディア経由と比べてケタ違いに大量のコンテンツを提供し、それを介してファンとの国際的な交流をFIFAが図るようになったのは注目に値する動きでしょう。
画像や動画に限定し、自動編集されることを前提に一定のお作法で書きこまれたキャプション(説明テキスト)などの「半構造データ」が激増し、これまたビッグデータを形成しています。これらコンテンツは、時にTVメタデータを介して、またはテキストからの5W1H(イベントのメタデータ)抽出を介して、健全にビジネスに応用され、消費者やアプリ・ユーザーの娯楽、ひいては幸福増大に貢献できる日を待ちわびているように思えてなりません。
チャンスは目の前にたくさん転がっています。今後も、時にスポーツ関係のビッグデータ活用にならって、コンテンツの権利関係や個人情報保護に留意しつつ、ビジネスへの応用を鋭意考えていきたいと思います。そして日本発のビジネスモデルの存在感を世界に示していけたらと考えます。