2015年03月04日

なぜ「データと対話」しなければならないか(その4) 「オリオン」はビールか星座か

 私は現在、法政大学専門職大学院イノベーションマネジメント研究科で、「ソーシャルメディア論」の講義をしています。ちょうど「データと対話」を実習してもらう機会があり、さりげないブランド名や商標について、取りこぼしが少なく(高再現率R)、勇み足・エラーが少ない(高適合率P)外部データの収集がいかに難しいか、体感していただきました。その中で、単位のためでなく授業を取ってくれている山本千誉さん(石垣島出身。故郷で中小企業診断士を開業すべく奮闘中)が真っ先に挙げてくれたお題「オリオンビール!」がとても良い例題だったので、机上でデータと対話しながら、質の高いクチコミの収集を試みてみます。

 意思決定や次期施策をまとめるために、欲しいクチコミだけを必要なだけ集めたい、という課題を共有してみてください。

 前々回、「ジョージア」を例に、「結果を見るまでは、どんな検索式が適切か分からない」と主張いたしましたが、どうもこの具体例がいま一つ特殊ではないか、とのコメントをいただきました。急に涼しくはなりましたが、まだまだ仕事帰りの生ビールが美味しい季節ですので、身近な例として、ビールの名前に言及しているツイートを集めてみることにしましょう。新たな目標は、“本音メディア”であるツイッター上で、“オリオン” ビールのクチコミを集めることです。

 国内で販売されているビール類(エール=aleや発泡酒、いわゆる第三のビールを含む)は、数え方にもよりますが千数百種程度も存在しています。その中には、ほとんど正式名称で呼んでもらえなかったり、「生中!」などとブランドを指定してもらえず、記事の後のほうでやっと銘柄がかすかに推察できるようなケースもあります。「水曜日のネコ」のように固有名詞と言い難いようなブランド名や、地名の通称ではないかと思われるもの(“Coedo”=小江戸:埼玉県川越市の通称)も存在します。

 「一番搾り」くらいになってしまえば、もはや普通名詞として使われる(醤油、麦芽等の一番搾り)ケースのほうが無視できるくらい稀なので逆に心配いりません。ユニークな一意に定まる略称であれば大きな問題はありませんが、多種多様な文脈に出現する固有名詞はなかなかやっかいです。

 このように、いろんなジャンルの固有名詞が存在する代表例が「オリオン」でした。まず、シンプルに、オリオン とだけツイッターの検索フォームに入れてみましょう。検索対象は「すべて」です。

オリオンビールのクチコミ集めは、大変!

 9月1日朝の時点では、こんな結果が出ています。

  • 「ごめんオリオンならとっくに潰してるんだ」
  • 「9/14の15時から宇都宮市オリオンスクエアで宇都宮カクテルクラブの33店舗のバーが本格カクテルをお出しします」
  • 【交換希望】AGF AMNESIA(アムネシア) ジェネオン 缶バッジの交換して下さる方を探してます。《譲》オリオン(300円+送料で譲渡可能です。)《求》シン、トーマ、ケント 宜しくお願いします。
    http://twitpic.com/dntbny
  • オリオン現る Orion Appears
    http://blog.polaris-hokkaido.com/2014/08/orion-appears-6.html
  • 【ラバーグッズ譲渡】ブラコン,アムネシア,薄桜鬼,P4,WORKING,日常、右京,光,梓,弥,絵麻,ケント,ウキョウ,オリオン,土方,りせ,ぽぷら,麻衣
  • 【ライブ情報】『RESTORATION』出演決定 9月15日(月・祝) OPEN 15:00
    ※PrizmaXのライブは18:30〜スタート予定です(終演後、特典会あり)
    ■場所 沖縄・ホテル オリオン モトブ リゾート&スパ
  • オリオン
  • 本日のC-1プロレス、19時開始予定です!はい!私も出るのはこれです!時間間違えてたー!良かったら皆様見に来てください!オリオンスクエアでやってます!
  • 今年オリオン座が無くなるらしい。爆発するのはベテルギウス。

(・・・途中、かなり省略・・・)

  • 「君がオリオン 1」 後藤みさき | ためし読みはこちら=> | フラワーコミックス
  • 【キーンランドC】武豊復帰!好調オリオンでVだ(サンケイスポーツ)
  • 桐生オリオン座.....懐かしい
  • 調理完了!今宵はマヨネーズを使わない自家製ポテトサラダ、昨夜の角打ち再現春雨サラダ!ポークソテーにいい浸かり具合の鮪ヅケ!オリオンゼロでスタート!
  • オリオン通のお化け屋敷、27日まで延長!
  • オリオンツアー、スターエクスプレスなどの格安で乗れる高速バスの予約がインターネットでできて便利
  • オリオンジャズで、市ジャズの演奏をききに。 @ オリオン通りイベントスペースにタッチ!
  • うへえくそかわ…オリオンなぞる
  • 今日のスタンドを発現ッ! スタンド名「オートツイート・ナムコ・シコ」! オリオンを加速する能力! セリフ「キモいッ! キモいッ!」
  • 日本語だけで国際交流ができちゃうんです。そう、オリオンならね。 #opu #大阪府立大学 http://ameblo.jp/orion-fudai/
  • マーモット MARMOT オリオン パンツ テクニカルアルパインパンツとして作られたオリオンパ...
  • オリオンの生ビールお安くします!ぜひ遊びに来てください(・`д´・)
  • アサヒ の アサヒ オリオン夏いちばん 350ml缶 (沖縄県限定のビール) 350ML × 24缶 を Amazon でチェック!

 最後の2つだけがオリオンビールのことを言っていると思われます。なかなか出てこなくて大変でした。検索するタイミングにもよりますが、多くの場合、「オリオン」だけではビールのことは1割も出てこないのではないでしょうか。

 「オリオン座」を排除するために、「座」という字を含むツイートを除外しても、

  • 冬はオリオンで決まりってことで。当たったらなんかしてくれそうだよね?
  • 【初音ミク】夏の夜のオリオン【オリジナル曲】(5:03)
  • 〈譲〉画像参照(トーマ/ウキョウ/ケント/イッキ/オリオン)
     〈求〉シングッズ(画像優先)/薄桜鬼 斎藤関連(アムネ優先)
  • オリオンをなぞる
  •  ・・・

 という調子です。冬のオリオンが星座で、夏のオリオンならビールかと思いきや、そうでもありません。

 世の中、本当にいろんな「オリオン」がいますね。芸名、架空のキャラクタ、星座、星座に似たホクロ、競走馬、ぬいぐるみ、宇宙船、広場や商店街、道路名、映画館etc. 何のことを言ってるか、よく分からないものも散見されます。

 写真がなければ、どれが星座で、どれがアニキャラかもわからないものがあります。一言、「オリオン」とあるだけの場合、その前後の対話、本人のつぶやきの文脈や趣味、嗜好を知らないと曖昧なまま。ひょっとするとビールのことを言っている可能性もあるかもしれませんが、どうも上の例ではオリオンビールに言及したツイートは一つもないようです。

  • オリオン、うめーなぁ!
  • オリオンはコクがあるのに爽快なのど越し!

 ならばかなりの確率でビールのことを言っていると思われます。

 しかしながら、「うめー」が、アニキャラの定番の特技のことかもしれませんし、

  • オリオン、キレが良いな

 であってもビールの「コクとキレ」のことではなく、立ち居振る舞い、演武の腰のキレが良い、とほめている可能性があります。競走馬のコンディションが良いことを言っているかもしれません。

 さすがに、オリオンとビールの両方を含むツイートだけを検索すれば、ノイズは激減します。

 しかし、これでは、適合率Pは高められても、

  • やはりゴーヤチャンプルー食べながら飲むのはオリオンしかないよな

 みたいな、明示的に「ビール」という3文字を含まないツイートは全部落ちてしまい、再現率Rはかなり下がってしまうことになります。

 このほか、 botという文字列を含むユーザー名による発言は一律に落とす/採用する、とか、小売店の売り込みのつぶやきは消費者の声ではないのでお店のユーザーIDを丹念に収集(そのためにはプロフィールやつぶやき内容を読まねばなりません)・参照し、リストを作る、などの準備が必要です。

知識発見の前処理としてノイズ除去は重要

 昨年の物理学の大きな話題は、重力の源となるヒッグス粒子(場)の発見でした。そのためには、何兆回もの実験でデータを取り、ほとんどがノイズであるものを重ね合わせて差分から意味を読み取っていく、そのためのコンピュータプログラムを何百本と、何年もかけて作成してはデータを加工し、とことん自分を疑いつつ、どうしてもヒッグス粒子の振る舞いとしか説明できない現象(=シグナル)を何年もかけて浮かび上がらせる、という作業を大変優秀な物理学者たちが数百人がかりで取り組んだと聞きます。

 もっと身近な業務知識、未知のビジネス法則の発見のためにも、データを適切なツールによって眺めて絞り込み、構造化、再編成し、再び、不足データ、関連データを補充してから絞り込む、といったデータとの対話が必須です。すなわち、データと対話することが、インテリジェンスの発見、新知識の創造プロセスの勘所、本質であり、極めて重要なのであります。

 “目的志向、問題解決志向で、データ収集の上流段階から、その吟味、加工、構造化、見える化、そして、人の頭脳による分析に至るまで、「データと対話」し、「洞察」→「仮説発見(着想)」→「検証」→・・・というサイクルを繰り返し、必要に応じて前工程へとフィードバックをかける。これなくしては、無駄に大量データを購入させられたり、見当違いのデータをモニタリングし続けることになり、いくら洞察を得たくとも、その低品質なデータのままでは「無い袖は振れない」状態にとどまってしまいます。”

 この好循環サイクルに入る前に、「ノイズの除去」としか言いようのない、有用なデータの候補(のみ)に絞り込むという、前工程での地道な作業があることを今回、かなり実感していただけたのではないかと思います。この作業経験豊富な職人の技には大きな価値があり、本来無料のデータであっても、適合率P、再現率Rともに高レベルでかつ客観的、中立的に、消費者の本音を正しいネガポジ比率で集めるという専門的な作業には大きな価値があります。

タダになる知識…超一流大学の教材も今や無償公開

 さて前回、検索すれば誰でもアクセスできるようになった既存知識よりも、今後の経営判断を左右する新しい知見、新知識の素を含んでいるかもしれない生データの方が価値が高くなってきた、と書きました。

 「知識が安くなった」ことの象徴的なエピソードを補足しておきましょう。高度な知識の代表例として、大学や大学院の講義資料、教材を挙げるのに異論のある方は少なかろうと思います。私にとっては大変懐かしい米マサチューセッツ工科大学(MIT)が2001年に始めたOCW(オープンコースウェア)は、大学等で正規に提供された講義とその関連情報(教材)を、全世界の教員・学生・自学習者が自由に利用できるようにインターネット上で無償公開する活動です。「知」の分野での社会貢献を目的とするとともに、世界中に当該コースを提供する大学の評判を高め、質の高い学生を集める一助となる期待もあったことでしょう。

 MIT版の元祖OCWのデータフォーマットが公開され、日本でも10を超える数の有名大学で採用され、JOCWのような組織もできています。MITでOCWの広報担当を務めてこられた宮川繁教授(MIT Linguistics & Language; 2013年より東京大学教授を兼務)によれば、教材類の公開に先立ってビジネスモデルを散々検討・シミュレーションしたところ、コスト負担のためには寄付を募り、徐々に公開対象を広げて、いずれは全教材を無償公開へと持っていくのが最も財政的に好ましい、という結論になったそうです。

 日本の大学からのOCW提供コンテンツ数は2005年の153から拡大の一途をたどり、2013年初の段階で、3061となっています(JOCWのサイトより)。ただ、8割以上が日本語によるもので、英語版は489 (16%)。今後、英語コンテンツを量、質ともに充実させていくことによって、日本の大学を志す世界の学生が増え、国際競争力を増すことにつながるのではないでしょうか。

 本家MITのOCWを使って、貧しいアジア、アフリカ諸国の優秀で意欲的な若者が独力で極めて高度な知識を身に着けた例も多いと聞きます。いわゆる100ドルPCの類が人類に最も貢献するためのインフラ、コンテンツの1つが、OCWと言ってよいのではないでしょうか。

 OCWで公開されているのは、いわゆる主教材の資料だけではありません。試験問題やレポート課題、最近では、当初は対象外だった講義風景のビデオまで公開されるケースがあります。ここまで無償にして良いのか、年間4万ドルを超える授業料を払う学生が馬鹿を見るのではないかという心配に対しては、実際に生の授業で丁々発止の質疑応答に参加し、あたかも医者に「個別診断と処方箋」を受けるような体験ができること(MITでは90分で50回以上の質問が学生から出る光景や、世界的な研究者でもある教授がその場で答えに詰まって次回までの宿題にさせてもらう場面を目撃したことがあります)、そしてもちろん学位が得られることに授業料に見合う価値がある、とプライドを持っているように見受けられました。

 試験問題(とその解答)まで公開してしまうと、2度と同じ問題を使えないということにもなり、いきおい教員が毎年緊張して最新最適の課題を与える、という副次効果があったといいます。

 10年近く前、ブログが世に出て間もないころに慶応大学の國領二郎先生が、1つのブログのタイムラインに、教師も教室内の学生も、なぜか教室にいない学生も寄ってたかって書き込んで討論のような授業を進める様子を、当時私が主宰していたビジネスモデル学会ナレッジマネジメント研究会にて紹介してくれました。創発的な2度と再現できないような体験を共有することで活きた知識を摂取し、また知識創造に参加することで知識を生み出し操るための「メタ知識」を授けることに相当程度、成功していたように拝察しました。

スタンフォード発のコーセラは受講管理まで行う

 高等教育の歴史に大きな足跡を刻み、ブレイクスルーとなったOCWですが、2012年に西の米スタンフォード大学から営利団体として生まれたコーセラ(英名:Coursera)のe-ラーニングが最近、急速に勢力を増しています。世界中の多くの大学と協力し、それらの大学のコースのいくつかを無償でオンライン上に提供するところはOCWと共通していますが、オンライン受講管理・試験・修了までの仕組みが前面に出ています。無料お試し期間の後は、少額ながら「学費」を支払わねばならない点もOCWと違います。有償の分、ちゃんとテストを受けて採点してもらえたり、修了証をもらうことができます。

 コーセラは、発足して半年余りの2012年11月の時点で196カ国から190万人もの生徒が一つ以上の授業に登録。修了率は6〜7%とのことでした。現在(2014年8月31日時点)、907万人の受講生がいて、110の大学等から提供された744の講座の1つ以上を学んでいます。

 ためしに、本連載のテーマである“big data”と入れて、コースを選んでみましょう。日本の大学ではなかなか講座名自体にビッグデータを含む講義にはお目にかかれなさそうですが、4つのコースがヒットしました。

 米国コロンビア大、ワシントン大、インドのデリー工科大、そして、上海の復旦大から、次の講座が提供されています。

[画像クリックで拡大表示]

 検索にはヒットしませんでしたが、コース説明に“Big Data”が出てくる講座は、他にもありました。たとえば、ジョンズ・ホプキンズ大学の「データ解析」です。

 これらのコースの教材を検索して、「データと対話」すべきことが語られているか、私も教師のはしくれとして精査したい欲求にかられます。ビッグデータの名を借りつつ、伝統的な統計学やデータベース理論を教育しているらしき大学もあれば、コロンビア大のように、知識発見のためのツールやモデルを活用して知識や推論についての教育にビッグデータを活用する、という実践的、自己説明的な講座もあるようです。

 「データと対話」、すなわち、データの中身を吟味するという試行錯誤から、分析方法、モデル化の方針にさえも影響を与え、軌道修正するようにフィードバックすべき、というあたりまで、コロンビア大のコースには含まれているかもしれません。もっとも、私が本連載で述べてきたようなデータとの対話については、現場でビッグデータの海に溺れそうになり、泥まみれになって格闘し、そこから叡智を昇華させようと呻吟したことのある人でないと、なかなか語れないだろう、と思います。ともあれ、どなたか、上記講座を受講してみて、このあたり、フィードバックしてくださるとうれしいです。

 講師のサイン入り修了証以上に、知識習得、実践の過程で得られた知見を社会で共有するという、いわば「ソーシャル・ラーニング」という仕組みにまで発展すれば、素晴らしいと思います。一方向的な授業になかった面白さを味わう「生徒」間の連帯が世界中に広がり、相互の対話を通じて、文字通り「生きた」教材がますます成長し続けていくだろう、と予想するのは楽観的に過ぎるでしょうか。

 以上、かつては何万ドルの支出と、一定以上の年限が必要だった高等教育の教材が無料、もしくは格安で提供され、誰でもその気になれば、簡単にアクセスでき、修了できるようになった、というお話でした。

 次回以降は「データとの対話」において、収集対象自体が事前に定義できず、少しずつ移ろいゆく場合にどのような試行錯誤や、検索のユーザーインタフェース(検索・絞り込みのパラダイム)が必要とされるかについて考えてみたいと思います。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | business