本連載では一貫して分析のあり方、大切さをテーマとしていますが、「ビッグデータの時代」という言葉を表面的に解釈すれば、大量のデータが溢れているのだな、HDDをはじめとするストレージが必要、重要なのだな、というイメージが湧いてきてもおかしくありません。
今回は、現状、骨の折れる作業となっている大量のデータ集めに際して、どんなデータをどう集めるか、どう(どんな構造で)溜めるかという課題を論じてみたいと思います。闇雲に、乱暴にやるのでなく、「データと対話」しながら収集量を抑え、検索・収集法を微妙にコントロールして変え、利用目的をある程度は考慮して適切な構造で溜めるべし、という方向性を推奨してまいります。
大容量ストレージの価格、再び低下
半導体の場合のムーアの法則(集積密度が18〜24カ月ごとに倍になる)に準じて、HDDについてもここ数十年間、一貫して容量増・高密度化が起こり、劇的にコストパフォーマンスは改善されてきました。しかし、数年前のタイの水害で、それがぴたっと止まり、しばらく一定価格で推移してきましたが、ここへ来て競争再開。価格低下と大容量・高密度化が動き始めました。
Akiba PC HotlineのPCパーツ相場情報は開始以来、好きで眺めていました。先日しばらくぶりに見たところ(5末版)、大容量化・低価格化再開の様子を具体的に実感することができました。
- ・6TB(テラバイト)のHDDが現実的な価格(3万円台前半)に
- ・2.5インチの1.5TB 9.5mm厚(PS4内蔵HDDの換装に使える)が1万円を割った
- ・「HDDを100TB分購入するともれなくPS4をプレゼントされるキャンペーン」
3つ目のキャンペーンのニュースは、「個人で100TBのストレージ容量を所有する人が普通に出てくる」という想定もさることながら、データのストレージこそが主役(お金を払う対象)であり、PS4、すなわち高性能なコンピュータ本体が「おまけ」とされていることに感慨を覚えます。
企業向けのディスクアレイや、インテリジェント・ストレージ(データベース機能搭載)の値段は大変高いので、個人としてはピンときませんが、上記のような個人向けストレージの動向から、ビッグデータ、大量データが主役の時代になったのを感じることができます。
データは分析・活用のために収集するもの
連載初回に掲載した図を再掲します。
初回には、現状では下流工程の分析、活用にまだまだ踏み込めていないが、分析、活用こそが大事である、と書きました。上図を下から上に眺めれば、本来は、活用の狙いを定めてから、どんな分析を行うかを考え、設計し、それに合わせて上流のデータ収集、加工にあたるべきことまで示唆されている、と言えるのではないでしょうか。
ストレージなど、ハードウェアの価格は大きく低下し、業務によってはコスト全体に占める割合が無視できるくらいになってきています。コストに占める割合が大きいのは、データの取得、入手と保存を適切に正しく行い、扱いやすい構造のデータベースに落とすまでの人件費等です。データ内容の過不足、誤り、重複、形式の不統一を調整するデータ・クリーニングの外注費だったり、その支援ソフトウェアの代金だったり、はたまた、なぜか無料で全世界に公開されているデータを購入するための代金だったり。これらの出費も、現状では馬鹿にならないと思われます。
ここのデータ収集が結局有料で大きなコストがかかるならば、狙いから外れた対象の社外データを無駄に購入するなどという余計な出費をなくし、集めたデータが何度でも有効に活用されるよう運用しなければならないでしょう。以下、データ収集自体を効率よく行うために、「データと対話」すべきことを書きます。
結果を見るまでは、どんな検索式が適切か分からない
社内データも社外データも、一般に全量を眺めるのは無理ですから、必ず、検索・絞り込みの作業が入ります。このときの検索条件(以下「検索式」と呼びます)をどうしたら良いか。「そんなの最初に決めたキーワードを入れるだけじゃないか」と言う人は、適切なデータ収集を行った実務経験があまりない人だと思われます。
まずはごく単純に、「商品名」「ブランド名」「地名」等の固有名詞の例を見てみます。
例:「ジョージア」
広告宣伝が功を奏したようで、缶コーヒーのジョージアのオフィシャルサイトが、Googleでもbingでも検索結果のトップに来ました。缶コーヒーのWikipedia解説ページやFacebookページ、日本コカ・コーラ株式会社のページに交じって、当然ながら上位に、「(米)ジョージア州」についてのページ(Wikipedia、bingマップ)が食い込んできます。
そして、今回「データと対話」してみて私が初めて知ったのが、次の2つです。
週刊ジョージア
週刊ジョージアは、働く男たちを手のひらから応援するスマホ・マガジンです。グラビアあり、コミックあり、エンタメありと盛りだくさん!月〜日で毎日更新!!
ジョージア魂賞 〜選べ、チームのためのベストプレー〜 | 日本 ...
ファン投票で選ぶベストプレー「ジョージア魂賞」!投票すると毎回豪華賞品が当たるチャンス!今すぐ投票してみよう!! NPB.or.jp 日本野球機構オフィシャルサイト NPBトップ 読売ジャイアンツ 中日ドラゴンズ 東京ヤクルトスワローズ ...
それぞれGoogle検索のtop 10、bing検索のtop 10に1つずつ見つかりました。
ツイッターなどで、缶コーヒーについての口コミだけを調べたい、あるいは米国の州についてだけ調べたい、スマホ週刊誌についてだけ調べたい、などの時には検索式を工夫する必要があるな、とすぐにお察しと思います。仮に、100%の精度がほしい、すなわち、取りこぼしもなく、勇み足もない(検索結果に別の意味の「ジョージア」がない)ようにデータ収集しろ、と言われたら結構難しいだろう、とも思われたかと思います。検索結果の2ページ目以降も徹底精査し、「ジョージア」が出てくる文脈の前後に出てくる特徴的な言い回しや記号にも着目して、排除する条件として検索式を長くしていく必要があるからです。
日本語の「ジョージア」はまだ、英語のGeorgiaよりマシであることは、旧ソ連崩壊の時期に最新情報を英語で見張っていた多くの人が知ったことと思います。“Georgia”と1語、全く同じ綴りで、旧ソ連・中央アジアの「グルジア共和国」のことも意味するからです。もちろん、日本人のほとんどが知らないような商品名、ブランド名が海外で使われているかもしれない。英数字列の言葉は、たとえ日本語を検索しようとしても、社外データを収集する際には常にこのような「同綴り異語」の問題がつきまといます。
多義性問題を解決する「係り受けランキング」
同じ言葉が違う意味で使われる問題(多義性問題といいます)も厄介で、技術だけでは解決しきれないのが現状です。
例:「富士急」
え? 何が問題なんだろう? とお思いになった方もいらっしゃるでしょう。
人間は、文脈や状況に応じて、いとも簡単に言葉の意味を無意識に選び取っているため、何が難しいのか分からないという疑問が湧いてくるのです。
「富士急」という固有名詞ですが、ざっと挙げただけで3つの違う意味があります。それを、主語-述語や目的語-述語などの係り受け関係でみてみましょう。
A)富士急が・・・急騰
B)富士急で・・・出かける
C)富士急に・・・出かける
もうお分かりですね。A)は、富士急行株式会社の株のこと(東証9010)、B)は、富士急行線の鉄道路線、C)は富士急ハイランドという遊園地のことを意味します。
このように、係り受け関係が定まると、意味やテーマが急激に絞り込まれます(完全にではありません)。このため、係り受け関係でランキングするだけで、多義性問題の多くが解決でき、文章のテーマ、例えばお客様の声をアンケート等で調査した結果、自由回答文章に多く含まれるテーマを上位から抽出し、人間によるまとめあげと分析、対策立案へとつなげることができます。
メタデータ社の製品「アンケート分析Pro」には、同じ係り受けの組み合わせの出現数をクリックすると元記事を瞬時に参照できる機能が搭載されています。前後関係からも重要テキストを選別してまとめて「フルテキスト類似検索」の検索窓に入れると、全体として似た文章を上位から類似度順に並べてくれるので、お客様の声の中で目立ったいくつかのテーマごとに、ほぼ同趣旨の声をおおよそ網羅する作業も非常に短時間で完了します。
次の図は、昨年の東京五輪決定の前後1カ月に「#東京五輪」を含むツイッターの書き込み数千件に対して、回答者属性と「五輪決定がうれしいか」「2020年に向けて景気は良くなるか」の選択肢回答を付加した疑似アンケートを「アンケート分析Pro」にかけた結果です。自由回答に模したツイート中に 「予」の字を含むものから抽出した係り受け(活用形は基本形に変換)のランキングを示しています。さまざまな想定内の予定の類を差し置いて、超能力少年が2020年の未来都市東京で活躍する大友克洋氏のマンガ「AKIRA」 が、30年前に2020年東京五輪を「予言」していた驚き、というテーマが上位を占めていることが一目瞭然です。
ここで、前ページの図で赤く囲った「選手−予定」が面白そうだったので、件数の「3」をクリックし、この係り受けを含む記事を表示させると:
この3件のテキストを全部つないで、検索式として(!)、類似検索の画面に投入した結果が下図です。
3件のうち一つが、データベース全体の中でとりわけ特徴的な(他にあまり出てこない)、選手村の除染をテーマにした書き込みだったため、最上位にその書き込みが来ました。類似度ランキングは、右端の棒グラフと類似度・関連度の数値でご確認ください。
他の2件が、2位、3位、と続いた後、選手村予定地付近の不動産の売れ行きの記事や、テロ対策、選手村も絡む経済効果、などの記事が続きます。一番下の書き込みは「東京五輪コンドーム戦争」という産経新聞記事の引用です。選手村に絡めて、早くもこんな裏話が出てきたかと苦笑させられました。全産業が色めき立っているかの様子が素早く発見できたのは、この「係り受けランキング」から「類似検索」を連携させた結果ならではの収穫でした。
「分かち書き」に起因する問題も残る
技術的には順番が前後した形になりますが、表記上の問題で、検索・絞り込み・データ収集で大きなノイズが出てきてしまうことがあります。これは「分かち書き」をしない日本語のような言語で顕著です。下記は実際に困っている状況を目にした例です:
例:GAGA →「誰か【がが】まんしなければ」
義経 →「資本主【義経】済と社会主【義経】済」
検索エンジンやデータベースの絞り込みに際して、「気を利かせた」つもりで、異表記に自動展開されてしまうことがあります。GAGA→「がが」など、常識ある社会人ならば、そんな展開は有害無益と分かっていても、ソフトウェアがそのような仕様で動作し、しかも、単語でなく、文字列の一致で処理されてしまうと、上例のようなおかしな検索結果が出てきてしまいます。
2番目の「義経」問題ですが、実際に、某図書館で老婦人が「義経千本桜」の解説書を見つけようとして、マルクス、エンゲルス、レーニンの著作ばかりがヒットした現場を目撃したことがあります。老婦人は茫然として固まってしまいました。あまりの落差に「機械が壊れている」と思われても仕方がありません。
この問題の解決には、分かち書きをして単語の切り出しとその基本属性(名詞、動詞、など)を決めた上で単語検索を行い(活用形の文字面が違っていても原則一致させます)、どうしても取りこぼしが出てきた時のために補助的に文字列検索も併用する、というやり方をとる以外には良策はなさそうです。
分かち書きも、かな漢字変換と同様、永久に精度100%にはならないでしょう。「東京都」→「東京|都 →とうきょうと」なのか、それとも「東|京都 →ひがしきょうと」なのか。前者が多く出てくるだけで、後者でないとは言い切れないことから、人間でも間違えることがあるわけですから。
次回は、「口パク」や「東京五輪」などの例を手掛かりに、単語切り出しの曖昧さも、同綴り異語の問題も、単語の多義性の問題もクリアしているにもかかわらず、実際にどのイベントに言及しているかの曖昧性があるためにデータ収集にノイズが入る問題を取り上げます。また、100%の精度が望めない(かな漢字変換なんかもそうですね!)時に、どのように実用的な精度を達成するかを評価する指標についてご紹介する予定です。