2015年07月22日

AI応用はどこに向かっているのかをざっくり整理する

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の17回目です。


AI応用はどこに向かっているのかをざっくり整理する

人工知能ブーム再燃の真実(その2)


 新年の最初の記事を書いてから2週間の間、ディープ・ラーニングや量子コンピュータを含む、最近の人工知能関連の話題、研究の最前線について問い合わせを受けて調べ、考える機会が顕著に増えました。本業の合間にじっくり考えたり、若手研究者と話をしてきたわけですが詳細は別途お話しするとして、ここ四半世紀、計算量が爆発的に増えるため個人的には懐疑的なスタンスを取ってきた多層ニューラルネット(≒ディープ・ラーニング)について、肯定的に評価するようになったという変化がありました。

 お引き合いや問い合わせは、いわゆるビジネス応用についてのものが多いわけですが、人工知能応用の5年後、10年後を語れ、と言われた時に、研究の最前線、その勝算について考えないわけにいきません。とはいえ、基礎的なアルゴリズムの「勝ち筋」が仮に分かったとしても、産業に、生活に、ITインフラに、多彩な影響を与える応用がどうなるかが簡単に読めるわけではありません。

 そこで、具体的な応用テーマを眺める前に、人工知能にはどんな種類があるのか、どんな分類法をすれば見通しが良くな(った気がす)るか、元旦の初夢で思いついた「人工知能の3軸分類」を用いてご紹介したいと思います。

人工知能は万能にあらず。様々な種類、方向性がある

 ビジネスマンの会話の中でも、テレビ番組への取り上げられ方でも、人工知能には様々なニュアンスが伴います。画像や動き、音声を認識したり、人間の言葉や感情を僅かでも解釈するような技術要素が入れば人工知能だし、チェスや将棋、囲碁のように人間がプレイヤーとなって頭を使うゲームや作業も、全般に人工知能と呼ばれがち。少し気の利いた、進んだ会話を自覚する人々の間では、楽器の演奏など身体を駆使した、従来は人間にしかできなかった作業全般も人工知能、ロボット技術と認知されています。本連載で以前取り上げた対話ロボットというソフトウエアや、クイズに答えるソフトウエアはランキング、レコメンデーションと似た技術の延長にあるにもかかわらず、やはり人間臭いところから人工知能、と認識されていることでしょう。

 少し幅広く「知的なふるまいをするソフトウエア」と緩く定義しておいて、どんな種類の人工知能(以下、AIと略記) があるのか考えてみたいと思います。

 予告させていただいた「初夢」では、従来からある「強いAI」対「弱いAI」、「専用AI」対「汎用AI」に加えて、「大規模知識・データに基づくAI」対「小規模知識・データで動くAI」という3つの軸で分類し、様々な位置関係に色々な違ったタイプのAIがあるととらえてみよう、と思い立ちました。

 「強いAI」とは、「人間の脳と同じふるまい、原理の知能を作る」ことを目指すAI研究のことを指します。「弱いAI」は、「人間の能力を補佐・拡大する仕組みを作る」ことを目指すので、必ずしも人間の脳の構造や、機能さえも解明する必要はないということになります。

 汎用、専用というのは、相対的に取ることもできます。たとえば、チェスしかできない機械と、チェスも将棋も、囲碁もできる機械とを比べたら、後者のほうが汎用的と言えるでしょう。ただしAI研究の世界ではもっと次元の違う汎用性、例えば知識を新たに自分でその場で獲得しながら使いこなしていけるという、メタ知識をもって未知の事態にある程度対応できるAI、汎用の学習能力を持ったAIのことを汎用のAIと呼ぶことが多いようです。知識やデータの多いか少ないかの違いは、読んで字のごとくです。

人工知能(AI)の3軸分類

  • 強いAI vs 弱いAI
  • 汎用AI(万能、広い) vs 専用AI(個別、狭い)
  • 知識・データが多量 vs 知識・データが少量

「強−弱」「専用−汎用」「知識・データの量」の3軸で分類

 この3Dグラフ上のいくつかの位置について見てみましょう。

 まず、「強いAI」で「汎用的」で、「大規模知識・データ」を備えているAIなら、人間のような認知、理解、学習も全部できた上で、人間が苦労してプログラミングして教え込むことなく、何千種類もの専門家の知識を急速に自分で獲得して、全知全能のようにふるまうという機械となるでしょう。このようなAIが、いつか質的にも人間の理解や発想の能力を超えて、超・知性として進化し始める特異点がある、と考えるのが「シンギュラリティ(2045年問題)」論者です。

 次に、今度は具体例としてIBM社の初代「ワトソン」コンピュータがどんな種類のAIであるか考えてみましょう。まず、人間のクイズ王を凌駕するほどの大量知識を備えていることには誰も異論はないでしょう。次に、その構造や「理解の仕方」がどうかというと、確かに様々なジャンル(文学、歴史、地理、物理、化学、生物、地学、数学、音楽、映画、などなど)に通じているようには見えますが、各専門知識を、その専門にある程度合わせた構造で持つ場合もあり(数式や年号など)、それを足し合わせた仕組みということで、専用AIの集合体と位置付けるほうが適切でしょう。

 言語の構造、すなわち、主語と述語「***がどうした」、目的語と述語「***をどうする」のパターンが似ているという、浅い知識照合で解答候補をランキングしている部分は汎用的とも言えるのですが、逆にその分野の専門知識を備えているというには程遠いと言えます。検索エンジンのランキングや、ECサイトのレコメンデーションエンジンに近いと言えるわけで、IBM社自身が当初言っていたように、処理方式の主要部はAIではない、という評価が妥当かもしれません。

 ふくらはぎの辺りに電極、センサーを取り付けて、脳波が足の筋肉にどんな指令を出し、それがフィードバックされるかを刻々と測定して筋力をアシストし、寝たきりの人を歩行できるようにしたCyberdine社のHALはどうでしょうか。失われた能力を補完し復活を手助けするという機能は「人間の能力を拡充」に含まれるので、明らかに「弱いAI」に該当します。汎用的とは言えないので専門的。知識量が将来増えるのかもしれませんし、知識量の数え方、計り方もよく分かりませんが、百科事典の数百万項目やウェブ上の知識情報に比肩できる水準ではないでしょうから、小規模知識・データ、に該当すると言えるでしょう。

 アシストする臓器が「人間の脳」という事例も近い将来出てくるように見聞します。分かりやすく具体的に描いた例として、米国の近未来SF TVドラマ“Intelligence” の主人公ガブリエルの脳に埋め込まれたチップでネットに接続し、膨大な情報を自在に引き出して、「サイバー・レンダリング」と呼ばれる機能で脳内に3Dイメージを再構成し、それを通常の脳機能で“眺めて”、何かを解釈、発見するようなことが実現したとしましょう。「弱いAI」であり、超「大規模知識・データを活用」したものであり、脳がインターネットに直結するようなもので、汎用の仕組みで脳の能力を拡大するわけですので「汎用AI」と言っても良いのではないでしょうか。

IoTの人工知能はどこに位置付けられるか 

 年初にラスベガスで、過去最高の約17万人を集めて、世界最大級の家電展示会CES(Consumer Electronics Show)2015が開かれました。

 個人的には、Royal Gateの梅村社長がモバイル決済デバイス、システムを引っ提げてブースを構え、日本のベンチャーとして気を吐いたのが非常に嬉しかったですが、全体としてはやはりモノのインターネットIoT(Internet of Things)が最大の話題であったようです。

 あらゆる家電製品、デバイスがインターネットにつながると言っても、CES2015で注目されたのは次の4つです:

  • ウエアラブル
  • ドローン/ロボティクス
  • スマートホーム
  • 自動車

 四半世紀前の第2次人工知能ブームでは、人工知能はソフトウエアである、というのが通常の理解だったと思います。それがここへ来て、さまざまなハードウエアや、生体との連動、融合と言っていいような応用の動きが注目されたり、ドローンのように人間や、人間が操縦する航空機器では対応できなかったような問題解決や視点(新しい芸術的映像)も生まれています。

 これらは全般に、人間の能力、特に乳幼児が当たり前にできることを忠実に機械に真似させようとする(言葉の覚え方を含め!)といった「強いAI」の方向とは正反対の方を向いていると言えるでしょう。住宅や自動車など、ヒトより大きな人工物に知性を持たせたり、IoTと言わずに「ソーシャル・マシーン」と呼ぶ向きのように、かつての、一人の人間という単一個体についての科学的探究(認知科学ですね)から飛翔して、人間集団に機械の個体も加わって違和感のないふるまいをさせたりする方向性が注目されています。これも、第3次ブームの特徴ではないかと思います。

 次回は、人工知能の進化をめぐる楽観論と悲観論について取り上げてみたいと思います。人工知能がすぐにも人間の知能を追い越して進化するように見積もることで、映画『ターミネーター』や『トランセンデンス』のように機械が人間を支配しようとする、技術的には楽観的になることで人類にとって悲観的な未来を描く向きもあります。ただし現場の最前線の技術を具体的に知悉している人は、どちらかというと正反対の見方をする人が多いようです。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic

2015年07月08日

ネグロポンテさんの“既に行ってきた未来”

Dr.ノムランのビッグデータ活用のサイエンス」連載(初出:日経ビジネスOnline)の16回目です。


ネグロポンテさんの“既に行ってきた未来”

人工知能ブーム再燃の真実(その1)


 新年明けましておめでとうございます。

 新聞、雑誌の新年号は伝統的に、溜めておいた中から明るい話題を拾って新年の目玉記事にしたりするものですが、今年はそうでもなかったようです。その解釈はともかく、本記事は年が明けてから書いていますので、後出しジャンケンと言われぬようということもあり、10年、30年、さらにもっと先の未来まで視野に入れて人工知能の産業応用、生活への浸透をテーマに展望してみたいと思います。

 「ビッグデータが支える、25年ぶりの人工知能ブーム 〜ロボット、自動通訳、IBMの『次の柱』もビッグデータの賜物」で書いた「ブームの到来」は早計に過ぎないか? また、なぜ今、人工知能なのか? 四半世紀前と違ってなぜ今回はうまくいきそうなのか? これらの疑問にある程度答えておかないと、歴史や貴重な知識体系から学ばず、同じ失敗を繰り返す危険が無きにしもあらずだからであります。

未来を読むためには温故知新が重要

 私が米マサチューセッツ工科大学(MIT)人工知能研究所(通称“AIラボ”)に研究員としてお世話になった1993〜94年から20年が経ちました。MITのメディアラボにも1、2度表敬訪問しましたが、当時のニコラス・ネグロポンテ所長は私に対し、“Right Institution, but wrong Laboratory!”と言って、同じMITというニアミスなのになぜうちの研究所(メディアラボ)に来なかったのだ?と笑いました。

 そのネグロポンテ所長の言葉に対しては、「日本語や英語などの言語の研究は奥深く、シンプルな少数の手法だけではなかなか翻訳や検索などの実用システムは作れないので、デモ作り至上主義のメディアラボでは首になっちゃいますよ!」とおどけて答えたものです(当時のメディアラボは、“Demo or Death”というほど全研究員に対してデモ作りを重視しており、理論や分析は実際、後回しというスタンスの研究者が多かった気がします)。

 AIラボでは理論的ブレークスルーを目指し、言語について、今でいうビッグデータを構造化し、分析し、その妥当性を複数の認知科学的な手法で評価する仕事に、年間363日は没頭したものです(残りの2日は、フリーウェイを300km飛ばしてタングルウッド音楽祭に出向いたのと、日本からの客人への応対に費やしました)。

 ネグロポンテ教授は、昨年のTEDトーク (邦訳「スーパープレゼンテーション」でNHKが放映) の中で、過去30年間、およそ隔年で彼の話した内容を振り返り、“I have actually been to the future!(かつて私は実際に未来に行ったものだ)”と断言しました。それくらい当時から未来を先取りして、様々な21世紀のシステムやソフトウエアを試作し、動かして見せたということですね。

 『Being Digital』(物質=Atomより情報=Bitが経済社会の主役となる)という彼の「預言書」には20年後、30年後の生活様式、例えば電子端末を指でこすって新聞や雑誌を読むようになる、などと書かれ、「そんなことは絶対にありえない!」とジャーナリストに猛攻撃をくらったことを勲章のように感じる、と語っていました。グーグル・ストリートビューの撮影にそっくりなことをグーグルより20年以上前にやっていたビデオ映像など、先見の明の証明としてなかなか説得力がありました。

大規模知識ベースという副産物を生んだ当時の研究

 ネグロポンテ先生の足元にも及びませんが、それでも同じMITながら違う研究所で研究生活を送った者として、25年前の人工知能ブームと、今日の人工知能への期待とを対比し、取り巻く環境の違いなどを少々綴ってみたいと思います。

 四半世紀前、日本が国威をかけ、千数百億円の国家予算を投じて取り組んだ第五世代コンピュータ開発機構ICOTのプロジェクトは失敗に終わったとされています。これは知的なコンピュータ、推論マシンの開発や並列プログラミングに重きを置いていましたが、自然言語処理も重要な研究テーマの1つでした。

 人工知能的なコンピュータの実現には自然言語理解が不可欠、という主張は当時のICOTの予算配分も左右したし、最近では、機械の知的能力の総量が全人類の知的能力を超える「シンギュラリティ」の代表的論客Kurzweil博士(米グーグル社)も信奉するところと言われます。

 ICOTの判断に当時、機械翻訳開発に注力していた富士通、NEC等の大手メーカー8社が加わって、大規模知識ベース、特に計算機が言葉を”理解”するための辞書の開発プロジェクトがスピン・オフ。私自身も開発メンバーとなったEDR電子化辞書プロジェクトが立ち上がりました。これは機械翻訳に人工知能的要素を取り入れて言葉の意味をとらえ、文脈に応じておおよその訳し分け(例:bankは「銀行」?「(川の)浅瀬」?) ができることを目指した野心的なものです。日本語や英語などから独立の概念体系と概念記述を50万概念について構築しようとして、ある程度の知識資産を残すに至りました。

 この当時、他国では別のアプローチで2つ、大規模知識ベースの研究開発が走っていました。一般の社会人が当たり前に知っている様々な“常識” 知識を、専門の知識編集者が機械に入力する、Douglas B. Lenat教授らの“Cycプロジェクト”と、もっと実証性・客観性・再現性を重んじて「概念でなく単語(英単語)の間の関係ネットワーク」構築を目指した、George A. Miller教授らの “WordNet : An Electronic Database”(野村も”WordNet for Linguisticsの章”のアイデア発案者であり執筆者の一人として加わっています)です。

 EDRと合わせて、3つの大規模知識ベースとも、ビッグなデータという資産を残しました。当時の専用マシン向けのソフトウエアが現状はほとんど動作しなかったり、保守改良されない状態になっているのに対してずっと良く、予算投入した甲斐があった、ということができるでしょう。中でも、WordNetは、英語以外の言語にアレンジされて構築が進み、来る本格人工知能を開発するための強力な知識インフラとして、現在も成長を続けています。

インフラ、社会環境の激変

 冒頭の自問に戻ります。

「四半世紀前と違って、なぜ今回はうまくいきそうなのか?」

 1つの材料としては、上記のようにかつての人工知能研究ブームの遺産があり、その後、ノウハウ、経験を積んだから、という技術開発側の事情も確かにあります。しかしそれ以上に、ビッグデータと、それを組織化・活用してスマホのアプリなどの形で様々なサービスが提供され、またAPIという使いやすい部品がクラウドでいつでも使えるという状況によって、「真に役立つ」人工知能的なアプリを作りやすくなったという事情の方が大きいように感じます。

「なぜ、今、人工知能なのか?」

 ネット上のデジタル情報量が10年で1000倍と指数関数的に増える「情報爆発」が継続し、自分に必要な情報を読み切れない、選択肢が多すぎて全部トライしている時間がなくなってきた、という人々のニーズは重大です。情報は飛躍的に増えており、目下の判断、意思決定にとって肝要な、自分に最適な情報に行きつけず、情報洪水の中で溺れかけてしまう。だから、本当にベストの解でなくてもいいから、そこそこ使える、頼れる解を「友達」に聞こう、というソーシャルに向かう解決法もありました。しかし、皆が分野ごとに全知全能の友達をそろえているわけではありません。人とのコミュニケーションには膨大な時間がかかるし、ギブ・アンド・テイクの収支に気を遣うあまり疲弊していく人も出てきます。

 「届いたメールを全部読める人などいなくなっている。でも、庶民全員が秘書を四六時中控えさせておくわけにはいかない」という状況で、不都合を回避、軽減するほとんど唯一の解は「機械に代読させる」ことではないでしょうか。ここに、特に先述のKurzweil博士が主張する「自然言語理解」を中心とした人工知能的アプリケーションへのニーズがあります。

 文章を代読したり、さらには、そこから得られたパラメータ(メタデータ!)をもとに、細々とした雑用を、いちいちその詳細は報告せずに、自分でやり方を調べて、こなしてくれる。このような「代行者」としての人工知能がいてくれたら本当に便利ですね。かつての人工知能ブームの末期にも、ネット上をお出かけして他のコンピュータから教えを乞いて問題解決をするモバイル・エージェントが提案されました。エージェントを記述するTelescriptという名の言語も現れましたが、広く普及するには至りませんでした。

 ここ四半世紀で、パーソナルコンピュータの計算速度は何桁も速くなり、インターネットも大容量化して、無線で動画を見放題という、かつては想像もできなかったほどの利便性、体感速度を実現するに至りました。また、機械同士がコミュニケーションするインフラとして IoT (Internet of Things: モノのインターネット)のための軽量言語MQTTが普及し始めたり、そもそも大量データの供給源として、多彩なセンサーが使われるようになり、例えばスマホを振る“シェイク”動作のログを延々とクラウドに吐き続ける仕組みが当たり前のように普及してきました。3Dプリンターに象徴される多彩な出力デバイスが、アイデアを文字通りに具現化したり、サービスの形で供給する具体的な手段として現れ、年々、劇的に価格低下しています。

 計算機の速度が上がっただけで、かつては使いものにならないほど遅かったアルゴリズム(計算手順)が実用になってくる場合もあります。あるいは、たくさん計算できるようになった分、精度が低くて実用にならなかった診断や単純な予測処理が、実用的な精度にもっていけるようになった、ということもあります。

時は“命”なり!

 以上、ニーズとシーズの両面から「機は熟してきた」と論述しましたが、実は、ニーズとシーズは全く独立・分離したものではありません。「優れた道具は、持ち手に新しい使い方を閃かせ、もはや発明者、制作者の思惑を超えて独り歩きする」というアラン・ケイの言葉の通り、優れたインタフェース・デザインの道具は使い手の創造性を刺激し、新たな問題解決に使われ、新たなニーズ、ひいては市場を開拓していくものです。

 逆に、もちろん、伝統的な教訓「必要は発明の母」も然り。多彩なソーシャルメディアからごく短期間に吸い上げたニーズにこたえるサービスがすぐに実現し、使い手に渡ってフィードバックを受けて改良される。これを象徴する出来事の一つが、孫正義さんがツイッターで、フォロワーからの何らかの要望を含む書き込みを読んで「やりましょう!」と宣言し、2〜3週間後に「できました!」と言ってまたツイッターで報告したというエピソードです。これは2010年か2011年の流行語大賞になるのでは、とつぶやかれ、また、その後も、2013年のソフトバンク株主総会で「やりましょう」と言ってしまった事件などが記憶に新しい人もおられることでしょう。やらされる社員さんたちは大変ご苦労様ですが、ユーザーにとってはこのように迅速にニーズを吸い上げてもらえる環境、インフラは歓迎するしかない、と言えるでしょう。

 この他にも、四半世紀もの間には歴史的事件がいくつも起こり、ビジネス上のトレンドも何度も変化してまいりました。中でも、9・11や3・11を経て、人々はますます自分の時間の貴重さ、それがかけがえのない有限の資源であることを自覚するようになった変化は大きいと思われます。かつては、“Time is money”「時は金なり」と言われていた程度だったのが、いやはや“Time is life!”「時は命なり!」です。

 他人の時間を無為に奪うことは、文字通り、その人の命の一部=有限な人生の時間を奪っていく”partial murder”「部分的な殺人」である。こうした消費者の意識の変化を前提にした経済モデルとして、「アテンション・エコノミー」 が生まれ、様々なメディア間で、消費者の時間を奪い合う様子に注意が集まるようになりました。

 こうなってくると、新参者のサービスの多くが、「ユーザーの細切れの時間に使ってもらう」とか、「細切れの時間の集約に寄与する」とか、「ユーザーが迅速に適切に判断できるよう集約・要約する」とか、さらには、「たくさんの雑用を代行する」というカテゴリに該当するようになってきます。この「雑用」というのが曲者で、これぞ人間の得意分野である融通の利く対応や、優れた柔軟性を求められることが多いのです。だから、このようなニッチ時間を活用する雑用的なサービスが「人工知能的」な様相を呈してくるのに何の不思議もありません。

 少し長くなりましたので、元旦の初夢で思いついた、「人工知能の3軸分類」のご紹介など、次回にしたいと思います。

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic