2009年07月10日

セマンティック技術で強化したSNS 2製品を発表しました

  来週の講演展示会2日半(前日の東京国際フォーラムへの搬入準備含め)の準備と、XMLコンソーシアムの主宰部会の準備、そして、講演の満席御礼セミナーの準備で大忙しの日々です。
セマンティック技術で強化したSNS 2製品のプレスリリース文はこちらです:『LAN上のWord/Excel関連文書を5W1Hで自動検索、部署単位で社内外と連携、有害情報フィルタを搭載したビジネスSNS新製品2点を発売
※画面中心の補足資料はこちら
  斬新な機能が半ダースほど入ってますので、少しずつご紹介したいと思います。いっぺんに聴いて、導入検討してみよう、という方は、 満席御礼セミナー「ビジネス専用SNS、社内SNS、企業間SNS、マーケティングSNSについて」へ足をお運びくださると、効率良いかと存じます。
※画面例さえ見ればすべてわかる!という向きは、
  http://www.metadata.co.jp を17.5秒間見つめてください。
 5コマの象徴的な画面を、3.5秒間ずつ表示しております。画像をクリックすると、解説のあるサイトへ跳んでまいります。
 

文脈で判定結果の変わる有害情報フィルタ

   さて、以下で、のっけから、アダルトな文例が登場して恐縮です。※お客様と話す際には、「朝っぱらから」「昼間っから」などと申しております。
 
  ガーラさん他、多くの事業者さんが、用語リストにある単語や文字列を含む文章を、要注意として管理者に通知して見せる、という素朴な処理を行っておられます。その場合、「改行コードを【挿入】」を問題視してしまったり、という勇み足もかなりやらかしてしまいます。逆に、個々の単語自体は問題ないのに、組み合わさると明らかにエロい場合、検出できなくなってしまいます。
例: 私、例の大学教授と、昨日、結局、寝ちゃった。
 もちろん、大学教授 【が】 試験監督中に寝たりするのは全然問題ないわけです。(職務怠慢かどうかは別として ;-)
 
 特許と絡むので、どんな仕組みで、文脈の中で問題となる表現かどうかを判定しているかの詳細は書けませんが、下記のような識別ができます:
例: 釘を刺す→OK、お前を刺す→NG
    バイクに跨る→OK、顔に跨る→NG
    体を被せる(幼児を守って)→OK 体を激しく重ねる→NG
 
  なぜこんな仕組みが必要かというと、現在、もっぱら人手で監視している、いわゆる有害情報の識別を、少しでも多く自動化しなければならないからです。2009年4月施行の、(悪名高き)青少年ネット規制法。規制内容、条件がいくら曖昧で問題といっても、実際に小学生をもつ親としては、ネット上のコンテンツを自動で分類し、せめて年齢認証画面を通らねば見れない場所に区別して置いておいて欲しい、とは願うわけです。
 「誰かが不快になる」という基準ではあまりに主観的で多彩すぎると思われます。ですので、「PTA的基準で、まだ性教育も受けていない自分の子供に見せられない。意味がわかったら困っちゃう。」というものを、レンタルDVDショップのアダルトコーナーののれんの奥みたいなページにしまっておきたい、というわけです。
 ここで問題になるのが、誰でも書き込める掲示板やコメント欄。同法によれば、いわゆるCGM、第三者の書き込みであっても「サーバー管理者」 が一定の責任を負い、排除、削除する努力義務がうたわれています。その解釈、運用次第では、他社の無料CMS上で書いているブログのコメント欄のアダルトな書き込みや犯行予告を放置しただけで、罪に問われる(禁固刑または罰金刑)可能性が出てこないとも限らない、という状況にあります。
 ※「悪法も法なり」のソクラテスほど私は杓子定規じゃありません。実際、児童ポルノの単純所持禁止の法案については、ちょっと皮肉を込めてこんなブログを書いています。しかし、自由な言論のためにこそ、子供など弱者のためのルールが必要、とも考えるので、青少年ネット規制法にも一理ある、と思っています。
 さて、マーケティングSNSの話題です。「グランズウェル」の流れ、うねりは押しとどめようもなく、多くの企業は、Web2.0のサービスに馴れた消費者と対等目線で付き合う必要に迫られています。その有力なツールが、マーケティングSNSです。
 4,5年前から、海外ではハーレー・ダビッドソンのバイク・ユーザ向けSNSや、国内ではANAフレンドパークなど、消費者サービスや、顧客の本音の声に耳を傾けることのできるマーケティングSNSが一定の成功を収めてきました。早期に採用した企業の英断は立派だったと思います。未だに、「何を書き込まれるかわからないので怖くて出来ない」という企業が大半のようにみえるからです。
 それにも一理あります。マーケティングSNSには、外部の一般ユーザがうっかりと、あるいは故意に有害な情報を書き込んでしまうリスクがあります。未成年が加入できるSNSの場合、状況は日々深刻化しています。昨年暮頃から、DeNAさんは新潟に450人の監視センターを立ち上げて巨額の経費をかけておられます。Mixiの監視担当も100人規模以上で、いたちごっこのような毎日に疲弊しておられるといううわさを聞きます。
 

人手による監視の何がどう問題なのか? 機械は何が得意か?

 莫大な人件費、という以外に次の点をあげることができます。

「人手による監視は完璧にはほど遠い」:
・網羅されにくい。意外に精度が低い。
 飽きていない状態で85%程度の網羅。間違って削除することもある。

・基準が不統一 →ユーザの離反や炎上の危険
 個人間で意見が分かれる。
 基準が共有されない。
 同一人物でも文脈や気分で判断が揺れる

・遅れが発生 (非real time) →書き込んだ直後に掲載保留、などは不可能。
 
これを裏返すと、高精度な解析能力を備えた機械の優位点が浮かび上がってきます:

・網羅性 
 厭くことなく高速に網羅的にチェック可能
 適合率と再現率のバランスの調整が可能
   ↑勇み足許容度 vs 取りこぼし許容度
・高精度
 ベースライン精度を機械が確保。人間がエディタで効率良く修正。
・基準が統一 
 ユーザ辞書の形で複数の基準を設定し共有可能
・リアルタイム性
 「疑い有」を公開せずに保留できる。セルフ編集を促したり、コミュ内で民主的に協同編集も可能。

 
「適合率と再現率のバランスの調整が可能 (勇み足許容度 vs 取りこぼし許容度)」は、次を意味します。
「少しでも疑いあれば漏らさないように」「その代わり、拾ったものの半分は有害でない」ように、というチューニングが可能。逆に「拾ったものは90%以上有害だけど、半分くらい取りこぼす」というチューニングもできる。辞書の中の有害度合いの候補情報や、文脈をどこまで拾うかのパラメータの変更で、これらは可能になります。
 人間が、「前回は小学4年以下に有害という基準でやったけど、今回は中学2年以下に有害という基準でお願いします」と言われて、そのようにコントロールできる可能性は非常に低いと言わざるを得ません。仮にできるとするなら、大部の冊子にまとめた基準、判定ガイドラインとくびっぴきで、膨大な時間をかけて1つ1つチェックシートを埋め、過去の類例を検索して参照しながら判断した場合に限られるでしょう。同じ知識(基準、判定ガイドライン)を実装してしまえば、機械のスピードと正確さに叶うはずがない、といえるでしょう。
  また、判定しているのが機械だ、とわかれば、判定を受けた人はべつに怒りがわいてきたりしないのではないでしょうか? せいぜい、「またか。面倒だなぁ」と苦笑しながら、編集してみる、という人が多いのではないでしょうか。人的監視と警告の場合、「あのコミュは潰してないのに、、あの記事は削除してないのに、どうして俺のだけ!?」という憤りを逃れることはできないでしょう。微妙な総合判断の根拠を完璧に論理的に言い尽くせるものではありません。ですので、問答無用で不公平(とユーザには思われる)な処分を続けることになります。
 これではわざわざ莫大なお金をかけて、炎上の火種を植えて歩いているようなものですが、それでもやらざるを得ない、という経営判断をされているはず。そして、不毛で辛い、人手の監視業務をずーっと続ける人がどんどん増員されていく。365日24時間3交代制の監視センターの光景など、想像しただけでも気が滅入ってきます。
 何より、人をいくら増やしても、詳細な判断条件、ノウハウが蓄積され、どんどん再利用できるようになるわけではありません。逆に、不統一ぶりがどんどん拡大していくことでしょう。機械による自動判定の結果を、書いた本人や管理人が判断、コメントを加えることで、統一的な基準を充実させ、よりきめ細かく判定できるように一様に改善していくことも可能になります。対象となったフレーズと、その意味解釈結果(人によって異なります)、判定結果、判定理由等を記録し、紐付け、検索可能な形で共有し、再利用していく。ある程度は人手による運用も可能かもしれませんが、やはり、自動判定ツールを中心とした、知識管理システムを導入するのが理想かと思われます。
 それでも最後はイタチごっこかもしれません。でも、それはそれで良いと思います。エロティックな表現はとても豊かでクリエイティブなものです。クリエイティブな文学表現を奪ってはいけません。ただ、子供から隔離できるように、創造性に敬意を表しつつ、追随し、精度を恒常的に高めていく仕組みを作るべきだ、と考えるのであります。
 最後に一言。 有害情報フィルタを使って、
枕を高くして“グランズウェル”を実践しましょう!
 
※名前の由来など、リンク先↑にございます。
 
 

カテゴリー: Mextractr, business, social, semantic

Good!獲得数: 99

アクセス: 1478

posted by メタデータ at 00:00| Comment(0) | TrackBack(0) | semantic
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/37533657

この記事へのトラックバック