コンピュータに人間の言葉を教える

研究のコンセプトペーパー
研究タイトル:
協働&創発プロジェクト
「コンピュータに人間の言葉を教える」
~育成ゲームを使った、大衆による人工知能の創造~
※
創発: 目的を共有しない複数の主体が、結果として成果物を産む。
協働: 目的を共有する異分野の主体が、共通の成果物を目指す。
2014 年 8 月 12 日
慶應義塾大学環境情報学部2年
中村 巴
1
このプロジェクトの革新性
このプロジェクトの本質は、
「ソーシャルゲームを使って、人工知能を開発する」
というキャンペーンの実行である。
いままで人工知能の開発者は、数人~数百人という規模
だったかもしれない。
一方、今回のプロジェクトの人工知能の開発者は、「数千人
~数十万人」という膨大な数。その理由は、人工知能の開発
者が、「たまごっち」を育てるようなゲーマーだから…。
これは、壮大な創発プロジェクトである。
※ 実際は、たまごっちのようなガジェットではなく、スマホのアプリを想定してい
ます。
このプロジェクトは、
企画者・運営者・技術者・支援者・一般ゲーマーの協働作業
である。
2
発想の原点
この企画は、人工知能の父・マービン・ミンスキーの言葉に着想を得た。
マービン・ミンスキー (人工知能の父)
「こどもを育てるように、コンピュータに言葉を教えよ」
(「逆転の知」NHK 出版)
誰もが人工知能開発のトップランナーとして認めるマービン・ミンスキーの言葉は、これまでの
人工知能開発が間違っていたと指摘している。
事実、私が、大学入学前に聴講した自然言語処理の石崎俊教授の最終講義で知ったのは、
「この 20 年間、テキストの意味解析はほとんど進んでいない」という意外な事実だった。
慶應義塾大学の AO 入試において、「SNS のコミュニケーションをランキングの根拠にした次
世代グーグル」を入学後の研究テーマに掲げた私。しかし、「テキストの意味解析」が未開発だ
という現状に絶望する。
そこで、以下のように考察した。
◇ ◇ ◇
いままでの「人工知能開発」は、「テキスト(エクリチュール)」から意味を抽出するところから始
まる。しかし、自然言語には「多義性」があり、多義性が皆無の「人工言語(機械語)」との親和
性は低い。つまり、「(和英辞典に相当するような)自然言語機械語の辞書」をつくっても、ロ
ボットが知りえる情報が「テキストしかない」と、「辞書の多様な意味」から、「最適な意味」を選
択できない。
凡例:「カミ」と言われても、ロボットは、髪なのか、神なのか、紙なのか判断する材料
を持たない。
そこで私は、「話し言葉(パロール)」から意味を定義するという、アイデアを思いついた。
従来の人工知能開発: エクリチュール
意味を抽出するための要素は、「テキスト、辞書」のみ。
私が提案する人工知能開発: パロール
意味を抽出するための要素は、テキスト、辞書の他、
「発信者の属性、受信者の属性、場の属性」。
◇ ◇ ◇
3
自然言語(エクリチュール)は「多義的」である。したがって、エクリチュールだけから最適な意
味を選択することは不可能。ならば、エクリチュールを研究対象とする「人工知能開発の目論
み」が一向にすすまないのは当然である。
◇ ◇ ◇
しかし、テキストが存在する「場の属性」が分かれば、意味は特定できる。
凡例: 場の属性:教会
テキスト:「カミ」 → 意味:神
場の属性:便所
テキスト:「カミ」 → 意味:トイレットペーパー
同様に、「発信者の属性」と「受信者の属性」も重要である。
凡例:
発信者:夫 受信者:妻 場:夫が仕事から帰宅した。 テキスト:「ごはん」 → 意味:ごはんを作って欲しい。
発信者:母 受信者:こども 場: 夕方の家庭
テキスト:「ごはん」 → 意味:ごはんだから、食卓に集まること。
夫の帰宅後、夫が妻に「ごはん」と言えば、「ごはんを準備して欲しい」の意味である。しかし、
母が子に「ごはん」と言えば、「ごはんができたから、食べよう」の意味である。
◇ ◇ ◇
従来の人工知能開発の「エクリチュールのみによる意味解析」だと次のようになる。
凡例:
テキスト:「ごはん」 → 意味:炊かれたお米。または、食事。
たとえシソーラス(類語事典)が完成しても、属性情報(発信者・受信者・場)を勘案できなけれ
ば、実際には、人工知能として機能しない。
4
このように、エクリチュールでは「多義性」が高いが、パロールなら「多義性」は減少する。
さらにいえば、対話を進めると、「多義性」を減少してゆく。
A: 君は夏にどこに行ったの?
B: アメリカ(ロサンゼルス・シカゴ・ニューヨークを含む広大な多義性)。
A: アメリカって言っても、広いよね。
B: 西海岸(ロサンゼルス・サンフランシスコで、多義性は減少)。
A: 西海岸の何処?
B: サンフランシスコの近く。
A: それって?
B: シリコンバレー。
この場合、B は、シリコンバレーと言っても A に分からないと思ったので、当初、アメリカと答え
た。そして、質問者の興味にしたがって、西海岸、サンフランシスコ周辺、シリコンバレーと、多
義性は減少して行く。
意味は、「発信者・受信者・場」の属性によって、アドホック(一時的)に、モバイル(動的)に変
化する。
現在の人工知能の開発において、シソーラスをつくることが第一の目標のようだ。
確かに、意味解析において、辞書(シソーラス)は必要不可欠だが、それだけではロボットが
「最適な意味」を選択することは出来ない。最適な意味を選択するには、テキストにリンクする
「発信者・受信者・場」の属性を把握することが必要である。
◇ ◇ ◇
最近の人工知能学会における自然言語の意味解釈の研究対象は Wikipedia のようだ。
ウェブ上の百科事典ともいえる Wikipedia の意味解析は、用語の定義など学問的には意義
のあることかもしれない。
しかし、「記入者の属性」は明らかではないし、「一般化された情報」が閲覧者によって、自動
的に最適化されることはない。Wikipedia の研究は、シソーラスの作成には効力を発揮する
のかもしれないが、ダイナミックに機能する人工知能の開発とは、遠いところにある…。
◇ ◇ ◇
このプロジェクトでは、マービン・ミンスキーの「こどもに教えるように、コンピュータに言葉を教
えよ」という言葉を、「パロール(対話)によって、言葉を教える」と私流に翻訳した。
そのために、インターネット上のソーシャルメディア( or ゲーム)は最適である。何故なら、発言
者の属性・受信者の属性・場の属性が、テキスト(コメント)にリンクされているから。
◇ ◇ ◇
5
本年(2014 年)6月までの私の考察では、発言がコンピュータの意味解釈につながるための
CMS(コンテンツマネジメントシステム)を準備し、ソーシャルメディアで、「コンピュータに言葉
を教えよう」とい発想だった。
しかし、今回の異能 vation への応募に際して、さらに考察を加え、発言者を画期的に増やす
という必要性から、ソーシャルメディア(SNS)ではなく、ソーシャルゲームをイメージした。
本企画書冒頭では、「たまごっち」をイメージしたが、実際のコア・イメージは「スマホ・アプリ」
の「ソーシャル型育成ゲーム」である。
本企画における、協働の対象は、以下のように変化した。
1. 研究者(アカデミスト・コンピュータ技術者)
2. ソーシャルメディア会社 & ソーシャルメディア登録者
3. ゲームメーカー & ゲーマー
ゲーマーは、自分のロボットを「賢く」させることに熱中する。
それは、初期段階において、育成するという作業が、ゲーマーの個人的な満足(親心)を満た
す。
その後、「育成されたロボット」が、個人対戦や大会などで「競う」。つまり、多数のロボットたち
が切磋琢磨して、育って行く。
さらに、多様なゲーマーによって育てられた「ロボットたち」が合体・統合して、「ひとつの大きな
人工知能」が創造される。
これが、創発プロジェクトの概要である。
◇ ◇ ◇
6
創発・協働の基本イメージ
第1段階:
「人工知能開発を意識しないゲーマー達」が、自分のロボットを「賢く」成長させよう
と努力する。
-------------------------------------------------------------------------
第2段階:
無数のロボットが合体・統合されて、ひとつの巨大なロボットが誕生。それが巨大な
データベースとなる。
7
第 3 段階:
データベースの情報をデータマイニングするツールが開発されて、人工知能が機能
する。
8
人工知能開発の周辺
この企画のための考察の過程で重要な役割を果たしたのは、インターネットの発明者・ティ
ム・バーナーズリーの言葉たちである。
彼のセマンティックウェブは、「エクリチュールの意味の人工言語化」の標準化をめざしたもの
だ。今回のプロジェクトでは、セマンティックウェブを下敷きに、「パロールの意味の人工言語
化」をすすめてゆく。
ティム・バーナーズリー (インターネットの発明者)の示唆的な発言。
● セマンティックウェブ(意味的インターネット):
機械が人間の言葉を理解させるための技術開発。
● 「機械が人間の言葉を理解する」とは、入力者にとって最適の
言い換えをコンピュータが 出力することである。
● 人工知能は、単語が複雑にリンクされることで達成される。
セマンティックウェブの第一目標は、シソーラス(類語事典)を作りあげることである。
本プロジェクトの第一目標も、同じである。
↓
本プロジェクトの最終目標は、インターネットのテキストの意味解析の自動化である。
そのために必要なことは以下、
1. 豊かなデータベース:シソーラス、使用例、属性情報(発信者・受信者・場)がさまざまにリ
ンクされている。
2. データマイニングツール:データベースの情報を有効に使うことができるツールの開発。
留意:
本プロジェクトにおけるデータベース、データマイニングツールの開発には高度な知識と技術
が必要であり、学部2年の学生に扱えるレベルではない。…私はレバレッジに期待するのみ。
9
参考ウェブページ
「人工知能学会への提案書」
私のマイプロジェクトのアウトプットのブログ・「集まれ! デジタルネイティブ」に、人工知能学
会に送付した企画書(ソーシャルメディアをイメージ)を掲載している。
(2014.06.13)
http://digitalnative.seesaa.net/article/399327718.html
「これまでのインターネットの潮流と未来」
同様に、SFC ジャーナル(湘南藤澤学会)へ投稿した論文を紹介する(未掲載)。
論旨は、インターネットの進化は、「(リンクをたどる)ネットサーフィン」「ポータルサイト(Yahoo
の時代)」「検索エンジン(Google の時代:リンク量によるランキング)」と進化しており、今後
は、「検索エンジン:「情報の質(意味)」の吟味によるランキングの作成」に進化すると予測し
た。
しかし、「テキストの自動意味解析」が実現しなければ、「質的勘案により情報マッチング」を行
う検索エンジンは登場しない。
http://digitalnative.seesaa.net/article/383147275.html
(以上)
10