Snow

自然言語処理と人工知能
人工知能論
2002 年1 月7 日
石崎俊
自然言語処理と人工知能
n
n
n
n
n
n
言語の曖昧性とは
知識の枠組み
常識の重要性と困難性
連想概念辞書の構築
脳記憶モデルとメタファー理解
対話理解モデルとマルチモーダル知識
言語の曖昧性
n
n
n
n
文脈依存性
Winograd の分類
比喩
エピソード的な知識
Paper の意味
n
He reads apaper everyday.
n
Paper → 紙、新聞、論文
n
He:大学の先生→論文
n
n
: サラリーマン→新聞
状況依存性( 文脈)
T.W inograd の曖昧性分類
構造的曖昧性
He saw that gasoline can explode.
n 深層構造
The chickens are ready to eat.
n 意味論的曖昧性
Stay away from the bank.
n 語用論的曖昧性
She dropped the plate on the table
and broke it.
n
比喩
明喩 Simile
あの男は鬼のようだ。
n 隠喩 Metaphor
彼女の肌は雪だ。
彼女の心は雪だ。
n 換喩
あの棚にプラトンはあります。
n
知識の枠組み
エピソード記憶
事象列表現
n レスト
ランのスクリプト
常識的な事象を時間順に表現
n 新幹線のスクリプト
太郎は朝8 時に家を出て
新幹線で博多へ行った。
n
知識の枠組み
百科辞典
CYCプロジェクト
エンサイクロペディアの電子化
n 概念体系
EDRの概念体系
日本語語彙体系
n Wo
r
dNet
アメリカの概念体系(プリンストン大学)
n
オントロジー
■人工知能分野での用語
体系化された知識
エキスパートシステムの流れ
専門的な知識の形式化
■自然言語処理のオントロジー
概念辞書( 体系)
、シソーラス
■さまざまな応用、自然言語処理の高度化
常識を電子化できるか?
n
n
n
n
概念体系を構築する難しさ
視点・
観点によるゆれ
W o r d N e t の日本語版が欲しい
実際に自然言語処理に使えるものがない
■大規模な連想実験による精度の確保
■基本語のオントロジー 小学校の語彙
■概念間の距離の定量化
連想概念辞書の構築
n
従来の電子化辞書(木構造)
n
n
n
概念間の距離が定量化されていない。
距離は、木構造の粒度に依存する。
連想概念辞書
n
n
n
関連性のある概念が直接つながるネットワーク構造。
その概念間距離を定量化。
連想実験により現実世界で人間が利用している知識を構
造化。
関連性の強い語の抽出
上位概念
言葉の連想
「辞 書は∼の一つだ」
書物、本、 文献、物、その他…
下位概念
刺激語
「∼は辞 書 の一つだ」
類義語
辞 典 、その他…
国語辞典、漢和辞典、
英和辞典、百科事典、その他…
辞
書
部分材料
動作概念
辞 書を構成する要素
引く、使う、買う、
置く、片づける、
編纂する、 その他…
見出し語、語釈文、ページ、
表 紙 、 文 字 、その他…
属性
辞 書がどのような様子か
便利、重い、難しい、
言葉がたくさん、
楽しい、その他…
辞 書に関係する動作
環境
辞 書がある場所
図書館、本屋、
勉強部屋、 その他…
概念空間の距離の定量化
n
概念間距離の式
D=α×F+β×S+γ×T
F
δ
S
T
n
N
n + δ
N
=
− 1
10
1
n
=
∑ i=1 s i
n
1
n
ti
=
∑
i=1
n
60
=
( N
≥ 10 )
n = 連想人数,n ≧ 1
N = 被験者数
si = 被験者が連想した語の順番
ti = 被験者が連想に要した時間
線形計画法による距離の計算式の決定
目的関数 c1×α+ c2×β+ c3×γ → 最小化
条件式 1 a11×α+a12×β+ a13×γ=D1
2 a21×α+ a22×β+a23×γ=D2
3 α、β、γ≧0
α、β、γを求める
概念間距離の計算式
n
概念間の距離
D=0.81×F +0.27×S
n
n
連想時間の係数の値は0となった。
精度良く連想時間を得る心理学的手法は
あるが、実験時間を要し、刺激語数に大き
な限界が生じるためここでは採用しない。
乗り物を中心とした概念配置
物
4.82
6.33
3.71
4.11
機械
2.35
2.35
5.04
10.53
乗り物
3.60
自動車
2.65 2.87
1.32
6.82
2.24
地下鉄
電車
2.54
1.38
1.90
4.02
2.35
2.19
5.53
スポーツカー
新幹線
8.40
3.17
2.07
ぶどうを中心とした概念間の距離
生物
8.360
4.180
9.020
2.280
野菜
果物
1.477
2.068
1.833
8.360
ぶどう
1.499
マスカット
植物
食物
1.524
1.936
4.345
1.524
1.943
8.360
植物の概念間距離の主成分分析
連想概念辞書の応用
n
名詞と感性語の定量的関係の抽出
n
n
n
属性継承、カテゴリー内での典型性など
属性、動詞、環境などをふまえ、観点の違
いから捕らえた文脈処理、情報検索など
情報検索
Neural Network による単語連想システムの
単語連想システム
構築とメタファー理解システム
比喩の理解システム
連想概念辞書の実装
パルスニューラルネットワーク
距離の使用
比喩の理解システム
雪のような肌、雪のような心
鬼のような人間、人間のような鬼
Associative Concept Dictionary
Stimulus Word
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
Snow
:
Relation Associative Word
ISA
ISA
ISA
ISA
ISA
ISA
HAS
HAS
HAS
HAS
HAS
HAS
CAN
CAN
CAN
CAN
CAN
CAN
CAN
CAN
CAN
:
Crystal
Ice
Weather
Water
Nature
Object
Avalanche
Hail
Snowstorm
Hailstone
Sleet
Powdery Snow
Roll
Throw
Gather
Slide
Melt
Round
Thaw
Lie
Fall
:
Ans. Time
0.30
0.33
0.35
0.29
0.13
0.34
0.87
0.43
0.68
0.48
0.36
0.47
0.70
0.78
0.55
1.27
0.62
0.92
0.43
0.27
0.35
:
Ans. Order
1.00
2.00
1.00
1.00
1.00
1.33
3.00
2.00
2.50
2.50
1.33
1.75
3.00
4.00
5.00
7.00
3.00
2.50
2.75
1.80
1.50
:
Ans. Ratio
0.10
0.10
0.20
0.20
0.20
0.30
0.10
0.10
0.20
0.20
0.30
0.40
0.10
0.10
0.10
0.10
0.20
0.20
0.40
0.50
1.00
:
Distance
6.49
6.82
3.41
3.41
3.41
2.49
7.15
6.82
3.91
3.91
2.49
2.12
7.15
7.48
7.81
8.47
4.07
3.91
2.45
1.83
1.11
:
Sleet
Neural Network
7.48
Snow
Fig.3.1: Plantation of Data
12/26
2nd Layer
(for Verb)
3rd Layer
(for Adjective)
1st Layer
(for Noun)
Fig.3.2: Layered Structure of Brain Memory Model
13/26
Simile Understanding System
“White”
“Cold”
White
Cold
“White”
=95%
“Cold”
=41%
“Skin”
“Snow”
Brain Memory Model
Fig.4.1: Algorithm of Simile Understanding System
Snow
Skin
19/26
対話理解
自然な対話文の解析の難しさ
言い直し、言い淀み、言い間違い
構文解析がほとんど不可能
形態素解析と意味解析が直結
知識の重要性
n 構文、
意味、談話タグの導入
タグの国際標準化
n 音声、
画像タグとの統合
知識として使用
n
マルチモーダル対話コーパス
²
²
²
²
2者による対面対話の音声、画像の収録
「旅行課題」と「顔課題」
書き起こしテキスト→形態素タグ付きコーパス
表情、視線、韻律のタグ付け
対話文の例
n
n
n
n
n
n
丘珠空港に一時半
に乗ると
に乗って十二時三十五分に
に中標津空港に着くと
中標津空港だよね
そうすると三十分後にバスが出るんですよ
ね
研究の流れ
形態素タグ付きコーパス
発 話 時 刻 音 声 タグ 発 音 読 み 出 現 形 基 本 形 品 詞
210.218 ku'-ko- クーコー クウコウ 空港 空港 名詞-一般
211.794 ni
ニ ニ に に 助詞-格助詞-一般
212.381 iki
イ キ イ キ 行 き 行 く 動 詞-自立 五段・カ
行促音便 連用形
形態素タグ付きコーパスの例
Ø
Ø
3対 話 (15分 51秒 、13分 45秒、13分33秒 合 計 :43分09秒 )
のべ語数 :9517語
動詞と格パターン
n
n
n
n
n
n
n
待ち合わせる goal= 羽田-time=7 時
発 tim e = 7 時4 5 分
着くf r o m =羽田-time=9 時1 5 分
着くgoal= 新千歳
着くroute=1 番-goal= 千歳-time=9 時1 5 分
乗る route=7 番-tim e = 9 時3 4 分
着くgoal= 札幌-time=10 時1 0 分
最終経路
n
n
n
n
n
n
n
待ち合わせる 羽田 7 時
1 番 羽田 新千歳空港 7:45 9:15
7 番 新千歳空港 札幌 9:34 10:10
15 番 札幌 丘珠空港 10:25 10:50
5 番 丘珠空港 中標津空港 11:30 12:35
15 番 中標津空港 中標津 13:5 13:15
14 番 中標津 標津 13:33 14:16
概念メディアベースの構築と応用システム
マルチモーダル情報
タグづけと標準化
n
n
n
n
構文・意味 GDA (橋田)
対話構造
DAMSL (
J.Al
l
en)
韻律
J_ToBI( 日本語韻律
用)
表情
FACS (
Ekman)