自然言語理論講義資料

自然言語理論講義資料
白井 英俊
本講義の連絡先: [email protected]
個人的な連絡先: [email protected]
2013 年 4 月 5 日
本講義は教科書は使わず、適宜、資料を配布する。配布資料を取り忘れたもの、欠席し
たものは、以下のサイトから入手すること。
http://www.cyber.sist.chukyo-u.ac.jp/sirai/classes/nl/
なお、このサイトには毎回の講義内容や、出席の確認ができるようにする。
本講義では、数回レポート提出を求めることがある。
レポート提出は電子 mail で [email protected] に出すこと。
注意: (1) Subject には『[nl] 日付 名前』を記入する。ここで、日付は「課題を課した
日の日付」とする。
例: Subject: [nl] 2012-04-09 Nakamura
(2) レポートはなるべくファイル添付ではなくメール本体に書くこと。 原則とし
てファイル添付の場合は PDF か Word のファイルに限るものとする。
(3) レポート提出の〆切は、特に指示がない場合、次の講義にもっとも近い水曜
日とする。
例えば 4 月 5 日の課題は 4 月 10 日。また、4 月 26 日の課題は 5 月 7 日が〆切。
1
1
はじめに
• 自然言語に対しては種々のアプローチがある:言語学、心理言語学、計算言語学、社
会言語学、など。
• 本講義では、計算言語学のアプローチを中心として、言語学、心理言語学、社会言語
学についても言及する。
• 一般的な言語学のイメージは、方言や外国語の特徴の研究、外国語教育の方法の研
究、通時的 (歴史的) な言葉の変化の研究。しかし、これらは我々の考える「言語学」
ではない。
• 「認知科学」を構成する言語学とは、母語話者の言語知識の解明であり、それを通し
て、すべての言語に共通する特徴、すなわち「人間の言語とはどういうものか」を明
らかにする試み。
• 近代言語学の主流は「生成文法 (generative grammar)」と呼ばれ、MIT の Chomsky(チ
ョムスキー) が代表的な研究者である。しかし、研究の対象が統語論に偏りすぎてい
るという問題があり、生成文法の枠組の内外で新たな研究の流れがある。
• 心理言語学は、人間がどのように言葉を理解し、話し、獲得するかの研究である。
• 心理言語学は、言語の知識はどういうものか、また日常的な言語使用にはどのような
認知プロセスが関与しているか、という二つの問題の解明が目的である。
• 心理言語学は、言語使用や理解に関連する脳のメカニズムの解明もその領域として
いる。
• 計算言語学は、コンピューターを道具として、人間による言語使用の解明を目的とし
ている。
• 計算言語学は、また言語をコンピューターで処理する (言葉を分析する、文書から情
報を抽出する、言葉を生成する、文章をコンピュータで読み上げる、など) ための工
学的な応用も領域としている。
文献紹介
注意: 日本語で書かれた、計算言語学、心理言語学、言語学の参考書をあげる。
• 長尾真 (編) (1996) 『自然言語処理』 岩波書店.
• 田中穂積、辻井潤一 (共編) (1988) 『自然言語理解』 オーム社.
• 古郡延治 (1997) 『言葉と言語処理』 昭晃堂.
• 阿部純一、桃内佳雄、金子康朗、李光五 (1994) 『人間の言語情報処理: 言語理解の
認知科学』サイエンス社.
2
• McNeill, David (1990) 『マクニール心理言語学』, 鹿取廣人ほか訳, サイエンス社.
• 畠山雄二 (2004) 『情報科学のための理論言語学入門: 脳内文法のしくみを探る』.
丸善.
• 岩波講座 『言語の科学』全 11 巻 (1997–1999) 岩波書店.
• 郡司隆男、坂本勉 (1999)『言語学の方法』. 現代言語学入門 1. 岩波書店.
一般に、英語で書かれた本の方が数も多く、包括的で、分かりやすいことが多い。もしも
(どんな研究分野にせよ) 専門的に勉強したいならば、英語は必須である。今のうちから、
以下のような英語の教科書を読んでみるのもよいだろう。
• Jurafsky, D. & Martin, J. H. (2008). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. (2nd Ed.). Prentice Hall. (秋期の「自然言語処理」の教科書)
• Carroll, David (2004) Psychology of Language (4th ed.). Wadsworth/Thomson Learning.
• Gleason, Brekto & Ratner, Bernstein (1998) Psycholinguistics (2nd ed.), Harcourt
Bace College Publishers.
2
言語とは
英語や日本語など、人間の言語はみな重要な性質をもっている。それは、構造をもつ記
号体系であるということ。ここで「構造をもつ」ということは、それぞれの機能を持った
構成要素に分解できる、ということ。例えば、「文章」はそれを構成する「文」に、「文」
は「単語」に、
「単語」は書記言語なら字に、音声言語なら音素に分解でき、それぞれが機
能をもち、おそらくは異なる規則によって支配されている。
ここで言語を構成する体系には、少なくとも以下のものがあると考える。
• 音韻論 (phonology): 音の体系
• 形態論 (morphology): 単語形成の規則
• 語彙 (lexicon): 単語(や形態素)の情報
• 意味論 (semantics): 意味の体系
• 統語論 (syntax): 文を構成する規則
• 運用論 (pragmatics): 社会的な状況において言語を適切に使用するための規則
本講義ではこれらの体系を段階的に考察し、計算機を道具としてその規則性を少しずつ
明らかにしていく。
3
語の表記法
3
計算機でことばを処理する時にまず問題となるのは、語の同定である。例えば、「行く」
と「行っ(た)」
「行か (ない)」は異なる文字列から構成されているが、同じ語と認定して良
いか、またその効率的な認定プログラムはどのように作れるか、が問題となる。上記の問
題は、音韻論および形態論の問題であり、この問題はさらに、日本語の言葉をどのように
表わすか、ということに関係がある。本講義では音韻論はほとんど扱わないが、語の表記
は形態論と関係するので、一節を割いて議論する。
3.1
ローマ字: ヘボン式と訓令式
日本語の音の体系や形態素の議論では、日本語を仮名漢字表記ではなく、音に近い表記、
つまりローマ字表記することが役に立つ。しかしながら、ローマ字表記を正しく認識して
いる人は少い。ここでは、ローマ字の表記法を確認しておこう。
• ヘボン式:James Curtis Hepburn(1815–1911) 和英語林集成
『音声』(phonetic) レベルでの違いに基づく
• 日本式:五十音図に基づく—「ぢ」と「じ」を区別する
• 訓令式:
1. 1937 年内閣訓令「国語のローマ字綴方に関する件」
2. 1954 年 12 月 9 日国語審議会の建議に基づき内閣告示「ローマ字の綴方」、内閣
訓令「ローマ字の綴方の実施について」
訓令式を第 1 表、ヘボン式、日本式は第 2 表
訓令式と日本式は以下の点を除いて同じ方式。訓令式は「ぢ」
「ぢゃ」
「ぢゅ」
「ぢょ」
「ぢ」
を zi, zya, zyu, zyo、「づ」を zu、「を」を o と表す。それに対し、日本式では、
「ぢゃ」「ぢゅ」「ぢょ」は di, dya, dyu, dyo、「づ」は du、「を」を wo と表す。
抽象的な『音素』(phonemic) レベルを元にする
参考:
• 音素 (phoneme): 例えば日本語という特定の言語において用いられる一定有限の数
の音の単位。具体的な音声のレベルと形態素という単位の中間のレベルにある。例え
ば日本語においては、英語では区別される音素である r と l、s と sh は一つの音素と
して扱われる。また、「さんばい」
「さんとう」
「さんかい」における「ん」は音声的
には異なるものだが、音素的には同じと考える。1
なお、この「ん」のように音声学的には異なる音だが日本語のような特定の言語にお
いては同じとみなされる音を異音 (allophone) という。
1
「さんばい」「さんとう」「さんかい」を発音してみれば、それぞれにおける「ん」の時の下と口の形が
それぞれ違うことに気がつく。さらに、その後に 「あ」の音を発声してみるとどうなるだろうか?
4
• 形態素 (morpheme): 意味を持つ最小の単位のこと。一つ、または数個の音素によっ
て表される。たとえば、boys は boy と-s という二つの形態素からなると考える。日
本語の例で言えば、hurare は hur と are から構成され、mirare は mi と rare から構
成される。
ここで、are と rare は「同じ」形態素であるが異なる形のものを異形態 (allomorph)
という。
• 単語 (word): 日本語の場合は形態素との区別が困難。本稿では、接頭辞、接尾辞以
外の形態素を単語と呼ぶことにする。
英語の場合は、boys のように形態素 (boy と-s) と単語 (boys) とは区別がしやすい (わ
かち書きのせい)。
注意: 「ローマ字仮名漢字変換」に用いられる「ローマ字」とは国が定めたローマ字と
は異なるものである (一番近いものは日本式、と呼ばれるもの)—助詞の「は、へ、を」の
表記、「学校 (がっこう)」のように長母音の表記などが異なることに注意。
3.2
母音と子音
• 日本語における母音 (vowel): a,i,u,e,o
• 半母音: 音としては母音だが、必ず他の母音が続かなければならないもの— y, w
• 子音 (consonant): 母音以外の音 (したがって、半母音も子音の一部): k, t, s, など
3.3
音声学の基礎
人間が発する音声の研究を音声学 (phonetics)、発音に特殊化した音声学を調音音声学
(articulatory phonetics) という。声道 (vocal tract) の物理的構造の運動によって言語の
音はすべて記述できる。
音声は主として、肺からの空気の流れが妨害されているかどうか、妨げられている場合
はどのように行われているか、で異なる。母音は空気の流れが妨げられないのに対し、子
音は何らかの場所で空気の流れが妨げられて生成される。
• 調音の位置 (place of articulation): [b] や [p] のような子音は唇で調音され、両
唇音 (bilabial) と呼ばれる。[d] や [t] は歯茎に対し舌を押しつけて調音され、歯茎
音 (alveolar) と呼ばれる。[g] や [k] は口の後ろの軟口蓋に対し舌を押しつけて調
音されるので、軟口蓋音 (velar) と呼ばれる。
• 調音の様態 (manner of articulation): 閉鎖音 (stop) とは、一旦空気の流れを遮
断し、それからそれを解き放つことによる子音で、[b][p][d][t][k][g] がその例。
摩擦音 (fricative) とは、完全には空気の流れを止めないが、空気を流す道を狭める
ことで空気の乱れを引き起こす [f] や [s] のような子音。破擦音 (affricate) とは、
5
閉鎖音のように止めてから摩擦音のようにゆっくり空気を流れさせる子音で、church
の最初の音 ([č]) や judge の最初の音 ([ǰ]) がその例。
• 有声音化 (voicing): 声帯 (vocal cord) の開口部を声門 (glottis) という。声帯が合わ
さっている時、空気は声門を通して流れ、それにより声帯の振動を引き起こす。その
結果生じる音は有声 (voiced) 音と呼ばれる (例、[b])。声帯が離れている場合、空
気の流れは妨げられない。その時の音は無声 (voiceless) 音と呼ばれる (例、[p])。
表 3.1. 英語の子音 (出典: Glucksberg, S. & Danks, J.H. (Eds.) (1975) Experimental Psycholinguistics:An Introduction, Lawrence Erlbaum Assoc. )
調音の様態
閉鎖音
無声
(Stops)
有声
摩擦音
無声
(Fricatives) 有声
破擦音
無声
(Affricatives) 有声
鼻音 (Nasal)
流音 (Liquid)
滑脱音 (Glides)
調音の位置
両唇音 唇歯音
歯音
歯茎音
Bilabial Labiodental Dental Alveolar
p(pat)
t(tack)
b(bat)
d(dig)
f(fat)
T(thin) s(sat)
v(vat)
D(then) z(zap)
m(mat)
n (nat)
l(late)
w(win)
硬口蓋音
Palatal
軟口蓋音
Velar
k(cat)
g(get)
š(fish)
ž(azure)
č(church)
ǰ(judge)
声門音
Glottal
h(hat)
N(sing)
r(rate)
y(yet)
表 3.2. 英語の母音
前舌音 (Front)
i (beet)
高舌性
(High)
中舌性
(Middle)
低舌性
(Low)
中舌音 (Central)
後舌音 (Back)
u (boot)
U (book)
@" (bird)
o (bode)
I (bit)
e (baby)
@(sofa)
E (bet)
æ(bat)
O (bought)
2 (but)
a (palm)
表 3.1 は英語の子音、表 3.2 は英語の母音の図。母音同士は主に、口の前、中、後ろで生成さ
れるか、また舌の位置が高いか中くらいか低いか、で区別される。前舌母音 [i],[I],[e],[æ]
の場合、舌の前の位置は段々と低くなる。[u],[o],[a] の場合、舌の後ろの位置が変化する。
6
図 3-1. 声道 (vocal tract):調音の位置 (1=両唇 (音)、2=唇歯 (音), 3=歯 (音), 4=歯茎
(音), 5=硬口蓋歯茎 (音), 6=硬口蓋 (音), 7=軟口蓋、8=口蓋垂 (音), 9=声門 (子音))
Carroll, D. (2004) Psychology of Language. Wadsworth/Thomson より
参考: nasal cavity(鼻腔), oral cavity(口腔), alveolar ridge(歯茎隆起), velum(軟口蓋), hard
palate(硬口蓋), uvula(口蓋垂), pharynx(咽頭), epiglottis (喉頭蓋), larynx (喉頭), esophagus(食道)
7
3.4
ローマ字の綴方
1. 撥音
• 訓令式:
「ん」は n
• ヘボン式:m、b、p の前にある「ん」は m
母音、半母音と「ん」とを切り離す場合は’ を用いる。例: han’i
2. 促音
促音は最初の子音字を重ねて表す。ただしヘボン式では ch の前は t を用いる。例:
キャッチ — kyatti (訓令)、kyatchi (ヘボン)
3. 長母音
母音を繰り返すことをあらわす^で表現。
映画 (êga)、通り (tôri) など。ただし、計算機で表すには、eega、toori などのように
母音を繰り返す。2
4. 訓令式とヘボン式とで異なる音の表記3
し (si, shi)
しゃ(sya, sha)
じ (zi, ji)
じゃ(zya, ja)
ち (ti, chi)
ちゃ(tya, cha)
つ (tu, tsu)
ふ (hu, fu)
しゅ(syu, shu)
じゅ(zyu, ju)
ちゅ(tyu, chu)
しょ(syo, sho)
じょ(zyo, jo)
ちょ(tyo, cho)
5. 発音と五十音表での表記が一致しない格助詞は、発音通りに表記
は
−→
wa
を
−→
o
へ
−→
e
訓令式の方が日本語の音素を表すのに適しているので、本講義ではローマ字表記には訓令
式を用いる。
3.5
わかち書き
ローマ字表記では、漢字かな混じり表記と異なり、英語のように、基本的には単語ごと
に分けて書く、わかち書きを行なう。例えば「今日はいい天気だ」は4
(1) kyoowaiitenkida
2
ドイツ語の場合、ウムラウトでも同様の表記法がある: ä、ö、ü をそれぞれ ae, oe, ue と表わす。
ときどき、「じゃ」を jya、
「じゅ」を jyu、
「じょ」を jyo と表しているのをみかけるが、これは訓令式で
もヘボン式でもなく、全くの誤り。
4
「きょう」に対してひらかなと一対一対応するようにローマ字を書けば、 kyou となる。しかし、本当
のローマ字表記とは「音」を表すものなので、 kyoo と書く。
3
8
とは書かない (読みにくい、というのが理由である)。その代わり、
(2) kyoo wa ii tenki da
のように単語と単語の間にスペースをあけて書く。5
3.6
演習問題
問題 1: 日本語の五十音図をローマ字で表せ。ただし、すでにア行とカ行は示してある。
あ
い
う
え
お
あ行
a
i
u
e
o
か行
ka
ki
ku
ke
ko
さ行
た行
な行
が行
ざ行
だ行
ば行
ぱ行
は行
ま行
や行
ら行
わ行
あ
い
う
え
お
きゃ行
ぎゃ行
しゃ行
じゃ/ぢゃ行
ちゃ行
ひゃ行
びゃ行
ぴゃ行
みゃ行
りゃ行
あ
い
う
え
お
問題 2: 下は日本語の動詞の活用形の表である (終止形のところにそれぞれの動詞の見出し
の形を、
「書く」の列には対応する活用形の形をかいてある)。(1) 終止形それぞれに対応す
るローマ字を書け、(2) 他の欄を終止形の欄と同様に埋めよ。
5
小学校では、分節単位で分かち書きする方法を習ったかもしれないが、ここでは「わかりやすさ」のた
め、基本的に単語ごとに分かち書きするものとする。
9
活用
未然形
「ない」が付く形
連用形
「ます」が付く形
終止形
言い切りの形
連体形
「時」が付く形
仮定形
「ば」が付く形
命令形
命令を表す形
五段
書か (ない)
kaka(nai)
書き (ます)
kaki(masu)
書く
kaku
書く (時)
kaku(toki)
書け (ば)
kake(ba)
書け (!)
kake
上一段
下一段
起きる
食べる
サ変
する
カ変
くる
問題 3: 問題 2 で作成した表において、語幹 (活用によって変化しない部分) と語尾 (変化す
る部分) にわけ、語尾に印をつけてみよう。このことから、なにか規則性があることに気が
つくだろうか? 6
問題 4: 問題 2 の表にならって、いろいろな動詞 (例えば、行く、書く、とぐ、話す、勝つ、
死ぬ、飛ぶ、噛む、取る、買う、見る、食べる、する、来る) に対し、過去を表す「た」が
ついた形を書いてみよう。これらにはどのような規則性があるだろうか?
6
言語は多くの規則性とたくさんの例外をもつ:-)。
10