コーパス言語学の日本語研究・日本語教育への応用

コーパス言語学の日本語研究・日本語教育への応用
CORPUS LINGUISTICS AND ITS APPLICATION TO TEACHING JAPANESE
パデュー大学 深田淳
FUKADA, Atsushi
Purdue University
はじめに
近年、日本国内外におけるコーパス言語学に対する興味の高まりを象徴する出
来事がいくつか起こった。2007 年 10 月には、国立国語研究所が刊行している
『日本語科学』がその第 22 号において、『コーパス日本語学の射程』と題する
特集を組んだ。また、今年 2008 年になって Meunier と Granger 編集による
Phraseology in Foreign Language Learning and Teaching が出版された。これは
Foreign Language Learning: Phraseology and Discourse と題されたプロジェクトおよ
び学会を経て編まれた論文集である。もう一つは、『現代日本語書き言葉均衡コ
ーパス』の構築が 現在進行中であり、2011 年に公開予定である、ということで
ある。日本語では初めての、大規模な均衡コーパスである。(以下で詳細を紹介
する。)
本稿は、コーパス言語学の諸分野を概観しながら、最新の研究を紹介すること
を目的とする。特に日本語教育への応用を意識しながら論を進めたい。
コーパスとその用途
コーパス(英語では corpus, corpora [複数形])は、漢語で言えば言語資料体と
なり、大量の言語資料を集めたものをいう。その資料を計算機処理をすることを
前提に電子化したものを電子コーパスと呼んでいた時期もあったが、現在ではそ
れが当たり前となり、単にコーパスと呼ばれる。
コーパス言語学では、コーパスを利用して言語を研究するわけだが、その研究
の可能性は、通時的研究から文化論まで大変幅広い。
(1)通時的研究
例えば、各時代ごとに(例:100 年周期)幅広いジャンルの書き言葉、話し言
葉を集めたコーパスがあれば、通時的に言語変化を調べることが可能である。
(2)文体論
文体論では、例えば、新聞では体言止めが多いかとか、フォーマルな書き言葉
では受動文が多用される傾向があるか、などが研究できよう。
(3)外国語教育・習得研究
一般的な日本語コーパスから取り出すことのできる用字、語彙、文法情報は、
1
日本語教育の資料になり得る。また、学習者コーパスを分析することで、学習者
の誤用パターンや習得パターンを発見したりすることが可能である。
(4)対照研究、 方言研究
多言語コーパスを使って、複数の言語を対照させて分析することもできる。同
じ言語内のバリエーション(いわゆる方言)を対照的に調査することもできる。
例えば、英語には、アメリカ英語、イギリス英語、オーストラリア英語、インド
英語などのコーパスが存在している。
(5)語彙調査、用字調査(言語政策)
漢字等の用字調査や語彙調査は、言語政策の基礎資料になる。大規模な調査は、
既にコーパス無しではできなくなっている。
(6)語法・文法研究
(7)コーパス分析、検索ツールの開発など
従来的な語法や文法の研究に必要な例文を探すためにコーパスを使ったり、イ
ンターネットのサーチエンジンを使ったりするのをコーパス言語学と呼ぶ必要は
ないだろう。ここでは、例えば、統計的な手法を使って、内省では出てこないよ
うな新たなパターンを発見したり、新しい言語事実を発掘したりといった研究が
望まれる。また、そのような発見、発掘をするためのコーパス分析ツールを開発
するというのも重要な研究課題である。
(8)社会学、文化論
Kennedy (2008)は、イギリス英語において、いくつかの動詞とその目的語のコ
ロケーションを調べた。例えば、enjoy の目的語になりやすい名詞をコーパスか
ら抽出しているが、これを例えば、アメリカ英語、イギリス英語、オーストラリ
ア英語、インド英語のコーパスで比較すれば、それぞれの社会で人が何を enjoy
するかを比較することができ、社会、文化の比較が可能になろう。
コーパスの種類
コーパスの種類を内容別に見ると、次のような分類ができる。括弧内は具体例
である。
z
z
z
z
z
z
新聞コーパス(毎日、朝日、読売、中日など)
書籍コーパス(CASTEL/J、青空文庫など)
シナリオコーパス( CASTEL/J 『寅さん 』など )
話し言葉コーパス(名大会話コーパスなど)
学習者コーパス(KY コーパスなど)
多言語コーパス(中日対訳コーパスなど)
2
学習者コーパスは、学習者の言語産出が格納されたものである。多言語コーパス
は、対訳コーパスなど複数の言語で同じ内容の文章が格納されたものである。
内容というより、構造的な分類としては、均衡コーパス、非均衡コーパスがあ
る。均衡コーパスとは、幅広いジャンルの母集団を規定し、そこから体系的にサ
ンプリングを行なって構築されたコーパスのことである。例えば、現在構築作業
中の現代日本語書き言葉均衡コーパスが均衡コーパスの例である。英語では、
Brown Corpus, LOB Corpus などいくつもある。
もう一つの分類は、タグの有無による分類である。LOB Corpus は、品詞タグ
付きコーパスであり、以下は抜粋である。
a_AT move_NN to_TO stop_VB Mr_NPT Gaitskell_NP from_IN
nominating_VBG any_DTI more_AP labour_NN life_NN peers_NNS is_BEZ
to_TO be_BE made_VBN at_IN a_AT meeting_NN of_IN labour_NN
MPs_NPTS tomorrow_NR ._.
他にはLondon-Lund Corpus 1 のようにかなり詳細にわたる音声表記を含むもの、
The Penn Treebank 2 のように統語情報を含むものもある。
コーパス言語学の言語観
コーパス言語学は、実在する言語資料を対象とするところから、経験主義的、
帰納主義的に言語を観る。コーパスに依拠した言語研究に対するチョムスキーの
批判は有名である。Leech (1991)によると、チョムスキーは
Some sentences won’t occur because they are obvious, others because they are
false, still others because they are impolite. (Leech 1991:204)
のような批判をしており、さらに、Kennedy (1998)によると、「コーパスの中で
I live in New York.が I live in Dayton, Ohio.より高頻度で出現したとしても、その
事実は言語理論、言語記述に何の関係もない。」(稿者訳)とも述べているとい
う。「可能な文」を規定するのを目的とする限り、いくら数多くの文を集めても
意味はない、というところだろう。
しかしながら、言語の創造的側面を強調するチョムスキーの立場を批判する者
も少なくない。外国語教育に携わる者なら、「教室で教えた規則には則っている
が、ネイティブなら絶対にこうは言わない」というような文に毎日のように遭遇
していることだろう。Leech (1990)は、通常の内省によるデータ収集では一人ま
たはごく少数の話者についてのデータしか得られないので、例えば社会言語学的
変異の研究では使えないとしている。コーパスなら多数の話者のデータが一度に
得られる。また seem と appear、almost と nearly について、直感的には同意語だ
が、コーパスで調べると明らかな使い分けが見られることを挙げて、コーパスデ
1
2
http://khnt.hit.uib.no/icame/manuals/londlund/index.htm
http://www.cis.upenn.edu/~treebank/
3
ータの有用性を強調した。使い分けを簡単にまとめると、seem、almost は一般性
が高く無標、appear、nearly は使い方が限定されていて有標だとしている。
母語話者、特に仮説を立てる立場にある言語学者自身による、かなり恣意的な
内省判断に基づく研究方法は近年反省されつつあり、Experimental Syntax という
新しいパラダイムが芽生え、発展しつつある(Schütze 1996, Cowart 1997)。こ
れは実験的な手法を取り入れて、多数の母語話者からデータを取り、統計的な分
析方法を援用して統語現象の解明を目指すアプローチである。
母語話者の内省の偏重に関しては、前川(2007)も通常の内省判断では非文と判
断される、次のような動詞のタ形+デスが話し言葉で実際に使われることを指摘
している。
このあたりは雨が降ったです。(グロルラー著、阿部主計訳「奇妙な跡」
より)
まさに正岡子規だったですよ。(文芸春秋の座談会より)
また、明治生まれの文豪の文章に「に信頼する」という形が現れているという。
僕たちは警察に信頼して好いと思う。(今東光「赤線消ゆ・東光辻説法」
より)
安心して、僕に信頼したらよかろう。(夏目漱石「二百十日」より)
これらは、内省判断を求めれば、いずれも非文と判断されてしまうだろう。明治
生まれだから古いと言っても、我々が直接に接触のあった世代で用いられていた
日本語なのである。
もう一つ、内省判断と現実との隔たりを示す例として、使役形の「沸かせる」
を挙げておこう。Shibatani (1973)を受けて、宮川 (1989)は、「沸かせる」という
形式が「沸かす」という他動詞の存在にブロックされて存在しない、と述べてい
る。ところがコーパスを検索すると「沸かせる」の使用例が現代の新聞に多数見
られるのである(深田 2007)。この点については、後に再度論ずることにする。
結論的に言うと、いくら大規模なコーパスを構築しても、「可能な文」に迫る
ことはできないという批判は正論であるが、それだからといって内省判断一点張
りでは現実の言語使用を反映しない机上の空論になりかねない。結論的には、帰
納的、演繹的、両方のアプローチから多面的に言語を見ていくのが最善だと思わ
れる。
現代日本語書き言葉均衡コーパス
国立国語研究所のコーパス整備計画KOTONOHA 3 の一環で、2011 年公開予定の略
名BCCWJで知られる現代日本語書き言葉均衡コーパスは、日本初の大規模均衡コ
3
http://www2.kokken.go.jp/kotonoha/
4
ーパスである。規模は、約一億語で、幅広いジャンル、レジスターのサンプルを
格納する予定である。
内部構造としては、三部に分かれており、出版(生産実態)サブコーパス
(3,500 万語)、図書館(流通実態)サブコーパス(3,000 万語)、特定目的サブ
コーパス(3,500 万語)から構成される。
幅広いジャンルやレジスターから体系的にサンプリングして大量に集められた
言語資料を一カ所に格納した均衡コーパスは、母集団の特性を反映する。これを
統計的代表性(statistical representativeness)という。英語においては、初期から
均衡コーパスが整備されていた。(Brown Corpus, LOB Corpus など。)
ウェブという巨大なコーパスで検索エンジンを使って用例検索が手軽にできる
ようになった現在、均衡コーパスが必要なのかという声を耳にすることがあるの
で、この点について少し述べておきたい。前川 (2007)によると、ウェブの問題点
は、以下の三点である。
(1) 検索の再現性がない
(2) ジャンル・著者情報がない
(3) 整列条件が非公開
第一点は、実証的研究には欠かせないものである。第二点の著者については、日
本語であっても非ネイティブが書いている可能性があるし、自動機械翻訳による
文章の可能性さえある。
この三点に加えて、
(4) 執筆時期が必ずしもわからない
という問題も加えておこう。上述の時代による語法の差異があり得るからだ。
コーパス言語学の歴史
ここでコーパス言語学の歴史を簡単に振り返っておこう。1950 年代に R.
Quirk 等が Survey of English Usage コーパスを作成した。これは電子化以前の
コーパスである。各 5,000 語からなるサンプルを 200 集めたもので、うち書き言
葉 100、話し言葉 100 となっている。Quirk, Greenbaum, Leech (1985) A
Comprehensive Grammar of the English Language は、このコーパスに依拠して編ま
れたものである。
電子化コーパスは、アメリカ英語コーパスであるBrown Corpus 4 が 1965 年に発
表された。百万語規模の均衡コーパスである。平均テキスト長は、二千語で、15
のカテゴリに分けて、合計 500 テキストを収録している。ほぼ同規格のイギリス
英語コーパス、The Lancaster-Oslo/Bergen Corpus of British English 5 (略称LOB
4
5
http://icame.uib.no/brown/bcm.html
http://khnt.hit.uib.no/icame/manuals/lob/index.htm
5
Corpus)は、1978 年に完成している。この後、コーパスは、コンピュータの性
能の向上とともに巨大化しており、1995 年の British National Corpus 6 は、一億語
規模である。さらに、1980 年にJohn Sinclairを編集主幹として始まったCOBUILD
Projectは、1991 年からThe Bank of English 7 という名称で継続され、現在 5.24 億語
規模に達している。
日本のコーパス言語学
日本では、近年、コーパス整備の立ち遅れということが叫ばれてきたが、意外
にもコーパス言語学の歴史は古い。宮島 (2007)によると、国立国語研究所は
1948 年設立後、最新の機器や統計的手法を用いて語彙調査や方言調査などの社
会言語学的実態調査に取り組んだと言う。その成果は、1951 年『現代語の助
詞・助動詞』、1952 年『語彙調査−−現代新聞用語の一例−−』などに残されてい
る。また 1956 年には、計量国語学会が創立され、その機関誌『計量国語学』は
50 年続いており、これは世界に類をみないと言う。1964 年の『分類語彙表』は、
国立国語研究所が日本語教育における基本語彙を選定した時に資料として使われ
たのをはじめ、現代においても頻繁に参照される日本語研究者必携の資料である。
語彙調査の成果の一例
語彙調査から明らかになることの一例として、語種の使用割合がある。宮島
(2007:40)は、1956 年の雑誌 90 種の調査と 1994 年の雑誌 70 種の調査を比較して、
語種の使用割合の変遷を次のように報告している。
雑誌90種 (1956)
53.9
雑誌70誌 (1994)
41.3
41.5
0%
20%
60%
1.9
2.0
45.9
40%
2.9
10.7
80%
100%
これは時代の異なる複数のコーパスを用いた通時的研究の一例となろう。
6
7
http://www.natcorp.ox.ac.uk/
http://www.collins.co.uk/books.aspx?group=153
6
和語
漢語
外来語
混種語
最新の用字調査
国語施策のために用字調査(特に漢字)は重要である。これにもコーパスの利
用は必要不可欠になっていると言っても過言ではないだろう。ここでは小椋・相
澤 (2007)に報告されている、1994 年の「現代雑誌 200 万字言語調査」およびそ
れを基に作成された「漢字頻度表」(2005)、「音訓一覧表」(2005)が明らかにし
たことを簡単に紹介する。
まず、上位 2,000 字に占める常用漢字の割合は、延べで 98.1%、異なりで
86.9%であった。上位 1,000 字に現れた、常用漢字表にない漢字(表外漢字)は
15 字(藤、岡、阪、伊、頃、奈、誰、之、呂、鹿、揃、彦、弘、埼、幌)あっ
た。人名・地名に用いられる漢字が多い。2,000 字レベルだと、この数は 263 字
となる。
逆に常用漢字の中で上位 2,000 字に入らなかった漢字は 191 字あった。また、
雑誌 200 万字調査に出現しなかった常用漢字が 17 字(謁、劾、虞、倹、墾、勺、
詔、錘、斤、繕、嫡、脹、勅、朕、迭、丙、匁)あった。
漢字の読みに関しては、まず常用漢字の音訓表に現れる読みは、
• 異なり:音 88.7% 訓 70.9%
• 延べ:音 99.5% 訓 99.0%
となっている。表外音には、倶楽部(ラ)、堪能(タン)、旬(シュン)、伊勢
丹(セ)、下駄(タ)、三昧(ザン)、寿司(ス)などがあり、表外訓には、他
(ほか)、全て(すべ)、応える(こた)、観る(み)、想う(おも)、粋(い
き)、奴(やつ)、為(ため)があった。
コロケーション
これまでは、文字と語のレベルを見てきたが、次に語と語の結びつきのレベル、
いわゆるコロケーション(連語)を見てみよう。語とその使用文脈の不可分性に
ついては、Firth (1957:11)の You shall know a word by the company it keeps.がよく引
き合いに出されるが、Fries や Harris 等のいわゆる構造主義者の考え方の中に見
られた。そしてコロケーションの重要性は、Harris の指導生 Chomsky によって否
定され、周辺的な現象に追いやられることになる。ところが、コロケーションは
そこで死に絶えたわけでなく、認知言語学では constructions、コーパス言語学で
は phraseology として生き続け、Construction Grammar (Goldberg 1995, 2003)、
Radical Construction Grammar (Crofts 2001)においては、中心的な役割を果たすこ
ととなる。構造主義というとオーディオリンガル法、オーディオリンガル法とい
うとパターンプラクティスが想起され、批判的に見られることが多いが、「雨
が」に対して「止まる」ではなく「やむ」や「あがる」、「お茶」は「作る」の
ではなく「いれる」などの組み合わせを教えたり、練習したりするのは十分意味
のあることだろう。コロケーションを覚えることは、ネイティブらしい自然な日
本語につながるからである。
7
ところで、コロケーションを厳密に定義するのは難しい。ここでは、複数の語
が慣習的に結びついており共起しやすくなっているものとしておく。コロケーシ
ョンは連続した語だけでなく、「全然〜ない」や英語の not only… but also など
のように不連続なものもある。この慣習的な結びつきが強固になり、一つの語彙
項目として扱わざるをえなくなると、これはイディオムとなる。通常、コロケー
ションという場合は、イディオムを除外する。Cowie (1981, 1994)の詳しい分類
をここでは日本語の例を加えて三段階にわかりやすくまとめてみた。
自由な組み合わせ (Free combinations)
例:お茶を飲む
特徴:
(1)組み合わせの制限は、純粋に意味に基づく
(2)各要素は字義通りに用いられる
(3)統語規則で創造的に組み立てられる
コロケーション
例:お茶をいれる
特徴:
(1)ある程度の代替可能
(2)部分的に比喩的な意味を帯びることがある
(3)共起頻度が高いことが前提
イディオム
例:お茶を濁す
特徴:
(1)各要素を同義語などで代替することができない
(2)意味は構成的でない
(3)単一の語彙項目として扱われる
(4)共起頻度が高いことが前提
滝沢 (2007)はいくつか興味深いコロケーションの例を挙げている。例えば、
「法外に」という副詞は「高い」「高価な」と共起しやすい。「甘い」に続く名
詞には、「球」「香り」「汁」「言葉」「考え」「マスク」などが高頻度で出現
するという。「はなはだ」には、「遺憾」「疑問」「厳しい」「残念」「心もと
ない」「迷惑」などネガティブな意味を持つ語が続く傾向がある。「あながち」
は、「とは言えない」「とは言い切れまい」と不連続的に結びついている。さら
にその間に名詞が入る場合は、「間違い」「誇張」「的外れ」「暴言」など否定
的な響きを持つものが現れるという。
8
コロケーションの重要性
コロケーションの研究者として著名な Sinclair は、コロケーションやイディオ
ムなど語の塊の重要性を Principle of Idiom という形で言い表した (Sinclair 1991)。
Principle of Idiom:
A language user has available to him or her a large number of semi-preconstructed
phrases that constitute single choices, even though they might appear to be
analyzable into segments.
すなわち、自然言語の話者がパターン化されたフレーズや構文を大いに活用して
いることが大規模コーパスの分析から明かになりつつあるのである。Erman &
Warren (2000) によると、ネイティブの流暢な文章の約半分は Idiom Principle に則
っているという。さらに話し言葉コーパスと書き言葉コーパスの比較から、話し
言葉の方が Idiom Principle への依存度が高いとも述べている。
第一および第二言語習得や外国語教育でもコロケーションの重要性は、多くの
学者が認めるところである。これらの分野でコロケーションという概念は、
Holophrases, prefabricated routines and patterns, formulaic speech, memorized sentences
and lexicalized stems, lexical phrases, formulas, chunks, constructions などの用語で繰
り返し登場している。第一言語習得では、Nattinger & Decarrico (1992)が「全体か
ら部分へ」という習得の方向性を論じている。例えば、Gimme , Whatsat などは
最初一塊として習得され、後に次第に文節化が行なわれ、 give me, what is that と
いう分析的な理解に到達するという。
外国語教育においては、Michael Lewis が提唱した Lexical Approach がまさにこ
のコロケーションなどのフレーズを基本としたものである (Lewis 1993, 1997)。
文法が基本にあって、それが作り出す句構造の中のスロットに語を当てはめてい
く、というような Chomsky 的な考えを否定し、単語およびフレーズを lexis と呼
び、それを基本単位とする言語観であり、シラバスも lexis が単位となる。
辞書の編纂
コロケーション研究の成果を最も有効に世に送り出す方法として、辞書や文法
書への記載がある。Sinclair の COBUILD Project などに見られるように、コーパ
ス構築と辞書編纂は密接に結びついてきた。このプロジェクトから現在、以下の
辞書が出版されている。
ƒ
ƒ
ƒ
ƒ
Collins COBUILD Advanced Learners
Collins COBUILD Concise Learner’s Dictionary
Collins COBUILD Student’s Dictionary
Collins COBUILD Active English Dictionary
コロケーション情報を取り入れている英語の辞書は、これ以外にも以下のように
いくつかある。
9
ƒ
ƒ
ƒ
Longman Dictionary of Contemporary English
Oxford Advanced Learner’s Dictionary of Current English
Longman Essential Activator Dictionary
特に Longman Essential Activator Dictionary は、学習者コーパスを利用して、学
習者がよく犯す過ちに注意を向けるようになっている。
英和辞典でコーパスに依拠したものには、井上永幸・赤野一郎(編)『ウィズダ
ム英和辞典』(2003)があり、最近ではデュアルディクショナリーと称して、紙の
辞書とウェブで検索できる辞書を組み合わせた新形態で提供されている。用例コ
ーパス機能もあり、コーパスはますます身近なものになるだろう。
辞書の評価
このように辞書はコロケーション情報を取り入れて充実する方向に向かってい
るが、Siepmann (2008) はその実態を調査し、厳しい評価をしている。ESL/EFL,
FSL/FFL, GSL/GFL 用の辞書がコロケーションをどの程度扱っているかを調査し
たのだが、ここでは英語の辞書に関する部分だけ紹介する。対象となった辞書は、
1. Oxford Advanced Learners’ Dictionary
2. Cambridge International Dictionary of English
3. Collins Cobuild English Dictionary
4. Longman Dictionary of Contemporary English
の四冊で、次のコロケーションの記載状況を調査した。
ƒ
ƒ
ƒ
ƒ
ƒ
ƒ
My thoughts exactly.
I’ll get it. (電話を受けるとき)
Don’t ask.
too much to ask
Once a N, always a N.
I know an NP when I see one.
その結果、Don’t ask.と Once a N, always a N.のみが 1 と 4 の下位項目として記載
されているにとどまった。今後さらなる努力が必要であることは明白である。
日本語の辞書に関しては、『日常日本語バイリンガル辞典』(牧野・中田・大
曾 1999)に関して指摘がある(深田・大曾・滝沢他 2002, 深田 2007)。同辞典
には、動詞「追う」の動作主は有生名詞であるとの記載があるが、少なくとも受
動形においては動作主が無生名詞であることの方が圧倒的に多い。毎日新聞一年
分を調べたところ、「追う」の受動文 434 例中、418 例(96%)が無生名詞の動
作主を伴っていた。例としては、「仕事に追われる」「残業に追われる」「対応
に追われる」「サラ金返済に追われる」などが見られた。
10
英語のコロケーション研究例
ここでは英語のコロケーションを分析した Kennedy (2008)を紹介しておこう。
この研究では、英語の基本動詞とその目的語のコロケーションを調べている。
stop, end, finish についていうと、British National Corpus から目的語を抽出し、頻
度と MI スコアでコロケーションを測定し、上位に現れた語を見てみると以下の
ようになっている。
動詞
stop
end
finish
目的語
whinging (BE, to complain), fussing, fooling, mucking, fretting,
crying, whining, worrying, pacing, raining, chattering, smoking,
loving, moaning, breathing, messing
stalemate, deadlock, farce, divorce, boycott, speculation, siege,
disaster, tragedy, monopoly, tears, wars, career
unpacking, apprenticeship, packing, meal, eating, dressing, speaking,
breakfast, coffee, tea, lunch, reading
このリストを見ると、次のような傾向がかなりはっきりあらわれていることがわ
かる。まず stop は、不平を言ったり、泣いたり、心配したりといった、ネガテ
ィブな響きを持つ動作を止める時に使われる傾向にある。次に end は、戦争、ボ
イコット、離婚などの深刻、重大な事態を終結に導く時に用いられる傾向が見ら
れる。最後に finish は、日常茶飯事的な動作について用いられる。このようにコ
ロケーションの研究は、類義語の使い分けを明らかにする上でも有効である。
日本語のコーパスに基づく研究
日本語でも近年、科学研究費によるプロジェクト「日本語学習辞書編纂に向け
た電子化コーパス利用によるコロケーション研究」(平成 13 年度〜15 年度、研
究代表者:大曾美惠子)をはじめ、少しずつ研究が始まっている。同プロジェク
トは、プロジェクト期間終了後、名大会話コーパスを完成させ、一般公開してい
る。これは、60 時間分の雑談を書き起こして収録したもので、最終的には 100
時間分収録予定である。このコーパスはパデュー大学茶漉サイトにおいて一般に
公開されている 8 。
最近の日本語のコロケーション研究として、名大会話コーパスを分析した深
田・大曾 (2007)を紹介する。
まず、受動形の特徴から見ていくと、受動形の出現数は 1,531 例あった。その
うち、「言われる」が 573 例と最も多く、「言う」の出現数が 751 例だから、受
動形で用いられる割合は 76%となる。日常会話 では、話し手が自分を主語の位
置において、自らの経験を語ることが多いためであろう。(ただし以下の OY1
8
http://tell.fll.purdue.edu/chakoshi
11
の発話は一般的な情報を示すのに使われている。)「聞く」も受身との結びつき
が比較的強いが(出現数 85 例中、受動形は 33 例)、これも同様の理由によると
思われる。以下に「言う」と「聞く」の例文を挙げる。
YS1:フラフラ歩いてたでしょうとか言われる。
NI1:で、だらけてるとかって言われるし。
OY1:次はイギリスだって言われてるって。
KN1:いちいち、こう、最初のころは大根とかあるって聞かれたし。
使役形については、受動形よりも少なく、270 例で、特にコロケーションの特
徴は見られなかった。全体の 46%が使役+授受動詞の形をとっている。以下に
例を挙げる。
TY3:もう簡単には親にはさせてくれない。
HM3:こっちがしゃべっている気にさせてくれる。
TY1:はい、じゃあ、やらせていただきます。
TM2:あとでちゃんとお手伝いさせてもらいますので。
AM1:え、実家でやらせてもらえるの?
また、使役受身形38例を調べた結果、「待たせられる」「歌わせられる」のよ
うな五段動詞の「〜せられる」形は全く使われておらず、五段動詞の使役受身形
26例はすべて「待たされる」「歌わされる」のような「〜される」形であった。
その中には「出さされる」と一例だけだが、「さ」が連続する形も含まれている。
次に例を挙げておく。
KR1:あの、立たされるのが嫌だったんです。
KM2:ていうか、買わされたっていうか。
AK1:こういうときはね、お祝いをするもんですって言ってね、一人 2000 円
だか 3000 円出さされたの。
次に話し言葉における程度表現を見るために「すごい」「すごく」「大変」
「とても」「非常に」「超」を調査した。最多だろうと予想していた「とても」
「とっても」は 66 例と少なく、「すごい」「すごく」が最多であった。
語形
「すごい+形容詞/形容動詞語幹
「すごい+名詞一般」
「すごく」
出現数
354 例
214 例
383 例
また「大変」は 409 例中、形容動詞がほとんどで、程度表現は2例のみであった。
「非常に」は、30 例で文体および話の内容との関係が明らかに見られた。10 例
は丁寧体であった。
12
TK3:非常に凝縮された文章ですからね、天声人語は。
KR1:非常に怖かったんですね。
「超」は、154 例で、「超+形容詞/形容動詞語幹」が 84 例、「超+一般名
詞」19 例であった。
IA1:私、超混むと思うけど。
WA1:上の人は超怖いね。
SE2:うちのお母さん、うざいって言うと超怒るんだけど。
TK1:超一方的なんだね。
KM3:ねー、超初歩的な会話になるね。
SE2:***(うん)超田舎の方行って。
SE2:超味が出てるよ。
コーパス研究の言語理論への貢献
上述の Leech (1990)の研究でも明らかなように、コーパス研究は言語記述や言
語理論にまでも貢献し得るものである。ここでは Horn (1984)、Levinson (2000)で
論じられている語用的分業の理論について述べる。
この理論は、グライス理論(Grice 1975)および Zipf の法則(Zipf 1949)を基
盤にしたもので、文法論、形態論、語彙意味論、言語変化、語用論など言語学の
諸分野で諸学者がもたらした知見を抽象化して総括し得る、豊かな説明力を持つ
理論である。語用的分業は次のようなものである。
語用的分業(division of pragmatic labor)
対応する無標な代替表現が利用可能な状況において有標な表現を用いると、
それは特殊な状況(すなわち、無標な表現では表しきれないような状況)
を表していると解釈される傾向がある。(Horn 1984:22)
いくつか語用的分業の事例を見ておこう。例えば、「殺す」と「死なせる」は、
同じ意味範囲をカバーする表現である。さらに、「殺す」が短く、単純で(単一
形態素)あるのに対して、「死なせる」は長く、複雑(動詞+使役形態素)であ
る。従って、両者は語用的分業関係にあり、「殺す」は無標で、ごく普通の殺人
場面を表すのに用いられ、「死なせる」は特殊な、普通ではない場面を担う、と
いうような棲み分けをすると予測される。特殊な場面とは、以下の例文に見られ
るように、過失の場合やむしろ助ける意図がある場合などである。
慎一が笑子を殺した。あるいは間違って死なせてしまった。 9
チョウユさんとメイリィを死なせはしない・・・!! 10
9
横山秀夫著『不眠』より。
13
肯定と二重否定も語用的分業関係にある。論理的にはどちらも肯定になるので同
じはずだが、語用論的には、「協力的だ」がストレートな主張であるのに対して
「非協力的ではない」は回りくどく弱い主張である。これも語用的分業理論で説
明が可能である。その他に、日にちを指す状況で、「_曜日」という絶対的な表
現と「昨日」「今日」「明日」などの相対的な表現が語用的分業関係にあること
が知られている(Levinson 1983)。本日が木曜日だとすると「木曜日にまた会い
ましょう。」は、来週もしくはその先の木曜日を指すと解釈され、通常本日を指
示できない。これは、もし本日を指したいのなら通常「今日」という表現を使う
だろうと考えるからである。
さて、この語用的分業の考え方を上述の「沸かす」と「沸かせる」の事例に当
てはめてみよう。まず新聞コーパスで「沸かす」のコロケーションを調べたとこ
ろ、次の語とのコロケーションが見られた。コロケーションの強い順に並べると
「お湯」「湯」「茶」「ふろ」「会場」「水」となる。一方、「沸かせる」が言
語学者の内省判断では存在しないとされたことは上述の通りであるが、この形式
は次のような語(「客席」「場内」「観客」「観衆」「土俵」「スタンド」「会
場」「ファン」「甲子園」「席」「大会」「日本」)とコロケーションを形成し
て使われていることがわかった。すなわちこの事例は、本来の意味と比喩的な意
味という棲み分けの例であると言え、「沸かす」が無標で「沸かせる」が有標と
考えられるから、まさしく語用的分業の図式と合致するものである。すなわち、
語用的分業理論を裏付けるとともに、本来の意味と比喩的な意味の棲み分けとい
う、今までに記録されていない事例であるという意味において、当理論に貢献す
るものであると言える。
日本語教育に対する提言
最後にコーパス言語学の立場から、日本語教育に対してどんな提言ができるの
かを考えてみよう。
まず、教授用資料、学習用資料にコーパス研究で得られる知見を反映させてい
くことが重要である。コロケーションなどの情報も十分に盛り込んだ、使いやす
い学習者用の辞書の編纂、教育文法書の充実、さらに教科書の新出語の導入の際、
コロケーションも同時に教えるなどの配慮ができるだろう。例えば、「匂い」を
導入するなら、「嗅ぐ」「する」などとセットにしたいところだ。「する」は匂
いだけでなく、音や痛みなど感覚にも使える(「音がする」「腹痛がする」)。
また、オンラインリソースやツールの開発もますます促進されるべきである。
教師用リソースとしては、深田 (2007)で紹介した『茶漉』 11 のようなものを充実
させたい。そのためには、なるべく著作権の問題をクリアして一般公開してもら
うことが必要なので、今後日本語教育側からも働きかけが必要だろう。学習者用
リソースとしては、今後パラレルコーパスなどを用いたものなどを開発すること
10
11
小川悦司著『真・中華一番』より。放っておけば死ぬ運命にある二人を救おうとしている場面。
http://tell.fll.purdue.edu/chakoshi
14
が望まれる。またWible (2007)は、コロケーション学習支援ツールとして次のよ
うな電子辞書の一機能としてのCollocatorの構想を発表している。まず氏は、従
来の紙とインキの辞書は、静的かつ受身的であり、コロケーションが同定できれ
ば引けるのだが、コロケーションを成していることすらわからないという問題を
指摘する。この問題を解決する機能がCollocatorである。例えば、ウェブのペー
ジを開き、Collocator機能を呼び出すと、イディオムおよびコロケーションがハ
イライトされる。そしてハイライトされたものをクリックすると、辞書の解説が
表示される、というようなものである。
教授法に関して言えば、Bernardini (2004)が学習者用に準備されたコーパス検
索ツール (コンコーダンサー)を用いた発見的学習 (discovery learning)、データ
駆動型学習 (data-driven learning, DDL)を推奨している。その根拠には、新出語を
コンコーダンサーを用いて検索した結果覚えると、新しい状況においてもそれを
応用できる力がつくという Cobb (1997)の研究結果があるという。ちなみに、日
本語教育においてコンコーダンサーなどのツールを開発して指導に用いる試みは、
広谷 (2007)に見られる。作文や翻訳のコースなどで今後取り入れていくことがで
きるだろう。
ドイツ語を母語とする上級英語学習者のコロケーション上の誤用を、学習者コ
ーパスを使って調査した Nesselhauf (2005)によると、このレベルでもコロケーシ
ョンの誤用は多く、その数は学習歴と相関しておらず、しかも exposure だけで
はわずかなプラス効果しか出ないという。そこで、コロケーションとはどういう
ものであるかということを説明して学習者に意識させること(いわゆる
consciousness raising)と明示的な教授が必要だとしている。具体的には、場当た
....
....
り的に教えるのではなく、ある程度体系的にかつ繰り返し教えることが重要だと
いう。これが日本語にそのまま当てはまるかどうかは、同様の調査を待たねばな
らないだろう。
参照文献
小椋秀樹・相澤正夫 (2007) 「現代雑誌 70 誌における漢字の使用実態と常用漢字
表———国語施策へのコーパス活用に向けた基礎研究———」『日本語科
学』22, pp.125-146
滝沢直宏 (2007) 「日本語研究・日本語教育とコーパス」http://www.lang.nagoyau.ac.jp/nichigen/0-kyouiku/seminar/2007xian/takizawa.pdf
広谷真紀 (2007) 「CMC コーパス利用の効果検証」In Proceedings from The Fourth
International Conference On Computer Assisted Systems For Teaching and
Learning/Japanese (CASTEL/J), pp.177-180.
深田淳 (2007) 「日本語用例・コロケーション情報抽出システム『茶漉』」『日
本語科学』22, pp.161-172
深田淳・大曾美恵子 (2007)「茶漉で見る日常会話」In Proceedings from The Fourth
International Conference On Computer Assisted Systems For Teaching and
Learning/Japanese (CASTEL/J), pp.125-128.
15
深田淳・大曾美恵子・滝沢直宏他 (2002) 「日本語コーパスからコロケーション
情報を抽出するソフトウェアシステム」In Proceedings from The Third
International Conference On Computer Assisted Systems For Teaching and
Learning/Japanese (CASTEL/J), pp.37-40.
前川喜久雄 (2007) 「コーパス日本語学の可能性———大規模均衡コーパスがもたら
すもの———」『日本語科学』22, pp.13-28
牧野成一・中田清一・大曾美恵子 (1999)『日常日本語バイリンガル辞典』講談社
インターナショナル
宮川繁 (1989) 「使役形と語彙部門」久野暲・柴谷方良編『日本語学の新展開』
くろしお出版 pp.187-211
宮島達夫 (2007) 「語彙調査からコーパスへ」『日本語科学』22, pp.29-46
Bernardini, S. (2004) Corpora in the classroom: An overview and some reflections on
future developments. In J. Sinclair (Ed.) How to use corpora in language
teaching, Amsterdam: John Benjamins Publishing Company, pp.15-36.
Cobb, T. (1997) Is there any measurable learning from hands-on concordancing? System
25(3), pp. 301-315.
Cowie, A. P. (ed.) (1998) Phraseology: Theory, analysis, and applications. Oxford:
Oxford University Press.
Cowart, W. (1997) Experimental syntax: Applying objective methods to sentence
judgments. Thousand Oaks: Sage Publications.
Cowie, A. (1981) The treatment of collocations and idioms in learners’ dictionaries.
Applied Linguistics, 2, pp. 223-235.
Cowie, A. (1994) Phraseology. In R. E. Asher (Ed.) The Encyclopedia of Studies in
English and Language Teaching, pp. 43-56.
Coxhead, A. (2008) Phraseology and English for academic purposes, In Meunier &
Granger (2008) Phraseology in Foreign Language Learning and Teaching.
Amsterdam: John Benjamins Publishing Company, pp.149-161.
Croft, W. (2001) Radical Construction Grammar: Syntactic Theory in Typological
Perspective. Oxford: Oxford University Press.
Erman, B. & B. Warren (2000) The idiom principle and the open choice principle. Text,
20, 29-62.
Fillmore, C. (1992) “Corpus linguistics” or “Computer-aided armchair linguistics” In J.
Svartvik (ed.) Directions in corpus linguistics, Proceedings of Nobel
Sumposium 82, pp.35-60, Berlin/New York: Mouton de Gruyter.
Firth, J.R. (1957) A Synopsis of Linguistic Theory. 1930-1955. Oxford: Basil Blackwell.
Goldberg, A.E. (1995) Constructions: A construction grammar approach to argument
structure. Chicago: University of Chicago Press.
Goldberg, A.E. (2003) Constructions: A new theoretical approach to language. Trends in
Cognitive Science, 7, 219-224.
Goldberg, A.E. (2006) Constructions at work: The nature of generalization in language.
Oxford: Oxford University Press.
Granger, S. (1998) Prefabricated patterns in advanced EFL writing: Collocations and
formulae. In Cowie, A.P. (ed.) Phraseology: Theory, analysis, and
applications. Oxford: Oxford University Press, 145-160.
16
Grice, Paul (1975) Logic and conversation. In Cole, P. and J. Morgan (eds.) Syntax and
Semantics 3: Speech acts. New York: Academic Press, pp. 41-58.
Gries, S.T. & S. Wulff (2005) Do foreign language learners also have constructions?
Evidence from priming, sorting, and corpora. Annual Review of Cognitive
Linguistics, 3, 182-200.
Horn, L. (1984) Toward a new taxonomy for pragmatic inference: Q-based and R-based
implicature. In Deborah Schiffrin (Ed.) Georgetown University Round Table
on Language and Linguistics 1984: Meaning, form and use in context:
Linguistic applications, pp. 11-42.
Kennedy, G. (1998) An Introduction to Corpus Linguistics. London: Longman.
Kennedy, G. (2008) Phraseology and language pedagogy: Semantic preference associated
with English verbs in the British National Corpus. In Meunier & Granger
(2008) Phraseology in Foreign Language Learning and Teaching. Amsterdam:
John Benjamins Publishing Company, pp.21-41.
Leech, G. (1990) The value of a corpus in linguistic research: A reapparisal, 筧壽雄教授
還暦記念論集編集委員会編『ことばの響宴——筧壽雄教授還暦記念論
集』くろしお出版.
Leech, G. (1991) The state of the art in corpus linguistics, In Aijmer, K. & B. Altenberg
(eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik, London:
Longman, pp.8-29.
Levinson, S. (1983) Pragmatics. Cambridge: Cambridge University Press.
Levinson, S. (2000) Presumptive Meanings. Cambridge: MIT Press.
Lewis, M. (1993) The lexical approach: The state of ELT and the way forward. Hove,
England: Language Teaching Publications.
Lewis, M. (1997) Implementing the lexical approach: Putting theory into practice. Hove,
England: Language Teaching Publications.
Meunier, F. & S. Granger (2008) Phraseology in Foreign Language Learning and
Teaching. Amsterdam: John Benjamins Publishing Company.
Morgan, J. (1978) Two types of convention in indirect speech acts, In P. Cole (ed.)
Syntax and Semantics 9: Pragmatics, New York: Academic Press, pp. 261-280.
Nattinger, J.R. & J.S. Decarrico (1992) Lexical Phrases and Language Teaching. Oxford:
Oxford University Press.
Nesselhauf, N. (2005) Collocations in a Learner Corpus. Amsterdam: John Benjamins
Publishing Company.
Sinlair, J. (1991) Corpus, concordance, collocation. Oxford: Oxford University Press.
Shibatani, M. (1973) Semantics of Japanese Causativization, Foundation of Language 9,
pp.327-373.
Quirk, R., S. Greenbaum, G. Leech (1985) A Comprehensive Grammar of the English
Language, London: Longman
Robinson, P. & N.C. Ellis (2008) Conclusion: Cognitive linguistics, second language
acquisition and L2 instruction — Issues for research. In Robinson, P.& M.
Kytö (eds.) Korpus-linguistik — Corpus linguistics. An international handbook.
Berlin: Mouton de Gruyter.
Schmitt, N. (ed.) (2004) Formulaic sequences. Amsterdam: John Benjamins.
Schütze, C.T. (1996) The Empirical Base of Linguistics: Grammaticality Judgments and
Linguistic Methodology. Chicago: University of Chicago Press.
17
Siepmann, D. (2008) Phraseology in learners’ dictionaries: What, where and how? In
Meunier & Granger (2008) Phraseology in Foreign Language Learning and
Teaching. Amsterdam: John Benjamins Publishing Company, pp.185-202.
Tomasello, M. (ed.) (1998) The new psychology of language: Cognitive and functional
approaches to language structure. Mahwah, NJ: Lawrence Erlbaum Associates.
Tomasello, M. (2003) Constructing a language. Boston: Harvard University Press.
Wible, D. (2008) Multiword expressions and the digital turn, In Meunier & Granger
(2008) Phraseology in Foreign Language Learning and Teaching. Amsterdam:
John Benjamins Publishing Company, pp.163-181.
Wray (2002) Formulaic language and the lexicon. Cambridge: Cambridge University
Press.
Ziph, G. K. (1949) Human behavior and the principle of least effort. Cambridge:
Addison-Wesley.
参考 URL:
Bank of English:
http://www.collins.co.uk/books.aspx?group=153
ICAME 英語コーパス
http://khnt.aksis.uib.no/icame/manuals/index.htm
日本語コーパス
http://www.fl.reitaku-u.ac.jp/LINC/projects/langTech/links_gendai.html
現代日本語書き言葉均衡コーパス
http://www.tokuteicorpus.jp
茶漉
http://tell.fll.purdue.edu/chakoshi
日本語コンコーダンサー
http://tell.fll.purdue.edu/cgi-bin/maki/LogIn.cgi
現代雑誌 200 万字言語調査
http://www2.kokken.go.jp/goityosa/
常用漢字
http://ja.wikipedia.org/wiki/常用漢字
18