日本語コーパスの現状と将来 -言語研究,日本語

第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
日本語コーパスの現状と将来 -言語研究,日本語教育に向けて
夷石 寿賀子 (ISEKI Sugako)
パリ日本文化会館 / 麗澤大学大学院
0.
はじめに
現在の言語研究及び言語教育研究において「コーパス」の存在は欠かせないものとなっ
ている。しかし,その名前,存在を知る人は多いが,実際に研究に利用する際には,コー
パスそのものについて十分に理解していない点もみられる。
本稿では,コーパス全般,および日本語コーパスについてその概略を示し,欧州での日
本語・日本語教育関係者へ「コーパスへの正しい共通認識」(水野他 2006)を促すことを
全体の目的とする。
1. コーパスの定義
「コーパス」とは,ラテン語の「体」
「全著作」
「著書」を意味する corpus に由来する。
現在,言語研究でこの言葉が使用される場合「電子化された大規模な言語テキスト」とい
う意味になる。またさらに厳密にコーパスを定義すると赤野(2006)で述べられているよう
に以下の四点にまとめられる。
1.言語研究のためのものであること
2.その目的にかなった明確なコーパスデザインが事前に決められていること
3.大規模に収集されていること
4.コンピューターで処理可能な形式であること
赤野(2006)より
この内,以下「電子化」と「大規模」というキーワードについて詳しく述べる。
1.1. 電子化
コーパスはコンピューターで処理をするのでそのデータとなる言語テキストは「電子
化」されているのが最低条件となる。
「電子化」されているからこそ,通常,人の能力で
は,処理できない「大規模」なデータから人が指定した言語データを引き出すことができ
るのである。例えば滝沢(2006-a)にあげられている例のように「総選挙」という言葉を新
聞 1 日分の使用頻度を調べようとすると人手では 1 日はゆうにかかる。しかし,コンピ
ューターを利用することにより一年分の新聞の使用頻度が,毎日新聞の 1998 年版では
953 回使用されているとほぼ瞬時にそして正確に検索することができる。
また,「電子化」というキーワードは,現在コーパスが広く使われる背景として最も重
117
第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
要なものともいえる。情報化社会が進歩し,新聞データも CD-ROM 一枚に収められるよ
うな時代になった。そして多くの人々が,コンピューターを気軽に利用することができ,
かつデータにアクセスすることが,かなり容易となった。この時代背景が,間違いなく現
在のコーパスへの関心度の高さにつながり,コーパスを利用した研究内容が急速に広がっ
ている要因といえよう。
1.2. 大規模
多くの人々がドキュメントの作成にコンピューターを利用するようになった現在,電
子化したテキストの収集も容易となった。その中「大規模」という量はどのくらいを示す
か。これは,対象言語にもよる。例えば話者 200 人程度のいわゆる消滅の危機に瀕した
言語であれば,数千語でも貴重な大規模コーパスとなる。だが,一方でメジャー言語であ
り,最もコーパスが発達している英語では「一億語」が目安で,この規模で情報が大量に
あるコーパス,つまり「大規模コーパス」と呼ばれる。
なお,1 億語という数字だが,やはり前述の滝沢(2006-a)の英語での例では,1 行 10 語
前後×40 行で,1 ページ 400 語で構成されている 200 ページのペーパーブックだと一冊
80.000 語含まれている計算になり,この数字を基準に一億語を割ると 1.250 冊分のデー
タが一億語という計算になる。もちろんこれらが電子化されているので大規模コーパスと
は約 1.250 冊分のデータが瞬時に検索が可能なコーパスということになる。
なお,大規模コーパスを扱う価値というのは,単に手作業との差だけでなく,大曾
(2006)に「1 人の人間の語彙力には限界があり」と述べられているように,多様な人間,
そしてパターンから多くのデータが得られる意味も含まれており,この「大規模」という
点は,新規コーパス作成時にその代表性をあらわすために重要なポイントの一つとなって
いる。
2. コーパスの分類
コーパスに関する分類は,コーパスの整備に関する点から通事/共時的な点に関するも
のなどいくつかある。本項では,特にコーパス全般で核となるものおよび言語研究・言語
教育研究に関する分類をあげる。
2.1. 広義/狭義のコーパス
赤野(2006)のコーパスの定義 1.に「言語研究のためのものであること」と挙がっている
が,現実として例えば Web サイトで検索できるデータなど身近にある大量な電子データ
もコーパスとして使う人は多い。つまりブログや広告,新聞といったデータをさすが,こ
れらはもちろん本来言語研究に利用されるために存在するものではない。しかし,これら
データもその性質をきちんと捉えた上で利用すれば,コーパスとして利用することももち
ろん可能である。このような電子化された資料全般をコーパスととらえる,つまり「言語
分析に利用できる電子化された言語資料の集積」であるコーパスを「広義のコーパス」と
呼ぶ (斉藤他(2005)など)。
118
第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
それに対し,赤野(2006)の定義が指すような,言語テキストにコンピューター処理のた
めに必要な情報を付与したものや一定の言語変異を抽出できるよう言語研究のためにデザ
インされたコーパスを「狭義のコーパス」と呼ぶ。
2.2. サンプル/モニターコーパス
電子化されたテキストを一定の量,時期で収集し,コーパス作成した当時から更新なく,
そのままの形を保つコーパスを「サンプルコーパス」と呼ぶ。それに対し,コーパス作成
後も新たなテキストを加えていくタイプのコーパスを「モニターコーパス」と呼ぶ。サン
プルコーパスは,全く同じ条件で検索すれば,違う人が検索しても同じ結果が得られるよ
うに,いつ誰が使っても同じ質と量を保っている。それに対し,モニターコーパスは,物
によっては,古い情報を削除することもあり,時間の流れと共に変化するという点はある
が,新しい言語現象を常に取り入れ,広く大量に情報をもつことができるコーパスである。
2.3. 書き言葉/話し言葉コーパス
書かれたテキストを収集したもの「書き言葉コーパス」に対して,人が話した言葉を文
字化,電子化して収集したものを「話し言葉コーパス」と呼ぶ。書き言葉と話し言葉は,
もちろん言語使用に差異はあり,その差異のための研究や会話分析などに「話し言葉コー
パス」の需要が高い。また話し言葉コーパスには,音声的特長などを付与したコーパスも
存在し,音声研究等にも活用されている。
しかし,当然ながら話し言葉コーパスは,録音し,文字化する作業が伴うほか,書き言
葉以上に話題の個人情報の取り扱いの難しさなどの問題点があり,書き言葉コーパスより
その分量は少ない。
2.4. 母語話者/学習者コーパス
母語話者が発した言語によるコーパスを「母語話者コーパス」と呼び,それに対し,学
習者が発した言語によるコーパスを「学習者コーパス」と呼ぶ。学習者コーパスにも作文
などから作成された書き言葉コーパスやインタビュー・会話から作成された話し言葉コー
パスもある。学習者コーパスは,誤用分析や学習者用辞書作成にも利用される。
3. 英語の主要コーパス
電子化された大規模な言語資料「コーパス」は,このようにさまざまな種類があり,歴
史言語学,文体,文法研究,教育の範囲などまで幅広く利用されている。その中,特に英
語におけるコーパスの歴史は長く,その種類や活用の範囲も広い。以下,参考に英語の主
要コーパス The British National Corpus と Bank of English について述べる。
3.1. The British National Corpus
英語の大規模コーパスとして,真っ先に名前が挙がるのがこの The British National
119
第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
Corpus 通称「BNC」である注 1。このコーパスは,Brown Corpus や LOB Corpus そして
通事的な大規模コーパスである Helsinki Corpus 注2といったコーパスが作成されたコーパ
ス創成期を経て,1990 年代に大規模コーパス時代を迎えた時に編纂された代表的なコー
パスである。
BNC の構成は,一億語の現代イギリス英語で 90%が書き言葉,10%が話し言葉である。
書き言葉には,書籍,新聞,雑誌のほか,チラシや日記まで含まれており,話し言葉も英
国 38 地域の 124 名の男女による2~3 日間の会話が収録されている。また,検索時には,
使いたいジャンルの指定も可能である。
なお BNC は,作成後追加は行われていないサンプルコーパスである。
3.2.
Bank of English
Bank of English,通称 BoE と書かれるこのコーパスは, 2006 年現在 5 億 2000 万語を
収録している現在最大級のコーパスである注 3。
英語もイギリス英語だけでなく,アメリカ英語やオーストラリア・カナダ英語も含ま
れている。なお BNC 同様,書き言葉も話し言葉も共に収録され,ジャンルも様々ある。
BNC との最大の違いは,現時点でもデータが追加されているモニターコーパスという
点である。つまり,量に目的を置いているコーパスである。
4. 日本語の主要コーパス
このような大規模なコーパスが整備され,活用されている英語などの言語に比べ,日
本語では,コーパスの整備及びコーパスを利用した研究は遅れをとっているといえる。
その中で,現在広く使用されている日本語のコーパスは,大曾(2006)で紹介・分類され
ている表1のようなコーパスが挙げられる。
表1 主な日本語コーパス 大曾(2006)より注 4
書き言葉コーパス
母語話者
コーパス
話し言葉コーパス
新聞各種データベース
CALLHOME Japanese Speech
『新潮文庫の 100 冊』
『女性のことば・職場編』(男性版有)
『青空文庫』
東京外国語大学 COR BTS
CASTEL/J
国研『日本語話し言葉コーパス』
など
学習者
コーパス
上村コーパス
国研『日本語学習者による日本語作文と
『KY コーパス』
その母語訳との対訳データベース』
『上村コーパス』
など
など
東京外国語大学 COR BTS など
この表からもわかることは,日本語のコーパスの整備は,まだ発展途上の最中だとい
うことである。例えば,最も収集しやすい母語話者の書き言葉コーパスについても,文学
作品では 100 冊規模の『新潮文庫の 100 冊』か,2007 年 4 月 3 日現在 6138 作品の数を
120
第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
誇るが,著作権の関係で保護 50 年を終了した作品が中心となる『青空文庫』であり,新
聞データを含め量の少なさや偏りは否めない。そしていずれも元々の存在は「言語研究の
ためのもの」ではない広義のコーパスである。その他のコーパスも,狭義のコーパスもあ
るが,処理が完全ではないか,使用が容易とはいいにくいものもある。
また,表1以外にも各研究所や科研において独自のコーパスが作成されているが,コ
ーパスの作成には,著作権や個人情報保護の問題も絡み,一般公開できないものも多い。
いずれにしても英語の BNC などがさまざまなジャンルのテキストを集め整備したサブ
コーパスをまとめた総体的なコーパスであるのに対し,日本で利用されているコーパスは,
それぞれが独立したものであるという最大の違いがある。
このような現状をうけ,国立国語研究所が大規模なコーパス開発に乗り出し注5,2010
年までの 5 カ年計画で書き言葉の総体的な日本語コーパスの作成に着手するなど日本語
コーパスの環境も変化をみせつつはある。
5. 日本語とコンピューター
では,そもそも何故日本語におけるコーパスの整備が遅れたのか。大きく 3 つの要因
が考えられる。
1.言語使用人口
2.文字のコンピューター処理(文字コード)
3.分かち書き(語の境界)
1.は,確かに,英語と比べ,言語使用人口は大きく違う。だが情報化社会の進歩からい
ってさほど大きな問題ではない。2.の日本語という文字をコンピューターで処理するいわ
ゆる文字コードの問題は,以前は大きな問題であった。しかし,Unicode といった多言語
対応も常識化してきた現在,かなり解消へと向かってきた。その中で,特に時間がかかり,
大きな問題としてとりあげられるのが 3.の分かち書き,つまり語の境界についてである。
英語のように分かち書きがあり,語の単位がはっきりしている言語の場合は,コンピ
ューターでの処理もスムーズにできる。例えば英語では,文法項目や品詞といった語への
情報付与もコンピューターで容易に処理が行われている。そしてその結果,狭義のコーパ
スを作成しやすい環境になっている。またそのように作成された,狭義のコーパスからは,
検索も語彙の検索つまりキーワードの検索も単に言葉だけでなく,品詞を指定して検索を
行うなど,より高度で,より実用的な検索が簡単に行える。例えば,コーパスを利用した
研究で多く使われる KWIC(Keyword in Context)を使った研究もより精密に可能なのであ
る注6。
それに反して,日本語のように語の境界,そして理論的に語の定義がはっきり定まら
ない言語では,まず処理そのものが難しい。だがその中,日本語にも奈良先端科学技術大
学院大学が「茶筌(ちゃせん)」注7というツールを開発し,多くの研究者が利用している。
121
第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
この茶筌は,日本語の文を単語単位に分割したり,品詞を付与したりする処理を行う「形
態素解析」と呼ばれるツールである。だが「茶筌」も図 1 の解析結果のように「と」が
助詞として単独ではなく,「と共に」と連語扱いに処理されてしまっているような処理が
発生したり,漢字の読みなどに誤りが算出されてしまったりすることもあり,使用には,
このような茶筌のクセを理解し,確認を行いながら利用する必要がある。
図1 例文「博士の声と共に」茶筌解析結果
博士
ハカセ
博士
の
ノ
の
助詞-連体化
声
コエ
声
名詞-一般
と共に トトモニ と共に
名詞-一般
助詞-格助詞-連語
しかし,茶筌の開発により,さまざまな言語解析および管理ツール作成され,日本語
のコーパスにおける重要なソースとなっている。
なお,このようにコーパスの使用においては,文字コード,形態素解析また本稿では
挙げていないコンピューターリテラシーや統計計算がある程度は必要である。もちろん全
てを自分自身が行える知識・技術をもつ必要はないが,それぞれの研究者と基本的な話が
出来るくらいの知識は持ち合わせた方がよい。
その中で,ある程度自分自身が理解し,使用できているとコーパスの利用にも活用で
きるコンピューターリテラシーが「正規表現」である。この正規表現を利用することによ
り,例えば「さわる」という動詞の活用形をまとめて検索することも可能である。本稿で
は,正規表現の具体的な使用例は省略するが注8,正規表現は,電子データだけの広義の
コーパスの検索にも可能であり,コーパスを利用した研究を行う場合,持ち合わせておく
必要性の高いリテラシーといえる。
7. 欧州の日本語教育における日本語コーパスの認識
このように英語に比べ,立ち遅れは否めないものの,コンピューターとそれに伴うソ
ースも進化し,また国研のコーパス計画も進行しており,日本語のコーパスも新たな過渡
期にはいってきているのは確かである。しかしながら日本国外・欧州の日本語・日本語教
育関係者において,このような動きをはじめ,そもそも日本語コーパスは決してメジャー
なものではなく,まずコーパスに関する情報がわずかであるのが現状といえる。またさら
に特に日本語におけるコンピューターリテラシーの問題などついては,日本国外では情報
は,まだ一部の人のもので,あまり認識されていないものである。
一方で欧州における日本語・日本語教育におけるコーパスに対する認識もさまざまで,
自身で収集したデータあまり規模の大きくない広義のコーパスのみで検討を行う例やコー
122
第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
パスの特性や使用方法を十分理解していない例もみられる。もちろん,自身で作成したコ
ーパスで研究を行うことも必要に応じてありえるが,今後日本語のコーパスが整備され,
種類も多様になっていく流れに合わせるとすれば,研究とコーパスのデザインを選ぶ必要
はもちろんあるが,積極的な既存・新規コーパスの使用とコーパスそのもの,および使用
方法への理解が必要だと考える。
また,もちろん情報の流れが,日本国内に対して遅い,情報自体が流れてこないとい
う問題点は,国内のコーパス作成側の公開・広報方法にも問題があるかと思うが,海外か
らも単にコーパスを利用するだけでなく,例えば日本国外の協力が不可欠な学習者コーパ
ス等に積極的に関わるなどして,多くの人々が日本のコーパス動向について継続的に情報
を求めている態度を示し,関係をもつことも重要な方法のひとつであろう。
8. まとめ
以上,コーパスについての概要,そして英語のコーパスから日本語のコーパス,また
日本語コーパスの欧州での認識などについて駆け足でみていった。実際は,多くの人の関
心が「どのようなコーパスがあるのか」
「どんな研究に使えるのか」という点にあると考
えられるが,まず,第一の段階としてこのようなコーパスそのものの概要,流れを知るこ
とは,決してコーパスを利用した研究への遠回りにはならないと考える。
なお,コーパスは万能ではないことを最後に述べたい。コーパスを利用することによ
り,大量の資料から母語話者が,気がつかない言語現象をみることができる。しかし,そ
れが全てではなく,あくまでもコーパスから得た「傾向」である。コーパスはあくまでも
「資料」であり,基本的言語理論および自分自身の考え・仮説をもつ必要がある。つまり
答えを出すのは,コーパスではなく,研究者自身であることを忘れないでいただきたいし,
私自身も常にそれを念頭に今後コーパスを利用していきたい。
【注】
1. BNC の詳細は,http://www.natcorp.ox.ac.uk/ を参照のこと。また本コーパスは,小学
館コーパスネットワーク http://www.corpora.jp/でも利用できる。
2.Brown Corpus は 1964 年に完成した 100 万語のアメリカ英語コーパス。それに対し
LOB Corpus は,Brown Corpus のイギリス英語版として 1978 年に完成された。この二
つのコーパスを利用して,同時期のアメリカ英語とイギリス英語の比較が可能となった。
なお Helsinki Corpus を含めたこれらコーパスは,いずれも Corpus New ICAME
(http://icame.uib.no/) の The New ICAME Corpus Collection CD-ROM よりが入手可能。
3.BoE は,一般には公開されていないが,BoE のデータの内,約 5.700 万語が検索できる
Wordbanks Online(http://www.collins.co.uk/books.aspx?group=154)がある。
4.表 1 に記載されているコーパスの詳細については,大曾(2006)の巻末参照のこと。もし
くは,筆者 Web ページ http://siseki.client.jp/にも一部リンクを掲載している。
123
第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
5. 国立国語研究所「日本語コーパス」については http://www.tokuteicorpus.jp/を参照のこ
と。現在,なお,
『現代日本語書き言葉均衡コーパス』は,無料デモンストレーション
が Web 上で行われている他(http://www.kotonoha.gr.jp/demo/),著作権処理が済んだサ
ンプル(約 2500 万語相当)を学術利用目的にかぎってモニター公開がされている。詳
細は http://www2.kokken.go.jp/kotonoha/ex_8.html を参照のこと。
6. 本稿では省略したが KWIC は多くのコーパスで使用されている重要なツールである。
各参考文献を参照されたい。なお日本語における KWIC については,滝沢(2006-b)が詳
しい。
7. 「茶筌」についての詳細,およびダウンロードについては,以下 URL を参照のこと。
http://chasen-legacy.sourceforge.jp
8. 正規表現については,入門書が多数発行されている。日本語のコーパスにおける使い
方については,注 6 同様,滝沢(2006-b)を参照のこと。また Web 上では,名古屋大学
の大名力のページに詳しい(但し,対象言語は英語もしくは韓国語)。
http://infosys.gsid.nagoya-u.ac.jp/~ohna/re/re.html
【主要参考文献】
赤野一郎(2006)「英語コーパス言語学と英語教育」
『日本語教育』130 日本語教育学会
大曾美恵子(2006)「日本語コーパスと日本語研究」
『日本語教育』130 日本語教育学会
後藤斉(1995)「言語データとしてのコーパスの概念について-日本語のコーパス言語学の
ために」
『東北大学言語学論集』4 東北大学
齊藤俊雄,中村純作,赤野一郎(2005)『英語コーパス言語学(改訂版)』研究社
滝沢直弘(2005)「言語研究とコーパス」
『日語研究』31 韓国日本語教育学会
滝沢直弘(2006-a)『コーパスで一目瞭然』小学館
滝沢直弘(2006-b)「コーパス利用のためのコンピューターリテラシー」
『日本語教育』130
日本語教育学会
丸山岳彦,田野村忠温(2007)「コーパス日本語学の射程」
『日本科学』22 国立国語研究所
水野義道他(2006)「特集 コーパスと日本語教育-現状と課題-について」
『日本語教
育』130 日本語教育学会
124
第九回フランス日本語教育シンポジウム 2007 年フランス・グルノーブル
9ème Symposium sur l’enseignement du japonais en France, Grenoble France, 2007
The present conditions and future of a Japanese corpus: in Japanese
corpus linguistics and Japanese language teaching
Sugako ISEKI
Maison de la Culture du Japon à Paris
Chikuro Hiroike School of Graduate Studie, Université Reitaku
Corpus is widely used in linguistic studies such as historical linguistics,
writhing style, grammar studies, and languages education. In the Japanese
language, however, the corpus is still underdeveloped, and the studies utilizing
them are much delayed compared to English. This therefore, the current study
gives an overview of corpus in general and in Japanese language. This study aims
at facilitating an understanding of “The correct common understanding of corpus”
(Mizuno et al., 2006) among Japanese language researchers in Europe.
134