範疇文法パーザの汎用化――多言語対応に向けて

06風斗2012̲基本体裁 12/05/23 9:38 ページ 61
人間情報学研究,第17巻
2012年,61~68頁
61
− 研究ノート −
範疇文法パーザの汎用化――多言語対応に向けて
風斗 博之
Generalization of a Categorial Grammar Parser for Multiple Languages
Hiroyuki FUTO
Abstract
I developed a compact parser using a version of Categorial Grammar
reinforced with subcategorizing and operational features. In applying the
parser to multiple languages including Japanese, French, and German, I
have tried generalizing it by modifying category systems based on
functional composition, potential function and category changing.
Keywords:Categorial Grammar, composite function, operational features,
category changing, scrambling
Journal of Human Informatics Vol.17
March,2012
06風斗2012̲基本体裁 12/05/23 9:38 ページ 62
風斗博之
62
1.はじめに
筆者は範疇文法を使った自然言語文のパーザ
を開発し、これまで主に英語の文を対象にその
B/Aで表わす。
英語の主な品詞は次のように、名詞(句)と
文の関数的組み合わせで表現できる。
有効性を確認してきた。この研究ノートでは、
日本語、フランス語、ドイツ語などほかの言語
名詞
N
の文の解析を試みる中で、範疇文法が真に有効
文 S
な文法モデルとなるためにどのような問題があ
自動詞 S/N
るのかそしてどのような対応策があるのかを報
他動詞 (S/N)/N
告する。
形容詞 N/N
助動詞 (S/N)/(S/N)
2.範疇文法
副詞
(S/N)/(S/N)
(N/N)/(N/N)など
範疇文法は名詞(句)と文を基本範疇に、す
べての品詞や文法範疇を関数的組み合わせとし
3.範疇の表記と英語のカテゴリー
て表す文法モデルである。学校文法で我々が
自然言語の文を細かく記述するには、上で述
「この語は動詞である」などと言うとき、その
べた表記にさらに、以下のような修正・拡張が
語の統語的な内部構造にまで立ち入ることはな
必要である。
い。範疇文法では、すべての語の統語的性質に
ついてその内部構造を考える。
このあたりの事情は化学の歴史で、原子の種
類と性質が研究された後、周期律表を経て、原
① 基本範疇を「素性(そせい)の集合」で置
き換える。
② 引数側の表現の位置を指定する。
子核のモデルが考えられ、それによって最終的
に、原子や分子の結合を説明することができる
上に加え、筆者のパーザで使用している表記
ようになった経緯とよく似ている。自然言語処
は括弧を使用していない。たとえば英語の他動
理の分野でも、初期において品詞を並べて、最
詞(lovesなど)のカテゴリーは次のように表
終的に文に書き換える「書き換え規則」を大量
される。
に用意するという文法規則に基づいたやり方か
ら、辞書に書き込まれた語の情報で文を生成し
>Np
ていくやり方へと変わっていった。多くの文法
< N p sg
モデルがある中で、範疇文法はこのような語の
S present
内部構造を明確にするという方向性が最も現れ
ている文法モデルと言える。
この表記の意味するところは「右にNとpを含
一般的な範疇文法では、文法範疇を次のよう
むカテゴリーの表現を取り、次に、左にNとp
にとらえる。(以降、文法範疇を単にカテゴリ
とsgを含むカテゴリーを取り、Sとpresentを含
ーと呼ぶ。
)
「Aというカテゴリーの表現をとっ
むカテゴリー(つまり現在形の文)になる」で
てBというカテゴリーになる」カテゴリーを
ある。loves を含む文の解析結果は図1のよう
人間情報学研究 第17巻
2012年3月
06風斗2012̲基本体裁 12/05/23 9:38 ページ 63
範疇文法パーザの汎用化――多言語対応に向けて
になる。
63
容詞、副詞、限定詞はそれらが修飾する表現の
カテゴリーを基本的に受け継ぐ。たとえば、
big がdogに掛かれば、big dogのカテゴリーは
dogと同じ単数の名詞であり、big dogsであれ
ば複数の名詞(句)である。これを@という記
号を使って次のように表す。
big
> @ N ~d
この表記の意味するところは、「右にNを含
図1
みdを含まないカテゴリーの表現を取り、同じ
カテゴリーになる」である。~A はAという素
性がないという否定的条件を表す。
英語の名詞や名詞句に関係する素性には以下
のものがある。
限定詞は形容詞と異なり、結合の結果できた
カテゴリーがコピー元である引数側の名詞のカ
テゴリーと全く同じではなく少しばかり変更が
N
名詞すべてが持つ素性
加わる。定冠詞theは結合の結果できた名詞句
sg
3人称単数 のカテゴリーにpとdの素性を付け加える。+は
p
主語や目的語となりうる名詞句がもつ素性 コピーされたカテゴリーに加えられる操作にな
d
限定詞が付いた名詞句がもつ素性
る。
the
図1は、Kenと Hanako は(主語や目的語と
> @ N ~d +p +d
the dogの場合にはdogにはpがないためpが追
なりうる)単数の名詞であることを示している。
加されるが、the dogs
さらにdの素性があるので、冠詞やその他の限
があるので追加されるのはdのみとなる。限定
定詞は掛かれないことを意味している。樹形図
詞は以下のように働きがそれぞれ微妙に異な
はlovesはHanakoを目的語に取って自動詞句と
る。
の場合は元々dogsにp
く。パーザでは文に現れるすべての単語が持つ
much
> @ N ~d ~sg
> @ N ~p +p +d
> @ N sg ~d ~p +p +d
> @ N sg p ~d +d
カテゴリーをすべて照合し、樹形図を出力する。
these
> @ N ~sg ~d +d
統語的に多義の場合は可能なすべての樹形図を
veryは形容詞や副詞にかかって形容詞や副詞
なり、次にKenを主語にとって文のカテゴリー
many
になったことを示している。
a
パーザプログラムについて簡単に説明してお
出力する。解析は一瞬で、10語文でも1秒以内
this
になる。
カテゴリーの関数表記にはもうひとつ別のタ
> @ > @ N ~d
~
> @ N d は形容詞カテゴリーである。こ
イプがある。それは形容詞や副詞のカテゴリー
のように、範疇文法の関数表記は再帰的に適用
に典型的に見られる、「修飾」表現である。形
される。
で出力する。
Journal of Human Informatics Vol.17
very
March,2012
06風斗2012̲基本体裁 12/05/23 9:38 ページ 64
風斗博之
64
@を使うと表記が1行で済むとは限らない。
も取りうることを意味する。
引数となるカテゴリーが複数行で表されるもの
であれば、複数行となる。自動詞句を修飾する
if
副詞、さらにその副詞を修飾する副詞、助動詞
などは次のように複数行で表示される。
slowly
very
<@<Np
S
<> @ S
前置詞のカテゴリーは種類がいくつか分かれ
る。ここでは時や場所を示す前置詞句として動
詞句を修飾する前置詞のカテゴリーの例のみ提
示する。名詞句を右側にとって、副詞句(自動
>@<@<Np
S
can
> S ~q
> @ < N p ~sg ‑~sg
詞にかかる)になる。ほかに、必須表現として
動詞の引数となるカテゴリー、先行する名詞句
を修飾するカテゴリーもある。
>Np
S
on
助動詞は、runやeat riceのような自動詞句と
S
結びつくが、もともとこれらの自動詞が持って
いた~sgという条件が、結合の結果できた自動
詞句の条件からはずされる。‑~sgはこの消去の
<@<Np
< N p time
ago
<@<Np
S past
操作を指示する。
関数構造は基本的にTREE構造である。通常
はその表記にはカッコが使用されるのだが、筆
語の統語的性質についてその内部構造を考え
者がパーザで採用したものは、カッコを用いず、
ることによって、上のagoの例にあるように一
代わりに改行とインデントを用いる表記であ
般の品詞の分類からはずれる「個性的」な語も
る。上の2つのカテゴリーに見るように、引数
その働きにあったカテゴリーを与えることがで
側の表現が複数行で表されるカテゴリーである
きる。
場合、その範囲を示すためにインデントされて
いることに注意されたい。
ほかの品詞を見ておこう。whetherは疑問文
でない文をとって、疑問文になる。
whether
> @ S ~q +q
条件節を導く ifは右側に文をとって、文副詞
4. 合成関数と関係詞、疑問詞
これまで示したカテゴリーの例はすべて関数
適応(functional application)に基づくものだが、
範疇文法では関数合成(function composition)
に基づくカテゴリーも使用する。関数合成の使
用は解析処理におけるマッチングの数を増大さ
になる。つまり文(従属節)をとって、次に文
せるので抑える必要があるが、英語においては、
(主節)を(右または左)にとってそれと同じ
他動詞や前置詞の目的語(および自動詞句の主
カテゴリーの文になる。ifはwhetherと同じカ
語)となる名詞句が空の場合に限定できる。こ
テゴリーも持つ。<>は引数を左右どちら側に
れらの場合、他動詞や前置詞には辞書で与えら
人間情報学研究 第17巻
2012年3月
06風斗2012̲基本体裁 12/05/23 9:38 ページ 65
範疇文法パーザの汎用化――多言語対応に向けて
65
れているカテゴリーとは別に、解析処理の開始
は自動詞句とみなされる。“# N p” は名詞句
時にこれらの語に合成関数として機能すること
を借金のように背負っていることを示す。図2
になるカテゴリーが与えられる。
が示すように、 whomや whichのようなそれを
「チャラ」にするような表現と出くわすまで樹
形図上を「相続」(inherit)される。図では
語彙範疇変換
whose
* @ > N p ‑> +#
dogs のカテゴリーはwhomと同じとなる。
<
loves
を用いた文を例示している。whose
以下の例文で使われる関係詞や疑問詞にもそ
れぞれ異なる適切なカテゴリーを与えることが
は名詞句を目的語とする他動詞なの
できる。
で下の左側のカテゴリーを持つが、語彙範疇変
換によって、右のようなカテゴリーに読み替え
られる。
Hanako loves people whose dogs Ken loves.
>Np
< N sg
< N sg p
S
S
#Np
Hanako knows whose dogs Ken loves.
Hanako loves what Ken loves.
Hanako knows what Ken loves.
Hanako loves whomever Ken loves.
この読み替えられたカテゴリーは、基本的に
Hanako loves dogs whomever Ken loves.
図2
Journal of Human Informatics Vol.17
March,2012
06風斗2012̲基本体裁 12/05/23 9:38 ページ 66
風斗博之
66
ただし、pied‑pipingと呼ばれる種類の文で使
われる関係代名詞や疑問代名詞の分析には、解
以下では、英語以外の言語の分析で得られた
成果と問題点について述べていく。
析開始時だけでなく解析途中でも随時実行され
る範疇変換が必要となり、解析処理に大幅な負
6.人称・性・数・格
荷がかかる。また、関係副詞は副詞がもともと
日本語や中国語は、人称・性・数・格などは
必須要素ではないため(前置詞が関係詞を伴う
見られないので、名詞句のカテゴリーはN以外
pied‑pipingの場合も含め)、単純に空の要素と
の素性は必要ない。
して仮定するとカテゴリーのマッチングの場合
英仏独語のうち、英語は人称・性・数・格の
の数が一挙に増大するという問題がある。これ
システムがくずれ最も単純化されている。性は
に対しては、これらの関係副詞句や疑問副詞句
統語的素性ではない。格は代名詞に関しては残
をトリガーとして、解析の途中で空の副詞句に
っている。また人称・数に関しては3人称単数
を、随時作り出す方式を検討している。
かそうでないかという対立が残っているがbe動
詞とhave動詞はもう少し細かく指定する必要
5.複数のカテゴリーを持つ語
がある。
英語ではthatのように多くの異なるカテゴリ
フランス語では人称・性・数が構文的に関与
ーを持つ語があり、パーザでは個々の語のカテ
的項目である。その分、名詞句やそれに関係す
ゴリーの表記では複数のカテゴリーを選言でつ
る動詞や形容詞、限定詞のカテゴリーは複雑に
ないだ表記で処理している。いわゆるwh表現
なる。図に示したのはフランス語の例だが、ド
のように関係詞と疑問詞の両方を持つような語
イツ語ではさらに格の情報が必要となる。
の場合も同様の表記をしているが、しかし、こ
れらの場合、カテゴリーの前段階は共通であり、
選言記号は本来その後の段階で導入すべきもの
である。実際、パーザでは無駄に同じマッチン
グ処理を繰り返しているが、選言を正しい位置
に配置すれば無駄もなくなる。下はwhoseのカ
図3
テゴリーの例である。
> N ~d
> N ~d
>S
>S
#Np
#Np
Sq
/S q
/
<@Np
> N ~d
>S
#Np
<@Np
人間情報学研究 第17巻
7.型繰り上げ
フランス語では直接目的語の代名詞は、原則
として、動詞の前に置く。これに対する解決策
として、teなどの目的格の代名詞に新しいカテ
ゴリーを加える。型繰り上げ(Type Raising)
と呼ばれるカテゴリーの組み合わせを使ったも
のである。型繰り上げの考え方は、男女関係に
例えるとに考えるとわかり易いかもしれない。
範疇文法で2つの表現がいっしょになってより
2012年3月
06風斗2012̲基本体裁 12/05/23 9:38 ページ 67
範疇文法パーザの汎用化――多言語対応に向けて
大きい句を作る時は、必ずどちらかが関数とし
67
法を取らなくてはならない。
て、もう片方を選択するという関係になる。つ
まり対等な関係ではないわけだ。男女がペアを
作る時はどうだろうか。どちらがどちらを選ぶ
と決まっているわけではないかもしれないが、
範疇文法的考えではどちらかが、たとえば男性
が女性を選ぶと考えるわけだ(逆でもいいが)
。
型繰り上げの考え方は、男性が女性を選ぶとす
図5
る場合に、女性はただの受身ではなく、「いい
え、私は私を選んでくれる人を選びます」と
「選ぶ」側に見方を変えることである。上の例
9.範疇変換
では、teは代名詞なので通常は受身的カテゴリ
語彙からの情報に基づいて構文木を組み立て
ーなのだが、「動詞の目的語を取って文になる
ていくというのが範疇文法の基本方針だが、
表現(つまり他動詞)を右側に取って、自動詞
「省略」現象はそういう点で最も扱いにくいと
句になります」と能動的立場のカテゴリーにし
いえるかも知れない。たとえば、通常、目的格
てしまうわけである。英語においても形式主語
の関係代名詞は省略が可能であるが、本来ある
のit や there
べき場所に関係代名詞がないとマッチングの処
の分析に利用している手法で
理も進まない。
ある。
A. This is a book that I bought yesterday.
B. This is a book I bought yesterday.
そこで、Bのような構造を解析するために次
のような範疇変換規則を使用する。
*S
#Np
<@Np
図4
これは、関係詞のthatやwhichのカテゴリー
の>の部分を*で置き換えただけの表記である
8.潜在関数
日本語において、サ変名詞にスルが付いたサ
変動詞はほかの動詞同様、独自の格パターンを
が、名詞句をギャップに持つ文がカテゴリーと
して解析途中で生み出された時に関係節として
読み替えできることを可能とする。
持つ。そしてその格パターンはサ変名詞に由来
ドイツ語の定型動詞が現れる位置が3種類あ
するものである。したがってサ変名詞には名詞
ることは大変対応が困難な現象だが、範疇変換
のカテゴリーでありながら、スルと結合した時
はこの現象にも適用できる。
に、潜在する格パターンが顕在化するような方
Journal of Human Informatics Vol.17
また、ドイツ語の定型の3位置の扱いは文頭
March,2012
06風斗2012̲基本体裁 12/05/23 9:38 ページ 68
風斗博之
68
や文尾の位置に空の語を仮定し、カテゴリーを
与えることで扱いが容易になることもわかっ
た。ピリオドやコンマになんらかの文法的・意
味的機能を与えるのと同じ考え方である。
最後に、意味論についてひとこと触れておき
たい。通常、範疇文法では語に文法的(統語論
的)カテゴリーだけでなく、それと対の形で、
内包論理の論理式が与えられる。文法カテゴリ
ーで使われる関数的手法はもともと意味論で使
われるラムダ計算を基本にしている。次回機会
があれば、改めて意味論も与える形でパーザを
提示したいと思う。
<参考文献>
Montague,
Richard(1973),
"The
Proper
Treatment of Quantification in Ordinary
English," Approaches to Natural Language
pp.221‑242, ed. by J. Hintikka, J. Moravcsic,
and P. Suppes, D. Reidel Publishing Co.,
Dordrecht, Holland
Steedman, Mark (2000), The Syntactic Process.
The MIT Press
人間情報学研究 第17巻
2012年3月