日本語判決文にみる形態素解析(Morphological Analysis)の研究

日本語判決文にみる形態素解析(Morphological Analysis)の研究
(未定稿:検索結果一覧表)
2004・9・11 N.inagaki
① 世界中の数多くの言語には、実にそのすべてに共通する「普遍文法 Universal grammar」がある。
② 1960 年チョムスキー このような普遍文法は現在「変形生成文法 Transformational generative grammar」と呼ばれる。
③ 判例文は文脈自由文法である。
④ 自然言語で書かれた文章を形態素(Morpheme おおまかに云えば「単語」)の列に分割し名詞(Part-of-speech)を見分ける作業;
名詞節に続く語尾の変化や格助詞も異なるコンテンツとして区別して検索に使う。
⑤ 現在、日本文を扱う形態素解析モジュールは「KAKASI」「MeCab」「ChaSen」等12種くらいありそれぞれ特徴を持つ。
文字列検索時の術
検索エンジンの検索手法(文字列検索手法)には、テキストとは別の検索テータを用いる「インデックス手法」とテキストを最初の文字列か
ら順にマッチングを行う「順次検索手法」とがある。
インデックス手法は検索時間が早く、多くの Web 検索サービスで採用されている。しかし、検索のためのインデックスを作成するのに時間
がかかり、インデックスの分だけデータ量も増える。
このインデックスを作成する方法としては「N-gram」「パトリシアツリー」「形態素解析」「文字成分表」「パターン認識」などがある。
①「N-gram 方式」は、文字列から1文字ずつずらした N 文字をひとからまりにしてインデックスを作成する方法で、検索もれは発生しない
が、検索ノイズが多くなる。N 値を固定値とせず、文字の種類によって使い分ける場合もある。
②「パトリシアツリー方式」(Practical Algorithm to Retrieve Information Code in Alphanumeric)は、文書中のすべての文字から始まる文
字列でインデックスを作成し、検索キーワードと完全一致した場合にヒットとみなす方式。検索ノイズは少なく、検索漏れも少ないが、インデ
ックスが大きくなる。
③「形態素解析方式」は、日本語を解析するために辞書を使用し、文字列から単語を切り出し、名詞や副詞、形容詞などの品詞を意識し
てインデックスを作成する。意味のない検索ノイズは削減できるが、検索もれが発生する恐れがあり、辞書のメンテナンスが大変である。
④「文字成分表方式」は文書中のすべての文字の種類を記録しておく方法で、何種かの文字成分表と疑縮テキストを使って該当文書の
候補を絞り込む。検索漏れはないが、検索ノイズは多い。
⑤「パターン認識方式」は文字列の情報をパターンとして認識してインデックスを作成する。検索ノイズと検索もれが発生する。
一方、順次検索手法はインデックスを使わない検索方式で、シンプルであるが検索時間はかかる。とくに、英文と違い単語の切り出しが難
しい日本語では検索ノイズが多くなる。そこで、単語を認識するタグを使う方法もある。HTML や XML のタグ(Tag:構造)に注目したもので商
品名「Shunsaku」があるが、判例 DB の様にテキストそのものの誤字率が高い現在、99.95%の維持で数十億投資をしても日の目をみな
い過去物の DB にあたっては、その有効性を抹殺している現状であるので将来候補となってこよう。原本性を要求される DB では、それ以
前に解決させねばならない課題がある。
1
各任意語による検索結果からキーワード(品詞)の扱い方法を測定する。
1-1:民法93条但書の「代理権の濫用」検索結果・・・その1(以下事件番号は略記する)
対象調査 LLIDB Version1.01 調査日 2004・9・11
任意語による検索結果
1:「代理権」
・・・・・・・・・・・ 2673件
2:「濫用」
・・・・・・・・・ 10000件以上で表示困難(DB 全体での判決文数不明)
3:「代理権」AND「濫用」・・・・・・・・ 333件
ヒット率は高いがこれだけの件数があると、判例全文を読んでの抽出作業は実際上困難となる。
よって、目的分野によるもう一語の「AND」をかける検索の方が実用的検索作業ができる。
4:「代理権濫用」
・・・・・・・・・・・ 8件
名古屋地平3(ワ)3087号、最高1小平元(オ)759号、福岡高平1(ネ)306号、大阪高昭62(ネ)1237号、
大阪地昭60年(ワ)1479号、大阪地昭53(ワ)7813号、最高1小昭42(オ)602号、名古屋高昭27(ネ)308号
5:「代理権を濫用」
・・・・・・・・
14件(+大審院2件)
福島地会津平11(ワ)21号、最高1小平1(オ)759号、大阪高昭62(ネ)1237号、高松高昭61年(ネ)104号、
大阪地昭60(ワ)1479号、高知地昭55(手ワ)132号、最高2小昭42(オ)694号、最高1小昭42(オ)602号、
最高昭41(オ)1416号、東京高昭39(ネ)794号、名古屋地昭35(ヨ)333号、京都地昭28(ワ)308号
名古屋高昭27(ネ)308号、神戸地昭28(ヨ)51号
※補;大審院は任意語検索から外れ、判決日・事件番号で検索方式(法曹界意向)で別 DB 構造である。
6:「代理権の濫用」
・・・・・・・・・・ 9件
大阪地昭60(ワ)1479号、福岡地昭57(ワ)3281号、福岡高昭54(ネ)5号、名古屋高昭51(ネ)483号、
最高1小昭42(オ)602号、名古屋地昭37(ヨ)146号、名古屋地昭37(ヨ)125号−214号、名古屋高昭35(ラ)177号、
神戸地昭33(ヨ)292号
昭60・・・
この表示は、「代理権濫用」「代理権を濫用」「代理権の濫用」のキーワードにおいてそれぞれ共通に表示されたもの・・・2判例のみ
平元・・・
この表示は、「代理権濫用」、「代理権を濫用」のキーワードでそれぞれ共通に表示されたもの・・・・・・・2判例
昭・・・・
この表示は、それぞれのキーワードでのみ、固有に1回のみ表示されたもの・・・・・・18判例
仮説;上記の例からも分るように、判決原文自体(判決文を書いた書記官等)の癖や形態素解析ツールの限界があり、実務にあたっては考えられる名詞、格名詞、
接続詞、動詞を事案に照らしあわせて、各種の任意語で入力してみる必要がある。
場合によれば、複数の異なった形態要素ツールをつかっている DB をそれぞれ検索する必要がある。どちらがよいどちらがヒット率が低いという問題でない。
出来れば、2段階検索方式(検索用 Index の範囲の重層化)や検索結果を整理記憶させる学習機能をつけて、後づけで蓄積してゆかねば収斂しない。
判例 DB が上記のようであるから、雑誌検索においておやである。
雑誌 DB の『主要法律雑誌 DVD』の「記事検索」では、「代理権濫用」「代理権の濫用」を検索すると、執筆者・編集者の実務的な日常語に近い表現をして出版して
きた社独自の編集文化(送りかな、省略形等)がありその上の成果物であり、それぞれ社の特徴があるので、複数雑誌を横断した検索方法が望ましい。
2
1−2:民法93条但書の「代理権の濫用」検索結果・・・その2
調査対象 LEX/DB
調査日 2004.9.13
文書数 175,961 件 (平成 16 年 9 月 8 日 現在)
使用形態素解析ソフト;
使用検索エンジンソフト:
1:「代理権濫用」
・・・・・・・・・・・ 11件
東京地平 14(ワ)24655 号、神戸地平 13(わ)1219 号、名古屋地平 3(ワ)3087 号、最高一小平 1(オ)759 号、
大阪高昭 62(ネ)1237 号、大阪地昭 60(ワ)1479 号、大阪地昭 53(ワ)7813 号、東京地昭 53(ワ)5392 号、
最高一小昭 42(オ)602 号、最高一小昭 34(オ)649 号、名古屋高昭 27(ネ)308 号
2:「代理権を濫用」
・・・・・・・・・
16件
東京高平 12(ネ)617 号、東京地平 11(行ウ)34 号、福島会津平 11(ワ)21 号、大阪高昭 62(ネ)1237 号、
大阪地昭 60(ワ)1479 号、高知地昭 55(手ワ)132 号、最高一小昭 42(オ)602 号、最高一小昭 41(オ)1416 号、
東京高昭 39(ネ)794 号、最高ニ小昭 39(オ)264 号、名古屋地昭 35(ヨ)333 号、京都地昭 28(ワ)308 号
神戸地昭 28(ヨ)51 号、名古屋高昭 27(ネ)308 号、大審院昭 8(れ)164 号
大審院大正 11(れ)140 号
3:「代理権の濫用」
・・・・・・・ 19件
東京高平 9(ネ)4830 号、大阪高平 6(行コ)60 号、東京地平 5(ワ)9942 号、最高一小平 1(オ)759 号、
大阪高昭 62(ネ)1237 号、大阪地昭 60(ワ)1479 号、福岡地昭 57(ワ)3281 号、東京高昭 57(ネ)1187 号、
最高三小昭 57(オ)377 号、最高一小昭 55(オ)266 号、福岡高昭 54(ネ)5 号、名古屋高昭 51(ネ)483 号
最高一小昭 42(オ)602 号、名古屋地昭 37(ヨ)146 号、名古屋地昭 37(ヨ)125―214 号、 名古屋高昭 35(ラ)177 号、
神戸地昭 33(ヨ)292 号、最高ニ小昭 29(オ)220 号、最高ニ小昭 28(あ)1588 号
3
1-3: 民法93条但書の「代理権の濫用」検索結果・・・その3
調査対象 弁護士小松弘の法律情報サーバー
調査日 2004.9.15
文書数 5,978 キーワード数 424,144 最終更新日 2004-9-14
使用形態素解析ソフト;KAKASI
使用検索エンジンソフト:Namazu
1:「代理権濫用」
・・・・・・・・・・ 1件
神戸地裁平 13 年(わ)第 1219 号
参考ヒット数「代理権:65」「濫用:745」として表示しているが、絞り込み作業には?
※ 対象 DB 文書数が少ないので比較にならないが、LLI の「代理権:2673 件」「濫用:10000 件以上」に比べ
判例研究作業用には、不充分なる文書数である。
但し、KeyWord が設定できる特徴がある。
2:「代理権を濫用」 ・・・・・・・・・ 8件
名古屋高平 14(ワ)2148 号、名古屋地平 14(ワ)2148 号(重複2行表示?)、広島高平 14(ネ)196 号、
東京地平 13(ワ)9147 号、千葉地平 12(ワ)1372 号、名古屋地平 12(行ウ)30 号、東京地平 11(行ウ)34 号、
札幌地平 10(ワ)3159 号、札幌地平 10(ワ)1586-2386-2712-2809 号
3:「代理権の濫用」
・・・・・・・・ 5件
千葉地平 12(ワ)1372 号、東京地平 11(ワ)12339 号、東京地平 11(刑ワ)2731 号、札幌地平 10(ワ)3159 号、
横浜地裁平 10(ワ)第 799 号、
参考ヒット数として、【代理権:65】 【の:5966】 【濫用:745】と表示されている。(形態素解析;KAKASI)
※最近「弁護士小松弘の法律情報サーバー」はサービスを中止された。
調査時点では
今日の判決情報
小松 弘弁護士による下級裁判決情報ダイジェスト版。全文検索システムも利用可能。
と表示されていた。http://icrouton.as.wakwak.ne.jp/xml/indexJ.xml 意欲的な取り組みご苦労さまでした。
4
1-4: 民法93条但書の「代理権の濫用」検索結果・・・その4
調査対象 最高裁判所 HP+下級審判例検索
文書数
? キーワード数 ?
調査日 2004.10.9
最終更新日 2004-9-14
使用形態素解析ソフト;使用検索エンジンソフト:Lotus Domino Doc
全文検索エンジン部分は全体の単なる一部に過ぎないという観点から、文書共有システムとかナレッジマネジメントと言ったような概念のもとにつく
られたソフト
最高裁 DB;http://courtdomino2.courts.go.jp/home.nsf
下級審 DB; http://courtdomino2.courts.go.jp/kshanrei.nsf/SearchKousai?OpenForm
検索画面説明→判決や決定の全文(主文や理由)や判示事項等の中で使われている言葉(キーワード)で検索できます・・・・の記載あり。
【測定結果】
1:代理権 ・・・・・・・・ 182件
2:代理権濫用 ・・・・・
内訳(最高裁・・・・134件、高裁・・・・13件、地裁・・・・34件、簡裁・・・・0件)
0件
3:代理権を濫用 ・・・・・ 1件
東京地裁平11(行ウ)34号
4:代理権の濫用 ・・・・・ 0件
※DB が昭和63年以降のデータを集積している。
※過去の収録が無いので網羅的研究調査が不可能。最高裁判所 DB と下級審 DB が2系統に別れ横断検索が不可。
※下級審はそれぞれの裁判所事情で更新される。下級審判決文全部が HP 掲載されていない(裁判所により数件が数ヶ月の裁判所もある)
※検索エンジン、形態素解析ソフトも充実・公表すべきである。(くせを知った上で活用すべき公共財である)
※特に「最高裁判所最新の判例」は up 時間も短縮されつつあり、軌道にのりつつある。地裁は実用に耐えない状況、今後の充実が待たれる。
5
2.検索用語「代理権濫用」にみる名詞節部分(判決原文紹介)
出展 LLI 判例検索システム 2004・9・11 [email protected]
判例全文検索時における課題・・・(その3:過去の判決文は担当の書記官、裁判官の文書表記上のくせがある)
ケースⅠ:【代理権濫用】平3(ワ)3087号ほか7件
①
それは同支店長らの権限を逸脱するものであり、代理権濫用行為である。
②【判示事項】一 親権者の代理権濫用の行為と民法九三条ただし書
③控訴人主張の法定代理権濫用の再抗弁について判断する。
④、そこで原告の法定代理権濫用の主張につき判断するに、
⑤被告指摘のような代理権濫用の問題が生ずる余地がない。
⑥その意見によるときは、手形振出が代理人の代理権濫用によることを受取人において知るべかりしとき
⑦被控訴人において手形取得の代理権濫用を知り又は知り得べかりしことを認めるに足る何等の証拠もない
ケースⅡ:【代理権を濫用】平11(ワ)21号ほか13件
① 本件売買契約締結に際し、その代理権を濫用し、原告木下榮子の利益を図った事実
② その法定代理権を濫用して本件抵当権設定契約をするとの事実を知りながら、右契約に及んだものであり
③ したがって右根抵当権設定契約は、法定代理権を濫用してなされたもので無効である。
④ これら手形が偽造もしくは代理権を濫用して振出されたものであることを知っていたことを意味すると解される。
⑤ 本件のように、代理権を濫用して振り出された手形であることを知り、または知り得べかりし状態のもとに手形を取得
⑥ 岡崎においてその代理権を濫用し自己の利益を図る意図に出て本件売却行為をし
⑦ 被控訴人から前記事業の関係上授与された代理権を濫用し、これを踰越して
⑧ 親権者または後見人が法定代理権を濫用して、未成年者の受くべき賃金を自己に領得し
⑨ 支社長浜上敬治は代理権を濫用して不法にも被告のために敷金預り証名義を被告会社に書換え
⑩ 中島磯一郎は右代理権を濫用して自己の利益を剃り控訴会祉名義の手形を振出し
ケース3:【代理権の濫用】昭60年(ワ)1479号ほか9件
① そして親権者が右義務に違反してなした代理行為は、法定代理権の濫用であって無効である。
② 自己の債務についての連帯保証契約を締結しているのであるから一般的には、代理権の濫用されるおそれのある場合であり
③ これを代理権の濫用として無効とするいわれはない、と解すべきは当然である。
④ これを認知請求権の濫用、ないしは法定代理権の濫用として、また、公序良俗に照しても断じて許されるべきではない。
⑤ その手形が代理人の代理権の濫用によって振出されたものであることを知り又は知るべかりしときは
⑥ またかく解することにより法定代理権の濫用を防止せんとする労働基準法の趣旨が貫徹される
⑦ 原決定も法定代理権の濫用を説示している。
⑧ 親権を行う者又は後見人の法定代理権の濫用に備えてこれを制限するものである
⑨本判例文中に「代理権の濫用」と表記ありも検索で表示されない例→平成4年 12 月 10 日最小平元(オ)第 759 号
【判示事項】一
二
親権者の代理権濫用の行為と民法九三条ただし書
親権者において子を代理してその所有する不動産を第三者の債務の担保に供する行為と代理権の濫用
↑
格助詞なし
⑨例の判示表記は、使用した形態素分析ツールにより「代理権の濫用」とする名詞的用語のかたまりと解釈するので続く格助詞なしであり、検索表
示されない例である。検索をして原文をみられたい。
6
3−1:国賠法2条の「管理の瑕疵」にみる検索結果・・・その1
対象調査 LLIDB Version1.01 調査日 2004・9・11
任意語による検索結果
1:「国賠法2」
・・・・・・・・・・・ 161件
2:「国家賠償法第2条」
3:「管理の瑕疵」
・・・・・・・・・・・ 15件
・・・・・・・・・・・ 749件
4:「国賠法」AND「管理の瑕疵」 ・・・・・143件
5:「国賠法2条の管理の瑕疵」
・・・・・
4件
静岡地裁昭 51(ワ)124 号、岐阜地裁昭 51(ワ)293-52(ワ)608 号、岐阜地裁昭 52(ワ)317-54(ワ)453 号
東京地裁昭 48(ワ)9788 号
6:「河川管理の瑕疵」
・・・・・・・・・ 64件
7:「河川管理瑕疵の判断」
・・・・・
18件
8:「河川管理瑕疵の判断基準」
・・・・・
14件
9:「水害訴訟」
・・・・・・・・・
48件
7
3−2:国賠法2条の「管理の瑕疵」にみる検索結果・・・その2
調査対象 LEX/DB
調査日 2004.9.13
文書数 175,961 件 (平成 16 年 9 月 8 日 現在)
使用形態素解析ソフト;
使用検索エンジンソフト:
任意語による検索結果
1:「国賠法2」
・・・・・・・・・・・
2:「国家賠償法第2条」
3:「管理の瑕疵」
・・・・・・・・・・・
44件
1件
・・・・・・・・・・・ 845件
4:「国賠法」AND「管理の瑕疵」 ・・・・・
5:「国賠法2条の管理の瑕疵」
・・・・・
35件
2件
津地裁昭 50(ワ)95 号、東京地裁昭 51(ワ)987 号
6:「河川管理の瑕疵」
・・・・・・・・・ 54件
7:「河川管理瑕疵の判断」
・・・・・
16件
鹿児島地裁平 9(ワ)100 号、名古屋高裁平 3(ネ)478 号、最高一小平 2(オ)1650 号、前橋地裁平 2(ワ)104 号
東京高裁平 2(ネ)4507 号、名古屋地裁昭 53(ワ)2288 号、最高一小昭 63(オ)791 号、名古屋地裁昭 57(ネ)687 号
名古屋高裁昭 56(ネ)531 号、東京高裁昭 54(ネ)1481 号、岡山地裁昭 47(ワ)585 号、大阪地裁昭 58(ワ)2279 号
最高一小昭 57(オ)560 号、岐阜地裁昭 52(ワ)293−608 号、最高一小 53(オ)492 号、福岡地裁昭 50(ワ)673 号
8:「河川管理瑕疵の判断基準」
・・・・・
12件
鹿児島地裁平 9(ワ)100 号、最高一小 2(オ)1650 号、前橋地裁平 2(ワ)104 号、東京高裁平 2(ネ)4507 号
名古屋地裁昭 53(ワ)2288 号、最高一小昭 63(オ)791 号、名古屋高裁昭 57(ネ)687 号、東京高裁 54(ネ)1481 号
岡山地裁昭 47(ワ)585 号、大阪地裁昭 58(ワ)2279 号、岐阜地裁昭 52(ワ)293-608 号、最高一小昭 53(オ)492 号
9:「水害訴訟」
・・・・・・・・・
46件
8
4.検索用語「管理の瑕疵」にみる名詞節部分(判決原文紹介)
出展 LLI 判例検索システム 2004・9・11 [email protected]
静岡地昭 51(ワ)124 号(判タ解説)
、河川管理者である国および費用負担者である三重県に国賠法2条の管理の瑕疵に基づく損害賠償責任を肯定した
岐阜地昭 52(ワ)293-608 号(判示事項)
、河川管理者たる国の国賠法2条の管理の瑕疵に基づく損害賠償責任を否定した事例
岐阜地昭 52(ワ)317 号-昭 54(ワ)453 号(判示事項)
、河川管理者たる国に国賠法2条の管理の瑕疵に基づく損害賠償責任を肯定した事例
東京地昭 48(ワ)9788 号(判示事項)
河川管理者に国賠法2条の管理の瑕疵に基づく損害賠償責任が認められた事例
9