日本語ドキュメントのレビューのために、言語に関する専門知識 と

Case Study
日本語ドキュメントのレビューのために、言語に関する専門知識
とプレディクティブ・ランキングを活用してレビュー対象数を
52%削減
米国の大手法律事務所は、日本語と英語が入り混じったドキュメ
ントセットのレビューに際し、日本語のドキュメントについてプ
レディクティブ・ランキングのテクノロジーを活用することを望
んでいました。 プレディクティブ・ランキングにより関連する可能性
クライアントの概要
米国大手法律事務所
がある(likely relevant)日本語のドキュメントを識別できれば、レ
ビューや翻訳に必要なコストと時間が大幅に削減され、法律事務所もク
ライアントから強く求められている予算の制約に対応し、裁判所から義
務づけられている開示期限も厳守することができます。
• クラ
が
プレディクティブ・ランキングを日本語のドキュメントに使うと、大抵
非効率であることはわかっていましたが、その法律事務所はカタリスト
に支援を求めました。カタリストでは、プレディクティブ・ランキング
を実行する前に日本語のテキストを抽出し、トークン化する方法を用い
て、その法律事務所が日本語のドキュメントのレビュー順位のランク付
けを行い、上位48%のドキュメントに全ての関連ドキュメントの98%が
含まれるようにしました。この方法で、法律事務所がレビューする必要
のあるドキュメント数を50%以上も削減したのです。
ントにより
ている
•
によるレビューの
ッドラ ンが ま て
いる
•
分の が日本語のドキュ
メント
• トークン化という
ーク 方法を
する
を
て
今までの問題点:日本語のドキュメントではプレディクティブ・ランキングは失敗する
法律事務所が引き渡しを受けたのは、さまざまな種類のファイルを含む多数のドキュメントで構成されるレ
ビュー用のデータセットで、その中の三つ目は日本語でした。その法律事務所は、日本語のドキュメントに
プレディクティブ・ランキングを使って、関連する可能性が最も高い(most-likely relevant)ドキュメント
を識別し、優先的にレビューできるようにすることを希望していました。
英語のドキュメントであったなら、これは全く簡単なことだったでしょう。しかし、日本語のドキュメント
の場合、プレディクティブ・ランキングに必要なテキスト分析は困難です。なぜなら日本語では英語のよう
にスペースや句読点が使われないからです。そのため、日本語のドキュメントに予測コードエンジンを使う
ことが難しく、しばしば標準以下の結果となります。
解決法:カタリストのトークン化によりプレディクティブ・ランキング結果を最適化する
この
の ー
に する
ストの
法は、プレ
を抽出し、トークン化することでした。
メンテーシ ンと
フレーズにテキストを分
クテ
・ランキン
のプロ
る
スト独自のトークン化の手法は、
することにより、プレ
クテ
・ランキン
日本語では英語のようにスペースや句読点が使われない
ため、日本語のドキュメントに予測コードエンジンを使
うことが難しく、課題となっていました。
スを
ンジンが
の ンジン
する
に日本語
できる単語と
を めます。
Case Study
この手法を実行するため、日本語のドキュメントを当社のレビュー・プラットフォームに取り込みました。
ドキュメントを取り込む際には言語検出を実行し、日本語のテキストを抽出しました。次に、当社独自のテク
ノロジーと方法を用いてテキストをトークン化し、システムが日本語の単語とフレーズを分析できるようにし
ました。
カタリストが最初に行う
テキストの抽出とトーク
ン化は、日本語ドキュメ
ントのプレディクティ
ブ・ランキングをさらに
効率的なものにします。
トークン化が完了すると、プレディクティブ・ランキングのプロセスを開始
できるようになりました。
最初に、法律事務所のシニア弁護士が500ドキュメントをレビューし、分析用
にシステムが使用する参照用のデータセットを作成しました。次に、600ド
キュメントからなるサンプルセットをレビューし、関連性あり(relevant)と
関連性なし(non-relevant)に分類しました。
これらのドキュメントはシステムのトレーニングにも使用され、システムが
ドキュメントの関連性の有無を識別し、その情報をランク付けに利用できる
ようにしました。初回のレビュー後、トレーニング用のデータセットに基づ
き、残りのドキュメントについても関連性のランク付けを行うようシステム
に指示しました。その結果は注目すべきものでした。
•
サンプリングのプロセスでは、ドキュメントの約41%が関連性あり、または潜在的に関連性あり
(potentially relevant)であることが示唆されました。これは標準よりも高い数値ですが、今回のカスト
ディアンについては関連ドキュメントの割合が高いことがわかっていました。
システムは、関連する可能性があるドキュメントも高い割合(98%)で識別し、ランキングプロセスによる
レビューの優先順のトップに置くことができました。その結果、関連の可能性あり(likely relevant)のド
キュメントをレビューするためにレビューチームが必要とするドキュメント数は、ドキュメント総数の約半
分(48%)だけになりました。
•
残り(52%)のドキュメントには、少数ですが関連する可能性があるドキュメントが含まれていました。レ
ビューチームはその中から無作為に抽出したサンプルドキュメントをレビューし、わずか3%だけを関連する
可能性がありと判断しました。このように低い割合は、これらがレビューする必要がなかったドキュメント
であり、半分以上のドキュメントのレビュー費用を節減できたことを示唆しています。
•
プレディクティブ・ランキングのプロセスを開始する前に当社のトークン化テクノロジーを利用することに
より、クライアントはレビュー対象を関連する可能性が最も高いドキュメントに絞り込み、レビューまたは
翻訳が必要なドキュメント総数を50%以上減らすことができました。このことは、クライアントにとって大
幅な費用削減となり、レビュー時間が短縮されることを意味しています。
結論:複数言語処理の専門知識によりTAR(Technology Assisted Review)の効率性が向上
テクノロジー支援レビューは、日本語のテキスト分析で生じる問題で行き詰まることがよくあります。
カタリストでは、テキストを抽出してからトークン化を行うプロセスを取ることにより、この問題を克服し、
日本語のドキュメントについてもプレディクティブ・ランキングのプロセス効率を高めています。
当社のクライアントである法律事務所にとって、それはレビューを必要とする日本語ドキュメントを50%以
上減らせたことを意味していました。レビューと翻訳が必要な日本語ドキュメントを減らすことで、法律事務
所は、レビューに必要なコストと時間の削減という目標を達成したのです。
© 2014 Catalyst Repository Systems, Inc. All rights reserved.
www.catalystsecure.com/ja | 03-6441-2270
Follow us @catalystsecure