日本語ドキュメントのレビューのために、カタリストは言語に関 する専門知識とプレディクティブ・ランキングを活用して、レビュ ー対象数を 50%以上削減 米国の大手法律事務所は、日本語と英語が入り混じったドキュメントセットのレビューに際し、日本 語のドキュメントについてプレディクティブ・ランキングのテクノロジーを活用することを望んでいまし た。プレディクティブ・ランキングにより関連する可能性がある(likely relevant)日本語のドキュメント を識別できれば、レビューや翻訳に必要なコストと時間が大幅に削減され、法律事務所もクライアン トから強く求められている予算の制約に対応し、裁判所から義務づけられている開示期限も厳守す ることができます。 プレディクティブ・ランキングを日本語のドキュメントに使うと、大抵非効率であることはわかっていま したが、その法律事務所はカタリストに支援を求めました。カタリストでは、プレディクティブ・ランキン グを実行する前に日本語のテキストを抽出し、トークン化する方法を用いて、その法律事務所が日 本語のドキュメントのレビュー順位のランク付けを行い、上位 48%のドキュメントに全ての関連ドキ ュメントの 98%が含まれるようにしました。この方法で、法律事務所がレビューする必要のあるドキ ュメント数を 50%以上も削減したのです。 問題点:日本語のドキュメントではプレディクティブ・ランキングは失敗する 法律事務所が引き渡しを受けたのは、さまざまな種類のファイルを含む多数のドキュメントで構成さ れるレビュー用のデータセットで、その中の三つ目は日本語でした。その法律事務所は、日本語の ドキュメントにプレディクティブ・ランキングを使って、関連する可能性が最も高い(most-‐likely relevant)ドキュメントを識別し、優先的にレビューできるようにすることを希望していました。 英語のドキュメントであったなら、これは全く簡単なことだったでしょう。しかし、日本語のドキュメント の場合、プレディクティブ・ランキングに必要なテキスト分析は困難です。それは、日本語では英語 のようにスペースや句読点が使われないからです。そのため、日本語のドキュメントに予測コードエ ンジンを使うことが難しく、しばしば標準以下の結果となります。 解決法:カタリストのトークン化によりプレディクティブ・ランキング結果を最適化する この問題に対するカタリストの解決法は、プレディクティブ・ランキングのプロセスを開始する前に日 本語のデータを抽出し、トークン化することでした。 セグメンテーションとも呼ばれるカタリスト独自のトークン化の手法は、エンジンが識別できる単語と フレーズにテキストを分解することにより、プレディクティブ・ランキングのエンジン効率を高めます。 この手法を実行するため、日本語のドキュメントを当社のレビュー・プラットフォームに取り込みまし た。ドキュメントを取り込む際には言語検出を実行し、日本語のテキストを抽出しました。次に、当社 独自のテクノロジーと方法を用いてテキストをトークン化し、システムが日本語の単語とフレーズを 分析できるようにしました。 CatalystSecure.com | Page 1 of 2 トークン化が完了すると、プレディクティブ・ランキングのプロセスを開始できるようになりました。 最初に、法律事務所のシニア弁護士が 500 ドキュメントをレビューし、分析用にシステムが使用する 参照用のデータセットを作成しました。次に、600 ドキュメントからなるサンプルセットをレビューし、 関連性あり(relevant)と関連性なし(non-‐relevant)に分類しました。 これらのドキュメントはシステムのトレーニングにも使用され、システムがドキュメントの関連性の有 無を識別し、その情報をランク付けに利用できるようにしました。 初回のレビュー後、トレーニング用のデータセットに基づき、残りのドキュメントについても関連性の ランク付けを行うようシステムに指示しました。その結果は注目すべきものでした。 ! ! ! サンプリングのプロセスでは、ドキュメントの約 41%が関連性あり、または潜在的に関連性あり (potentially relevant)であることが示唆されました。これは標準よりも高い数値ですが、今回のカス トディアンについては関連ドキュメントの割合が高いことがわかっていました。 システムは、関連する可能性があるドキュメントも高い割合(98%)で識別し、ランキングプロセ スによるレビューの優先順のトップに置くことができました。その結果、関連の可能性あり(likely relevant)のドキュメントをレビューするためにレビューチームが必要とするドキュメント数は、ドキ ュメント総数の約半分(48%)だけになりました。 残り(52%)のドキュメントには、少数ですが関連する可能性があるドキュメントが含まれていま した。レビューチームはその中から無作為に抽出したサンプルドキュメントをレビューし、わずか 3%だけを関連する可能性がありと判断しました。このように低い割合は、これらがレビューする 必要がなかったドキュメントであり、半分以上のドキュメントのレビュー費用を節減できたことを 示唆しています。 プレディクティブ・ランキングのプロセスを開始する前に当社のトークン化テクノロジーを利用するこ とにより、クライアントはレビュー対象を関連する可能性が最も高いドキュメントに絞り込み、レビュ ーまたは翻訳が必要なドキュメント総数を 50%以上減らすことができました。このことは、クライアン トにとって大幅な費用削減となり、レビュー時間が短縮されることを意味しています。 結論:複数言語処理の専門知識により TAR(Technology Assisted Review)の効率性が 向上 テクノロジー支援レビューは、日本語のテキスト分析で生じる問題で行き詰ることがよくあります。カ タリストでは、テキストを抽出してからトークン化を行うプロセスを取ることにより、この問題を克服し 、日本語のドキュメントについてもプレディクティブ・ランキングのプロセス効率を高めています。当社 のクライアントである法律事務所にとって、それはレビューを必要とする日本語ドキュメントを 50% 以上減らせたことを意味していました。レビューと翻訳が必要な日本語ドキュメントを減らすことで、 法律事務所は、レビューに必要なコストと時間の削減という目標を達成したのです。 CatalystSecure.com | Page 2 of 2
© Copyright 2024 Paperzz