Read Full Article

アジア言語による e ディスカバリという難題
John Tredennick、W. Peter Cladouhos
e ディスバリがアジアに浸透するにともない、グローバル企業はこれまで馴染みのなかっ
た新たな難題に直面している。事件の内容が何であれ、中国、日本、韓国その他アジアで
保存されている電子情報が関わる場合には、事案ファイルの管理が米国とは違ったものに
なることを承知しておくべきだ。
アジアでの電子ファイルの管理に関する難題には多くの原因があり、地理的なものもあ
れば、技術的・文化的なものもある。
アジアの国々では、データや個人情報の保護に適用される法律が米国とは全く異なる。
たとえば、中国では、「国家機密」にかかわる情報を収集し、国外に持ち出すと、刑務所に
入れられる可能性がある。日本では、データを取り出して米国内でホスティングすると、
クライアントを失うことになりかねない。
言語そのものにもいくつもの難題がある。いわゆる CJK 言語(中国語、日本語、韓国語)
は、データ処理、検索、レビューが最も難しい言語である。データ処理を間違えるとデー
タを失う。検索をしくじれば、データを失ったも同然だ。いずれの場合でも、レビュー費
用がかさみ、効果的ではなくなってしまう。
本稿では、企業がアジア言語によるデータを取り扱うにあたり、またアジア言語による E
ディスカバリを順調に進め、予算を管理するにあたり直面する最も一般的で重大な問題を
いくつか取り上げて整理する。
いわ ゆる CJK 言語( 中国 語、日本 語、韓 国語)は 、デー タ処理 、
検 索、 レビ ュー が最 も難 しい 言語 だ。 文字 が明 確な 途切 れが な
く つな がっ てい るた め、 個々 の単 語を 識別 し、 イン デッ クス を
作成 する には、 特殊 なトー クナ イザを使う 必要 があ る。
• 情報保護に関する法律と政治的地雷原を切り抜ける
国が違うと、情報の収集や使用に関する法律も違う。情報の収集や使用に関する法律は、
国内で一律に適用されるものもあれば、特定の地域や市町村だけに適用されるものもある。
最も安全な方法は、法令遵守につき現地の弁護士の助言を受けることだ。
韓国の医薬品会社が当事者となった最近の米国の事案では、本国にある潜在的に関連性
のあるデータを保全する必要があった。韓国の弁護士は、保全が必要なデータについて公
式な法律意見書を提出した。潜在的に関連性のあるデータをサーバーに保存している従業
員からネットワーク上のデータを収集するには、事前に従業員の同意が必要だという内容
だ。つまり、チームが収集作業に着手する前に、こうした同意を得て、書面にしておく必
要があった。
だが、問題は、法律の条文解釈にとどまらない。文化的・政治的な風土についても検討
する必要がある。たとえば、日本の多国籍企業が当事者となった反トラスト訴訟では、中
国にあったデータ保有者のラップトップ・コンピュータ内のデータを収集する必要があっ
た。データの保有者は適切な同意を行ったが、中国から発送するデータは「消失」したり、
没収されたりすることがあった。データを安全に動かすには、突然の呼び出しにも応えら
れ、適切な渡航書類を揃えて中国に入国し、データを物理的に運び出せるフォレンジック・
エンジニアを雇うことだ。
• 多国籍クライアントとの協働
米国でビジネスを行っているアジア企業は、米国のディスカバリに関するルールや実務
に慣れていないところが多い。特に、それらの企業の幹部は、すべての当事者の間で全面
的にドキュメントを交換することが紛争の真実を解明する最良の方法であるという米国の
司法制度の前提に慣れていない。この前提は、審理の開始前にドキュメントを交換するこ
とがほとんどないアジアでは必ずしも当てはまらない。当事者は証人を立て、事件につい
て知る限りのことを陳述するだけである。
アジアのクライアントと仕事をする場合、法務案件の対応責任者は、米国の e ディスカ
バリをめぐる義務と手続に関して早い段階でクライアントを教育しなければならない。こ
うした事案についてクライアントと協議するには、流暢なネイティブ・スピーカーを必ず
チームに加える必要がある。
情報開示は安くはない。クライアントには、e ディスカバリは最良の条件が揃っている場
合でも費用のかかるものであり、複数言語によるディスカバリーの場合はよい条件が揃う
ことは滅多にないと注意喚起しておく必要がある。手続は退屈で時間と費用がかかるもの
だと予想しておかなければならない。
クライアントのサポートを得ながら、適切な期待値を設定するには、企業の幹部に e デ
ィスカバリの全プロセスを理解してもらう必要があるが、アジアのクライアントの場合、
これも困難で費用がかかることが往々にしてある。
• 適切なベンダーを選定する
英語のドキュメントへの対応に慣れたベンダーにとって、アジア言語を取り扱うことが
いかに難しいかは言うまでもない。リスクを避けるには、経験豊富な適任者の助けを借り
ることである。事件が日本国内にあるデータに関わるものであれば、e ディスカバリのパー
トナーには、日本で業務経験のある業者を選ぶべきである。日本に本社か現地オフィスの
ある企業が理想的だ。
とはいえデータ収集に関しては、現地での業務経験さえあれば、業者の拠点はどこでも
かまわない。だが、完璧に流暢でなかったとしても、現地語には精通しているべきである。
現地の支援業者を探すのであれば、さまざまな国で活動している大手業者の協力を得るの
が効果的なことが多い。
精通すべき内容は、言語、法、慣習にとどまらない。e ディスカバリパートナーは、テク
ノロジーも理解し、精通していなければならない。オペレーティング・システムやさまざ
まな文字コードに関するテクノロジーの知識を持つことが最低限必要となる。雇ったベン
ダーがシフト JIS や Big5 などの日本語、中国語の文字コード条件にうろたえるようであれ
ば、別の業者を見つけたほうがよいだろう。GUL 形式のファイルやベッキー電子メールも
同様だ。アジアのクライアントがすべて Microsoft Outlook または Lotus Notes を使ってい
るわけではなく、もし使っているとしても、Unicode 非対応の旧バージョンを使っている可
能性もある。間違った方法でデータを収集すると、データは? ? ? ? ?や?????の羅列が表示
されることになるおそれがある。これは、クライアントにとって災難だ。
• 検索とレビューに独自の難題
すべての E ディスカバリ・プラットフォームがアジア言語によるデータの検索とレビュ
ーのタスクに対応しているわけではない。検索エンジンでトークン化を実行できる業者を
選定すべきだ。トークン化は、テキストの文字列を言語特有のルールに基づき個々の「ト
ークン」に分割でき、特殊な言語の特殊性も処理できるツールである。
ア ジア では 、審 理前 にド キュ メン トが 交換 され るこ とが ほと ん
ど ない の が普 通だ。 当事 者は 証人 を立 て、 事件 につ いて 知る 限
りの こと を陳述 するだ けで ある。
検索ソフトウェアは、データセットに含まれるすべての単語のインデックスを作成する
ことにより機能する。ソフトウェアがインデックスを作成するには、単語の前後にあるス
ペースや句読点により単語を識別する。トークン化と呼ばれるこのプロセスは、各単語が
スペースと句読点で句切られている西洋言語では簡単だ。だが、CJK 言語では、文字が明
確な区切りがなく羅列されている。個々の単語を識別し、インデックスを作成するために、
検索エンジンは、特殊なトークン化を実行して言語を認識し、単語がどこから始まりどこ
で終わるのか判定する。
CJK 言語の検索をさらに難しくしているのが、ロゴグラムと呼ばれる象形文字の使用で
ある。検索エンジンは、これらの象形文字をどのように単語に区切るか解読できなければ
ならない。さらに困難なことに、文字の組み合わせによって意味が変わるため、検索エン
ジンは文字がどのように組み合わされているか認識できるものでなければならない。
たとえば、「中国人」という従来の中国語の単語は、「世界の中心にある国の人々」と直
訳される 3 つのロゴグラムで構成される。
「中国人」ではなく「中国」というには、これら
の文字のうち「世界の中心にある国」を表す 2 つの文字を使う。基本的な検索エンジンに
は、これらの文字を一緒に読み取るべきか別々に読み取るべきか知るすべがないため、こ
れらの意味を識別できる方法はない。
• 機械翻訳を活用してコストを削減する
多数のドキュメントが関わる、あるいは期限まで時間が足りない(さらに悪い場合はそ
の両方)アジアの e ディスカバリ事案では、翻訳がとてつもない障害になることがある。
人間の手による翻訳は、時間ばかりかかる退屈な作業で、莫大な費用が発生する。実際、
複数言語事案では、費用別にみて翻訳費用が最も多額となることが多く、レビュー費用を
超えることもある。
データの内容、分量、複雑性にもよるが、人間の手による翻訳の代わりに機械翻訳(MT)
を使用できることがある。
2011 年に韓国のサムスン電子がハードディスクドライブ事業を Seagate Technology に
14 億ドルで売却した取引は、状況が整っていれば MT をうまく利用できることを示すよい
例となった。取引を実行するには、サムスンは、「セカンド・リクエスト」と呼ばれる米国
連邦取引委員会(FTC)の詳細な審査と承認を待たなければならなかった。これは、FTC
が取引計画を評価するのに必要な文書と情報を FTC に提供するファストトラック手続であ
る。
セカンド・リクエストの手続では、英語でのドキュメントの提出義務をはじめ、各当事
者は政府の要求に「事実上対応」していることを証明しなければならない。この事実上の
対応基準を考慮する段になって、サムスンの代理人弁護士は苦境に直面した。サムスンが
FTC に提出しなければならなかった膨大なドキュメントは韓国語によるものだったが、提
出は英語で行わなければならなかったのだ。
合計で 100 万ページを超える数十万の韓国語ドキュメントがあり、これらすべてを人間
の翻訳者を使って翻訳すると、その費用だけで軽く 1,500 万ドルから 2,000 万ドル近くに
なった。法務チームは、手作業による翻訳に代えて MT を使うことにした。
機械翻訳したドキュメントの品質は人間の手による翻訳物と同じレベルというわけには
いかないが、FTC がさらにレビューの必要な関連性のある資料を特定し、必要であれば、
特定のドキュメントについて人間の手による翻訳を求めることができるようにするには十
分な理解レベルのものだった。ついに、機械翻訳は、セカンド・リクエスト手続を完了し、
合併を進めることを可能にする十分な品質のものになったのだ。最終的な費用は、人間の
手による翻訳の見積額である 1,500 万ドルから 2,000 万ドルからみてもはるかに低いもの
だった。
そうはいっても、e ディスカバリ市場の MT 成果物には大きな差があり、CJK 言語が抱え
る具体的な課題に対応できた例はほとんどないことに留意することは重要である。将来協
力することになる案件のデータと同様のデータについてサンプル翻訳を作成しない MT 業
者を雇うことのないようにすべきである。
アジア言語による e ディスカバリ事案から生じる難題は、広い範囲に及び内容もさまざ
まである。データの収集から審理まであらゆる手続段階に及んでおり、国、事案、当事者
によって異なる。
どのような事件でも、成功の鍵は、できるだけ早く適切なチームを結成することにある。
チームを構成するのは、e ディスカバリを行う国で確かな実務経験があり、言語問題への専
門的な対応に定評のある弁護士、ケース・マネージャー、言語専門家、ベンダーだ。■
John Tredennick は、e ディスカバリと複雑な訴訟案件の複数言語ドキュメントのレポジ
トリーとテクノロジーを国際的に提供している Catalyst Repository Systems の創業者で
CEO である。訴訟弁護士の経験があり、ベストセラーとなった書籍 Winning with Computers:
Trial Practice in the Twenty-First Century の編者でもある。[email protected]
W. Peter Cladouhos は、Paul Hastings LLP(法律事務所)全体のプラクティスサポート e
ディスカバリコンサルタントである。国際的な個人情報の保護とリスク管理プロジェクト
の運営管理を専門としている。[email protected]