Text Data Processing 言語リファレンスガイド ■ SAP BusinessObjects Data Services 4.1 (14.1.0) 2012-06-14 著作権 © 2012 SAP AG. All rights reserved.SAP、R/3、SAP NetWeaver、Duet、PartnerEdge、ByDesign、SAP BusinessObjects Explorer、StreamWork、SAP HANA、および本文書に記載されたその他の SAP 製品、 サービス、ならびにそれぞれのロゴは、ドイツおよびその他の国々における SAP AG の商標または登録 商標です。Business Objects および Business Objectsロゴ、BusinessObjects、Crystal Reports、Crystal Decisions、Web Intelligence、Xcelsius、および本書で引用されているその他のBusiness Objects 製品お よびサービス、ならびにそれぞれのロゴも含めて、Business Objects Software Ltd. の商標または登録商 標です。Business Objects は SAP の子会社です。Sybase および Adaptive Server、iAnywhere、Sybase 365、SQL Anywhere、および本書で引用されている Sybase 製品およびサービス、ならびにそれぞれの ロゴも含めて、Sybase, Inc. の商標または登録商標です。Sybase は SAP の子会社です。Crossgate、 m@gic EDDY、B2B 360°、B2B 360° Services は、ドイツおよびその他の国々における Crossgate AG の登録商標です。Crossgate は SAP の子会社です。本書に記載されたその他すべての製品およびサー ビス名は、それぞれの企業の商標です。本書に記載されたデータは情報提供のみを目的として提供され ています。製品仕様は、国ごとに変わる場合があります。これらの文書の内容は、予告なしに変更され ることがあります。これらの文書はSAP AGおよびその関連会社(「SAPグループ」)が情報提供のために のみ提供するもので、いかなる種類の表明および保証を伴うものではなく、SAPグループは文書に関す る誤記・脱落等の過失に対する責任を負うものではありません。SAPグループの製品およびサービスに 対する唯一の保証は、当該製品およびサービスに伴う明示的保証がある場合に、これに規定されたも のに限られます。本書のいかなる記述も、追加の保証となるものではありません。 2012-06-14 目次 3 第1章 はじめに....................................................................................................................................................................................9 1.1 1.1.1 1.1.2 1.1.3 1.1.4 1.2 1.2.1 1.2.2 SAP BusinessObjects Data Services へようこそ....................................................................................................9 第2章 言語分析および抽出の概要..........................................................................................................................................17 2.1 2.2 2.2.1 2.3 2.4 言語分析について.............................................................................................................................................................17 第3章 言語分析サポート..............................................................................................................................................................21 3.1 3.2 3.3 3.3.1 3.4 3.5 3.5.1 3.5.2 3.5.3 3.5.4 3.5.5 3.5.6 3.5.7 3.6 言語分析の言語機能マトリクス...................................................................................................................................22 ようこそ......................................................................................................................................................................................9 SAP BusinessObjects Data Services のドキュメントセット..................................................................................9 ドキュメントへのアクセス.................................................................................................................................................12 SAP BusinessObjects の情報リソース......................................................................................................................13 このガイドの概要................................................................................................................................................................14 このガイドについて ...........................................................................................................................................................15 このガイドの対象読者......................................................................................................................................................15 抽出について.......................................................................................................................................................................17 抽出のカスタマイズについて.........................................................................................................................................18 サポートされる言語モジュール.....................................................................................................................................19 特別な抽出コンテンツ......................................................................................................................................................20 セグメントの生成.................................................................................................................................................................25 単語のセグメンテーション...............................................................................................................................................25 スペース言語.......................................................................................................................................................................25 大文字小文字の正規化ルール....................................................................................................................................26 ステミング...............................................................................................................................................................................27 標準屈折ステミング...........................................................................................................................................................28 拡張屈折ステミング...........................................................................................................................................................29 屈折ステマー推測機能....................................................................................................................................................29 複合語のステミング...........................................................................................................................................................29 複合語非分割ステミング.................................................................................................................................................30 派生ステミング.....................................................................................................................................................................30 未知の単語のステミング.................................................................................................................................................30 品詞サポート........................................................................................................................................................................31 2012-06-14 目次 4 3.6.1 3.6.2 3.6.3 3.6.4 タグ名の仕様.......................................................................................................................................................................31 第4章 抽出サポート........................................................................................................................................................................33 4.1 4.1.1 4.2 4.3 4.4 4.4.1 4.4.2 エンティティとファクトの抽出..........................................................................................................................................33 第5章 言語モジュールリファレンス...........................................................................................................................................45 5.1 5.1.1 5.1.2 5.2 5.2.1 5.2.2 5.3 5.3.1 5.3.2 5.4 5.4.1 5.4.2 5.5 5.5.1 5.5.2 5.6 5.6.1 5.6.2 5.7 5.7.1 5.7.2 5.8 5.8.1 5.8.2 5.9 5.9.1 カタロニア語言語リファレンス.......................................................................................................................................45 検出されない単語..............................................................................................................................................................32 タグ付きステミング.............................................................................................................................................................32 単語の分割...........................................................................................................................................................................32 サブタイプ..............................................................................................................................................................................34 抽出リソースファイル........................................................................................................................................................34 言語モジュールの抽出サポートレベル.....................................................................................................................35 事前定義済みエンティティタイプのサポート...........................................................................................................37 名前付きエンティティ.........................................................................................................................................................37 名詞の一般表記.................................................................................................................................................................42 言語処理................................................................................................................................................................................45 抽出..........................................................................................................................................................................................54 簡体字中国語言語リファレンス....................................................................................................................................55 言語処理................................................................................................................................................................................55 抽出..........................................................................................................................................................................................60 繁体字中国語言語リファレンス....................................................................................................................................73 言語処理................................................................................................................................................................................73 抽出..........................................................................................................................................................................................79 クロアチア語言語リファレンス.......................................................................................................................................79 言語処理................................................................................................................................................................................79 抽出..........................................................................................................................................................................................84 チェコ語言語リファレンス................................................................................................................................................84 言語処理................................................................................................................................................................................84 抽出..........................................................................................................................................................................................90 デンマーク語言語リファレンス......................................................................................................................................91 言語処理................................................................................................................................................................................91 抽出..........................................................................................................................................................................................99 オランダ語言語リファレンス.........................................................................................................................................100 言語処理.............................................................................................................................................................................100 抽出.......................................................................................................................................................................................109 英語言語リファレンス.....................................................................................................................................................110 言語処理.............................................................................................................................................................................110 抽出.......................................................................................................................................................................................119 フランス語言語リファレンス.........................................................................................................................................135 言語処理.............................................................................................................................................................................136 2012-06-14 目次 5.9.2 5.10 5.10.1 5.10.2 5.11 5.11.1 5.11.2 5.12 5.12.1 5.12.2 5.13 5.13.1 5.13.2 5.14 5.14.1 5.14.2 5.15 5.15.1 5.15.2 5.16 5.16.1 5.16.2 5.17 5.17.1 5.17.2 5.18 5.18.1 5.18.2 5.19 5.19.1 5.19.2 5.20 5.20.1 5.20.2 5.21 5.21.1 5.21.2 5.22 5.22.1 5.22.2 5.23 5 抽出.......................................................................................................................................................................................144 ドイツ語言語リファレンス..............................................................................................................................................156 言語処理.............................................................................................................................................................................156 抽出.......................................................................................................................................................................................169 ギリシャ語言語リファレンス.........................................................................................................................................180 言語処理.............................................................................................................................................................................180 抽出.......................................................................................................................................................................................181 ハンガリー語言語リファレンス....................................................................................................................................181 言語処理.............................................................................................................................................................................181 抽出.......................................................................................................................................................................................184 イタリア語言語リファレンス..........................................................................................................................................184 言語処理.............................................................................................................................................................................184 抽出.......................................................................................................................................................................................193 日本語言語リファレンス................................................................................................................................................193 言語処理.............................................................................................................................................................................193 抽出.......................................................................................................................................................................................203 韓国語言語リファレンス................................................................................................................................................204 言語処理.............................................................................................................................................................................204 抽出.......................................................................................................................................................................................211 ノルウェー語: ブークモール語言語リファレンス..................................................................................................215 言語処理.............................................................................................................................................................................215 抽出.......................................................................................................................................................................................226 ノルウェー語: ニーノシク語言語リファレンス........................................................................................................227 言語処理.............................................................................................................................................................................227 抽出.......................................................................................................................................................................................237 ポーランド語言語リファレンス.....................................................................................................................................238 言語処理.............................................................................................................................................................................238 抽出.......................................................................................................................................................................................239 ポルトガル語言語リファレンス....................................................................................................................................239 言語処理.............................................................................................................................................................................239 抽出.......................................................................................................................................................................................248 ルーマニア語言語リファレンス...................................................................................................................................249 言語処理.............................................................................................................................................................................249 抽出.......................................................................................................................................................................................251 ロシア語言語リファレンス.............................................................................................................................................251 言語処理.............................................................................................................................................................................251 抽出.......................................................................................................................................................................................256 セルビア語言語リファレンス........................................................................................................................................260 言語処理.............................................................................................................................................................................261 抽出.......................................................................................................................................................................................266 スロバキア語言語リファレンス...................................................................................................................................266 2012-06-14 目次 6 5.23.1 5.23.2 5.24 5.24.1 5.24.2 5.25 5.25.1 5.25.2 5.26 5.26.1 5.26.2 5.27 5.27.1 5.27.2 5.28 5.28.1 5.28.2 言語処理.............................................................................................................................................................................266 第6章 カスタマの声コンテンツ.................................................................................................................................................315 6.1 6.1.1 6.1.2 6.1.3 6.1.4 6.2 6.2.1 6.2.2 6.2.3 6.2.4 感想の抽出........................................................................................................................................................................316 第7章 企業コンテンツ..................................................................................................................................................................325 7.1 7.2 7.3 7.4 7.5 メンバーシップ情報の抽出...........................................................................................................................................326 第8章 公共部門コンテンツ........................................................................................................................................................335 8.1 8.1.1 英語: 抽出される情報のタイプ .................................................................................................................................335 抽出.......................................................................................................................................................................................273 スロベニア語言語リファレンス....................................................................................................................................273 言語処理.............................................................................................................................................................................273 抽出.......................................................................................................................................................................................280 スペイン語言語リファレンス.........................................................................................................................................280 言語処理.............................................................................................................................................................................281 抽出.......................................................................................................................................................................................289 スウェーデン語言語リファレンス................................................................................................................................299 言語処理.............................................................................................................................................................................300 抽出.......................................................................................................................................................................................309 タイ語言語リファレンス..................................................................................................................................................309 言語処理.............................................................................................................................................................................309 抽出.......................................................................................................................................................................................311 トルコ語言語リファレンス..............................................................................................................................................311 言語処理.............................................................................................................................................................................311 抽出.......................................................................................................................................................................................312 英語: 感想の抽出例.......................................................................................................................................................317 フランス語: 感想の抽出例...........................................................................................................................................318 ドイツ語: 感想の抽出例................................................................................................................................................319 スペイン語: 感想の抽出例...........................................................................................................................................320 要求の抽出........................................................................................................................................................................321 英語: 要求の抽出例.......................................................................................................................................................322 フランス語: 要求の抽出例...........................................................................................................................................322 ドイツ語: 要求の抽出例................................................................................................................................................323 スペイン語: 要求の抽出例...........................................................................................................................................323 管理の変更イベントの抽出.........................................................................................................................................327 製品リリースイベントの抽出........................................................................................................................................330 吸収合併情報の抽出.....................................................................................................................................................330 組織情報の抽出...............................................................................................................................................................331 公共部門コンテンツのルールセット - 英語..........................................................................................................336 2012-06-14 目次 8.1.2 8.1.3 8.1.4 8.1.5 8.1.6 8.1.7 8.1.8 8.1.9 8.1.10 8.1.11 8.2 8.2.1 公共部門コンテンツエンティティ - 英語.................................................................................................................337 アクションイベントの抽出..............................................................................................................................................342 旅行イベントの抽出........................................................................................................................................................349 軍隊の抽出........................................................................................................................................................................357 組織情報の抽出...............................................................................................................................................................358 個人のエイリアスの抽出..............................................................................................................................................360 個人の外見に関する情報の抽出.............................................................................................................................363 個人の属性に関する情報の抽出.............................................................................................................................364 個人の関係に関する情報の抽出.............................................................................................................................367 空間参照の抽出...............................................................................................................................................................369 簡体字中国語: 抽出される情報のタイプ...............................................................................................................370 公共部門エンティティ - 簡体字中国語...................................................................................................................370 索引 7 375 2012-06-14 はじめに はじめに 1.1 SAP BusinessObjects Data Services へようこそ 1.1.1 ようこそ SAP BusinessObjects Data Services は、データ統合、データ品質、データプロファイル、およびテキストデータ 処理のための単一のエンタープライズクラスソリューションです。これにより、信頼できるデータを重要なビジネ スプロセスに統合、変換、強化、配信できるようになります。SAP BusinessObjects Data Services では、単一の 開発 UI、メタデータリポジトリ、データ接続レイヤ、ランタイム環境、および管理コンソールを提供するため、IT 企業は総所有コストを低減し、価値を生み出すための時間を加速させることができます。SAP BusinessObjects Data Services を使用することで、データ品質が向上し、異なるソースやアプリケーションにアクセスできるため、 IT 企業は単一ソリューションを使用して業務効率を最大化できます。 1.1.2 SAP BusinessObjects Data Services のドキュメントセット SAP BusinessObjects Data Services 製品に関連するすべてのドキュメントに目を通す必要があります。 9 ドキュメント ドキュメントの内容 『管理者ガイド 』 監視、ライフサイクルマネジメント、セキュリティなどの管理タスクに 関する情報。 『修正されたカスタマの問題 』 このリリースで修正されたカスタマの問題に関する情報。 『Designer ガイド 』 SAP BusinessObjects Data Services Designer の使用方法に関す る情報。 『Documentation Map 』 使用可能な SAP BusinessObjects Data Services マニュアル、言 語、および場所に関する情報。 2012-06-14 はじめに ドキュメント ドキュメントの内容 『インストールガイド(Windows 版) 』 SAP BusinessObjects Data Services を Windows 環境にインストー ルする際の概要と手順に関する情報。 『インストールガイド(UNIX 版) 』 SAP BusinessObjects Data Services を UNIX 環境にインストール する際の概要と手順に関する情報。 『Integrator's Guide 』 Web サービスおよび API を使用して SAP BusinessObjects Data Services 機能にアクセスするサードパーティの開発者向けの情報。 『Management Console ガイド 』 SAP BusinessObjects Data Services アドミニストレータおよび SAP BusinessObjects Data Services メタデータレポートの使用方法に 関する情報。 『パフォーマンスの最適化ガイド 』 SAP BusinessObjects Data Services のパフォーマンスを向上させ る方法に関する情報。 『リファレンス ガイド 』 SAP BusinessObjects Data Services Designer の詳細なリファレン ス資料。 『Release Notes 』 このバージョンの SAP BusinessObjects Data Services をインストー ルおよびデプロイする前に必要な重要な情報。 『技術マニュアル 』 検索可能な総合目次と総合索引を含む SAP BusinessObjects Data Services の主要ガイドをまとめたマスタ PDF。 • 『管理者ガイド 』 • 『Designer ガイド 』 • 『リファレンスガイド 』 • 『管理コンソールガイド 』 • 『パフォーマンスの最適化ガイド 』 • 『追加情報(J. D. Edwards 対象) 』 • 『追加情報(Oracle Applications 対象) 』 • 『追加情報(PeopleSoft 対象) 』 • 『追加情報 (Salesforce.com 対象) 』 • 『追加情報(Siebel 対象) 』 • 『追加情報(SAP 対象) 』 『テキストデータ処理抽出カスタマイゼーションガ イド 』 Text Data Processing トランスフォームで使用する独自の抽出パ ターンを作成するための辞書および抽出ルールの構築に関する 情報。 『テキストデータ処理言語リファレンスガイド 』 テキストデータ処理コンポーネントが提供する言語分析機能およ び抽出処理機能に関する情報と、サポートされる各言語の参照セ クション。 『チュートリアル 』 SAP BusinessObjects Data Services の使用方法手順の紹介。 10 2012-06-14 はじめに ドキュメント ドキュメントの内容 『アップグレードガイド 』 以前の SAP BusinessObjects Data Services バージョンから最新 のリリースに至るまでのリリースごとの動作の変化。また、このマニュ アルには SAP BusinessObjects Data Quality Management から SAP BusinessObjects Data Services への移行方法に関する情報 も含まれています。 『新機能 』 この SAP BusinessObjects Data Services リリースでの主要な新機 能の紹介。このドキュメントでは、サポートパッケージまたはパッチ リリースに対する更新は行われません。 また、いくつかのアダプタ ガイドや追加情報も参照する必要がある場合があります。 ドキュメント ドキュメントの内容 『追加情報(J. D. Edwards 対象) 』 SAP BusinessObjects Data Services、J.D. Edwards World、および J.D. Edwards OneWorld 間のインタフェースに関する情報。 『追加情報(Oracle Applications 対象) 』 SAP BusinessObjects Data Services と Oracle Applications 間のインタフェースに 関する情報。 『追加情報(PeopleSoft 対象) 』 SAP BusinessObjects Data Services と PeopleSoft 間のインタフェースに関する情 報。 『追加情報 (Salesforce.com 対象) 』 SAP BusinessObjects Data Services Salesforce.com Adapter インタフェースのイ ンストール、設定、使用方法に関する情報。 『追加情報(SAP 対象) 』 SAP BusinessObjects Data Services、SAP アプリケーション、および SAP NetWeaver BW 間のインタフェースに関する情報。 『追加情報(Siebel 対象) 』 SAP BusinessObjects Data Services と Siebel 間のインタフェースに関する情報。 これらのマニュアルには、SAP BusinessObjects 情報プラットフォームサービスに関する情報も記載されていま す。 ドキュメント ドキュメントの内容 『情報プラットフォームサービス管理者ガイド 』 インストールした情報プラットフォームサービスの設定、管 理、およびメンテナンスを担当する管理者向けの情報。 『SAP BusinessObjects Enterprise インストールガイド (UNIX 版) 』 SAP BusinessObjects 情報プラットフォームサービスの UNIX 環境へのインストール手順。 『情報プラットフォームサービスインストールガイド (Windows 版) 』 SAP BusinessObjects 情報プラットフォームサービスの Windows 環境へのインストール手順。 11 2012-06-14 はじめに 1.1.3 ドキュメントへのアクセス SAP BusinessObjects Data Services の完全なドキュメントセットには、いくつかの場所からアクセスできます。 1.1.3.1 Windows でのドキュメントへのアクセス SAP BusinessObjects Data Services をインストールした後に、[スタート] メニューからドキュメントにアクセスでき ます。 1 [スタート] > [プログラム] > [SAP BusinessObjects Data Services XI 4.0] > [Data Services ドキュメンテーショ ン] を選択します。 注 [スタート]メニューからアクセスできるのは、ドキュメントのサブセットだけです。このリリースのドキュメントセッ トは、<LINK_DIR>\Doc\Books\en に保存されています。 2 表示するドキュメントに対応するショートカットをクリックしてください。 1.1.3.2 UNIX でのドキュメントへのアクセス SAP BusinessObjects Data Services をインストールした後に、印刷可能な PDF ファイルがインストールされて いるディレクトリに移動して、オンラインドキュメントにアクセスできます。 1 <LINK_DIR>/doc/book/en/ に移動します。 2 Adobe Reader を使用して、表示するドキュメントの PDF ファイルを開きます。 1.1.3.3 Web からのドキュメントへのアクセス SAP BusinessObjects Data Services の完全なドキュメントセットには、SAP BusinessObjects ビジネスユーザサ ポートサイトからアクセスできます。 1 http://help.sap.com をご覧ください。 2 そのページの一番上にある [SAP BusinessObjects] をクリックします。 3 左側のナビゲーションペインで [All Products] をクリックします。 PDF はオンラインで表示することも、コンピュータに保存することもできます。 12 2012-06-14 はじめに 1.1.4 SAP BusinessObjects の情報リソース 情報管理から最大の利益を得られるよう、SAP BusinessObjects テクノロジーのエキスパートで構成されるグロー バルネットワークがカスタマサポート、研修、コンサルティングを提供しています。 役に立つアドレスの一覧を次に示します。 13 2012-06-14 はじめに 住所 記載されている情報 カスタマサポート、コンサルティング、および教育 サービス SAP ビジネスユーザサポートプログラムに関する情報、 およびテクニカル記事、ダウンロード、オンラインフォーラ ムへのリンク。コンサルティングサービスは、SAP BusinessObjects を使って情報管理投資を最大限に活用するた めの情報を提供できます。教育サービスは、トレーニング オプションとモジュールに関する情報を提供できます。 SAP BusinessObjects では、従来のクラス型の学習から 目標を定めた e-learning セミナーまで、学習ニーズや好 みの学習スタイルに合わせたトレーニングパッケージを 提供しています。 http://service.sap.com/ SAP BusinessObjects Data Services コミュニティ http://www.sdn.sap.com/irj/sdn/ds SCN (SAP Community Network) 上のフォーラム http://forums.sdn.sap.com/forum.jspa?foru mID=305 ブループリント http://www.sdn.sap.com/irj/boc/blueprints 製品マニュアル ヒント、追加ダウンロード、サンプルなど多数の SAP BusinessObjects Data Services に関する情報をオンライ ンでタイムリーに入手できます。コミュニティではあらゆる 内容がやりとりされているため、気軽に参加して、提案が あれば弊社に連絡してください。 SAP Community Network 上の SAP BusinessObjects フォーラムを検索して、ほかの SAP BusinessObjects Data Services ユーザから学んで質問の投稿を開始したり、自 分の知識をコミュニティで共有したりできます。 ニーズに合わせてダウンロードおよび変更するためのブ ループリント。各ブループリントには、いくつかの変更だ けを加えて独自の環境でデータフローを実行するために 必要な SAP BusinessObjects Data Services プロジェク ト、ジョブ、データフロー、ファイル形式、サンプルデータ、 テンプレートテーブル、およびカスタム関数が含まれてい ます。 SAP BusinessObjects 製品マニュアル。 http://help.sap.com/businessobjects/ サポートされるプラットフォーム (製品出荷マトリック SAP BusinessObjects Data Services でサポートされるプ ス) ラットフォームに関する情報を入手できます。 https://service.sap.com/PAM 検索機能を使用して Data Services を検索できます。検 索する Data Services のバージョンのリンクをクリックしま す。 1.2 このガイドの概要 『言語リファレンスガイド 』へようこそ。 14 2012-06-14 はじめに SAP BusinessObjects Data Services のテキストデータ処理ソフトウェアでは、構造化されていないテキストから、 コンテンツの言語分析と抽出を実行できます。 言語分析には、セグメンテーション、ステミング、タグ設定などの多くの自然言語処理 (NLP) 能力があります。 抽出は、複数言語で記述された、すべてのテキストデータソースから、構造化されていないテキストを分析しま す。また、テキストから、人、日付、場所、組織などの情報を含むキーエンティティタイプを自動的に識別して抽 出します。 1.2.1 このガイドについて このガイドには、次の 2 種類の情報が記載されています。 • このソフトウェアが提供する、言語分析と抽出機能に関する概要と概念情報。 • このソフトウェアがサポートする各言語のリファレンスの節。ここでは、言語分析中および抽出中の、サポー トされる言語モジュールの動作が説明されています。 1.2.2 このガイドの対象読者 このガイドのユーザは、自分のテキスト分析アプリケーションの抽出を拡張する必要があり、テキストデータ処理 の抽出概念を理解している必要があるかもしれません。ただし、ソフトウェアで処理しようとしているテキストの自 然言語を理解し、またはこれに精通している必要はありません。同様に、言語の法則に精通している必要もあ りません。このドキュメントは、次のことを前提としています。 15 • ユーザは、テキストデータ処理の抽出の拡張に従事するアプリケーション開発者、またはコンサルタントで ある。 • ユーザは、所属する組織のテキストデータ処理の抽出ニーズについて把握している。 2012-06-14 言語分析および抽出の概要 言語分析および抽出の概要 このソフトウェアには、言語をサポートするための言語モジュールが含まれます。各言語モジュールには、単語 が格納されているシステム辞書から成るファイルセットがあり、任意の自然言語の言語処理操作をサポートしま す。言語モジュールによって、任意の言語の構造化されていないテキストの言語分析と抽出が可能になります。 言語モジュールは次の言語処理テクノロジーを使用します。 • 言語分析 (自然言語処理を行います) • 抽出 (エンティティの抽出を行います) 関連項目 • 21 ページの「言語分析サポート」 • 33 ページの「抽出サポート」 2.1 言語分析について このソフトウェアには、構造化されていないデータの言語分析用に、各種の高度な自然言語処理能力があり、 使用されています。これらの能力には次のものが含まれます: • セグメンテーション - 入力テキストの複数要素への分離 • ステミング - 単語のステム、または辞書形式の識別 • タグ設定 - 単語の品詞ラベル付け 関連項目 • 21 ページの「言語分析サポート」 • 45 ページの「言語モジュールリファレンス」 2.2 抽出について 抽出は、構造化されていないテキストに出現する、特定のエンティティとファクトを発見して表示するプロセスで す。 17 2012-06-14 言語分析および抽出の概要 • エンティティは、テキストから抽出することのできる、人、場所、物、日付、値などを表します。エンティティは、 標準形式とタイプを組み合わせて定義されます。たとえば Winston Churchill/PERSON は、標準形式が Winston Churchill、タイプが PERSON のエンティティです。 • ファクトは、抽出プロセス中に検出されたエンティティで、関係、イベント、感想、または要求を表します。ファ クトは、情報を抽出するのに使用される表現を定義するパターンで構成される、抽出ルールに基づいて抽 出されます。たとえば、特別なカスタマの声コンテンツには、感想と要求を表現するファクトを抽出できるルー ルがあります。 このソフトウェアに含まれる言語モジュールには、システム辞書が含まれ、事前定義済みエンティティタイプの 豊富なセットがあります。抽出プロセスでは、これらの特定のエンティティリストを使用して、エンティティを抽出 できます。また、言語モデルを使用して新しいエンティティを発見できます。抽出では、抽出されたエンティティ それぞれを、エンティティタイプで分類し、このメタデータを正規化された形式で表示します。 関連項目 • 33 ページの「抽出サポート」 • 37 ページの「事前定義済みエンティティタイプのサポート」 • 18 ページの「抽出のカスタマイズについて」 • 19 ページの「サポートされる言語モジュール」 • 45 ページの「言語モジュールリファレンス」 • 20 ページの「特別な抽出コンテンツ」 2.2.1 抽出のカスタマイズについて 次のものを作成および使用することによって、抽出プロセスを拡張できます: • エンティティに関する情報を含む辞書。アプリケーションが検出する必要のあるエンティティに関する情報 をカスタマイズできます。 • 抽出ルール。 抽出の拡張の詳細については、 『SAP BusinessObjects Data Services Text Data Processing 抽出カスタマイ ゼーションガイド 』を参照してください。 特定の言語モジュールでは、これらの言語モジュールに含まれる特別な抽出コンテンツを使用して、抽出を拡 張することもできます。 関連項目 • 20 ページの「特別な抽出コンテンツ」 18 2012-06-14 言語分析および抽出の概要 2.3 サポートされる言語モジュール このソフトウェアが提供する言語モジュールは、いずれも言語分析をサポートします。これらの言語モジュール のサブセットは、事前定義済みエンティティ抽出もサポートします。 言語分析および事前定義済みエンティティ抽出をサポートする言語モジュール: • アラビア語 • 中国語 (簡体字) • 英語 • ファルシ語 • フランス語 • ドイツ語 • 韓国語 • ロシア語 • スペイン語 言語分析をサポートする言語モジュール: • カタロニア語 • 中国語 (繁体字) • クロアチア語 • チェコ語 • デンマーク語 • オランダ語 • イタリア語 • 日本語 • ノルウェーブークモール語 • ノルウェーニーノシク語 • ポルトガル語 • セルビア語 • スロバキア語 • スロベニア語 • スウェーデン語 基本言語分析をサポートする言語モジュール: • ギリシャ語 • ヘブライ語 • ハンガリー語 • ポーランド語 • ルーマニア語 • タイ語 • トルコ語 19 2012-06-14 言語分析および抽出の概要 注 言語分析および抽出のすべての機能が、すべての言語でサポートされるわけではありません。 関連項目 • 22 ページの「言語分析の言語機能マトリクス」 • 35 ページの「言語モジュールの抽出サポートレベル」 • 45 ページの「言語モジュールリファレンス」 2.4 特別な抽出コンテンツ 特定の言語モジュールには、特定のニーズに対応するルールセットとエンティティタイプを提供する、特別なコ ンテンツが含まれます。 特別な抽出コンテンツ 説明 対応する言語モジュール 英語 カスタマの声 カスタマのニーズ (要求)、意見、 および問題 (感想) に関する特定 の情報を抽出します。 フランス語 ドイツ語 スペイン語 企業 管理の変更や製品リリースなどの 企業固有の情報を抽出します。 公共部門 イベントや関係などの公共部門固 有の情報を抽出します。 英語 アラビア語 英語 簡体字中国語 関連項目 • 325 ページの「企業コンテンツ」 • 335 ページの「 公共部門コンテンツ」 • 315 ページの「カスタマの声コンテンツ」 20 2012-06-14 言語分析サポート 言語分析サポート このソフトウェアには、構造化されていないデータの多言語自然言語処理 (NLP) のために、次の言語分析機 能があり、使用されています。 機能 説明 言語およびエンコードの識別 入力言語 (フランス語、日本語など)、およびさまざま な文字エンコード (Unicode UTF-8、Code Page 1252 など) を自動認識します。 セグメントの生成 より効率よく処理するために、入力テキストを、1 つ以 上の完全な段落から成るセグメントに分割します。 単語のセグメンテーション 入力テキストを、単語や区切り記号などの、複数の要 素に分割します。 大文字小文字の正規化 単語の最初の文字を大文字または小文字に正規化 します。表題や見出しの大文字表記など、ドキュメン トの構造に関係する大文字小文字の変更を中和す るのに使用されます。 ステミング テキストまたは単語の、ステム (辞書形式) を識別し ます。 タグ設定 名詞や動詞など、単語の品詞をラベル付けします。 ドキュメント分析 ドキュメントの主要なセクション (段落や文) を認識し ます。 タグ付きステミング 任意の品詞の単語のステムを識別します。 注 すべての操作が、すべての言語でサポートされるわけではありません。 21 2012-06-14 言語分析サポート 関連項目 • 22 ページの「言語分析の言語機能マトリクス」 • 25 ページの「セグメントの生成」 • 25 ページの「単語のセグメンテーション」 • 26 ページの「大文字小文字の正規化ルール」 • 27 ページの「ステミング」 • 31 ページの「品詞サポート」 • 32 ページの「タグ付きステミング」 • 45 ページの「言語モジュールリファレンス」 3.1 言語分析の言語機能マトリクス 言語分析には、次の 2 つのレベルの言語サポートがあります。 • 基本 - タグ設定はサポートされません • 標準 - タグ設定がサポートされます 次の表に、各自然言語のサポートされる機能それぞれのステータスを示します。 22 言語 複合語ユ ニット 単語のセグ メンテーショ ン アラビア語 ○ カタロニア語 ○ 屈折ステミン グ タグ設定 タグ付きステ ミング ○ ○ ○ ○ ○ ○ ○ ○ 複合語 簡体字中国語 ○ ○* ○** ○ ○ 繁体字中国語 ○ ○* ○** ○ ○ クロアチア語 ○ ○ ○ ○ ○ チェコ語 ○ ○ ○ ○ ○ デンマーク語 ○ ○ ○ ○ ○ 2012-06-14 言語分析サポート 言語 複合語ユ ニット 単語のセグ メンテーショ ン 複合語 屈折ステミン グ タグ設定 タグ付きステ ミング オランダ語 ○ ○ ○ ○ ○ ○ 英語 ○ ○ ○*** ○ ○ ファルシ語 ○ ○ ○ ○ ○ フランス語 ○ ○ ○ ○ ○ ○ ○ ○ ○ ヘブライ語 23 ドイツ語 ○ ○ ○ ○ ギリシャ語 ○ ○ ○ ハンガリー語 ○ ○ ○ イタリア語 ○ ○ ○ ○ ○ 日本語 ○ ○* ○ ○ ○ 韓国語 ○ ○* ○ ○ ○ ノルウェー語: ブークモール 語 ○ ○ ○ ○ ○ ノルウェー語: ニーノシク語 ○ ○ ○ ○ ○ ポーランド語 ○ ○ ○ ポルトガル語 ○ ○ ○ ○ ○ ルーマニア語 ○ ○ ○ 2012-06-14 言語分析サポート 言語 複合語ユ ニット 単語のセグ メンテーショ ン ロシア語 ○ セルビア語 屈折ステミン グ タグ設定 タグ付きステ ミング ○ ○ ○ ○ ○ ○ ○ ○ ○ スロバキア語 ○ ○ ○ ○ ○ スロベニア語 ○ ○ ○ ○ ○ スペイン語 ○ ○ ○ ○ ○ スウェーデン語 ○ ○ ○ ○ ○ タイ語 トルコ語 ○ 複合語 ○ ○ ○ ○ ○ • * 複合語分析は、その言語の拡張言語モジュールでサポートされます。 • ** 中国語は屈折しないため、すべての中国語の単語のステムはソースの形式とまったく同じです。そのた め、中国語ではステミングはサポートされません。 • *** 英語のみ、派生ステミングもサポートされます。 関連項目 • 25 ページの「複合語ユニット」 • 25 ページの「単語のセグメンテーション」 • 27 ページの「ステミング」 • 29 ページの「複合語のステミング」 • 29 ページの「拡張屈折ステミング」 • 30 ページの「派生ステミング」 • 31 ページの「品詞サポート」 • 32 ページの「タグ付きステミング」 • 45 ページの「言語モジュールリファレンス」 24 2012-06-14 言語分析サポート 3.2 セグメントの生成 構造化されていないテキストの分析中、複数のテキスト処理オブジェクトがデータストリームの 1 つのセグメント を同時に操作します。セグメントは、テキストの小さなユニットで、1 つまたは複数の完全な段落を含みます。言 語分析操作は、入力ストリームを複数のチャンクに分解します。データストリームをチャンキングすることをセグ メントの生成といいます。 セグメントの生成には、入力テキストをバイトストリームとして読み込むステップと、それをセグメントに分割するス テップがあります。生成されるセグメントには、コンテキストのテキストに関するメタデータマークアップが含まれ ます。これらのセグメントはこの後で、単語、文、段落を抽出する詳細な言語分析のために、渡されます。 3.3 単語のセグメンテーション 単語のセグメンテーション操作は、基本的な単語分割を実行します。テキストを、単語や区切り記号などの、意 味のある最小の構文ユニットに分割します。単語のセグメンテーション機能では、"case in point" や "out-of-the-box" などの慣用句も識別されます。慣用句は 1 つのユニットまたは単語として処理されます。ハ イフンで接続された複数の単語は構文ユニットなので、分割されません。ただし、短縮形 (don't など) および 省略形 (l'abri など) は、それらの構文ユニットに分離されます。 3.3.1 スペース言語 スペース言語は、単語の境界をスペースと区切り記号でマークします。このグループには、ヨーロッパ、バルカ ン、中東の各種言語および韓国語が含まれます。区切り記号は、文末をマークすることがあります。この場合、 これらが文の検出に使用されます。 非スペース言語には、中国の 2 つの言語、日本語、およびタイ語があり、CCJT と略されます。CCJT 言語に おける単語のセグメンテーションでは、その構造のため、少し異なるアルゴリズムが使用されます。これらの言 語で単語のセグメンテーションを実行するには、完全に形態論的な分析が必要なため、単語のセグメンテー ション、ステミング、および品詞タグ設定操作が 1 つのステップで実行されます。 3.3.1.1 複合語ユニット デフォルトでは、複合語ユニットは 1 つのユニットとしてセグメンテーションされます。たとえば、"to and fro" や "Buenos Aires" はそれぞれ 1 つのユニットとしてセグメンテーションされます。ただし、この動作を機能させな 25 2012-06-14 言語分析サポート いようにできます。その場合、複合語ユニットは個々のコンポーネントに分割されます。たとえば、"to and fro" は、1 つではなく 3 つのユニットにセグメンテーションされます。 3.3.1.2 区切り記号 単語のセグメンテーション機能では、通常、区切り記号は別のユニットとして分割されます。これには、ピリオド、 カンマ、文末を示す区切り記号、およびさまざまな引用符が含まれます。 次の表に、区切り記号に関連するセグメンテーションの仕様をまとめます。 空白以外 区切り記号の後に、空白ではなく文字が続く場合、 区切り記号は前後の単語から分割されません。例: "filename.filetype" は "filename.filetype" としてセグ メンテーションされます。 省略形 ピリオドで終わる省略形は、区切り記号を語から分割 する一般ルールの重要な例外で、このピリオドは単 語に付いたまま保持されます。 アポストロフィ アポストロフィを使用して記述された短縮形 (英語の can't、don't など) は、言語固有のルールで処理され ます。 ハイフン 埋め込まれたハイフン、および末尾のハイフンは、単 語から分割されません。先頭のハイフンは、数字表 現の前では分割されません。たとえば -1000 は 1 つ のユニットとしてセグメンテーションされます。 3.4 大文字小文字の正規化ルール 大文字小文字の正規化では、単語の代わりに大文字小文字を正規化した代替語を提供します。単語は、文 中での位置によって、または表題に含まれるために、本来の意味のある大文字表記である場合も、そうでない 場合もあります。たとえば、SAP のような固有名詞は常に大文字で記述されますが、horse のような普通名詞 は、文頭にあるか表題に含まれる場合にのみ大文字ではじまります。そのため、Horse が出現すると、大文字 小文字ノーマライザでは、小文字表記の代替語を提供して、後続の処理で誤って Horse が固有名詞とされな いようにします。その後で、提供された 2 つの代替語が、ステミングおよびタグ設定操作に渡されます。 26 2012-06-14 言語分析サポート 注 大文字小文字の正規化は、CCJT 言語、アラビア語、韓国語、ファルシ語、ヘブライ語などの、大文字と小文 字を区別しない言語には関係ありません。 大文字小文字の正規化は、文のタイプ (通常の文、表題、クエリ) と、それぞれの文タイプでの正規化される単 語の位置に依存します。考慮する重要な位置は、文頭です。ここは、特別な正規化ルールが割り当てられる可 能性があります。特定の区切り記号直後の単語も、文頭にあるとして扱われます。 • 表題文 大文字ではじまるすべての単語が正規化されます。たとえば、新聞の見出しは次のように正規化されます。 • • Cardinals Strike Out( Cardinals | cardinals ) ( Strike | strike ) (Out | out ) クエリ文 小文字の単語は大文字のバリアントに正規化されます。クエリ文では、大文字ではじまる単語、およびすべ て大文字の単語は正規化されません。 • • aaaa: aaaa, Aaaa, AAAA • aaaA: aaaA, AaaA 普通文 大文字ではじまる単語は、文頭に出現したときに正規化されます。文頭にあるすべて大文字の単語も、正 規化されます。普通文の他の位置にある場合、大文字ではじまる単語、およびすべて大文字の単語は正 規化されません。例: • Aaaa bbb Cccc:(Aaaa | aaaa) (bbb) (Cccc) • AAAA bbb CCCC: (AAAA | Aaaa | aaaa) (bbb) (CCCC) 3.5 ステミング speaks、speaking などの単語は、1 つのステム (speak) を持ちます。いくつかの単語は、複数のステムの候 補を持ちます。たとえば spoke は、コンテキスト内で動詞 speak の過去形であると判明することもありますが、 名詞 spoke の単数形である可能性もあります。ステムは、テキスト内の 1 つ以上のバリアント (ソース) 形式の 基本形であり、辞書で参照される形式です。 単語のステミングとは、そのステムを検出して返すことを意味します。たとえば、grind、grinds、grinding、ground などを重複して扱うより、これらのソース形式すべてを grind という 1 つの動詞のバリアントとして認識すること ができます。Ground は、動詞 grind とはまったく関係がない意味を持つ名詞である可能性もあります。 含まれるキーワードに従ってインデックス化したドキュメントの例をみると、より抽象的な形式を扱う利点をよく理 解できます。単純にインデックス化してしまうと、grind、grinds、grinding、ground は無関係な単語として処理 され、これらのバリアントの 1 つを含むクエリでは、他のバリアントを含むドキュメントが返されません。しかし、ス テム機能を使用すれば、すべてのバリアントが grind (動詞) という基本形の下にインデックス化されます。 27 2012-06-14 言語分析サポート このソフトウェアが使用するステム機能は、一連の構文ユニットの入力 (ground など) を受け取り、各ユニット に、1 つ以上の基本形 (ground、grind など) を関連付けます。ステム機能は常に、入力された語それぞれに ついて、可能性のある代替ステムすべてを返します。 このソフトウェアでは、標準屈折ステミングと派生ステミングが区別されます。ステム機能は、デフォルトで屈折 型です。派生ステム機能は、それ自体として示されます。 屈折ステミングは、すべてのサポート言語にあります。現時点では、派生ステミングは英語でのみサポートされ ます。 いくつかの言語には、標準屈折ステム機能と、入力テキストのバリエーションについてより寛容な拡張屈折ステ ム機能という、2 つの屈折ステム機能があります。 ステム機能は、次のステミング操作の異なるバリアントをサポートします。 • 標準バリアントは、入力に対して、可能性のある正規化されたステムすべてを返します。また、ドイツ語のよ うな言語では複合語分析も実行されます。この処理では、複合語が複数のコンポーネントパーツに分割さ れます。 • 拡張バリアントは、標準バリアントと同じ正規化に対応しますが、非公式なテキストにみられる、大文字表記、 アクセント符号の付加、類似の機能に関してより多くのバリエーションを許容することによって、再現率を重 視しすぎる傾向があります。 • ドイツ語では、非分割ステム機能で、複合語を別々のステムに分割しない複合語のステミングをサポートし、 閲覧しやすさを向上させています。 • 英語では、派生バリアントで、形態論的な派生語のルートステムを提供します。 関連項目 • 28 ページの「標準屈折ステミング」 • 29 ページの「拡張屈折ステミング」 • 30 ページの「派生ステミング」 3.5.1 標準屈折ステミング 屈折ステミングでは、単語は品詞 (名詞、動詞など) の原型を保持します。たとえば、speaks、speaking という 動詞の形式では、人称 (一人称、二人称、三人称)、数 (単数、複数)、時制 (現在、過去、未来)、相 (進行形) などの文法上の機能に関係して、複数の変化が同時に発生しているときにも、speak のような基本形の動詞が 保持されます。 次に、追加の例を示します。 28 例 ステム処理後 {aller, vais, vas, va, allons, allez, vont} [French] aller 2012-06-14 言語分析サポート 例 ステム処理後 {reach, reaches, reached, reaching} reach {big, bigger, biggest} big {balloon, balloons} balloon {go, goes, going, gone, went} go 太字の単語がステム (辞書形式) です。ステムに追加された文字 (reaches の es、balloons の s) を屈折また は接辞といいます。 新語などの未知の単語を処理するために、標準ステム機能には、単語に適用する形態規則セットがあります。 3.5.2 拡張屈折ステミング 拡張屈折ステミングの辞書には、標準ステム機能と同等の機能と、それより上位の機能があります。拡張屈折 ステム機能では、標準形式だけでなく、特定の非標準の単語形式 (大文字表記のエラーなど) も許容されま す。このため、電子メール、オンラインドキュメント、クエリなどの、非公式なテキストや不完全なテキストを処理 するのに使用できます。処理するバリエーションには、大文字小文字のバリエーション、ハイフン接続、アクセ ント記号のない文字などがあります。CCJT 言語の拡張バリアントは、インデックス生成に適した、より詳細なス テミング結果を得るために設計されています。 3.5.3 屈折ステマー推測機能 屈折ステマー推測機能には、形態規則が含まれます。この規則は、標準または拡張屈折ステム機能にとって 未知であるため、ステム処理できない構文ユニットに適用できます。このソフトウェアでは、英語、フランス語、ド イツ語、およびスペイン語に屈折ステマー推測機能があります。 3.5.4 複合語のステミング 29 2012-06-14 言語分析サポート bookmark、birdbath などの複合語は、複数の単語が結合、または連結されてできています。ドイツ語は特に その複合語で有名です。たとえば、Bildung (education) と Roman (novel) から Bildungsroman、Welt (world) と Anschauung (view) から Weltanschauung などがあります。 このソフトウェアでは、ドイツ語の複合語分析を実行します。ドイツ語では、複合語は常に複数のコンポーネン トステムに分割されます。 3.5.5 複合語非分割ステミング ドイツ語言語モジュールには、ステム機能で複合語の分割を実行しない、非分割ステム機能バリアントがありま す。このステム機能は、複合語の主要語をステム処理しますが、複合語を複数のステムに分割しません。たと えば、複数形の複合語 Bildungsromane は、Bildungsroman にステム処理されますが、複数のコンポーネン トステムに分割されません。返されるステムは、常に 1 つの語で、複合語の境界マーカーがついていないため、 分割できません。 複数の代替ステムの可能性がある場合、標準ステム機能でも拡張ステム機能でも、複数のステムが返されるこ とがあります。 3.5.6 派生ステミング 派生ステミングでは、単語とステムが同じ品詞を持つ場合と、そうでない場合があります。名詞が動詞ステムか ら派生する場合 (participation と participate など) や、形容詞が名詞から派生する場合 (boyish と boy など) があります。次に、より派生的な例を示します。 • introduce から {introduction, introductory, introducer} • category から {subcategory, categorize, categorization} • use から {useful, usable, unusable} • enlist から {reenlist} 派生ステミングは、現在英語でのみサポートされます。 3.5.7 未知の単語のステミング ステム機能では、言語の標準的な単語すべてのステムが識別されます。ただし、システム辞書で検出できない ものなど、未知の単語にはステムがありません。通常、ステム機能は入力語をステムそのものとして返します。 複雑にする要因があるとすると、それは、大文字小文字の正規化が行われるため、任意の単語に対して複数 30 2012-06-14 言語分析サポート のバリアント語がステム機能に入力される可能性があることです。つまり、1 つのバリアントは検出されても、他 は検出されないことがあります。デフォルトでは、ステム機能は検出された語のステムを返し、検出されなかった 語を結果から削除します。 たとえば、文頭の Dogs という単語が、離接 (Dogs | dogs) として正規化されることがあります。このような場合、 ステム機能は両方の離接メンバー (Dogs と dogs の両方) を検討します。小文字の dogs がステム処理の辞書 にあり、大文字ではじまる Dogs はないと仮定します。Dogs は辞書にないので (そのため未知の単語と考えら れるので)、Dogs のままステム処理されます。dogs は辞書にあるので、dog にステム処理されます。デフォルト では、ステム機能は未知の単語 Dogs を破棄し、dog を検出されたバリアントのステムとして返します。これはデ フォルトの動作です。 大文字小文字が正規化されたバリアントが検出されなかった場合、ステム機能は大文字小文字が正規化され たすべてのバリアントを返します。たとえば、入力文が Fbzzz という未知の単語ではじまるとします。大文字小 文字ノーマライザは、離接 (Fbzzz | fbzzz) を返します。ステム機能は、辞書にある語を 1 つも検出しないので、 両方の形式をステムとして返します。 関連項目 • 26 ページの「大文字小文字の正規化ルール」 3.6 品詞サポート 品詞タグ設定では、コンテキスト内の各単語の品詞を識別して、ラベル付けします。単語の品詞は、文法上の カテゴリのことで、名詞や動詞などに分類され、名詞には単数形と複数形、動詞には現在形と過去形など、主 要なカテゴリそれぞれにサブクラス属性があります。 このソフトウェアのいくつかのモジュールでは、2 つのタイプの品詞タグの使用がサポートされます。これらのタ グは、抽出ルール作成時にも使用できます。 • アンブレラタグ - 主要な品詞を上位レベルで識別します。その全体機能より細かく品詞を分割しません。た とえば Nn タグは、単数形もしくは複数形、女性形もしくは男性形などにかかわらず、すべての名詞を識別 します。 • 完全タグ - 属性とともに、品詞を精密に識別します。たとえば Nn-Pl タグは複数形の名詞を識別し、VPres-3-sg は現在形で、三人称単数の動詞を識別します。 各サポート言語のタグセットに関する詳細は、このガイドの 『言語モジュールリファレンス 』の該当言語の章を 参照してください。 3.6.1 タグ名の仕様 タグは、ハイフンで区切られた機能名で構成されます。最初の機能名を、カテゴリタグといいます。これは通常 は、単語の上位レベルの品詞を特定します。たとえば、名詞または動詞などで、それぞれ Nn と V に省略され 31 2012-06-14 言語分析サポート ます。V/Adj や Det/Pron など、タグに複数の品詞が含まれる場合は、その品詞がどちらのカテゴリにもなる可 能性があることを示します。 機能タグは、単語をより正確に分類します。これらは、数 (複数形、単数形など)、人称 (一人称、二人称、三人 称など)、または時制 (現在形、過去形など) を示します。そのため、V-Pres-3-Sg タグは動詞が現在形で、三 人称の単数形であることを示します。 スペイン語タグ設定機能の Prep-para タグのように、機能がすべて小文字で表記される場合、その言語の単 語 (ここではスペイン語の para) を表し、その単語の分類がそのカテゴリのほかの単語とは大きく異なり、独自 の機能とみなされることを意味します。このように目立って特別な機能は、言語固有の表にリストされています。 各サポート言語のタグセットに関する詳細は、このガイドの 『言語モジュールリファレンス 』の該当言語の章を 参照してください。 3.6.2 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、関連する推測機能に渡され、最も適していると思われるタグ が設定されます。推測機能は、任意の言語の形態構造に関するルールセットに基づいて、検出されなかった 単語にタグを設定します。大文字表記情報は多くの言語で、大文字表記された単語にも、固有名詞にも使用 されます。なお、アルファベット文字と数字の組み合わせ、およびこれらと任意の区切り記号の組み合わせは、 固有名詞とみなされます。序数は、コンテキストに応じて、名詞または形容詞のどちらかとしてタグ設定されま す。インターネットおよび電子メールのアドレスには、Nn-Net というタグが設定されます。 アジアの言語では、検出されなかった単語に Nn タグがデフォルトで設定されます。 3.6.3 タグ付きステミング タグ付きステミング操作では、品詞情報に関するステミングを含む、入力テキストの完全な言語分析を提供しま す。この操作は、テキストを複数の単語と区切り記号にセグメンテーションし、ドキュメント分析、大文字小文字 の正規化、および品詞タグ設定を実行します。その後で、1 つの語とその品詞タグを指定して、その語のステミ ングを実行します。たとえば、children[Nn-Pl] という語とタグの組み合わせの入力に対して、出力は child にな ります。 3.6.4 単語の分割 単語の分割操作は、テキストを複数の単語と区切り記号にセグメンテーションし、ドキュメント分析、大文字小文 字の正規化、および品詞タグ設定を実行します。 32 2012-06-14 抽出サポート 抽出サポート ここでは、構造化されていないテキスト分析時の、抽出の仕組みについて説明します。 4.1 エンティティとファクトの抽出 構造化されていないテキストからエンティティを抽出することで、テキストの対象 (人、組織、場所など、そのド キュメントで述べられていること) が分かります。抽出プロセスには、テキストの処理と分析、関心のあるエンティ ティの検出、それらへの適切なタイプの割り当て、およびこのメタデータの標準形式での表示があります。 抽出プロセスでは、特定の名前付きエンティティのリストを使用してエンティティを抽出できます。また、言語モ デルを使用して新しいエンティティを発見できます。 エンティティは多くの場合、特定の個人、組織、場所の名前などの、固有の名称のことです。特定エンティティ タイプは、他にも、貨幣額および日付などがあります。 各エンティティは、名前とタイプを組み合わせて定義されます。例: • カナダ/COUNTRY • Pope John Paul/PERSON • General Motors Corporation/ORGANIZATION/COMMERCIAL エンティティタイプは、エンティティの定義において重要な役割を果たします。エンティティタイプは、ドキュメン トから抽出されたエンティティ、および辞書に格納されているエンティティの分類に使用されます。 抽出プロセスでは、このメタデータが、ドキュメントにおけるエンティティの文字オフセットと長さなどの属性を伴っ て、正規化された形式で表示されます。 このソフトウェアには、事前定義済みエンティティタイプの、豊富なセットがあります。必要に応じて、辞書および 抽出ルールを使用して、抽出プロセスを拡張できます。 辞書と抽出ルールの作成の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽 出カスタマイゼーションガイド 』を参照してください。 関連項目 • 34 ページの「 サブタイプ」 33 2012-06-14 抽出サポート 4.1.1 サブタイプ サブタイプは、エンティティタイプのさらに詳細な分類を示します。これは、階層構造を持つ事項を特定化する もので、同じエンティティタイプの中で、商業組織と教育組織などの別の語義を持つ種類を区別できます。 たとえば SAP は、ORGANIZATION タイプのエンティティの 1 つで、主要カテゴリ内のサブカテゴリの 1 つを 示す、COMMERCIAL サブタイプを持ちます。 この機能をサポートする各言語のサブタイプは、このガイドの該当言語のリファレンスの節で説明されています。 関連項目 • 33 ページの「エンティティとファクトの抽出」 4.2 抽出リソースファイル 抽出プロセスでは、言語モジュール、辞書、および抽出ルールファイルという、複数のタイプのリソースファイル が使用されます。これらのファイルの一部は、ユーザが設定可能ですが、すべてがそうではありません。 次の表で、抽出プロセスが使用するリソースを簡単に説明します。 リソース 言語モジュール 説明 言語モジュールは、事前にパッケージ化された言語 固有ファイルのセットのことで、任意の自然言語にお いて任意の操作をサポートする、辞書などのコンポー ネントを含みます。辞書は、各サポート言語の広範囲 に及ぶ単語セットを持ちます。ユーザは設定できま せん。抽出は、テキストの分析、エンティティの抽出、 およびそれらのタイプの決定を行うのに、言語モ ジュールに依存します。 特定の言語モジュールとその動作の詳細について は、このガイドの 『言語モジュールリファレンス 』節の 関連する章を参照してください。 辞書 34 辞書は、エンティティに関する情報 (標準形式、バリ アント名、エンティティタイプなど) のリポジトリです。 辞書は、辞書のコンパイラツールを使用して、独自の 形式にコンパイルされます。 2012-06-14 抽出サポート リソース 説明 抽出ルール 抽出ルールには、言語およびパターンベースのルー ルが含まれます。このルールは、このソフトウェアに 含まれるもの、または、エンティティ間のリンク作成に 役立つようにユーザが正規表現パターンを使用して 記述できるものです。これにより、関係、イベント、お よび属性をベースとするファクトを抽出できます。これ らのルールは、抽出ルールコンパイラを使用してコン パイルされます。 抽出ルールの記述と使用の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽 出カスタマイゼーションガイド 』を参照してください。 関連項目 • 45 ページの「言語モジュールリファレンス」 4.3 言語モジュールの抽出サポートレベル 言語モジュールには、テキスト分析時に複数言語のエンティティ抽出を実行するのに必要な、システム辞書お よび設定ファイルが含まれます。すべての言語モジュールには、辞書および抽出ルールのサポートが含まれま す。 言語モジュールは、言語分析およびサポートする抽出のレベルに応じて分類されます。次のサポートレベルが あります: 35 • 英語 - すべての言語。英語は最も優れた機能セットです。英語は、さまざまな事前定義済みのエンティティ タイプをサポートします。さらにこれらのエンティティタイプには、事前定義済みのエンティティサブタイプが 含まれます。また英語は、品詞タグ、辞書の使用、および抽出ルールをサポートし、文法的な関係と代名詞 の相互参照解決を目的とする、抽出ルール処理中の詳細解析機能の使用もサポートします。 • 詳細 - これらの言語は、さまざまな事前定義済みエンティティタイプ、辞書、および抽出ルールをサポート します。詳細言語がサポートする抽出ルールは、構文ユニット、標準演算子、単語のステム、および品詞タ グ属性を使用して記述し、単語、および名詞句や句などのさまざまな言語構造マーカーを指定します。詳 細言語は、次のものです: • アラビア語 • 簡体字中国語 • ファルシ語 • フランス語 2012-06-14 抽出サポート • • 36 • ドイツ語 • 韓国語 • ロシア語 • スペイン語 標準 - これらの言語は、名詞句マーカー、辞書、および抽出ルールをサポートします。標準言語がサポー トする抽出ルールは、トークン、標準演算子、単語のステム、および品詞タグ属性を使用して記述し、トーク ンを指定します。標準言語は、次のものです: • カタロニア語 • 中国語: 繁体字 • クロアチア語 • チェコ語 • デンマーク語 • オランダ語 • イタリア語 • 日本語 • ノルウェー語: ブークモール語 • ノルウェー語: ニーノシク語 • ポルトガル語 • セルビア語 • スロバキア語 • スロベニア語 • スウェーデン語 基本 - これらの言語は、複合語トークン、単語のセグメンテーション、ステミングなどの言語分析機能のみ をサポートします。名詞句はサポートされていません。基本言語は、次のものです: • ギリシャ語 • ヘブライ語 • ハンガリー語 • ポーランド語 • ルーマニア語 • タイ語 • トルコ語 2012-06-14 抽出サポート 辞書および抽出ルールの作成の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽出カスタマイゼーションガイド 』を作成してください。 関連項目 • 31 ページの「品詞サポート」 4.4 事前定義済みエンティティタイプのサポート エンティティタイプ NOUN_GROUP は、ギリシャ語、ヘブライ語、ハンガリー語、ポーランド語、ルーマニア語、 タイ語、トルコ語の基本言語モジュールを除く、すべての言語モジュールでサポートされます。NOUN_GROUP は、2 語以上の関連する名詞または修飾語と名詞で構成され、名前、メジャー、または識別子で識別されない、 一連の普通名詞です。 4.4.1 名前付きエンティティ 次の表は、事前定義済みエンティティタイプをアルファベット順にリストし、これらをサポートする言語を示してい ます。 注 追加の公共部門エンティティの一覧については、335 ページの 「 公共部門コンテンツ」を参照してください。 言語モジュール エンティティタイプ および 説明 ADDRESS1 住所 CONTINENT 大陸のいずれか 37 英語 ファル シ語 [ファル シゴ] フラン ス語 ドイツ語 ○ ○ ○ ○ ○ ○ ○ ○ ○ アラビア 語[アラ ビアゴ] 中国語 (簡体字) ○ ○ 韓国 語 ロシア 語 スペイン語 ○ 2012-06-14 抽出サポート 言語モジュール エンティティタイプ および 説明 COUNTRY 国の名前 英語 ファル シ語 [ファル シゴ] フラン ス語 ドイツ語 韓国 語 ロシア 語 スペイン語 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ アラビア 語[アラ ビアゴ] 中国語 (簡体字) ○ CURRENCY 通貨、および通貨 表現 DATE 日付、および日付 表現 DAY 曜日 FACILITY 人工の構造物 ○ GEO_AREA 市よりも大きく、通 常重要な地理上の 領域を指す、地理 上の領域 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ GEO_FEATURE 他の place/location エンティティタイプ に当てはまらない 地名 38 ○ ○ 2012-06-14 抽出サポート 言語モジュール エンティティタイプ および 説明 HOLIDAY 休日および特例日 アラビア 語[アラ ビアゴ] 中国語 (簡体字) ○ ○ 英語 ファル シ語 [ファル シゴ] フラン ス語 ドイツ語 ○ ○ ○ ○ ○ ○ ○ ○ 韓国 語 ロシア 語 スペイン語 LANGUAGE 言語を参照する名 前 LOCALITY 市の名前 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ MEASURE メジャー、およびメ ジャー表現 MISC_NUMERIC ○ 測定対象の単語が 続く、連続した数字 MONTH 月。省略形を含む ○ ○ ○ ○ ○ NIN 国民識別番号。カ ナダの社会保険番 号、フランスの INSEE 番号を含む、 社会保障番号 39 ○ ○ 2012-06-14 抽出サポート 言語モジュール エンティティタイプ および 説明 英語 ファル シ語 [ファル シゴ] フラン ス語 ドイツ語 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ アラビア 語[アラ ビアゴ] 中国語 (簡体字) ○ 韓国 語 ロシア 語 スペイン語 NOUN_GROUP 2 語以上の関連す る名詞または修飾 語と名詞で構成さ れ、名前、メ ジャー、または識別 子で識別されない、 一連の普通名詞 ○ ORGANIZATION 非営利の団体や組 織を含む、政府機 関、法律機関、また はサービス機関 ○ ○ ○ PEOPLE 国、民族、または地 域に基づく人々の グループに関連す る名前 PERCENT パーセント PERSON 個人の名前 PHONE 電話番号 40 2012-06-14 抽出サポート 言語モジュール エンティティタイプ および 説明 アラビア 語[アラ ビアゴ] 中国語 (簡体字) PRODUCT 製品名 ファル シ語 [ファル シゴ] フラン ス語 ドイツ語 ○ ○ ○ ○ ○ ○ 英語 韓国 語 ロシア 語 スペイン語 ○ PROP_MISC 一義的なタイプをも たない、すべての 固有名詞 ○ ○ ○ PUBLICATION ○ 新聞、雑誌、機関 紙などの名前 REGION 国、県、地区などの 名前 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ SOCIAL_MEDIA Twitter のハンドル およびトピック TICKER 株式市場のティッ カーシンボル TIME 時間、および時間 表現 41 ○ ○ ○ ○ ○ ○ ○ 2012-06-14 抽出サポート 言語モジュール エンティティタイプ および 説明 英語 ファル シ語 [ファル シゴ] フラン ス語 ドイツ語 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ アラビア 語[アラ ビアゴ] 中国語 (簡体字) ○ 韓国 語 ロシア 語 スペイン語 TIME_PERIOD 時間のメジャー表 現 ○ TITLE 個人の参照にも使 用される肩書き URI 電子メールアドレ ス、URL など YEAR 年、および年表現 ○ 注 * 右から左に記述する言語 (アラビア語、ファルシ語、ヘブライ語) のエンティティおよび抽出に関する情報は、 別の補足ガイド 『Right to Left Language Guide Reference Supplement 』に記載されています。 関連項目 • 45 ページの「言語モジュールリファレンス」 • 337 ページの「公共部門コンテンツエンティティ - 英語」 • 370 ページの「公共部門エンティティ - 簡体字中国語」 4.4.2 名詞の一般表記 次の表では、事前定義済みの名詞の一般表記をアルファベット順にリストし、これらをサポートする言語を示し ています。 42 2012-06-14 抽出サポート 注 名詞の一般表記に関する概念情報については、131 ページの 「名詞の一般表記」を参照してください。追加の 公共部門エンティティの一覧については、335 ページの 「 公共部門コンテンツ」を参照してください。 エンティティタイプおよび説明 言語モジュール アラビア語 COMMON_ADDRESS1 住所の一般名称 COMMON_CONTINENT 大陸の一般名称 簡体字中国語 ○ 英語 ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ COMMON_COUNTRY 紛争中の領土や国際的に認知されていな い領土などの、従来のラベルを適用できな い、地政学的なエンティティに関する普通 名詞を含む、国の一般名称 COMMON_FACILITY 人工の構造物の一般名称 COMMON_GEO_AREA 地理的地域、地区、州、および地方の一般 名称 COMMON_GEO_FEATURE 地理的または政治的な地域ではない場所 の一般名称 COMMON_LOCALITY 市の一般名称 COMMON_ORGANIZATION 組織の一般名称 43 2012-06-14 抽出サポート エンティティタイプおよび説明 言語モジュール アラビア語 COMMON_PEOPLE 個人の一般名称 COMMON_REGION 国、県、地区などの一般名称 英語 ○ 人の一般名称 COMMON_PERSON 簡体字中国語 ○ ○ ○ ○ ○ ○ 関連項目 • 45 ページの「言語モジュールリファレンス」 • 337 ページの「公共部門コンテンツエンティティ - 英語」 • 370 ページの「公共部門エンティティ - 簡体字中国語」 44 2012-06-14 言語モジュールリファレンス 言語モジュールリファレンス 言語モジュールリファレンスには、このソフトウェアがサポートする各言語モジュールのリファレンスの節がありま す。この節には次の情報があります。 • すべての言語操作に対して、言語モジュールが実行する動作 • 各言語でサポートされる事前定義済みエンティティタイプ、およびその例 • 各言語でサポートされる品詞のアンブレラタグと完全タグ、およびその例 5.1 カタロニア語言語リファレンス この章では、カタロニア語言語モジュールの動作について説明します。 5.1.1 言語処理 ここでは、単語のセグメンテーション、ステミング、タグ設定など、カタロニア語テキストの処理における言語固有 の情報について説明します。 5.1.1.1 カタロニア語の文字エンコード 45 • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 2012-06-14 言語モジュールリファレンス 5.1.1.2 カタロニア語の単語のセグメンテーション カタロニア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従 います。言語固有の動作は次のとおりです。 pel などの短縮形は分離されません。m'han vist の m' のように、動詞に先行する省略されていた代名詞は動 詞から分離されます。短縮形 (posa'l の 'l) でも完全形 (posa-la の -la) でも、動詞の後の接語は分離されま す。 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.1.1.3 カタロニア語のステミング ここでは、カタロニア語のステミングで使用される、標準ステム機能と拡張屈折ステム機能について説明します。 5.1.1.3.1 標準ステム機能 カタロニア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主 な品詞 (オープンクラス) はその原形にステム処理されます。固有名詞はそのものにステム処理されます。指小 辞および最上級の末尾はオープンクラスから削除されます。次の表にこれを示します。 46 カテゴリ 原形 例 名詞 指小辞の付かない男性単数形 vedelleta ->vedell 固有名詞 そのものにステム処理される Jordi -> Jordi 動詞 不定詞 considerava -> considerar 副詞 ソースの形式 bé -> bé, activament -> activament 代名詞 男性、主格形 me -> jo 2012-06-14 言語モジュールリファレンス カタロニア語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されま す。すべての人称代名詞では、数情報が保持されます。適用できる場合は、これらの代名詞は主格形にステ ム処理されます。その他の形はすべて、男性単数形にステム処理されます。次の表にこれを示します。 テキスト ステム tothom tothom elles ells em jo aquestes aquest 限定詞や序数のようなクローズドクラスの単語は、男性単数形にステム処理されます。屈折しない単語カテゴリ はそのものにステム処理されます。たとえば、接続詞、基数、前置詞などです: テキスト ステム mitges mig ni ni 頭字語、省略形、および複合語構文ユニットはそのものにステム処理されます: テキスト ステム IVA IVA tel. tel. davant de davant de 短縮形は複数のコンポーネントパーツにステム処理されます: 47 2012-06-14 言語モジュールリファレンス テキスト ステム pel per=el als a=el 5.1.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。カタロニア語固有 のものを次に示します。 ハイフネーション 拡張バージョンでは、通常は強制的にハイフンが付く単語の、任意のハイフネーションを許容します。 例 出力 Chupa-Chups Chupa-Chups ChupaChups Chupa-Chups 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Amics de la Música など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。 48 例 出力 IRPF IRPF irpf IRPF amics amic Amics amic 2012-06-14 言語モジュールリファレンス アクセント記号なし文字 拡張バージョンでは、アクセント記号付き文字の他に、完全なアクセント記号なし文字を許容します。また、鋭 アクセントが付く単語 (é, ó) を同等の低アクセントが付く単語 (è, ò) に一致させ、低アクセントが付く単語を同 等の鋭アクセントが付く単語に一致させます。さらに、カタロニア語の場合、連続した l.l は l·l にマッピングされ ます。 例 出力 nacio nació irlandés irlandès intel.ligent intel·ligent 5.1.1.4 カタロニア語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、カタロニア語のタグセットを示します。各タグ名に、簡単 な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。 アンブレラタグ 完全タグ 説明 例 Abbr Abbr 省略形 etc, Cia. Adj 形容詞、数字の不変化部 分 alfin, antidroga Adj-Ord-Pl 複数形、スペルアウトされ た序数を表す形容詞 segons, primeres Adj-Ord-Sg 単数形、スペルアウトされ た序数を表す形容詞 primer, segon Adj-Pl 複数形の形容詞 factibles Adj-Sg 単数形の形容詞 absurd, calent, capaç Adj 49 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Adv 副詞 ací, abans, gairebé, fins Adv-Deg 形容詞を修飾できる副詞 bastant, força, gaire, massa, més, mig, molt, poc, prou, tan, tot Adv-Int 疑問副詞 quan, on, a on, d'on, com, per què Adv-Rel 副詞的な関係節を示す語 quan, com, on Aux-Inf-be 不定値 ser ser Aux-Inf-have 不定値 haver haver Aux-anar 助動詞 anar vaig Aux-be 助動詞 ser serà Aux-have 助動詞 haver ha, han Conj 接続詞 si, perquè, mentre Conj-Coord 等位接続詞 i, o, ni Conj-com 接続詞 com com Conj-que 接続詞 que que Adv Aux Conj 50 2012-06-14 言語モジュールリファレンス アンブレラタグ Det Interj 完全タグ 説明 例 Det-Def-Pl 複数形の冠詞 les, els Det-Def-Sg 単数形の冠詞 el, la, l' Det-Dem-Pl 複数形の指示限定詞 aqueixes Det-Dem-Sg 単数形の指示限定詞 aquest, això Det-Indef-Pl 複数形の不定限定詞また は不定代名詞 gaires, molts, uns Det-Indef-Sg 単数形の不定限定詞また は不定代名詞 bastant, gaire, quant, tant, molt, poc Det-Int-Pl 複数形の疑問限定詞 quins Det-Int-Sg 単数形の疑問限定詞 quin, quant Det-Poss-Pl 複数形の所有限定詞 nostres, seues, llurs Det-Poss-Sg 単数形の所有限定詞 teu, ma, llur Det-Rel-Sg 単数形の関係限定詞 qual Det-Rel-Pl 複数形の関係限定詞 quals Interj 感嘆詞 ui!, eh? Nn 名詞、数字の不変化部分 atles, albatros, focus Nn-Net URL または電子メールア ドレス www.inxight.com in [email protected] Nn-Pl 複数形の名詞 organitzacions, xarxes, casos, drets Nn-Sg 単数形の名詞 manera, exemple Num 数値表現、または基数 2001, milions, dos Num-Ord 序数 1r, 2n, 3r, 4t, 5è Part-Neg 否定の不変化詞 no no Nn Num Part 51 2012-06-14 言語モジュールリファレンス アンブレラタグ Prep Pron Prop 52 完全タグ 説明 例 Prep 前置詞 amb, a causa de, darrera, en Prep-Det-a a と限定詞の組み合わせ al, als Prep-Det-de de と限定詞の組み合わせ del, dels, des del Prep-Det-per per と限定詞の組み合わ せ pel, pels Prep-a 前置詞 a a Prep-de 前置詞 de de, d' Prep-per 前置詞 per per Pron 代名詞 jo, tu, ell, això Pron-Adv 副詞的な代名詞 en, hi, n', -en Pron-Clitic 接続代名詞 s', 'ns, -hi Pron-Dem 指示代名詞 aquests Pron-Indef 不定代名詞 moltes Pron-Int 疑問代名詞および感嘆代 名詞 qui, què, quant, quantes Pron-Oblq 斜格の代名詞 en, ho, ell, em Pron-Ord 序数代名詞 tercer Pron-Poss 所有代名詞 el meu, la seva Pron-Rel 関係代名詞 que, qui, què, qual Pron-es es 代名詞 es, se, s', -s Prop 固有名詞、またはアルファ ベット、数字の組み合わせ Europa, FAO/OMS 2012-06-14 言語モジュールリファレンス アンブレラタグ Punct 完全タグ 説明 例 Punct その他の区切り記号 :;"'{&/ Punct-Close 閉じかっこ ) Punct-Comma コンマ , Punct-Open 開きかっこ ( Punct-Sent 文末の区切り記号 .!? V-Fin 定形動詞 reclamen, reconeix, passa, va V-Impv 命令形の動詞 satisfacin, tracta V-Inf 不定詞の動詞 arribar, mantenir, buscar V-PrPart 現在分詞の動詞 creant, essent, donant V/Adj-PaPart-Pl 複数過去分詞の動詞また は形容詞 elegits, encaminades V/Adj-PaPart-Sg 単数過去分詞の動詞また は形容詞 fet, assenyalat, mancada V 5.1.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、カタロニア語の推測機能に渡されます。この機能では、これ らの単語に、カタロニア語の形態構造および大文字表記に関するルールセットに基づくタグが設定されます。 次のタグ設定ルールセットは、このモジュールの一部です。 動詞のタグは動詞の活用形に従って設定されます。インターネットアドレスおよび電子メールアドレスには、NnNet としてタグ設定されます。 大文字ではじまる単語、または数字ではじまり大文字が続く単語は、固有名詞とみなされます。アルファベット 文字と数字の組み合わせ、およびこれらと任意の区切り記号の組み合わせも、固有名詞とみなされます。数字 と区切り記号の組み合わせは、数字としてタグ設定されます。連続した区切り記号マークは、区切り記号として タグ設定されます。 5.1.1.5 カタロニア語のグループ化 53 2012-06-14 言語モジュールリファレンス カタロニア語の単純名詞句は、必要に応じて前置修飾語および後置修飾語をともなう名詞のことです。pre前置修飾語は 1 つ以上の形容詞のことです。例: • gran cilindrada • nombrosos i ambiciosos projectes 後置修飾語は、形容詞、名詞、または de と別の名詞句の形式で構成される前置詞句のことです。 • turisme responsable • ciutat dormitori • propostes de consultes populars • multinacionals del Nord 固有名詞は普通名詞と同じようにグループ化されます: • antiga Iugoslàvia • illes Balears • Europa del nord • Estatuts d' Autonomia 5.1.2 抽出 ここでは、カタロニア語の抽出固有の情報について説明します。 5.1.2.1 事前定義済みエンティティタイプ ここでは、カタロニア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい て説明します。 5.1.2.1.1 NOUN_GROUP カタロニア語の単純名詞句は、必要に応じて前置修飾語および後置修飾語で修飾された、名詞または連続し た名詞のことです。前置修飾語は、形容詞または連続した等位形容詞であることがあります。例: 54 • pura casualitat • nombrosos i ambiciosos projectes 2012-06-14 言語モジュールリファレンス 後置修飾語は、形容詞または前置詞 'de' ではじまる前置詞句であることがあります: • gent impuntual • eqip del ministeri 5.2 簡体字中国語言語リファレンス この章では、簡体字中国語言語モジュールの動作について説明します。 5.2.1 言語処理 ここでは、単語のセグメンテーション、ステミング、タグ設定など、簡体字中国語テキストの言語処理における言 語固有の情報について説明します。 5.2.1.1 簡体字中国語の文字エンコード • euc_cn • gb_18030、gb_2312_80 • utf_8、utf_16、ucs_4 5.2.1.2 中国語の単語のセグメンテーション 中国語のセグメンテーション機能は、非スペース言語のすべての一般的なセグメンテーションルールに従いま す。言語固有の動作は次のとおりです。 接辞などの拘束形態素は、内容語に結合されます。また、類別詞は先行する数字に結合されます。次の例の 簡体字中国語では、多媒体の多が接頭辞、三台の台が分類詞です。 55 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 市 市 部 部 得 得 多媒体 多媒体 三台 三台 ハイフンで接続された語は別々のパーツにセグメンテーションされます。例: テキスト セグメンテーション後 北京 北京- 京 - 京 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.2.1.3 中国語のステミング ここでは、中国語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.2.1.3.1 標準ステム機能 中国語の単語は屈折しないので、すべての単語のステムは、ソースの形式とまったく同じです。クローズドクラ スの単語だけでなく、次の表に示すオープンクラスの単語も同様です。 56 2012-06-14 言語モジュールリファレンス カテゴリ 原形 例 名詞 ソースの形式 政府 -> 政府, 学生 -> 学生 動詞 ソースの形式 负责 -> 负责, 保留 -> 保留 形容詞 ソースの形式 小 -> 小, 必须 -> 必须 副詞 ソースの形式 非常 -> 非常 5.2.1.3.2 拡張ステム機能 拡張中国語言語モジュールでは、セグメンテーションとステミングの結果を、標準モジュールより詳細なものに することができます。その出力は、テキストのインデックス化と検索システム向きに最適化されています。拡張モ ジュールの出力は標準ステム機能と異なり、類別詞を数字から、接頭辞および接尾辞を主要語から分離して、 複合語分析を実行します。 次に例を示します。 類別詞は数詞から分離されます: テキスト 出力 一 一本 本 接頭辞および接尾辞は、主要語から分離されます: テキスト 出力 女 女教 教 小 小 展 展部 部 57 2012-06-14 言語モジュールリファレンス 複合語は別々のコンポーネントに分割されます: テキスト 出力 布 斯 峡谷 布 斯峡谷国家公园 国家 公园 彩色 彩色 定系 定 系 拡張バリアントは、標準中国語モジュールとすべて同じ操作をサポートします。ただし、詳細出力ではそれぞれ の語の文脈上の情報が少なく、この多義性によってタグ設定操作の精度が上げられています。これらの操作 については、標準中国語モジュールを使用することをお勧めします。拡張バリアントは、ステミングを目的する 場合にのみ推奨されています。 5.2.1.4 中国語の品詞タグ設定 次の表に中国語のタグセットを示します。タグセットは、繁体字中国語および簡体字中国語で同一です。各タ グ名に、簡単な説明と 1 つ以上の例を示します。簡体字中国語の例は、GB エンコード形式です。 アンブレラタグ 完全タグ 説明 簡体字中国語の例 (GB) Adj Adj 形容詞 一流,大型 Adv 副詞 仅仅,非常 Adv-BAN 比喩標識 般,似的 Adv-Comp 比較級の副詞 最 Adv-DENG 名詞の後ろに付く省略形 等 Adv-Idiom 慣用表現 寸草春晖,游人止步 Asp 動詞の後ろに付く、相標 識 了,过,着 Adv Asp 58 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 簡体字中国語の例 (GB) Aux Aux 助動詞 应当,能 Cl Cl 類別詞 张,副 Conj 節形式の接続語 不论,即使 Conj-Nn 名詞形式の接続語 及,和 Det Det 限定詞 这,每,任何 Interj Interj 感嘆詞 哇,喂 Nn 普通名詞 东西,菜单,椅子 Nn-Ascii ASCII 文字の名詞 a, B Nn-Loc 所格名詞 上,以内,之中 Nn-Net URL または電子メールア ドレス www.inxight.com Nn-Prop 固有名詞 香港,叶尔钦 Nn-Time 名詞語句の時間表現 今天, 周一, 上半年, 下 午 Num Num Number 万,3,5 Ord Ord 順番を表す接頭辞 第 Part Part 文末の不変化詞 吧, 吗 Prep 前置詞 根据,以,由 Prep-Assoc 修飾標識 的 Prep-Assoc-ZHI 名詞の修飾標識 之 Prep-Assoc-DI 動詞の修飾標識 地 Prep-Assoc-DEI 修飾標識 得 Pron 代名詞 她,我,你 Conj Nn Prep Pron 59 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 簡体字中国語の例 (GB) Punct 区切り記号 ..., –, ;, : Punct-Comma コンマ , Punct-Open 開く区切り記号 (, {, 【 Punct-Close 閉じる区切り記号 ), }, 】 Punct-Sent 文末の区切り記号 。 Quant Quant 数量詞 整个,众多 Verb Verb 動詞 走,下雨,负责 Punct 5.2.2 抽出 ここでは、簡体字中国語の抽出固有の情報について説明します。 5.2.2.1 簡体字中国語のサブタイプ 簡体字中国語がサポートするサブタイプのタイプは、FACILITY、GEO_AREA、GEO_FEATURE、ORGANIZA TION、PEOPLE、REGION、URI、COMMON_FACILITY、COMMON_GEO_AREA、COMMON_GEO_FEATURE、 COMMON_ORGANIZATION、COMMON_PEOPLE、および COMMON_PERSON です。 関連項目 • 34 ページの「 サブタイプ」 5.2.2.2 事前定義済みエンティティタイプ ここでは、簡体字中国語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につ いて説明します。次の各リンクをクリックすると、そのセクションに移動できます。61 ページの 「ADDRESS1」、 61 ページの 「CONTINENT」、61 ページの 「COUNTRY」、61 ページの 「CURRENCY」、62 ページの 「DATE」、62 ページの 「DAY」、62 ページの 「FACILITY」、63 ページの 「GEO_AREA」、63 ページの 60 2012-06-14 言語モジュールリファレンス 「GEO_FEATURE」、64 ページの 「HOLIDAY」、64 ページの 「LOCALITY」、64 ページの 「MEASURE」、 64 ページの 「MISC_NUMERIC」、64 ページの 「MONTH」、64 ページの 「NOUN_GROUP」、65 ページの 「ORGANIZATION」、66 ページの 「PEOPLE」、66 ページの 「PERCENT」、66 ページの 「PERSON」、67 ページの 「PHONE」、67 ページの 「PROP_MISC」、67 ページの 「REGION」、67 ページの 「TIME」、67 ペー ジの 「TIME_PERIOD」、68 ページの 「TITLE」、68 ページの 「URI」、および 68 ページの 「YEAR」。 注 簡体字中国語言語モジュールは、VEHICLE、WEAPON、COMMON_VEHICLE、および COMMON_WEAPON の各種公共部門エンティティも抽出します。 これらの公共部門エンティティの詳細については、370 ページの 「公共部門エンティティ - 簡体字中国語」を 参照してください。 5.2.2.2.1 ADDRESS1 郵送先: • 北京市朝阳区建国 外大街甲12号新 • 上海市静安区南京西路1266号恒隆广 • 北京市朝阳区工体北路甲二号 保 大厦7 701室(100022) 23楼2302-2304室(200041) 5.2.2.2.2 CONTINENT 大陸のいずれか。例: • 洲 • 欧洲 • 南美洲 5.2.2.2.3 COUNTRY 国の名前、および従来のラベルを適用できない地政学的なエンティティの名前。以下はその例です。 • 中国 • 美国 • 英国 • 巴勒斯坦 • 台湾 5.2.2.2.4 CURRENCY 金額を表す表現: 61 • 33.8万元 • 港 五千万 2012-06-14 言語モジュールリファレンス • 一百四十四 七千万美元 5.2.2.2.5 DATE 日付は最低でも 1 つの数字と月の名前で構成されます: • 7月2日 • 十月十七日 5.2.2.2.6 DAY 曜日の名前: • 周一 • 周六 5.2.2.2.7 FACILITY 人工の構造物。次のサブタイプのいずれかとして抽出されます。 • • • AIRPORT– 主に輸送ターミナルとして使用される、主として人工または維持対象の構造物の名前。以下は その例です。 • 首都国 机 • 浦 国 • 中正机 BUILDGROUNDS– 建築的な土木構造物の名前、および主として人工または維持対象の戸外空間の名 前。機能に関する区別はされません。民間施設、軍用施設のどちらでもありえます。業務、娯楽のどちらの 用途でも使用される可能性があり、記念建造物である可能性もあります。以下はその例です。 • 人民公园 • 黄 • 克林姆林 楼 PATH– 流動体、エネルギー、人、動物、または車両を、ある場所から別の場所に移動できる、主として人 工または維持対象の構造物の名前。以下はその例です。 • • 62 机 沟 • 重 南路 • 王府井大街 PLANT– 工業目的で使用される、1 つ以上の建物で構成される施設の名前。以下はその例です。 • 三峡工程 • 切 利核 站 2012-06-14 言語モジュールリファレンス • • 小浪底水 SUBAREA– 人、動物、または物を収容できる、施設の一部の名前。通常は建築上のもの。例: • 大雄宝殿 • 形 公室 5.2.2.2.8 GEO_AREA 大陸や国の集団など、重要な土地の集合体を指す、市よりも大きい地理的な領域。次のうちいずれかのサブ タイプとして抽出されます。 • • DOMESTIC– 国境を越えない場所の名前。例: • 南 • 巴蜀 • 杭嘉湖 INTL– 国境をまたがる場所の名前。例: • 大中 地区 • 加勒比地区 • 加沙地 5.2.2.2.9 GEO_FEATURE 次のサブタイプのいずれかとして抽出される場所の名前: • • • • BOUNDARY– 境界線などの場所の名前。例: • 南北回 • 赤道 CELESTIAL– 地球の境界線の外側にある場所の名前。次はその例です。 • 地球 • 冥王星 • 北斗七星 LAND– 地質学的または生態学的に形成された、人工のものではない場所の名前。例: • 峨眉山 • 崇明 • 珠江三角洲 WATER– 水域である場所の名前。例: • 63 黄河 2012-06-14 言語モジュールリファレンス • 江 • 西湖 • 日月潭 5.2.2.2.10 HOLIDAY 休日および特例日: • 元宵 • 中秋 5.2.2.2.11 LOCALITY 市の名前: • 北京 • 上海 • 州市 5.2.2.2.12 MEASURE メジャー表現: • 二百五十六公斤 • 5.5米 5.2.2.2.13 MISC_NUMERIC 主要な測定単位ではなく測定対象の単語、または名詞が続く連続した数字: • 八个 • 8000 多家 5.2.2.2.14 MONTH 暦の月の名前: • 6月份 • 八月 5.2.2.2.15 NOUN_GROUP 名詞群は、修飾する形容詞を持つ単純名詞または複合語であることがあります: 64 2012-06-14 言語モジュールリファレンス • 新 • 高科技 品 5.2.2.2.16 ORGANIZATION 非営利団体、美術グループなどの団体や組織を含む、政府機関、法律機関、サービス機関。次のうちいずれ かのサブタイプとして抽出されます。 • COMMERCIAL– 主要な企業や法人などの営利組織の名前。例: • 美洲 行 • 花旗集 • 首 • 白云山制 股份 股份有限公司 注 抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。 • • • • EDUCATIONAL– 主に教育を目的とする機関の名前。例: • 交通大学 • 清 • 浙大 ENTERTAINMENT– 主に娯楽を目的とする組織の名前。例: • 中央芭蕾舞 • 上海交响 • 月之海合唱 GOVERNMENT– 行政、政策、または国家に関連する組織の名前。政治的なエンティティとして機能するこ とが可能な地政学的なエンティティも含まれます。例: • 国 • 海 • 水利部 • 欧盟 • 独 署 体 MEDIA– マスメディア、広告、または出版を目的とする組織の名前。以下はその例です。 • • • 65 院 新 社 代周刊 人民日 2012-06-14 言語モジュールリファレンス • • • • MEDICALSCIENCE– 医療または研究を目的とする組織の名前。例: • 国家科学院 • 中国科 • 中科院 RELIGIOUS– 宗教を目的とする組織の名前。例: • 佛教 • 基督教 • 天主教 SPORTS– スポーツを目的とする組織の名前。例: • 国家奥委会 • 足球 • 国 会 米 部 OTHER– 特定のサブタイプに適合しないすべての組織。 • 中国共 • 合国 • 全国 党 工会 5.2.2.2.17 PEOPLE 次のサブタイプとして抽出される人々のグループ。 • NATIONALITY- 国籍に基づく人々の特定可能なグループ。 • 中国人 • 美国人民 5.2.2.2.18 PERCENT パーセント表現: • 百分之五十 • 55.3% 5.2.2.2.19 PERSON 個人の名前のバリエーション: 66 • 胡 • 毛 涛 2012-06-14 言語モジュールリファレンス • 温家宝 5.2.2.2.20 PHONE 中国形式の電話番号: • 68316616 5.2.2.2.21 PROP_MISC 他のエンティティで特定されるエンティティタイプのいずれにも属さない、すべての固有名詞句: • 抗日 争 • 八国集 • 文化大革命 首 会 5.2.2.2.22 REGION さまざまな地域は、次のサブタイプのいずれかとして抽出されます: • MAJOR– 国、県、地区の名前、または類似の区画や行政機関。以下はその例です。 • 海淀区 • • • 家嘴 花 MINOR– カナダの州や準州、フランスの行政区、米国の州などの国の主要な行政区分。以下はその例で す。 • 江 省 • 新疆 吾 • 加利福尼 族自治区 5.2.2.2.23 TIME 時刻、および時間表現: • 8 • 3点零5分 5.2.2.2.24 TIME_PERIOD 時間間隔のメジャー: 67 • 两个月 • 1小 2012-06-14 言語モジュールリファレンス • 五天 5.2.2.2.25 TITLE 政府機関、企業などの組織で重要な地位の名前: • 主席 • 司法部 • 5.2.2.2.26 URI インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます: • • EMAIL– 電子メールアドレス。例: • [email protected] • [email protected] IP– IP アドレス。例: • • 147.132.42.18 URL– インターネットアドレス。例: • www.businessobjects.com • http://www.google.com 5.2.2.2.27 YEAR 年の識別子、および年に基づく表現: • 2005年 • 一九九四年 5.2.2.3 名詞の一般表記 名詞の一般表記は、通常は固有名詞によって参照されることになる、組織、個人、施設などのエンティティを参 照するための、普通名詞の使用を参照します。 ここでは、簡体字中国語言語モジュールがサポートする名詞の一般表記と、それらの例について説明します。 次の各リンクをクリックすると、そのセクションに移動できます。69 ページの 「COMMON_CONTINENT」、69 ページの 「COMMON_COUNTRY」、69 ページの 「COMMON_FACILITY」、70 ページの 「COM MON_GEO_AREA」、70 ページの 「COMMON_GEO_FEATURE」、71 ページの 「COMMON_LOCALITY」、 68 2012-06-14 言語モジュールリファレンス 71 ページの 「COMMON_ORGANIZATION」、72 ページの 「COMMON_PEOPLE」、72 ページの 「COM MON_PERSON」、および 73 ページの 「COMMON_REGION」。 5.2.2.3.1 COMMON_CONTINENT 任意の大陸の全体に関する普通名詞: • 大洲 5.2.2.3.2 COMMON_COUNTRY 国や政治的な地域に関する普通名詞: • 王国 • 成 • 友邦 • 两岸三地 国 5.2.2.3.3 COMMON_FACILITY 人工の構造物に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • • • • AIRPORT– 主に空輸ターミナルとして使用される、主として人工または維持対象の構造物に関する普通名 詞。例: • 机 • 空港 • 候机大楼 BUILDGROUNDS– 建築的な土木構造物の名前、および主として人工または維持対象の戸外の空間に関 する普通名詞。機能に関する区別はされません。民間施設、軍用施設のどちらでもありえます。業務、娯楽 のどちらの用途でも使用される可能性があり、記念建造物である可能性もあります。例: • 大 • 建筑物 • 停 PATH– 流動体、エネルギー、人、動物、または車両を、ある場所から別の場所に移動できる、主として人 工または維持対象の構造物に関する普通名詞。例: • 高速 • 柏油路 • 天 路 PLANT– 工業用の目的で使用される、1 つ以上の建物で構成される施設に関する普通名詞。例: • 69 院 水 站 2012-06-14 言語モジュールリファレンス • • 厂 • 水利枢 SUBAREA– 通常は建築上のもので、人、動物、または物を収容できる、施設の一部に関する普通名詞。 例: • 盥洗室 • 房 • 育 房 5.2.2.3.4 COMMON_GEO_AREA 地理的地域に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • • DOMESTIC– 国境を越えない場所に関する普通名詞: • 区 • 国内 • 非 事区 INTL– 国境をまたぐ場所に関する普通名詞: • 国 • 国内外 5.2.2.3.5 COMMON_GEO_FEATURE 地理的または行政的な地域ではない場所に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • • • • 70 BOUNDARY– 境界線などの場所に関する普通名詞: • 国界 • 境 CELESTIAL– 地球の外側の場所に関する普通名詞: • 小行星 • 星系 • 星球 LAND– 地質学的または生態学的に形成された、人工のものではない場所に関する普通名詞: • 平原 • 群 • 戈壁 WATER– 水域に関する普通名詞。 2012-06-14 言語モジュールリファレンス • 江 • 河 • 湖 • 海 5.2.2.3.6 COMMON_LOCALITY 市に関する普通名詞: • 全市 • 小 • 省会 5.2.2.3.7 COMMON_ORGANIZATION 組織に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • COMMERCIAL– 会社に関する普通名詞: • 公司 • 集 • • • • 行 EDUCATIONAL– 教育を目的とする機関に関する普通名詞: • 学院 • 高校 • 母校 ENTERTAINMENT– 娯楽を目的とする機関に関する普通名詞: • 弦 • • • 文工 GOVERNMENT– 行政、政策、または国家に関連する機関に関する普通名詞: • • • 机 • 法院 MEDIA– マスメディアに関連する機関に関する普通名詞: • 71 媒 2012-06-14 言語モジュールリファレンス • 台 • • 社 MEDICALSCIENCE– 医学に関連する機関に関する普通名詞: • 研究所 • • • • 合医院 OTHER– 特定のサブタイプに適合しない組織に関する普通名詞: • 会 • 理事会 • 合会 RELIGIOUS– 宗教に関連する機関に関する普通名詞: • 教宗 • 主教 • 教会 SPORTS– スポーツに関連する機関に関する普通名詞: • 球 • 羽毛球 • 运 合会 5.2.2.3.8 COMMON_PEOPLE 人に関する普通名詞。次のサブタイプとして抽出されます: • NATIONALITY– 修飾語を持たない国民: • 人民 5.2.2.3.9 COMMON_PERSON 個人に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • • GROUP– 個人のグループに関する普通名詞: • 股民 • 小两口 • 中青年 INDIVIDUAL– 個人に関する普通名詞: • 72 老大 2012-06-14 言語モジュールリファレンス • 父 • 演 5.2.2.3.10 COMMON_REGION さまざまな地域に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • MAJOR - 国の主要な行政区分に関する普通名詞。例: • • 省份 • 自治区 MINOR - 行政区の全体に関する普通名詞。例: • 郡 • • 区 5.3 繁体字中国語言語リファレンス この章では、繁体字中国語言語モジュールの動作について説明します。 5.3.1 言語処理 ここでは、単語のセグメンテーション、ステミング、タグ設定など、繁体字中国語テキストの言語処理における言 語固有の情報について説明します。 注 繁体字中国語と簡体字中国語で使用される言語処理アルゴリズムは同じであるため、言及しない限り、ここに ある例はすべて簡体字中国語です。繁体字中国語では、文字エンコードのみ異なります。 5.3.1.1 繁体字中国語の文字エンコード 73 • big5 • utf_8、utf_16、ucs_4 2012-06-14 言語モジュールリファレンス 5.3.1.2 中国語の単語のセグメンテーション 中国語のセグメンテーション機能は、非スペース言語のすべての一般的なセグメンテーションルールに従いま す。言語固有の動作は次のとおりです。 接辞などの拘束形態素は、内容語に結合されます。また、類別詞は先行する数字に結合されます。次の例の 簡体字中国語では、多媒体の多が接頭辞、三台の台が分類詞です。 テキスト セグメンテーション後 市 市 部 部 得 得 多媒体 多媒体 三台 三台 ハイフンで接続された語は別々のパーツにセグメンテーションされます。例: テキスト セグメンテーション後 北京 北京- 京 - 京 74 2012-06-14 言語モジュールリファレンス 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.3.1.3 中国語のステミング ここでは、中国語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.3.1.3.1 標準ステム機能 中国語の単語は屈折しないので、すべての単語のステムは、ソースの形式とまったく同じです。クローズドクラ スの単語だけでなく、次の表に示すオープンクラスの単語も同様です。 カテゴリ 原形 例 名詞 ソースの形式 政府 -> 政府, 学生 -> 学生 動詞 ソースの形式 负责 -> 负责, 保留 -> 保留 形容詞 ソースの形式 小 -> 小, 必须 -> 必须 副詞 ソースの形式 非常 -> 非常 5.3.1.3.2 拡張ステム機能 拡張中国語言語モジュールでは、セグメンテーションとステミングの結果を、標準モジュールより詳細なものに することができます。その出力は、テキストのインデックス化と検索システム向きに最適化されています。拡張モ ジュールの出力は標準ステム機能と異なり、類別詞を数字から、接頭辞および接尾辞を主要語から分離して、 複合語分析を実行します。 次に例を示します。 類別詞は数詞から分離されます: 75 2012-06-14 言語モジュールリファレンス テキスト 出力 一 一本 本 接頭辞および接尾辞は、主要語から分離されます: テキスト 出力 女 女教 教 小 小 展 展部 部 複合語は別々のコンポーネントに分割されます: テキスト 出力 布 斯 峡谷 布 斯峡谷国家公园 国家 公园 76 2012-06-14 言語モジュールリファレンス テキスト 出力 彩色 彩色 定系 定 系 拡張バリアントは、標準中国語モジュールとすべて同じ操作をサポートします。ただし、詳細出力ではそれぞれ の語の文脈上の情報が少なく、この多義性によってタグ設定の精度が上げられています。これらの操作につい ては、標準中国語モジュールを使用することをお勧めします。拡張バリアントは、ステミングを目的する場合に のみ推奨されています。 5.3.1.4 中国語の品詞タグ設定 次の表に中国語のタグセットを示します。タグセットは、繁体字中国語および簡体字中国語で同一です。各タ グ名に、簡単な説明と 1 つ以上の例を示します。繁体字中国語の例は、Big5 エンコード形式です。 アンブレラタグ 完全タグ 説明 繁体字中国語の例 (Big5) Adj Adj 非叙述形容詞 一流,大型 Adv 副詞 僅僅,非常 Adv-BAN 比喩標識 般,似的 Adv-Comp 比較級の副詞 最 Adv-DENG 名詞の後ろに付く省略形 等 Adv-Idiom 慣用表現 寸草春暉,游人止步 Asp Asp 動詞の後ろに付く、相標 識 了,過,著 Aux Aux 助動詞 應當,能 Cl Cl 類別詞 張,副 Conj 節形式の接続語 不論,即使 Conj-Nn 名詞形式の接続語 及,和 Adv Conj 77 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 繁体字中国語の例 (Big5) Det Det 限定詞 這,每,任何 Interj Interj 感嘆詞 哇,喂 Nn 普通名詞 東西,菜單,椅子 Nn-Ascii ASCII 文字の名詞 a, B Nn-Loc 処格の名詞 上,以內,之中 Nn-Net URL または電子メール アドレス www.inxight.com Nn-Prop 固有名詞 香港,葉爾欽 Nn-Time 名詞語句の時間表現 今天, 周一, 上半年 下 午 Num Num 数値 萬、3、5 Ord Ord 序数 第 Part Part 文末の不変化詞 吧, 矣 Prep 前置詞 根據,以,由 Prep-Assoc 修飾標識 的 Prep-Assoc-ZHI 名詞の修飾標識 之 Prep-Assoc-DI 動詞の修飾標識 地 Prep-Assoc-DEI 修飾標識 得 Pron 代名詞 她,我,你 Punct 区切り記号 ..., –, ;, : Punct-Comma コンマ , Punct-Open 開く区切り記号 (, {, 【 Punct-Close 閉じる区切り記号 ), }, 】 Punct-Sent 文末の区切り記号 。 Quant Quant 数量詞 整個,眾多 Verb Verb 動詞 走,下雨,負責 Nn Prep Pron Punct 78 2012-06-14 言語モジュールリファレンス 5.3.2 抽出 ここでは、繁体字中国語の抽出固有の情報について説明します。 5.3.2.1 事前定義済みエンティティタイプ ここでは、繁体字中国語言語モジュールがサポートする事前定義済みエンティティタイプと、例について説明 します。 5.3.2.1.1 NOUN_GROUP 中国語の名詞群は 1 つ以上の名詞で構成されますが、次のように複数の名詞を含むことがあります: • 主細胞 • 國際勞工組織 5.4 クロアチア語言語リファレンス この章では、クロアチア語言語モジュールの動作について説明します。 5.4.1 言語処理 ここでは、単語のセグメンテーション、ステミング、タグ設定など、クロアチア語テキストの言語処理における言語 固有の情報について説明します。 5.4.1.1 クロアチア語の文字エンコード • 79 iso_8859_2 2012-06-14 言語モジュールリファレンス • cp_1250 • utf_8、utf_16、ucs_4 5.4.1.2 クロアチア語のステミング ここでは、クロアチア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.4.1.2.1 標準ステム機能 標準のクロアチア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つ まり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名 詞のようなクローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 例 名詞 vojske -> vojska , ljudi -> èovjek , mjesta -> mjesto 動詞 udovoljava -> udovoljavati , ponude -> ponuditi , komentirao -> komentirati 形容詞 srbijansku -> srbijanski , spremni -> spreman , izborni -> izboran 副詞 kako -> kako , sada -> sada , opet -> opet 5.4.1.2.2 拡張ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。クロアチア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され ていない固有名詞がこれに含まれます。 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Splet Svjetskih Mreža など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。 80 2012-06-14 言語モジュールリファレンス 例 出力 Hrvata Hrvat hrvata Hrvat Plovka plovka plovka plovka Splet splet splet splet アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 例 出力 bajaèica bajaèica bajacica bajaèica 5.4.1.3 クロアチア語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、クロアチア語のタグセットを示します。各タグ名に、簡単 な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。 81 アンブレラタグ 完全タグ 説明 例 Abbr Abbr 省略形 HDZ, RH 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Adj 形容詞の絶対格 dobar, velik Adj-Comp 形容詞の比較級 bolji, veći Adj-Sup 形容詞の最上級 najbolji, najveći Adv 副詞の絶対格 brzo, mnogo Adv-Comp 副詞の比較級 brže, više Adv-Sup 副詞の最上級 najbrže, najviše Conj-Co 等位接続詞 a, i Conj-Sub 従属接続詞 jer, da Enum Enum 列挙 etc. Interj Interj 感嘆詞 hej, jao Nn-Acc 名詞の対格 žene, profesori Nn-Case 主格および対格以外の 名詞の格 ženama, profesorom Nn-Nom 名詞の主格 žene, profesor Num 数詞 dvanaest, sedamdeset Num-Acc 数詞の対格 jednu, jednog Num-Card 基数詞 tri, četiri Num-Case 主格および対格以外の 数詞の格 jednom, dvama Num-Nom 数詞の主格 jedan, dva Num-Ord 序数詞 prvi, drugi Prep 前置詞 za, na, u Pron 代名詞 obje, vas, ovi, moji, koja Pron-Pers 人称代名詞 ja, ti Pron-Poss 所有代名詞 tvoji, naši Pron-Ref 再帰代名詞 se Adj Adv Conj Nn Num Prep Pron 82 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Prop Prop 固有名詞 Zagreb Punct 区切り記号 .:;- Punct-Close 閉じる区切り記号 ) Punct-Comma コンマの区切り記号 , Punct-Open 開く区切り記号 ( Punct-Sent 文の区切り記号 .!? V-Aux-Clit 接続助動詞 je, sam V-Fin 動詞の定形 radimo, nose, nosi V-Inf 動詞の不定詞 raditi, nosi V-Part 動詞の分詞 misleći, uzimajući, nosili, nosio Punct V 5.4.1.4 クロアチア語のグループ化 クロアチア語の単純名詞句は、velika soba, soba na katu, nepoznat netko など、名詞または名詞的な代名 詞と、必要に応じて形容詞的指示詞、および必要に応じて名詞的な補部と前置詞補部で構成されます。 指示詞は、形容詞、形容詞的代名詞、形容詞的数詞、またはこれらの連続です。 • veliki stol, moj stol, moj prvi stol, moj veliki stol 補語には、名詞、または前置詞と (修飾された) 名詞の組み合わせを含めることができます。 • buka motora • rad na crno すべての前置詞は PP 補語として使用できます。 • 83 put u Pariz, stepenice na terasu, pasta za zube 2012-06-14 言語モジュールリファレンス 5.4.2 抽出 ここでは、クロアチア語の抽出固有の情報について説明します。 5.4.2.1 事前定義済みエンティティタイプ ここでは、クロアチア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい て説明します。 5.4.2.1.1 NOUN_GROUP クロアチア語の名詞群は、必要に応じて前置修飾語をともなう 1 つ以上の名詞で構成できます。 前置修飾語は、0 個以上の副詞と、その後に続く 1 個以上の (等位) 形容詞、形容詞的代名詞、形容詞的数 詞で構成できます。 例: • milijardi kuna • skoroj privatizaciji • minimalno potrebnog broja 5.5 チェコ語言語リファレンス この章では、チェコ語言語モジュールの動作について説明します。 5.5.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、チェコ語テキストの言語処理における言語固有の情報に ついて説明します。 84 2012-06-14 言語モジュールリファレンス 5.5.1.1 チェコ語の文字エンコード • iso_8859_2 • cp_1250 • utf_8、utf_16、ucs_4 5.5.1.2 チェコ語の単語のセグメンテーション チェコ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま す。 5.5.1.3 チェコ語のステミング ここでは、チェコ語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.5.1.3.1 標準ステム機能 標準のチェコ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、 主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞の ようなクローズドクラスの単語も、ステム処理される場合があります。 85 カテゴリ 例 名詞 tělem -> tělo, města -> město, výzkumy -> výzkum 動詞 máš -> mít, vrátil -> vrátit, dostane -> dostat, pracuji -> pracovat 形容詞 velká -> velký, starší -> starý 副詞 brzy -> brzy, dnes -> dnes 2012-06-14 言語モジュールリファレンス 5.5.1.3.2 拡張ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。チェコ語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記されてい ない固有名詞がこれに含まれます。例: 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 Slovensko Slovensko slovensko Slovensko アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 例 出力 padák padák padak padák 5.5.1.4 チェコ語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、チェコ語のタグセットを示します。各タグ名に、簡単な説 明と 1 つ以上の例を示します。タグセットは性別を区別しません。 86 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Adj 形容詞 úřadní, úřadními, úřadním Adj-Comp 比較級の形容詞 úřadnější, úřadnějšími, úřadnějším Adj-Sup 最上級の形容詞 nejuřednější, nejuřednějším, nejuřednějšími Adv 副詞 úředně,zúředněně, zdeúředně Adv-Comp 比較級の副詞 úředněji, zúředněněji, zdeúředněji Adv-Sup 最上級の副詞 nejúředněji, nejzúředněněji, nejzdeúředněji Conj Conj 接続詞 či, čili, že Interj Interj 感嘆詞 úhuhu, ó, ólala Nn 不変化名詞 sec, pH, um. Nn-Pl-Gen 複数形、所有格の名詞 úřadníků, úřeků, úřezů Nn-Pl-Case 複数形、主格、呼格、対 格、与格、処格、および 助格の名詞 úřadníci, úřadníkům, úřadníků Nn-Sg-Gen 単数形、所有格の名詞 úřadníka, úřeku, úřezu Nn-Sg-Case 単数形、主格、呼格、対 格、与格、処格、および 助格の名詞 úřadníka, úřadníkovi, úřadníkem Nn-Net URL、電子メールアドレス www.inxight.com, [email protected], Prop 固有名詞 ČSLA, Ňasko, Ňasku, Ňaska, Ňaskem, Íliada Num 基数または序数以外の 数値表現 XV, mil. Num-Card 基数 dvě, dvěma, dvou Num-Ord 序数 šestýma, šestými, šestým Adj Adv Nn Prop Num 87 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Part Part 不変化詞 řekněmež, čau, žbluňk Prep Prep 前置詞 zmísta, zkraje, zaň Pron-Dem-Pl 複数形の指示代名詞 týmiž, týmaž, týchž Pron-Dem-Sg 単数形の指示代名詞 týž, týmž Pron-Pl 複数形の代名詞 číchkoliv, číchkoli, čímisi, čímasi, čímsi Pron-Sg 単数形の代名詞 číhosi, čímsi, čímukoliv, čímukoli, číhokoliv, číhokoli, číhosi Pron-Int/Rel 疑問代名詞または関係 代名詞 čí, čími, čím, čích, čímu Pron-Refl 再帰代名詞 svůj, svých, svýmu, svým Pron-Pers-Sg 単数形の人称代名詞 on, ono, ona, ty, von Pron-Pers-Pl 複数形の人称代名詞 vy, vás, vám, vámi Pron-Poss 所有代名詞 tvůj, váš, vaší Pron 88 2012-06-14 言語モジュールリファレンス アンブレラタグ V 完全タグ 説明 例 V-Inf 不定詞の動詞 dělat, úžit, úžívat V-Imp 命令形の動詞 dělej, dělejme, dělejte V-Ind 直説法、動詞 dělána, dělány, dělánu, dělánu, dělána V-PaPart 過去分詞 dělal, dělals, dělaly, dělali V-Inf-Be 動詞 "to be"、不定詞 být, bývat, nebýt, nebývat V-Imp-Be 動詞 "to be"、命令法 buď, budiž, buďme, buďte V-Pres-Be 動詞 "to be"、現在形 je, jest, jsi, jste, jsme, jsou, jsem V-Fut-Be 動詞 "to be"、未来形 bude, budu, budeš, budete, budou, budem V-PaPart-Be 動詞 "to be"、過去分詞 byl, byla, bylo, byla, byly, byli V-APart 形容詞的/副詞的な分詞 dělaje, dělajíc, dělajíce V-Aux 助動詞 by, bys, byste, bych, bychom Punct-Sent 文末の区切り記号 !?. Punct-Comma コンマ , Punct-Open 開く区切り記号 ( Punct-Close 閉じる区切り記号 ) Punct-Quote 引用符 "' Punct その他の区切り記号 +- Punct 5.5.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、チェコ語の推測機能に渡され、最も適していると思われるタ グが設定されます。チェコ語の推測機能は、チェコ語の形態構造に関するルールセットに基づいて、検出され 89 2012-06-14 言語モジュールリファレンス なかった単語にタグを設定します。たとえば、末尾が -ova の単語は形容詞とみなされます。インターネットお よび電子メールのアドレスには、Nn-Net というタグが設定されます。 大文字表記の情報も重要です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。 5.5.1.5 チェコ語のグループ化 チェコ語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。 修飾語は、形容詞または序数であることがありますが、限定詞または代名詞ではありません。 修飾語は、副詞を自身の修飾語としてともなうことができます。 例: • ministrem Vrbou • úst paní ministryně Štěpové 5.5.2 抽出 ここでは、チェコ語の抽出固有の情報について説明します。 5.5.2.1 事前定義済みエンティティタイプ ここでは、チェコ語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説 明します。 5.5.2.1.1 NOUN_GROUP チェコ語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。修飾語は、形容詞または序 数であることがありますが、限定詞または代名詞ではありません。修飾語は、副詞を自身の修飾語としてともな うことができます。 例: 90 • ministrem Vrbou • úst paní ministryně Štěpové 2012-06-14 言語モジュールリファレンス 5.6 デンマーク語言語リファレンス この章では、デンマーク語言語モジュールの動作について説明します。 5.6.1 言語処理 ここでは、単語のセグメンテーション、ステミング、タグ設定など、デンマーク語テキストの言語処理における言 語固有の情報について説明します。 5.6.1.1 デンマーク語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.6.1.2 デンマーク語の単語のセグメンテーション デンマーク語のセグメンテーション機能は、スペース言語の単語のセグメンテーションの一般的なルールに従 います。デンマーク語のセグメンテーション機能には、次の言語固有の動作があります。 デンマーク語のセグメンテーション機能は、s または 's を使用して記述された複数形および所有格をそのまま 保持します。ハイフンは、ハイフンを使用して記述された複合語のパーツから分離されません。ピリオドは序数 表現から分離されません。次に例を示します。 91 テキスト セグメンテーション後 Eriks Eriks 14. 14. 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 post- post- og telegrafvæsenet og telegrafvæsenet 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.6.1.3 デンマーク語のステミング ここでは、デンマーク語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.6.1.3.1 標準ステム機能 デンマーク語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主 な品詞 (オープンクラス) はその原形にステム処理されます。次の表にデンマーク語の原形を示します。限定 詞や代名詞のようなクローズドクラスの単語も、ステム処理される場合があります。 92 カテゴリ 原形 例 名詞 不定形単数 kager -> kage, cyklen -> cykel 動詞 不定詞 sendes -> sende, luk -> lukke 形容詞 原型 kolde -> kold, smukkest -> smuk 副詞 基本形またはソースの形式 oftest ->ofte, bagfra -> bagfra 2012-06-14 言語モジュールリファレンス 5.6.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。デンマーク語固有 のものを次に示します。 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 erik Erik Erik Erik アクセント記号付き文字のタイプライター形式 拡張バージョンでは、アクセント記号付き文字のタイプライター表記を許容します。つまり、aa と記述されている 場合は å、ae と記述されている場合は æ、oe と記述されている場合は ø と認識されます。 例 出力 blaa blå blå blå アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 93 例 出力 bla blå blå blå 2012-06-14 言語モジュールリファレンス ハイフネーション 拡張バージョンでは、数値ではない表現内のハイフンはオプションです。これは、ハイフンがもともと単語の一 部なのか強制改行のためだけのものなのかに関係なく、強制改行とハイフンを両方削除することで強制改行 ハイフンを解除する前処理が行われているテキストの場合に役立ちます。 例 出力 Vdag V-dag V-dag V-dag 5.6.1.4 デンマーク語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、デンマーク語のタグセットを示します。各タグ名に、簡単 な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字で 示します。タグセットは性別を区別しません。 アンブレラタグ 完全タグ 説明 例 Abbr Abbr 省略形 nov., kg, dkr., USA Adj 形容詞 det gode brød Adj-Comp 比較級の形容詞 et bedre forslag Adj-Gen 所有格の形容詞 den enkeltes tryghed Adj-PaPart 形容詞として使用されて いる過去分詞 bestemt niveau Adj-PaPart-Gen 形容詞として使用されて いる過去分詞、所有格 den ansattes papirer Adj-PrPart 現在分詞の形容詞 manglende Adj 94 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Adv 副詞 (不変化詞を含む) igen Adv-Comp 比較級の副詞 tidligere Adv-Int/Rel 疑問副詞または関係副 詞 hvor, hvorefter Adv-Sup 最上級の副詞 oftest Adv 95 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Aux/V-Infin-blive 不定詞の助動詞または 本動詞 blive blive Aux/V-Infin-faa 不定詞の助動詞または 本動詞 få få Aux/V-Infin-have 不定詞の助動詞または 本動詞 have have Aux/V-Infin-vaere 不定詞の助動詞または 本動詞 vaere være Aux/V-PaPart-blive 過去分詞の助動詞また は本動詞 blive blevet Aux/V-PaPart-faa 過去分詞の助動詞また は本動詞 få fået Aux/V-PaPart-have 過去分詞の助動詞また は本動詞 have haft Aux/V-PaPart-vaere 過去分詞の助動詞また は本動詞 vaere været Aux/V-Past-blive 過去形の助動詞または 本動詞 blive blev Aux/V-Past-faa 過去形の助動詞または 本動詞 få fik Aux/V-Past-have 過去形の助動詞または 本動詞 have havde Aux/V-Past-vaere 過去形の助動詞または 本動詞 vaere var Aux/V-Pres-blive 現在形の助動詞または 本動詞 blive bliver Aux/V-Pres-faa 現在形の助動詞または 本動詞 få får Aux/V-Pres-have 現在形の助動詞または 本動詞 have har Aux/V-Pres-vaere 現在形の助動詞または 本動詞 vaere er Aux/V 96 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Cmpd Cmpd-Part 残された複合語のパーツ post - og telegrafvæsenet Conj 接続詞 at, når Conj-Coord 等位接続詞 og, eller Conj-hvis 接続詞または関係代名 詞 hvis hvis Conj-som 接続詞または関係代名 詞 som som Det 限定詞 en Det-Indet 不定限定詞 forskellig, somme Det-Indet-Gen 不定限定詞、所有格 forskelliges Det-Coord 接続詞的副詞 både Det/Pron-Int/Rel 疑問代名詞または関係 代名詞 hvad, hvem, hvilke Det/Pron-Poss 所有限定詞または所有 代名詞 vores, min Det/Pron-Poss-Refl 再帰所有代名詞 sin, sit, sine Det/Pron-Quant 数量限定詞または数量 代名詞 mange Det/Pron-Quant-Compmere 比較級 mere mere Det/Pron-Quant-Gen 所有格の数量限定詞ま たは数量代名詞 manges Det/Pron-Quant-Pre 数量前置限定詞または 数量代名詞 alle, hver Det/Pron-Quant-Supmest 最上級 mest mest Func Func 機能語 (その他のカテゴ リ) ambulatorie, barne Interj Interj 名詞 kvinde Conj Det 97 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Nn 所有格の名詞 kvindens Nn-Gen 小文字および大文字の 文字 b, N Nn-Letter URL および電子メール アドレス Nn www.inxight.com [email protected] Nn-Net Num Num 基数 (数字または単語) 3m tre Ord Ord 序数、数字またはスペル アウト 20., femte Part-Inf 不定詞の不変化詞 at få lov at indtage Part-Neg 否定の不変化詞 ikke Prep 前置詞 med, hos Prep-af 前置詞 af af Pron 代名詞 den, denne Pron-Expl 虚辞代名詞 der var 400 deltagere Pron-Gen 所有格の代名詞 begges Pron-Pers 人称代名詞 jeg, mig Pron-Recip 相互代名詞 hinanden Pron-Recip-Gen 所有格の相互代名詞 hinandens Pron-Rel 関係代名詞 der および som familier, der skilles Prop 固有名詞、頭文字または 肩書き Ole, H., fru, dr. Prop-Gen 所有格の固有名詞 Jensens bil Punct その他の区切り記号 -) Punct-Comma コンマ , Punct-Sent 文の境界の区切り記号 .?! Part Prep Pron Prop Punct 98 2012-06-14 言語モジュールリファレンス アンブレラタグ V 完全タグ 説明 例 V-Impv 命令形の動詞 skriv V-Infin 不定詞の動詞 skrive V-PaPart 過去分詞の動詞 skrevet V-Past 過去形の動詞 skrev V-Past-SForm 過去形の S 形動詞 taltes V-Pres 現在形の動詞 sker V-Pres-SForm 現在形の S 形動詞 sendes 5.6.1.5 デンマーク語のグループ化 デンマーク語の単純名詞句は、必要に応じて固有名詞の所有形、形容詞、序数で修飾された、名詞または連 続した名詞のことです。所有代名詞は名詞群に含まれません。例: • varmt vand • fin, ny cykel • Odenses vedkommende • 29. october 形容詞と名詞は、og 'and' や eller 'or' のような等位接続詞で結合される場合があります。連続した複合語の パーツを等位接続詞で名詞に結合することもできます。 • vand og salt • stor eller lille is • vand- og varmemester 単純名詞句の後に、af ではじまる前置詞句が続く場合があります。例: • ejeren af hesten 5.6.2 抽出 99 2012-06-14 言語モジュールリファレンス ここでは、デンマーク語の抽出固有の情報について説明します。 5.6.2.1 事前定義済みエンティティタイプ ここでは、デンマーク語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい て説明します。 5.6.2.1.1 NOUN_GROUP デンマーク語の単純名詞句は、必要に応じて固有名詞の所有形、形容詞、序数で修飾された、名詞または連 続した名詞のことです。所有代名詞は名詞群に含まれません。例: • varmt vand • fin, ny cykel • Odenses vedkommende • 29. october 形容詞と名詞は、og 'and' や eller 'or' のような等位接続詞で結合される場合があります。連続した複合語の パーツを等位接続詞で名詞に結合することもできます。 • vand og salt • stor eller lille is • vand- og varmemester 5.7 オランダ語言語リファレンス この章では、オランダ語言語モジュールの動作について説明します。 5.7.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、オランダ語テキストの言語処理における言語固有の情報 について説明します。 100 2012-06-14 言語モジュールリファレンス 5.7.1.1 オランダ語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.7.1.2 オランダ語の単語のセグメンテーション オランダ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従い ます。 オランダ語のセグメンテーション機能には、次の言語固有の動作があります。短縮形は分割しません。s または 's を使用して記述された複数形および所有格は分割されません。ハイフンは、ハイフンを使用して記述された 複合語のパーツから分離されません。 テキスト セグメンテーション後 m'n m'n 'k 'k auto's auto's Jansens Jansens honden- honden- en kattenvoer en kattenvoer 関連項目 • 25 ページの「単語のセグメンテーション」 101 2012-06-14 言語モジュールリファレンス • 25 ページの「スペース言語」 5.7.1.3 オランダ語のステミング ここでは、オランダ語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.7.1.3.1 標準ステム機能 オランダ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な 品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のような クローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 原形 例 名詞 指小辞の付かない単数形 bloem -> bloem, emmers -> emmer, kinderen -> kind 動詞 不定詞 schrijft -> schrijven, hebt -> hebben 形容詞 原型 lange -> lang, onhandigste -> handig 副詞 基本形またはソースの形式 eventjes -> even, liefst -> graag, gisteren -> gisteren 5.7.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ここでは、オランダ 語固有のものを示します。 オランダ語のステム機能の拡張バージョンでは、正確な大文字表記およびアクセント記号表記は必要ありませ ん。必須のハイフンをオプションにすることができます。また、特定の非標準の複合語内のハイフン表記を許容 します。 102 2012-06-14 言語モジュールリファレンス ハイフネーション ハイフンを正式に使用するのは、最初の複合語要素の末尾が母音で 2 番目の複合語要素の先頭も母音であ るときに、発音しやすくするために使用する場合のみです。拡張バージョンでは、強制的なハイフンがない場 合もこれらの複合語を許容します。 例 出力 auto-ongeluk auto | ongeluk autoongeluk auto | ongeluk 通常、複合語はハイフンを使用せずに記述される場合がほとんどですが、一般的な慣行として、多くの複合語 がハイフンを使用して記述されている場合も、ハイフンを使用せずに記述されている場合も頻繁にあります。拡 張バージョンでは、母音がない場合の任意のハイフネーションを許容します。 例 出力 kinderbioscoop kind | bioscoop kinder-bioscoop kind | bioscoop 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 USA USA usa USA アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字を許容します。 103 例 出力 privé privé 2012-06-14 言語モジュールリファレンス 例 出力 prive privé 5.7.1.3.3 オランダ語の複合語分析 オランダ語の複合では、名詞と名詞、名詞と形容詞、動詞と名詞など、さまざまな品詞を結合できます。 注 次のサンプル出力では、縦棒 (|) を使用して用語またはステムを区切っています。複合語は常に分割されま す。 名詞 - 名詞型 オランダ語の名詞の複合語には、多くの場合、接続要素が含まれます。たとえば、leven という単語と echt と いう単語を組み合わせて複合語にする場合、接続要素 -s- がこれらの単語の間に追加され、levensecht とな ります。最も頻出する 2 つの接続要素は -s- および -en- です (3 番目の接続要素である -e- は、いくつかの 不規則な複合語でのみ出現します)。 例 出力 begrafenisstoet begrafenis | stoet mensenrechtenorganisaties mens | recht | organisatie levensecht leven | echt 母音変化などの不規則をともなう名詞も処理されます。例: 例 出力 scheepskapitein schip | kapitein zonnescherm zon | scherm 最初の複合語要素の末尾が母音で 2 番目の複合語要素の先頭も母音である場合、従来は、ソースの形式の 要素の間にハイフンが挿入されます。ハイフンはステマー出力には出現しません。 104 2012-06-14 言語モジュールリファレンス 例 出力 auto-ongeluk auto | ongeluk boeken- en platenzaak ("本およびレコードの店") や kindertheater en -bioscoop ("子供の劇場および映 画館") のような複合語が出現することがあります。最初のパーツ boeken- のハイフンは名詞 zaak の代わり で、-bioscoop のハイフンは kinder の代わりです。 例 出力 boek boeken- en platenzaak en platenzaak kind | theater kindertheater en -bioscoop en bioscoop 動詞 - 名詞型 複合語では動詞と名詞を結合することもできます。動詞のパーツは動詞の不定詞形にステム処理されます。 例 出力 schrijfwijze schrijven | wijze 名詞 - 形容詞型 形容詞と名詞を結合した複合語には、名詞 - 名詞型の複合語で頻繁に出現する接続要素がありません。 105 例 出力 kinderloos kind | loos 2012-06-14 言語モジュールリファレンス 5.7.1.4 オランダ語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、オランダ語のタグセットを示します。各タグ名に、簡単な 説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字で示 します。タグセットは性別を区別しません。 アンブレラタグ Adj 完全タグ 説明 例 Adj-Attr 限定形容詞 een snelle auto Adj-Post 後置修飾の形容詞 wat anders Adj-Pred 叙述形容詞 hij rijdt snel Adv 非形容詞的副詞 stroomopwaarts Adv-Deg 形容詞を修飾できる副詞 hij wil te snel Adv-Int 疑問副詞 waarom gaat hij Adv-Pron 代名詞的副詞 hij praat hierover Aux-Fin 定形助動詞 hij is geweest Aux-Inf 不定詞の助動詞 hij zal zijn Aux-PaPart 過去分詞の助動詞 hij is geweest Cmpd-Left 複合語の左の省略され たパーツ honden - en kattenvoer Cmpd-Right 複合語の右の省略され たパーツ kattenvoer en - melk Conj-Comp 比較の接続詞 zo groot als Conj-Coord 等位接続詞 jan en marie Conj-Inf 不定詞の接続詞 door te vragen Conj-Rel 関係接続詞 het kind dat ... Conj-Sub 従属接続詞 hoewel hij er was Conj-Sub-Adv 疑問副詞または従属接 続詞 wanneer gaat hij weg? Adv Aux Cmpd Conj 106 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Det-Art 限定詞 een bus Det-Dem 指示限定詞 deze machine gaat goed Det-Indef 不定限定詞 geen broer Det-Int/Rel 疑問限定詞または関係 限定詞 de vraag wier man ... Det-Poss 所有限定詞 mijn boek Det-Post-Indef 不定後置限定詞 de beide broers Det-Pre-Indef 不定後置限定詞 binnen al deze pakketten Interj 感嘆詞 och Nn 普通名詞 boek Nn-Letter 小文字および大文字の 文字 b, N Nn-Net URL および電子メール アドレス www.inxight.com in [email protected] Num Num 基数 125, vijf, 12/2 Ord Ord 序数 vijfde, 125ste, 12de Part-Inf オランダ語の 'te+infini tive' 構文の不変化詞 hij hoopt te gaan Part-Neg 否定の不変化詞 hij gaat niet snel Part-Prefix (代名詞的) 副詞または 動詞の分離された接頭 辞 hij loopt mee Prep 前置詞 in Prep-Circ 名詞の前後に置く両置 詞の右のパーツ tot nu toe Prep-Post 後置詞 veel passanten langs komen Prep-van 前置詞 van van Det Interj Nn Part Prep 107 2012-06-14 言語モジュールリファレンス アンブレラタグ Pron Prop Punct 完全タグ 説明 例 Pron-Dem 指示代名詞 deze gaat goed Pron-Indef 不定代名詞 beide Pron-Int/Rel 疑問代名詞または関係 代名詞 de vraag wie ... Pron-Pers 人称代名詞 hij Pron-Rel 関係代名詞 de man die lachte Prop 受取人の頭文字および 肩書きを含む、固有名詞 Peter, C., Prof. Prop-Art 名前の先頭の冠詞 De Vries Prop-Prep 名前の先頭の前置詞 Van den Broek Punct その他の区切り記号 { } [ ] - --- Punct-Comma コンマ , Punct-Quote 引用符タイプの区切り記 号 (かっこを含む) "''() Punct-Sent 文末の区切り記号 .?!; Punct-Slash スラッシュマーク / V-Fin 定形動詞 zegt V-Inf 不定詞の動詞 zeggen V-PaPart 過去分詞の動詞 gezegd V-PrPart 現在分詞の動詞 zeggend V 5.7.1.5 オランダ語のグループ化 オランダ語の名詞句は、次のように必要に応じて形容詞などの修飾語をともなう、名詞で構成されます。 • 108 Amerikaanse minister 2012-06-14 言語モジュールリファレンス オランダ語では複合語もグループ化されます。複合語のパーツは修飾されることがあります。また、パーツがコ ンマや接続詞で区切られて複数あることがあります。 • boeken- en platenzaak • kindertheater en -bioscoop オランダ語では、次のように en 'and' などを使用して、名詞を接続できます。 • productiviteitscijfers en fabrieksbestellingen • specifieke juwelen en kledingstukken • studenten, ouders en leraren 名前では ter も使用できますが、次に示すように、名詞群に含まれる前置詞は van のみです。名前は、Van, De, Den, Der, or Ter ではじまることがあります。前置詞または限定詞が名詞句の先頭に出現できるのはこの ときのみです。 • voorstel van de werkgevers • militaire nederlaag van de afgelopen weken 5.7.2 抽出 ここでは、オランダ語の抽出固有の情報について説明します。 5.7.2.1 事前定義済みエンティティタイプ ここでは、オランダ語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について 説明します。 5.7.2.1.1 NOUN_GROUP オランダ語の名詞句は、次のように必要に応じて形容詞などの修飾語をともなう、名詞で構成されます。 • Amerikaanse minister オランダ語では複合語もグループ化されます。複合語のパーツは修飾されることがあります。また、パーツがコ ンマや接続詞で区切られて複数あることがあります。 • boeken- en platenzaak • kindertheater en -bioscoop オランダ語では、次のように en 'and' などを使用して、名詞を接続できます。 109 2012-06-14 言語モジュールリファレンス • productiviteitscijfers en fabrieksbestellingen • specifieke juwelen en kledingstukken • studenten, ouders en leraars 5.8 英語言語リファレンス この章では、英語言語モジュールの動作について説明します。 5.8.1 言語処理 ここでは、単語のセグメンテーション、ステミング、タグ設定など、英語テキストの言語処理における言語固有の 情報について説明します。 5.8.1.1 英語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.8.1.2 英語の単語のセグメンテーション 英語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従います。 英語のセグメンテーション機能には、次の言語固有の動作があります。 英語では、don't, can't や won't のような短縮形は、これを構成する構文ユニットに分離されます。Ain't は、適 切な分離方法がないため、分離されません。所有の語尾 's や ' は、これらが修飾する単語から分離されます。 110 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 can can't n't will won't n't it it's 's ain't ain't helper helper's 's helpers helpers' ' 省略形は区切り記号からは分割されませんが、後続のハイフンからは分割されます。2 つの省略形の間に出 現するハイフンが、構文ユニットを分解することはありません。省略形はシステム辞書と、大文字、小文字、ピリ オド、任意のハイフンを許容するルールセットにリストされています。 アルファベット文字と数字の組み合わせ、およびこれらと任意の区切り記号の組み合わせは、そのまま保持さ れます。例: テキスト セグメンテーション後 Apr. Apr.- 111 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 D-Nebr. D-Nebr. 3a.m. 3a.m. 11Jan. 11Jan. Mon.-Thurs. Mon.-Thurs. Bloomberg-U.S. Bloomberg-U.S. 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.8.1.3 英語のステミング ここでは、英語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.8.1.3.1 標準ステム機能 英語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。 112 カテゴリ 原形 例 名詞 単数形 dog, dogs -> dog 動詞 不定詞 runs, ran, run -> run 形容詞 原型 happy, happier, happiest -> happy 2012-06-14 言語モジュールリファレンス カテゴリ 原形 例 副詞 基本形またはソースの形式 quickly -> quickly 英語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されます。複数 形のみの形、およびすべての人称代名詞では、数と性別情報が保持されます。適用できる場合は、これらの 代名詞は主格形にステム処理されます。その他の形式はすべて、単数形にステム処理されます。次の表にこ れを示します。 テキスト ステム none none that that themselves themselves her she these this 標準ステム機能では、米国英語および英国英語にみられるスペリングのバリエーションが処理されます。どちら のバリアントも米国式のスペリングにステム処理されます。次の表にこの処理を示します。 113 テキスト ステム color color colour color organization organization organisation organization 2012-06-14 言語モジュールリファレンス 5.8.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。次に英語固有のも のを示します。 大文字小文字のバリアント 拡張バージョンでは、通常は大文字ではじめる単語の大文字の他に、小文字を許容します。ステム機能に、小 文字のバリアントと大文字のバリアントの両方が含まれる場合、両方がステムとして返されます。大文字のステ ムだけがステム機能に含まれている場合、小文字のバリアントに大文字のステムが返されます。 例 出力 Eric Eric eric Eric ハイフネーション 強制改行ハイフンを削除して分割された単語の 2 つのパーツを連結することで、強制改行ハイフンを処理す るソフトウェアを補助するには、数値以外の表現におけるハイフンを拡張バージョンのオプションにして、本来 ハイフンで連結されている単語をそのまま認識できるようにします。 例 出力 square-dance square-dance squaredance square-dance motherinlaw mother-in-law 5.8.1.3.3 派生ステム機能 派生ステム機能は、必要に応じて複数の単語のカテゴリを横断して、エントリの基語を生成するように設計され ています。たとえば、connection という名詞は、connect という動詞に -ion という接尾辞が加えられてできてい ます。 そのため、派生ステム機能は、connection という名詞の connect という基語を検出します。同様に、driver は drive、quickly は quick にステム処理されます。 114 2012-06-14 言語モジュールリファレンス テキスト ステム connection connect belongings belong driver drive quickly quick 5.8.1.3.4 屈折ステマー推測機能 屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能 にとって未知であるため、ステム処理できない単語に適用できます。 言語処理は、最初に標準または拡張屈折ステム機能を使用してステミングを試み、次に、従来どおりにステム 処理できなかった単語にのみ、ステマー推測機能を適用します。 5.8.1.4 英語の品詞タグ設定 次の表に英語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。例が複数の単語 で構成される場合、現在のタグを例示する単語を太字で示します。 アンブレラタグ 完全タグ 説明 例 Abbr Abbr 省略形 i.e. Adj 形容詞 big Adj-Comp 比較級の形容詞 bigger Adj-Ord 序数を表す形容詞 third Adj-Sup 最上級の形容詞 biggest Adj 115 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Adv 副詞 quickly Adv-Comp 比較級の副詞 sooner Adv-Int/Rel wh- 副詞 how Adv-Sup 最上級の副詞 soonest Aux 助動詞または法助動詞 could Conj-Coord 等位接続詞 and Conj-Sub 従属接続詞 unless Det 不定限定詞 (単数形ま たは複数形) some food Det-Def 冠詞 the Det-Indef 不定限定詞 an Det-Int 疑問限定詞 what time? Det-Int/Rel 疑問限定詞または関係 限定詞 whose Det-Pl 複数形の限定詞 those apples Det-Poss 所有限定詞 my Det-Rel 関係限定詞 whatsoever Det-Sg 単数形の限定詞 every Interj 感嘆詞 oh, hello Nn 不変化名詞 sheep Nn-Letter Letter b, N Nn-Net URL、電子メールアドレ ス Nn-Pl 複数形の名詞 computers Nn-Sg 基数またはその他の数 値表現 farmer Adv Aux Conj Det Interj Nn 116 www.inxight.com, [email protected] 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Num Num 基数またはその他の数 値表現 40.5, 11/27/00, $12.55, 12%, xvii, 9:00 Part-Inf 不定詞マーカー to be or not to be Part-Neg 否定の不変化詞 not Part-Poss 所有マーカー John's coat Prep 前置詞 below Prep-at 前置詞 at at Prep-of 前置詞 of of Pron 代名詞 he Pron-Int wh 代名詞 what do you want? Pron-Int/Rel wh 代名詞 who Pron-Refl 再帰代名詞 himself Pron-Rel 関係代名詞 whoever Prop 個人または物の名前 Graceland Punct その他の区切り記号 - ; /%$ Punct-Close 閉じる区切り記号 )]} Punct-Comma コンマ , Punct-Open 開く区切り記号 ([{ Punct-Quote 引用符 " '' Punct-Sent 文末の区切り記号 .!? Part Prep Pron Prop Punct 117 2012-06-14 言語モジュールリファレンス アンブレラタグ V 完全タグ 説明 例 V-Inf-be 不定値 to be be V-PaPart 動詞、過去分詞、-ed 形 の動詞 has walked V-PaPart-be to be の過去分詞 has been V-PaPart-have to have の過去分詞 he has had V-Past 動詞、過去形 ran V-Past-have have の過去形 we had V-Past-Pl-be 動詞、to be の複数形の 過去形 were V-Past-Sg-be 動詞、to be の単数形の 過去形 was V-Pres 動詞、現在形または不 定詞 sit V-Pres-3-Sg 動詞、現在形、三人称 単数形 sits V-Pres-3-Sg-have 現在形、have の三人称 単数形 has V-Pres-have 現在形または have の 不定詞 have V-Pres-Pl-be 動詞、to be の複数形の 現在形 are V-Pres-Sg-be 動詞、to be の単数形の 現在形 is V-PrPart 動詞、現在分詞、-ing 形の動詞 is walking 5.8.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、英語のタグ設定推測機能に渡され、最も適していると思わ れるタグが設定されます。英語のタグ設定推測機能は、英語の形態構造に関するルールセットに基づいて、検 出されなかった単語にタグを設定します。たとえば、末尾が -ly の単語は副詞とみなされます。インターネット および電子メールのアドレスには、Nn-Net というタグが設定されます。 118 2012-06-14 言語モジュールリファレンス 大文字表記の情報も重要です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。同 様に、アルファベット文字と数字の組み合わせは、固有名詞とみなされます。序数は、ソフトウェアによって決 定されるコンテキストに応じて、名詞または形容詞のどちらかとしてタグ設定されます。 5.8.2 抽出 ここでは、英語の抽出固有の情報について説明します。 5.8.2.1 詳細解析 抽出プロセスでは、単語の語義および構文に関する知識を持つツールを使用することで、言語処理が実行さ れます。通常、言語処理では、段落、文、および句を識別してから、テキスト内での語義および構文情報が識 別されます。抽出には、英語の言語処理用に、標準と詳細の 2 つのモードがあります。デフォルトは標準です。 詳細解析には、代名詞の解決の他に、従来よりさらに改善された構文的機能の属性を含む名詞句抽出機能 があります。抽出ルールを処理中の場合にのみ使用できます。 5.8.2.2 英語のサブタイプ 英語がサポートするサブタイプのタイプは、FACILITY、GEO_AREA、GEO_FEATURE、NIN、ORGANIZATION、 REGION、SOCIAL_MEDIA、URI、COMMON_FACILITY、COMMON_GEO_AREA、COMMON_GEO_FEATURE、 COMMON_ORGANIZATION、COMMON_PERSON、および COMMON_REGION です。 関連項目 • 34 ページの「 サブタイプ」 5.8.2.3 事前定義済みエンティティタイプ ここでは、英語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説明し ます。 119 2012-06-14 言語モジュールリファレンス 次の各リンクをクリックすると、サブセクションに移動できます。120 ページの 「ADDRESS1」、120 ページの 「CONTINENT」、121 ページの 「COUNTRY」、121 ページの 「CURRENCY」、121 ページの 「DATE」、121 ペー ジの 「DAY」、122 ページの 「FACILITY」、122 ページの 「GEO_AREA」、123 ページの 「GEO_FEATURE」、123 ページの 「HOLIDAY」、124 ページの 「LOCALITY」、124 ページの 「MEASURE」、124 ページの 「MONTH」、 124 ページの 「NIN」、125 ページの 「NOUN_GROUP」、125 ページの 「ORGANIZATION」、126 ページの 「PEOPLE」、126 ページの 「PERCENT」、127 ページの 「PERSON」、127 ページの 「PHONE」、128 ページの 「PRODUCT」、128 ページの 「PROP_MISC」、128 ページの 「REGION」、129 ページの 「SOCIAL_MEDIA」、129 ページの 「TICKER」、129 ページの 「TIME」、130 ページの 「TIME_PERIOD」、130 ページの 「TITLE」、130 ページの 「URI」、および 131 ページの 「YEAR」。 注 英語言語モジュールは、次の公共部門エンティティも抽出します。GEOCOORD、MGRS、MISC_NUMERIC、 PHONEMTF、PRECURSOR、VEHICLE、WEAPON、COMMON_PRECURSOR、COMMON_VEHICLE、およ び COMMON_WEAPON。 これらの公共部門エンティティの詳細については、337 ページの 「公共部門コンテンツエンティティ - 英語」を 参照してください。 5.8.2.3.1 ADDRESS1 ADDRESS1 の形式は、米国の住所の形式に基づきます。 通り番地および通り 市 州 郵便番号 1234 Mahana St. Honolulu Hawai'i 96816 通り番地および通りは住所に必須のパーツですが、市、州、および郵便番号はオプションです。私書箱と地方 配送路は、ADDRESS1 としてもグループ化されます。 • 1234 Mahana St. • PO Box 1010 • Rural Route 5 5.8.2.3.2 CONTINENT 大陸のいずれか。例: • Asia • Europe 注 America と Australia は、COUNTRY としてのみ抽出されます。 120 2012-06-14 言語モジュールリファレンス 5.8.2.3.3 COUNTRY 国の名前、および省略形。このリストには、紛争中の領土や国際的に認知されていない領土などの、従来のラ ベルを適用できない、地政学的なエンティティの名前も含まれます: • Italy • U.K. • USA • Palestinian National Authority • Taiwan 5.8.2.3.4 CURRENCY 国際通貨額、および通貨額の範囲: • 35 cents • 1.19 dlrs • one dollar and twenty-five cents • 785 to 995 dlrs 5.8.2.3.5 DATE 日付は最低でも数字と月で構成されます。 • April 2 • 26 November 1998 • September tenth • fourth of June 日付表現: • 2-4 May • 3 June to 5 July 5.8.2.3.6 DAY 省略形を含む曜日。 121 • Monday • Mon. • TUES 2012-06-14 言語モジュールリファレンス 5.8.2.3.7 FACILITY 人工の構造物。次のサブタイプのいずれかとして抽出されます。 • • • • • AIRPORT– 主に空輸ターミナルとして使用される、主として人工または維持対象の構造物の名前。次はそ の例です。 • Los Angeles International Airport • South Capitol Street Heliport BUILDGROUNDS– 建築的な土木構造物の名前、および主として人工または維持対象の戸外空間の名 前。機能に関する区別はされません。民間施設、軍用施設のどちらでもありえます。業務、娯楽のどちらの 用途でも使用される可能性があり、記念建造物である可能性もあります。例: • Berlin Wall • Disneyland • Fort Knox • Grand Central Station • Statue of Liberty PATH– 流動体、エネルギー、人、動物、または車両を、ある場所から別の場所に移動できる、主として人 工または維持対象の構造物の名前。次はその例です。 • Champs-Elysees • Erie Canal • London Bridge • Times Square PLANT– 工業目的で使用される、1 つ以上の建物で構成される施設の名前。次はその例です。 • San Onofre Nuclear Generating Station • Shell Oil Refinery • Three Mile Island SUBAREA– 人、動物、または物を収容できる、施設の一部の名前。通常は建築上のもの。例: • Air Canada Maple Leaf Lounge 5.8.2.3.8 GEO_AREA 国の集団など、重要な土地の集合体を指す、大きい地理的な領域。次のうちいずれかのサブタイプとして抽出 されます: • 122 DOMESTIC– 国境を越えない場所の名前。例: • Northern Chicago • South Miami 2012-06-14 言語モジュールリファレンス • • • Midwest INTL– 国境をまたがる場所の名前。例: • Southeast Asia • Western Europe • European countries OTHER– 特定のサブタイプに適合しない場所の名前。次はその例です。 • European region 5.8.2.3.9 GEO_FEATURE 政治的なエンティティを構成しない、人工のものではない地理的な場所。次のうちいずれかのサブタイプとして 抽出されます: • • • • BOUNDARY– 境界線などの場所の名前。例: • Mason-Dixon • Tropic of Cancer CELESTIAL– 地球の境界線の外側にある天文学的な場所の名前。次はその例です。 • Neptune • Mars LAND– 地質学的または生態学的に形成された、人工のものではない場所の名前。例: • Grand Canyon • Mount Fuji WATER– 水域である場所の名前。例: • Pacific Ocean • Lake Michigan • Volga River 5.8.2.3.10 HOLIDAY 休日および特例日: 123 • New Year's Day • 4th of July • Martin Luther King Day • Rosh Hashanah 2012-06-14 言語モジュールリファレンス 5.8.2.3.11 LOCALITY 主要都市の省略形を含む、市の名前。 • Cairo • New Delhi • Honolulu • N.Y. • Seville, Spain • Paris, Texas • Sunnyvale, CA, USA 5.8.2.3.12 MEASURE 測定単位の標準的な省略形を含む、英語または測定単位で表された、重さ、体積、長さなどのメジャー: • 25 cubic feet • 20 grams • 6m 変更率、およびメジャーの比率と範囲: • 65 mph • 33 mpg • five cts per share • 20 dlrs per unit 5.8.2.3.13 MONTH 省略形を含む、暦の月: • January • Feb. • OCT 5.8.2.3.14 NIN 国民識別番号、社会保障番号: • 124 012-44-5668 2012-06-14 言語モジュールリファレンス 注 抽出された NIN/US_SSN エンティティは、SSN 入力フィールドのいずれかにマッピングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。 5.8.2.3.15 NOUN_GROUP 英語の名詞群は、修飾する形容詞を持つ複数の名詞です。次はその例です。 • biggest problem • interest rate • mortgage interest tax relief 5.8.2.3.16 ORGANIZATION 非営利団体、美術グループなどの団体や組織を含む、商業機関、政府機関、教育機関、法律機関、および サービス機関。次のうちいずれかのサブタイプとして抽出されます。 • COMMERCIAL– 主要な企業や法人などの営利組織の名前。例: • Apple Corporation • General Electric Co. 企業や法人のバリアントおよび省略形も含まれます。 • Apple • NBC • IBM 注 抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。 • • EDUCATIONAL– 主に教育を目的とする機関の名前。次はその例です。 • Brown • Cambridge University • MIT • Stanford University ENTERTAINMENT– 主に娯楽を目的とする機関の名前。例: • Cirque du Soleil • Boston Symphony Orchestra 注 COMMERCIAL と考えられる、 Time Warner や Disney などのマスメディア関連のコングロマリットも抽出 されます。 125 2012-06-14 言語モジュールリファレンス • • • • • • GOVERNMENT– 行政、政策、または国家に関連する組織の名前。このリストには、政治的なエンティティ として機能することが可能な地政学的なエンティティのグループも含まれます。例: • Foreign Ministry • Air National Guard • European Community • Benelux MEDIA– マスメディア、広告、または出版を目的とする組織の名前。次はその例です。 • Associated Press • PBS MEDICALSCIENCE– 医療または研究を目的とする組織の名前。例: • American Medical Association • Dana-Farber Cancer Institute • European Space Agency RELIGIOUS– 宗教を目的とする組織の名前。例: • Church of Jesus Christ of Latter Day Saints • Church of England SPORTS– スポーツを目的とする組織の名前。例: • Red Sox • New York Yankees OTHER– 特定のサブタイプに適合しないすべての組織。次はその例です。 • Greenpeace • United Nations 5.8.2.3.17 PEOPLE 国、民族、地域、または宗教に基づく人々の特定可能なグループに関連する名前。次はその例です。 • Arabs • Scots 5.8.2.3.18 PERCENT パーセンテージ: 126 • 220% • 18 pc 2012-06-14 言語モジュールリファレンス • fifty percent パーセント表現: • from 10% to 20% • between 5 and 10 percent 5.8.2.3.19 PERSON 名前で特定される個人。さまざまな形式が識別されます。 • Bill Clinton • William J. Clinton • W.J. Clinton III • William Jefferson Clinton • Mustafa Al-Jaziri `Abd Al-Rahaman Nudle • Mary Beth Josephine Thomas • Ms. Washington • Mr. Copperfield 注 Bush などの有名な場合を除いて、単独で出現する名および姓は、これらが普通名詞を伴って多義的でない 限りは、PERSON として抽出されます。 5.8.2.3.20 PHONE 米国形式の電話番号: • 1-408-738-6200 • 408-738-6200 • 738-6200 • (408) 738-6200 • 1-888-FLOWERS • 408-738-6200 x111 フランス形式、ドイツ形式、およびスペイン形式の国際電話番号: 127 • 11 11 22 22 22 • 11/22/33/44/55 • (01) 11 22 33 44 55 • (+49)-111-22-33333 2012-06-14 言語モジュールリファレンス • Telefon: 0111-22222 • T 030/11 22 333 5.8.2.3.21 PRODUCT ソフトウェア製品およびサービス指向の製品を含む、製品名: • Windows • Cheerios • Legos 5.8.2.3.22 PROP_MISC 他のエンティティで特定されるエンティティタイプのいずれにも分類されない、固有名詞: • Second World War in A book on the Second World War • World Cup in It is called the World Cup • North American Legal System in A working group on the "idea" of a North American Legal System 5.8.2.3.23 REGION さまざまな地域は、次のサブタイプのいずれかとして抽出されます: • MAJOR– 標準の省略形および 2 文字の郵便番号を含む、米国の 50 州のうちの 1 つ。例: • California • Hawai'i • Calif. カナダの州や準州、フランスの行政区などの国の主要な行政区分。次はその例です。 • 128 • British Columbia • Puerto Rico • Pays de la Loire • Guam • Bavaria MINOR– 国、県、地区の名前、または類似の区画や行政機関: • District of Columbia • Orange County 2012-06-14 言語モジュールリファレンス 5.8.2.3.24 SOCIAL_MEDIA ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック は、次のサブタイプのいずれかとして抽出されます: 注 SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。 • • "@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例: • @SCNblogs • @sapnoticiasbr • @sapnews • @SAP_MICROSOFT "#" ではじまる TOPIC_TWITTER–Twitter のトピック。例: • #SAP • #Mobility • #SAPPRESS • #SAP_projects 5.8.2.3.25 TICKER 株式取引で使用される企業の株式のティッカーシンボル。TICKER エンティティは、為替のコンテキスト内で、 次のパターンの 1 つに使用されている場合にのみ抽出されます。 • 左かっこ "("、および右側に ":" と証券取引所が順に続く。例: (MSFT:NYSE • 証券取引所と後続の ":"。例: NYSE:MSFT • "Microsoft Corporation (NASDAQ:MSFT)" の中の MSFT • "Hewlett-Packard (HPQ:NASDAQ)" の中の HPQ 5.8.2.3.26 TIME 時、分、および秒の指定: • 9:00 • 9:00 a.m. • 9:15 pm PST 時間表現: 129 • 8 a.m.-2 p.m. • 2 to 5 p.m. 2012-06-14 言語モジュールリファレンス 5.8.2.3.27 TIME_PERIOD 時間のメジャー、および時間の範囲のメジャー: • 5 seconds • 1 hour, 35 minutes • 25 years • 5-10 minutes • 20-30 years • 21st century 5.8.2.3.28 TITLE 肩書きおよび地位 (可能な場合は所属とともに): • President • Secretary of State • Director of Marketing • United States Attorney • Queen of England • Microsoft CEO • British Prime Minister 5.8.2.3.29 URI インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます: • EMAIL– 電子メールアドレス。例: • • IP– IP アドレス。例: • • 130 [email protected] 8.22.200.3 URL– インターネットアドレス。例: • http://www.netscape.com • www.netscape.com • kcbs.com 2012-06-14 言語モジュールリファレンス 5.8.2.3.30 YEAR A.D., BC, BCE, または C.E などの表記を含む、すべての年: • 2001 • '63 • 1998 A.D. • 200 BC • 2525 C.E. 10 年間、100 年間、および年の表現: • 1950s • 50s • 1999-2000 5.8.2.4 名詞の一般表記 名詞の一般表記は、通常は固有名詞によって参照されることになる、組織、個人、施設などのエンティティを参 照するための、普通名詞の使用を参照します。これらは、適切な名詞を主要語として、名詞句として定義され ます。単数形および複数形の両方が一致されます。固有名詞および修飾語句も含まれます。限定詞は含まれ ません。 ここでは、英語言語モジュールがサポートする名詞の一般表記と、それらの例について説明します。次の各リ ンクをクリックすると、サブセクションに移動できます。131 ページの 「COMMON_ADDRESS1」、131 ページの 「COMMON_CONTINENT」、132 ページの 「COMMON_COUNTRY」、132 ページの 「COMMON_FACILITY」、 133 ページの 「COMMON_GEO_AREA」、133 ページの 「COMMON_GEO_FEATURE」、134 ページの 「COM MON_LOCALITY」、134 ページの 「COMMON_ORGANIZATION」、135 ページの 「COMMON_PERSON」、お よび 135 ページの 「COMMON_REGION」。 5.8.2.4.1 COMMON_ADDRESS1 住所に関する普通名詞: • fictitious address 5.8.2.4.2 COMMON_CONTINENT 任意の大陸の全体に関する普通名詞: • 131 major continents 2012-06-14 言語モジュールリファレンス 5.8.2.4.3 COMMON_COUNTRY 任意の国の全体に関する普通名詞。このリストには、紛争中の領土や国際的に認知されていない領土などの、 従来のラベルを適用できない、地政学的なエンティティに関する普通名詞も含まれます: • beloved motherland • major countries • Native American reservation • smaller nations 5.8.2.4.4 COMMON_FACILITY 人工の構造物に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • • • • 132 AIRPORTS– 主に空輸ターミナルとして使用される、主として人工または維持対象の構造物の名前。以下 はその例です。 • commercial airport • busy air field • public heliport BUILDGROUNDS– 建築的な土木構造物の名前、および主として人工または維持対象の戸外空間の名 前。機能に関する区別はされません。民間施設、軍用施設のどちらでもありえます。業務、娯楽のどちらの 用途でも使用される可能性があり、記念建造物である可能性もあります。以下はその例です。 • public library • famous national archives • national park • training camp • train station • naval port PATH– 流動体、エネルギー、人、動物、または車両を、ある場所から別の場所に移動できる、主として人 工または維持対象の構造物の名前。以下はその例です。 • deserted street • narrow canal • heavily defended bridge PLANT– 工業目的で使用される、1 つ以上の建物で構成される施設の名前。以下はその例です。 • oil refinery • copper smelter • thermal power station 2012-06-14 言語モジュールリファレンス • • steel foundry SUBAREA– 人、動物、または物を収容できる、施設の一部の名前。通常は建築上のもの。例: • small atrium • cold cellar • new kitchen • top-floor apartment 5.8.2.4.5 COMMON_GEO_AREA 政治的なエンティティでも自然の場所でもない地理的な地域に関する普通名詞。次のサブタイプのいずれか として抽出されます: • • DOMESTIC– 国境を越えない場所に関する普通名詞: • remote region • open frontier area • modest neighborhood INTL– 国境をまたぐ場所に関する普通名詞 • overseas 5.8.2.4.6 COMMON_GEO_FEATURE 自然地理的または政治的な地域に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • • • • 133 BOUNDARY– 境界線などの場所に関する普通名詞: • northern border • unaccessible frontiers CELESTIAL– 地球の外側の場所に関する普通名詞: • largest planet • night sky LAND– 地質学的または生態学的に形成された、人工のものではない場所に関する普通名詞: • mountain range • French seaside WATER– 水域に関する普通名詞: • saltwater lake • flooding rivers 2012-06-14 言語モジュールリファレンス 5.8.2.4.7 COMMON_LOCALITY 市に関する普通名詞: • border town • densely populated cities 5.8.2.4.8 COMMON_ORGANIZATION 組織に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • • • • • • • 134 COMMERCIAL– 会社に関する普通名詞: • small robotics company • pesticides manufacturers • world's fourth-biggest airline EDUCATIONAL– 教育を目的とする機関に関する普通名詞: • private university • public colleges ENTERTAINMENT– 娯楽を目的とする機関に関する普通名詞: • contemporary circus • theater company GOVERNMENT– 行政、政策、または国家に関連する機関に関する普通名詞。政治的なエンティティとし て機能することが可能な地政学的なエンティティのグループに関する普通名詞も含まれます • Taliban regime • Clinton administration • EU federation MEDIA– マスメディアに関連する機関に関する普通名詞: • news service • television station MEDICALSCIENCE– 治療または研究に関連する機関に関する普通名詞: • health group • teaching hospital RELIGIOUS– 宗教に関連する機関に関する普通名詞: • Catholic church • powerful archdiocese 2012-06-14 言語モジュールリファレンス • • SPORTS– スポーツに関連する組織に関する普通名詞: • major league • sport team OTHER– 特定のサブタイプに適合しない組織に関する普通名詞: • Palestinian and Lebanese organizations • largest opposition party 5.8.2.4.9 COMMON_PERSON 個人に関する普通名詞。次のサブタイプのいずれかとして抽出されます: • • GROUP– 個人のグループに関する普通名詞: • wedding ceremony ministers • dead or injured members • submarine crew INDIVIDUAL– 個人に関する普通名詞: • 58-year-old man • math teacher 5.8.2.4.10 COMMON_REGION さまざまな地域に関する普通名詞。次のサブタイプのいずれかとして抽出されます: MAJOR - 州および地方に関する普通名詞。例: • historical provinces • home state MINOR - 行政区の全体に関する普通名詞。例: • millionaire counties • development district 5.9 フランス語言語リファレンス この章では、フランス語言語モジュールの動作について説明します。 135 2012-06-14 言語モジュールリファレンス 5.9.1 言語処理 ここでは、単語のセグメンテーション、ステミング、タグ設定など、フランス語テキストの言語処理における言語固 有の情報について説明します。 5.9.1.1 フランス語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.9.1.2 フランス語の単語のセグメンテーション フランス語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま す。フランス語のセグメンテーション機能には、次の言語固有の動作があります。 フランス語の接語やエリジオンは、これらが修飾する単語から分離されます。セグメンテーション機能では、動 詞の末尾のハイフンは保持され、各接語の先頭にハイフンが付けられます。エリジオンを分離するときに、アポ ストロフィは、文字が省略されていた単語に付いて保持されます。省略形は、区切り記号がそのまま保持されま す。 テキスト セグメンテーション後 donne- donne-le-moi -le -moi l' l'abri abri 136 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 trad. trad. 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.9.1.3 フランス語のステミング ここでは、フランス語のステミングで使用される、標準ステム機能、拡張屈折ステム機能、および屈折ステマー 推測機能について説明します。 5.9.1.3.1 標準ステム機能 フランス語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な 品詞 (オープンクラス) はその原形にステム処理されます。女性の職業名詞は、同等の男性名詞にステム処理 されます。固有名詞はそのものにステム処理されます。次の表にこれを示します。 カテゴリ 原形 例 名詞 単数形 livres -> livre; actrice -> acteur 固有名詞 ソースの形式 France -> France 動詞 不定詞 connais, connaissez -> connaître 形容詞 男性単数形 grandes, grande -> grand 副詞 ソースの形式 probablement -> probablement フランス語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されます。 複数形のみの形、およびすべての人称代名詞では、数情報が保持されます。適用できる場合は、これらの代 137 2012-06-14 言語モジュールリファレンス 名詞は主格形にステム処理されます。その他の形はすべて、男性単数形にステム処理されます。次の表にこ れを示します。 テキスト ステム beaucoup beaucoup plusieurs plusieurs elles ils moi je lesquelles lequel クローズドクラスの単語は正規化される場合と、そのものにステム処理される場合があります。 省略形、頭字語、感嘆詞、数字、および擬音語の各形式の単語カテゴリは、そのものにステム処理されます。 次の表にこれを示します。 例 ステム par ex. par ex. min. min. UNICEF UNICEF 15km 15km 短縮された前置詞は、そのコンポーネントに分割され、これらのステムの間に等号を挿入して返されます。等号 は、各ステムが意味上同じ程度重要であることを示します。短縮された前置詞が複合語ユニット内に出現する 場合、最後の短縮が分割されます。次の表にこれを示します。 138 例 ステム au à=le 2012-06-14 言語モジュールリファレンス 例 ステム au moment du au moment de=le 5.9.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。フランス語固有の ものは次のとおりです。 拡張バージョンでは、正確な大文字表記およびアクセント記号表記は必要ありません。 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 Paris Paris paris Paris IBM IBM ibm IBM アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字に置き換えられるアクセント記号なし文字を許容します。 139 例 出力 héros héros heros héros nôtre nôtre 2012-06-14 言語モジュールリファレンス 例 出力 notre nôtre ハイフネーション 拡張バージョンでは、数値ではない表現内のハイフンはオプションです。 例 出力 Tiers-Monde Tiers-Monde TiersMonde Tiers-Monde est-ouest est-ouest estouest est-ouest 5.9.1.3.3 屈折ステマー推測機能 屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能 にとって未知であるため、ステム処理できない単語に適用できます。 このソフトウェアの言語処理は、最初に標準または拡張屈折ステム機能を使用してステミングを試み、次に、従 来どおりにステム処理できなかった単語にのみ、ステマー推測機能を使用します。 5.9.1.4 フランス語の品詞タグ設定 次の表にフランス語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。例が複数の 単語で構成される場合、現在のタグを例示する単語を太字で示します。タグセットは性別を区別しません。 140 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Adj 不変化形容詞 heureux Adj-Ord-Pl スペルアウトされた複数 形の序数 deuxièmes Adj-Ord-Sg スペルアウトされた単数 形の序数 deuxième Adj-Pl 複数形の形容詞 gentilles Adj-Pre 前置された、不変化形容 詞 vieux Adj-Pre-Pl 前置された、複数形の形 容詞 petits chiens Adj-Pre-Sg 前置された、単数形の形 容詞 petit chien Adj-Sg 単数形の形容詞 gentille Adv 副詞 finalement, aujourd'hui Adv-Deg 形容詞を修飾できる副詞 très Aux-Fin-12 一人称または二人称の 助動詞、任意の時制 fusse Aux-Fin-3-Pl 三人称複数の助動詞、 任意の時制 seraient Aux-Fin-3-Sg 三人称単数の助動詞、 任意の時制 serait Aux-Inf 不定詞の助動詞 en avoir assez Aux-PaPart 過去分詞の助動詞 eu Aux-PrPart 現在分詞の助動詞 ayant Conj-Adv 等位接続詞または従属 接続詞 quand Conj-comme Comme comme Conj-Coord 等位接続詞 et, ou Conj-que Que que Adj Adv Aux Conj 141 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Det-Pl 複数形の限定詞 vos Det-Sg 単数形の限定詞 ma, votre Interj 感嘆詞 hi, pouah Nn 不変化名詞 taux Nn-Letter Letter z, K Nn-Net URL および電子メール アドレス Nn-Pl 複数形の名詞 chiens, fourmis Nn-Sg 単数形の名詞 chien, fourmi Num 数詞または数字表現 treize, un million, 12, 15kHz, XIX Part-Neg 否定の不変化詞 ne Part-voicila 不変化詞 voici および voilà voici, voilà Prep 前置詞 ( à au de du ... 以外) dans Prep-a 前置詞 à à, au, aux Prep-de 前置詞 de de, des, du, d' Prep-en 前置詞 en en bonne santé Pron 代名詞 il, elles Pron-12 一人称または二人称の 代名詞 je Pron-Clit 接続代名詞 donne-le, donne-lui Pron-IntRel 関係代名詞または疑問 代名詞 (que 以外) qui, quoi, lequel Prop 固有名詞 Marie, Paris Det Interj Nn Num Part Prep www.inxight.com, [email protected] Pron Prop 142 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Punct 区切り記号 :- Punct-Comma コンマ , Punct-Quote 引用符 " Punct-Sent 文末の区切り記号 . ! ?; V/Adj-PaPart 不変化過去分詞の動詞 または形容詞 souri V/Adj-PaPart-Pl 複数形過去分詞の動詞 または形容詞 lues V/Adj-PaPart-Sg 単数形過去分詞の動詞 または形容詞 dansé V-Fin-12 一人称または二人称の 動詞、任意の時制 dansiez, dansais V-Fin-3-Pl 三人称複数の動詞、任 意の時制 danseront V-Fin-3-Sg 三人称単数の動詞、任 意の時制 dansait V-Inf 不定詞の動詞 danser, finir V-PrPart 現在分詞の動詞 notant Punct V/Adj V 5.9.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、フランス語のタグ設定推測機能に渡されます。この機能で は、これらの単語に、フランス語の形態構造および大文字表記に関するルールセットに基づくタグが設定され ます。次のタグ設定ルールセットは、このモジュールの一部です。 動詞のタグは動詞の活用形に従って設定されます。副詞のタグは、末尾が -ement, -amment, -emment, -iment の単語に設定されます。末尾が -able(s), -ible(s), -eux, -ois の単語は形容詞とみなされ、末尾が -gé(s), -ré(s) の単語は過去分詞とみなされます。 その他の、すべて小文字のアルファベットの単語 (末尾が -s のもの以外) はすべて単数形の名詞とみなされ、 末尾が -s, -aux, および -men のすべて小文字のアルファベットの単語は複数形の名詞とみなされ、末尾が x, z, ais, ois のすべて小文字のアルファベットの単語は不変化名詞とみなされます。インターネットアドレスお よび電子メールアドレスには、Nn-Net としてタグ設定されます。 大文字ではじまる単語、または数字ではじまり大文字が続く単語は、固有名詞とみなされます。このような単語 の残りの部分には、数字、小文字または大文字の文字、ハイフン、またはスラッシュが含まれることがあります。 143 2012-06-14 言語モジュールリファレンス 数字と区切り記号の組み合わせは、数字としてタグ設定されます。連続した区切り記号マークは、区切り記号 としてタグ設定されます。 5.9.2 抽出 ここでは、フランス語の抽出固有の情報について説明します。 5.9.2.1 フランス語のサブタイプ フランス語がサポートするサブタイプのタイプは、NIN、ORGANIZATION、REGION、SOCIAL_MEDIA、および URI です。 関連項目 • 34 ページの「 サブタイプ」 5.9.2.2 事前定義済みエンティティタイプ ここでは、フランス語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について 説明します。次の各リンクをクリックすると、サブセクションに移動できます。144 ページの 「ADDRESS1」、145 ページの 「CONTINENT」、145 ページの 「COUNTRY」、146 ページの 「CURRENCY」、146 ページの 「DATE」、 147 ページの 「DAY」、147 ページの 「GEO_AREA」、147 ページの 「GEO_FEATURE」、148 ページの 「HOLI DAY」、148 ページの 「LANGUAGE」、148 ページの 「LOCALITY」、148 ページの 「MEASURE」、149 ページの 「MONTH」、149 ページの 「NIN」、149 ページの 「NOUN_GROUP」、150 ページの 「ORGANIZATION」、151 ページの 「PEOPLE」、151 ページの 「PERCENT」、151 ページの 「PERSON」、151 ページの 「PHONE」、152 ページの 「PRODUCT」、152 ページの 「PROP_MISC」、152 ページの 「REGION」、153 ページの 「SOCIAL_ME DIA」、153 ページの 「TICKER」、153 ページの 「TIME」、154 ページの 「TIME_PERIOD」、154 ページの 「TITLE」、 155 ページの 「URI」、および 155 ページの 「YEAR」。 5.9.2.2.1 ADDRESS1 ADDRESS1 の形式は、カナダ系フランス語およびヨーロッパのフランス語の住所にみられる、典型的な住所の パターンに基づきます: 144 2012-06-14 言語モジュールリファレンス Street-address City Province Country Postal-code 27 rue Pasteur Sherbrooke Québec Canada J1K 2Y3 • 4, rue du 8 Mai 1945, Vancouver, BC, V6E 1R8 • Case Postale 123, Succursale Centre-Ville, Montréal, PQ, Canada Street-address Postal-code City Country 31bis, Saint-Joseph nord 13402 Marseille, France • Rue du Cornet 6 B-4800 VERVIERS BELGIQUE • 19 quai de la Voltaire, Paris • 68bis avenue des Abesses • 1, av Carnot • 2ter, Fbg des Abesses 5.9.2.2.2 CONTINENT 大陸のいずれか。例: • Asie • Europe • Afrique 5.9.2.2.3 COUNTRY 国の名前、および一定の国家集団の略称。このリストには、紛争中の領土や国際的に認知されていない領土 などの、従来のラベルを適用できない、地政学的なエンティティの名前も含まれます: 145 • France • République française • Belgique • Royaume de Belgique • Canada 2012-06-14 言語モジュールリファレンス • Suisse • É.-U. • Gibraltar • Kosovo • Taiwan • Tibet 5.9.2.2.4 CURRENCY 金額を表す表現、および金額の範囲を表す表現: • 6 800 000 DM • 68.985FB • 300,687 • 28,5 £ • $ 5000 • deux cent deux yens • une dizaine de milliards de francs belges • de 3 à 4 francs • de 5DM à 15DM • entre trois et quatre milliards de dollars canadiens • 1260000000 EUR • 0.18 EUR • 200000 USD • 50000000000 USD • 36.33 USD 5.9.2.2.5 DATE 日付は最低でも 1 つの数字と月の名前で構成されます: 146 • 6 Oct • 10 nov. • 17 fév 1999 • 31/12/1986 • 3-31-2000 2012-06-14 言語モジュールリファレンス • 3.31.2000 • 2007-07-30 日付表現: • 3 et 4 juin, 2000 • 3, 5, et 7 juin, 2000 • du 3 au 5 juin 2000 • 28 et 29 juillet 5.9.2.2.6 DAY 曜日の名前、および曜日を基にした表現: • vendredi • Mardi • jeudi et vendredi • de samedi à dimanche • vendredi, samedi et dimanche 5.9.2.2.7 GEO_AREA 国の集団など、重要な土地の集合体を指す、市よりも大きい地理的な領域: • Gaspésie • Amazonie • Asie du Sud-Est • Silicon Valley • Moyen-Orient • Afrique de l'Ouest 5.9.2.2.8 GEO_FEATURE CONTINENT、COUNTRY、GEO_AREA、LOCALITY、または REGION として識別されない場所の名前: 147 • delta du Niger • Himalaya • fleuve Saint-Laurent • mer Ionienne 2012-06-14 言語モジュールリファレンス 5.9.2.2.9 HOLIDAY 一般的な休日の名前: • Toussaint • Nouvel An • Pâques • Réveillon de Noël 5.9.2.2.10 LANGUAGE 言語に関連する名詞: • Il parle l'espagnol • Un livre en allemand • Le swahili est une langue d'Afrique 5.9.2.2.11 LOCALITY 市の名前: • Honfleur • Bruxelles • Londres • Prague • San Francisco 5.9.2.2.12 MEASURE メジャー表現、およびメジャーの範囲を表す表現: 148 • 200.000 tonnes • 1.600 mégawatts • 242.000 barils • 45 degrés • 18 kilomètres • 30 ml • 512 bits • entre 5 et 6 centimètres • de 50 à 60 eV 2012-06-14 言語モジュールリファレンス 5.9.2.2.13 MONTH 暦の月の名前および 1 つ以上の月を表す句: • septembre • mi-août • entre avril et juin • d'avril à juin • mi-décembre • de mai à septembre 1896 5.9.2.2.14 NIN カナダの社会保険番号およびフランスの INSEE 番号は、次のサブタイプのいずれかとして抽出されます: • FR_INSEE– Numbers from the French Institut national de la statistique et des études économiques: 1 23 45 67 890 000 • CA_SIN– Canadian Social Insurance numbers: 123-456-789 注 カスタムクレンジングパッケージを作成して、NIN/CA_SIN エンティティまたは NIN/FR_INSEE エンティティを解 析および標準化できます。抽出された NIN/CA_SIN または NIN/FR_INSEE エンティティは、UDPM (ユーザ定 義パターン一致) 入力フィールドのいずれかにマッピングすることで、Data Quality Data Cleanse トランスフォー ムを使用して解析および標準化できます。 UDPM 入力フィールドの使用の詳細については、 『SAP Business Objects Data Services リファレンスガイド 』 を参照してください。 5.9.2.2.15 NOUN_GROUP フランス語の単純名詞句は、名詞と、必要に応じて前置修飾語および後置修飾語で構成されます: 149 • progression équivalente • développement durable • épargne populaire • pays européens • internautes expérimentés • fonds spéculatif australien 2012-06-14 言語モジュールリファレンス 5.9.2.2.16 ORGANIZATION 非営利団体、美術グループなどの団体や組織を含む、商業機関、政府機関、教育機関、法律機関、および サービス機関。次のうちいずれかのサブタイプとして抽出されます。 • COMMERCIAL– 主要な企業や法人などの営利組織の名前。例: • Airbus • Enron • Northern Trust • Banque de Montréal • XYZ S.A. as in Peugeot S.A. • XYZ Enregistrée as in Goblet Systems Enregistrée • XYZ Incorporée as in Goblet Incorporée • Télécom XYZ as in Télécom Intermosane 一定の、英語の会社名のパターン: • XYZ and Co. as in Arditon and Co. • XYZ Limited as in Advance Technology Limited 注 Any extracted ORGANIZATION/COMMERCIAL entities can be parsed and standardized using the Data Quality Data Cleanse transform by mapping them to one of the FIRM input fields. • • 150 EDUCATIONAL– 主に教育を目的とする機関の名前。例: • Université de Bordeaux • Université Pierre et Marie Curie • Université du Québec • Ecole élémentaire publique d’Amiens OTHER– 政治的なエンティティとして機能することが可能な地政学的なエンティティのグループを含む、そ の他の非営利組織: • Agence Européenne de la Sécurité Aérienne • Université de Louvain • Unesco • Union Européenne • Benelux 2012-06-14 言語モジュールリファレンス 5.9.2.2.17 PEOPLE 国民の名前: • les Anglais • les Canadiens • les Danois 5.9.2.2.18 PERCENT パーセント表現、およびメジャーの範囲を表す表現: • 26.8% • 6.6% • de 70 à 85 % 5.9.2.2.19 PERSON 個人の名前のバリエーション: • François Guérard • Clinton • William J. Clinton • W. J. Clinton 敬称の省略形ではじまる、氏名または名前: • M. Thibaut • Mr. Bill H. Jones • Lieut. Van Damme • très hon. Jean Chrétien 5.9.2.2.20 PHONE 北アメリカ形式の電話番号: • 1-800-555-1111 • (408) 555-1111 • 555-1111 フランスおよび国際的に使用されるパターンの電話番号: • 151 12 34 56 78 90 2012-06-14 言語モジュールリファレンス • 12/34/56/78/90 • (01) 12 34 56 78 90 • +44 (0) 1252 761314 • Tél. : +33 1 41 25 38 15 • tel +32 2 423 17 67 • Fax: +33 (0)1 55 77 33 96 5.9.2.2.21 PRODUCT 必要な場合は会社名が先行する、製品名: • PlayStation • iPhone • Airbus A320 • Boeing 737 5.9.2.2.22 PROP_MISC 他のエンティティで特定されるエンティティタイプのいずれにも分類されない、固有名詞: • Gemstar-TV • EurObserver • CeBIT • Enduring Freedom 5.9.2.2.23 REGION さまざまな地域は、次のサブタイプのいずれかとして抽出されます: • • MAJOR– カナダの州や準州、フランスの行政区、米国の州などの国の主要な行政区分: • Alsace • Bretagne • Lorraine • Saint-Pierre-et-Miquelon • Ontario • Andalousie MINOR– 国、県、地区の名前、または類似の区画や行政機関: • 152 Calvados 2012-06-14 言語モジュールリファレンス • Essonne • Finistère 5.9.2.2.24 SOCIAL_MEDIA ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック は、次のサブタイプのいずれかとして抽出されます: 注 SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。 • • "@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例: • @LaurenceDutour • @René_Latendresse • @sapnoticiasbr • @SCNblogs • @sapnews • @SAP_MICROSOFT "#" ではじまる TOPIC_TWITTER–Twitter のトピック。例: • #Ardèche • #CharliHeddo • #SAP • #Mobility • #SAPPRESS • #SAP_projects 5.9.2.2.25 TICKER 株式市場で使用される企業の株式のティッカーシンボル: • NYSE: SAP • Nasdaq: BOBJ • Nasdaq: US7170811035 5.9.2.2.26 TIME 時刻、および時間表現: • 153 21h35 2012-06-14 言語モジュールリファレンス • 21 h 35 • 21h 35 • 21h • 21:35 • 21:35:15 • 21H00 GMT 語句での時刻表現: • 3 heures • 3 heures et quart • midi moins un quart 時刻に基づく表現: • entre 3h 30 et 4h • de 12h 20 à 6h 10 5.9.2.2.27 TIME_PERIOD 時間間隔のメジャー、および時間のメジャーの範囲を表す表現: • 20 ans • deux années • deux jours • dix-huit ans • quatre-vingt-dix minutes • de trois à deux semaines • une journée • deux derniers jours • 10-15 ans • de 3 à 8 ans • entre 30 et 55 ans 5.9.2.2.28 TITLE 政府機関、企業などの組織で重要な地位の名前: 154 • directeur de service • ministre des Finances 2012-06-14 言語モジュールリファレンス • gouverneur de la Banque du Canada 5.9.2.2.29 URI インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます: • • EMAIL– Lotus Notes のアドレスなどを含む、電子メールアドレス。例: • [email protected] • [email protected] • [email protected] • Dupont/BOBJ@CMP • CTarin/Inxight@CMP IP– IP アドレス。例: • • 8.22.200.3 URL– インターネットアドレス。例: • Monde.fr • www.gensdebaignade.org • www.champy.ca • www.lactualite.com • http://clubobs.nouvelobs.com/blogs/blogs/regereau 5.9.2.2.30 YEAR 年の識別子、10 年間を表す表現、100 年間を表す表現、年の範囲、年に基づく表現: 155 • 2007 • années 60 • entre 1996 et 2006 • entre 1991 et 2000 • années 90 • 2005-2007 • 2007/2008 • années 80 et 90 2012-06-14 言語モジュールリファレンス 5.10 ドイツ語言語リファレンス この章では、ドイツ語言語モジュールの動作について説明します。 5.10.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、ドイツ語テキストの言語処理における言語固有の情報に ついて説明します。 5.10.1.1 ドイツ語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.10.1.2 ドイツ語の単語のセグメンテーション ドイツ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま す。ドイツ語のセグメンテーション機能には、次の言語固有の動作があります。 ドイツ語のセグメンテーション機能では、短縮形がアポストロフィの位置で分割されます。いくつかのアポストロ フィを含む非短縮形は、アポストロフィが単語の一部なので、アポストロフィの位置では分割されません。 テキスト セグメンテーション後 geht geht's 's 156 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 auf auf's 's Maxime's Maxime's 複合語が接続詞で結合された 2 つのパーツで構成される場合、ハイフンは複合語の一部から分離されませ ん。後続の単語が小文字ではじまる場合、先行するハイフンは分割されません。ただし、後続の単語が大文字 ではじまる場合、ハイフンは分割されます。 テキスト セグメンテーション後 West- West- und Ostgoten und Ostgoten Silbermesser Silbermesser und -gabel und -gabel - -West West 省略形の区切り記号は分割されません。序数も、ピリオドがそのまま保持されます。 157 テキスト セグメンテーション後 Mrd. Mrd. 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 bzgl. bzgl. 43. 43. 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.10.1.3 ドイツ語のステミング ここでは、ドイツ語のステミングで使用される、標準ステム機能、拡張屈折ステム機能、および屈折ステマー推 測機能について説明します。 5.10.1.3.1 標準ステム機能 ドイツ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品 詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。 カテゴリ 原形 例 名詞 主格の単数形 Tischen -> Tisch; Leuten -> Leute 動詞 不定詞 schwimmt, schwamm, geschwommen -> schwimmen 形容詞 原型 farbigen -> farbig; vag -> vage 副詞 ソースの形式 ganztags -> ganztags ドイツ語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されます。複 数形のみの形、およびすべての人称代名詞では、数と性別情報が保持されます。適用できる場合は、これら 158 2012-06-14 言語モジュールリファレンス の代名詞は主格形にステム処理されます。その他の形はすべて、単数形の任意の性別の主格形にステム処 理されます (適用可能な場合)。次の表にこれを示します。 テキスト ステム manch manch ich, meiner, mir ich demjenigen dasjenige,derjenige 非屈折カテゴリはそのものにステム処理されます。たとえば、省略形、頭字語、数字、接続語などです。ドイツ 語のステム機能では、新旧両方のスペリングのバリアントがサポートされます。入力が新しいスペリングのバリア ントの場合、古いスペリングにステム処理されます。次の表に例を示します。 テキスト ステム zahlr. zahlr. ZDF ZDF Delphin, Delfin Delphin behende, behände behende 短縮された前置詞は、そのコンポーネントに分割され、これらのステムの間に等号を挿入して返されます。等号 は、各ステムが意味上同じ程度重要であることを示します。次の表にこれを示します。 159 テキスト ステム aufs auf=das beim bei=das,bei=der zur zu=die 2012-06-14 言語モジュールリファレンス 5.10.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ドイツ語固有のもの は次のとおりです。 ドイツ語モジュールの拡張バージョンは、強制的にハイフンが付く単語の任意のハイフネーション、大文字小 文字のバリエーション、およびアクセント記号付き文字のアクセント記号が付いていない形式に対応します。 ハイフネーション 拡張バージョンでは、通常は強制的にハイフンが付く単語の、任意のハイフネーションを許容します。 例 出力 MS-DOS MS-DOS MSDOS MS-DOS 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 USA USA usa USA アクセント記号なし文字 ドイツ語の拡張バージョンでは、アクセント記号付き文字の他に、完全なアクセント記号なし文字を許容します。 160 例 出力 Müller Müller Muller Müller 2012-06-14 言語モジュールリファレンス これは、ドイツ語の標準、拡張の両バージョンが許容する、タイプライターのアクセント記号付き文字 (ü の ue) に追加されるものであることに注意してください。 5.10.1.3.3 屈折ステマー推測機能 屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能 にとって未知であるため、ステム処理できない単語に適用できます。 言語処理は、最初に標準または拡張屈折ステム機能を使用してステミングを試み、次に、従来どおりにステム 処理できなかった単語にのみ、ステマー推測機能を適用します。 5.10.1.3.4 ドイツ語の複合語分析 ドイツ語のステミングモジュールには、多様な複合語を分析することを目的とし、本来無限数の複合語を処理 する能力のある、包括的メカニズムがあります。ドイツ語の複合では、名詞と名詞、名詞と形容詞、動詞と名詞 など、さまざまな品詞を結合できます。ハイフンで接続された複合語は、他の複合語と同様に扱われます。 デフォルトでは、複合語は複数のコンポーネントステムに分割されます。非分割ステミングバリアントを使用し て、複合語をそのまま保持できます。 次のサンプル出力で、標準ステム機能に返される場合の、コンポーネントステムを示します。複合語の境界は # でマークされます。 例 出力 Muttertag Mutter#Tag 複合語の要素の原形が、複合語の中での出現する位置に関わらず、単独で出現する場合と同様に大文字で はじめられます。そのため名詞要素は、複合語の先頭要素でない場合にも、大文字ではじまるステムを持ちま す。同様に、複合語の先頭要素としての形容詞のステムは、大文字ではじまりません。 Vor- und Nachmittag ("正午前と正午後") や Bachkonzerte und -kantaten ("バッハのコンチェルトとカンター タ") のような複合語が出現することがあります。このハイフンは、原形の一部ではありません。 例 出力 vor Vor- und Nachmittag und Nachmittag 161 2012-06-14 言語モジュールリファレンス 例 出力 Bach#Konzert Bachkonzerte und -kantaten und Kantate 名詞 - 名詞型の複合 ドイツ語の名詞 - 名詞型の複合語には、多くの場合、主要な要素を接続させる要素 (Fugenelemente) が含 まれます。たとえば、Herr ("男性") という単語と Mantel ("コート") という単語を組み合わせて複合語にする場 合、接続要素 -en- がこれらの単語の間に挿入され、Herrenmantel ("男性のコート") となります。接続要素は ステマー出力には出現しません。 例 出力 Herrenmantel Herr#Mantel ドイツ語モジュールは、このような接続要素が、名詞の屈折クラスに基づいて決定できることを前提にしていま す。つまり、原形と接続要素の組み合わせからは通常、関連する単語の標準的な屈折形が生成されます (Herren は Herr の複数形など)。 名詞 - 名詞型複合語の例を示します。モジュールは、3 語以上の単語を組み合わせた複合語も分析できるこ とに注意してください。 162 例 出力 Lehrlingsnot Lehrling#Not Kinderarzt Kind#Arzt Kindesentführung Kind#Entführung Obstanbaugebiet Obst#Anbau#Gebiet Informatik-Konzepte Informatik#Konzept 2012-06-14 言語モジュールリファレンス 名詞的な最終要素 名詞で終わるドイツ語の複合語において、最終要素以外の要素になる可能性があるとされているのは、名詞 だけではありません。モジュールは、数詞、形容詞、形容詞的分詞、副詞、動詞のステム、および固有名詞も 認識します。すでに述べたように、ステムの大文字表記は単独の単語の用法で行われます。 例 出力 Optimalsumme optimal#Summe Linkskurve links#Kurve Goethehaus Goethe#Haus Waschmaschine waschen#Maschine 形容詞的な最終要素 形容詞は他の形容詞と結合して、結合形容詞を作れます。名詞と数詞は、形容詞的な最終要素を持つ複合 語の、先頭要素になることができます。例: 163 例 出力 blaugrün blau#grün hellgelb hell#gelb graphiktauglich Graphik#tauglich ausbaufähig Ausbau#fähig zweiblättrig zwei#blättrig blau-grau blau#grau 2012-06-14 言語モジュールリファレンス 5.10.1.3.5 複合語非分割ステム機能 標準の複合語分析の他に、ドイツ語言語モジュールには、複合の分割を実行しないさまざまなステム機能があ ります。このステム機能は、複合語を全体としてステム処理しますが、その複合語を複数のステムに分離しませ ん。返されるステムは、常に 1 つの語で、複合語の境界マーカーがついていないため、分割できません。 次の例で、非分割ステム機能からの出力と標準ステム機能の出力を比較します。 例 標準出力 非分割出力 Bildungsromane Bildung#Roman Bildungsroman Männerhosen Mann#Hose Männerhose Hundehütten Hund#Hütte Hundehütte himmelblaue Himmel#blau himmelblau Rotstiften rot#Stift Rotstift ABC-Alarm ABC#Alarm ABC-Alarm Informatik-Konzepte Informatik#Konzept Informatik-Konzept Bereitschafts-Dienst Bereitschaft#Dienst Bereitschafts-Dienst blau-grau blau#grau blau-grau これらの複合語は分割されないため、入力例と同じ大文字表記が保持されます。たとえば、この大文字表記 は、主要な単語の品詞によって決定されます。ハイフンで結合された単語も分割されず、ハイフンが保持され ます。 5.10.1.4 ドイツ語の品詞タグ設定 次の表にドイツ語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。例が複数の単 語で構成される場合、現在のタグを例示する単語を太字で示します。タグセットは性別を区別しません。 164 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Adj-Attr 限定形容詞 schwarze Katze Adj-Attr-Comp 比較級の限定形容詞 kleinere Datei Adj-Attr-Ord スペルアウトされた序数 dritter Mann Adj-Attr-Sup 最上級の限定形容詞 schnellster Läufer Adj-Dem 指示形容詞 solche Adj-Indet 不定形容詞 deinige Adj-Pred 叙述形容詞 (副詞の場 合あり) schnell Adj-Pred-Comp 比較級の叙述形容詞 besser Adj-Pred-Sup 最上級の叙述形容詞 am schnellsten Adv 副詞 immer, zwar Adv-Int/Rel 疑問副詞または関係副 詞 wieso Adv-Pron 代名詞的副詞 hierfür Aux-Fin 定形助動詞 bist Aux-Inf 助動詞の不定詞 gebildet haben Aux-PaPart 助動詞の過去分詞 gehabt Cmpd Cmpd-Left 残された複合語のパーツ zwei-, Kontakt- Conj/Adv Conj/Adv 接続詞または副詞 jedoch Conj-als 接続詞 als als Conj-Coord 等位接続詞 und Conj-Inf 不定詞の接続詞 um ... zu Conj-Post 相関接続詞 weder ... noch Conj-Pre 前置接続詞 weder Conj-Subord 従属接続詞 weil Conj-wie 接続詞 wie wie Adj Adv Aux Conj 165 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Det/Pron Det/Pron-Quant 数量限定詞または数量 代名詞 lauter Sachen Det-Art 冠詞 die, das Det-Dem 指示限定詞 diese Det-Indet 不定限定詞 keiner Det-Int/Rel 疑問限定詞または疑問 代名詞 wieviel Det-Poss 所有限定詞 dein Interj 感嘆詞 ach, oh Modal-Fin 定形の法動詞 darf Modal-Inf 法動詞の不定詞 gehorchen sollen Modal-PaPart 法動詞の過去分詞 segeln gedurft Nn 名詞 Tisch Nn-Letter ピリオド付きまたはピリオ ドのない小文字の文字 列、および大文字の文字 列 Nn-Net URL および電子メール アドレス Num 基数または日付 zwei, 2.3.1999 Num-Ord 序数 43. Det Interj Modal Nn Ein e Ein r. www.inxight.com, [email protected] Num 166 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Part-Ant 文の不変化詞 danke Part-Comp 比較の不変化詞 viel besser Part-Inf 不定詞の不変化詞 zu sagen Part-Neg 否定の不変化詞 nicht Part-Num 数の不変化詞 rund 50 Dateien Part-Pos 肯定の不変化詞 zu schnell Part-Pref 分離できる接頭辞 Er rief mich an. Part-Sup 最上級の不変化詞 am besten Prep-aus 前置詞 aus aus Prep-Circ 名詞の前後に置く両置 詞の最後のパーツ um Himmels willen Prep-Det 前置詞と冠詞の組み合 わせ zum Prep-fuer 前置詞 für für Prep-Post 後置詞 dem Haus gegenüber Prep-Pre 前置詞 mit Prep-pro 前置詞 pro pro Prep-von 前置詞 von von Part Prep 167 2012-06-14 言語モジュールリファレンス アンブレラタグ Pron Punct 完全タグ 説明 例 Pron-Dem 指示代名詞 diese ist besser Pron-Dem-Inv 非屈折指示詞 solch ein Erfolg Pron-Indet 不定代名詞 niemand Pron-Indet-Inv 非屈折限定詞 manch ein Mensch Pron-Int/Rel 疑問代名詞または関係 代名詞 was, wer Pron-Int/Rel-Inv 非屈折疑問代名詞また は関係代名詞 was für Pron-Pers 人称代名詞 ich Pron-Poss 所有代名詞 meine sind gelb Pron-Recip 相互代名詞 einander Pron-Refl 再帰代名詞 sich Pron-Rel 関係代名詞 die Leute, die . . . Punct 区切り記号 () Punct-Comma コンマ , Punct-Sent 文末の区切り記号 .?! V-Fin 定形動詞 schwimmt V-Inf 不定詞の動詞 er kann schwimmen V-Izu zu 不定詞 auszubilden V-PaPart 過去分詞の動詞 er ist geschwommen V 5.10.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、ドイツ語のタグ設定推測機能に渡されます。この機能では、 これらの単語に、ドイツ語の形態構造および大文字表記に関するルールセットに基づくタグが設定されます。 次のタグ設定ルールセットは、このモジュールの一部です。 名詞のタグは、多くの名詞の接尾辞で終わる単語に設定されます。動詞のタグは、-ier などの特定の末尾で終 わる小文字の単語に設定されます。副詞のタグは、-weise、-ens、および -mal で終わる単語に設定されます。 -ig、-isch、および -los のような末尾を持つ単語は、形容詞とみなされます。インターネットアドレスおよび電子 メールアドレスには、Nn-Net というタグが設定されます。 168 2012-06-14 言語モジュールリファレンス 大文字ではじまる単語は名詞とみなされます。これらの単語には、スラッシュ、数字、または中間に大文字が含 まれる可能性がありますが (TelCo、Tel/Fax、および 3Com)、ハイフンまたはアポストロフィは含まれません。 小文字の単語は形容詞または副詞とみなされます。区切り記号の組み合わせは、区切り記号とみなされます。 数字と区切り記号の組み合わせは、数字とみなされます。 5.10.2 抽出 ここでは、ドイツ語の抽出固有の情報について説明します。 5.10.2.1 ドイツ語のサブタイプ ドイツ語がサポートするサブタイプのタイプは、ORGANIZATION、REGION、SOCIAL_MEDIA、および URI で す。 関連項目 • 34 ページの「 サブタイプ」 5.10.2.2 事前定義済みエンティティタイプ ここでは、ドイツ語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説 明します。次の各リンクをクリックすると、サブセクションに移動できます。169 ページの 「ADDRESS1」、170 ペー ジの 「CONTINENT」、170 ページの 「COUNTRY」、170 ページの 「CURRENCY」、171 ページの 「DATE」、172 ページの 「DAY」、172 ページの 「GEO_AREA」、172 ページの 「GEO_FEATURE」、172 ページの 「HOLIDAY」、 173 ページの 「LANGUAGE」、173 ページの 「LOCALITY」、173 ページの 「MEASURE」、174 ページの 「MONTH」、174 ページの 「NOUN_GROUP」、174 ページの 「ORGANIZATION」、175 ページの 「PEOPLE」、 175 ページの 「PERCENT」、176 ページの 「PERSON」、176 ページの 「PHONE」、176 ページの 「PRODUCT」、 177 ページの 「PROP_MISC」、177 ページの 「PUBLICATION」、177 ページの 「REGION」、178 ページの 「SO CIAL_MEDIA」、178 ページの 「TIME」、178 ページの 「TIME_PERIOD」、179 ページの 「TITLE」、179 ページの 「URI」、および 179 ページの 「YEAR」。 5.10.2.2.1 ADDRESS1 住所の形式は、ドイツ語の住所に基づきます。ストリート住所の場合: 169 2012-06-14 言語モジュールリファレンス Street Street No. City-Code 市 国 Kaiserstraße 123 D-10623 Berlin Deutschland • Kaiserstraße 123, 10623 Berlin, Deutschland • Stockerauerstraße 9, A8700 Leoben • Zugerbergstrasse 18, CH-6414 Unteraegeri 私書箱住所の場合: P.O. Box number City-Code 市 国 Postfach 10 43 51 D-70049 Stuttgart Deutschland 5.10.2.2.2 CONTINENT 大陸のいずれか。例: • Afrika • Europa 5.10.2.2.3 COUNTRY 国の名前、および国の略称。このリストには、紛争中の領土や国際的に認知されていない領土などの、従来の ラベルを適用できない、地政学的なエンティティの名前も含まれます: • Deutschland • Vereinigte Staaten von Amerika • U.K. • Palästina • Taiwan 5.10.2.2.4 CURRENCY 国際通貨の額: 170 • 3$ • 85,00 DM 2012-06-14 言語モジュールリファレンス • DM 48,00 • US$ 1.00 • drei Dollar • 15,- DM • Euro 14.78 • 40 Millionen Euro 通貨額の範囲: • zwischen 3 und 4 Euro • zwischen $3 und $4 • von 3 bis 4 Euro 通貨を表す語句: • 3 Millionen Euro Umsatz • EUR 3.000 Festgeld 通貨率: • 4500 Euro pro Quadratmeter • 119 EUR pro Aktie • $20 / Stunde • 0,5 Pf/min. 5.10.2.2.5 DATE 日付: • Montag, den 30. September 1954 • Mi., 10. November 1998 • 14. Februar 1999 • 14. Februar '99 • 7. Januar • 16.01.2000 • 16.01.99 • 7-2-2000 数日の期間がある日付: • 171 29.3.-2.5.2000 2012-06-14 言語モジュールリファレンス • 9.-10. Mai 2000 • vom 1. März bis 2. Juni • 14. August - 15. September 5.10.2.2.6 DAY 曜日: • Montag • Mittwoch • Mo. • Di. 5.10.2.2.7 GEO_AREA 国の集団など、重要な土地の集合体を指す、市よりも大きい地理的な領域: • Südamerika • Nordamerika • Karibik • Westeuropa 5.10.2.2.8 GEO_FEATURE COUNTRY、GEO_AREA、LOCALITY、または REGION として識別されない場所の名前。 • Bodensee • Zugspitze • Uranus • Indischer Ozean 5.10.2.2.9 HOLIDAY 一般的な休日の名前: 172 • Weihnachten • Tag der Arbeit • Buß- und Bettag 2012-06-14 言語モジュールリファレンス 5.10.2.2.10 LANGUAGE 言語に関連する名詞 • Englisch • Deutsch • Portugiesisch 5.10.2.2.11 LOCALITY 市の名前: • Paris • San Francisco • La Paz 地理的に指定された市の名前: • Freiburg im Breisgau • Frankfurt am Main • Frankfurt a.d. Oder 5.10.2.2.12 MEASURE メジャー表現: • 2800 Angström • 50 eV • 58,68 mm • 9kWh • 25 Grad Celsius • 90° Fahrenheit • sechshundert Kilogramm メジャーの範囲: • von 50 bis 60 Kilometer • von 10 Volt bis 20 Volt • zwischen 5 und 6 Zentimetern メジャーの比率: • 173 5 km/h 2012-06-14 言語モジュールリファレンス • 33g/l • 27 mg/Kubikmeter • 5 Kilometer pro Stunde 5.10.2.2.13 MONTH 暦の月の名前: • Januar • Dezember • Jan. • Mrz. 5.10.2.2.14 NOUN_GROUP ドイツ語の名詞句には、ハイフンで接続された名詞群、および形容詞 - 名詞型の名詞群があります。 • moderne Technologien • fachliches Wissen • rationelle Terminplanung • Ingenieur-Kompetenz 5.10.2.2.15 ORGANIZATION 非営利団体、美術グループなどの団体や組織を含む、政府機関、法律機関、サービス機関。次のうちいずれ かのサブタイプとして抽出されます。 • 174 COMMERCIAL–The name of commercial organizations, such as major companies or corporations. For example: • Mercedes Benz • Siemens • Dr. Nacken und Partner • Texas Instruments • Siemens AG • Otto Wolff Kunststoffvertrieb GmbH • Bartsch und Partner GbR • Ormecon Chemie GmbH & Co., KG • Walter de Gruyter, Inc. • Greening Donald Co. Ltd. 2012-06-14 言語モジュールリファレンス • Volksbank Hamburg • Volksbank Bonn Rhein-Sieg • Dresdner Raiffeisenbank eG 注 Any extracted ORGANIZATION/COMMERCIAL entities can be parsed and standardized using the Data Quality Data Cleanse transform by mapping them to one of the FIRM input fields. • • EDUCATIONAL– 主に教育を目的とする機関の名前。例: • Freie Universität Berlin • Rheinisch-Westfälische Technische Hochschule Aachen OTHER–Any organization that does not fit into a more specific subtype including groupings of geopolitical entities that can function as political entities: • Die Grünen • Landesamt für Statistik • Greenpeace • Sozialdemokratische Partei Deutschlands • Zentralstelle für Agrardokumentation und -information • Benelux • Commonwealth 5.10.2.2.16 PEOPLE 国、民族、または地域に基づく人々のグループに関連する名前 • Schwabe • Amerikanerin 5.10.2.2.17 PERCENT パーセント表現: • 1% • + 1,234% • 3 Prozent • drei Prozent • 4 1/2 Prozentpunkte パーセントの率と範囲: 175 2012-06-14 言語モジュールリファレンス • 7% pro Jahr • 5%/Jahr • 34%/Person • 2 bis 3 Prozent • 2-3% • 1-1,5 Prozent 5.10.2.2.18 PERSON 名前のバリエーション: • Maria Hildebrandt • Hans Peter Mayer • Heidi • Anne-Marie • Vera F. Burkhardt • Otto von Gruber 5.10.2.2.19 PHONE ドイツ、オーストリア、およびスイスの電話番号: • +49 1111 2222 • (+49)-111-22-33333 • Telefon 01 11/11 22 33 • Fax: 0111 - 22222 • Tel. 01111-1111 • T 030/22 22 200 5.10.2.2.20 PRODUCT 商品名: 176 • Ford Explorer • Windows • Jacobs Kaffee 2012-06-14 言語モジュールリファレンス 5.10.2.2.21 PROP_MISC 連続する 1 つ以上の固有名詞、展覧会やスポーツイベントなどのイベントの名前: • CeBIT • Internationale Funkausstellung • Europacup • Olympiade 5.10.2.2.22 PUBLICATION 新聞、雑誌、または機関紙: • Handelsblatt • Frankfurter Allgemeine Zeitung • Fürther Nachrichten 5.10.2.2.23 REGION さまざまな地域は、次のサブタイプのいずれかとして抽出されます: • MAJOR– ドイツの行政区、米国の州などの国の主要な行政区分。例: • German Bundesländer: • Hessen • Baden-Württemberg • Sachsen-Anhalt 他の国の州: • 177 • California • New York State • British Columbia MINOR– 国、県、地区の名前、または類似の区画や行政機関: • Mittelfranken • Landkreis Pfaffenhofen • Kreis Kelheim 2012-06-14 言語モジュールリファレンス 5.10.2.2.24 SOCIAL_MEDIA ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック は、次のサブタイプのいずれかとして抽出されます: 注 SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。 • • "@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例: • @Matthias_123 • @RüdigerSchmitz • @SCNblogs • @sapnoticiasbr • @sapnews • @SAP_MICROSOFT "#" ではじまる TOPIC_TWITTER–Twitter のトピック。例: • #Griechenland • #Mobility • #SAP • #SAPPRESS • #SAP_projects • #Weihnachten 5.10.2.2.25 TIME 時間表現: • 18:05:48 • 02:00 MET • 16.15 Uhr • 2h 39 • 16h 45 5.10.2.2.26 TIME_PERIOD 時間間隔のメジャー、および時間の間隔を表す表現: 178 • 27 Jahre • 0,6 sec. 2012-06-14 言語モジュールリファレンス • 9 - 12 Monate • im 1. Halbjahr '99 • des ersten Quartals 1999 5.10.2.2.27 TITLE 名前ではなく肩書きだけで特定される個人: • Schah • Papst • Königin • Dr. • Professor • Bundesgesundheitsministerin 5.10.2.2.28 URI インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます: • EMAIL– 電子メールアドレス。例: • [email protected] • IP– IP アドレス。例: • 8.22.200.3 • URL– インターネットアドレス。例: • IP–IP adresses, for example: • 8.22.200.3 • http://www.netscape.com • www.netscape.com • kcbs.com 5.10.2.2.29 YEAR 年の識別子、10 年間を表す表現、100 年間を表す表現、年の範囲、年に基づく表現: 179 • '99 • 58 vor Christus • 200 v.Chr. • 3 n. Chr. 2012-06-14 言語モジュールリファレンス • 11. Jhdt. • 6. Jh. vor Christus • 2000-1 • 404-399 v.Chr. • in den Jahren 1488 bis 1490 5.11 ギリシャ語言語リファレンス この章では、ギリシャ語言語モジュールの動作について説明します。 5.11.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、ギリシャ語テキストの処理における言語固有の情報につ いて説明します。 5.11.1.1 ギリシャ語の文字エンコード • iso_8859_7 • cp_1253 • utf_8、utf_16、ucs_4 5.11.1.2 ギリシャ語の単語のセグメンテーション ギリシャ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま す。 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 180 2012-06-14 言語モジュールリファレンス 5.11.1.3 ギリシャ語のステミング ギリシャ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な 品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のような クローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 例 名詞 αποζημιώσεις -> αποζημίωση, όζαινες -> όζαινα, ευμάρειαν -> ευμάρεια 動詞 κοροϊδεμένη -> κοροϊδεύω, φουχτωθούμε -> φουχτώνω, μισθοδοτημένους -> μισθοδοτώ 形容詞 αρθρωτήν -> αρθρωτός, πλαστικές -> πλαστικός, μονόσπερμοι -> μονόσπερμος 副詞 πόθεν -> πόθεν, κατανυκτικότερα -> κατανυκτικά 5.11.2 抽出 注 ギリシャ語は基本レベルサポート言語です。つまり、辞書または抽出ルールによる抽出のみがサポートされま す。 5.12 ハンガリー語言語リファレンス この章では、ハンガリー語言語モジュールの動作について説明します。 5.12.1 言語処理 181 2012-06-14 言語モジュールリファレンス ここでは、単語のセグメンテーション、ステミングなど、ハンガリー語テキストの処理における言語固有の情報に ついて説明します。 5.12.1.1 ハンガリー語の文字エンコード • iso_8859_2 • cp_1250 • utf_8、utf_16、ucs_4 5.12.1.2 ハンガリー語の単語のセグメンテーション ハンガリー語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従 います。 関連項目 • 25 ページの「単語のセグメンテーション」 5.12.1.3 ハンガリー語のステミング ハンガリー語のステミングには、標準ステム機能と拡張ステム機能が含まれます。 5.12.1.3.1 標準ステム機能 ハンガリー語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主 な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のよう なクローズドクラスの単語も、ステム処理される場合があります。 182 カテゴリ 例 名詞 hírt -> hír, vállalatnak -> vállalat, bevételei -> bevétel 2012-06-14 言語モジュールリファレンス カテゴリ 例 動詞 kérek -> kér, ünnepelnek -> ünnepel, élünk -> él 形容詞 privatizációssal -> privatizációs, frisset -> friss, japánok -> japán 副詞 már -> már, majd -> majd 5.12.1.3.2 拡張ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。ハンガリー語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され ていない固有名詞がこれに含まれます。例: 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 Júnót Júnó junot Júnó アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 183 例 出力 tunulnék tanul tunulnek tanul Junot Júnó 2012-06-14 言語モジュールリファレンス 5.12.2 抽出 注 ハンガリー語は基本レベルサポート言語です。つまり、辞書または抽出ルールによる抽出のみがサポートされ ます。 5.13 イタリア語言語リファレンス この章では、イタリア語言語モジュールの動作について説明します。 5.13.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、イタリア語テキストの言語処理における言語固有の情報 について説明します。 5.13.1.1 イタリア語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.13.1.2 イタリア語の単語のセグメンテーション イタリア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま す。イタリア語のセグメンテーション機能には、次の言語固有の動作があります。 184 2012-06-14 言語モジュールリファレンス セグメンテーション機能は、省略されていた数字など、イタリア語のエリジオンを修飾する単語から分離します。 エリジオンを分離するときに、アポストロフィは、文字が省略されていた単語に付いて保持されます。アポストロ フィを使用せずに記述された結合語は分割されません。 テキスト セグメンテーション後 d' d'un'artistica un' artistica cinqu' cinqu'inviati inviati nella nella 関連項目 • 25 ページの「単語のセグメンテーション」 5.13.1.3 イタリア語のステミング ここでは、イタリア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.13.1.3.1 標準ステム機能 イタリア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な 品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のような クローズドクラスの単語も、ステム処理される場合があります。 185 カテゴリ 原形 例 名詞 単数形 capi -> capo, pagine -> pagina 2012-06-14 言語モジュールリファレンス カテゴリ 原形 例 動詞 不定詞 andiamo -> andare; parlava -> parlare 形容詞 男性単数形 alte -> alto; grandissimo -> grande 副詞 ソースの形式 contentamente -> contentamente; più -> più 短縮された前置詞および代名詞は、そのコンポーネントに分割され、これらのステムの間に等号を挿入して返 されます。等号は、各ステムが意味上同じ程度重要であることを示します。次の表にこれを示します。 例 ステム allo a=lo d'una di=uno glielo lui=lui 5.13.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。イタリア語固有のも のを次に示します。 拡張バージョンでは、正確な大文字表記およびアクセント記号表記は必要ありません。 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 186 例 出力 Roma Roma roma Roma 2012-06-14 言語モジュールリファレンス 例 出力 USA USA usa USA アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 例 出力 città città citta città ハイフネーション 拡張バージョンでは、数値ではない表現内のハイフンはオプションです。 例 出力 Clermont-Ferrand Clermont-Ferrand ClermontFerrand Clermont-Ferrand liberal-democratico liberal-democratico liberaldemocratico liberal-democratico 5.13.1.3.3 屈折ステマー推測機能 屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能 にとって未知であるため、ステム処理できない単語に適用できます。ステマー推測機能は、対応する言語の標 準ステム機能または拡張屈折ステム機能と組み合わせて使用できます。この場合、屈折推測機能を最後のス テム機能として使用する必要があります。これによって言語処理で、最初に標準または拡張屈折ステム機能を 使用してステミングを試み、次に、従来どおりにステム処理できなかった単語にのみ、ステマー推測機能を使 用できます。 187 2012-06-14 言語モジュールリファレンス 5.13.1.4 イタリア語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、イタリア語のタグセットを示します。各タグ名に、簡単な説 明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字で示し ます。タグセットは性別を区別しません。 アンブレラタグ 完全タグ 説明 例 Adj-ex 接頭辞 ex ex Adj-Pl 複数形の形容詞 (secon di などの序数を含む) belle Adj-PrPart-Pl 複数現在分詞の動詞 meditanti, destreggianti Adj-PrPart-Pl-Pron 接語付きの複数現在分 詞の動詞 fasciantemela, quietanteti Adj-PrPart-Sg 単数現在分詞の動詞 meditante, destreggiante Adj-PrPart-Sg-Pron 接語付きの単数現在分 詞の動詞 epurantelo, andantevi Adj-Sg 単数形の形容詞 (secon do, 2º などの序数を含 む) buono, narcisistico Adv 副詞 fumettisticamente Aux 定形助動詞 (be および have) saranno, avrete Aux-Ger 動名詞的助動詞 essendo, avendo Aux-Impv 命令形の助動詞 sii, abbi Aux-Inf 不定詞の助動詞 esser, aver Aux-PaPart-Pl 複数過去分詞の助動詞 avuti, avute Aux-PaPart-Sg 単数過去分詞の助動詞 avuta, avuto Aux-PrPart-Pl 複数現在分詞の助動詞 essenti, aventi Aux-PrPart-Sg 単数現在分詞の助動詞 essente, avente Adj Adv Aux 188 2012-06-14 言語モジュールリファレンス アンブレラタグ Conj Det/Pron Det Interj Nn 189 完全タグ 説明 例 Conj 接続詞 tuttavia Conj-Adv 疑問副詞 quando, dove, come Conj-che 接続詞 che ch', che Conj-Coord 等位接続詞 ed, e/o Conj-Pre 複合語接続詞の最初の パーツ dato che Det/Pron-Int-Pl 複数形の疑問限定詞ま たは疑問代名詞 quanti soldi Det/Pron-Int-Sg 単数形の疑問限定詞ま たは疑問代名詞 qual, cos' Det/Pron-Poss-Pl 複数形の所有限定詞ま たは所有代名詞 mie, vostri Det/Pron-Poss-Sg 単数形の所有限定詞ま たは所有代名詞 nostro, sua Det/Pron-Quant 不変化数量限定詞また は不変化数量代名詞 qualunque, qualsivoglia Det/Pron-Quant-Pl 複数形の数量限定詞ま たは数量代名詞 molti vomini Det/Pron-Quant-Sg 単数形の数量限定詞ま たは数量代名詞 molta gente Det-Pl 複数形の限定詞 quei Det-Pre 前置限定詞 tutto il giorno Det-Sg 単数形の限定詞 quel Interj 感嘆詞または擬音語 uhi, perdiana, eh Nn-Letter 単独またはピリオドや右 かっこが後に続く、小文 字および大文字の文字 b, N Nn-Net URL、電子メールアドレス www.inxight.com, [email protected] Nn-Pl 複数形の名詞 case Nn-Sg 単数形の名詞 casa, balsamo 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Num Num 数値表現 (数字) +5, 23.05, 3,45, 1997 Prep 前置詞 tra, con Prep-a 前置詞 a a Prep-da 前置詞 da da Prep-Det-Pl 前置詞と複数形の限定 詞の組み合わせ sulle, sugl', pegli Prep-Det-Pl-a a と複数形の限定詞の組 み合わせ ai, alle Prep-Det-Pl-da da と複数形の限定詞の 組み合わせ dalle Prep-Det-Pl-di di と複数形の限定詞の 組み合わせ delle Prep-Det-Sg 前置詞と単数形の限定 詞の組み合わせ sullo, nella Prep-Det-Sg-a a と sg. 限定詞の組み合 わせ al, allo Prep-Det-Sg-da da と単数形の限定詞の 組み合わせ dalla Prep-Det-Sg-di di と単数形の限定詞の 組み合わせ delle Prep-di 前置詞 di di Prep-Pre 複合語前置詞の最初の 単語 per mezzo Prep 190 2012-06-14 言語モジュールリファレンス アンブレラタグ Pron Prop Punct 完全タグ 説明 例 Pron 不変化代名詞 sé Pron-chi 疑問代名詞 chi chi Pron-Clitic 接続代名詞 vi, ne, mi, glielo Pron-Clitic-Pre 連続した 2 つの接語の 最初 ce, ve Pron-Indef-Pl 複数形の不定代名詞 Tutti amano le vacaze. Pron-Indef-Sg 単数形の不定代名詞 qualcuno Pron-Pl 複数形の代名詞 noi Pron-Rel 不変化関係代名詞 cui Pron-Rel-Pl 複数形の関係代名詞 i bambini i quali Pron-Rel-Sg 単数形の関係代名詞 il bambino il quale Pron-Sg 単数形の代名詞 lei, lui Prop 固有名詞 Bernardo, Monte Isola Punct 区切り記号 :-\ Punct-Comma コンマ , Punct-Sent 文の区切り記号 .!?; V/Adj-PaPart-Pl 複数過去分詞の動詞ま たは形容詞 riposti, offuscate V/Adj-PaPart-Pl-Pron 接語付きの複数過去分 詞の動詞または形容詞 telatesele, assestatici V/Adj-PaPart-Sg 単数過去分詞の動詞ま たは形容詞 sbudellata V/Adj-PaPart-Sg-Pron 接語付きの単数過去分 詞の動詞または形容詞 commossosi, ingranditomi V/Adj 191 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 V-Fin 定形動詞 blatereremo V-Fin-Pron 接語付きの定形動詞 trattansi, leggevansi V-Ger 動名詞 adducendo, intervistando V-Ger-Pron 接語付きの動名詞 saziandotele, appurandolo V-Impv 命令形の動詞 Va' a casa! V-Impv-Pron 接語付きの命令形の動 詞 russateli, planaci V-Inf 不定詞の動詞 sciupare, trascinar V-Inf-Pron 接語付きの不定詞の動 詞 spulciarsi, risucchiarsi V 5.13.1.5 イタリア語のグループ化 イタリア語の名詞群は、必要に応じて前置修飾語または後置修飾語をともなう名詞で構成されます。次のよう に、名詞は先行する形容詞で修飾されることがあります: • tradizionale gara 名詞は後に続く形容詞で修飾されることがあります。例: • allenamento obbligatorio 名詞は後に続く名詞ともグループ化されます: • Aeroporto Aeritalia 名詞群には、di または da ではじまる前置詞句と (修飾された) 名詞が含まれます: 192 • pilota di volo • immagine da satellite 2012-06-14 言語モジュールリファレンス 5.13.2 抽出 ここでは、イタリア語の抽出固有の情報について説明します。 5.13.2.1 事前定義済みエンティティタイプ ここでは、イタリア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説 明します。 5.13.2.1.1 NOUN_GROUP イタリア語の名詞群は、必要に応じて前置修飾語または後置修飾語をともなう名詞で構成されます。次のよう に、名詞は先行する形容詞で修飾されることがあります: • tradizionale gara 名詞は後に続く形容詞で修飾されることがあります。例: • allenamento obbligatorio 名詞は後に続く名詞ともグループ化されます: • Aeroporto Aeritalia 5.14 日本語言語リファレンス この章では、日本語言語モジュールの動作について説明します。 5.14.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、日本語テキストの言語処理における言語固有の情報に ついて説明します。 193 2012-06-14 言語モジュールリファレンス 5.14.1.1 日本語の文字エンコード • shift_jis • euc_jp • utf_8、utf_16、ucs_4 5.14.1.2 日本語の単語のセグメンテーション 日本語のセグメンテーション機能は、非スペース言語のすべての一般的なセグメンテーションルールに従いま す。日本語のセグメンテーション機能には、次の言語固有の動作があります。 単語セグメンテーション機能は、テキストを、日本語では "文節" という最小の構文ユニットに分解します。日本 語の単語 (構文ユニット) には、格標識 (が、を、は) および述部の屈折する部分 (ます、た、させる) など、多 くの従属語が含まれます。 格標識は、名詞の要素から分離されます: テキスト セグメンテーション後 太郎 が 太郎が本を読む 本 を 読む 屈折する接尾辞は、主要な動詞とともにセグメンテーションされます: 194 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 来ました 来ました 食べさせられました 食べさせられました 相動詞および法動詞は、主要な動詞から分離されます: テキスト セグメンテーション後 食べる 食べるようだ よう だ 食べ 食べはじめた はじめた 連結詞は主要な名詞から分離されます: テキスト セグメンテーション後 本 本だ だ 類別詞は先行する数詞に結合されます: 195 テキスト セグメンテーション後 3冊 3冊 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 三人 三人 名詞の接頭辞は名詞から分離されますが、動詞と形容詞の接頭辞はそれらの主要語に結合されます: テキスト セグメンテーション後 高 高品質 品質 お座り お座り バカ バカでかい でかい 開閉するマークを含む区切り記号は、別々にセグメンテーションされます: テキスト セグメンテーション後 「 「紅花」 紅花 」 ★ ★注意 注意 日本語のセグメンテーション機能は、連続するひらがなおよびカタカナの間のスペースを、構文ユニットの境界 として扱います。つまり、構文ユニットは次のように分解されます: 196 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 オフィス オフィス ソリューション ソリューション "/n" などの改行文字は、カタカナの単語で囲まれている場合、保持されます。 ハイフンおよびスラッシュも、構文ユニットを分割します。ハイフンで区切られた漢字の単語およびカタカナの単 語は、分離されます: テキスト セグメンテーション後 東京 東京―箱根 ― 箱根 パリ パリ―ロンドン ― ロンドン パリ パリ/ロンドン / ロンドン 数値表現は、区切り記号があってもなくても、そのまま保持されます: 197 テキスト セグメンテーション後 12,000 12,000 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 20/20 20/20 25% 25% 2.5 2.5 二五―五十 二五―五十 注 より標準的な漢字とひらがなの組み合わせではなく、すべてひらがなで記述された日本語の単語は、多義的 なため、適切にセグメンテーションされない可能性があります。このような記述スタイルは通常、子供または日本 語学習者を対象とするテキストに限定されます。 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.14.1.3 日本語のステミング ここでは、日本語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.14.1.3.1 標準ステム機能 日本語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品 詞 (オープンクラス) はその原形または辞書形式にステム処理されます。次の表にこれを示します。 198 カテゴリ 原形 名詞 ソースの形式 動詞 過去形ではない形式 形容詞 過去形ではない形式 2012-06-14 言語モジュールリファレンス カテゴリ 原形 副詞 ソースの形式 類別詞および派生接尾辞は、ステム機能では、名詞から削除されません。以下はその例です。 品詞 Word ステム Num + Cl 二冊 二冊 Nn + Adj_suffix 高さ 高い Verb + Nn_suffix 読み方 読み方 Nn + Pl_suffix 学生たち 学生たち Nn + Hon_suffix 佐藤様 佐藤様 代名詞、指示詞、文字、および数字のようなクローズドクラスの単語は、それらの基本形にステム処理され、既 存の格標識はすべて削除されます。 日本語の動詞および形容詞の単語は、時制、相、法性、丁寧さなどに応じて屈折します。ステム機能は、屈折 する末尾を削除した動詞および形容詞を返します。これを一般に辞書形式といいます。たとえば、次の屈折し た動詞の形式はすべて、"食べる" にステム処理されます。 199 Word ステム 食べた 食べる 食べさせる 食べる 食べます 食べる 食べない 食べる 2012-06-14 言語モジュールリファレンス 5.14.1.3.2 拡張ステム機能 拡張日本語言語モジュールでは、セグメンテーションとステミングの結果を、標準モジュールより詳細なものに することができます。その出力は、テキストのインデックス化と検索システム向きに最適化されています。拡張モ ジュールの出力は標準のステム機能と異なり、類別詞、数詞、接頭辞、および接尾辞を主要語から分離して、 複合語分析を実行します。 次に例を示します。 類別詞は数詞から分離されます: テキスト 出力 1996 1996年 年 30 30 分 分 接頭辞は、主要語から分離されます: テキスト 出力 お お部屋 部屋 副 副作用 作用 接尾辞は、主要語から分離されます: 200 2012-06-14 言語モジュールリファレンス テキスト 出力 全国 全国的 的 須田 須田さん さん ニューヨーク ニューヨーク州 州 複合語は別々のコンポーネントに分割されます: テキスト 出力 朝日 朝日新聞社 新聞 社 日本 日本電信電話 電信 電話 サウンド サウンドマスター マスター 201 2012-06-14 言語モジュールリファレンス 拡張バリアントは、標準日本語モジュールとすべて同じ操作をサポートします。ただし、詳細出力ではそれぞれ の語の文脈上の情報が少なく、この多義性によってタグ設定操作の精度が上げられています。これらの操作 については、標準日本語モジュールを使用することをお勧めします。拡張バリアントは、ステミングを目的する 場合にのみ推奨されています。 5.14.1.4 日本語の品詞タグ設定 次の表に日本語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。 アンブレラタグ 完全タグ 説明 例 Adj 形容詞 赤い、大きい Adj-D 法性を表す形容詞 (て)ほしい、(て) よい Adnom Adnom 名詞の前に付く名詞相 当語句 この、そんな Adv Adv 副詞 ゆっくり、じっと Aux Aux 助動詞 だ、です、ない Case Case 格標識 が、を、さえ Conj Conj 接続詞 そして、しかし Interj Interj 感嘆詞 さあ、えっ Nn 名詞 先生、分析、ファイル Nn-Adv 一般に形容詞的に使用 される名詞 今日、午後、1月 Nn-Ascii ASCII 文字、連続するも のまたは単語 computer Nn-D 形式名詞、意味を持たな い名詞 こと、の、もの, よう Nn-Pron 代名詞 あなた、私、ここ Nn-Prop 固有名詞 山田、富士山 Num Num 数値の名詞相当語句 2000年、95% Pre Pre 名詞に付く接頭辞 お(水)、高(品質) Adj Nn 202 2012-06-14 言語モジュールリファレンス アンブレラタグ Punct Suf 完全タグ 説明 例 Punct 区切り記号 ” :# @ Punct-Close 閉じる区切り記号 ) 、}、」 Punct-Comma コンマ 、 Punct-Open 開く区切り記号 (、{、「 Punct-Sent 文末の区切り記号 。? Suf 後置記号 さん Verb 動詞 読む、理解する Verb-D 法性および相を表す動 詞 はじめる、できる、 (て)いる Verb 5.14.2 抽出 ここでは、日本語の抽出固有の情報について説明します。 5.14.2.1 事前定義済みエンティティタイプ ここでは、日本語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説明 します。 5.14.2.1.1 NOUN_GROUP 日本語の名詞群は、ここに示すルールによって定義されます。 日本語の名詞群は、1 つ以上の名詞で構成されることがあります。例: • 電子計算機 • 生命保険会社 日本語の名詞群は、1 つ以上の固有名詞で構成され、次のように 1 つの名詞を修飾することがあります: 203 • 東京大会 • 箱根マラソン 2012-06-14 言語モジュールリファレンス • 佐藤 , 花子 5.15 韓国語言語リファレンス この章では、韓国語言語モジュールの動作について説明します。 5.15.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、韓国語テキストの言語処理における言語固有の情報に ついて説明します。 5.15.1.1 韓国語の文字エンコード • euc_kr • utf_8、utf_16、ucs_4 5.15.1.2 韓国語の単語のセグメンテーション 韓国語のセグメンテーション機能は、スペース言語のセグメンテーション機能と同じ基礎アルゴリズムを使用し ます。つまり、区切り文字は空白文字やタブ文字と同様に、構文ユニット区切り記号として処理されます。韓国 語のセグメンテーション機能には、次の言語固有の動作があります。 韓国語の単語には、格標識や屈折する末尾など、複数の種類の従属する形態素を含めることができます。従 属する形態素は別々の単語にはなりません。 たとえば、名詞 사람들은 ("人々は") は、名詞 사람、複数形標識 들、主題標識 은 という 3 つの形態素で構 成されますが、1 つの単語としてセグメンテーションされます。同様に、가셨습니다 ("(尊敬すべき人物) は行っ た") で、主語の敬称 시 、過去形の接尾辞 었 (これらはまとめて 셨 に短縮されています)、受取人の敬称の 接尾辞 습、直説法の接尾辞 니、平叙形式の接尾辞 다 は、先頭の動詞のステム 가 ("行く") の後にこの順番 で出現します。 204 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 . . テキスト セグメンテーション後 . . ヨーロッパの言語のセグメンテーション機能は、複合語ユニットを 1 つのユニットとして認識します (英語の "to and fro" など)。韓国語のセグメンテーション機能は、"이랬다" や "저랬다" のような句に対して同じ処理を行 います。 関連項目 • 25 ページの「単語のセグメンテーション」 5.15.1.3 韓国語のステミング 韓国語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品 詞 (オープンクラス) はその原形または引用形式にステム処理されます。次の表にこれを示します。韓国語で 205 2012-06-14 言語モジュールリファレンス は、代名詞のようなクローズドクラスの単語もステム処理されますが、ここには示していません。限定詞のような 非屈折形はそのものにステム処理されます。 韓国語システムは、韓国語標準ステム機能および韓国語拡張ステム機能の 2 つのステム機能をサポートしま す。主な違いは、複合語が拡張ステム機能では分割されるのに対し、標準ステム機能では分割されない点で す。アプリケーションでステム推測が重要な場合、拡張ステム機能の処理が最初に行われるように、拡張ステム 機能と標準ステム機能を実行することをお勧めします。 5.15.1.3.1 標準ステム機能 カテゴリ 原形 名詞/代名詞 原形 (格標識なし) 動詞 平叙形式 形容詞 平叙形式 副詞 ソースの形式 韓国語の名詞語は、格標識を示す後置詞 (不変化詞) を含むことがあります。ステム機能は、標準化された名 詞 (非屈折主要語または内容語など) から格標識を除いて返します。 名詞、代名詞、固有名詞、数詞はすべて、格標識のない原形にステム処理されます。たとえば、次の名詞はす べて、학생 にステム処理されます: Word 206 ステム 2012-06-14 言語モジュールリファレンス 動詞および形容詞は、屈折する接尾辞のない辞書形式にステム処理されます。次の屈折した動詞の形式は すべて、먹다 ("食べる") にステム処理されます: Word ステム 文 학생이 케이크 마지막 조각을 먹었다. ("生徒はケーキの最後の 1 切を食べた。") は、次のようにステム 処理されます: Word ステム 5.15.1.3.2 韓国語の複合語分析 韓国語の複合語のステミングは、拡張屈折ステム機能モジュールで、korean-expanded.stemmer を使用して実 行されます。この辞書はヨーロッパの言語の拡張屈折ステム機能と同じ名前ですが、韓国語では、複合語のス テミングを実行します。韓国語のモジュールは、2 つのパーツで構成された 2 種類の複合語 (名詞 - 動詞型、 名詞 - 名詞型) を処理します。 注 韓国語の複合語は内部構造が複雑であるため、拡張屈折ステミング操作はほかの操作に比べて時間がかか ることがあります。 次のサンプル出力では、縦棒 (|) を使用して用語またはステムを区切っています。複合語は常に分割されま す。 207 2012-06-14 言語モジュールリファレンス 名詞 - 動詞型の複合語 名詞は自動詞と結合して複合動詞を作ります。名詞は屈折しません。動詞は屈折でき、原形にステム処理され ます。 例 出力 | | | | 名詞 - 名詞型の複合語 名詞は名詞と結合して別の複合名詞を作ります。最初の名詞は屈折しません。2 番目の名詞は屈折でき、原 形にステム処理されます。 例 出力 | | | 5.15.1.4 韓国語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、韓国語のタグセットを示します。各タグ名に、簡単な説明 と 1 つ以上の例を示します。 208 アンブレラタグ 完全タグ 説明 例 Adv Adv 副詞 만일, 그러면 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Case Case 格標識 을, 를 Det Det 限定詞 이, 그 Interj Interj 感嘆詞 아이고, 어머 Nn 名詞 책, 코끼리 Nn-Ascii ASCII 文字、名詞 copyright, Web Nn-Case 格標識付きの名詞 호박은 Nn-Case-Acc 格標識付きの名詞の対 格 조각을 Nn-Case-Conj 結合された格標識付きの 名詞 고양이와는, 토끼와는 Nn-Case-Conj-Pl 結合された格標識付きの 複数形の名詞 교인들하고는 Nn-Case-Disj 離接形の格標識付きの 名詞 여기까지나 Nn-Case-Disj-Pl 離接形の格標識付きの 複数形の名詞 박사들까지나 Nn-Case-Gen 格標識付きの名詞の所 有格 인간의 Nn-Case-Pl 格標識付きの名詞 - 複 数形 선생님들은, 군인들은 Nn-Case-Pl-Acc 格標識付きの名詞 - 複 数形の対格 학생들을 Nn-Case-Pl-Gen 格標識付きの名詞 - 複 数形の所有格 교수들의 Nn-Conj 結合された名詞 강아지와, 사자와 Nn-Conj-Pl 結合された複数形の名 詞 교인들하고, 친구들하 고 Nn-Disj 離接形の名詞 짐승이나, 과학자나 Nn-Disj-Pl 離接形の複数形の名詞 약사들이나, 화가들이 나 Nn-Pl 名詞 - 複数形 사람들, 박사들 Nn 209 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Num Num 数値表現 30분, 삼십분 Pron 代名詞 나, 너 Pron-Case 格標識付きの代名詞 나는 Pron-Case-Acc 格標識付きの代名詞の 対格 너를 Pron-Case-Conj 格標識付きの代名詞 接続形 자네하고는 Pron-Case-Conj-Pl 格標識付きの代名詞 接続形の複数形 우리들하고는 Pron-Case-Disj 格標識付きの代名詞 離接形 자기나만은 Pron-Case-Disj-Pl 格標識付きの代名詞 離接形の複数形 저이들까지나 Pron-Case-Gen 格標識付きの代名詞の 所有格 나의 Pron-Case-Pl 格標識付きの代名詞の 複数形 우리들은 Pron-Case-Pl-Acc 格標識付きの代名詞の 複数形の対格 우리들을 Pron-Case-Pl-Gen 格標識付きの代名詞の 複数形の所有格 우리들의 Pron-Conj 結合された代名詞 자네하고 Pron-Conj-Pl 結合された複数形の代 名詞 우리들하고 Pron-Disj 離接形の代名詞 자기나 Pron-Disj-Pl 離接形の複数形の代名 詞 우리들이나 Pron-Pl 複数形の代名詞 우리들, 그들 Pron 210 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Prop 固有名詞 삼성전자, 서울대학교 Prop-Case 格標識付きの固有名詞 현대건설은 Prop-Case-Acc 格標識付きの固有名詞 の対格 고려대학교를 Prop-Case-Conj 格標識付きの固有名詞 の接続形 나이키와는 Prop-Case-Disj 格標識付きの固有名詞 の離接形 소니에게나 Prop-Case-Gen 格標識付きの固有名詞 の所有格 한국은행의 Prop-Conj 結合された固有名詞 동국제강과 Prop-Disj 離接形の固有名詞 UBS나 Punct 区切り記号 ;, ' Punct-Comma 区切り記号 - コンマ , Punct-Sent 区切り記号 - 文 . V-Fut 未来形の動詞 판매하겠다, 시작하겠다 V-Past 過去形の動詞 출발했다, 몰랐었다 V-PreMod 前置修飾の動詞 좋은 V-Pres 現在形の動詞 상회하다, 번거롭다 Prop Punct V 5.15.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、韓国語の推測機能に渡されます。この機能では、これらの 単語に、韓国語の形態構造に関するルールセットに基づくタグが設定されます。たとえば、名詞の接尾辞に基 づいて Nn-* タグを決定します。英語の単語などの外国語には Nn-Ascii タグが設定されます。 5.15.2 抽出 ここでは、韓国語の抽出固有の情報について説明します。 211 2012-06-14 言語モジュールリファレンス 5.15.2.1 韓国語のサブタイプ 韓国語がサポートするサブタイプのタイプは、ORGANIZATION、REGION、SOCIAL_MEDIA、および URI で す。 関連項目 • 34 ページの「 サブタイプ」 5.15.2.2 事前定義済みエンティティタイプ ここでは、韓国語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説明 します。次の各リンクをクリックすると、サブセクションに移動できます。212 ページの 「COUNTRY」、212 ページ の 「FACILITY」、212 ページの 「GEO_AREA」、213 ページの 「GEO_FEATURE」、213 ページの 「LOCALITY」、 213 ページの 「ORGANIZATION」、213 ページの 「PERSON」、214 ページの 「PHONE」、214 ページの 「RE GION」、214 ページの 「SOCIAL_MEDIA」、215 ページの 「TITLE」、および 215 ページの 「URI」。 5.15.2.2.1 COUNTRY 国の名前: • • • 5.15.2.2.2 FACILITY 人工の構造物: • • • 5.15.2.2.3 GEO_AREA 大陸や国の集団など、重要な土地の集合体を指す、市よりも大きい地理的な領域: • 212 2012-06-14 言語モジュールリファレンス • • 5.15.2.2.4 GEO_FEATURE 境界線、天文学的な場所、水域、地質学的または生態学的に形成された場所などの名前: • • • 5.15.2.2.5 LOCALITY 市の名前: • • • 5.15.2.2.6 ORGANIZATION 非営利団体、美術グループなどの団体や組織を含む、政府機関、法律機関、サービス機関。次のうちいずれ かのサブタイプとして抽出されます。 • COMMERCIAL - 主要な企業や法人などの営利組織の名前。例: • • • 注 抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。 • OTHER - 特定のサブタイプに適合しないすべての組織。 • IAEA • • 5.15.2.2.7 PERSON 名前のバリエーション: • 213 2012-06-14 言語モジュールリファレンス • • 5.15.2.2.8 PHONE 電話番号: • 02-3321-2345 • (011)222-3456 • 1-800-223-4567 5.15.2.2.9 REGION さまざまな地域は、次のサブタイプのいずれかとして抽出されます: • MAJOR– 州および地方の名前: • • • • MINOR– 国、県、地区の名前、または類似の区画や行政機関: • • • 5.15.2.2.10 SOCIAL_MEDIA ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック は、次のサブタイプのいずれかとして抽出されます: 注 SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。 • • "@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例: • @HyunheeJeon • @SangSangYi • @ • @SecretGarden_KD "#" ではじまる TOPIC_TWITTER–Twitter のトピック。例: • 214 inkorea10 # _ 2012-06-14 言語モジュールリファレンス • # 10 • #JBBANK • #JP 10 5.15.2.2.11 TITLE 政府機関、企業などの組織で重要な地位の名前: • • • 5.15.2.2.12 URI インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます: • • EMAIL - 電子メールアドレス。例: • [email protected] • [email protected] • Jesus Melendrez/Corp/Enron@CMP URL - インターネットアドレス。例: • www.cyworld.com/common • http://www.cnn.com/2007/US/law/07/17/couey.hearing/index.html • http://kr.news.yahoo.com/service/news/shellsection.htm?linkid 5.16 ノルウェー語: ブークモール語言語リファレンス この章では、ブークモール語言語モジュールの動作について説明します。 5.16.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、ブークモール語テキストの言語処理における言語固有の 情報について説明します。Bokmål 215 2012-06-14 言語モジュールリファレンス 5.16.1.1 ブークモール語の文字エンコードBokmål • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.16.1.2 ブークモール語の単語のセグメンテーションBokmål ブークモール語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに 従います。Bokmålブークモール語のセグメンテーション機能には、次の言語固有の動作があります。Bokmål ブークモール語のセグメンテーション機能は、s または 's を使用して記述された複数形および所有格を分割 しません。Bokmålハイフンは、ハイフンを使用して記述された複合語のパーツから分離されません。ピリオドは 序数表現から分離されません。 テキスト セグメンテーション後 Eriks Eriks 32. 32. lonns- lonns- og inntektsutviklingen og inntektsutviklingen 関連項目 • 25 ページの「単語のセグメンテーション」 216 2012-06-14 言語モジュールリファレンス 5.16.1.3 ブークモール語のステミングBokmål ここでは、ブークモール語のステミングで使用される、標準ステム機能と拡張屈折ステム機能について説明しま す。Bokmål 5.16.1.3.1 標準ステム機能 ブークモール語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。Bokmål つまり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代 名詞のようなクローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 原形 例 名詞 不定形単数 dammer -> dam; bondens -> bonde 動詞 不定詞 ventet -> vente; sendes -> sende 形容詞 原型 laveste -> lav; kalde -> kald 副詞 基本形またはソースの形式 nærest -> nær; imens -> imens 5.16.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ブークモール語固 有のものを次に示します。Bokmål 大文字小文字のバリアント 拡張バージョンでは、通常は大文字ではじめる単語の大文字の他に、小文字を許容します。 217 例 出力 Erik Erik erik Erik 2012-06-14 言語モジュールリファレンス アクセント記号付き文字のタイプライター形式 拡張バージョンでは、アクセント記号付き文字のタイプライター表記を許容します。つまり、aa と記述されている 場合は å、ae と記述されている場合は aa, æ、oe と記述されている場合は ø と認識されます。 例 出力 blaa blå blå blå アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 例 出力 bla blå blå blå ハイフネーション 強制改行ハイフンを削除して分割された単語の 2 つのパーツを連結することで、強制改行ハイフンを処理す るソフトウェアを補助するには、数値以外の表現におけるハイフンを拡張バージョンのオプションにして、本来 ハイフンで連結されている単語をそのまま認識できるようにします。 例 出力 Nord-Vestlandet Nord-Vestlandet NordVestlandet Nord-Vestlandet 5.16.1.4 ブークモール語の品詞タグ設定Bokmål 218 2012-06-14 言語モジュールリファレンス 次の表に、カスタムエンティティの定義で使用できる、ノルウェーブークモール語のタグセットを示します。各タ グ名に、簡単な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する 単語を太字で示します。タグセットは性別を区別しません。 219 アンブレラタグ 完全タグ 説明 例 Abbr Abbr 省略形 adr., ibid. 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Adj-Comp 比較級の形容詞 mindre, eldre Adj-Comp-Gen 所有格の比較級の形容 詞 eldres Adj-Def-Pl 限定形および複数形の 形容詞 gretne, mørke, kalde Adj-Def-Pl-Gen 所有格限定形および複 数形の形容詞 fremmedes, uvørnes Adj-Def-Sg 限定形単数の形容詞 lille Adj-Def-Sg-Gen 所有格限定形単数の形 容詞 lilles Adj-Indef-Sg 不定形単数の形容詞 skriftlig Adj-Indef-Sg-Gen 所有格不定形単数の形 容詞 skriftligs Adj-PaPart-Def-Pl 限定形および複数形の 形容詞的過去分詞 besøkte, befestede, dempede Adj-PaPart-Def-Pl-Gen 所有格、限定形および複 数形の形容詞的過去分 詞 besøktes, befestedes, dempedes Adj-PaPart-Indef-Sg 形容詞的過去分詞、不 定形単数 for kryptert kommunikasjon Adj-Pl 複数形の形容詞 små problemer Adj-Pl-Gen 所有格複数形の形容詞 smås Adj-PrPart 形容詞的現在分詞 begynnende, stirrende Adj-PrPart-Gen 所有格の形容詞的現在 分詞 reisendes, lekendes, gråtendes Adj-Sup 最上級の形容詞 best, raskest, størst Adj-Sup-Def 限定最上級の形容詞 fineste, innerste, viktigste Adj-Sup-Def-Gen 所有格限定最上級の形 容詞 finestes, innerstes, viktigstes Adj 220 2012-06-14 言語モジュールリファレンス アンブレラタグ Adv 完全タグ 説明 例 Adv 副詞 ikke, oppe, heller Adv-Comp 比較級の副詞 lenger Adv-Sup 最上級の副詞 helst Aux/V-Impv 命令形の助動詞または 本動詞 bli Aux/V-Inf 不定詞の助動詞または 本動詞 vaere Aux/V-Inf-SForm 不定詞の助動詞または 本動詞の S 形 has Aux/V-PaPart 助動詞または本動詞の 過去分詞 hatt, vaert, blitt, fått Aux/V-Past 過去形の助動詞または 本動詞 hadde, var, ble Aux/V-Pres 現在形の助動詞または 本動詞 har, er, blir, får Aux/V-PrPart 助動詞または本動詞の 現在分詞 havende, blivende Aux-Inf 不定詞の助動詞 kunne, måtte Aux-Inf-SForm 不定詞の助動詞の S 形 kunnes, måttes Aux-PaPart 助動詞の過去分詞 kunnet, måttet Aux-Past 過去形の助動詞 kunne, måtte Aux-Pres 現在形の助動詞 kan, vil Aux-Pres-SForm 現在形の助動詞の S 形 villes, skulles Aux-PrPart 助動詞の現在分詞 villende, skullende Cmpd-Part 残された複合語のパーツ kontor - og forretningsbygg Conj 従属接続詞または関係 接続詞 som, mens Conj-Coord 等位接続詞 og, eller Aux Cmpd Conj 221 2012-06-14 言語モジュールリファレンス アンブレラタグ Det Interj 222 完全タグ 説明 例 Det-Art-Def-Pl 限定形複数の限定詞 disse Det-Art-Def-Sg 限定形単数の限定詞 på denne grunn Det-Art-Indef 不定形単数の限定詞 en, et Det/Pron-Comp 限定詞または代名詞、比 較級 mer Det/Pron-Pl 限定詞または代名詞、複 数形 noen, hvilke, alle, andre Det/Pron-Pl-Gen 限定詞または代名詞、複 数形所有格 noens, alles, andres Det/Pron-Sg 限定詞または代名詞、単 数形 hver, litt, alt Det/Pron-Sg-Gen 限定詞または代名詞、単 数形所有格 enhvers, annens Det/Pron-Sup 限定詞または代名詞、最 上級 mest Det/Pron-Sup-Def 限定詞または代名詞、限 定最上級 meste Interj 感嘆詞 ja, herregud 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Nn-Def-Pl 限定複数形の名詞 dørene, armene Nn-Def-Pl-Gen 所有格限定形複数の名 詞 salongenes, kollegenes Nn-Def-Sg 限定形単数の名詞 flyet, klokken Nn-Def-Sg-Gen 所有格限定形単数の名 詞 selskapets, spisestuens Nn-Indef-Pl 不定複数形の名詞 plasser, mapper Nn-Indef-Pl-Gen 所有格不定形複数の名 詞 tiders, menneskers Nn-Indef-Sg 不定形単数の名詞 stol, stripe Nn-Indef-Sg-Gen 所有格不定形単数の名 詞 topps Nn-Indef-SP 不定形単数または複数 の名詞 lys, skritt Nn-Indef-SP-Gen 所有格形不定単数また は複数の名詞 slags, lands, års Nn-Letter 小文字および大文字の 文字 b, N Nn-Net URL および電子メール アドレス www.inxight.com in [email protected] Num 基数の数値表現または 複数形の基数 (スペルア ウト) -294, 4,6%, xii, 1.100to, tre, fire Num-Def-Sg 数値 "one"、限定形単数 (スペルアウト) ene Num-Indef-Sg 数値 "one"、不定形単数 (スペルアウト) en, ett Ord Ord 序数 (数字またはスペル アウト) 7., første Part Part-Inf 不定詞の不変化詞 å beskrive Nn Num 223 2012-06-14 言語モジュールリファレンス アンブレラタグ Prep Pron 完全タグ 説明 例 Prep 前置詞 med, ut Prep-av 前置詞 av av Prep-for 前置詞 for for Prep-fra 前置詞 fra fra Prep-i 前置詞 i i Prep-paa 前置詞 på på bakgrunn Prep-ved 前置詞 ved ved Pron-Acc 対格の代名詞 ham, henne Pron-Nom 主格の代名詞 han, hun Pron-Poss-Pl 複数呼応をともなう所有 代名詞 sine Pron-Poss-Sg 単数呼応をともなう所有 代名詞 sin Prop 固有名詞 Oslo, Arne Prop-Gen 所有格の固有名詞 Akers Punct その他の区切り記号 -[ Punct-Comma コンマ , Punct-Quote 引用符 " ' ' '' '' Punct-Sent 文の境界の区切り記号 . ... ? : ; ! Prop Punct 224 2012-06-14 言語モジュールリファレンス アンブレラタグ V 完全タグ 説明 例 V-Impv 命令形の動詞 se, ta V-Inf 不定詞の動詞 komme, gjøre V-Inf-SForm 不定詞の動詞の S 形 kan belastes V-PaPart 過去分詞の動詞 reist, utpekt, stanset V-PaPart-SForm 過去分詞の動詞の S 形 trivdes V-Past 過去形の動詞 sa, vokste V-Past-SForm 過去形の動詞の S 形 levdes, mistrivdes V-Pres 現在形の動詞 vet, gir V-Pres-SForm 現在形の動詞の S 形 flyttes, møtes, finnes, synes V-PrPart 現在分詞の動詞 vœre avtakende 5.16.1.5 ブークモール語のグループ化Bokmål ブークモール語の単純名詞句は、次のように 1 つ以上の名詞または固有名詞で構成されることがありま す:Bokmål • Arne Huuse ブークモール語の名詞群には、形容詞、所有格、不定名詞など、さまざまな修飾語を含めることができます。 例:Bokmål • nordisk rett • utvalgets sekretær • statsadvokat Ketil Haukaas 名詞句には複合語のパーツも含まれます。また、次のように、og または eller を使用して接続できます: 225 • person- og rettsvern • politi og påtalemyndighet • subsumsjon eller straffutmåling 2012-06-14 言語モジュールリファレンス 単純名詞句は、前置詞 av および fra ではじまる前置詞句と結合することもあります。例: • formidling av informasjon • instrukser fra riksadvokaten 固有名詞が後に続く場合、名詞句に前置詞 ved, i および på も含まれます: • kontrollen ved Norsk Tipping AS • kasino i Finland • organisasjon på Østlandet 次のように、固有名詞の後に前置詞が続く場合、名詞句に前置詞が含まれます: • Internett for privatpersoner 5.16.2 抽出 ここでは、ブークモール語の抽出固有の情報について説明します。Bokmål. 5.16.2.1 事前定義済みエンティティタイプ ここでは、ブークモール語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につ いて説明します。Bokmål 5.16.2.1.1 NOUN_GROUP ブークモール語の単純名詞句は、次のように 1 つ以上の名詞または固有名詞で構成されることがありま す:Bokmål • Arne Huuse ブークモール語の名詞群には、形容詞、所有格、不定名詞など、さまざまな修飾語を含めることができます。 例:Bokmål • nordisk rett • utvalgets sekretær • statsadvokat Ketil Haukaas 名詞句には複合語のパーツも含まれます。また、次のように、og または eller を使用して接続できます: • 226 person- og rettsvern 2012-06-14 言語モジュールリファレンス • politi og påtalemyndighet • subsumsjon eller straffutmåling 5.17 ノルウェー語: ニーノシク語言語リファレンス この章では、ニーノシク語言語モジュールの動作について説明します。 5.17.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、ニーノシク語テキストの言語処理における言語固有の情 報について説明します。 5.17.1.1 ニーノシク語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.17.1.2 ニーノシク語の単語のセグメンテーション ニーノシク語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従 います。ニーノシク語のセグメンテーション機能には、次の言語固有の動作があります。 ニーノシク語のセグメンテーション機能は、s または 's を使用して記述された複数形および所有格を分割しま せん。ハイフンは、ハイフンを使用して記述された複合語のパーツから分離されません。ピリオドは序数表現か ら分離されません。 227 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 Eriks Eriks 32. 32. lonns- lonns- og inntektsutviklinga og inntektsutviklinga 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.17.1.3 ニーノシク語のステミング ここでは、ニーノシク語のステミングで使用される、標準ステム機能と拡張屈折ステム機能について説明します。 5.17.1.3.1 標準ステム機能 ニーノシク語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主 な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のよう なクローズドクラスの単語も、ステム処理される場合があります。 228 カテゴリ 原形 例 名詞 不定形単数 bilen -> bil; jenta -> jente 動詞 不定詞 leikte -> leike; speil -> speile 形容詞 原型 høgare -> høg; blått -> blå 2012-06-14 言語モジュールリファレンス カテゴリ 原形 例 副詞 基本形またはソースの形式 svintare -> svint; imedan -> imedan 5.17.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ニーノシク語固有 のものを次に示します。 大文字小文字のバリアント 拡張バージョンでは、通常は大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 Erik Erik erik Erik アクセント記号付き文字のタイプライター形式 拡張バージョンでは、アクセント記号付き文字のタイプライター表記を許容します。つまり、aa と記述されてい る場合は å、ae と記述されている場合は æ、oe と記述されている場合は ø と認識されます。 例 出力 blaa blå blå blå アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 229 例 出力 bla blå 2012-06-14 言語モジュールリファレンス 例 出力 blå blå ハイフネーション 強制改行ハイフンを削除して分割された単語の 2 つのパーツを連結することで、強制改行ハイフンを処理す るソフトウェアを補助するには、数値以外の表現におけるハイフンを拡張バージョンのオプションにして、本来 ハイフンで連結されている単語をそのまま認識できるようにします。 例 出力 NATO-land NATO-land NATOland NATO-land 5.17.1.4 ニーノシク語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、ノルウェーニーノシク語のタグセットを示します。各タグ名 に、簡単な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語 を太字で示します。タグセットは性別を区別しません。 230 アンブレラタグ 完全タグ 説明 例 Abbr Abbr 省略形 red. 2012-06-14 言語モジュールリファレンス アンブレラタグ Adj Adv 231 完全タグ 説明 例 Adj-Comp 比較級の形容詞 mindre, eldre Adj-Def-Pl 限定形および複数形の 形容詞 gretne, mørke, kalde Adj-Def-Pl-Gen 所有格限定形複数の形 容詞 framandes Adj-Def-Sg 限定形単数の形容詞 lisle, vesle Adj-Indef-Sg 不定形単数の形容詞 norsk Adj-Indef-Sg-Gen 所有格不定形単数の形 容詞 nærliggjandes Adj-PaPart-Def-Pl 過去分詞から派生した限 定形および複数形の形 容詞 kjende Adj-PaPart-Indef-Sg 過去分詞から派生した不 定形単数の形容詞 reist Adj-Pl 複数形の形容詞 ørsmåe Adj-PrPart 現在分詞から派生した形 容詞 begynnande, stirande Adj-PrPart-Gen 現在分詞から派生した所 有格の形容詞 reisandes, leikandes Adj-Sup 最上級の形容詞 best, raskast, størst Adj-Sup-Def 限定最上級の形容詞 finaste, inste, viktigaste Adv 副詞 ikkje, no Adv-Comp 比較級の副詞 lenger, heller Adv-Sup 最上級の副詞 verst 2012-06-14 言語モジュールリファレンス アンブレラタグ Aux/V Aux Cmpd 完全タグ 説明 例 Aux/V-Impv 命令形の助動詞または 本動詞 ver Aux/V-Inf 不定詞の助動詞または 本動詞 bli Aux/V-Inf-SForm 不定詞の助動詞または 本動詞の S 形 havast, fåast Aux/V-PaPart 助動詞または本動詞の 過去分詞 hatt, vore, blitt, fått Aux/V-Past 過去形の助動詞または 本動詞 hadde, var, blei, fekk Aux/V-Pres 現在形の助動詞または 本動詞 har, er, blir, får Aux/V-PrPart 助動詞または本動詞の 現在分詞 havande, blivande, verande Aux-Inf 不定詞の助動詞 kunne, måtte Aux-PaPart 助動詞の過去分詞 vilja, måtta Aux-Past 過去形の助動詞 kunne, måtte Aux-Pres 現在形の助動詞 kan, vil Aux-PrPart 助動詞の現在分詞 viljande, kunnande Cmpd-Part 残された複合語のパーツ kontor - og forretningsbygg Conj 従属接続詞または関係 接続詞 som, mens Conj-Coord 等位接続詞 og, eller Conj 232 2012-06-14 言語モジュールリファレンス アンブレラタグ Det/Pron Det Interj 233 完全タグ 説明 例 Det/Pron-Comp 比較級の限定詞または 代名詞 meir Det/Pron-Pl 複数形の限定詞または 代名詞 alle Det/Pron-Sg 単数形の限定詞または 代名詞 nokon Det/Pron-Sup 最上級の限定詞または 代名詞 mest Det/Pron-Sup-Def 限定最上級の限定詞ま たは代名詞 meste Det-Art-Def-Pl 限定形複数の限定詞 (冠詞または指示代名詞) dei, desse Det-Art-Def-Sg 限定形単数の限定詞 (冠詞または指示代名詞) denne artikkelen Det-Art-Indef 不定形単数の限定詞 eit Interj 感嘆詞 hei, tjo 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Nn-Def-Pl 限定複数形の名詞 dørene, armane Nn-Def-Pl-Gen 所有格限定形複数の名 詞 salonganes, kollegaenes Nn-Def-Sg 限定形単数の名詞 flyet, klokka Nn-Def-Sg-Gen 所有格限定形単数の名 詞 selskapets, stovas Nn-Indef-Pl 不定複数形の名詞 plassar, mapper Nn-Indef-Pl-Gen 所有格不定形複数の名 詞 tiders Nn-Indef-Sg 不定形単数の名詞 stol, lekam Nn-Indef-Sg-Gen 所有格不定形単数の名 詞 fridoms Nn-Indef-SP 不定形単数または複数 の名詞 lys, skritt Nn-Letter 小文字および大文字の 文字 b, N Nn-Net URL および電子メール アドレス Num 基数の数値表現または 複数形の基数 (スペルア ウト) Num-Def-Sg 限定形単数の基数 "one" (スペルアウト) eine Num-Indef-Sg 不定形単数の基数 (スペ ルアウト) eitt Ord Ord 序数 (数字またはスペル アウト) 7., første Part Part-Inf 不定詞の不変化詞 å kalla Nn Num 234 www.inxight.com [email protected] -294, 4,6%, xii, 1.100 to, tre 2012-06-14 言語モジュールリファレンス アンブレラタグ Prep Pron 完全タグ 説明 例 Prep 前置詞 med, ut, opp Prep-av 前置詞 av av Prep-for 前置詞 for for Prep-fra 前置詞 frå frå sin opposisjon Prep-i 前置詞 i i Prep-paa 前置詞 på på alle Prep-ved 前置詞 ved ved Pron-Acc 対格の代名詞 henne Pron-Nom 主格の代名詞 han, ho Pron-Poss-Pl 複数呼応をともなう所有 代名詞 sine Pron-Poss-Sg 単数呼応をともなう所有 代名詞 sin Prop 固有名詞 Johan Prop-Gen 所有格の固有名詞 Espens Punct その他の区切り記号 -[> Punct-Comma コンマ , Punct-Quote 引用符 " ' ' << >> '' '' Punct-Sent 文の境界の区切り記号 . ... ? : ; ! Prop Punct 235 2012-06-14 言語モジュールリファレンス アンブレラタグ V 完全タグ 説明 例 V-Impv 命令形の動詞 speil, kann V-Inf 不定詞の動詞 gjera V-Inf-SForm 不定詞の動詞の S 形 belastast, synast V-PaPart 過去分詞の動詞 peika V-PaPart-SForm 過去分詞の動詞の S 形 trivest V-Past 過去形の動詞 sa V-Past-SForm 過去形の動詞の S 形 møttest, mistreivst, syntest V-Pres 現在形の動詞 gir, oppfattar V-Pres-SForm 現在形の動詞の S 形 finst V-PrPart 現在分詞の動詞 seg nemnande 5.17.1.5 ニーノシク語のグループ化 ニーノシク語の単純名詞句は、最低でも 1 つ以上の名詞または固有名詞で構成されます。例: • Johan Brox 次のように、名詞は前置修飾の形容詞、所有格、不定名詞とグループ化されます: • anvendt forsking • modernismens kris • økonom Tormod Hermannsen ニーノシク語の名詞句には複合語のパーツを含めることもできます。また、og および eller を使用して接続で きます。例: • stats- og folkekyrkja • kommunikasjon og inngangsport • personane eller gruppene 次のように、単純名詞句は av および frå ではじまる前置詞句とも結合します: 236 2012-06-14 言語モジュールリファレンス • overtatt av staten • betong frå sementfabrikken 固有名詞が後に続く場合、名詞群に前置詞 ved, i, および på も含まれます。 • semesteropning ved Volda Lærarhøgskule • redaktør i Fjeld-Ljom • sosialkomiteen på Stortinget 固有名詞の後に続く場合、for ではじまる前置詞句が含まれます: • Sundet for fulle segl 5.17.2 抽出 ここでは、ニーノシク語の抽出固有の情報について説明します。 5.17.2.1 事前定義済みエンティティタイプ ここでは、ニーノシク語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい て説明します。 5.17.2.1.1 NOUN_GROUP ニーノシク語の単純名詞句は、最低でも 1 つ以上の名詞または固有名詞で構成されます。例: • Johan Brox 次のように、名詞は前置修飾の形容詞、所有格、不定名詞とグループ化されます: • anvendt forsking • modernismens kris • økonom Tormod Hermannsen ニーノシク語の名詞句には複合語のパーツを含めることもできます。また、og および eller を使用して接続で きます。例: 237 • stats- og folkekyrkja • kommunikasjon og inngangsport • personane eller gruppene 2012-06-14 言語モジュールリファレンス 5.18 ポーランド語言語リファレンス この章では、ポーランド語言語モジュールの動作について説明します。 5.18.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、ポーランド語テキストの処理における言語固有の情報に ついて説明します。 5.18.1.1 ポーランド語の文字エンコード • iso_8859_2 • cp_1250 • utf_8、utf_16、ucs_4 5.18.1.2 ポーランド語の単語のセグメンテーション ポーランド語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従 います。 関連項目 • 25 ページの「単語のセグメンテーション」 5.18.1.3 ポーランド語のステミング 238 2012-06-14 言語モジュールリファレンス ポーランド語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主 な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のよう なクローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 例 名詞 hosannami -> hosanna, fyrgolu -> fyrgol 動詞 śle -> słać, zajętego -> zająć 形容詞 profonicznym -> profoniczny, progościnniejsze > progościnny 副詞 procale -> procały, wtyczkowie -> wtyczkowy 5.18.2 抽出 注 ポーランド語は基本レベルサポート言語です。つまり、辞書または抽出ルールによる抽出のみがサポートされ ます。 5.19 ポルトガル語言語リファレンス この章では、ポルトガル語言語モジュールの動作について説明します。 5.19.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、ポルトガル語テキストの言語処理における言語固有の情 報について説明します。 239 2012-06-14 言語モジュールリファレンス 5.19.1.1 ポルトガル語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.19.1.2 ポルトガル語の単語のセグメンテーション ポルトガル語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従 います。ポルトガル語のセグメンテーション機能には、次の言語固有の動作があります。 接語は分離されません。また、結合語は 1 つの単語として処理されます。 テキスト セグメンテーション後 dir-se-ia dir-se-ia pela pela 関連項目 • 25 ページの「単語のセグメンテーション」 5.19.1.3 ポルトガル語のステミング ここでは、ポルトガル語のステミングで使用される、標準ステム機能と拡張屈折ステム機能について説明します。 5.19.1.3.1 標準ステム機能 ポルトガル語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主 な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のよう なクローズドクラスの単語も、ステム処理される場合があります。 240 2012-06-14 言語モジュールリファレンス カテゴリ 原形 例 名詞 (男性) 指小辞の付かない単数形 filhos -> filho, balinha -> bala 動詞 不定詞 traremos -> trazer, alimentará > alimentar 形容詞 男性単数形 bonitona -> bonito, caríssimos > caro 副詞 肯定形またはソースの形式 ultimamente -> ultimamente, pessimamente -> pessimamente, mal -> mal 短縮された前置詞および代名詞は、そのコンポーネントに分割され、これらのステムの間に等号を挿入して返 されます。等号は、各ステムが意味上同じ程度重要であることを示します。短縮された前置詞が複合語ユニッ ト内に出現する場合、最後の短縮が分割されます。次の表にこれを示します。 例 ステム pelo por=o dele de=ele abaixo deste abaixo de=este ma eu=ela 5.19.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ここでは、ポルトガ ル語固有のものを示します。 拡張バージョンでは、正確な大文字表記およびアクセント記号表記は必要ありません。 241 2012-06-14 言語モジュールリファレンス 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 Varig Varig varig Varig USA USA usa USA アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 例 出力 mãos mão maos mão faríeis fazer farieis fazer ハイフネーション 拡張バージョンでは、数値ではない表現内のハイフンはオプションです。 242 例 出力 Port-Royal Port-Royal PortRoyal Port-Royal 2012-06-14 言語モジュールリファレンス 5.19.1.4 ポルトガル語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、ポルトガル語のタグセットを示します。各タグ名に、簡単 な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字で 示します。タグセットは性別を区別しません。 Adj Adj 不変化形容詞 simples Adj-Pl 複数形の形容詞 cidãos portugueses Adj-Sg 単数形の形容詞 continente europeu Adv 副詞 directamente Adv-Deg 形容詞を修飾できる副詞 mais livre Aux-be ser および estar の助動 詞 são, estão Aux-have ter および haver ('have') の助動詞 tem, haverá Aux-Inf-be 不定詞の助動詞 estar estar Aux-Inf-have ter および haver の不定 詞形 ter, haver Aux-Inf-Pron-be 接語付きの 'be' 助動詞 の不定詞 sê-lo Aux-Inf-Pron-have 接語付きの ter および haver の不定詞 ter-se Aux-Pron-be 接語付きの 'be' 助動詞 estava-me Aux-Pron-have 接語付きの助動詞 ter お よび haver tinham-se Conj 未分類の接続詞 nem, aquando, tal como Conj-Comp 比較の接続詞 mais do que uma vez Conj-Coord 等位接続詞 por fax ou correio Conj-Sub 従属接続詞 para que, se, que Adv Aux Conj 243 2012-06-14 言語モジュールリファレンス Det/Pron-Dem-Pl 複数形の指示限定詞ま たは代名詞 estes, aqueles Det/Pron-Dem-Sg 単数形の指示限定詞ま たは代名詞 este, aquele Det/Pron-Poss-Pl 複数形の所有限定詞ま たは所有代名詞 vossos, seus Det/Pron-Poss-Sg 単数形の所有限定詞ま たは所有代名詞 vosso, seu Det/Pron-Quant-Pl 複数形の数量限定詞ま たは数量代名詞 quantas vezes Det/Pron-Quant-Sg 単数形の数量限定詞ま たは数量代名詞 quanta vez Det-Int 疑問限定詞 demostra a que ponto Det-Int-Pl 複数形の疑問限定詞 quantos, quantas, quais Det-Int-Sg 単数形の疑問限定詞 quanto, quanta, qual Det-Pl 複数形の限定詞 os maiores aplausos Det-Rel-Pl 複数形の関係限定詞 cujas Det-Rel-Sg 単数形の関係限定詞 cuja Det-Sg 単数形の限定詞 o service Interj 感嘆詞または擬音語 oh, claro Nn 不変化名詞 caos Nn-Letter 単独またはピリオドや右 かっこが後に続く、小文 字および大文字の文字 b, N Nn-Net URL および電子メール アドレス Nn-Pl 複数形の名詞 serviços Nn-Sg 単数形の名詞 esta rede Num 数値表現 123 Det/Pron Det Interj Nn Num 244 www.inxight.com [email protected] 2012-06-14 言語モジュールリファレンス Part 245 Part-Neg 否定の不変化詞 nunca 2012-06-14 言語モジュールリファレンス Prep Prep 前置詞 com Prep-a 前置詞 a a Prep-Adv 前置詞と副詞の組み合 わせ venho daqui Prep-de 前置詞 de de Prep-Dem-Pl 前置詞と複数形の指示 詞の組み合わせ desses recursos Prep-Dem-Sg 前置詞と単数形の指示 詞の組み合わせ nesta placa Prep-Det-Pl 前置詞と複数形の限定 詞の組み合わせ nas, longe das Prep-Det-Pl-a a と複数形の限定詞の組 み合わせ aos Prep-Det-Pl-de de と複数形の限定詞の 組み合わせ dos Grandes Bancos Prep-Det-Sg 前置詞と単数形の限定 詞の組み合わせ na construção Prep-Det-Sg-a a と単数形の限定詞の組 み合わせ ao Prep-Det-Sg-de de と単数形の限定詞の 組み合わせ da, doutro Prep-para 前置詞 para para Prep-Pron 前置詞と代名詞の組み 合わせ atrás dela Prep-Quant-Pl 前置詞と複数形の数量 詞の組み合わせ nuns terrenos Prep-Quant-Sg 前置詞と単数形の数量 詞の組み合わせ numa nuvem Prep-Rel 前置詞と関係代名詞の 組み合わせ nesta praia aonde ... Prep-Rel-Pl 前置詞と複数形の関係 代名詞の組み合わせ alunos aos quais Prep-Rel-Sg 246 área através do qual 2012-06-14 言語モジュールリファレンス 前置詞と単数形の関係 代名詞の組み合わせ Pron Prop Punct V/Adj V 247 Pron 不変化代名詞 si Pron-Int-Pl 複数形の疑問代名詞 Quais são os livros de Manuel? Pron-Int-Sg 単数形の疑問代名詞 Qual é o livro dela? Pron-Pl 複数形の代名詞 eles Pron-Rel 不変化関係代名詞 um ortopedista que Pron-Rel-Pl 複数形の関係代名詞 as instalações as quais Pron-Rel-Sg 単数形の関係代名詞 o ensayo o qual Pron-Sg 単数形の代名詞 ele Prop 固有名詞 Lisbon, Windows Punct その他の区切り記号 :() Punct-Comma コンマ , Punct-Sent 文の区切り記号 .!?; V/Adj-PaPart 過去分詞の動詞または 形容詞 penetrado, referida V-Fin 定形動詞 corresponde V-Fin-Pron 接語付きの定形動詞 deu-lhe V-Inf 不定詞の動詞 reunir, conservar V-Inf-Pron 接語付きの不定詞の動 詞 datar-se V-PrPart 現在分詞の動詞 falando V-PrPart-Pron 接語付きの現在分詞の 動詞 deixando-a 2012-06-14 言語モジュールリファレンス 5.19.1.5 ポルトガル語のグループ化 ポルトガル語の単純名詞句は、必要に応じて前置修飾語および後置修飾語をともなう名詞のことです。次のよ うに、名詞の前に形容詞が先行することがあります: • diferentes destinos 後置修飾語には形容詞および名詞が含まれます。例: • água salgada • Monte Sinai 名詞は、de ではじまり (修飾された) 名詞を含む、後続の前置詞句ともグループ化されます: • mastro de emergência 5.19.2 抽出 ここでは、ポルトガル語の抽出固有の情報について説明します。 5.19.2.1 事前定義済みエンティティタイプ ここでは、ポルトガル語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい て説明します。 5.19.2.1.1 NOUN_GROUP ポルトガル語の単純名詞句は、必要に応じて前置修飾語および後置修飾語をともなう名詞のことです。次のよ うに、名詞の前に形容詞が先行することがあります: • diferentes destinos 後置修飾語には形容詞および名詞が含まれます。例: 248 • água salgada • Monte Sinai 2012-06-14 言語モジュールリファレンス 5.20 ルーマニア語言語リファレンス この章では、ルーマニア語言語モジュールの動作について説明します。 5.20.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、ルーマニア語テキストの処理における言語固有の情報に ついて説明します。 5.20.1.1 ルーマニア語の文字エンコード • iso_8859_2 • cp_1250 • utf_8、utf_16、ucs_4 5.20.1.2 ルーマニア語の単語のセグメンテーション ルーマニア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従 います。 関連項目 • 25 ページの「単語のセグメンテーション」 5.20.1.3 ルーマニア語のステミング ルーマニア語のステミングには、標準ステム機能と拡張ステム機能が含まれます。 249 2012-06-14 言語モジュールリファレンス 5.20.1.3.1 標準ステム機能 ルーマニア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、 主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞の ようなクローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 例 名詞 profesorul -> profesor, muzeele -> muzeu, marii -> mare 動詞 terminam -> termina, doresc -> dori, credeam -> crede 形容詞 frumoasa -> frumos, mici -> mic, eficace -> eficace 副詞 aici -> aici, teoretic -> teoretic, mai -> mai 5.20.1.3.2 拡張ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。ルーマニア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記さ れていない固有名詞がこれに含まれます。例: 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 România România românia România アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 250 2012-06-14 言語モジュールリファレンス 例 出力 inimă inimă inima inimă 5.20.2 抽出 注 ルーマニア語は基本レベルサポート言語モジュールです。つまり、辞書または抽出ルールによる抽出のみが サポートされます。 5.21 ロシア語言語リファレンス この章では、ロシア語言語モジュールの動作について説明します。 5.21.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、ロシア語テキストの言語処理における言語固有の情報に ついて説明します。 5.21.1.1 ロシア語の文字エンコード 251 • iso_8859_5 • cp_1251 • koi8_r • utf_8、utf_16、ucs_4 2012-06-14 言語モジュールリファレンス 5.21.1.2 ロシア語の単語のセグメンテーション ロシア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま す。ロシア語のセグメンテーション機能は、вряд ли、4ръЧ фев., 07ОШб などの複合語ユニットと、лаб.、фр . のような省略形を処理します。 関連項目 • 25 ページの「単語のセグメンテーション」 5.21.1.3 ロシア語のステミング ロシア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品 詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のようなク ローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 例 名詞 работу -> работа, изменения -> изменение покупаю -> покупать, едешь -> ехать 動詞 покупала -> покупать, ехали -> ехать 形容詞 красного -> красный, краснее -> красный, краснейшим -> красный 副詞 хорошо -> хорошо, ясно -> ясно 5.21.1.4 ロシア語の品詞タグ設定 252 2012-06-14 言語モジュールリファレンス 次の表にロシア語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。タグセットは 数または性別を区別しません。 アンブレラタグ 完全タグ 説明 例 Adj-Nom 主格の形容詞 красивый, красивая, красивое, красивые Adj-Acc 対格の形容詞 красивого, красивую, красивое, красивые Adj-Gen 所有格の形容詞 красивого, красивой, красивых Adj-Obl 斜格の形容詞 (与格、 助格など) красивым, красивой, красивому, красивыми Adj-Comp 比較級の形容詞 краше Adj-Brf 短縮形の形容詞 красив, красива, красивы Adj-Inv 省略形の形容詞 т.н. Adv 副詞 быстро Adv-Comp 比較級の副詞 лучше Conj 接続詞 и, но, чтобы Det-Nom 主格の代名詞的形容 詞 этот Det-Acc 対格の代名詞的形容 詞 эту Det-Gen 所有格の代名詞的形 容詞 нашей Det-Obl 斜格の代名詞的形容 詞 этому Det-Inv 省略形の代名詞的形 容詞 др. Dig Dig 数値 (数字) 1999, 100Мб Interj Interj 感嘆詞 ага, ах, ба Adj Adv Conj Det 253 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Nn-Nom 主格の名詞 сестра, сестры Nn-Acc 対格の名詞 сестру, сестер Nn-Gen 所有格の名詞 сестер Nn-Obl 斜格の名詞 сестрой, сестрами Nn-Inv 省略形の名詞 пр., о., г. Num Num 数値 три, восемь Ord Ord 序数 (数字) 7., 3. Pron-IntRel-Nom 主格の関係代名詞 кто Pron-IntRel-Acc 対格の関係代名詞 кого Pron-IntRel-Gen 所有格の関係代名詞 чего Pron-IntRel-Obl 斜格の関係代名詞 кому Pron-Pers-Nom 主格の人称代名詞 я, ты Pron-Pers-Acc 対格の人称代名詞 меня, тебя Pron-Pers-Gen 所有格の人称代名詞 меня, тебя Pron-Pers-Obl 斜格の人称代名詞 мной, тобой Pron-Adv 代名詞的副詞 откуда, кое-как Pron-Nom 主格の代名詞 все, ничто Pron-Acc 対格の代名詞 все Pron-Gen 所有格の代名詞 всего, ничего Pron-Obl 斜格の代名詞 всеми, ничем Nn Pron 254 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Prep-Nom 主格を支配する前置 詞 плюс, минус Prep-Acc 対格を支配する前置 詞 за Prep-Gen 所有格を支配する前 置詞 без, накануне Prep-Obl 斜格を支配する前置 詞 благодаря, к Prop-Nom 主格の固有名詞 Москва, Мальцев Prop-Acc 対格の固有名詞 Москву Prop-Gen 所有格の固有名詞 Москвы Prop-Obl 斜格の固有名詞 Москве, Мальцеве Punct-Comma コンマ , Punct-Sent 文末の区切り記号 .?! Punct-Symbol 文中の区切り記号 %/$ Part 不変化詞 аж, же Part-Int 導入の不変化詞 авось Part-Sent 文の不変化詞 аминь Part-Mood 法マーカーの不変化 詞 бы, ли Aux 助動詞 быть Prep Prop Punct Part Aux 255 2012-06-14 言語モジュールリファレンス アンブレラタグ Verb 完全タグ 説明 例 Verb-Fin 定形動詞 делай, делает, делал Verb-Ger 副詞的分詞 (動名詞) делав, делавши, делая Verb-Inf 不定詞の動詞 делать Verb-Acc 対格の分詞 делавшего, делавшую Verb-Gen 所有格の分詞 делавшего, делавшей Verb-Nom 主格の分詞 делавший, делавшее, делавшая Verb-Obl 斜格の分詞 делавшим, делавшей Verb-Brf 短縮形の分詞 делано, делана Verb-Inv 省略形の動詞 исп. 5.21.2 抽出 ここでは、ロシア語の抽出固有の情報について説明します。 5.21.2.1 ロシア語のサブタイプ ロシア語がサポートするサブタイプのタイプは、ORGANIZATION および URI です。 関連項目 • 34 ページの「 サブタイプ」 5.21.2.2 事前定義済みエンティティタイプ 256 2012-06-14 言語モジュールリファレンス ここでは、ロシア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説 明します。次の各リンクをクリックすると、サブセクションに移動できます。257 ページの 「COUNTRY」、257 ペー ジの 「GEO_AREA」、257 ページの 「GEO_FEATURE」、258 ページの 「LOCALITY」、258 ページの 「ORGANI ZATION」、259 ページの 「PERSON」、259 ページの 「PHONE」、260 ページの 「PROP_MISC」、260 ページの 「TITLE」、および 260 ページの 「URI」。 5.21.2.2.1 COUNTRY 省略形を含む、国の名前: • Германия • Россия • Северная Корея • США • ОАЭ 5.21.2.2.2 GEO_AREA 大陸、国の集団、州、自治区など、重要な土地の集合体を指し、一連の市や町が含まれている、市よりも大き い地理的な領域: • Центральная Европа • Якутия • Огайо • штат Уттар-Прадеш • республика Бурятия • Сахалинская область • Дальний Восток • Ненецкий автономный округ 5.21.2.2.3 GEO_FEATURE 地区、小さい町、村、または川、湖、山の名前: 257 • Чистопольский район • поселок Кутопьюган • озеро Иссык-Куль • Каспийское море • река Волга 2012-06-14 言語モジュールリファレンス 5.21.2.2.4 LOCALITY 市の名前: • Таганрог • Нью-Йорк • Берлин • Великие Луки • Санкт-Петербург 前に方向を示す指定子が付いている市の名前: • северо-запад Москвы • восток Лондона 5.21.2.2.5 ORGANIZATION 非営利団体、美術グループなどの団体や組織を含む、政府機関、法律機関、サービス機関。次のうちいずれ かのサブタイプとして抽出されます。 • COMMERCIAL– 主要な企業や法人などの営利組織の名前。例: • АФК Система • Майкрософт • Газпром • Газпром-Медиа • МТС • Норникель • компания "СМВБ-Информационные технологии" • ЗАО “Эдем” • холдинг "Телекоминвест" • Автобанк-Никойл • Автомобильный Банкирский Дом • Росевробанк • Банк Москвы 注 抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。 • 258 OTHER– 特定のサブタイプに適合しないすべての組織: 2012-06-14 言語モジュールリファレンス • правительство США • Международная организация по стандартизации • Санкт-Петербургский государственный университет • ООН • Ассоциация независимых центров экономического анализа • Министерство по налогам и сборам 5.21.2.2.6 PERSON 名前のバリエーション: • Валерий Трошин • Наталья Фотиева • Алексей Иванович Сергеев • П.В. Шавенков • Иван • Иван Иванович • Сокуров • Джордж Буш-младший • Фритц Фидлер • Татьяна Щепкина-Куперник • Суворова Мария Георгиевна 5.21.2.2.7 PHONE ロシア国内および国際電話番号: • 8(920) 284 8484 • (+7495) 771 7226 • +7(495)788-97-99 等位接続された一連の電話番号: 259 • телефоны 2100500 или 2222222 • тел.: (8-0512)-21-81-60, 49-21-92, 47-88-97 2012-06-14 言語モジュールリファレンス 5.21.2.2.8 PROP_MISC 他のエンティティで特定されるエンティティタイプのいずれにも分類されない、固有名詞: • В финале последнего Кубка Кремля теннисистка добилась победы • Заодно можно проверить готовность города к Олимпиаде 2008 • Между тем, согласно исследованию "Аэртон", депозиты в долларах показали отрицательную доходность • В годы Второй Мировой войны офицер был капитаном жандармерии 5.21.2.2.9 TITLE 人物の地位の説明。地位エンティティには、組織、会社、地名で表現される補語が含まれます: • генеральный директор Агентства прикладной и региональной политики • генеральный секретарь ОПЕК • председатель Ассоциации коммуникационных агентств России • ректор Военно-медицинской академии • глава Генеральной прокуратуры • президент Франции • адвокат экс-главы "ЮКОСа" 5.21.2.2.10 URI インターネットのアドレス: • www.yandex.ru • http://blog.kp.ru/community/1231628 • [email protected] 5.22 セルビア語言語リファレンス この章では、セルビア語言語モジュールの動作について説明します。 260 2012-06-14 言語モジュールリファレンス 5.22.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、セルビア語テキストの言語処理における言語固有の情報 について説明します。 5.22.1.1 セルビア語の文字エンコード • iso_8859_2 • cp_1250 • utf_8、utf_16、ucs_4 5.22.1.2 セルビア語の単語のセグメンテーション セルビア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従い ます。 関連項目 • 25 ページの「単語のセグメンテーション」 5.22.1.3 セルビア語のステミング ここでは、セルビア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.22.1.3.1 標準ステム機能 標準のセルビア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つま り、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞 のようなクローズドクラスの単語も、ステム処理される場合があります。 261 2012-06-14 言語モジュールリファレンス カテゴリ 例 名詞 nemanja -> nemanje , teglu -> tegla , odgovorom -> odgovor 動詞 donese -> doneti , ponude -> ponuditi , zadovoljimo -> zadovoljiti 形容詞 srbijansku -> srbijanski , spremni -> spreman , izborni -> izboran 副詞 joj -> ona , to -> taj , neku -> neki 5.22.1.3.2 拡張ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。セルビア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され ていない固有名詞がこれに含まれます。 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Informacione Tehnologije など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。 262 例 出力 Srbija Srbija srbija Srbija Plovka plovka plovka plovka Splet splet splet splet 2012-06-14 言語モジュールリファレンス 発音区分符号なし文字 拡張バージョンでは、発音区分符号付きの文字の代わりに発音区分符号なし文字も許容します。以下はその 例です。 例 出力 bajačica bajačica bajacica bajačica 5.22.1.4 セルビア語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、セルビア語のタグセットを示します。各タグ名に、簡単な 説明と 1 つ以上の例を示します。タグセットは性別を区別しません。 アンブレラタグ 完全タグ 説明 例 Abbr Abbr 省略形 napr Adj 形容詞 mnogima, srpskog Adj-Comp 比較級の形容詞 dublji, manje Adj-Sup 最上級の形容詞 najnovija, najgore Adv 副詞 bar, tako Adv-Comp 比較級の副詞 bolje, smelije Conj Conj 接続詞 da, zato Enum Enum 列挙体 etc. Interj Interj 感嘆詞 ne, li Adj Adv 263 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Nn-Pl-Nom 複数形主格の名詞 srbi, ljudi Nn-Pl-Acc 複数形対格の名詞 gorštačkim, razloge Nn-Pl-Gen 複数形所有格の名詞 svetinja, vekova Nn-Pl-Case 呼格、処格、および助格 を含む、複数形 funkcionerima, uslovima Nn-Sg-Nom 単数形主格の名詞 istina, pravda Nn-Sg-Acc 単数形対格の名詞 put, narod Nn-Sg-Gen 単数形、所有格の名詞 godine, poverenja Nn-Sg-Case 呼格、処格、および助格 の名詞を含む、単数形 ratu, knjizi Num 数字 123 Num-Nom 主格の数値表現 desetoro Num-Acc 対格の数値表現 dvoje Num-Case 主格および対格以外の 数値表現 troje Num-Card 基数 jedan, devet Num-Ord 序数 prvu, osmo Prep 前置詞 za, od Pron 代名詞 svog, te Pron-Pl 複数形の代名詞 koje Pron-Sg 単数形の代名詞 šta Pron-Ref 再帰代名詞 se Pron-Pers-Sg 単数形の人称代名詞 mi Pron-Pers-Pl 複数形の人称代名詞 ih Pron-Poss-Sg 単数形の所有代名詞 našoj Pron-Poss-Pl 複数形の所有代名詞 njegovih Prop 固有名詞 Zagreb Nn Num Prep Pron Prop 264 2012-06-14 言語モジュールリファレンス アンブレラタグ Punct V 完全タグ 説明 例 Punct-Sent 文末の区切り記号 !?. Punct-Comma コンマ , Punct-Open 開く区切り記号 ( Punct-Close 閉じる区切り記号 ) Punct その他の区切り記号 … V-Inf 不定詞の動詞 objasniti, uništiti V-Fin-Sg 単数形の定形動詞 reci V-Fin-Pl 複数形の定形動詞 smatraju, istaknemo V-Part 分詞 izvadivši V-Part-Sg 単数形の分詞 napao, dozvolio V-Part-Pl 複数分詞 iskopali, proganjali V-Aux-Clit 助動詞 nisu, bi 5.22.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、セルビア語の推測機能に渡され、最も適していると思われる タグが設定されます。セルビア語の推測機能は、セルビア語の形態構造に関するルールセットに基づいて、検 出されなかった単語にタグを設定します。たとえば、末尾が sti -» の単語は不定詞の動詞とみなされます。イ ンターネットおよび電子メールのアドレスには、Nn-Net というタグが設定されます。大文字表記の情報も重要 です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。 5.22.1.5 セルビア語のグループ化 セルビア語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。修飾語は、形容詞、形容 詞的代名詞、または序数であることがありますが、限定詞または wh- 代名詞ではありません。修飾語は、副詞 を自身の修飾語としてともなうことができます。例: 265 • dole podpisani pravoslavni srpski sveštenici • hiljadugodišnjim iskustvom • posle srpskih seoba 2012-06-14 言語モジュールリファレンス 5.22.2 抽出 ここでは、セルビア語の抽出固有の情報について説明します。 5.22.2.1 事前定義済みエンティティタイプ ここでは、セルビア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について 説明します。 5.22.2.1.1 NOUN_GROUP セルビア語の名詞群は、必要に応じて前置修飾語をともなう 1 つ以上の名詞で構成できます。 前置修飾語は、0 個以上の副詞と、その後に続く 1 個以上の (等位) 形容詞、形容詞的代名詞、形容詞的数 詞で構成できます。 例: • poslednje ostatke Krsta • duhu politike • petvekovno tursko ropstvo 5.23 スロバキア語言語リファレンス この章では、スロバキア語言語モジュールの動作について説明します。 5.23.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、スロバキア語テキストの言語処理における言語固有の情 報について説明します。 266 2012-06-14 言語モジュールリファレンス 5.23.1.1 スロバキア語の文字エンコード • iso_8859_2 • cp_1250 • utf_8、utf_16、ucs_4 5.23.1.2 スロバキア語の単語のセグメンテーション スロバキア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従 います。 関連項目 • 25 ページの「単語のセグメンテーション」 5.23.1.3 スロバキア語のステミング ここでは、スロバキア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.23.1.3.1 標準ステム機能 標準のスロバキア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つ まり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名 詞のようなクローズドクラスの単語も、ステム処理される場合があります。 267 カテゴリ 例 名詞 jablká -> jablko, brány -> brána, domom -> dom, stoly -> stôl 動詞 chcel -> chciť, prosím -> prosiť, boli -> byť, myslí -> myslieť 形容詞 tmavom -> tmavý, úzkej -> úzký, starąí -> starý 2012-06-14 言語モジュールリファレンス カテゴリ 例 副詞 dobre -> dobre, nikde -> nikde, neskôr -> neskôr 5.23.1.3.2 拡張ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。スロバキア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され ていない固有名詞がこれに含まれます。 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Stredoveká Literatúra など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。 例 出力 Bratislava Bratislava bratislava Bratislava Ide Ida, idea, ísť ide Ida, idea, ísť Literatúra literatúra literatúra literatúra アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 268 例 出力 lačný lačný 2012-06-14 言語モジュールリファレンス 例 出力 lacny lačný 5.23.1.4 スロバキア語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、スロバキア語のタグセットを示します。各タグ名に、簡単 な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。 次の表に、カスタムエンティティの定義で使用できる、スロバキア語のタグセットを示します。各タグ名に、簡単 な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。 Umbrella Tag Complete Tag Description Examples Abbr Abbr Abbreviation dopr., hl Adj Adjectives úškrnových, úšustov Adj-Comp Comparative adjectives účtovovanší, účtovovanším Adj-Sup Superlative adjectives najúbohším, najúbohších Adv Adverbs najavo, sami Adv-Comp Comparative adverbs účastnšie, účastnejšie Adv-Conj Either adverb or conjunction ako, kde, tak Adv-Part Either adverb or particle celkom, ešte, práve Adv-Sup Superlative adverbs najúbohšie, najúlisnšie Conj Conjunction alebo, keby, pritom Conj-Part Either conjunction or particle a, aj, ale Interj Interjection zbohom, výborne Adj Adv Conj Interj 269 2012-06-14 言語モジュールリファレンス Umbrella Tag Complete Tag Description Examples Nn Invariant noun zombi, šapitó Nn-Pl-Gen Plural, genitive noun účtov, účtovaní Nn-Pl-Case Plural, nominative, accusative, dative, locative and instrumental noun účtami, účtovaniami Nn-Sg-Gen Singular, genitive noun účtu, účtovania Nn-Sg-Case Singular, nominative, accusative, dative, locative and instrumental noun účtovi, účtovaním Nn-Net URL, e-mail address Num Number expression other than cardinal or ordinal, ascii numbers 1, 12% Num-Card Cardinal number osemsto, štyritisíc osemsto Num-Ord Ordinal number dvetisíc, dvetisícsto Part Part Particles nie, by Pref Pref Prefix (stand alone prefix) vodo, ne Prep Prep Prepositions v, zo Nn www.inxight.com Num 270 [email protected] 2012-06-14 言語モジュールリファレンス Umbrella Tag Pron Prop Punct 271 Complete Tag Description Examples Pron-Dem-Pl Plural demonstrative pronoun všelitakí, všelitakým Pron-Dem-Sg Singular demonstrative pronoun taký, všelitakom Pron Indefinite pronoun čosi Pron-Pl Plural pronoun dačíchsi, čiesi Pron-Sg Singular pronoun kdečiasi, všeličiasi Pron-Interrog Interrogative pronoun kto, všelikoho Pron-Refl Reflexive pronoun sám, svoj Pron-Pers-Sg Singular personal pronoun ona, on Pron-Pers-Pl Plural personal pronoun oni, ony Pron-Poss Possesive pronoun váš, ich Prop Prop Swisscom, Swisscomami Punct-Sent Sentence ending punctuation !?. Punct-Comma Comma , Punct-Open Opening punctuation ( Punct-Close Closing punctuation ) Punct-Quote Quote " Punct Other punctuation ... - 2012-06-14 言語モジュールリファレンス Umbrella Tag Complete Tag Description Examples V-Inf Infinitive verb účtovat, útočiet V-Past-Pl Plural, past tense verb účtovali, účinkovali V-Past-Sg Singular, past tense verb účtoval, účtovala V-Pres-Pl Plural, present tense verb účtovujú, účtujeme V-Pres-Sg Singular, present tense verb účtovujem, účtovuj V-Fut-Pl Plural, future tense verb budú, budete V-Fut-Sg Singular, future tense verb bude, budeš V-Aux Auxiliary verb vie, vieš V 5.23.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、スロバキア語の推測機能に渡され、最も適していると思われ るタグが設定されます。スロバキア語の推測機能は、スロバキア語の形態構造に関するルールセットに基づい て、検出されなかった単語にタグを設定します。たとえば、末尾が -» の単語は不定詞の動詞とみなされます。 インターネットおよび電子メールのアドレスには、Nn-Net というタグが設定されます。 大文字表記の情報も重要です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。 5.23.1.5 スロバキア語のグループ化 スロバキア語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。 修飾語は、形容詞または序数であることがありますが、限定詞または代名詞ではありません。 修飾語は、副詞を自身の修飾語としてともなうことができます。 例: 272 • rokovaniach orgánov Európskej únie • základe poverenia poslancov Národnej rady 2012-06-14 言語モジュールリファレンス 5.23.2 抽出 ここでは、スロバキア語の抽出固有の情報について説明します。 5.23.2.1 事前定義済みエンティティタイプ ここでは、スロバキア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい て説明します。 5.23.2.1.1 NOUN_GROUP スロバキア語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。修飾語は、形容詞また は序数であることがありますが、限定詞または代名詞ではありません。修飾語は、副詞を自身の修飾語としてと もなうことができます。 例: • rokovaniach orgánov Európskej únie • základe poverenia poslancov Národnej rady 5.24 スロベニア語言語リファレンス この章では、スロベニア語言語モジュールの動作について説明します。 5.24.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、スロベニア語テキストの言語処理における言語固有の情 報について説明します。 273 2012-06-14 言語モジュールリファレンス 5.24.1.1 スロベニア語の文字エンコード • iso_8859_2 • cp_1250 • utf_8、utf_16、ucs_4 5.24.1.2 スロベニア語の単語のセグメンテーション スロベニア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従 います。 関連項目 • 25 ページの「単語のセグメンテーション」 5.24.1.3 スロベニア語のステミング ここでは、スロベニア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。 5.24.1.3.1 標準ステム機能 標準のスロベニア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つ まり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名 詞のようなクローズドクラスの単語も、ステム処理される場合があります。 274 カテゴリ 例 名詞 čtiva -> čtivo, čtivu -> čtivo, čbeličarju -> čbeličar, čvrstost -> čvrstost, čvrstostih -> čvrstost 動詞 jva -> jesti, jta -> jesti, jte -> jesti, je -> jesti, jesla -> jesti 2012-06-14 言語モジュールリファレンス カテゴリ 例 形容詞 yorški -> yorški, yorških -> yorški, yorška -> yorški 副詞 čvrsto -> čvrsto 5.24.1.3.2 拡張ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。スロベニア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され ていない固有名詞がこれに含まれます。 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Informacijska Tehnologija など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。 例 出力 Čile Čile, čil čile Čile, čil Tomaž Tomaž tomaž Tomaž Tehnologija tehnologija tehnologija tehnologija アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 275 2012-06-14 言語モジュールリファレンス 例 出力 Čile Čile, čil Cile Čile, čil 5.24.1.4 スロベニア語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、スロベニア語のタグセットを示します。各タグ名に、簡単 な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。 アンブレラタグ Adj Adv 完全タグ 説明 例 Adj 形容詞 miren, mirna, mlad, mladi Adj-Comp 比較級の形容詞 lepši, lepše, bolj divji, manj divji Adj-Sup 最上級の形容詞 najlepši, najlepše, najbolj divji, najmanj divji Adv 副詞 lepo, naglo, nagloma Adv-Comp 比較級の副詞 lepše, bolj vroče, manj razločno Adv-Sup 最上級の副詞 najlepše, najbolj vroče, najmanj razločno Conj 接続詞 in, pa, medtem ko Conj-Part 接続詞または分詞 samo, ne Interj 感嘆詞 pfuj, ehej Conj Interj 276 2012-06-14 言語モジュールリファレンス アンブレラタグ Nn 完全タグ 説明 例 Nn 省略形、頭字語などを含 む、不変化名詞 ZDA, št. Nn-Du-Gen 双数形、所有格の名詞 čvrstosti Nn-Du-Case 双数形、主格、対格、与 格、処格、および助格の 名詞 čvrstostih, čvrstostima Nn-Pl-Gen 複数形、所有格の名詞 čvrstosti Nn-Pl-Case 複数形、主格、対格、与 格、処格、および助格の 名詞 čvrstostih, čvrstostmi Nn-Sg-Gen 単数形、所有格の名詞 čvrstosti Nn-Sg-Case 単数形、主格、対格、与 格、処格、および助格の 名詞 cvrstosti, čvrstostjo Nn-Net URL、電子メールアドレス www.inxight.com [email protected] Num 不変化の数値表現 1, 12% Num-Card-Gen 基数、所有格 stotih Num-Card-Case 基数、主格、対格、与 格、処格、および助格 sto, stotim Num-Ord-Gen 序数、所有格 stotih Num-Ord-Case 序数、主格、対格、与 格、処格、および助格 sto, stotim Num-Gen 基数または序数以外の 数値表現、所有格 četvorke, četvork Num-Case 基数または序数以外の 数値表現、主格、対格、 与格、処格、および助格 četvorka, četvorki Part 不変化詞 že, žal Prep 前置詞 pod, po Prep-Cmpd 接語付きの前置詞 podnje, podnjo Num Part Prep 277 2012-06-14 言語モジュールリファレンス アンブレラタグ Pron Prop 278 完全タグ 説明 例 Pron-Dem-Du 双数形の指示代名詞 toliki, tolikima Pron-Dem-Pl 複数形の指示代名詞 tolike, tolikimi Pron-Dem-Sg 単数形の指示代名詞 to, toliko Pron-Ref 再帰代名詞、数変化なし sebe, seboj, sebi Pron-Ref-Sg 単数形の再帰代名詞 svoj, svojim, svoji Pron-Ref-Du 双数形の再帰代名詞 svoji, svojih, svojima Pron-Ref-Pl 複数形の再帰代名詞 svoji, svoje, svoja Pron-Pers-Sg 単数形の人称代名詞 jaz, ti, on, ona, ono Pron-Pers-Du 双数形の人称代名詞 midva, vidva, onadva Pron-Pers-Pl 人称代名詞、複数形 mi, me, vi, ve, oni Pron-Poss-Sg 所有代名詞、単数形 moj, tvoj, njen, njegov Pron-Poss-Du 所有代名詞、双数形 najin, vajin, njun Pron-Poss-Pl 所有代名詞、複数形 naš, vaš, njihov Pron-Interrog 疑問代名詞 kdo, kaj, kateri Pron-Rel 関係代名詞 kdor, kar, kateri, ki Pron-Pl 複数形の代名詞 vsem, vsemi, vse, vsa Pron-Du 双数形の代名詞 vsi, vsema Pron-Sg 単数形の代名詞 vso, vsm, vse Pron その他の代名詞、不定 形、評価など isti, drug Prop 固有名詞 Sava, Ljubljana Prop 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Punct-Sent 文末の区切り記号 .!? Punct-Comma コンマ , Punct-Open 開く区切り記号 ( Punct-Close 閉じる区切り記号 ) Punct-Quote 引用符 " Punct その他の区切り記号 ... - V-Aux 助動詞 biti, bi V-Sup 動名詞の動詞 prodat, spat V-Inf 不定詞の動詞 prodati, spati V-PPast-Du 双数形、過去形の動詞 čvrcali, čvrčala V-PPast-Pl 複数形、過去形の動詞 čvrčala, čvrčale V-PPast-Sg 単数形、過去形の動詞 čvrčalo, čvrčal V-Pres-Du 双数形、現在形の動詞 jva, jta V-Pres-Pl 複数形、現在形の動詞 jte, jmo V-Pres-Sg 単数形、現在形の動詞 je, ješ Punct V 5.24.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、スロベニア語の推測機能に渡され、最も適していると思われ るタグが設定されます。スロベニア語の推測機能は、スロベニア語の形態構造に関するルールセットに基づい て、検出されなかった単語にタグを設定します。たとえば、末尾が -ti の単語は不定詞の動詞とみなされます。 インターネットおよび電子メールのアドレスには、Nn-Net というタグが設定されます。 大文字表記の情報も重要です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。 5.24.1.5 スロベニア語のグループ化 スロベニア語の名詞群は、修飾語を持つ複数の名詞です。 279 2012-06-14 言語モジュールリファレンス 修飾語は、形容詞または序数であることがありますが、限定詞または代名詞ではありません。 修飾語は、副詞を自身の修飾語としてともなうことができます。 例: • življenju otrok • Evropski uniji 5.24.2 抽出 ここでは、スロベニア語の抽出固有の情報について説明します。 5.24.2.1 事前定義済みエンティティタイプ ここでは、スロベニア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい て説明します。 5.24.2.1.1 NOUN_GROUP スロベニア語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。修飾語は、形容詞また は序数であることがありますが、限定詞または代名詞ではありません。修飾語は、副詞を自身の修飾語としてと もなうことができます。 例: • življenju otrok • Evropski uniji 5.25 スペイン語言語リファレンス この章では、スペイン語言語モジュールの動作について説明します。 280 2012-06-14 言語モジュールリファレンス 5.25.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、スペイン語テキストの言語処理における言語固有の情報 について説明します。 5.25.1.1 スペイン語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.25.1.2 スペイン語の単語のセグメンテーション スペイン語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従い ます。スペイン語のセグメンテーション機能には、次の言語固有の動作があります。 del、al などの略語は分割されません。dámelo にあるような接語は分離されません。末尾のハイフンは単語から 分割されます。序数はピリオドから分離されません。 テキスト セグメンテーション後 dámelo dámelo del del empresa empresa2a. 281 2a. 2012-06-14 言語モジュールリファレンス 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.25.1.3 スペイン語のステミング ここでは、スペイン語のステミングで使用される、標準ステム機能、拡張屈折ステム機能、および屈折ステマー 推測機能について説明します。 5.25.1.3.1 標準ステム機能 スペイン語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な 品詞 (オープンクラス) はその原形にステム処理されます。固有名詞はそのものにステム処理されます。末尾の 指小辞はすべて、名前の中にあるものでも削除されます。次の表にこれを示します。 カテゴリ 原形 例 名詞 指小辞の付かない単数形 caballitos -> caballo; gatos -> gato 固有名詞 指小辞の付かないソースの形式 África -> África; Anita -> Ana 動詞 不定詞 compuesto -> componer; contéstame-> contestar 形容詞 男性単数形 altas -> alto; chiquito -> chico 副詞 ソースの形式 por qué -> por qué; cariñosamente -> cariñosamente スペイン語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されます。 複数形のみの形、およびすべての人称代名詞では、数情報が保持されます。適用できる場合は、これらの代 名詞は主格形にステム処理されます。その他の形はすべて、男性単数形にステム処理されます。次の表にこ れを示します。 282 2012-06-14 言語モジュールリファレンス テキスト ステム algo algo ambas ambos ellas ellos mí yo éstas éste 限定詞や序数のようなクローズドクラスの単語は、男性単数の主格形にステム処理されます。屈折しない単語 カテゴリはそのものにステム処理されます。たとえば、接続詞、基数、前置詞などです。 テキスト ステム esta este con con 頭字語、省略形、および複合語ユニットはそのものにステム処理されます。代名詞の省略形は、完全形にステ ム処理されます。次の表にこの処理を示します。 テキスト ステム UNAM UNAM p.ej. p.ej. Ud. usted los tuyos el tuyo 略語は複数のコンポーネントパーツにステム処理されます。 283 2012-06-14 言語モジュールリファレンス テキスト ステム conmigo con=yo al a=el 5.25.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。スペイン語固有の ものを次に示します。 ハイフネーション 拡張バージョンでは、通常は強制的にハイフンが付く単語の、任意のハイフネーションを許容します。 例 出力 MS-DOS MS-DOS MSDOS MS-DOS Baden-Baden Baden-Baden BadenBaden Baden-Baden 大文字小文字のバリアント 拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。 284 例 出力 OEA OEA oea OEA 2012-06-14 言語モジュールリファレンス アクセント記号なし文字 拡張バージョンでは、アクセント記号付き文字の他に、完全なアクセント記号なし文字を許容します。 例 出力 corazón corazón corazon corazón 5.25.1.3.3 屈折ステマー推測機能 屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能 にとって未知であるため、ステム処理できない単語に適用できます。 言語処理は、最初に標準または拡張屈折ステム機能を使用してステミングを試み、次に、従来どおりにステム 処理できなかった単語にのみ、ステマー推測機能を適用します。 5.25.1.4 スペイン語の品詞タグ設定 次の表にスペイン語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。例が複数 の単語で構成される場合、現在のタグを例示する単語を太字で示します。タグセットは性別を区別しません。 アンブレラタグ 完全タグ 説明 例 Adj 不変化形容詞 beige, mini Adj-Ord-Pl 複数形、スペルアウトされ た序数 primeros Adj-Ord-Sg 単数形、スペルアウトされ た序数 primer, primera, sexta Adj-Pl 複数形の形容詞 bonitos, nacionales Adv 副詞 siempre, directamente Adv-Deg 形容詞を修飾できる副詞 muy importante Adv-Int 疑問副詞 cuándo Adv-Rel 副詞的な関係節を示す 語 donde Adj Adv 285 2012-06-14 言語モジュールリファレンス アンブレラタグ Aux 完全タグ 説明 例 Aux-be 助動詞 ser および estar ('be') es, fui, estaba Aux-have 助動詞 haber ('have') han, hubo, hay Aux-Inf-be 'be' 助動詞の不定詞 estar Aux-Inf-have haber の不定詞形 haber Aux-Inf-Pron-be 接語付きの 'be' 助動詞 の不定詞 serme, estarlo Aux-Inf-Pron-have 接語付きの haber の不 定詞 haberle, habérseme Conj 接続詞 si, porque Conj-como 単語 como como Conj-Coord 等位接続詞 y, o Conj-que 単語 que que Det/Pron-Quant-Pl 複数形の数量限定詞ま たは数量代名詞 unas casas Det/Pron-Quant-Sg 単数形の数量限定詞ま たは数量代名詞 poca Det-Dem-Pl 複数形の指示限定詞 estas, esos Det-Dem-Sg 単数形の指示限定詞 esta Det-Pl 複数形の限定詞 tus Det-Pre-Pl 複数形の前置限定詞 todas las, todos los Det-Pre-Sg 単数形の前置限定詞 todo el, toda la Det-Rel 関係限定詞 cual, cuyo Det-Sg 単数形の限定詞 mi Interj 感嘆詞または擬音語 ah Conj Det/Pron Det Interj 286 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Nn 名詞、数字の不変化部 分 fénix Nn-Letter ピリオド付きまたはピリオ ドの付かない小文字の文 字、またはピリオドの付か ない大文字 a, h., M Nn-Net URL または電子メールア ドレス Nn-Pl 複数形の名詞 gatos Nn-Sg 単数形の名詞 gato Num 数値表現、基数 123, XIX, once, cuatrocientos Num-Ord 序数 1o., 2a Part-Neg 否定の不変化詞 no no Prep 前置詞 en, con, por Prep-a 前置詞 a a casa Prep-de 前置詞 de la casa de María Prep-Det 前置詞と限定詞の組み 合わせ fuera del, antes del Prep-Det-a a と限定詞の組み合わせ al Prep-Det-de de と限定詞の組み合わ せ del Prep-para 前置詞 para para la casa Nn Num Part Prep 287 www.inxight.com、 [email protected] 2012-06-14 言語モジュールリファレンス アンブレラタグ Pron Prop Punct 完全タグ 説明 例 Pron 代名詞 yo Pron-Clitic 接語代名詞 (acc. または dat.) le, me, os, nos Pron-Dem 指示代名詞 ésta, aquél Pron-Int 疑問代名詞 cuánto, cuál, quién Pron-Poss 所有代名詞 el mío, las vuestras Pron-Rel 関係代名詞 lo cual, quien Pron-se 再帰代名詞 se 固有名詞、またはアル ファベット、数字、区切り 記号の組み合わせ Pablo Prop Punct その他の区切り記号 ' " / & { :; Punct-Comma コンマ , Punct-Sent 文の区切り記号 .?! V/Adj-PaPart-Pl 複数過去分詞の動詞ま たは形容詞 hechas V/Adj-PaPart-Sg 単数過去分詞の動詞ま たは形容詞 fundada V-Fin 定形動詞 tiene, pueda, dicte V-Impv 命令形の動詞 dejad V-Impv-Pron 接語付きの命令形の動 詞 déjame, sígueme V-Inf 不定詞の動詞 evitar, tener, conducir V-Inf-Pron 接語付きの不定詞の動 詞 hacerse, suprimirlas V-PrPart 現在分詞の動詞 siendo, tocando V-PrPart-Pron 接語付きの現在分詞の 動詞 haciéndoles, tomándolas U-587, Win2000 V/Adj V 288 2012-06-14 言語モジュールリファレンス 5.25.1.4.1 検出されない単語 タグ設定機能の辞書で検出されなかった単語は、スペイン語のタグ設定推測機能に渡されます。この機能で は、これらの単語に、スペイン語の形態構造および大文字表記に関するルールセットに基づくタグが設定され ます。次のタグ設定ルールセットは、このモジュールの一部です。 動詞のタグは動詞の活用形に従って設定されます。インターネットアドレスおよび電子メールアドレスには、NnNet としてタグ設定されます。 大文字ではじまる単語、または数字ではじまり大文字が続く単語は、固有名詞とみなされます。アルファベット 文字と数字の組み合わせ、およびこれらと任意の区切り記号の組み合わせも、固有名詞とみなされます。数字 と区切り記号の組み合わせは、数字としてタグ設定されます。連続した区切り記号マークは、区切り記号として タグ設定されます。 5.25.2 抽出 ここでは、スペイン語の抽出固有の情報について説明します。 5.25.2.1 スペイン語のサブタイプ スペイン語がサポートするサブタイプのタイプは、ORGANIZATION、REGION、SOCIAL_MEDIA、および URI です。 関連項目 • 34 ページの「 サブタイプ」 5.25.2.2 事前定義済みエンティティタイプ ここでは、スペイン語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について 説明します。次の各リンクをクリックすると、サブセクションに移動できます。290 ページの 「ADDRESS1」、290 ページの 「COUNTRY」、290 ページの 「CURRENCY」、291 ページの 「DATE」、291 ページの 「DAY」、291 ペー ジの 「GEO_AREA」、292 ページの 「GEO_FEATURE」、292 ページの 「HOLIDAY」、292 ページの 「LAN GUAGE」、293 ページの 「LOCALITY」、293 ページの 「MEASURE」、293 ページの 「MONTH」、294 ページの 「NOUN_GROUP」、294 ページの 「ORGANIZATION」、295 ページの 「PEOPLE」、295 ページの 「PERCENT」、 295 ページの 「PERSON」、296 ページの 「PHONE」、296 ページの 「PRODUCT」、296 ページの 「PROP_MISC」、 289 2012-06-14 言語モジュールリファレンス 297 ページの 「REGION」、297 ページの 「SOCIAL_MEDIA」、298 ページの 「TIME」、298 ページの 「TIME_PE RIOD」、298 ページの 「TITLE」、299 ページの 「URI」、および 299 ページの 「YEAR」。 5.25.2.2.1 ADDRESS1 ADDRESS1 の形式は、イベリア半島、メキシコ、南アメリカのスペイン語の住所にみられる、典型的な郵便先住 所のパターンに基づきます。 住所には、通りの名前と番地が含まれる必要があります。また、州と国の両方またはいずれかを指定された市、 郵便番号、またはメキシコで使用される近隣を示す地名を含むことがあります。 • Avenida Cristobal Colón 5667 • Plaza de la Lealtad, 5 28014 Madrid • Calle Castillo Chapultepec 47 Colonia Chapultec 62380 Cuernavaca, México • Apartado Postal 20818, 28011 Madrid 5.25.2.2.2 COUNTRY 国の名前、および一定の国家集団の略称。紛争中の領土や国際的に認知されていない領土などの、従来の ラベルを適用できない、地政学的なエンティティの名前も含まれます。以下はその例です。 • Rusia • Nicaragua • Estado de Israel • EE UU • Kosovo • Gibraltar • Palestina • Tibet 5.25.2.2.3 CURRENCY 世界通貨額を表す表現、およびこれらの額の範囲を表す表現: 290 • tres mil cuatrocientos veinte escudos • 3 pesos chilenos • $15 • ¥ 2500 • de 3 a 5 pesetas 2012-06-14 言語モジュールリファレンス • $15-30 • entre cinco mil y un millón de florines 5.25.2.2.4 DATE さまざまな形式の、数字で構成される日付: • 15-9-96 • 15.09.96 • 10/10/2001 • 2000-3-31 • 1980/05/02 完全な日付には、少なくとも 1 つの数字と月が含まれる必要があります。 • 31 de junio • 1 de enero de 1555 5.25.2.2.5 DAY 曜日: • lunes • Miércoles • viernes 日にちの範囲: • lunes-viernes • sábado/domingo 5.25.2.2.6 GEO_AREA 大陸、国の集団、および大陸の一部を含む、市よりも大きな地理上の領域: 291 • Alpes • Norteamérica • Centroamérica • Caribe • Cáucaso • América Latina • Europa del Este 2012-06-14 言語モジュールリファレンス • Medio Oriente • Amazonía • Balcanes 5.25.2.2.7 GEO_FEATURE COUNTRY、GEO_AREA 、LOCALITY、または REGION に当てはまらない、他のすべての場所の名前: • Cisjordania • Mesopotamia • Costa Azul • Sierra Nevada • Cabo Cañaveral • Atlantis • Valle de María • Antillas • Parque Nacional Nahuel Huapi • Parque Nacional Galápagos • Carretera Panamericana 5.25.2.2.8 HOLIDAY 休日および特例日の名前: • Navidad • Epifanía • Semana Santa • Nochevieja • Sagrado Corazón • Año Nuevo 5.25.2.2.9 LANGUAGE 言語に関連する名詞: 292 • el español • el ruso • el alemán 2012-06-14 言語モジュールリファレンス • el noruego • el francés 5.25.2.2.10 LOCALITY 市の名前: • Madrid • Tel Aviv • Miami • México • Barcelona • Roma 5.25.2.2.11 MEASURE 重さ、体積、長さなどのすべてのメジャー: • 3 km • 9 grados • 12 grados centígrados • 75 kilos • 348.000 hectáreas • siete litros • diez millas • 646 toneladas • 660 megavatios メジャーの範囲、およびメジャー表現: • de 28 a 30 grados • 130 litros por metro cuadrado • de 20.000 a 348.000 hectáreas 比率: • cincuenta kilómetros por hora 5.25.2.2.12 MONTH 省略形を含む、月の名前: 293 2012-06-14 言語モジュールリファレンス • octubre • Jul ハイフンまたはスラッシュを使用した月の範囲: • julio-agosto • julio/agosto 5.25.2.2.13 NOUN_GROUP スペイン語の単純名詞句は、必要に応じて前置修飾語および後置修飾語をともなう名詞のことです。 • torneo femenino • cascos azules • decisión definitiva • relaciones sino-norteamericanas • verdadera reanudación • préstamos inmobiliarios • equilibrio presupuestario 5.25.2.2.14 ORGANIZATION 非営利団体、美術グループなどの団体や組織を含む、商業機関、政府機関、教育機関、法律機関、および サービス機関。次のうちいずれかのサブタイプとして抽出されます。 • COMMERCIAL– 主要な企業や法人などの営利組織の名前。例: • Texaco • Yamaha • agencia de noticias Xinhua • FIAT • Corporación del Cobre de Chile • la empresa SOGEMIN • Compañía de Energía de Ceara 注 抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。 • 294 EDUCATIONAL– 主に教育を目的とする機関の名前。例: • Universidad Nacional Autónoma de México • Universidad Complutense de Madrid 2012-06-14 言語モジュールリファレンス • • Escuela Elemental Rafael De Jesús OTHER– 政治的なエンティティとして機能することが可能な地政学的なエンティティのグループを含む、そ の他の非営利組織: • Consejo de Seguridad • UNESCO • Consejo Estatal Chino • Frente Zapatista de Liberación Nacional • Movimiento Revolucionario Túpac Amaru • Cámara de Comercio • Hospital Americano de Paris • Benelux • Comunidad Económica Europea • Unión Europea 5.25.2.2.15 PEOPLE 国、民族、地域、または宗教に基づく人々の特定可能なグループに関連する名前: • los británicos • los sirios • los mexicanos • los indígenas • los brasileños • los ecuatorianos 5.25.2.2.16 PERCENT パーセント表現、およびパーセントの範囲を表す表現: • 60% • 53.83% • de 0,8 % a 16,44 % • un cinco por ciento 5.25.2.2.17 PERSON 名前で参照される個人。さまざまな形式が識別されます。 295 2012-06-14 言語モジュールリファレンス • Roberto • Suzanne Prou • Yitzhak Rabin • PAPA JUAN PABLO II • Juan Caballero Velásquez 完全または省略形の敬称付きの、氏名または名前: • Señor García • Sr. Sanchez-Farrés • Sra. María José de la Garza 5.25.2.2.18 PHONE スペイン語を話す国で使用される FAX 番号および電話番号: • (331) 40 41 45 69 • Fax: (331) 40 41 46 95 • Tel: 34 91 33782 00 • 1-800-111-2222 • Tel: 91 111 11 11 • +34 111 222222 • 111 222 3333 ext 1111 • Fax: 111-2222 • 111-2222 5.25.2.2.19 PRODUCT 必要な場合は会社名が先行する、製品名: • Boeing 757 • Marlboro • Windows • Compaq 3-5/8 5.25.2.2.20 PROP_MISC 他のエンティティで特定されるエンティティタイプのいずれにも属さない、すべての固有名詞句: • 296 Prestige 2012-06-14 言語モジュールリファレンス • Wye Plantation • Guatemala-Elecciones • Zimbabue/N.8 5.25.2.2.21 REGION さまざまな地域は、次のサブタイプのいずれかとして抽出されます: • • MAJOR– 県や自治区などの、国の行政区分または州: • País Vasco • Canarias • Chiapas • provincia de Córdoba • Cauca • California • Minas Gerais MINOR– 国、県、地区の名前、または類似の区画や行政機関: • Martinica • Guadalupe 5.25.2.2.22 SOCIAL_MEDIA ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック は、次のサブタイプのいずれかとして抽出されます: 注 SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。 • • "@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例: • @IsabelNevado • @Ramón_Sanchez • @SCNblogs • @sapnoticiasbr • @sapnews • @SAP_MICROSOFT "#" ではじまる TOPIC_TWITTER–Twitter のトピック。例: • 297 #EnElFuturo 2012-06-14 言語モジュールリファレンス • #La_Colonia • #SAP • #Mobility • #SAPPRESS • #SAP_projects 5.25.2.2.23 TIME 時刻、および時間表現: • 13:45 • 1:45 de la tarde • la 1.45 de la tarde • las 2:30 horas • 12H45 • las 08H00 • 07h GMT • 05H00 GMT • LAS 12H00 GMT 語句での時刻表現: • las cinco y cuarto de la tarde • las diez de la mañana 5.25.2.2.24 TIME_PERIOD 時間間隔のメジャー、およびメジャーの範囲を表す表現: • doce horas • 15 minutos • cuatro décadas • 20 meses • cinco siglos 5.25.2.2.25 TITLE 名前がなくても地位または肩書きだけで特定される個人: • 298 Rey 2012-06-14 言語モジュールリファレンス • Subcomandante • Secretario de Estado 5.25.2.2.26 URI インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます: • • EMAIL– Lotus Notes の電子メールアドレスなどを含む、電子メールアドレス。例: • [email protected] • Dupont/BOBJ@CMP • CTarin/Inxight@CMP URL– インターネットアドレス。例: • elpais.es • www.elpais.es 5.25.2.2.27 YEAR 完全または省略形の、年の識別子: • 1982 • 444 aC • '68 • '50 y '60 10 年間または 100 年間の識別子: • los años sesenta • la década de los noventa • los setenta • siglo XX 年の範囲: • 1979-90 • entre 1989 y 1991 5.26 スウェーデン語言語リファレンス 299 2012-06-14 言語モジュールリファレンス この章では、スウェーデン語言語モジュールの動作について説明します。 5.26.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、スウェーデン語テキストの言語処理における言語固有の 情報について説明します。 5.26.1.1 スウェーデン語の文字エンコード • iso_8859_1 • cp_1252 • utf_8、utf_16、ucs_4 5.26.1.2 スウェーデン語の単語のセグメンテーション スウェーデン語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに 従います。スウェーデン語のセグメンテーション機能には、次の言語固有の動作があります。 スウェーデン語のセグメンテーション機能は、s または 's を使用して記述された複数形および所有格を分割し ません。ハイフンは、ハイフンを使用して記述された複合語のパーツから分離されません。数字と区切り記号の 組み合わせはそのまま保持されます。 テキスト セグメンテーション後 Eriks Eriks metall- metall- och kemikoncern och kemikoncern 300 2012-06-14 言語モジュールリファレンス テキスト セグメンテーション後 456:- 456:- 関連項目 • 25 ページの「単語のセグメンテーション」 • 25 ページの「スペース言語」 5.26.1.3 スウェーデン語のステミング ここでは、スウェーデン語のステミングで使用される、標準ステム機能、拡張屈折ステム機能、および複合語ス テム機能について説明します。 5.26.1.3.1 標準ステム機能 スウェーデン語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、 主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞の ようなクローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 原形 例 名詞 不定形単数 hunden, hundar, hundarna -> hund 動詞 不定詞 springer, sprang, sprungit -> springa 形容詞 原型 vackra, vackert -> vacker 副詞 基本形またはソースの形式 snabbt -> snabbt 5.26.1.3.2 拡張屈折ステム機能 拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許 容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。次の表にスウェー デン語固有のものを示します。 301 2012-06-14 言語モジュールリファレンス 拡張バージョンでは、通常は大文字ではじめる単語の大文字の他に、小文字を許容します。 例 出力 Erik Erik erik Erik アクセント記号付き文字のタイプライター形式 拡張バージョンでは、アクセント記号付き文字のタイプライター表記を許容します。つまり、aa と記述されてい る場合は å、ae と記述されている場合は ä、oe と記述されている場合は ö と認識されます。 例 出力 blaa blå blå blå アクセント記号なし文字 拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。 例 出力 bla blå blå blå ハイフネーション 強制改行ハイフンを削除して分割された単語の 2 つのパーツを連結することで、強制改行ハイフンを処理す るソフトウェアを補助するには、数値以外の表現におけるハイフンを拡張バージョンのオプションにして、本来 ハイフンで連結されている単語をそのまま認識できるようにします。 302 例 出力 uland u-land 2012-06-14 言語モジュールリファレンス 例 出力 u-land u-land 5.26.1.3.3 複合語ステム機能 複合語ステム機能は、多様な複合語のステミングとともに標準屈折ステミングを実行します。特に、複合語ステ ム機能は複合語を分割し、パーツをステミングします。多様な複合語は辞書に格納されていません。これによ り、さまざまな単語の組み合わせが可能になります。 注 標準ステム機能は複合語分析を実行しません。 次の例では、複合語ステム機能の操作を説明しています: Noun-noun 例 出力 aftonbladet afton | bladet berglandskap berg | landskap Noun ninus final -a/e + noun 例 出力 flickskola flick | skola (flicka および skola から) kistnyckel kist | nyckel (kista および nyckel から) Noun+s+noun 303 例 出力 anfallsspel anfall | spel 2012-06-14 言語モジュールリファレンス 例 出力 stavningsreform stavning | reform 5.26.1.4 スウェーデン語の品詞タグ設定 次の表に、カスタムエンティティの定義で使用できる、スウェーデン語のタグセットを示します。各タグ名に、簡 単な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字 で示します。タグセットは性別を区別しません。 アンブレラタグ 完全タグ 説明 例 Abbr Abbr 省略形 S. Adj-Comp 比較級の形容詞 äldre Adj-Def-Pl 限定形および複数形の 形容詞 svenska Adj-Indef-Sg 不定形単数の形容詞 grov Adj-Sup 最上級の形容詞 viktigast Adj-Sup-Def 限定最上級の形容詞 fullaste Adv Adv 副詞 redan Cmpd Cmpd-Part 複合語のパーツ plats- och släktnamnen Conj 接続詞 att Conj-Coord 等位接続詞 och, eller Adj Conj 304 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 Det/Pron-Pl 複数形の限定詞または 代名詞 dessa Det/Pron-Pl-Gen 複数形所有格の限定詞 または代名詞 andras Det/Pron-Sg 単数形の限定詞または 代名詞 något, denna Det/Pron-Sg-Gen 単数形所有格の限定詞 または代名詞 dennes Det-Def-Pl 限定形複数の限定詞 de partierna Det-Def-Sg 限定形単数の限定詞 den ekonom Det-Indef-Sg 不定形単数の限定詞 en, ett Interj 感嘆詞 ja Det/Pron Det Interj 305 2012-06-14 言語モジュールリファレンス アンブレラタグ Nn 完全タグ 説明 例 Nn-Def-Pl 限定複数形の名詞 verken Nn-Def-Pl-Gen 所有格限定形複数の名 詞 professionernas Nn-Def-Sg 限定形単数の名詞 historikern Nn-Def-Sg-Gen 所有格限定形単数の名 詞 dagens Nn-Indef-Pl 不定複数形の名詞 strukturer Nn-Indef-Pl-Gen 所有格不定形複数の名 詞 rikens Nn-Indef-Sg 不定形単数の名詞 dag Nn-Indef-Sg-Gen 所有格不定形単数の名 詞 institutions Nn-Indef-SP 不定形単数または複数 の名詞 universitet Nn-Indef-SP-Gen 所有格形不定単数また は複数の名詞 års Nn-Letter 小文字および大文字の 文字 b, N Nn-Net URL および電子メール アドレス www.inxight.com Nn-Def-Pl 限定複数形の名詞 verken Num 序数、数字またはスペル アウトされた複数 5,4 or 300 Num Ord 306 [email protected] hundra Num-Sg スペルアウトされた数値 "one" en Ord 序数 (数字または単語) tredje 2012-06-14 言語モジュールリファレンス アンブレラタグ Prep 完全タグ 説明 例 Prep 前置詞 kring Prep-av 前置詞 av av Prep-foer 前置詞 för för Prep-om 前置詞 om om Prep-paa 前置詞 på på Pron-Acc 対格の代名詞 en Pron-Gen 所有格の代名詞 ens Pron-Nom 主格の代名詞 man Pron-Pers-Acc 対格の人称代名詞 sig Pron-Pers-Gen 所有格の人称代名詞 dess, deras Pron-Pers-Nom 主格の人称代名詞 du Pron-Poss-Pl 複数形の所有代名詞 mina Pron-Poss-Sg 単数形の所有代名詞 vår, ert Prop 固有名詞 Europa, Margareta Prop-Gen 所有格の固有名詞 Eriks Punct 区切り記号 /- Punct-Comma コンマ , Punct-Paren かっこの区切り記号 ()[] Punct-Quote 引用符の区切り記号 "''«» Punct-Sent 文末の区切り記号 .?! Quant 数量詞 alla, många Pron Prop Punct Quant 307 2012-06-14 言語モジュールリファレンス アンブレラタグ 完全タグ 説明 例 V-Impv 命令形の動詞 tänk V-Impv-SForm 命令形の動詞、S 形 minns V-Inf 不定詞の動詞 skilja V-Inf-SForm 不定詞の動詞、S 形 tänkas V-PaPart 過去分詞の動詞 tecknat, handlat V-Past 過去形の動詞 slog V-Past-SForm 過去形の動詞、S 形 kysstes V-Pres 現在形の動詞 varnar V-Pres-SForm 現在形の動詞、S 形 sägs V-PrPart 現在分詞の動詞 mötande V 5.26.1.5 スウェーデン語のグループ化 スウェーデン語の名詞句には、必要に応じて修飾語をともなう 1 つ以上の名詞が含まれます。名詞修飾語は、 名詞の所有格の形、一連の形容詞 (副詞をともなう場合があります)、および分詞句であることがあります。例: • svenska småföretag • skiftande arbetstider • årligen återkommande attraktion • Göteborgs stadsteater 次のように、修飾語の接続や複合語のパーツを使用できます: • metall- och kemikoncern • socialdemokratiska ledare och regeringschefer 前置詞 för、om、av、および på を名詞句内で使用できます。例: 308 • knepig fråga för regeringen • debatt om rasism • behandling av naturliga språk 2012-06-14 言語モジュールリファレンス • synpunkt på de övriga skäl 5.26.2 抽出 ここでは、スウェーデン語の抽出固有の情報について説明します。 5.26.2.1 事前定義済みエンティティタイプ ここでは、スウェーデン語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につ いて説明します。 5.26.2.1.1 NOUN_GROUP スウェーデン語の名詞句には、必要に応じて修飾語をともなう 1 つ以上の名詞が含まれます。名詞修飾語は、 名詞の所有格の形、一連の形容詞 (副詞をともなう場合があります)、および分詞句であることがあります。例: • svenska småföretag • skiftande arbetstider • årligen återkommande attraktion • Göteborgs stadsteater 次のように、修飾語の接続や複合語のパーツを使用できます: • metall- och kemikoncern • socialdemokratiska ledare och regeringschefer 5.27 タイ語言語リファレンス この章では、タイ語言語モジュールの動作について説明します。 5.27.1 言語処理 309 2012-06-14 言語モジュールリファレンス ここでは、単語のセグメンテーション、ステミングなど、タイ語テキストの処理における言語固有の情報について 説明します。 5.27.1.1 タイ語の文字エンコード • tis_620 • utf_8、utf_16、ucs_4 5.27.1.2 タイ語の単語のセグメンテーション タイ語のセグメンテーション機能は、非スペース言語のすべての一般的なセグメンテーションルールに従いま す。タイ語には、次の言語固有の動作があります。 次に示すように、接尾辞と接頭辞は内容語に付いたまま保持されます: テキスト セグメンテーション後 関連項目 • 25 ページの「単語のセグメンテーション」 5.27.1.3 タイ語のステミング タイ語の単語は屈折しないので、すべての単語のステムは、ソースの形式とまったく同じです。クローズドクラス の単語だけでなく、次の表に示すオープンクラスの単語も同様です。 310 2012-06-14 言語モジュールリファレンス カテゴリ 原形 例 名詞 ソースの形式 ภาพถ่าย -> ภาพถ่าย 動詞 ソースの形式 กลั่น -> กลั่น 形容詞 ソースの形式 คอนกรีต -> คอนกรีต 副詞 ソースの形式 กรอด -> กรอด 5.27.2 抽出 注 タイ語は基本レベルサポート言語モジュールです。つまり、辞書または抽出ルールによる抽出のみがサポート されます。 5.28 トルコ語言語リファレンス この章では、トルコ語言語モジュールの動作について説明します。 5.28.1 言語処理 ここでは、単語のセグメンテーション、ステミングなど、トルコ語テキストの処理における言語固有の情報につい て説明します。 5.28.1.1 トルコ語の文字エンコード 311 2012-06-14 言語モジュールリファレンス • iso_8859-9 • utf_8、utf_16、ucs_4 5.28.1.2 トルコ語の単語のセグメンテーション トルコ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま す。 関連項目 • 25 ページの「単語のセグメンテーション」 5.28.1.3 トルコ語のステミング トルコ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品 詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のようなク ローズドクラスの単語も、ステム処理される場合があります。 カテゴリ 例 名詞 kitaplar -> kitap, anahtarýný -> anahtar, denizi -> deniz 動詞 açabilir -> aç, gideceðim -> git, boyamaya -> boya 形容詞 küçük -> küçük, dikkatli -> dikkat, güzel -> güzel 副詞 sessiz -> ses, gergin -> ger, çabukça -> çabuk 5.28.2 抽出 312 2012-06-14 言語モジュールリファレンス 注 トルコ語は基本レベルサポート言語です。つまり、辞書または抽出ルールによる抽出のみがサポートされます。 313 2012-06-14 カスタマの声コンテンツ カスタマの声コンテンツ カスタマの声コンテンツには、カスタマの感想および要求を抽出する要件を指定するエンティティタイプとルー ルのセットが含まれます。このコンテンツを使用して、テキストの処理および分析時に、カスタマのニーズと意見 に関する特定の情報を取得できます。 カスタマの声コンテンツは、次の言語モジュールに含まれ、これらの言語モジュールをサポートします。 • 英語 • フランス語 • ドイツ語 • スペイン語 抽出には、複雑な言語分析とパターン一致処理が必要です。これには、品詞、構文パターン、否定などを処理 して、抽出されるパターンを識別することが含まれます。 抽出出力には、識別されたパターンと、抽出された情報のタイプ (感想または要求のどちらか) などの各抽出 に関する情報が含まれます。 カスタマの声コンテンツには、次のルールセットが含まれます。 ルールセットの説明 コンパイル済み (.fsm) ファイルおよびソース (.rul) ファイル english-tf-voc-sentiment.fsm english-tf-voc-sentiment.rul french-tf-voc-sentiment.fsm • Sentiment 強い、または弱いなどの感想の強さを含む、感想 と問題に関する情報を抽出します french-tf-voc-sentiment.rul german-tf-voc-sentiment.fsm german-tf-voc-sentiment.rul spanish-tf-voc-sentiment.fsm spanish-tf-voc-sentiment.rul 315 2012-06-14 カスタマの声コンテンツ ルールセットの説明 コンパイル済み (.fsm) ファイルおよびソース (.rul) ファイル english-tf-voc-request.fsm english-tf-voc-request.rul french-tf-voc-request.fsm • Request 連絡してほしいなどのカスタマによる一般的な要 求を抽出します。 french-tf-voc-request.rul german-tf-voc-request.fsm german-tf-voc-request.rul spanish-tf-voc-request.fsm spanish-tf-voc-request.rul データの分析および抽出時、ルールセットでは、カスタマの感想や要求を表現するステートメントが意向として 考慮されます。意向はさらに、スタンスとトピックに分割されます。 • 感想の意向の場合、スタンスは感想のカテゴリまたはタイプを表します。たとえば、肯定的で強い感想、否 定的で強い感想などです。 • 要求の意向の場合、スタンスは一般か連絡かなどの要求のタイプを表します。 • トピックは、感想または要求の内容を表します。 抽出される各意向には、通常次のものが含まれます。 • 少なくとも 1 つのスタンス • オプションのトピック (1 つの意向に複数のトピックが可能) 抽出を拡張するためのカスタマの声コンテンツの使用の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽出カスタマイゼーションガイド 』を参照してください。 関連項目 • 316 ページの「感想の抽出」 • 321 ページの「要求の抽出」 6.1 感想の抽出 感想ルールは、何かに対する誰かの感想に関する情報を抽出するために設計されています。このルールは、 コンセプト、場所、アクション、項目 (例: 製品、会社、サービス、個人) などに対するカスタマの感情を表現する パターンを抽出します。 316 2012-06-14 カスタマの声コンテンツ このルールは、抽出された感想を次のスタンスタイプに分類します。 感想のスタンスタイプ 説明 肯定的で強い感想 肯定的で強い意見 ("とてもよい"、"すばらしい" な ど) 肯定的で弱い感想 肯定的で弱い意見 ("よい"、"結構" など) 中立の感想 肯定的でも否定的でもない意見 ("OK"、"まあまあ" など) 否定的で弱い感想 否定的で弱い意見 ("悪い"、"嫌い" など) 否定的で強い感想 否定的で強い意見 ("大嫌い"、"ひどい" など) 小さな問題 カスタマ側で回避可能な障害についての意見 ("役 に立たない"、"欠点がある") など 大きな問題 カスタマ側で回避不可能な障害についての意見 ("壊 れた"、"動かない" など) 抽出された感想には、スタンスだけでなく、1 つのトピック (感想の内容) も含まれます。トピックは、"カスタマは 何に対する感想を言っているのか?" という疑問の答えです。 6.1.1 英語: 感想の抽出例 肯定的で強い感想 • I totally recommend this car for everyone. [Sentiment]I [StrongPositiveSentiment]totally recommend[/StrongPositiveSentiment] [Topic]this car[/Topic] for everyone.[/Sentiment] 肯定的で弱い感想 • The screen is nice with a good picture quality. [Sentiment][Topic]The screen[/Topic] is [WeakPositiveSentiment]nice[/WeakPositiveSentiment] with a [WeakPositiveSentiment]good[/WeakPositiveSentiment] [Topic]picture quality[/Topic].[/Sentiment] 317 2012-06-14 カスタマの声コンテンツ 中立の感想 • I don't love your software. [Sentiment]I do[NeutralSentiment]n't love[/NeutralSentiment] [Topic]your software[/Topic].[/Sentiment] 否定的で弱い感想 • I was disappointed that the coffee was cold. [Sentiment]I was [WeakNegativeSentiment]disappointed[/WeakNegativeSentiment] [Topic]that the coffee was cold[/Topic][/Sentiment].[/Sentiment] 否定的で強い感想 • I am very dissatisfied with your service. [Sentiment]I am [StrongNegativeSentiment]very dissatisfied[/StrongNegativeSentiment] with [Topic]your service[/Topic].[/Sentiment] 小さな問題 • Most flights are overbooked. [Sentiment][Topic]Most flights[/Topic] are [MinorProblem]overbooked[/MinorProblem].[/Sentiment] 大きな問題 • Contrary to what the package indicates, it doesn't work. [Sentiment]Contrary to what the package indicates, it does[MajorProblem]n't work[/MajorProblem].[/Sen timent] 6.1.2 フランス語: 感想の抽出例 肯定的で強い感想 • Les repas y sont excellents. [Sentiment][Topic]Les repas[/Topic] y sont [StrongPositiveSentiment]excellents[/StrongPositiveSenti ment][/Sentiment]. 肯定的で弱い感想 • Je suis satisfait du confort intérieur. Je suis [Sentiment][WeakPositiveSentiment]satisfait[/WeakPositiveSentiment] du [Topic]confort intérieur[/Topic][/Sentiment]. 中立の感想 • Une voiture relativement acceptable. 318 2012-06-14 カスタマの声コンテンツ [Sentiment][Topic]Une voiture[/Topic] [NeutralSentiment]relativement acceptable[/NeutralSentiment][/Sen timent]. 否定的で弱い感想 • Un serveur assez impoli. [Sentiment][Topic]Un serveur[/Topic] [WeakNegativeSentiment]assez impoli[/WeakNegativeSentiment][/Sen timent]. 否定的で強い感想 • Le tirage photo me déçoit beaucoup par sa mauvaise qualité. [Sentiment][Topic]Le tirage photo[/Topic] me [StrongNegativeSentiment]déçoit beaucoup[/StrongNega tiveSentiment][/Sentiment] par sa mauvaise qualité. 小さな問題 • Le problème se situe dans le moteur. Le [Sentiment][MinorProblem]problème[/MinorProblem] se situe dans le moteur.[/Sentiment] 大きな問題 • Contrairement à ce que l'emballage indique, ça ne fonctionne pas. Contrairement à ce que l'emballage indique, [Sentiment]ça ne [MajorProblem]fonctionne pas[/MajorProb lem][/Sentiment]. 6.1.3 ドイツ語: 感想の抽出例 肯定的で強い感想 • Der Fernseher ist klasse. [Sentiment][Topic] Der Fernseher [/Topic] ist [StrongPositiveSentiment] klasse [/StrongPositiveSenti ment][/Sentiment]. 肯定的で弱い感想 • Ich mag das Radio. [Sentiment] Ich [WeakPositiveSentiment] mag [/WeakPositiveSentiment][Topic] das Radio[/Topic][/Senti ment]. 中立の感想 • Ich finde Ihre Produkte etwas mittelmäßig. 319 2012-06-14 カスタマの声コンテンツ Ich finde [Sentiment][Topic] Ihre Produkte[/Topic][NeutralSentiment] etwas mittelmäßig [/NeutralSenti ment][/Sentiment]. 否定的で弱い感想 • Der Hauptbahnhof ist nicht schön. [Sentiment][Topic] Der Hauptbahnhof [/Topic] ist [WeakNegativeSentiment] nicht schön[/WeakNega tiveSentiment][/Sentiment]. 否定的で強い感想 • Der Service war furchtbar. [Sentiment][Topic] Der Service [/Topic] war [StrongNegativeSentiment] furchtbar [/StrongNegativeSenti ment][/Sentiment]. 小さな問題 • Es sieht so aus, als ob es meinem Computer schadet. Es sieht so aus, als ob es [Sentiment][Topic] meinem Computer [/Topic][MinorProblem] schadet [/Minor Problem][/Sentiment]. 大きな問題 • Die Installierung hat meinen Computer kaputt gemacht!. [Sentiment] Die Installierung hat [Topic] meinen Computer [/Topic][MajorProblem] kaputt gemacht [Ma jorProblem][/Sentiment]. 6.1.4 スペイン語: 感想の抽出例 肯定的で強い感想 • Absolutamente adoro este álbum. [Sentiment][StrongPositiveSentiment]Absolutamente adoro[/StrongPositiveSentiment] [Topic]este álbum[/Topic][/Sentiment]. 肯定的で弱い感想 • Me gusta este grupo. [Sentiment][WeakPositiveSentiment]Me gusta[/WeakPositiveSentiment] [Topic]este grupo[/Topic][/Sen timent]. 中立の感想 • No es una maravilla. 320 2012-06-14 カスタマの声コンテンツ [Sentiment]No es una [NeutralSentiment]maravilla[/NeutralSentiment][/Sentiment]. 否定的で弱い感想 • Es una mala tienda. [Sentiment]Es una [WeakNegativeSentiment]mala[/WeakNegativeSentiment] [Topic]tienda[/Topic][/Sen timent]. 否定的で強い感想 • Odio este televisor. [Sentiment][StrongNegativeSentiment]Odio[/StrongNegativeSentiment] [Topic]este televisor[/Topic][/Sen timent]. 小さな問題 • Tengo problemas con el sonido. • [Sentiment]Tengo [MinorProblem]problemas[/MinorProblem] con [Topic]el sonido[/Topic][/Sentiment]. 大きな問題 • El archivo es corrupto. [Sentiment][Topic]El archivo[/Topic] es [MajorProblem]corrupto[/MajorProblem][/Sentiment]. 6.2 要求の抽出 要求ルールは、変更や改善に対するカスタマの要望に関する情報を抽出するために設計されています。この ルールは、連絡を希望する、または製品、会社、サービス、または個人などの項目についての新機能や追加 機能に関するカスタマの要求を表現するパターンを抽出します。 要求は次のスタンスに分類されます。 要求のスタンスタイプ 説明 一般要求 改善や新規機能に関する要求 ("追加してくださ い"、"作成してください"、"してほしい" など) 連絡要求 直接または即時の連絡に関する要求 ("私に連絡し てください"、"私に電話してください" など) 抽出されるリクエストには次のものが含まれます。 321 2012-06-14 カスタマの声コンテンツ • 1 つの要求のスタンス (ContactRequest または GeneralRequest) • オプションで 1 つのトピック - 要求の内容。トピックは、"カスタマが望んでいることは何か?" という疑問の答 えです。 • オプションの連絡先情報 - 電話番号または FAX 番号、住所、電子メールアドレス、Web サイトアドレス 6.2.1 英語: 要求の抽出例 一般要求 • Improve the software UI. [Request][GeneralRequest]Improve[/GeneralRequest] [Topic]the software UI[/Topic].[/Request] • An additional switch would be great to have on this vacuum cleaner. [Request][Topic]An additional switch[/Topic] [GeneralRequest]would be great[/GeneralRequest] to have on this vacuum cleaner.[/Request] 連絡要求 • I would like to be contacted by your customer support service at 617-555-5555. [Request]I [ContactRequest]would like to be contacted[/ContactRequest] by [Topic]your customer support service[/Topic] at [ContactInfo]617-555-5555[/ContactInfo].[/Request] • I would like to receive the January catalog. [Request]I [ContactRequest]would like to receive[/ContactRequest] [Topic]the January catalog[/Top ic].[/Request] 6.2.2 フランス語: 要求の抽出例 一般要求 • Le conso aimerait savoir s'il peut avoir une extension de garantie. [Request]Le conso [GeneralRequest]aimerait[/GeneralRequest] [Topic]savoir s'il peut avoir une extension de garantie[/Topic][/Request]. • J'aurais aimé trouver plus de fonctions. [Request]J'[GeneralRequest]aurais aimé[/GeneralRequest] [Topic]trouver plus de fonctions[/Topic].[/Re quest] 322 2012-06-14 カスタマの声コンテンツ 連絡要求 • Il souhaitait des informations sur les nouveaux produits. [Request]Il [ContactRequest]souhaitait[/ContactRequest] [Topic]des informations[/Topic] sur les nouveaux produits.[/Request] • Il demande des renseignements sur la garantie constructeur. [Request][ContactRequest]Il demande[/ContactRequest] [Topic]des renseignements[/Topic] sur la garantie constructeur.[/Request] 6.2.3 ドイツ語: 要求の抽出例 一般要求 • Lizenzmodel deutlich vereinfachen! [Request] [Topic] Lizenzmodel [/Topic] [GeneralRequest] deutlich vereinfachen [/GeneralRequest] ! [/Request] 連絡要求 • Rufen Sie mich unter der Nummer 555-1212 an. [Request] [ContactRequest] Rufen [/ContactRequest] Sie mich unter der Nummer [ContactInfo] 555-1212 [/ContactInfo] an. [/Request] 6.2.4 スペイン語: 要求の抽出例 一般要求 • Podría hacer un otro color en vez de blanco? [Request]Podría [GeneralRequest]hacer[/GeneralRequest] [Topic]un otro color en vez de blanco[/Top ic]?[/Request] 連絡要求 • Quiero contactarme contigo. [Request][ContactRequest]Quiero contactarme contigo[/ContactRequest][/Request]. 323 2012-06-14 企業コンテンツ 企業コンテンツ 企業に特化したコンテンツには、企業のドメイン固有の抽出要件を指定するルールが含まれます。この企業コ ンテンツを使用して、テキストの処理および分析時に、次の特定の種類の情報を抽出できます。 ルールセットの説明 コンパイル済み (.fsm) ファイルおよびソース (.rul) ファイル • english-tf-ent-Member.fsm メンバーシップ情報 個人の所属に関する情報を抽出します • 管理の変更 管理の変更に関する情報を抽出します • 製品リリース 製品リリースに関する情報を抽出します • 吸収合併 吸収合併に関する情報を抽出します • 組織情報 創立者、場所、または連絡先情報などの組織に 関する情報を抽出します english-tf-ent-Member.rul english-tf-ent-ManagementChanges.fsm english-tf-ent-ManagementChanges.rul english-tf-ent-ProductRelease.fsm english-tf-ent-ProductRelease.rul english-tf-ent-Mergers.fsm english-tf-ent-Mergers.rul english-tf-ent-OrganizationInfo.fsm english-tf-ent-OrganizationInfo.rul 注 企業コンテンツは、英語言語モジュールのみに含まれ、英語言語モジュールのみをサポートします。 企業コンテンツを使用して抽出ルールを拡張する方法の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽出カスタマイゼーションガイド 』を参照してください。 関連項目 • 326 ページの「メンバーシップ情報の抽出」 • 327 ページの「管理の変更イベントの抽出」 • 330 ページの「製品リリースイベントの抽出」 • 330 ページの「吸収合併情報の抽出」 325 2012-06-14 企業コンテンツ • 358 ページの「組織情報の抽出」 7.1 メンバーシップ情報の抽出 メンバールールは、個人および組織内での地位に関する、個人のメンバーシップ情報を抽出するために設計 されています。 次の表に、メンバーシップ情報を抽出するためのルールを示します。 ルール Member_OrgPerPos 説明 例 一般書式 "組織、個人、位置" に 一致するパターンを抽出します Southern Community Financial Corporation announced the appointment of Richard M. Cobb, Executive Vice President, Chief Operating Officer and Chief Financial Officer Member_OrgPosPer "It is a typical tight stock situation," said Smith Barney analyst Walter Spilka. Member_OrgPosPer_PosGuess Baptist minister and Salvation Army volunteer Ralph Balley says the favorite song among inmates is the hymn "Amazing Grace" about a lost soul who found redemption. 一般書式 "組織、位置、個人" に 一致するパターンを抽出します Member_OrgPosPer_PerGuess 326 CanWest Global Communications Corp Chief Executive Officer Izzy Asper said on Thursday he expects the broadcast company will see a "substantial advance" in profits, dividends and developments in 1997. 2012-06-14 企業コンテンツ ルール 説明 例 Larry Wachtel, a Prudential Securities market analyst Member_PerOrgPos 一般書式 "個人、組織、位置" に 一致するパターンを抽出します Member_PerOrgMember Yael Dayan, a Labour Party member Member_PerPosOrg Harry Reid, president of True North Communications International Member_PerMemberOrgBoD 一般書式 "個人、位置、組織" に 一致するパターンを抽出します Member_PerMemberOrg Willy Kiekens, a member of the IMF's board of directors Willy Kiekens, a member of the IMF 7.2 管理の変更イベントの抽出 管理の変更ルールは、個人の肩書きや会社の変更に関する情報を抽出するために設計されています。この情 報には、肩書きの以前の保持者、今後の保持者に関する情報が含まれます。 管理の変更ルールファイルには、次の 2 つのグループのルールがあります。 327 • HireEvent - 雇用の開始に関連するパターンを抽出するルール • ResignEvent - 雇用の終了に関連するパターンを抽出するルール 2012-06-14 企業コンテンツ 表 7-3: HireEvent ルール ルール HireEvent_OrgActPerPos 説明 例 一般書式 "組織、アクション、個 人、位置" に一致するパターンを 抽出します Big Bear Networks, delivering intelligence into the Optical/Electrical interface for enterprise, metro and carrier networks, today named Amit Jain as its president and chief executive officer. HireEvent_OrgPerActPos 一般書式 "組織、個人、アクショ ン、位置" に一致するパターンを 抽出します nLayers, the leader in real-time discovery and resource optimization, announced today that Frank Moss, Ph.D., has joined its Strategic Advisory Board. HireEvent_OrgPerActBoD HireEvent_PerActPosOrg HireEvent_PerActOrgPos HireEvent_PerActOrgBoD 328 Specialty Disease Management Services, Inc., a leading provider of disease management services, announced today that Brian Vervynck has joined the firm as vice president of sales. 一般書式 "個人、アクション、位 置、組織" に一致するパターンを 抽出します 一般書式 "個人、アクション、組 織、位置" に一致するパターンを 抽出します Jeff McLean has been named president of CooperVision's U.S. operations. Brad Jones joins CooperVision's management team as vice president of U.S. sales. Willy Kiekens was named to the IMF's board of directors. 2012-06-14 企業コンテンツ 表 7-4: ResignEvent ルール ルール 説明 例 一般書式 "組織、個人、アクショ ン、位置" に一致するパターンを 抽出します Suburban Propane Partners L.P. said Thursday that Salvatore Quadrino resigned as president to pursue other business opportunities. 一般書式 "組織、個人、位置、ア クション" に一致するパターンを 抽出します Southern Community Financial Corporation (Nasdaq: SCMF; SCMFO) announced today that on February 5, 2005, Richard M. Cobb, Executive Vice President, Chief Operating Officer and Chief Financial Officer of Southern Community Financial Corporation, announced his resignation from the Company effective today. 一般書式 "組織、位置、個人、ア クション" に一致するパターンを 抽出します Performance Technologies, Inc. (Nasdaq: PTIX), today announced that current President and Chief Executive Officer, Donald L. Turrell, will leave the Company's executive management at the end of 2005 to explore personal interests. ResignEvent_PerActPosOrg 一般書式 "個人、アクション、位 置、組織" に一致するパターンを 抽出します VOSTROM Holdings, Inc., a company closely held by Victor Oppleman, today announced that Mr. Oppleman resigned as president of MainNerve, Inc. effective March 4, 2005. ResignEvent_PerActOrgBoD 一般書式 "個人、アクション、組 織、位置" に一致するパターンを 抽出します Willy Kiekens resigned from the IMF's board of directors. ResignEvent_OrgPerActPos ResignEvent_OrgPerPosAct ResignEvent_OrgPosPerAct 329 2012-06-14 企業コンテンツ 7.3 製品リリースイベントの抽出 製品リリースルールは、新製品の発表に関する情報を抽出するために設計されています。この情報には会社、 日付、および価格が含まれます。このルールは、新規の製品名を抽出するように試みるもので、PRODUCT エ ンティティという、確立済みの抽出セットには依存しません。 次の表に製品リリースに対して有効なルールを示します。 ルール ProductRelease_OrgRelProd 説明 一般書式 "組織の製品販売" に 一致するパターンを抽出します 例 Microsoft Corp said it plans to release its Microsoft Internet Information Service 3.0 software, a web page development package. TRW Automotive Holdings Corp. announced plans to unveil the company's integrated safety system platform. ProductRelease_OrgAnnProd 一般書式 "組織の製品発表" に 一致するパターンを抽出します Apple(R) today announced iTunes(R) 5, bringing new features and a refined look to the world's most popular digital music jukebox and online music store. 7.4 吸収合併情報の抽出 吸収合併ルールは、吸収合併に関する情報を抽出するために設計されています。 次の表に、吸収合併情報に対して有効なルールを示します。 330 2012-06-14 企業コンテンツ ルール 説明 例 BuyEvent 一般書式 "組織 1、購入、組織 2" に一致するパターンを抽出します Toys R Us will acquire Baby Superstore Inc in a stock merger valued at about $376 million. SellEvent 一般書式 "組織 1、販売、組織 2" に一致するパターンを抽出します The Netherlands's largest bank ABN AMRO said on Friday it had signed a letter of intent to sell its MeesPierson investment bank unit to Belgian/Dutch financial group Fortis. MergeEvent_MergePre 一般書式 "マージ、範囲、組織 1、AND、組織 2" に一致するパ ターンを抽出します The merger of AUSTEL and Spectrum Management Authority was announced today. MergeEvent_MergePost 一般書式 "組織 1、AND、組織 2、マージ" に一致するパターンを 抽出します Namibian Fishing Industries Ltd (Namfish) and Namibian Sea Products Ltd (Namsea) are to merge in April. 7.5 組織情報の抽出 組織情報ルールは、会社および組織の中心となる情報を抽出するために設計されています。次の表に、組織 用に定義されたルールセットを示します。 331 ルール 説明 OrganizationPerson 一般書式 "個人、組織での位置" に一致するパターンを抽出します (電話、Fax、電子メール、および URL をオプション指定できます) OrganizationPhone 一般書式 "組織、電話" に一致す るパターンを抽出します 例 • Patti J. McAtee, Director of CalEnergy, 402-341-4500. • Motorola, Inc., George Grimsrud, 847/576-2346. • Business Objects, North America, +1 800 877 2340 2012-06-14 企業コンテンツ ルール OrganizationFax OrganizationEmail OrganizationURL OrganizationAddress OrganizationLocation 332 説明 例 • Marriott International press releases are available through Company News On-Call by fax, 800-758-5804, ext. 532963. • Inxight Software Inc., 500 Macara Avenue, Sunnyvale, CA 94085, U.S.A., Email: in [email protected] • Seagate's home page address on the World Wide Web is http://www.seagate.com. • These documents are all available on Intuit's Web site at http://www.intuit.com. • For more information contact: Inxight Software Inc., 500 Macara Avenue, Sunnyvale, CA 94085, Tel: 555.555.1212. • U.S. operations of Toyota, Japan's largest automaker, are headquartered in New York. • Fort Lauderdale-based Blockbuster has nearly 2,800 stores nationwide. • Cypress Asset Management Inc, a Houston-based investment adviser 一般書式 "組織、Fax" に一致す るパターンを抽出します 一般書式 "組織、電子メール" に 一致するパターンを抽出します 一般書式 "組織、URL" に一致す るパターンを抽出します 一般書式 "組織、住所" に一致す るパターンを抽出します 一般書式 "組織、[拠点を置く] 場 所"、"場所 -[に拠点を置く]、組 織"、または "組織、場所 -[に拠 点を置く]" に一致するパターンを 抽出します 2012-06-14 企業コンテンツ ルール OrganizationFounder 一般書式 "設立者、[設立した] 組 織"、"設立者、[の] 組織"、"組織、 [設立した] 設立者"、または "組 織、設立者" に一致するパターン を抽出します OrganizationNationality 一般書式 "国籍、組織" または "組織、[の] 国籍" に一致するパ ターンを抽出します OrganizationTicker 一般書式 "組織、ティッカー" に 一致するパターンを抽出します OrganizationStockPrice 333 説明 一般書式 "組織価値"、"組織の 評価価格"、"組織の株価価格"、 または "組織の株の上昇/獲得/ 価格" に一致するパターンを抽出 します 例 • English social reformer Sir GEORGE WILLIAMS, who founded the YMCA, was born in 1821. • Jean-Louis Gassee, the founder of Be Inc. • Canal Plus was founded by Andre Rousselet. • Apple Computer Inc. fired cofounder Steven Jobs in 1985. • Michelin Tyre is a unit of France's Michelin S.A. • The Miami fast-food chain, owned by Grand Metropolitan of Britain. • Microsoft (Nasdaq: MSFT) announced this quarter's earnings. • NASDAQ: BOBJ $41.34. • NASDAQ: BOBJ valued at $41.34. • $41.37 is Business Objects stock price. • Caterpillar's shares rose 0.9 percent to $85.93. • Microsoft gained 2.2 percent to $30.33. • Kodak shares were up 4.5 percent to $45.87. 2012-06-14 公共部門コンテンツ 公共部門コンテンツ 公共部門コンテンツには、テキストの処理および分析時に、公共部門固有の情報を抽出するのに使用できる ルールセットが含まれます。次の言語モジュールに含まれ、これらの言語モジュールをサポートします。 • アラビア語 • 英語 • 簡体字中国語 注 アラビア語、ファルシ語、ヘブライ語など、右から左に記述する言語の言語および抽出に関する情報は、別の 付録に記載されています。 使用中の言語モジュールに応じて、公共部門コンテンツには次の抽出機能があります。 • • アラビア語、英語、および簡体字中国語言語モジュール • デフォルトのエンティティタイプ (このガイドの 『言語モジュールリファレンス 』の節で説明) • 公共部門固有のエンティティタイプ (この章で説明) 英語言語モジュールのみ • イベントタイプおよび関連タイプ • 公共部門固有タイプの情報を抽出するための追加ルールセット 関連項目 • 335 ページの「英語: 抽出される情報のタイプ 」 • 370 ページの「公共部門エンティティ - 簡体字中国語」 • 45 ページの「言語モジュールリファレンス」 8.1 英語: 抽出される情報のタイプ 標準英語言語モジュールと併用すると、公共部門コンテンツでは、公共部門固有のエンティティおよびデフォ ルトのエンティティタイプを抽出できます。公共部門コンテンツには、公共部門関連の追加情報の抽出ができ るルールセットも含まれます。 335 2012-06-14 公共部門コンテンツ 8.1.1 公共部門コンテンツのルールセット - 英語 公共部門コンテンツには、英語言語モジュール用の次の抽出ルールセットが含まれます。 ルールセットの説明 • アクション アクションイベントおよび旅行イベントに関する情 報を抽出します • 軍隊 チーム、飛行隊、戦隊などの軍隊に関する情報 を抽出します • 組織情報 組織に関する情報を抽出します • 個人のエイリアス 個人に可能なエイリアスに関する情報を抽出しま す • 個人の外見 個人の外見に関する情報を抽出します • 個人の属性 個人の外見以外の属性に関する情報を抽出しま す • 個人の関係 個人の関係に関する情報を抽出します • 空間参照 距離、基本方位、場所などの相対的な空間参照 を抽出します 336 コンパイル済み (.fsm) ファイルおよびソース (.rul) ファイル english-tf-gov-Action.fsm english-tf-gov-Action.rul english-tf-gov-MilitaryUnits.fsm english-tf-gov-MilitaryUnits.rul english-tf-gov-Org.fsm english-tf-gov-Org.rul english-tf-gov-PersonAlias.fsm english-tf-gov-PersonAlias.rul english-tf-gov-PerApp.fsm english-tf-gov-PerApp.rul english-tf-gov-PerAtt.fsm english-tf-gov-PerAtt.rul english-tf-gov-PerRel.fsm english-tf-gov-PerRel.rul english-tf-gov-SpatialRef.fsm english-tf-gov-SpatialRef.rul 2012-06-14 公共部門コンテンツ 抽出ルールの拡張の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽出カス タマイゼーションガイド 』を参照してください。 関連項目 • 342 ページの「アクションイベントの抽出」 • 349 ページの「旅行イベントの抽出」 • 357 ページの「軍隊の抽出」 • 358 ページの「組織情報の抽出」 • 360 ページの「個人のエイリアスの抽出」 • 363 ページの「個人の外見に関する情報の抽出」 • 364 ページの「個人の属性に関する情報の抽出」 • 367 ページの「個人の関係に関する情報の抽出」 • 369 ページの「空間参照の抽出」 8.1.2 公共部門コンテンツエンティティ - 英語 公共部門コンテンツは、標準英語モジュールによって検出されるエンティティタイプおよび一般表記エンティ ティタイプのすべてだけでなく、次のものも抽出します。 • 特別なエンティティタイプ: 337 ページの 「GEOCOORD」、338 ページの 「MGRS」、338 ページの 「MISC_NUMERIC」、338 ページの 「PHONEMTF」、338 ページの 「PRECURSOR」、339 ページの 「VEHI CLE」、および 339 ページの 「WEAPON」。 • 特別な一般表記エンティティタイプ: 340 ページの 「COMMON_PRECURSOR」、341 ページの 「COMMON_VE HICLE」、および 341 ページの 「COMMON_WEAPON」。 8.1.2.1 GEOCOORD さまざまな形式の地理座標 337 • 1234N/12345E • LAT. 12.34N LONG. 012.34W • 234500S/0123400W • 12'34.5N4-012'34.5E6 • 3074N04429E • 33 40' 56.14" N 69 56' 20.20" E 2012-06-14 公共部門コンテンツ • 38˚53'23"N , 77˚00'27"W 8.1.2.2 MGRS さまざまな形式の Military Grid Reference System の座標 • 18SUH6743 • 42S VB 7917 2559 8.1.2.3 MISC_NUMERIC さまざまな種類の数字 • 120-89 • 12345678 8.1.2.4 PHONEMTF PHONEMTF は、米国形式の電話番号と、フランス形式、ドイツ形式、およびスペイン形式の国際電話番号を 抽出します。PHONEMTF は、次の特別な形式も処理します。 • 角括弧を使用する番号。例: [1] (202) 628-7342。 • 非標準表記の番号。例: 5521 5074151 • 並列表記された電話番号。例: +525 728-9562 | +525 728-9563 8.1.2.5 PRECURSOR 兵器の前駆物質。次のサブタイプのいずれかとして抽出されます。 • CHEMICAL - 化学兵器の製造に使用される物質として公式に認定されている化学物質の名前。 • 338 Cyanide 2012-06-14 公共部門コンテンツ • • Dimethyl methylphosphonate NUCLEAR - 核兵器の製造に使用される物質として公式に認定されている核物質および放射性物質の名 前。 • Cesium-137 • Strontium-90 8.1.2.6 VEHICLE 輸送方法。次のサブタイプのいずれかとして抽出されます。 • • • • • AIR - 航空機、ヘリコプターなどの飛行体。例: • Air Force One • Concorde LAND - 陸上車。色、年式、モデル、メーカーを含みます。例: • blue 1993 Volkswagen Passat • 1988 red Toyota Camry WATER - 船舶。例: • USS Cole • USS Constitution LICENSE - 州の略称ではじまる場合、米国およびカナダのナンバープレート形式に準拠する、連続した英 数字。 • NY DGR-3532 • CA 1AVC367 VIN - 次の形式の車両識別番号 (VIN)。常に 17 文字を含みます。 • 1G1JF27W8GJ178227 VIN 内のそれぞれの位置には、国コード、メーカーコード、装置コード、シリアル番号などを識別する、特定 の意味があります。 8.1.2.7 WEAPON 兵器。次のサブタイプのいずれかとして抽出されます。 339 2012-06-14 公共部門コンテンツ • • • • • • BIOLOGICAL - 人体、植物 (農作物)、動物に危害を与えるために使用されるとして、または潜在的な生物 学的脅威として公式に認定されている、細菌、病原体、菌類、天然の毒物、および疾病の名前。これらの兵 器のいずれかを散布する手段を説明するエンティティも抽出します。 • Anthrax • ricin CHEMICAL - 人体、植物 (農作物)、または動物に危害を与えるために使用されるとして、または潜在的な 化学的脅威として公式に認定されている化学物質の名前。これらの兵器のいずれかを散布する手段を説 明するエンティティも抽出します。 • VX • tabun EXPLODING - 爆発することにより危害を与える物質の名前。 • TNT • Dynamite NUCLEAR - 放射性エネルギーまたは核エネルギーを散布することで、人体、植物 (農作物)、および動物 に危害を与えるために使用されるとして公式に認定されている、または潜在的な核の脅威として認定される 兵器の名前。 • A-bomb • plutonium PROJECTILE - 危害を与える目的で、高速で発射されるように設計されている、または使用されている兵 器の名前。 • Stinger • Silkworm SHOOTING - 危害を与える目的で、高速で発射体を発射するように設計されている、または使用されてい る兵器 • AK-47 • AKM 8.1.2.8 COMMON_PRECURSOR 兵器の前駆物質の一般名称。次のサブタイプのいずれかとして抽出されます。 • CHEMICAL • • 340 precursor chemical material NUCLEAR 2012-06-14 公共部門コンテンツ • precursor nuclear material 8.1.2.9 COMMON_VEHICLE 輸送方法。次のサブタイプのいずれかとして抽出されます。 • • • AIR • dirigible • Black Hawk helicopter • jetliner LAND • car • motorbike WATER • cruiseliner • boat • Russian submarine 8.1.2.10 COMMON_WEAPON 兵器の一般名称。次のサブタイプのいずれかとして抽出されます。 • BIOLOGICAL • • CHEMICAL • • 341 rocket-propelled grenades NUCLEAR • • nerve agent EXPLODING • • attractive biological threat agent radioactive materials PROJECTILE 2012-06-14 公共部門コンテンツ • • SHARP • • machetes SHOOTING • • bullets rifle OTHER • weapons 8.1.3 アクションイベントの抽出 Action ルールは、個人または組織に関するイベント、および個人または組織の移動、作成、転送に関するイベ ントに関係する情報を抽出するために設計されています。必要に応じて、これらのルールでは Action イベント の Time 属性および Place 属性も抽出されます。次の表に、Action ルールを示します。 ルール Action_Buy_Active Action_Buy_Passive 342 説明 一般書式 "エージェント、[購入す る] 製品" に一致するパターンを 抽出します 例 • Al Qaeda purchased diamonds in Belgium. • In April, Al Qaeda insurgents stockpiled stolen US Army goods in a house in southern Bagdad. • The most frightening item on Mr. Bolton's list at least that is known publicly is the large amounts of growth media acquired by Saddam, and which in such substantial quantities could only be used as cultures for growing biological agents. • This cottage by the lake was inherited by the Smith family. 一般書式 "製品、[購入する] エー ジェント" に一致するパターンを抽 出します 2012-06-14 公共部門コンテンツ ルール Action_Capture_Active 一般書式 "エージェント、[逮捕さ れた] 受動者" に一致するパター ンを抽出します Action_Capture_Passive 一般書式 "受動者、[逮捕した] エージェント" に一致するパター ンを抽出します Action_Command_Active Action_Command_Passive Action_Command_Appositive 343 説明 例 • THE NARCOTICS POLICE ARRESTED ALFONSO CASTILLO ARMENTA IN MI AMI LAST DECEMBER. • In April, Pakistan President Gen. Pervez Musharraf apprehended a high ranking Taliban member. • Fathi Subuh was arrested by the Palestinian Authority's Preventative Security Service (PSS) on July 2, 1997. • G. W. Smith commanded the Army of Northern Virginia. • Pakistan President Gen. Pervez Musharraf coordinated the Pakistani army efforts last April. • City leaders coordinated the City Council. • The Third Regiment, Texas Volunteer Infantry (United States Volunteers), was commanded by Colonel R. P. Smyth. • Al Qaeda is headed by Osama Bin Laden since 1996. Al Qaeda was created by Osama Bin Laden. • In Kuwait every company commander has a specialist advising him," said Thomas Spoehr, the commander of the 3rd Chemical Brigade. 一般書式 "エージェント、[指揮さ れる] 組織" に一致するパターン を抽出します 一般書式 "組織、[指揮をとる] エージェント" に一致するパター ンを抽出します 一般書式 "エージェント、[指揮に よる] 組織" に一致するパターン を抽出します 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "エージェント、[面会を 受ける] 受動者" に一致するパ ターンを抽出します • Action_Communicate_Meet_Active President Clinton met Jacques Chirac in July 1995. • Action_Communicate_Meet_Passive 一般書式 "受動者、[対面する] エージェント" に一致するパター ンを抽出します As soon as he stepped out the plane, Paul was met by FBI agents. Action_Communi cate_PhoneWrite_Active 一般書式 "エージェント、[電話/ 手紙を受ける] 受動者" に一致す るパターンを抽出します • President Clinton called Jacques Chirac in July 1995. • Action_Communicate_Other_Active 一般書式 "エージェント、[連絡を 受ける] 受動者" に一致するパ ターンを抽出します In December 2000, Osama Bin Laden communicated with AlQaeda members. City leaders notified the Iraqi Army. Action_Communicate_Other_Pas sive 一般書式 "エージェント、[連絡を する] エージェント" に一致するパ ターンを抽出します • Paul was interviewed by John in December 2007. • THE NARCOTICS POLICE DESTROYED 1,200 KG OF COCAINE. • In April, Iraqi insurgents attacked 5 US Army convoys. • Al Qaeda insurgents ransacked houses of private Iraqis in search for weapons. Action_Destroy_Active 344 一般書式 "エージェント、[破壊さ れた] 製品または受動者" に一致 するパターンを抽出します 2012-06-14 公共部門コンテンツ ルール Action_Destroy_Passive Action_Drive_Active 345 説明 一般書式 "製品または受動者、 [破壊した] エージェント" に一致 するパターンを抽出します 一般書式 "エージェント、[運転す る] 車" に一致するパターンを抽 出します 例 • Atta files destroyed by the Pentagon. • US Army soldiers were attacked by Iraqi insurgents in December in Bagdad. • Pilgrims were assaulted by Iraqi insurgents when they headed to the Great Mosque last Thursday. • Saddam's Presidential Palace was taken over by U.S. soldiers in 2003. • MUSTAFA DRIVES A BLACK SUBARU. • Jane drives a green Subaru to work. • That dialogue took place in a white Peugeot driven by John Smith. • A stolen black SUV was used by the terrorists in the market bomb attack. Action_Drive_Passive 一般書式 "車、[運転する] エー ジェント" に一致するパターンを抽 出します • Action_Execute_Active 一般書式 "エージェント、[殺害さ れた] 受動者" に一致するパター ンを抽出します The Iraqi terrorist group executed their American prisoners. 一般書式 "エージェント、[殺害し た] 受動者" に一致するパターン を抽出します • Action_Execute_Passive Daniel Pearl was executed by his captors in Karachi. 2012-06-14 公共部門コンテンツ ルール 例 • In April, Al Qaeda financed Iraqi insurgents. 一般書式 "エージェント、[資金提 供を受ける] 受動者" に一致する パターンを抽出します • Al Qaeda subsidizes various international terrorist groups. • Some Islamic organizations support terrorist groups in Iraq. 一般書式 "エージェント、[資金提 供する] 受動者" に一致するパ ターンを抽出します • Some Islamic organizations might be financed by wealthy Saudis. • The Cincinnati Reds have hired Bob Boo in Major League Baseball. • In April, Al Qaeda recruited Iraqi insurgents to attack a Mosque. • The local soccer federation hired John Brown as acting director. • HAMAL WAS RECRUITED BY SHEIKH MAHMOUD MOHAMMED ALI MALIK. 一般書式 "エージェント、[採用す る] エージェント" に一致するパ ターンを抽出します • Iraqis, Jordanians, and Iranians were enlisted by Al Qaeda. • Mohammad Ata was recruited by Al Qaeda in 2000 to lead the 9/11 plane attack on New York and Washington. 一般書式 "エージェント、[起訴さ れる] 受動者" に一致するパター ンを抽出します • Action_Indict_Active The UN indicted Sloban Milosevic in 2000. 一般書式 "Patient, [is hired by] Agent" に一致するパターンを抽 出します • Action_Indict_Passive In 2000, Milosevic was indicted by the United Nations. Action_Finance_Active Action_Finance_Passive Action_Hire_Active Action_Hire_Passive 346 説明 一般書式 "エージェント、[採用さ れる] 受動者" に一致するパター ンを抽出します 2012-06-14 公共部門コンテンツ 347 ルール 説明 例 • Action_Injure_Active 一般書式 "エージェント、[負傷し た] 受動者" に一致するパターン を抽出します Iraqi insurgents wounded ten civilians at an outdoor market in Baghdad last April. 一般書式 "エージェント、[負傷さ せた] 受動者" に一致するパター ンを抽出します • Action_Injure_Passive Three men were injured by the Taliban attack in Kabul. • Action_Kill_Active 一般書式 "エージェント、[殺害さ れた] 受動者" に一致するパター ンを抽出します Lee Harvey Oswald killed President Kennedy in November 1963. • Action_Kill_Passive 一般書式 "受動者、[殺害した] エージェント" に一致するパター ンを抽出します Many people were slaughtered by Jeffrey Dahmers in the 1980's and 1990's. 一般書式 "エージェント、[製造さ れる] 製品" に一致するパターン を抽出します • Action_Make_Active Hamal made explosives for money. John builds IEDs. 一般書式 "製品、[製造する] エー ジェント" に一致するパターンを抽 出します • Action_Make_Passive The bombs were made by Spanish Al Qaeda cells. • Action_Make_MakerOf 一般書式 "エージェント、[は] 製 品 [製造者]" に一致するパターン を抽出します KAMIL IS A MORE ADVANCED BOMB MAKER THAN HAMAL. • In April, Al Qaeda cooperated with the Taliban. • Mr. Roh will join the Uri Party in January 2004. • Al Qaeda was joined by other Muslim extremists in England. • The United Nations is served by 145 national delegates. Action_Participate_Active 一般書式 "エージェント、[参加さ れる] 組織" に一致するパターン を抽出します Action_Participate_Passive 一般書式 "組織、[参加する] エー ジェント" に一致するパターンを抽 出します 2012-06-14 公共部門コンテンツ ルール Action_ReceivePay_Active Action_ReceivePay_Passive Action_Survey_Active Action_Survey_Passive Action_Train_Active Action_Train_Passive 348 説明 一般書式 "受領者、[受領される] 支払金" に一致するパターンを抽 出します 一般書式 "支払金、[受け取る] 受 領者" に一致するパターンを抽出 します 一般書式 "エージェント、[調査さ れる] 受動者または製品" に一致 するパターンを抽出します 一般書式 "受動者または製品、 [調査する] エージェント" に一致 するパターンを抽出します 一般書式 "エージェント、[教育を 受ける] 受動者" に一致するパ ターンを抽出します 一般書式 "受動者、[教育する] エージェント" に一致するパター ンを抽出します 例 • Jamal Ahmed Al-Fadl received $10,000 for his time and effort and did not take a further role in the uranium acquisition. • John received $2000 for his old car. • Articles by Tina Griego showed that the largest contribution was the $46,000 received by Manny Aragon. • A total of 9.5 million dollars were incorrectly charged by Halliburton company to the US Army. • Al Qaeda assessed the US Army positions. • Osama Bin Laden was reviewing high ranking Al Qaeda members. • The party leadership evaluated would-be candidates. • North Korean nuclear facilities will be inspected by the UN Nuclear Agency. • Remember when the CIA was funding and training Bin Laden and his boys to fight against the Russians? • The Montreal Baseball School trained John before he played in New York. • Spivey trained by Whitaker! • Mohammad Ata was trained by Al Qaeda operatives in Pak istan. 2012-06-14 公共部門コンテンツ ルール Action_Train_With Action_Transport_Active Action_Transport_Passive 説明 例 • John trained with the FBI. • Brigitte trained with Algerian al-Qaeda in rural France and worked for Christian Ganczarski and Karim Mehdi, the former of whom was a lieutenant for Khalid Sheikh Mohammed (the latter was planning a Bali-style attack on Reunion Island). • Abu Mohjen was later indicted for his role in transporting the arms by sea to Kanj's bases. • In April, the US Army deployed 25,000 more soldiers all over Iraq. • John transported the stolen goods across the border. • Mohammed was transported by Al Qaeda to Jordan. • Over the past 3 years, presumed terrorists were transported by the US Government to an undisclosed location. • Poor Mexican illegal immigrants were deported by US immigration officials. 一般書式 "受動者、[共に教育を 受ける] エージェント" に一致する パターンを抽出します 一般書式 "エージェント、[移送さ れる] 製品または受動者" に一致 するパターンを抽出します 一般書式 "製品または受動者、 [移送する] エージェント" に一致 するパターンを抽出します 8.1.4 旅行イベントの抽出 Action イベントには、個人と個人の旅行イベントに関する情報を抽出するために設計された Travel ルールも 含まれます。次の表に、定義済みの Travel ルールを示します。 349 2012-06-14 公共部門コンテンツ ルール Travel_visited 説明 一般書式 "個人、訪問した、目的 地" に一致するパターンを抽出し ます。日付は句の先頭または末尾 のどちらかに表示できます。 例 • In April, Pakistan President Gen. Pervez Musharraf visited Kabul. • Pakistan President Gen. Pervez Musharraf visited Kabul in April. • John Doe was arrested in Apri, when he visited Kabul. • In December 2000, Mr. Benatta entered the United States from Canada. • Mr. Benatta entered the United States from Canada in December 2000. • John Doe was arrested in December 2000, when he entered the United States from Cana da. 一般書式 "個人、日付、時点、訪 問した、目的地" に一致するパ ターンを抽出します。 Travel_visited_When Travel_enteredFrom 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、入った、目的 地、から、出発地" に一致するパ ターンを抽出します。日付は句の 先頭、中間、または末尾に表示で きます。 一般書式 "個人、日付、時点、 入った、目的地、から、出発地" に 一致するパターンを抽出します。 Travel_enteredFrom_When 350 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 2012-06-14 公共部門コンテンツ ルール 説明 Travel_arrivedInFrom 一般書式 "個人、到着した、へ、 目的地、から、出発地" に一致す るパターンを抽出します。日付は 句の先頭、中間、または末尾に表 示できます。 一般書式 "個人、日付、時点、到 着した、へ、目的地、から、出発 地" に一致するパターンを抽出し ます。 Travel_arrivedIn_When Travel_cameToFrom 例 • On Christmas Day, Queen Elizabeth arrived in San Francisco from England. • John Doe was arrested on Christmas Day, when he ar rived in San Francisco from England. • On Dec. 1, Clinton flew back to the United States from Ger many. • John Doe was arrested on Dec. 1, when he flew back to the United States from Germany. • On Dec. 1, Clinton flew from Germany back to the United States. 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、へ戻った、目的 地、から、出発地" に一致するパ ターンを抽出します。日付は句の 先頭、中間、または末尾に表示で きます。 一般書式 "個人、日付、時点、 戻った、へ、目的地、から、出発 地" に一致するパターンを抽出し ます。 Travel_cameToFrom_When Travel_cameFromTo 351 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、から来た、出発 地、戻った、目的地" に一致する パターンを抽出します。日付は句 の先頭、中間、または末尾に表示 できます。 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "個人、日付、時点、来た、から、 出発地、戻った、目的地" に一致 するパターンを抽出します。 Travel_cameFromTo_When Travel_departedFor • John Doe was arrested on Dec. 1, when he flew from Germany back to the United States. • On Christmas Eve, Mohamed departed Germany for the Netherlands. • John Doe was arrested on Christmas Eve, when he departed Germany for the Netherlands. • In 1992, Mohamad Hammoud gained entry to the U.S. through Venezuela. 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、出発した、出発 地、へ、目的地" に一致するパ ターンを抽出します。日付は句の 先頭、中間、または末尾に表示で きます。 一般書式 "個人、日付、時点、出 発した、出発地、へ、目的地" に 一致するパターンを抽出します。 Travel_departedFor_When Travel_gainedEntryIntoFrom 352 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、入った、へ、目 的地、から、出発地" に一致する パターンを抽出します。日付は句 の先頭、中間、または末尾に表示 できます。 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "個人、日付、時点、 入った、へ、目的地、から、出発 地" に一致するパターンを抽出し ます。 Travel_gainedEntryIntoFrom_When Travel_crossedIntoFrom 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、渡った、国境、 へ、目的地、から、出発地" に一 致するパターンを抽出します。日 付は句の先頭、中間、または末尾 に表示できます。 • John Doe was arrested on Oct. 10, when he gained entry into Thailand from Laos. • On Oct. 10, Hambali crossed into Thailand from Laos. • John Doe was arrested on Oct. 10, when he crossed into Thailand from Laos. • In April, Mr. Singh crossed over into Pakistan from Afghanistan. 一般書式 "個人、日付、時点、 渡った、国境、へ、目的地、から、 出発地" に一致するパターンを抽 出します。 Travel_crossedIntoFrom_When Travel_crossedOverToFrom 353 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、国境を超えた、 へ、目的地、から、出発地" に一 致するパターンを抽出します。日 付は句の先頭、中間、または末尾 に表示できます。 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "個人、日付、時点、国 境を超えた、へ、目的地、から、出 発地" に一致するパターンを抽出 します。 Travel_crossedOverToFrom_When Travel_crossedOverFromTo 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、国境を超えた、 から、出発地、へ、目的地" に一 致するパターンを抽出します。日 付は句の先頭、中間、または末尾 に表示できます。 • Mr. Singh was arrested in April, when he crossed over into Pakistan from Afghanistan. • In April, Mr. Singh crossed over from Afghanistan into Pakistan. • Mr. Singh was arrested in April, when he crossed over from Afghanistan into Pakistan. • In 1980, Adnan Al-Ghoul escaped to Lebanon from Israel. 一般書式 "個人、日付、時点、国 境を超えた、から、出発地、へ、目 的地" に一致するパターンを抽出 します。 Travel_crossedOverFromTo_When Travel_escapedToFrom 354 注 このルールを適切に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、逃亡した、へ、 目的地、から、出発地" に一致す るパターンを抽出します。日付は 句の先頭、中間、または末尾に表 示できます。 2012-06-14 公共部門コンテンツ ルール 説明 一般書式 "個人、日付、時点、逃 亡した、へ、目的地から、出発地" に一致するパターンを抽出しま す。 Travel_escapedToFrom_When Travel_escapedFromTo Travel_fledFor 355 • Adnan Al-Ghoul had been on the wanted list since 1980, when he escaped to Lebanon from Israel. • In 1980, Adnan Al-Ghoul escaped from Israel to Lebanon. • Adnan Al-Ghoul had been on the wanted list since 1980, when he escaped from Israel to Lebanon. • On August 6, 1998, Abdullah Ahmed Abdullah fled Nairobi for Karachi. 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、逃亡した、から、 出発地、へ、目的地" に一致する パターンを抽出します。日付は句 の先頭、中間、または末尾に表示 できます。 一般書式 "個人、日付、時点、逃 亡した、から、出発地、へ、目的 地" に一致するパターンを抽出し ます。 Travel_escapedFromTo_When 例 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、逃げた、出発 地、へ、目的地" に一致するパ ターンを抽出します。日付は句の 先頭、中間、または末尾に表示で きます。 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "個人、日付、時点、逃 げた、出発地、へ、目的地" に一 致するパターンを抽出します。 Travel_fledFor_When Travel_triedToCrossIntoFrom 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、越境を試みた、 国境、へ、目的地、から、出発地" に一致するパターンを抽出しま す。日付は句の先頭、中間、また は末尾に表示できます。 一般書式 "個人、日付、時点、越 境を試みた、国境、へ、目的地、 から、出発地" に一致するパター ンを抽出します。 Travel_triedToCross IntoFrom_When Travel_attemptedEntryIntoFrom 356 • Broderick was arrested on March 14, 2002 when he fled for Canada at the International Bridge. • In 1999, Captain Aleksey Konkov tried to cross into Laredo from Mexico. • Broderick was arrested on March 14, 2002 when he tried to cross into Canada at the International Bridge. • Last October, Mr. Hammoud sought entry into Canada from the United States. 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、入国を試みた、 へ、目的地、から、出発地" に一 致するパターンを抽出します。日 付は句の先頭、中間、または末尾 に表示できます。 2012-06-14 公共部門コンテンツ ルール 説明 一般書式 "個人、日付、時点、入 国を試みた、へ、目的地、から、出 発地" に一致するパターンを抽出 します。 Travel_attemptedEntry IntoFrom_When Travel_attemptedToEnter 例 • Broderick was arrested on March 14, 2002 when he sought entry into Canada at the International Bridge. • In 1998, Abdulla Ocalan attempted to enter Italy. • Broderick was arrested on March 14, 2002 when he tried to enter Canada at the International Bridge. 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 一般書式 "個人、入国を試みた、 目的地" に一致するパターンを抽 出します。日付は句の先頭または 末尾のどちらかに表示できます。 一般書式 "個人、日付、時点、入 国を試みた、目的地" に一致する パターンを抽出します。 Travel_attemptedToEnter_When 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、旅行イベント がその個人の祖先に適用され、日 付情報が失われます。 8.1.5 軍隊の抽出 MilitaryUnit ルールは、次の表に示すような、軍隊に関する表現を抽出するために設計されています。 357 2012-06-14 公共部門コンテンツ ルール MilitaryUnit 説明 このルールは、長期間にわたって 頻繁に組み合わされた、軍隊に関 連する表現を抽出します。 例 • Paul serves in Company A, 1st Battalion, 22nd Infantry Regiment, 1st Brigade Combat Team, 4th Infantry Division. • Soldiers from Company C, 3rd Battalion, 67th Armor Regiment, 4th Brigade Combat Team, 101st Airborne Division, detained four kidnappers in Baghdad July 31. 8.1.6 組織情報の抽出 組織情報ルールは、会社および組織の中心となる情報を抽出するために設計されています。次の表に、組織 用に定義されたルールセットを示します。 ルール 説明 OrganizationPerson 一般書式 "個人、組織での位置" に一致するパターンを抽出します (電話、Fax、電子メール、および URL をオプション指定できます) OrganizationPhone 一般書式 "組織、電話" に一致す るパターンを抽出します OrganizationFax OrganizationEmail 358 例 • Patti J. McAtee, Director of CalEnergy, 402-341-4500. • Motorola, Inc., George Grimsrud, 847/576-2346. • Business Objects, North America, +1 800 877 2340 • Marriott International press releases are available through Company News On-Call by fax, 800-758-5804, ext. 532963. • Inxight Software Inc., 500 Macara Avenue, Sunnyvale, CA 94085, U.S.A., Email: in [email protected] 一般書式 "組織、Fax" に一致す るパターンを抽出します 一般書式 "組織、電子メール" に 一致するパターンを抽出します 2012-06-14 公共部門コンテンツ ルール OrganizationURL OrganizationAddress OrganizationLocation OrganizationFounder OrganizationNationality 359 説明 一般書式 "組織、URL" に一致す るパターンを抽出します 例 • Seagate's home page address on the World Wide Web is http://www.seagate.com. • These documents are all available on Intuit's Web site at http://www.intuit.com. • For more information contact: Inxight Software Inc., 500 Macara Avenue, Sunnyvale, CA 94085, Tel: 555.555.1212. • U.S. operations of Toyota, Japan's largest automaker, are headquartered in New York. • Fort Lauderdale-based Blockbuster has nearly 2,800 stores nationwide. • Cypress Asset Management Inc, a Houston-based investment adviser • English social reformer Sir GEORGE WILLIAMS, who founded the YMCA, was born in 1821. • Jean-Louis Gassee, the founder of Be Inc. • Canal Plus was founded by Andre Rousselet. • Apple Computer Inc. fired cofounder Steven Jobs in 1985. • Michelin Tyre is a unit of France's Michelin S.A. • The Miami fast-food chain, owned by Grand Metropolitan of Britain. 一般書式 "組織、住所" に一致す るパターンを抽出します 一般書式 "組織、[拠点を置く] 場 所"、"場所 -[に拠点を置く]、組 織"、または "組織、場所 -[に拠 点を置く]" に一致するパターンを 抽出します 一般書式 "設立者、[設立した] 組 織"、"設立者、[の] 組織"、"組織、 [設立した] 設立者"、または "組 織、設立者" に一致するパターン を抽出します 一般書式 "国籍、組織" または "組織、[の] 国籍" に一致するパ ターンを抽出します 2012-06-14 公共部門コンテンツ ルール 説明 OrganizationTicker 一般書式 "組織、ティッカー" に 一致するパターンを抽出します OrganizationStockPrice 一般書式 "組織価値"、"組織の 評価価格"、"組織の株価価格"、 または "組織の株の上昇/獲得/ 価格" に一致するパターンを抽出 します 例 • Microsoft (Nasdaq: MSFT) announced this quarter's earnings. • NASDAQ: BOBJ $41.34. • NASDAQ: BOBJ valued at $41.34. • $41.37 is Business Objects stock price. • Caterpillar's shares rose 0.9 percent to $85.93. • Microsoft gained 2.2 percent to $30.33. • Kodak shares were up 4.5 percent to $45.87. 8.1.7 個人のエイリアスの抽出 PersonAlias ルールは、個人と、個人が使用する可能性のある代替名およびエイリアスに関する情報を抽出す るために設計されています。次の表に、PersonAlias 用に定義されたルールを説明します。 360 ルール 説明 例 • PersonAlias_alias_Person 一般書式 "個人、エイリアス、個人 または固有名詞、句読点" に一致 するパターンを抽出します Qasim Bokhari, a/k/a Syed Qasim Ali Bokhari, and a/k/a Kasim Bokhari. 一般書式 "固有名詞、エイリアス、 個人、句読点" に一致するパター ンを抽出します • PersonAlias_alias_Proper Sam Sneed, a.k.a. William Smith, is one of the group. • PersonAlias_alias_PersonParen 一般書式 "左かっこ、エイリアス、 個人または固有名詞、右かっこ" に一致するパターンを抽出します Qasim Bokhari (a/k/a Syed Qasim Ali Bokhari, and a/k/a Kasim Bokhari). 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "固有名詞、左かっこ、 エイリアス、個人、右かっこ" に一 致するパターンを抽出します • PersonAlias_alias_ProperParen Sam Sneed, (a.k.a. William Smith), is one of the group. • PersonAlias_or 一般書式 "個人、カンマ、または、 個人、カンマ" に一致するパター ンを抽出します Soldiers spotted the groups led by another Abu Sayyaf leader, Mr. Umbra Jumdail, or Dr. Abu Pula, as he's known. • PersonAlias_AlsoKnown As 一般書式 "個人、としても知られ る、個人または固有名詞" に一致 するパターンを抽出します Nasr Fahmi Nasr Hassanein, known as Mohamed Salah, was also involved. • He left Egypt in 1989 and went to Peshawar, where he met Dr. Rashid Abd-al-Alim, who is known as Dr. Fadl. 一般書式 "個人、は、としても知ら れる、個人または固有名詞" に一 致するパターンを抽出します PersonAlias_AlsoKnown As_Who 361 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、検出されたエ イリアスがそれ以前の祖先に適用 されます。 一般書式 "個人、カンマ、NP、は、 としても知られる、個人または固有 名詞" に一致するパターンを抽出 します • PersonAlias_AlsoKnown As_NPWho ABU SUHAYB AL-AMRIKI: A 25-year-old U.S. citizen who is known as Adam Pearlman. • PersonAlias_AlsoKnown As_Quote 一般書式 "個人、としても知られ る、左引用符、一般エイリアス、右 引用符" に一致するパターンを抽 出します Ahmed Khalhan Ghailiani, also known as "Foopie," "Fupi" and "Ahmed the Tanzanian." • PersonAlias_UsingThe Name 一般書式 "個人、使用している名 前、個人または固有名詞" に一致 するパターンを抽出します Filippo Bertotti, using the nickname Filippo Rumi, has written several articles in the newspaper Il Manifesto. 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "個人、は、使用してい る名前、個人または固有名詞" に 一致するパターンを抽出します 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、検出されたエ イリアスがそれ以前の祖先に適用 されます。 • Subhi Abdel-Aziz El-Gohari Abu Sittah, who also goes by the name Abu Hafs El-Masri. • PersonAlias_UsingThe Name_NPWho 一般書式 "個人、カンマ、NP、は、 使用している名前、個人または固 有名詞" に一致するパターンを抽 出します ABU SUHAYB AL-AMRIKI: A 25-year-old U.S. citizen who is using the name of Adam Pearlman. • PersonAlias_UsingThe Name_Quote 一般書式 "個人、使用している名 前、左引用符、一般エイリアス、右 引用符" に一致するパターンを抽 出します Filippo Bertotti, using the nickname "Filippo Rumi", has written several articles in the newspaper Il Manifesto. • PersonAlias_UsingTheNames 一般書式 "個人、使用している名 前、個人または固有名詞" に一致 するパターンを抽出します MICHAEL KAIGHN is using the aliases D.S. and Patrick Grogan. • Subhi Abdel-Aziz El-Gohari Abu Sittah, who also goes by the names Abu Hafs El-Masri and Mohamed Atif. • ABU SUHAYB AL-AMRIKI: A 25-year-old U.S. citizen who also goes by the names Adam Pearlman and Adam Gadahn. PersonAlias_UsingThe Name_Who 一般書式 "個人、は、使用してい る名前、個人または固有名詞" に 一致するパターンを抽出します PersonAlias_UsingTheNames_Who PersonAlias_UsingTh eNames_NPWho 362 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。オフにせず、詳細解析 をオンにしていると、検出されたエ イリアスがそれ以前の祖先に適用 されます。 一般書式 "個人、カンマ、NP は、 使用している名前、個人または固 有名詞" に一致するパターンを抽 出します 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "個人、使用している名 前、左引用符、一般エイリアス、右 引用符" に一致するパターンを抽 出します • PersonAlias_UsingTh eNames_Quote MICHAEL KAIGHN is using the aliases "D.S." and "Patrick Grogan". 一般書式 "としても知られる、個人 または固有名詞、カンマ、個人" に一致するパターンを抽出します • PersonAlias_AlsoKnownAsPRE Also known as Robert, John is the leader of the organization. 一般書式 "としても知られる、左引 用符、一般エイリアス、右引用符、 カンマ、個人" に一致するパター ンを抽出します • PersonAlias_AlsoKnow nAsPRE_Quote Using the alias "Jafar the Pilot", John is the leader of the organization. 8.1.8 個人の外見に関する情報の抽出 個人の外見 (PerApp) ルールは、身長、目の色、服装のスタイルなどの個人の外見に関する属性を抽出する ために設計されています。次の表に、PerApp 用に定義されたルールを説明します。 ルール 説明 一般書式 "個人、年齢 [歳]" に一 致するパターンを抽出します PerApp_Age 例 • Mary is a 32-year-old registered nurse. • Febe Velazquez, age 27 and the mother of three, died from severe skull injuries. • Hamal wears t-shirt and jeans. 一般書式 "個人、年齢" に一致す るパターンを抽出します PerApp_Dress 363 一般書式 "個人 [身に着ける]、衣 類" に一致するパターンを抽出し ます 2012-06-14 公共部門コンテンツ ルール 説明 例 一般書式 "個人、[持つ] 目" に一 致するパターンを抽出します • Ahmad has piercing brown eyes. 一般書式 "個人、目 [は]" に一致 するパターンを抽出します • Jane's eyes are green. 一般書式 "個人、[持つ] 髪" に一 致するパターンを抽出します • JOHN HAS MEDIUM LENGTH BLACK HAIR. • Jane's hair is brown. • Muhammed is a 35 year-old male, approximately 186 cm tall, weighs 70 kg, has a thin build. • AMIR ((AL-JALIL)), IS 43 YEARS OLD, 170 CENTIMETERS TALL, 90 KILOGRAMS IN WEIGHT, WITH AN OVERWEIGHT BUILD. • John weighs approximatively 190 pounds. PerApp_Eyes PerApp_Hair PerApp_Height 一般書式 "個人、髪 [は] 髪色ま たは髪型" に一致するパターンを 抽出します 一般書式 "個人、身長" に一致す るパターンを抽出します 一般書式 "個人、体重" に一致す るパターンを抽出します PerApp_Weight 一般書式 "個人、体重 [体重]" に 一致するパターンを抽出します 8.1.9 個人の属性に関する情報の抽出 この個人属性 (PerAtt) ルールは、外見以外の個人の属性を抽出するために設計されています。次の表に、 PerAtt 用に定義されたルールを説明します。 364 2012-06-14 公共部門コンテンツ ルール 説明 • JOSE IGNACIO RODRIGUEZ RESIDES AT 1500 LARREA ST. • When John left his flat at 112 Boulevard John Kennedy in Corbeil just outside Paris in October 1997, he was heading for London. • You can write to Bill Smith at 7701 Boca Ciega Drive, St. Pete Beach, Florida 33706. • John lived in Montreal. 一般書式 "個人、場所" に一致す るパターンを抽出します • Bah's rental house in Mon rovia. 一般書式 "個人、場所 [住居]" に 一致するパターンを抽出します • JOHN SMITH, A MIAMI RESIDENT. • LUZ MERY GARCIA, A RESIDENT OF SANTO DOMINGO. • Saad Khayyat, who has lived in New Zealand for more than seven years, said the war was about the Middle East being "remade" to suit American interests. 一般書式 "個人、[住んでいる] 住 所" に一致するパターンを抽出し ます PerAtt_Address 例 一般書式 "個人、[住んでいる場 所] 住所" に一致するパターンを 抽出します 一般書式 "個人、[の] 住所" に一 致するパターンを抽出します 句の内部で一般書式 "個人、場 所" に一致するパターンを抽出し ます PerAtt_Location 一般書式 "個人、[住居の] 場所" に一致するパターンを抽出します 文の内部で一般書式 "個人、場 所" に一致するパターンを抽出し ます PerAtt_Location_verbSn 365 注 このルールを正確に機能させるに は、詳細解析をオフにする必要が あります。 2012-06-14 公共部門コンテンツ ルール PerAtt_Phone 説明 例 一般書式 "個人 [の番号は]、電 話番号" に一致するパターンを抽 出します • John's phone number is 888333-1212. 一般書式 "個人、電話番号" に一 致するパターンを抽出します • Roderick Liddell (telephone: (0)3 88 41 24 92) • You can contact Karl Horwitz in Paris for details and prices (Phone: 47 42 17 11; FAX: 4742-80-44). PerAtt_Phone_verbSn 一般書式 "[連絡先] 個人、[電話 番号] 電話番号" に一致するパ ターンを抽出します PerAtt_Vehicle 一般書式 "個人、[運転する] 車" に一致するパターンを抽出します • John drives a red Subaru. 一般書式 "個人、[は] 国籍" に一 致するパターンを抽出します • John is Canadian. 一般書式 "個人、[出身] 国籍" に 一致するパターンを抽出します • John is from Canada. 一般書式 "個人 [の国籍は]、国 籍" に一致するパターンを抽出し ます • John 's nationality is Canadian. • MEXICAN NARCOTICS POLICE HAVE ARRESTED COLOMBIAN CITIZEN JORGE HUMBERTO CHALARIA. • JENNIFER CASOLO, A U.S. CITIZEN WAS ARRESTED BY THE SECURITY CORPS. • Marwan al-Shehhi, a citizen of the United Arab Emirates. PerAtt_Nationality 一般書式 "国籍、[国民]、個人" に一致するパターンを抽出します 一般書式 "個人、国籍 [国民]" に 一致するパターンを抽出します 一般書式 "個人、[国民の] 国籍" に一致するパターンを抽出します 366 2012-06-14 公共部門コンテンツ ルール PerAtt_Affiliation PerAtt_Occupation 説明 例 一般書式 "個人、[参加する] 組 織" に一致するパターンを抽出し ます • John joined the Democratic Party. 一般書式 "個人、[メンバーである] 組織" に一致するパターンを抽出 します • James Walsh, R-N.Y., a senior member of the Appropriations Committee. 一般書式 "組織 [メンバー]、個人" に一致するパターンを抽出します • M-19 DIRECTORATE MEMBER RAFAEL VERGARA. 一般書式 "個人、組織 [メンバー]" に一致するパターンを抽出します • Yael Dayan, a Labour Party member 一般書式 "個人、[は] 職業" に一 致するパターンを抽出します • John is a carpenter. 一般書式 "個人、[働いている] 職 業" に一致するパターンを抽出し ます • Robert Fisk has worked as a journalist in the Middle East for years. • No water, no electricity, no work, no medicine, said Ali Noor, a retired chemical engineer. 一般書式 "個人、[所有される] 製 品" に一致するパターンを抽出し ます • John has a bike. 一般書式 "製品、[所有する] 個 人" に一致するパターンを抽出し ます • The bike owned by John. 一般書式 "個人、[ある] 職業" に 一致するパターンを抽出します PerAtt_Possession 8.1.10 個人の関係に関する情報の抽出 367 2012-06-14 公共部門コンテンツ 個人の関係 (PerRel) ルールは、2 者の関係が家族、社会、仕事の関係かどうかを抽出するために設計されて います。次の表に、PerRel 用に定義されたルールを説明します。 ルール 説明 一般書式 "親、子供" に一致する パターンを抽出します PerRel_ParentChild 一般書式 "子供、親" に一致する パターンを抽出します PerRel_Sibling 368 一般書式 "兄弟、兄弟" に一致す るパターンを抽出します 例 • Surjit Kaur's son Prabjot Singh. • Surjit Kaur's son, Prabjot Singh. • Fateha Gazi, the mother of Rana and Amy. • Surjit Kaur is Prabjot Singh's father. • Prabjot Singh's father Surjit Kaur. • Prabjot Singh's father, Surjit Kaur. Rana, the daughter of Fateha Gazi. • • Prabjot Singh is Surjit Kaur's son. • Paul and John Singh are Surjit Kaur's sons. • Mohamed Kubwa's half-brother Amina. • Mohamed Kubwa's half-brother, Amina. • Amina, half-brother of Mohamed Kubwa. • Mohamed Kubwa and his halfbrother Amina. • John enlisted his brother Joe. 2012-06-14 公共部門コンテンツ ルール PerRel_Spouse PerRel_Relative PerRel_Associate 説明 一般書式 "配偶者、配偶者" に一 致するパターンを抽出します 一般書式 "親戚、親戚" に一致す るパターンを抽出します 一般書式 "友達、友達" に一致す るパターンを抽出します 例 • John Manningham's wife Patri cia. • John Manningham's wife, Patri cia. • Patricia, the wife of John Manningham. • John Manningham and his wife Patricia. • John asked his wife Donna to help him. • Bach's father, Johann Ambrosius, married Maria Elisabeth Lämmerhirt on April 8, 1668. • Bin Laden's brother-in-law Mohammed Jamal Khalifa. • Bin Laden's brother-in-law, Mohammed Jamal Khalifa. • John talked to his uncle Char lie. • Italian acting Finance Minister Giovanni Goria met Treasury Secretary James Baker last night. • John and Fred met at the park. • A curious story was told by Swaran Singh and his friend Sukhdev Singh. • John and Fred are roommates. 8.1.11 空間参照の抽出 369 2012-06-14 公共部門コンテンツ SpatialReference ルールは、次の表に示す、距離、方向、および場所に基づく正確な空間参照 (30 KM South of Kandahar)、または前置詞および場所に基づく漠然とした空間参照 (in Kandahar、near Kandahar)) のど ちらかを抽出するために設計されています。 ルール 説明 SpatialReference_Exact このルールは、"n km/miles North/South/West/East of Place" などの距離、方向、および場所を 含む、的確な空間参照を抽出しま す。 SpatialReference_Vague このルールは、"in/near Place" な どの前置詞と場所で構成される漠 然とした空間参照を抽出します。 例 • 15 km north of Kandahar • South of Kabul • near Mosul • in the vicinity of Kandahar • near Mosul, Kirkuk, and Basrah 8.2 簡体字中国語: 抽出される情報のタイプ 標準簡体字中国語モジュールと併用すると、公共部門コンテンツでは、公共部門固有のエンティティおよびデ フォルトのエンティティタイプを抽出できます。 8.2.1 公共部門エンティティ - 簡体字中国語 公共部門コンテンツは、標準簡体字中国語モジュールによって検出されるすべてのエンティティタイプを抽出 するだけでなく、次のように動作します。 370 • すべての一般表記エンティティタイプがデフォルトで抽出されます。 • 公共部門コンテンツには、標準のエンティティタイプだけでなく、特別なエンティティタイプ 371 ページの 「VEHICLE」 および 371 ページの 「WEAPON」 が含まれます。 • 標準の一般表記タイプだけでなく、特別な一般表記エンティティタイプ 372 ページの 「COMMON_VEHICLE」 および 373 ページの 「COMMON_WEAPON」 も含まれます。 2012-06-14 公共部門コンテンツ 8.2.1.1 VEHICLE 輸送方法。次のサブタイプのいずれかとして抽出されます。 • • AIR - 航空機、ヘリコプターなどの飛行体。 • 波音767 • 空中客 LAND - 陸上車。色、年式、モデル、メーカーを含みます。 • 丰田汽 • • • 迪拉克 切 基吉普 WATER - 船舶。 • 泰坦尼克 • 永丰 8.2.1.2 WEAPON 兵器。次のサブタイプのいずれかとして抽出されます。 • BIOLOGICAL - 人体、植物 (農作物)、動物に危害を与えるために使用されるとして、または潜在的な生物 学的脅威として公式に認定されている、細菌、病原体、菌類、天然の毒物、および疾病の名前。これらの兵 器のいずれかを散布する手段を説明するエンティティも抽出します。 • • BLUNT - 殴打する道具として設計されている、または使用されている兵器の名前。 • • 器 芥子毒气 EXPLODING - 爆発することにより危害を与える物質の名前。 • 371 X号 CHEMICAL - 人体、植物 (農作物)、または動物に危害を与えるために使用されるとして、または潜在的な 化学的脅威として公式に認定されている化学物質の名前。これらの兵器のいずれかを散布する手段を説 明するエンティティも抽出します。 • • 炭疽武器 TNT炸 2012-06-14 公共部門コンテンツ • NUCLEAR - 放射性エネルギーまたは核エネルギーを散布することで、人体、植物 (農作物)、および動物 に危害を与えるために使用されるとして公式に認定されている、または潜在的な核の脅威として認定される 兵器の名前。 • • • • • 广 原子 PROJECTILE - 危害を与える目的で、高速で発射されるように設計されている、または使用されている兵 器の名前。 • 响尾蛇 • 赤 蛇 SHARP - 切断する、切りつける、突き刺す、または切り刻むことを目的として設計されている、または使用さ れている兵器の名前。 • • 崎原子 碧血 SHOOTING - 危害を与える目的で、高速で発射体を発射するように設計されている、または使用されてい る兵器 • 卡 • 来福 OTHER - 特定のサブタイプに適合しない兵器の名前。 • X型武器 8.2.1.3 COMMON_VEHICLE 輸送方法。次のサブタイプのいずれかとして抽出されます。 • AIR - 航空機、ヘリコプターなどの飛行体。 • • • • • 运 火箭 船 LAND - 陸上車。色、年式、モデル、メーカーを含みます。 • 面包 • 坦克 • 出租 WATER - 船舶。 • 372 斗机 快艇 2012-06-14 公共部門コンテンツ • • 航空母 8.2.1.4 COMMON_WEAPON 兵器。次のサブタイプのいずれかとして抽出されます。 • • • • • BIOLOGICAL - 人体、植物 (農作物)、動物に危害を与えるために使用されるとして、または潜在的な生物 学的脅威として公式に認定されている、細菌、病原体、菌類、天然の毒物、および疾病の名前。これらの兵 器のいずれかを散布する手段を説明するエンティティも抽出します。 • 生物武器 • 菌炸 BLUNT - 殴打する道具として設計されている、または使用されている兵器の名前。 • 器 • 警棍 CHEMICAL - 人体、植物 (農作物)、または動物に危害を与えるために使用されるとして、または潜在的な 化学的脅威として公式に認定されている化学物質の名前。これらの兵器のいずれかを散布する手段を説 明するエンティティも抽出します。 • 化学武器 • 催泪 EXPLODING - 爆発することにより危害を与える物質の名前。 • 炸 • 炸 • 雷管 NUCLEAR - 放射性エネルギーまたは核エネルギーを散布することで、人体、植物 (農作物)、および動物 に危害を与えるために使用されるとして公式に認定されている、または潜在的な核の脅威として認定される 兵器の名前。 • 核 • • • 原子 PROJECTILE - 危害を与える目的で、高速で発射されるように設計されている、または使用されている兵 器の名前。 • • 373 2012-06-14 公共部門コンテンツ • • • 374 SHARP - 切断する、切りつける、突き刺す、または切り刻むことを目的として設計されている、または使用さ れている兵器の名前。 • 宝 • 匕首 • 利斧 SHOOTING - 危害を与える目的で、高速で発射体を発射するように設計されている、または使用されてい る兵器 • 手 • 冲 • 半自 OTHER - 特定のサブタイプに適合しない兵器に関する普通名詞。 • 武器 • 凶器 • 火 2012-06-14 索引 C CCJT 言語 25, 26 N NLP 使用される能力 14 NOUN_GROUP 37 あ アクセント記号付き文字のタイプライター 形式 スウェーデン語 301 デンマーク語 93 ニーノシク語 229 ブークモール語 217 アクセント記号なし文字 イタリア語 186 オランダ語 102 カタロニア語 48 スウェーデン語 301 スペイン語 284 スロバキア語 268 スロベニア語 275 チェコ語 86 デンマーク語 93 ドイツ語 160 ニーノシク語 229 ハンガリー語 183 ブークモール語 217 フランス語 139 ポルトガル語 241 ルーマニア語 250 アンブレラタグ 31 い イタリア語 アクセント記号なし文字 186 エンティティタイプ 193 大文字小文字のバリアント 186 拡張屈折ステム機能 186 屈折ステマー推測機能 187 グループ化 192 言語処理 184 ステミング 185 単語のセグメンテーション 184 抽出 193 375 イタリア語 (続き) ハイフネーション 186 標準ステム機能 185 品詞タグ設定 188 名詞群 193 文字エンコード 184 イタリア語言語モジュールリファレンス 184 え 英語 エンティティタイプ 119 公共部門コンテンツ 337 大文字小文字のバリアント 114 拡張屈折ステム機能 114 感想の抽出例 317 屈折ステマー推測機能 115 言語処理 110 検出されない単語 118 公共部門コンテンツのルール 336 サブタイプ 119 詳細解析 119 ステミング 112 単語のセグメンテーション 110 抽出 119 ハイフネーション 114 派生ステム機能 114 標準ステム機能 112 品詞タグ設定 115 名詞群 125 名詞の一般表記 131 文字エンコード 110 要求の抽出例 322 英語言語モジュールリファレンス 110 エンコードの識別 21 エンティティ サブタイプ 34 定義済み 17 名前付きエンティティ 37 エンティティタイプ イタリア語 193 英語 119 オランダ語 109 カタロニア語 54 韓国語 212 クロアチア語 84 公共部門エンティティ 英語 337 簡体字中国語 370 スウェーデン語 309 スペイン語 289 エンティティタイプ (続き) スロバキア語 273 スロベニア語 280 セルビア語 266 チェコ語 90 中国語 - 簡体字 60 中国語 - 繁体字 79 デンマーク語 100 ドイツ語 169 ニーノシク語 237 日本語 203 ブークモール語 226 フランス語 144 ポルトガル語 248 名詞の一般表記 42 ロシア語 256 エンティティの抽出 33 お 大文字小文字の正規化 21, 30, 32 ルール 26 大文字小文字のバリアント イタリア語 186 英語 114 オランダ語 102 カタロニア語 48 クロアチア語 80 スペイン語 284 スロバキア語 268 スロベニア語 275 セルビア語 262 チェコ語 86 デンマーク語 93 ドイツ語 160 ニーノシク語 229 ハンガリー語 183 ブークモール語 217 フランス語 139 ポルトガル語 241 ルーマニア語 250 オランダ語 アクセント記号なし文字 102 エンティティタイプ 109 大文字小文字のバリアント 102 拡張屈折ステム機能 102 グループ化 108 言語処理 100 ステミング 102 単語のセグメンテーション 101 抽出 109 2012-06-14 索引 オランダ語 (続き) ハイフネーション 102 標準ステム機能 102 品詞タグ設定 106 複合語分析 104 名詞群 109 文字エンコード 101 オランダ語言語モジュールリファレンス 100 か 拡張屈折ステミング 29 拡張屈折ステム機能 27 イタリア語 186 英語 114 オランダ語 102 カタロニア語 48 スウェーデン語 301 スペイン語 284 デンマーク語 93 ドイツ語 160 ニーノシク語 229 ブークモール語 217 フランス語 139 ポルトガル語 241 拡張ステム機能 クロアチア語 80 スロバキア語 268 スロベニア語 275 セルビア語 262 チェコ語 86 中国語 57 日本語 200 ハンガリー語 183 ルーマニア語 250 カスタマイズ 辞書 18, 33 抽出 18, 33 ルール 18, 33 カスタマの声コンテンツ エンティティタイプ 315 感想の抽出 316 感想の抽出例 英語 317 スペイン語 320 ドイツ語 319 フランス語 318 サポートされる言語 315 要求の抽出 321 要求の抽出例 英語 322 スペイン語 323 ドイツ語 323 フランス語 322 376 カタロニア語 アクセント記号なし文字 48 エンティティタイプ 54 大文字小文字のバリアント 48 拡張屈折ステム機能 48 グループ化 53 言語処理 45 検出されない単語 53 ステミング 46 単語のセグメンテーション 46 抽出 54 ハイフネーション 48 標準ステム機能 46 品詞タグ設定 49 名詞群 54 文字エンコード 45 カタロニア語言語モジュールリファレンス 45 韓国語 エンティティタイプ 212 言語処理 204 検出されない単語 211 サブタイプ 212 ステミング 205 単語のセグメンテーション 204 抽出 211 標準ステム機能 206 品詞タグ設定 208 複合語分析 207 名詞 - 動詞型の複合語 207 名詞 - 名詞型の複合語 207 文字エンコード 204 韓国語言語モジュールリファレンス 204 完全タグ 31 感想 カスタマの声コンテンツの抽出 316 感想の抽出例 英語 317 スペイン語 320 ドイツ語 319 フランス語 318 簡体字中国語 エンティティタイプ 60 公共部門コンテンツ 370 拡張ステム機能 57 言語処理 55 サブタイプ 60 ステミング 56 単語のセグメンテーション 55 抽出 60 標準ステム機能 56 品詞タグ設定 58 名詞群 64 名詞の一般表記 68 文字エンコード 55 簡体字中国語言語モジュールリファレン ス 55 き 企業コンテンツ ルール 325 機能, 各言語 22 ギリシャ語 言語処理 180 ステミング 181 単語のセグメンテーション 180 抽出 181 文字エンコード 180 ギリシャ語言語モジュールリファレンス 180 く 区切り記号 26 屈折ステマー推測機能 29 イタリア語 187 英語 115 スペイン語 285 ドイツ語 161 フランス語 140 屈折ステミング 22 グループ化 イタリア語 192 オランダ語 108 カタロニア語 53 クロアチア語 83 スウェーデン語 308 スロバキア語 272 スロベニア語 279 セルビア語 265 チェコ語 90 デンマーク語 99 ニーノシク語 236 ブークモール語 225 ポルトガル語 248 クロアチア語 アクセント記号なし文字 80 エンティティタイプ 84 大文字小文字のバリアント 80 拡張ステム機能 80 グループ化 83 言語処理 79 ステミング 80 抽出 84 標準ステム機能 80 品詞タグ設定 81 名詞群 84 文字エンコード 79 クロアチア語言語モジュールリファレンス 79 2012-06-14 索引 け 言語機能マトリクス 22 言語処理 イタリア語 184 英語 110 オランダ語 100 カタロニア語 45 韓国語 204 ギリシャ語 180 クロアチア語 79 スウェーデン語 300 スペイン語 281 スロバキア語 266 スロベニア語 273 セルビア語 261 タイ語 310 チェコ語 84 中国語 - 簡体字 55 中国語 - 繁体字 73 デンマーク語 91 ドイツ語 156 トルコ語 311 ニーノシク語 227 日本語 193 ハンガリー語 182 ブークモール語 215 フランス語 136 ポーランド語 238 ポルトガル語 239 ルーマニア語 249 ロシア語 251 言語の識別 21 言語分析 概要 17 言語モジュールのサポートレベル 22 言語分析サポート 詳細 22 標準 22 言語モジュール 34 言語分析サポートレベル 22 抽出サポートレベル 35 定義済み 17 言語モジュールの基本レベルの抽出サ ポート 35 ギリシャ語 181 タイ語 311 トルコ語 313 ハンガリー語 184 ポーランド語 239 ルーマニア語 251 言語モジュールの詳細言語分析サポー ト 22 言語モジュールの詳細抽出サポート 35 言語モジュールの標準言語分析サポー ト 22 377 言語モジュールの標準抽出サポート 35 言語モジュールリファレンス 45 イタリア語 184 英語 110 オランダ語 100 カタロニア語 45 韓国語 204 簡体字中国語 55 ギリシャ語 180 クロアチア語 79 スウェーデン語 300 スペイン語 280 スロバキア語 266 スロベニア語 273 セルビア語 260 タイ語 309 チェコ語 84 デンマーク語 91 ドイツ語 156 トルコ語 311 ニーノシク語 227 日本語 193 ハンガリー語 181 繁体字中国語 73 ブークモール語 215 フランス語 135 ポーランド語 238 ポルトガル語 239 ルーマニア語 249 ロシア語 251 検出されない単語 32 英語 118 カタロニア語 53 韓国語 211 スペイン語 289 スロバキア語 272 スロベニア語 279 セルビア語 265 チェコ語 89 ドイツ語 168 フランス語 143 こ 公共部門コンテンツ エンティティタイプ 英語 337 簡体字中国語 370 サポートされる言語 335 抽出される情報のタイプ 英語 335 簡体字中国語 370 ルール 英語 336 さ サブタイプ 英語 119 韓国語 212 簡体字中国語 60 スペイン語 289 定義済み 34 ドイツ語 169 フランス語 144 ロシア語 256 し 自然言語処理 (NLP) 17 使用される機能 14 事前定義済みエンティティタイプのサポー ト 37 詳細解析 英語 119 す スウェーデン語 アクセント記号付き文字のタイプライ ター形式 301 アクセント記号なし文字 301 エンティティタイプ 309 拡張屈折ステム機能 301 グループ化 308 言語処理 300 ステミング 301 単語のセグメンテーション 300 抽出 309 ハイフネーション 301 標準ステム機能 301 品詞タグ設定 304 複合語ステム機能 303 名詞群 309 文字エンコード 300 スウェーデン語言語モジュールリファレン ス 300 ステミング 21, 27 イタリア語 185 英語 112 オランダ語 102 拡張屈折 29 カタロニア語 46 韓国語 205 ギリシャ語 181 屈折ステマー推測機能 29 クロアチア語 80 スウェーデン語 301 スペイン語 282 スロバキア語 267 スロベニア語 274 2012-06-14 索引 ステミング (続き) セルビア語 261 タイ語 310 タグ付き 32 チェコ語 85 中国語 56, 75 デンマーク語 92 ドイツ語 158 トルコ語 312 ニーノシク語 228 日本語 198 派生 30 ハンガリー語 182 標準屈折 28 ブークモール語 217 複合語のステミング 29 複合語非分割 30 フランス語 137 ポーランド語 238 ポルトガル語 240 未知の単語 30 ルーマニア語 249 ロシア語 252 スペイン語 アクセント記号なし文字 284 エンティティタイプ 289 大文字小文字のバリアント 284 拡張屈折ステム機能 284 感想の抽出例 320 屈折ステマー推測機能 285 言語処理 281 検出されない単語 289 サブタイプ 289 ステミング 282 単語のセグメンテーション 281 抽出 289 ハイフネーション 284 標準ステム機能 282 品詞タグ設定 285 名詞群 294 文字エンコード 281 要求の抽出例 323 スペイン語言語モジュールリファレンス 280 スペース言語 25 スロバキア語 アクセント記号なし文字 268 エンティティタイプ 273 大文字小文字のバリアント 268 拡張ステム機能 268 グループ化 272 言語処理 266 検出されない単語 272 ステミング 267 単語のセグメンテーション 267 抽出 273 378 スロバキア語 (続き) 標準ステム機能 267 品詞タグ設定 269 名詞群 273 文字エンコード 267 スロバキア語言語モジュールリファレンス 266 スロベニア語 アクセント記号なし文字 275 エンティティタイプ 280 大文字小文字のバリアント 275 拡張ステム機能 275 グループ化 279 言語処理 273 検出されない単語 279 ステミング 274 単語のセグメンテーション 274 抽出 280 標準ステム機能 274 品詞タグ設定 276 名詞群 280 文字エンコード 274 スロベニア語言語モジュールリファレンス 273 せ セグメントの生成 21, 25 セルビア語 エンティティタイプ 266 大文字小文字のバリアント 262 拡張ステム機能 262 グループ化 265 言語処理 261 検出されない単語 265 ステミング 261 単語のセグメンテーション 261 抽出 266 発音区分符号なし文字 262 標準ステム機能 261 品詞タグ設定 263 名詞群 266 文字エンコード 261 セルビア語言語モジュールリファレンス 260 た タイ語 言語処理 310 ステミング 310 単語のセグメンテーション 310 抽出 311 文字エンコード 310 タイ語言語モジュールリファレンス 309 タグ設定 (「品詞タグ設定」を参照) 31 タグ付きステミング 21, 22, 32 タグ名の仕様 31 単語のセグメンテーション 21, 22, 25 イタリア語 184 英語 110 オランダ語 101 カタロニア語 46 韓国語 204 ギリシャ語 180 スウェーデン語 300 スペイン語 281 スロバキア語 267 スロベニア語 274 セルビア語 261 タイ語 310 チェコ語 85 中国語 55, 74 デンマーク語 91 ドイツ語 156 トルコ語 312 ニーノシク語 227 日本語 194 ハンガリー語 182 ブークモール語 216 フランス語 136 ポーランド語 238 ポルトガル語 240 ルーマニア語 249 ロシア語 252 単語の分割 32 ち チェコ語 アクセント記号なし文字 86 エンティティタイプ 90 大文字小文字のバリアント 86 拡張ステム機能 86 グループ化 90 言語処理 84 検出されない単語 89 ステミング 85 単語のセグメンテーション 85 抽出 90 標準ステム機能 85 品詞タグ設定 86 名詞群 90 文字エンコード 85 チェコ語言語モジュールリファレンス 84 抽出 イタリア語 193 英語 119 オランダ語 109 概要 17, 33 カスタマイズ 18, 33 カスタマの声コンテンツ 315 2012-06-14 索引 抽出 (続き) カタロニア語 54 韓国語 211 企業コンテンツ 325 ギリシャ語 181 クロアチア語 84 言語モジュールのサポートレベル 35 公共部門コンテンツ 335 サブタイプ 34 スウェーデン語 309 スペイン語 289 スロバキア語 273 スロベニア語 280 セルビア語 266 タイ語 311 チェコ語 90 中国語 - 簡体字 60 中国語 - 繁体字 79 デンマーク語 100 ドイツ語 169 トルコ語 313 ニーノシク語 237 日本語 203 ハンガリー語 184 ブークモール語 226 フランス語 144 ポーランド語 239 ポルトガル語 248 リソース ファイル 34 ルーマニア語 251 ロシア語 256 抽出する カスタマの声コンテンツを使用する感 想 316 カスタマの声コンテンツを使用する要 求 321 カスタマの声情報 315 企業情報 325 公共部門エンティティ - 英語 337 公共部門エンティティ - 簡体字中国 語 370 公共部門情報 335 抽出ルール 18, 33, 34, 35 カスタマの声 315 企業コンテンツ 325 公共部門コンテンツ 335 英語 336 て ディクショナリ 18, 33, 34, 35 デンマーク語 アクセント記号付き文字のタイプライ ター形式 93 アクセント記号なし文字 93 エンティティタイプ 100 379 デンマーク語 (続き) 大文字小文字のバリアント 93 拡張屈折ステム機能 93 グループ化 99 言語処理 91 ステミング 92 単語のセグメンテーション 91 抽出 100 ハイフネーション 93 標準ステム機能 92 品詞タグ設定 94 名詞群 100 文字エンコード 91 デンマーク語言語モジュールリファレンス 91 と ドイツ語 アクセント記号なし文字 160 エンティティタイプ 169 大文字小文字のバリアント 160 拡張屈折ステム機能 160 感想の抽出例 319 屈折ステマー推測機能 161 言語処理 156 検出されない単語 168 サブタイプ 169 ステミング 158 単語のセグメンテーション 156 抽出 169 ハイフネーション 160 標準ステム機能 158 品詞タグ設定 164 複合語非分割ステム機能 164 複合語分析 161 名詞群 174 文字エンコード 156 要求の抽出例 323 ドイツ語言語モジュールリファレンス 156 ドキュメント分析 21, 32 特別な抽出 カスタマの声コンテンツ 315 企業コンテンツ 325 公共部門コンテンツ 335 トルコ語 言語処理 311 ステミング 312 単語のセグメンテーション 312 抽出 313 文字エンコード 312 トルコ語言語モジュールリファレンス 311 な 名前付きエンティティ 37 に ニーノシク語 アクセント記号付き文字のタイプライ ター形式 229 アクセント記号なし文字 229 エンティティタイプ 237 大文字小文字のバリアント 229 拡張屈折ステム機能 229 グループ化 236 言語処理 227 ステミング 228 単語のセグメンテーション 227 抽出 237 ハイフネーション 229 標準ステム機能 228 品詞タグ設定 230 名詞群 237 文字エンコード 227 ニーノシク語言語モジュールリファレンス 227 日本語 エンティティタイプ 203 拡張ステム機能 200 言語処理 193 ステミング 198 単語のセグメンテーション 194 抽出 203 標準ステム機能 198 品詞タグ設定 202 名詞群 203 文字エンコード 194 日本語言語モジュールリファレンス 193 は ハイフネーション イタリア語 186 英語 114 オランダ語 102 カタロニア語 48 スウェーデン語 301 スペイン語 284 デンマーク語 93 ドイツ語 160 ニーノシク語 229 ブークモール語 217 フランス語 139 ポルトガル語 241 派生ステミング 27, 30 派生ステム機能 英語 114 発音区分符号なし文字 セルビア語 262 ハンガリー語 アクセント記号なし文字 183 2012-06-14 索引 ハンガリー語 (続き) 大文字小文字のバリアント 183 拡張ステム機能 183 言語処理 182 ステミング 182 単語のセグメンテーション 182 抽出 184 標準ステム機能 182 文字エンコード 182 ハンガリー語言語モジュールリファレンス 181 繁体字中国語 エンティティタイプ 79 拡張ステム機能 75 言語処理 73 ステミング 75 単語のセグメンテーション 74 抽出 79 標準ステム機能 75 品詞タグ設定 77 名詞群 79 文字エンコード 73 繁体字中国語言語モジュールリファレン ス 73 ひ 標準屈折ステミング 27, 28 標準ステム機能 イタリア語 185 英語 112 オランダ語 102 カタロニア語 46 韓国語 206 クロアチア語 80 スウェーデン語 301 スペイン語 282 スロバキア語 267 スロベニア語 274 セルビア語 261 チェコ語 85 中国語 56 中国語 - 繁体字 75 デンマーク語 92 ドイツ語 158 ニーノシク語 228 日本語 198 ハンガリー語 182 ブークモール語 217 フランス語 137 ポルトガル語 240 ルーマニア語 250 品詞タグ設定 21, 22, 32 アンブレラタグ 31 イタリア語 188 英語 115 380 品詞タグ設定 (続き) オランダ語 106 カタロニア語 49 韓国語 208 完全タグ 31 クロアチア語 81 スウェーデン語 304 スペイン語 285 スロバキア語 269 スロベニア語 276 セルビア語 263 タグ名の仕様 31 チェコ語 86 中国語 - 簡体字 58 中国語 - 繁体字 77 デンマーク語 94 ドイツ語 164 ニーノシク語 230 日本語 202 ブークモール語 218 フランス語 140 ポルトガル語 243 ロシア語 253 ふ ファクト 定義済み 17 ファクトの抽出 33 ブークモール語 アクセント記号付き文字のタイプライ ター形式 217 アクセント記号なし文字 217 エンティティタイプ 226 大文字小文字のバリアント 217 拡張屈折ステム機能 217 グループ化 225 言語処理 215 ステミング 217 単語のセグメンテーション 216 抽出 226 ハイフネーション 217 標準ステム機能 217 品詞タグ設定 218 名詞群 226 文字エンコード 216 ブークモール語言語モジュールリファレ ンス 215 複合語 22 複合語ステム機能 スウェーデン語 303 複合語のステミング 29 複合語非分割ステミング 30 複合語非分割ステム機能 ドイツ語 164 複合語分析 27, 29 オランダ語 104 韓国語 207 スウェーデン語 303 中国語 75 ドイツ語 161 複合語ユニット 22, 25 フランス語 アクセント記号なし文字 139 エンティティタイプ 144 大文字小文字のバリアント 139 拡張屈折ステム機能 139 感想の抽出例 318 屈折ステマー推測機能 140 言語処理 136 検出されない単語 143 サブタイプ 144 ステミング 137 単語のセグメンテーション 136 抽出 144 ハイフネーション 139 標準ステム機能 137 品詞タグ設定 140 名詞群 149 文字エンコード 136 要求の抽出例 322 フランス語言語モジュールリファレンス 135 ほ ポーランド語 言語処理 238 ステミング 238 単語のセグメンテーション 238 抽出 239 文字エンコード 238 ポーランド語言語モジュールリファレンス 238 ポルトガル語 アクセント記号なし文字 241 エンティティタイプ 248 大文字小文字のバリアント 241 拡張屈折ステム機能 241 グループ化 248 言語処理 239 ステミング 240 単語のセグメンテーション 240 抽出 248 ハイフネーション 241 標準ステム機能 240 品詞タグ設定 243 名詞群 248 文字エンコード 240 ポルトガル語言語モジュールリファレンス 239 2012-06-14 索引 み 未知の単語 ステミング 30 め 名詞群 イタリア語 193 英語 125 オランダ語 109 カタロニア語 54 簡体字中国語 64 クロアチア語 84 スウェーデン語 309 スペイン語 294 スロバキア語 273 スロベニア語 280 セルビア語 266 チェコ語 90 デンマーク語 100 ドイツ語 174 ニーノシク語 237 日本語 203 繁体字中国語 79 ブークモール語 226 フランス語 149 ポルトガル語 248 名詞の一般表記 英語 42, 131 簡体字中国語 42 中国語 - 簡体字 68 も 文字エンコード イタリア語 184 英語 110 オランダ語 101 カタロニア語 45 381 文字エンコード (続き) 韓国語 204 ギリシャ語 180 クロアチア語 79 スウェーデン語 300 スペイン語 281 スロバキア語 267 スロベニア語 274 セルビア語 261 タイ語 310 チェコ語 85 中国語 - 簡体字 55 中国語 - 繁体字 73 デンマーク語 91 ドイツ語 156 トルコ語 312 ニーノシク語 227 日本語 194 ハンガリー語 182 ブークモール語 216 フランス語 136 ポーランド語 238 ポルトガル語 240 ルーマニア語 249 ロシア語 251 よ 要求 カスタマの声コンテンツを使用する抽 出 321 要求の抽出例 英語 322 スペイン語 323 ドイツ語 323 フランス語 322 り リソースファイル, 抽出 言語モジュール 34 辞書 34 抽出ルール 34 る ルーマニア語 アクセント記号なし文字 250 大文字小文字のバリアント 250 拡張ステム機能 250 言語処理 249 ステミング 249 単語のセグメンテーション 249 抽出 251 標準ステム機能 250 文字エンコード 249 ルーマニア語言語モジュールリファレン ス 249 ルール 34 大文字小文字の正規化 26 カスタマの声コンテンツ 315 企業コンテンツ 325 公共部門コンテンツ 335 英語 336 ろ ロシア語 エンティティタイプ 256 言語処理 251 サブタイプ 256 ステミング 252 単語のセグメンテーション 252 抽出 256 品詞タグ設定 253 文字エンコード 251 ロシア語言語モジュールリファレンス 251 2012-06-14
© Copyright 2024 Paperzz