Text Data Processing 言語リファレンスガイド

Text Data Processing 言語リファレンスガイド
■ SAP BusinessObjects Data Services 4.1 (14.1.0)
2012-06-14
著作権
© 2012 SAP AG. All rights reserved.SAP、R/3、SAP NetWeaver、Duet、PartnerEdge、ByDesign、SAP
BusinessObjects Explorer、StreamWork、SAP HANA、および本文書に記載されたその他の SAP 製品、
サービス、ならびにそれぞれのロゴは、ドイツおよびその他の国々における SAP AG の商標または登録
商標です。Business Objects および Business Objectsロゴ、BusinessObjects、Crystal Reports、Crystal
Decisions、Web Intelligence、Xcelsius、および本書で引用されているその他のBusiness Objects 製品お
よびサービス、ならびにそれぞれのロゴも含めて、Business Objects Software Ltd. の商標または登録商
標です。Business Objects は SAP の子会社です。Sybase および Adaptive Server、iAnywhere、Sybase
365、SQL Anywhere、および本書で引用されている Sybase 製品およびサービス、ならびにそれぞれの
ロゴも含めて、Sybase, Inc. の商標または登録商標です。Sybase は SAP の子会社です。Crossgate、
m@gic EDDY、B2B 360°、B2B 360° Services は、ドイツおよびその他の国々における Crossgate AG
の登録商標です。Crossgate は SAP の子会社です。本書に記載されたその他すべての製品およびサー
ビス名は、それぞれの企業の商標です。本書に記載されたデータは情報提供のみを目的として提供され
ています。製品仕様は、国ごとに変わる場合があります。これらの文書の内容は、予告なしに変更され
ることがあります。これらの文書はSAP AGおよびその関連会社(「SAPグループ」)が情報提供のために
のみ提供するもので、いかなる種類の表明および保証を伴うものではなく、SAPグループは文書に関す
る誤記・脱落等の過失に対する責任を負うものではありません。SAPグループの製品およびサービスに
対する唯一の保証は、当該製品およびサービスに伴う明示的保証がある場合に、これに規定されたも
のに限られます。本書のいかなる記述も、追加の保証となるものではありません。
2012-06-14
目次
3
第1章
はじめに....................................................................................................................................................................................9
1.1
1.1.1
1.1.2
1.1.3
1.1.4
1.2
1.2.1
1.2.2
SAP BusinessObjects Data Services へようこそ....................................................................................................9
第2章
言語分析および抽出の概要..........................................................................................................................................17
2.1
2.2
2.2.1
2.3
2.4
言語分析について.............................................................................................................................................................17
第3章
言語分析サポート..............................................................................................................................................................21
3.1
3.2
3.3
3.3.1
3.4
3.5
3.5.1
3.5.2
3.5.3
3.5.4
3.5.5
3.5.6
3.5.7
3.6
言語分析の言語機能マトリクス...................................................................................................................................22
ようこそ......................................................................................................................................................................................9
SAP BusinessObjects Data Services のドキュメントセット..................................................................................9
ドキュメントへのアクセス.................................................................................................................................................12
SAP BusinessObjects の情報リソース......................................................................................................................13
このガイドの概要................................................................................................................................................................14
このガイドについて ...........................................................................................................................................................15
このガイドの対象読者......................................................................................................................................................15
抽出について.......................................................................................................................................................................17
抽出のカスタマイズについて.........................................................................................................................................18
サポートされる言語モジュール.....................................................................................................................................19
特別な抽出コンテンツ......................................................................................................................................................20
セグメントの生成.................................................................................................................................................................25
単語のセグメンテーション...............................................................................................................................................25
スペース言語.......................................................................................................................................................................25
大文字小文字の正規化ルール....................................................................................................................................26
ステミング...............................................................................................................................................................................27
標準屈折ステミング...........................................................................................................................................................28
拡張屈折ステミング...........................................................................................................................................................29
屈折ステマー推測機能....................................................................................................................................................29
複合語のステミング...........................................................................................................................................................29
複合語非分割ステミング.................................................................................................................................................30
派生ステミング.....................................................................................................................................................................30
未知の単語のステミング.................................................................................................................................................30
品詞サポート........................................................................................................................................................................31
2012-06-14
目次
4
3.6.1
3.6.2
3.6.3
3.6.4
タグ名の仕様.......................................................................................................................................................................31
第4章
抽出サポート........................................................................................................................................................................33
4.1
4.1.1
4.2
4.3
4.4
4.4.1
4.4.2
エンティティとファクトの抽出..........................................................................................................................................33
第5章
言語モジュールリファレンス...........................................................................................................................................45
5.1
5.1.1
5.1.2
5.2
5.2.1
5.2.2
5.3
5.3.1
5.3.2
5.4
5.4.1
5.4.2
5.5
5.5.1
5.5.2
5.6
5.6.1
5.6.2
5.7
5.7.1
5.7.2
5.8
5.8.1
5.8.2
5.9
5.9.1
カタロニア語言語リファレンス.......................................................................................................................................45
検出されない単語..............................................................................................................................................................32
タグ付きステミング.............................................................................................................................................................32
単語の分割...........................................................................................................................................................................32
サブタイプ..............................................................................................................................................................................34
抽出リソースファイル........................................................................................................................................................34
言語モジュールの抽出サポートレベル.....................................................................................................................35
事前定義済みエンティティタイプのサポート...........................................................................................................37
名前付きエンティティ.........................................................................................................................................................37
名詞の一般表記.................................................................................................................................................................42
言語処理................................................................................................................................................................................45
抽出..........................................................................................................................................................................................54
簡体字中国語言語リファレンス....................................................................................................................................55
言語処理................................................................................................................................................................................55
抽出..........................................................................................................................................................................................60
繁体字中国語言語リファレンス....................................................................................................................................73
言語処理................................................................................................................................................................................73
抽出..........................................................................................................................................................................................79
クロアチア語言語リファレンス.......................................................................................................................................79
言語処理................................................................................................................................................................................79
抽出..........................................................................................................................................................................................84
チェコ語言語リファレンス................................................................................................................................................84
言語処理................................................................................................................................................................................84
抽出..........................................................................................................................................................................................90
デンマーク語言語リファレンス......................................................................................................................................91
言語処理................................................................................................................................................................................91
抽出..........................................................................................................................................................................................99
オランダ語言語リファレンス.........................................................................................................................................100
言語処理.............................................................................................................................................................................100
抽出.......................................................................................................................................................................................109
英語言語リファレンス.....................................................................................................................................................110
言語処理.............................................................................................................................................................................110
抽出.......................................................................................................................................................................................119
フランス語言語リファレンス.........................................................................................................................................135
言語処理.............................................................................................................................................................................136
2012-06-14
目次
5.9.2
5.10
5.10.1
5.10.2
5.11
5.11.1
5.11.2
5.12
5.12.1
5.12.2
5.13
5.13.1
5.13.2
5.14
5.14.1
5.14.2
5.15
5.15.1
5.15.2
5.16
5.16.1
5.16.2
5.17
5.17.1
5.17.2
5.18
5.18.1
5.18.2
5.19
5.19.1
5.19.2
5.20
5.20.1
5.20.2
5.21
5.21.1
5.21.2
5.22
5.22.1
5.22.2
5.23
5
抽出.......................................................................................................................................................................................144
ドイツ語言語リファレンス..............................................................................................................................................156
言語処理.............................................................................................................................................................................156
抽出.......................................................................................................................................................................................169
ギリシャ語言語リファレンス.........................................................................................................................................180
言語処理.............................................................................................................................................................................180
抽出.......................................................................................................................................................................................181
ハンガリー語言語リファレンス....................................................................................................................................181
言語処理.............................................................................................................................................................................181
抽出.......................................................................................................................................................................................184
イタリア語言語リファレンス..........................................................................................................................................184
言語処理.............................................................................................................................................................................184
抽出.......................................................................................................................................................................................193
日本語言語リファレンス................................................................................................................................................193
言語処理.............................................................................................................................................................................193
抽出.......................................................................................................................................................................................203
韓国語言語リファレンス................................................................................................................................................204
言語処理.............................................................................................................................................................................204
抽出.......................................................................................................................................................................................211
ノルウェー語: ブークモール語言語リファレンス..................................................................................................215
言語処理.............................................................................................................................................................................215
抽出.......................................................................................................................................................................................226
ノルウェー語: ニーノシク語言語リファレンス........................................................................................................227
言語処理.............................................................................................................................................................................227
抽出.......................................................................................................................................................................................237
ポーランド語言語リファレンス.....................................................................................................................................238
言語処理.............................................................................................................................................................................238
抽出.......................................................................................................................................................................................239
ポルトガル語言語リファレンス....................................................................................................................................239
言語処理.............................................................................................................................................................................239
抽出.......................................................................................................................................................................................248
ルーマニア語言語リファレンス...................................................................................................................................249
言語処理.............................................................................................................................................................................249
抽出.......................................................................................................................................................................................251
ロシア語言語リファレンス.............................................................................................................................................251
言語処理.............................................................................................................................................................................251
抽出.......................................................................................................................................................................................256
セルビア語言語リファレンス........................................................................................................................................260
言語処理.............................................................................................................................................................................261
抽出.......................................................................................................................................................................................266
スロバキア語言語リファレンス...................................................................................................................................266
2012-06-14
目次
6
5.23.1
5.23.2
5.24
5.24.1
5.24.2
5.25
5.25.1
5.25.2
5.26
5.26.1
5.26.2
5.27
5.27.1
5.27.2
5.28
5.28.1
5.28.2
言語処理.............................................................................................................................................................................266
第6章
カスタマの声コンテンツ.................................................................................................................................................315
6.1
6.1.1
6.1.2
6.1.3
6.1.4
6.2
6.2.1
6.2.2
6.2.3
6.2.4
感想の抽出........................................................................................................................................................................316
第7章
企業コンテンツ..................................................................................................................................................................325
7.1
7.2
7.3
7.4
7.5
メンバーシップ情報の抽出...........................................................................................................................................326
第8章
公共部門コンテンツ........................................................................................................................................................335
8.1
8.1.1
英語: 抽出される情報のタイプ .................................................................................................................................335
抽出.......................................................................................................................................................................................273
スロベニア語言語リファレンス....................................................................................................................................273
言語処理.............................................................................................................................................................................273
抽出.......................................................................................................................................................................................280
スペイン語言語リファレンス.........................................................................................................................................280
言語処理.............................................................................................................................................................................281
抽出.......................................................................................................................................................................................289
スウェーデン語言語リファレンス................................................................................................................................299
言語処理.............................................................................................................................................................................300
抽出.......................................................................................................................................................................................309
タイ語言語リファレンス..................................................................................................................................................309
言語処理.............................................................................................................................................................................309
抽出.......................................................................................................................................................................................311
トルコ語言語リファレンス..............................................................................................................................................311
言語処理.............................................................................................................................................................................311
抽出.......................................................................................................................................................................................312
英語: 感想の抽出例.......................................................................................................................................................317
フランス語: 感想の抽出例...........................................................................................................................................318
ドイツ語: 感想の抽出例................................................................................................................................................319
スペイン語: 感想の抽出例...........................................................................................................................................320
要求の抽出........................................................................................................................................................................321
英語: 要求の抽出例.......................................................................................................................................................322
フランス語: 要求の抽出例...........................................................................................................................................322
ドイツ語: 要求の抽出例................................................................................................................................................323
スペイン語: 要求の抽出例...........................................................................................................................................323
管理の変更イベントの抽出.........................................................................................................................................327
製品リリースイベントの抽出........................................................................................................................................330
吸収合併情報の抽出.....................................................................................................................................................330
組織情報の抽出...............................................................................................................................................................331
公共部門コンテンツのルールセット - 英語..........................................................................................................336
2012-06-14
目次
8.1.2
8.1.3
8.1.4
8.1.5
8.1.6
8.1.7
8.1.8
8.1.9
8.1.10
8.1.11
8.2
8.2.1
公共部門コンテンツエンティティ - 英語.................................................................................................................337
アクションイベントの抽出..............................................................................................................................................342
旅行イベントの抽出........................................................................................................................................................349
軍隊の抽出........................................................................................................................................................................357
組織情報の抽出...............................................................................................................................................................358
個人のエイリアスの抽出..............................................................................................................................................360
個人の外見に関する情報の抽出.............................................................................................................................363
個人の属性に関する情報の抽出.............................................................................................................................364
個人の関係に関する情報の抽出.............................................................................................................................367
空間参照の抽出...............................................................................................................................................................369
簡体字中国語: 抽出される情報のタイプ...............................................................................................................370
公共部門エンティティ - 簡体字中国語...................................................................................................................370
索引
7
375
2012-06-14
はじめに
はじめに
1.1 SAP BusinessObjects Data Services へようこそ
1.1.1 ようこそ
SAP BusinessObjects Data Services は、データ統合、データ品質、データプロファイル、およびテキストデータ
処理のための単一のエンタープライズクラスソリューションです。これにより、信頼できるデータを重要なビジネ
スプロセスに統合、変換、強化、配信できるようになります。SAP BusinessObjects Data Services では、単一の
開発 UI、メタデータリポジトリ、データ接続レイヤ、ランタイム環境、および管理コンソールを提供するため、IT
企業は総所有コストを低減し、価値を生み出すための時間を加速させることができます。SAP BusinessObjects
Data Services を使用することで、データ品質が向上し、異なるソースやアプリケーションにアクセスできるため、
IT 企業は単一ソリューションを使用して業務効率を最大化できます。
1.1.2 SAP BusinessObjects Data Services のドキュメントセット
SAP BusinessObjects Data Services 製品に関連するすべてのドキュメントに目を通す必要があります。
9
ドキュメント
ドキュメントの内容
『管理者ガイド 』
監視、ライフサイクルマネジメント、セキュリティなどの管理タスクに
関する情報。
『修正されたカスタマの問題 』
このリリースで修正されたカスタマの問題に関する情報。
『Designer ガイド 』
SAP BusinessObjects Data Services Designer の使用方法に関す
る情報。
『Documentation Map 』
使用可能な SAP BusinessObjects Data Services マニュアル、言
語、および場所に関する情報。
2012-06-14
はじめに
ドキュメント
ドキュメントの内容
『インストールガイド(Windows 版) 』
SAP BusinessObjects Data Services を Windows 環境にインストー
ルする際の概要と手順に関する情報。
『インストールガイド(UNIX 版) 』
SAP BusinessObjects Data Services を UNIX 環境にインストール
する際の概要と手順に関する情報。
『Integrator's Guide 』
Web サービスおよび API を使用して SAP BusinessObjects Data
Services 機能にアクセスするサードパーティの開発者向けの情報。
『Management Console ガイド 』
SAP BusinessObjects Data Services アドミニストレータおよび SAP
BusinessObjects Data Services メタデータレポートの使用方法に
関する情報。
『パフォーマンスの最適化ガイド 』
SAP BusinessObjects Data Services のパフォーマンスを向上させ
る方法に関する情報。
『リファレンス ガイド 』
SAP BusinessObjects Data Services Designer の詳細なリファレン
ス資料。
『Release Notes 』
このバージョンの SAP BusinessObjects Data Services をインストー
ルおよびデプロイする前に必要な重要な情報。
『技術マニュアル 』
検索可能な総合目次と総合索引を含む SAP BusinessObjects
Data Services の主要ガイドをまとめたマスタ PDF。
• 『管理者ガイド 』
• 『Designer ガイド 』
• 『リファレンスガイド 』
• 『管理コンソールガイド 』
• 『パフォーマンスの最適化ガイド 』
• 『追加情報(J. D. Edwards 対象) 』
• 『追加情報(Oracle Applications 対象) 』
• 『追加情報(PeopleSoft 対象) 』
• 『追加情報 (Salesforce.com 対象) 』
• 『追加情報(Siebel 対象) 』
• 『追加情報(SAP 対象) 』
『テキストデータ処理抽出カスタマイゼーションガ
イド 』
Text Data Processing トランスフォームで使用する独自の抽出パ
ターンを作成するための辞書および抽出ルールの構築に関する
情報。
『テキストデータ処理言語リファレンスガイド 』
テキストデータ処理コンポーネントが提供する言語分析機能およ
び抽出処理機能に関する情報と、サポートされる各言語の参照セ
クション。
『チュートリアル 』
SAP BusinessObjects Data Services の使用方法手順の紹介。
10
2012-06-14
はじめに
ドキュメント
ドキュメントの内容
『アップグレードガイド 』
以前の SAP BusinessObjects Data Services バージョンから最新
のリリースに至るまでのリリースごとの動作の変化。また、このマニュ
アルには SAP BusinessObjects Data Quality Management から
SAP BusinessObjects Data Services への移行方法に関する情報
も含まれています。
『新機能 』
この SAP BusinessObjects Data Services リリースでの主要な新機
能の紹介。このドキュメントでは、サポートパッケージまたはパッチ
リリースに対する更新は行われません。
また、いくつかのアダプタ ガイドや追加情報も参照する必要がある場合があります。
ドキュメント
ドキュメントの内容
『追加情報(J. D. Edwards 対象)
』
SAP BusinessObjects Data Services、J.D. Edwards World、および J.D. Edwards
OneWorld 間のインタフェースに関する情報。
『追加情報(Oracle Applications
対象) 』
SAP BusinessObjects Data Services と Oracle Applications 間のインタフェースに
関する情報。
『追加情報(PeopleSoft 対象) 』
SAP BusinessObjects Data Services と PeopleSoft 間のインタフェースに関する情
報。
『追加情報 (Salesforce.com 対象)
』
SAP BusinessObjects Data Services Salesforce.com Adapter インタフェースのイ
ンストール、設定、使用方法に関する情報。
『追加情報(SAP 対象) 』
SAP BusinessObjects Data Services、SAP アプリケーション、および SAP NetWeaver
BW 間のインタフェースに関する情報。
『追加情報(Siebel 対象) 』
SAP BusinessObjects Data Services と Siebel 間のインタフェースに関する情報。
これらのマニュアルには、SAP BusinessObjects 情報プラットフォームサービスに関する情報も記載されていま
す。
ドキュメント
ドキュメントの内容
『情報プラットフォームサービス管理者ガイド 』
インストールした情報プラットフォームサービスの設定、管
理、およびメンテナンスを担当する管理者向けの情報。
『SAP BusinessObjects Enterprise インストールガイド
(UNIX 版) 』
SAP BusinessObjects 情報プラットフォームサービスの
UNIX 環境へのインストール手順。
『情報プラットフォームサービスインストールガイド (Windows
版) 』
SAP BusinessObjects 情報プラットフォームサービスの
Windows 環境へのインストール手順。
11
2012-06-14
はじめに
1.1.3 ドキュメントへのアクセス
SAP BusinessObjects Data Services の完全なドキュメントセットには、いくつかの場所からアクセスできます。
1.1.3.1 Windows でのドキュメントへのアクセス
SAP BusinessObjects Data Services をインストールした後に、[スタート] メニューからドキュメントにアクセスでき
ます。
1 [スタート] > [プログラム] > [SAP BusinessObjects Data Services XI 4.0] > [Data Services ドキュメンテーショ
ン] を選択します。
注
[スタート]メニューからアクセスできるのは、ドキュメントのサブセットだけです。このリリースのドキュメントセッ
トは、<LINK_DIR>\Doc\Books\en に保存されています。
2 表示するドキュメントに対応するショートカットをクリックしてください。
1.1.3.2 UNIX でのドキュメントへのアクセス
SAP BusinessObjects Data Services をインストールした後に、印刷可能な PDF ファイルがインストールされて
いるディレクトリに移動して、オンラインドキュメントにアクセスできます。
1 <LINK_DIR>/doc/book/en/ に移動します。
2 Adobe Reader を使用して、表示するドキュメントの PDF ファイルを開きます。
1.1.3.3 Web からのドキュメントへのアクセス
SAP BusinessObjects Data Services の完全なドキュメントセットには、SAP BusinessObjects ビジネスユーザサ
ポートサイトからアクセスできます。
1 http://help.sap.com をご覧ください。
2 そのページの一番上にある [SAP BusinessObjects] をクリックします。
3 左側のナビゲーションペインで [All Products] をクリックします。
PDF はオンラインで表示することも、コンピュータに保存することもできます。
12
2012-06-14
はじめに
1.1.4 SAP BusinessObjects の情報リソース
情報管理から最大の利益を得られるよう、SAP BusinessObjects テクノロジーのエキスパートで構成されるグロー
バルネットワークがカスタマサポート、研修、コンサルティングを提供しています。
役に立つアドレスの一覧を次に示します。
13
2012-06-14
はじめに
住所
記載されている情報
カスタマサポート、コンサルティング、および教育
サービス
SAP ビジネスユーザサポートプログラムに関する情報、
およびテクニカル記事、ダウンロード、オンラインフォーラ
ムへのリンク。コンサルティングサービスは、SAP BusinessObjects を使って情報管理投資を最大限に活用するた
めの情報を提供できます。教育サービスは、トレーニング
オプションとモジュールに関する情報を提供できます。
SAP BusinessObjects では、従来のクラス型の学習から
目標を定めた e-learning セミナーまで、学習ニーズや好
みの学習スタイルに合わせたトレーニングパッケージを
提供しています。
http://service.sap.com/
SAP BusinessObjects Data Services コミュニティ
http://www.sdn.sap.com/irj/sdn/ds
SCN (SAP Community Network) 上のフォーラム
http://forums.sdn.sap.com/forum.jspa?foru
mID=305
ブループリント
http://www.sdn.sap.com/irj/boc/blueprints
製品マニュアル
ヒント、追加ダウンロード、サンプルなど多数の SAP
BusinessObjects Data Services に関する情報をオンライ
ンでタイムリーに入手できます。コミュニティではあらゆる
内容がやりとりされているため、気軽に参加して、提案が
あれば弊社に連絡してください。
SAP Community Network 上の SAP BusinessObjects
フォーラムを検索して、ほかの SAP BusinessObjects Data
Services ユーザから学んで質問の投稿を開始したり、自
分の知識をコミュニティで共有したりできます。
ニーズに合わせてダウンロードおよび変更するためのブ
ループリント。各ブループリントには、いくつかの変更だ
けを加えて独自の環境でデータフローを実行するために
必要な SAP BusinessObjects Data Services プロジェク
ト、ジョブ、データフロー、ファイル形式、サンプルデータ、
テンプレートテーブル、およびカスタム関数が含まれてい
ます。
SAP BusinessObjects 製品マニュアル。
http://help.sap.com/businessobjects/
サポートされるプラットフォーム (製品出荷マトリック
SAP BusinessObjects Data Services でサポートされるプ
ス)
ラットフォームに関する情報を入手できます。
https://service.sap.com/PAM
検索機能を使用して Data Services を検索できます。検
索する Data Services のバージョンのリンクをクリックしま
す。
1.2 このガイドの概要
『言語リファレンスガイド 』へようこそ。
14
2012-06-14
はじめに
SAP BusinessObjects Data Services のテキストデータ処理ソフトウェアでは、構造化されていないテキストから、
コンテンツの言語分析と抽出を実行できます。
言語分析には、セグメンテーション、ステミング、タグ設定などの多くの自然言語処理 (NLP) 能力があります。
抽出は、複数言語で記述された、すべてのテキストデータソースから、構造化されていないテキストを分析しま
す。また、テキストから、人、日付、場所、組織などの情報を含むキーエンティティタイプを自動的に識別して抽
出します。
1.2.1 このガイドについて
このガイドには、次の 2 種類の情報が記載されています。
•
このソフトウェアが提供する、言語分析と抽出機能に関する概要と概念情報。
•
このソフトウェアがサポートする各言語のリファレンスの節。ここでは、言語分析中および抽出中の、サポー
トされる言語モジュールの動作が説明されています。
1.2.2 このガイドの対象読者
このガイドのユーザは、自分のテキスト分析アプリケーションの抽出を拡張する必要があり、テキストデータ処理
の抽出概念を理解している必要があるかもしれません。ただし、ソフトウェアで処理しようとしているテキストの自
然言語を理解し、またはこれに精通している必要はありません。同様に、言語の法則に精通している必要もあ
りません。このドキュメントは、次のことを前提としています。
15
•
ユーザは、テキストデータ処理の抽出の拡張に従事するアプリケーション開発者、またはコンサルタントで
ある。
•
ユーザは、所属する組織のテキストデータ処理の抽出ニーズについて把握している。
2012-06-14
言語分析および抽出の概要
言語分析および抽出の概要
このソフトウェアには、言語をサポートするための言語モジュールが含まれます。各言語モジュールには、単語
が格納されているシステム辞書から成るファイルセットがあり、任意の自然言語の言語処理操作をサポートしま
す。言語モジュールによって、任意の言語の構造化されていないテキストの言語分析と抽出が可能になります。
言語モジュールは次の言語処理テクノロジーを使用します。
•
言語分析 (自然言語処理を行います)
•
抽出 (エンティティの抽出を行います)
関連項目
• 21 ページの「言語分析サポート」
• 33 ページの「抽出サポート」
2.1 言語分析について
このソフトウェアには、構造化されていないデータの言語分析用に、各種の高度な自然言語処理能力があり、
使用されています。これらの能力には次のものが含まれます:
•
セグメンテーション - 入力テキストの複数要素への分離
•
ステミング - 単語のステム、または辞書形式の識別
•
タグ設定 - 単語の品詞ラベル付け
関連項目
• 21 ページの「言語分析サポート」
• 45 ページの「言語モジュールリファレンス」
2.2 抽出について
抽出は、構造化されていないテキストに出現する、特定のエンティティとファクトを発見して表示するプロセスで
す。
17
2012-06-14
言語分析および抽出の概要
•
エンティティは、テキストから抽出することのできる、人、場所、物、日付、値などを表します。エンティティは、
標準形式とタイプを組み合わせて定義されます。たとえば Winston Churchill/PERSON は、標準形式が
Winston Churchill、タイプが PERSON のエンティティです。
•
ファクトは、抽出プロセス中に検出されたエンティティで、関係、イベント、感想、または要求を表します。ファ
クトは、情報を抽出するのに使用される表現を定義するパターンで構成される、抽出ルールに基づいて抽
出されます。たとえば、特別なカスタマの声コンテンツには、感想と要求を表現するファクトを抽出できるルー
ルがあります。
このソフトウェアに含まれる言語モジュールには、システム辞書が含まれ、事前定義済みエンティティタイプの
豊富なセットがあります。抽出プロセスでは、これらの特定のエンティティリストを使用して、エンティティを抽出
できます。また、言語モデルを使用して新しいエンティティを発見できます。抽出では、抽出されたエンティティ
それぞれを、エンティティタイプで分類し、このメタデータを正規化された形式で表示します。
関連項目
• 33 ページの「抽出サポート」
• 37 ページの「事前定義済みエンティティタイプのサポート」
• 18 ページの「抽出のカスタマイズについて」
• 19 ページの「サポートされる言語モジュール」
• 45 ページの「言語モジュールリファレンス」
• 20 ページの「特別な抽出コンテンツ」
2.2.1 抽出のカスタマイズについて
次のものを作成および使用することによって、抽出プロセスを拡張できます:
•
エンティティに関する情報を含む辞書。アプリケーションが検出する必要のあるエンティティに関する情報
をカスタマイズできます。
•
抽出ルール。
抽出の拡張の詳細については、 『SAP BusinessObjects Data Services Text Data Processing 抽出カスタマイ
ゼーションガイド 』を参照してください。
特定の言語モジュールでは、これらの言語モジュールに含まれる特別な抽出コンテンツを使用して、抽出を拡
張することもできます。
関連項目
• 20 ページの「特別な抽出コンテンツ」
18
2012-06-14
言語分析および抽出の概要
2.3 サポートされる言語モジュール
このソフトウェアが提供する言語モジュールは、いずれも言語分析をサポートします。これらの言語モジュール
のサブセットは、事前定義済みエンティティ抽出もサポートします。
言語分析および事前定義済みエンティティ抽出をサポートする言語モジュール:
• アラビア語
• 中国語 (簡体字)
• 英語
• ファルシ語
• フランス語
• ドイツ語
• 韓国語
• ロシア語
• スペイン語
言語分析をサポートする言語モジュール:
• カタロニア語
• 中国語 (繁体字)
• クロアチア語
• チェコ語
• デンマーク語
• オランダ語
• イタリア語
• 日本語
• ノルウェーブークモール語
• ノルウェーニーノシク語
• ポルトガル語
• セルビア語
• スロバキア語
• スロベニア語
• スウェーデン語
基本言語分析をサポートする言語モジュール:
• ギリシャ語
• ヘブライ語
• ハンガリー語
• ポーランド語
• ルーマニア語
• タイ語
• トルコ語
19
2012-06-14
言語分析および抽出の概要
注
言語分析および抽出のすべての機能が、すべての言語でサポートされるわけではありません。
関連項目
• 22 ページの「言語分析の言語機能マトリクス」
• 35 ページの「言語モジュールの抽出サポートレベル」
• 45 ページの「言語モジュールリファレンス」
2.4 特別な抽出コンテンツ
特定の言語モジュールには、特定のニーズに対応するルールセットとエンティティタイプを提供する、特別なコ
ンテンツが含まれます。
特別な抽出コンテンツ
説明
対応する言語モジュール
英語
カスタマの声
カスタマのニーズ (要求)、意見、
および問題 (感想) に関する特定
の情報を抽出します。
フランス語
ドイツ語
スペイン語
企業
管理の変更や製品リリースなどの
企業固有の情報を抽出します。
公共部門
イベントや関係などの公共部門固
有の情報を抽出します。
英語
アラビア語
英語
簡体字中国語
関連項目
• 325 ページの「企業コンテンツ」
• 335 ページの「 公共部門コンテンツ」
• 315 ページの「カスタマの声コンテンツ」
20
2012-06-14
言語分析サポート
言語分析サポート
このソフトウェアには、構造化されていないデータの多言語自然言語処理 (NLP) のために、次の言語分析機
能があり、使用されています。
機能
説明
言語およびエンコードの識別
入力言語 (フランス語、日本語など)、およびさまざま
な文字エンコード (Unicode UTF-8、Code Page 1252
など) を自動認識します。
セグメントの生成
より効率よく処理するために、入力テキストを、1 つ以
上の完全な段落から成るセグメントに分割します。
単語のセグメンテーション
入力テキストを、単語や区切り記号などの、複数の要
素に分割します。
大文字小文字の正規化
単語の最初の文字を大文字または小文字に正規化
します。表題や見出しの大文字表記など、ドキュメン
トの構造に関係する大文字小文字の変更を中和す
るのに使用されます。
ステミング
テキストまたは単語の、ステム (辞書形式) を識別し
ます。
タグ設定
名詞や動詞など、単語の品詞をラベル付けします。
ドキュメント分析
ドキュメントの主要なセクション (段落や文) を認識し
ます。
タグ付きステミング
任意の品詞の単語のステムを識別します。
注
すべての操作が、すべての言語でサポートされるわけではありません。
21
2012-06-14
言語分析サポート
関連項目
• 22 ページの「言語分析の言語機能マトリクス」
• 25 ページの「セグメントの生成」
• 25 ページの「単語のセグメンテーション」
• 26 ページの「大文字小文字の正規化ルール」
• 27 ページの「ステミング」
• 31 ページの「品詞サポート」
• 32 ページの「タグ付きステミング」
• 45 ページの「言語モジュールリファレンス」
3.1 言語分析の言語機能マトリクス
言語分析には、次の 2 つのレベルの言語サポートがあります。
•
基本 - タグ設定はサポートされません
•
標準 - タグ設定がサポートされます
次の表に、各自然言語のサポートされる機能それぞれのステータスを示します。
22
言語
複合語ユ
ニット
単語のセグ
メンテーショ
ン
アラビア語
○
カタロニア語
○
屈折ステミン
グ
タグ設定
タグ付きステ
ミング
○
○
○
○
○
○
○
○
複合語
簡体字中国語
○
○*
○**
○
○
繁体字中国語
○
○*
○**
○
○
クロアチア語
○
○
○
○
○
チェコ語
○
○
○
○
○
デンマーク語
○
○
○
○
○
2012-06-14
言語分析サポート
言語
複合語ユ
ニット
単語のセグ
メンテーショ
ン
複合語
屈折ステミン
グ
タグ設定
タグ付きステ
ミング
オランダ語
○
○
○
○
○
○
英語
○
○
○***
○
○
ファルシ語
○
○
○
○
○
フランス語
○
○
○
○
○
○
○
○
○
ヘブライ語
23
ドイツ語
○
○
○
○
ギリシャ語
○
○
○
ハンガリー語
○
○
○
イタリア語
○
○
○
○
○
日本語
○
○*
○
○
○
韓国語
○
○*
○
○
○
ノルウェー語:
ブークモール
語
○
○
○
○
○
ノルウェー語:
ニーノシク語
○
○
○
○
○
ポーランド語
○
○
○
ポルトガル語
○
○
○
○
○
ルーマニア語
○
○
○
2012-06-14
言語分析サポート
言語
複合語ユ
ニット
単語のセグ
メンテーショ
ン
ロシア語
○
セルビア語
屈折ステミン
グ
タグ設定
タグ付きステ
ミング
○
○
○
○
○
○
○
○
○
スロバキア語
○
○
○
○
○
スロベニア語
○
○
○
○
○
スペイン語
○
○
○
○
○
スウェーデン語
○
○
○
○
○
タイ語
トルコ語
○
複合語
○
○
○
○
○
•
* 複合語分析は、その言語の拡張言語モジュールでサポートされます。
•
** 中国語は屈折しないため、すべての中国語の単語のステムはソースの形式とまったく同じです。そのた
め、中国語ではステミングはサポートされません。
•
*** 英語のみ、派生ステミングもサポートされます。
関連項目
• 25 ページの「複合語ユニット」
• 25 ページの「単語のセグメンテーション」
• 27 ページの「ステミング」
• 29 ページの「複合語のステミング」
• 29 ページの「拡張屈折ステミング」
• 30 ページの「派生ステミング」
• 31 ページの「品詞サポート」
• 32 ページの「タグ付きステミング」
• 45 ページの「言語モジュールリファレンス」
24
2012-06-14
言語分析サポート
3.2 セグメントの生成
構造化されていないテキストの分析中、複数のテキスト処理オブジェクトがデータストリームの 1 つのセグメント
を同時に操作します。セグメントは、テキストの小さなユニットで、1 つまたは複数の完全な段落を含みます。言
語分析操作は、入力ストリームを複数のチャンクに分解します。データストリームをチャンキングすることをセグ
メントの生成といいます。
セグメントの生成には、入力テキストをバイトストリームとして読み込むステップと、それをセグメントに分割するス
テップがあります。生成されるセグメントには、コンテキストのテキストに関するメタデータマークアップが含まれ
ます。これらのセグメントはこの後で、単語、文、段落を抽出する詳細な言語分析のために、渡されます。
3.3 単語のセグメンテーション
単語のセグメンテーション操作は、基本的な単語分割を実行します。テキストを、単語や区切り記号などの、意
味のある最小の構文ユニットに分割します。単語のセグメンテーション機能では、"case in point" や
"out-of-the-box" などの慣用句も識別されます。慣用句は 1 つのユニットまたは単語として処理されます。ハ
イフンで接続された複数の単語は構文ユニットなので、分割されません。ただし、短縮形 (don't など) および
省略形 (l'abri など) は、それらの構文ユニットに分離されます。
3.3.1 スペース言語
スペース言語は、単語の境界をスペースと区切り記号でマークします。このグループには、ヨーロッパ、バルカ
ン、中東の各種言語および韓国語が含まれます。区切り記号は、文末をマークすることがあります。この場合、
これらが文の検出に使用されます。
非スペース言語には、中国の 2 つの言語、日本語、およびタイ語があり、CCJT と略されます。CCJT 言語に
おける単語のセグメンテーションでは、その構造のため、少し異なるアルゴリズムが使用されます。これらの言
語で単語のセグメンテーションを実行するには、完全に形態論的な分析が必要なため、単語のセグメンテー
ション、ステミング、および品詞タグ設定操作が 1 つのステップで実行されます。
3.3.1.1 複合語ユニット
デフォルトでは、複合語ユニットは 1 つのユニットとしてセグメンテーションされます。たとえば、"to and fro" や
"Buenos Aires" はそれぞれ 1 つのユニットとしてセグメンテーションされます。ただし、この動作を機能させな
25
2012-06-14
言語分析サポート
いようにできます。その場合、複合語ユニットは個々のコンポーネントに分割されます。たとえば、"to and fro"
は、1 つではなく 3 つのユニットにセグメンテーションされます。
3.3.1.2 区切り記号
単語のセグメンテーション機能では、通常、区切り記号は別のユニットとして分割されます。これには、ピリオド、
カンマ、文末を示す区切り記号、およびさまざまな引用符が含まれます。
次の表に、区切り記号に関連するセグメンテーションの仕様をまとめます。
空白以外
区切り記号の後に、空白ではなく文字が続く場合、
区切り記号は前後の単語から分割されません。例:
"filename.filetype" は "filename.filetype" としてセグ
メンテーションされます。
省略形
ピリオドで終わる省略形は、区切り記号を語から分割
する一般ルールの重要な例外で、このピリオドは単
語に付いたまま保持されます。
アポストロフィ
アポストロフィを使用して記述された短縮形 (英語の
can't、don't など) は、言語固有のルールで処理され
ます。
ハイフン
埋め込まれたハイフン、および末尾のハイフンは、単
語から分割されません。先頭のハイフンは、数字表
現の前では分割されません。たとえば -1000 は 1 つ
のユニットとしてセグメンテーションされます。
3.4 大文字小文字の正規化ルール
大文字小文字の正規化では、単語の代わりに大文字小文字を正規化した代替語を提供します。単語は、文
中での位置によって、または表題に含まれるために、本来の意味のある大文字表記である場合も、そうでない
場合もあります。たとえば、SAP のような固有名詞は常に大文字で記述されますが、horse のような普通名詞
は、文頭にあるか表題に含まれる場合にのみ大文字ではじまります。そのため、Horse が出現すると、大文字
小文字ノーマライザでは、小文字表記の代替語を提供して、後続の処理で誤って Horse が固有名詞とされな
いようにします。その後で、提供された 2 つの代替語が、ステミングおよびタグ設定操作に渡されます。
26
2012-06-14
言語分析サポート
注
大文字小文字の正規化は、CCJT 言語、アラビア語、韓国語、ファルシ語、ヘブライ語などの、大文字と小文
字を区別しない言語には関係ありません。
大文字小文字の正規化は、文のタイプ (通常の文、表題、クエリ) と、それぞれの文タイプでの正規化される単
語の位置に依存します。考慮する重要な位置は、文頭です。ここは、特別な正規化ルールが割り当てられる可
能性があります。特定の区切り記号直後の単語も、文頭にあるとして扱われます。
•
表題文
大文字ではじまるすべての単語が正規化されます。たとえば、新聞の見出しは次のように正規化されます。
•
•
Cardinals Strike Out( Cardinals | cardinals ) ( Strike | strike ) (Out | out )
クエリ文
小文字の単語は大文字のバリアントに正規化されます。クエリ文では、大文字ではじまる単語、およびすべ
て大文字の単語は正規化されません。
•
•
aaaa: aaaa, Aaaa, AAAA
•
aaaA: aaaA, AaaA
普通文
大文字ではじまる単語は、文頭に出現したときに正規化されます。文頭にあるすべて大文字の単語も、正
規化されます。普通文の他の位置にある場合、大文字ではじまる単語、およびすべて大文字の単語は正
規化されません。例:
•
Aaaa bbb Cccc:(Aaaa | aaaa) (bbb) (Cccc)
•
AAAA bbb CCCC: (AAAA | Aaaa | aaaa) (bbb) (CCCC)
3.5 ステミング
speaks、speaking などの単語は、1 つのステム (speak) を持ちます。いくつかの単語は、複数のステムの候
補を持ちます。たとえば spoke は、コンテキスト内で動詞 speak の過去形であると判明することもありますが、
名詞 spoke の単数形である可能性もあります。ステムは、テキスト内の 1 つ以上のバリアント (ソース) 形式の
基本形であり、辞書で参照される形式です。
単語のステミングとは、そのステムを検出して返すことを意味します。たとえば、grind、grinds、grinding、ground
などを重複して扱うより、これらのソース形式すべてを grind という 1 つの動詞のバリアントとして認識すること
ができます。Ground は、動詞 grind とはまったく関係がない意味を持つ名詞である可能性もあります。
含まれるキーワードに従ってインデックス化したドキュメントの例をみると、より抽象的な形式を扱う利点をよく理
解できます。単純にインデックス化してしまうと、grind、grinds、grinding、ground は無関係な単語として処理
され、これらのバリアントの 1 つを含むクエリでは、他のバリアントを含むドキュメントが返されません。しかし、ス
テム機能を使用すれば、すべてのバリアントが grind (動詞) という基本形の下にインデックス化されます。
27
2012-06-14
言語分析サポート
このソフトウェアが使用するステム機能は、一連の構文ユニットの入力 (ground など) を受け取り、各ユニット
に、1 つ以上の基本形 (ground、grind など) を関連付けます。ステム機能は常に、入力された語それぞれに
ついて、可能性のある代替ステムすべてを返します。
このソフトウェアでは、標準屈折ステミングと派生ステミングが区別されます。ステム機能は、デフォルトで屈折
型です。派生ステム機能は、それ自体として示されます。
屈折ステミングは、すべてのサポート言語にあります。現時点では、派生ステミングは英語でのみサポートされ
ます。
いくつかの言語には、標準屈折ステム機能と、入力テキストのバリエーションについてより寛容な拡張屈折ステ
ム機能という、2 つの屈折ステム機能があります。
ステム機能は、次のステミング操作の異なるバリアントをサポートします。
•
標準バリアントは、入力に対して、可能性のある正規化されたステムすべてを返します。また、ドイツ語のよ
うな言語では複合語分析も実行されます。この処理では、複合語が複数のコンポーネントパーツに分割さ
れます。
•
拡張バリアントは、標準バリアントと同じ正規化に対応しますが、非公式なテキストにみられる、大文字表記、
アクセント符号の付加、類似の機能に関してより多くのバリエーションを許容することによって、再現率を重
視しすぎる傾向があります。
•
ドイツ語では、非分割ステム機能で、複合語を別々のステムに分割しない複合語のステミングをサポートし、
閲覧しやすさを向上させています。
•
英語では、派生バリアントで、形態論的な派生語のルートステムを提供します。
関連項目
• 28 ページの「標準屈折ステミング」
• 29 ページの「拡張屈折ステミング」
• 30 ページの「派生ステミング」
3.5.1 標準屈折ステミング
屈折ステミングでは、単語は品詞 (名詞、動詞など) の原型を保持します。たとえば、speaks、speaking という
動詞の形式では、人称 (一人称、二人称、三人称)、数 (単数、複数)、時制 (現在、過去、未来)、相 (進行形)
などの文法上の機能に関係して、複数の変化が同時に発生しているときにも、speak のような基本形の動詞が
保持されます。
次に、追加の例を示します。
28
例
ステム処理後
{aller, vais, vas, va, allons, allez, vont} [French]
aller
2012-06-14
言語分析サポート
例
ステム処理後
{reach, reaches, reached, reaching}
reach
{big, bigger, biggest}
big
{balloon, balloons}
balloon
{go, goes, going, gone, went}
go
太字の単語がステム (辞書形式) です。ステムに追加された文字 (reaches の es、balloons の s) を屈折また
は接辞といいます。
新語などの未知の単語を処理するために、標準ステム機能には、単語に適用する形態規則セットがあります。
3.5.2 拡張屈折ステミング
拡張屈折ステミングの辞書には、標準ステム機能と同等の機能と、それより上位の機能があります。拡張屈折
ステム機能では、標準形式だけでなく、特定の非標準の単語形式 (大文字表記のエラーなど) も許容されま
す。このため、電子メール、オンラインドキュメント、クエリなどの、非公式なテキストや不完全なテキストを処理
するのに使用できます。処理するバリエーションには、大文字小文字のバリエーション、ハイフン接続、アクセ
ント記号のない文字などがあります。CCJT 言語の拡張バリアントは、インデックス生成に適した、より詳細なス
テミング結果を得るために設計されています。
3.5.3 屈折ステマー推測機能
屈折ステマー推測機能には、形態規則が含まれます。この規則は、標準または拡張屈折ステム機能にとって
未知であるため、ステム処理できない構文ユニットに適用できます。このソフトウェアでは、英語、フランス語、ド
イツ語、およびスペイン語に屈折ステマー推測機能があります。
3.5.4 複合語のステミング
29
2012-06-14
言語分析サポート
bookmark、birdbath などの複合語は、複数の単語が結合、または連結されてできています。ドイツ語は特に
その複合語で有名です。たとえば、Bildung (education) と Roman (novel) から Bildungsroman、Welt (world)
と Anschauung (view) から Weltanschauung などがあります。
このソフトウェアでは、ドイツ語の複合語分析を実行します。ドイツ語では、複合語は常に複数のコンポーネン
トステムに分割されます。
3.5.5 複合語非分割ステミング
ドイツ語言語モジュールには、ステム機能で複合語の分割を実行しない、非分割ステム機能バリアントがありま
す。このステム機能は、複合語の主要語をステム処理しますが、複合語を複数のステムに分割しません。たと
えば、複数形の複合語 Bildungsromane は、Bildungsroman にステム処理されますが、複数のコンポーネン
トステムに分割されません。返されるステムは、常に 1 つの語で、複合語の境界マーカーがついていないため、
分割できません。
複数の代替ステムの可能性がある場合、標準ステム機能でも拡張ステム機能でも、複数のステムが返されるこ
とがあります。
3.5.6 派生ステミング
派生ステミングでは、単語とステムが同じ品詞を持つ場合と、そうでない場合があります。名詞が動詞ステムか
ら派生する場合 (participation と participate など) や、形容詞が名詞から派生する場合 (boyish と boy など)
があります。次に、より派生的な例を示します。
•
introduce から {introduction, introductory, introducer}
•
category から {subcategory, categorize, categorization}
•
use から {useful, usable, unusable}
•
enlist から {reenlist}
派生ステミングは、現在英語でのみサポートされます。
3.5.7 未知の単語のステミング
ステム機能では、言語の標準的な単語すべてのステムが識別されます。ただし、システム辞書で検出できない
ものなど、未知の単語にはステムがありません。通常、ステム機能は入力語をステムそのものとして返します。
複雑にする要因があるとすると、それは、大文字小文字の正規化が行われるため、任意の単語に対して複数
30
2012-06-14
言語分析サポート
のバリアント語がステム機能に入力される可能性があることです。つまり、1 つのバリアントは検出されても、他
は検出されないことがあります。デフォルトでは、ステム機能は検出された語のステムを返し、検出されなかった
語を結果から削除します。
たとえば、文頭の Dogs という単語が、離接 (Dogs | dogs) として正規化されることがあります。このような場合、
ステム機能は両方の離接メンバー (Dogs と dogs の両方) を検討します。小文字の dogs がステム処理の辞書
にあり、大文字ではじまる Dogs はないと仮定します。Dogs は辞書にないので (そのため未知の単語と考えら
れるので)、Dogs のままステム処理されます。dogs は辞書にあるので、dog にステム処理されます。デフォルト
では、ステム機能は未知の単語 Dogs を破棄し、dog を検出されたバリアントのステムとして返します。これはデ
フォルトの動作です。
大文字小文字が正規化されたバリアントが検出されなかった場合、ステム機能は大文字小文字が正規化され
たすべてのバリアントを返します。たとえば、入力文が Fbzzz という未知の単語ではじまるとします。大文字小
文字ノーマライザは、離接 (Fbzzz | fbzzz) を返します。ステム機能は、辞書にある語を 1 つも検出しないので、
両方の形式をステムとして返します。
関連項目
• 26 ページの「大文字小文字の正規化ルール」
3.6 品詞サポート
品詞タグ設定では、コンテキスト内の各単語の品詞を識別して、ラベル付けします。単語の品詞は、文法上の
カテゴリのことで、名詞や動詞などに分類され、名詞には単数形と複数形、動詞には現在形と過去形など、主
要なカテゴリそれぞれにサブクラス属性があります。
このソフトウェアのいくつかのモジュールでは、2 つのタイプの品詞タグの使用がサポートされます。これらのタ
グは、抽出ルール作成時にも使用できます。
•
アンブレラタグ - 主要な品詞を上位レベルで識別します。その全体機能より細かく品詞を分割しません。た
とえば Nn タグは、単数形もしくは複数形、女性形もしくは男性形などにかかわらず、すべての名詞を識別
します。
•
完全タグ - 属性とともに、品詞を精密に識別します。たとえば Nn-Pl タグは複数形の名詞を識別し、VPres-3-sg は現在形で、三人称単数の動詞を識別します。
各サポート言語のタグセットに関する詳細は、このガイドの 『言語モジュールリファレンス 』の該当言語の章を
参照してください。
3.6.1 タグ名の仕様
タグは、ハイフンで区切られた機能名で構成されます。最初の機能名を、カテゴリタグといいます。これは通常
は、単語の上位レベルの品詞を特定します。たとえば、名詞または動詞などで、それぞれ Nn と V に省略され
31
2012-06-14
言語分析サポート
ます。V/Adj や Det/Pron など、タグに複数の品詞が含まれる場合は、その品詞がどちらのカテゴリにもなる可
能性があることを示します。
機能タグは、単語をより正確に分類します。これらは、数 (複数形、単数形など)、人称 (一人称、二人称、三人
称など)、または時制 (現在形、過去形など) を示します。そのため、V-Pres-3-Sg タグは動詞が現在形で、三
人称の単数形であることを示します。
スペイン語タグ設定機能の Prep-para タグのように、機能がすべて小文字で表記される場合、その言語の単
語 (ここではスペイン語の para) を表し、その単語の分類がそのカテゴリのほかの単語とは大きく異なり、独自
の機能とみなされることを意味します。このように目立って特別な機能は、言語固有の表にリストされています。
各サポート言語のタグセットに関する詳細は、このガイドの 『言語モジュールリファレンス 』の該当言語の章を
参照してください。
3.6.2 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、関連する推測機能に渡され、最も適していると思われるタグ
が設定されます。推測機能は、任意の言語の形態構造に関するルールセットに基づいて、検出されなかった
単語にタグを設定します。大文字表記情報は多くの言語で、大文字表記された単語にも、固有名詞にも使用
されます。なお、アルファベット文字と数字の組み合わせ、およびこれらと任意の区切り記号の組み合わせは、
固有名詞とみなされます。序数は、コンテキストに応じて、名詞または形容詞のどちらかとしてタグ設定されま
す。インターネットおよび電子メールのアドレスには、Nn-Net というタグが設定されます。
アジアの言語では、検出されなかった単語に Nn タグがデフォルトで設定されます。
3.6.3 タグ付きステミング
タグ付きステミング操作では、品詞情報に関するステミングを含む、入力テキストの完全な言語分析を提供しま
す。この操作は、テキストを複数の単語と区切り記号にセグメンテーションし、ドキュメント分析、大文字小文字
の正規化、および品詞タグ設定を実行します。その後で、1 つの語とその品詞タグを指定して、その語のステミ
ングを実行します。たとえば、children[Nn-Pl] という語とタグの組み合わせの入力に対して、出力は child にな
ります。
3.6.4 単語の分割
単語の分割操作は、テキストを複数の単語と区切り記号にセグメンテーションし、ドキュメント分析、大文字小文
字の正規化、および品詞タグ設定を実行します。
32
2012-06-14
抽出サポート
抽出サポート
ここでは、構造化されていないテキスト分析時の、抽出の仕組みについて説明します。
4.1 エンティティとファクトの抽出
構造化されていないテキストからエンティティを抽出することで、テキストの対象 (人、組織、場所など、そのド
キュメントで述べられていること) が分かります。抽出プロセスには、テキストの処理と分析、関心のあるエンティ
ティの検出、それらへの適切なタイプの割り当て、およびこのメタデータの標準形式での表示があります。
抽出プロセスでは、特定の名前付きエンティティのリストを使用してエンティティを抽出できます。また、言語モ
デルを使用して新しいエンティティを発見できます。
エンティティは多くの場合、特定の個人、組織、場所の名前などの、固有の名称のことです。特定エンティティ
タイプは、他にも、貨幣額および日付などがあります。
各エンティティは、名前とタイプを組み合わせて定義されます。例:
•
カナダ/COUNTRY
•
Pope John Paul/PERSON
•
General Motors Corporation/ORGANIZATION/COMMERCIAL
エンティティタイプは、エンティティの定義において重要な役割を果たします。エンティティタイプは、ドキュメン
トから抽出されたエンティティ、および辞書に格納されているエンティティの分類に使用されます。
抽出プロセスでは、このメタデータが、ドキュメントにおけるエンティティの文字オフセットと長さなどの属性を伴っ
て、正規化された形式で表示されます。
このソフトウェアには、事前定義済みエンティティタイプの、豊富なセットがあります。必要に応じて、辞書および
抽出ルールを使用して、抽出プロセスを拡張できます。
辞書と抽出ルールの作成の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽
出カスタマイゼーションガイド 』を参照してください。
関連項目
• 34 ページの「 サブタイプ」
33
2012-06-14
抽出サポート
4.1.1 サブタイプ
サブタイプは、エンティティタイプのさらに詳細な分類を示します。これは、階層構造を持つ事項を特定化する
もので、同じエンティティタイプの中で、商業組織と教育組織などの別の語義を持つ種類を区別できます。
たとえば SAP は、ORGANIZATION タイプのエンティティの 1 つで、主要カテゴリ内のサブカテゴリの 1 つを
示す、COMMERCIAL サブタイプを持ちます。
この機能をサポートする各言語のサブタイプは、このガイドの該当言語のリファレンスの節で説明されています。
関連項目
• 33 ページの「エンティティとファクトの抽出」
4.2 抽出リソースファイル
抽出プロセスでは、言語モジュール、辞書、および抽出ルールファイルという、複数のタイプのリソースファイル
が使用されます。これらのファイルの一部は、ユーザが設定可能ですが、すべてがそうではありません。
次の表で、抽出プロセスが使用するリソースを簡単に説明します。
リソース
言語モジュール
説明
言語モジュールは、事前にパッケージ化された言語
固有ファイルのセットのことで、任意の自然言語にお
いて任意の操作をサポートする、辞書などのコンポー
ネントを含みます。辞書は、各サポート言語の広範囲
に及ぶ単語セットを持ちます。ユーザは設定できま
せん。抽出は、テキストの分析、エンティティの抽出、
およびそれらのタイプの決定を行うのに、言語モ
ジュールに依存します。
特定の言語モジュールとその動作の詳細について
は、このガイドの 『言語モジュールリファレンス 』節の
関連する章を参照してください。
辞書
34
辞書は、エンティティに関する情報 (標準形式、バリ
アント名、エンティティタイプなど) のリポジトリです。
辞書は、辞書のコンパイラツールを使用して、独自の
形式にコンパイルされます。
2012-06-14
抽出サポート
リソース
説明
抽出ルール
抽出ルールには、言語およびパターンベースのルー
ルが含まれます。このルールは、このソフトウェアに
含まれるもの、または、エンティティ間のリンク作成に
役立つようにユーザが正規表現パターンを使用して
記述できるものです。これにより、関係、イベント、お
よび属性をベースとするファクトを抽出できます。これ
らのルールは、抽出ルールコンパイラを使用してコン
パイルされます。
抽出ルールの記述と使用の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽
出カスタマイゼーションガイド 』を参照してください。
関連項目
• 45 ページの「言語モジュールリファレンス」
4.3 言語モジュールの抽出サポートレベル
言語モジュールには、テキスト分析時に複数言語のエンティティ抽出を実行するのに必要な、システム辞書お
よび設定ファイルが含まれます。すべての言語モジュールには、辞書および抽出ルールのサポートが含まれま
す。
言語モジュールは、言語分析およびサポートする抽出のレベルに応じて分類されます。次のサポートレベルが
あります:
35
•
英語 - すべての言語。英語は最も優れた機能セットです。英語は、さまざまな事前定義済みのエンティティ
タイプをサポートします。さらにこれらのエンティティタイプには、事前定義済みのエンティティサブタイプが
含まれます。また英語は、品詞タグ、辞書の使用、および抽出ルールをサポートし、文法的な関係と代名詞
の相互参照解決を目的とする、抽出ルール処理中の詳細解析機能の使用もサポートします。
•
詳細 - これらの言語は、さまざまな事前定義済みエンティティタイプ、辞書、および抽出ルールをサポート
します。詳細言語がサポートする抽出ルールは、構文ユニット、標準演算子、単語のステム、および品詞タ
グ属性を使用して記述し、単語、および名詞句や句などのさまざまな言語構造マーカーを指定します。詳
細言語は、次のものです:
•
アラビア語
•
簡体字中国語
•
ファルシ語
•
フランス語
2012-06-14
抽出サポート
•
•
36
•
ドイツ語
•
韓国語
•
ロシア語
•
スペイン語
標準 - これらの言語は、名詞句マーカー、辞書、および抽出ルールをサポートします。標準言語がサポー
トする抽出ルールは、トークン、標準演算子、単語のステム、および品詞タグ属性を使用して記述し、トーク
ンを指定します。標準言語は、次のものです:
•
カタロニア語
•
中国語: 繁体字
•
クロアチア語
•
チェコ語
•
デンマーク語
•
オランダ語
•
イタリア語
•
日本語
•
ノルウェー語: ブークモール語
•
ノルウェー語: ニーノシク語
•
ポルトガル語
•
セルビア語
•
スロバキア語
•
スロベニア語
•
スウェーデン語
基本 - これらの言語は、複合語トークン、単語のセグメンテーション、ステミングなどの言語分析機能のみ
をサポートします。名詞句はサポートされていません。基本言語は、次のものです:
•
ギリシャ語
•
ヘブライ語
•
ハンガリー語
•
ポーランド語
•
ルーマニア語
•
タイ語
•
トルコ語
2012-06-14
抽出サポート
辞書および抽出ルールの作成の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing
抽出カスタマイゼーションガイド 』を作成してください。
関連項目
• 31 ページの「品詞サポート」
4.4 事前定義済みエンティティタイプのサポート
エンティティタイプ NOUN_GROUP は、ギリシャ語、ヘブライ語、ハンガリー語、ポーランド語、ルーマニア語、
タイ語、トルコ語の基本言語モジュールを除く、すべての言語モジュールでサポートされます。NOUN_GROUP
は、2 語以上の関連する名詞または修飾語と名詞で構成され、名前、メジャー、または識別子で識別されない、
一連の普通名詞です。
4.4.1 名前付きエンティティ
次の表は、事前定義済みエンティティタイプをアルファベット順にリストし、これらをサポートする言語を示してい
ます。
注
追加の公共部門エンティティの一覧については、335 ページの 「 公共部門コンテンツ」を参照してください。
言語モジュール
エンティティタイプ
および
説明
ADDRESS1
住所
CONTINENT
大陸のいずれか
37
英語
ファル
シ語
[ファル
シゴ]
フラン
ス語
ドイツ語
○
○
○
○
○
○
○
○
○
アラビア
語[アラ
ビアゴ]
中国語
(簡体字)
○
○
韓国
語
ロシア
語
スペイン語
○
2012-06-14
抽出サポート
言語モジュール
エンティティタイプ
および
説明
COUNTRY
国の名前
英語
ファル
シ語
[ファル
シゴ]
フラン
ス語
ドイツ語
韓国
語
ロシア
語
スペイン語
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
アラビア
語[アラ
ビアゴ]
中国語
(簡体字)
○
CURRENCY
通貨、および通貨
表現
DATE
日付、および日付
表現
DAY
曜日
FACILITY
人工の構造物
○
GEO_AREA
市よりも大きく、通
常重要な地理上の
領域を指す、地理
上の領域
○
○
○
○
○
○
○
○
○
○
GEO_FEATURE
他の place/location
エンティティタイプ
に当てはまらない
地名
38
○
○
2012-06-14
抽出サポート
言語モジュール
エンティティタイプ
および
説明
HOLIDAY
休日および特例日
アラビア
語[アラ
ビアゴ]
中国語
(簡体字)
○
○
英語
ファル
シ語
[ファル
シゴ]
フラン
ス語
ドイツ語
○
○
○
○
○
○
○
○
韓国
語
ロシア
語
スペイン語
LANGUAGE
言語を参照する名
前
LOCALITY
市の名前
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
MEASURE
メジャー、およびメ
ジャー表現
MISC_NUMERIC
○
測定対象の単語が
続く、連続した数字
MONTH
月。省略形を含む
○
○
○
○
○
NIN
国民識別番号。カ
ナダの社会保険番
号、フランスの INSEE 番号を含む、
社会保障番号
39
○
○
2012-06-14
抽出サポート
言語モジュール
エンティティタイプ
および
説明
英語
ファル
シ語
[ファル
シゴ]
フラン
ス語
ドイツ語
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
アラビア
語[アラ
ビアゴ]
中国語
(簡体字)
○
韓国
語
ロシア
語
スペイン語
NOUN_GROUP
2 語以上の関連す
る名詞または修飾
語と名詞で構成さ
れ、名前、メ
ジャー、または識別
子で識別されない、
一連の普通名詞
○
ORGANIZATION
非営利の団体や組
織を含む、政府機
関、法律機関、また
はサービス機関
○
○
○
PEOPLE
国、民族、または地
域に基づく人々の
グループに関連す
る名前
PERCENT
パーセント
PERSON
個人の名前
PHONE
電話番号
40
2012-06-14
抽出サポート
言語モジュール
エンティティタイプ
および
説明
アラビア
語[アラ
ビアゴ]
中国語
(簡体字)
PRODUCT
製品名
ファル
シ語
[ファル
シゴ]
フラン
ス語
ドイツ語
○
○
○
○
○
○
英語
韓国
語
ロシア
語
スペイン語
○
PROP_MISC
一義的なタイプをも
たない、すべての
固有名詞
○
○
○
PUBLICATION
○
新聞、雑誌、機関
紙などの名前
REGION
国、県、地区などの
名前
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
SOCIAL_MEDIA
Twitter のハンドル
およびトピック
TICKER
株式市場のティッ
カーシンボル
TIME
時間、および時間
表現
41
○
○
○
○
○
○
○
2012-06-14
抽出サポート
言語モジュール
エンティティタイプ
および
説明
英語
ファル
シ語
[ファル
シゴ]
フラン
ス語
ドイツ語
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
アラビア
語[アラ
ビアゴ]
中国語
(簡体字)
○
韓国
語
ロシア
語
スペイン語
TIME_PERIOD
時間のメジャー表
現
○
TITLE
個人の参照にも使
用される肩書き
URI
電子メールアドレ
ス、URL など
YEAR
年、および年表現
○
注
* 右から左に記述する言語 (アラビア語、ファルシ語、ヘブライ語) のエンティティおよび抽出に関する情報は、
別の補足ガイド 『Right to Left Language Guide Reference Supplement 』に記載されています。
関連項目
• 45 ページの「言語モジュールリファレンス」
• 337 ページの「公共部門コンテンツエンティティ - 英語」
• 370 ページの「公共部門エンティティ - 簡体字中国語」
4.4.2 名詞の一般表記
次の表では、事前定義済みの名詞の一般表記をアルファベット順にリストし、これらをサポートする言語を示し
ています。
42
2012-06-14
抽出サポート
注
名詞の一般表記に関する概念情報については、131 ページの 「名詞の一般表記」を参照してください。追加の
公共部門エンティティの一覧については、335 ページの 「 公共部門コンテンツ」を参照してください。
エンティティタイプおよび説明
言語モジュール
アラビア語
COMMON_ADDRESS1
住所の一般名称
COMMON_CONTINENT
大陸の一般名称
簡体字中国語
○
英語
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
○
COMMON_COUNTRY
紛争中の領土や国際的に認知されていな
い領土などの、従来のラベルを適用できな
い、地政学的なエンティティに関する普通
名詞を含む、国の一般名称
COMMON_FACILITY
人工の構造物の一般名称
COMMON_GEO_AREA
地理的地域、地区、州、および地方の一般
名称
COMMON_GEO_FEATURE
地理的または政治的な地域ではない場所
の一般名称
COMMON_LOCALITY
市の一般名称
COMMON_ORGANIZATION
組織の一般名称
43
2012-06-14
抽出サポート
エンティティタイプおよび説明
言語モジュール
アラビア語
COMMON_PEOPLE
個人の一般名称
COMMON_REGION
国、県、地区などの一般名称
英語
○
人の一般名称
COMMON_PERSON
簡体字中国語
○
○
○
○
○
○
関連項目
• 45 ページの「言語モジュールリファレンス」
• 337 ページの「公共部門コンテンツエンティティ - 英語」
• 370 ページの「公共部門エンティティ - 簡体字中国語」
44
2012-06-14
言語モジュールリファレンス
言語モジュールリファレンス
言語モジュールリファレンスには、このソフトウェアがサポートする各言語モジュールのリファレンスの節がありま
す。この節には次の情報があります。
•
すべての言語操作に対して、言語モジュールが実行する動作
•
各言語でサポートされる事前定義済みエンティティタイプ、およびその例
•
各言語でサポートされる品詞のアンブレラタグと完全タグ、およびその例
5.1 カタロニア語言語リファレンス
この章では、カタロニア語言語モジュールの動作について説明します。
5.1.1 言語処理
ここでは、単語のセグメンテーション、ステミング、タグ設定など、カタロニア語テキストの処理における言語固有
の情報について説明します。
5.1.1.1 カタロニア語の文字エンコード
45
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
2012-06-14
言語モジュールリファレンス
5.1.1.2 カタロニア語の単語のセグメンテーション
カタロニア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従
います。言語固有の動作は次のとおりです。
pel などの短縮形は分離されません。m'han vist の m' のように、動詞に先行する省略されていた代名詞は動
詞から分離されます。短縮形 (posa'l の 'l) でも完全形 (posa-la の -la) でも、動詞の後の接語は分離されま
す。
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.1.1.3 カタロニア語のステミング
ここでは、カタロニア語のステミングで使用される、標準ステム機能と拡張屈折ステム機能について説明します。
5.1.1.3.1 標準ステム機能
カタロニア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主
な品詞 (オープンクラス) はその原形にステム処理されます。固有名詞はそのものにステム処理されます。指小
辞および最上級の末尾はオープンクラスから削除されます。次の表にこれを示します。
46
カテゴリ
原形
例
名詞
指小辞の付かない男性単数形
vedelleta ->vedell
固有名詞
そのものにステム処理される
Jordi -> Jordi
動詞
不定詞
considerava -> considerar
副詞
ソースの形式
bé -> bé, activament -> activament
代名詞
男性、主格形
me -> jo
2012-06-14
言語モジュールリファレンス
カタロニア語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されま
す。すべての人称代名詞では、数情報が保持されます。適用できる場合は、これらの代名詞は主格形にステ
ム処理されます。その他の形はすべて、男性単数形にステム処理されます。次の表にこれを示します。
テキスト
ステム
tothom
tothom
elles
ells
em
jo
aquestes
aquest
限定詞や序数のようなクローズドクラスの単語は、男性単数形にステム処理されます。屈折しない単語カテゴリ
はそのものにステム処理されます。たとえば、接続詞、基数、前置詞などです:
テキスト
ステム
mitges
mig
ni
ni
頭字語、省略形、および複合語構文ユニットはそのものにステム処理されます:
テキスト
ステム
IVA
IVA
tel.
tel.
davant de
davant de
短縮形は複数のコンポーネントパーツにステム処理されます:
47
2012-06-14
言語モジュールリファレンス
テキスト
ステム
pel
per=el
als
a=el
5.1.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。カタロニア語固有
のものを次に示します。
ハイフネーション
拡張バージョンでは、通常は強制的にハイフンが付く単語の、任意のハイフネーションを許容します。
例
出力
Chupa-Chups
Chupa-Chups
ChupaChups
Chupa-Chups
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Amics de la
Música など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。
48
例
出力
IRPF
IRPF
irpf
IRPF
amics
amic
Amics
amic
2012-06-14
言語モジュールリファレンス
アクセント記号なし文字
拡張バージョンでは、アクセント記号付き文字の他に、完全なアクセント記号なし文字を許容します。また、鋭
アクセントが付く単語 (é, ó) を同等の低アクセントが付く単語 (è, ò) に一致させ、低アクセントが付く単語を同
等の鋭アクセントが付く単語に一致させます。さらに、カタロニア語の場合、連続した l.l は l·l にマッピングされ
ます。
例
出力
nacio
nació
irlandés
irlandès
intel.ligent
intel·ligent
5.1.1.4 カタロニア語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、カタロニア語のタグセットを示します。各タグ名に、簡単
な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。
アンブレラタグ
完全タグ
説明
例
Abbr
Abbr
省略形
etc, Cia.
Adj
形容詞、数字の不変化部
分
alfin, antidroga
Adj-Ord-Pl
複数形、スペルアウトされ
た序数を表す形容詞
segons, primeres
Adj-Ord-Sg
単数形、スペルアウトされ
た序数を表す形容詞
primer, segon
Adj-Pl
複数形の形容詞
factibles
Adj-Sg
単数形の形容詞
absurd, calent, capaç
Adj
49
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Adv
副詞
ací, abans, gairebé,
fins
Adv-Deg
形容詞を修飾できる副詞
bastant, força, gaire,
massa, més, mig,
molt, poc, prou, tan,
tot
Adv-Int
疑問副詞
quan, on, a on, d'on,
com, per què
Adv-Rel
副詞的な関係節を示す語
quan, com, on
Aux-Inf-be
不定値 ser
ser
Aux-Inf-have
不定値 haver
haver
Aux-anar
助動詞 anar
vaig
Aux-be
助動詞 ser
serà
Aux-have
助動詞 haver
ha, han
Conj
接続詞
si, perquè, mentre
Conj-Coord
等位接続詞
i, o, ni
Conj-com
接続詞 com
com
Conj-que
接続詞 que
que
Adv
Aux
Conj
50
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Det
Interj
完全タグ
説明
例
Det-Def-Pl
複数形の冠詞
les, els
Det-Def-Sg
単数形の冠詞
el, la, l'
Det-Dem-Pl
複数形の指示限定詞
aqueixes
Det-Dem-Sg
単数形の指示限定詞
aquest, això
Det-Indef-Pl
複数形の不定限定詞また
は不定代名詞
gaires, molts, uns
Det-Indef-Sg
単数形の不定限定詞また
は不定代名詞
bastant, gaire, quant,
tant, molt, poc
Det-Int-Pl
複数形の疑問限定詞
quins
Det-Int-Sg
単数形の疑問限定詞
quin, quant
Det-Poss-Pl
複数形の所有限定詞
nostres, seues, llurs
Det-Poss-Sg
単数形の所有限定詞
teu, ma, llur
Det-Rel-Sg
単数形の関係限定詞
qual
Det-Rel-Pl
複数形の関係限定詞
quals
Interj
感嘆詞
ui!, eh?
Nn
名詞、数字の不変化部分
atles, albatros, focus
Nn-Net
URL または電子メールア
ドレス
www.inxight.com in
[email protected]
Nn-Pl
複数形の名詞
organitzacions, xarxes, casos, drets
Nn-Sg
単数形の名詞
manera, exemple
Num
数値表現、または基数
2001, milions, dos
Num-Ord
序数
1r, 2n, 3r, 4t, 5è
Part-Neg
否定の不変化詞 no
no
Nn
Num
Part
51
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Prep
Pron
Prop
52
完全タグ
説明
例
Prep
前置詞
amb, a causa de, darrera, en
Prep-Det-a
a と限定詞の組み合わせ
al, als
Prep-Det-de
de と限定詞の組み合わせ
del, dels, des del
Prep-Det-per
per と限定詞の組み合わ
せ
pel, pels
Prep-a
前置詞 a
a
Prep-de
前置詞 de
de, d'
Prep-per
前置詞 per
per
Pron
代名詞
jo, tu, ell, això
Pron-Adv
副詞的な代名詞
en, hi, n', -en
Pron-Clitic
接続代名詞
s', 'ns, -hi
Pron-Dem
指示代名詞
aquests
Pron-Indef
不定代名詞
moltes
Pron-Int
疑問代名詞および感嘆代
名詞
qui, què, quant,
quantes
Pron-Oblq
斜格の代名詞
en, ho, ell, em
Pron-Ord
序数代名詞
tercer
Pron-Poss
所有代名詞
el meu, la seva
Pron-Rel
関係代名詞
que, qui, què, qual
Pron-es
es 代名詞
es, se, s', -s
Prop
固有名詞、またはアルファ
ベット、数字の組み合わせ
Europa, FAO/OMS
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Punct
完全タグ
説明
例
Punct
その他の区切り記号
:;"'{&/
Punct-Close
閉じかっこ
)
Punct-Comma
コンマ
,
Punct-Open
開きかっこ
(
Punct-Sent
文末の区切り記号
.!?
V-Fin
定形動詞
reclamen, reconeix,
passa, va
V-Impv
命令形の動詞
satisfacin, tracta
V-Inf
不定詞の動詞
arribar, mantenir, buscar
V-PrPart
現在分詞の動詞
creant, essent, donant
V/Adj-PaPart-Pl
複数過去分詞の動詞また
は形容詞
elegits, encaminades
V/Adj-PaPart-Sg
単数過去分詞の動詞また
は形容詞
fet, assenyalat, mancada
V
5.1.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、カタロニア語の推測機能に渡されます。この機能では、これ
らの単語に、カタロニア語の形態構造および大文字表記に関するルールセットに基づくタグが設定されます。
次のタグ設定ルールセットは、このモジュールの一部です。
動詞のタグは動詞の活用形に従って設定されます。インターネットアドレスおよび電子メールアドレスには、NnNet としてタグ設定されます。
大文字ではじまる単語、または数字ではじまり大文字が続く単語は、固有名詞とみなされます。アルファベット
文字と数字の組み合わせ、およびこれらと任意の区切り記号の組み合わせも、固有名詞とみなされます。数字
と区切り記号の組み合わせは、数字としてタグ設定されます。連続した区切り記号マークは、区切り記号として
タグ設定されます。
5.1.1.5 カタロニア語のグループ化
53
2012-06-14
言語モジュールリファレンス
カタロニア語の単純名詞句は、必要に応じて前置修飾語および後置修飾語をともなう名詞のことです。pre前置修飾語は 1 つ以上の形容詞のことです。例:
•
gran cilindrada
•
nombrosos i ambiciosos projectes
後置修飾語は、形容詞、名詞、または de と別の名詞句の形式で構成される前置詞句のことです。
•
turisme responsable
•
ciutat dormitori
•
propostes de consultes populars
•
multinacionals del Nord
固有名詞は普通名詞と同じようにグループ化されます:
•
antiga Iugoslàvia
•
illes Balears
•
Europa del nord
•
Estatuts d' Autonomia
5.1.2 抽出
ここでは、カタロニア語の抽出固有の情報について説明します。
5.1.2.1 事前定義済みエンティティタイプ
ここでは、カタロニア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい
て説明します。
5.1.2.1.1 NOUN_GROUP
カタロニア語の単純名詞句は、必要に応じて前置修飾語および後置修飾語で修飾された、名詞または連続し
た名詞のことです。前置修飾語は、形容詞または連続した等位形容詞であることがあります。例:
54
•
pura casualitat
•
nombrosos i ambiciosos projectes
2012-06-14
言語モジュールリファレンス
後置修飾語は、形容詞または前置詞 'de' ではじまる前置詞句であることがあります:
•
gent impuntual
•
eqip del ministeri
5.2 簡体字中国語言語リファレンス
この章では、簡体字中国語言語モジュールの動作について説明します。
5.2.1 言語処理
ここでは、単語のセグメンテーション、ステミング、タグ設定など、簡体字中国語テキストの言語処理における言
語固有の情報について説明します。
5.2.1.1 簡体字中国語の文字エンコード
•
euc_cn
•
gb_18030、gb_2312_80
•
utf_8、utf_16、ucs_4
5.2.1.2 中国語の単語のセグメンテーション
中国語のセグメンテーション機能は、非スペース言語のすべての一般的なセグメンテーションルールに従いま
す。言語固有の動作は次のとおりです。
接辞などの拘束形態素は、内容語に結合されます。また、類別詞は先行する数字に結合されます。次の例の
簡体字中国語では、多媒体の多が接頭辞、三台の台が分類詞です。
55
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
市
市
部
部
得
得
多媒体
多媒体
三台
三台
ハイフンで接続された語は別々のパーツにセグメンテーションされます。例:
テキスト
セグメンテーション後
北京
北京-
京
-
京
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.2.1.3 中国語のステミング
ここでは、中国語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.2.1.3.1 標準ステム機能
中国語の単語は屈折しないので、すべての単語のステムは、ソースの形式とまったく同じです。クローズドクラ
スの単語だけでなく、次の表に示すオープンクラスの単語も同様です。
56
2012-06-14
言語モジュールリファレンス
カテゴリ
原形
例
名詞
ソースの形式
政府 -> 政府, 学生 -> 学生
動詞
ソースの形式
负责 -> 负责, 保留 -> 保留
形容詞
ソースの形式
小 -> 小, 必须 -> 必须
副詞
ソースの形式
非常 -> 非常
5.2.1.3.2 拡張ステム機能
拡張中国語言語モジュールでは、セグメンテーションとステミングの結果を、標準モジュールより詳細なものに
することができます。その出力は、テキストのインデックス化と検索システム向きに最適化されています。拡張モ
ジュールの出力は標準ステム機能と異なり、類別詞を数字から、接頭辞および接尾辞を主要語から分離して、
複合語分析を実行します。
次に例を示します。
類別詞は数詞から分離されます:
テキスト
出力
一
一本
本
接頭辞および接尾辞は、主要語から分離されます:
テキスト
出力
女
女教
教
小
小
展
展部
部
57
2012-06-14
言語モジュールリファレンス
複合語は別々のコンポーネントに分割されます:
テキスト
出力
布
斯
峡谷
布
斯峡谷国家公园
国家
公园
彩色
彩色
定系
定
系
拡張バリアントは、標準中国語モジュールとすべて同じ操作をサポートします。ただし、詳細出力ではそれぞれ
の語の文脈上の情報が少なく、この多義性によってタグ設定操作の精度が上げられています。これらの操作
については、標準中国語モジュールを使用することをお勧めします。拡張バリアントは、ステミングを目的する
場合にのみ推奨されています。
5.2.1.4 中国語の品詞タグ設定
次の表に中国語のタグセットを示します。タグセットは、繁体字中国語および簡体字中国語で同一です。各タ
グ名に、簡単な説明と 1 つ以上の例を示します。簡体字中国語の例は、GB エンコード形式です。
アンブレラタグ
完全タグ
説明
簡体字中国語の例 (GB)
Adj
Adj
形容詞
一流,大型
Adv
副詞
仅仅,非常
Adv-BAN
比喩標識
般,似的
Adv-Comp
比較級の副詞
最
Adv-DENG
名詞の後ろに付く省略形
等
Adv-Idiom
慣用表現
寸草春晖,游人止步
Asp
動詞の後ろに付く、相標
識
了,过,着
Adv
Asp
58
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
簡体字中国語の例 (GB)
Aux
Aux
助動詞
应当,能
Cl
Cl
類別詞
张,副
Conj
節形式の接続語
不论,即使
Conj-Nn
名詞形式の接続語
及,和
Det
Det
限定詞
这,每,任何
Interj
Interj
感嘆詞
哇,喂
Nn
普通名詞
东西,菜单,椅子
Nn-Ascii
ASCII 文字の名詞
a, B
Nn-Loc
所格名詞
上,以内,之中
Nn-Net
URL または電子メールア
ドレス
www.inxight.com
Nn-Prop
固有名詞
香港,叶尔钦
Nn-Time
名詞語句の時間表現
今天, 周一, 上半年, 下
午
Num
Num
Number
万,3,5
Ord
Ord
順番を表す接頭辞
第
Part
Part
文末の不変化詞
吧, 吗
Prep
前置詞
根据,以,由
Prep-Assoc
修飾標識
的
Prep-Assoc-ZHI
名詞の修飾標識
之
Prep-Assoc-DI
動詞の修飾標識
地
Prep-Assoc-DEI
修飾標識
得
Pron
代名詞
她,我,你
Conj
Nn
Prep
Pron
59
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
簡体字中国語の例 (GB)
Punct
区切り記号
..., –, ;, :
Punct-Comma
コンマ
,
Punct-Open
開く区切り記号
(, {, 【
Punct-Close
閉じる区切り記号
), }, 】
Punct-Sent
文末の区切り記号
。
Quant
Quant
数量詞
整个,众多
Verb
Verb
動詞
走,下雨,负责
Punct
5.2.2 抽出
ここでは、簡体字中国語の抽出固有の情報について説明します。
5.2.2.1 簡体字中国語のサブタイプ
簡体字中国語がサポートするサブタイプのタイプは、FACILITY、GEO_AREA、GEO_FEATURE、ORGANIZA
TION、PEOPLE、REGION、URI、COMMON_FACILITY、COMMON_GEO_AREA、COMMON_GEO_FEATURE、
COMMON_ORGANIZATION、COMMON_PEOPLE、および COMMON_PERSON です。
関連項目
• 34 ページの「 サブタイプ」
5.2.2.2 事前定義済みエンティティタイプ
ここでは、簡体字中国語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につ
いて説明します。次の各リンクをクリックすると、そのセクションに移動できます。61 ページの 「ADDRESS1」、
61 ページの 「CONTINENT」、61 ページの 「COUNTRY」、61 ページの 「CURRENCY」、62 ページの
「DATE」、62 ページの 「DAY」、62 ページの 「FACILITY」、63 ページの 「GEO_AREA」、63 ページの
60
2012-06-14
言語モジュールリファレンス
「GEO_FEATURE」、64 ページの 「HOLIDAY」、64 ページの 「LOCALITY」、64 ページの 「MEASURE」、
64 ページの 「MISC_NUMERIC」、64 ページの 「MONTH」、64 ページの 「NOUN_GROUP」、65 ページの
「ORGANIZATION」、66 ページの 「PEOPLE」、66 ページの 「PERCENT」、66 ページの 「PERSON」、67
ページの 「PHONE」、67 ページの 「PROP_MISC」、67 ページの 「REGION」、67 ページの 「TIME」、67 ペー
ジの 「TIME_PERIOD」、68 ページの 「TITLE」、68 ページの 「URI」、および 68 ページの 「YEAR」。
注
簡体字中国語言語モジュールは、VEHICLE、WEAPON、COMMON_VEHICLE、および COMMON_WEAPON
の各種公共部門エンティティも抽出します。
これらの公共部門エンティティの詳細については、370 ページの 「公共部門エンティティ - 簡体字中国語」を
参照してください。
5.2.2.2.1 ADDRESS1
郵送先:
•
北京市朝阳区建国
外大街甲12号新
•
上海市静安区南京西路1266号恒隆广
•
北京市朝阳区工体北路甲二号
保
大厦7
701室(100022)
23楼2302-2304室(200041)
5.2.2.2.2 CONTINENT
大陸のいずれか。例:
•
洲
•
欧洲
•
南美洲
5.2.2.2.3 COUNTRY
国の名前、および従来のラベルを適用できない地政学的なエンティティの名前。以下はその例です。
•
中国
•
美国
•
英国
•
巴勒斯坦
•
台湾
5.2.2.2.4 CURRENCY
金額を表す表現:
61
•
33.8万元
•
港
五千万
2012-06-14
言語モジュールリファレンス
•
一百四十四
七千万美元
5.2.2.2.5 DATE
日付は最低でも 1 つの数字と月の名前で構成されます:
•
7月2日
•
十月十七日
5.2.2.2.6 DAY
曜日の名前:
•
周一
•
周六
5.2.2.2.7 FACILITY
人工の構造物。次のサブタイプのいずれかとして抽出されます。
•
•
•
AIRPORT– 主に輸送ターミナルとして使用される、主として人工または維持対象の構造物の名前。以下は
その例です。
• 首都国 机
•
浦
国
•
中正机
BUILDGROUNDS– 建築的な土木構造物の名前、および主として人工または維持対象の戸外空間の名
前。機能に関する区別はされません。民間施設、軍用施設のどちらでもありえます。業務、娯楽のどちらの
用途でも使用される可能性があり、記念建造物である可能性もあります。以下はその例です。
•
人民公园
•
黄
•
克林姆林
楼
PATH– 流動体、エネルギー、人、動物、または車両を、ある場所から別の場所に移動できる、主として人
工または維持対象の構造物の名前。以下はその例です。
•
•
62
机
沟
•
重
南路
•
王府井大街
PLANT– 工業目的で使用される、1 つ以上の建物で構成される施設の名前。以下はその例です。
•
三峡工程
•
切
利核
站
2012-06-14
言語モジュールリファレンス
•
•
小浪底水
SUBAREA– 人、動物、または物を収容できる、施設の一部の名前。通常は建築上のもの。例:
•
大雄宝殿
•
形
公室
5.2.2.2.8 GEO_AREA
大陸や国の集団など、重要な土地の集合体を指す、市よりも大きい地理的な領域。次のうちいずれかのサブ
タイプとして抽出されます。
•
•
DOMESTIC– 国境を越えない場所の名前。例:
•
南
•
巴蜀
•
杭嘉湖
INTL– 国境をまたがる場所の名前。例:
•
大中
地区
•
加勒比地区
•
加沙地
5.2.2.2.9 GEO_FEATURE
次のサブタイプのいずれかとして抽出される場所の名前:
•
•
•
•
BOUNDARY– 境界線などの場所の名前。例:
•
南北回
•
赤道
CELESTIAL– 地球の境界線の外側にある場所の名前。次はその例です。
•
地球
•
冥王星
•
北斗七星
LAND– 地質学的または生態学的に形成された、人工のものではない場所の名前。例:
•
峨眉山
•
崇明
•
珠江三角洲
WATER– 水域である場所の名前。例:
•
63
黄河
2012-06-14
言語モジュールリファレンス
•
江
•
西湖
•
日月潭
5.2.2.2.10 HOLIDAY
休日および特例日:
•
元宵
•
中秋
5.2.2.2.11 LOCALITY
市の名前:
•
北京
•
上海
•
州市
5.2.2.2.12 MEASURE
メジャー表現:
•
二百五十六公斤
•
5.5米
5.2.2.2.13 MISC_NUMERIC
主要な測定単位ではなく測定対象の単語、または名詞が続く連続した数字:
•
八个
•
8000 多家
5.2.2.2.14 MONTH
暦の月の名前:
•
6月份
•
八月
5.2.2.2.15 NOUN_GROUP
名詞群は、修飾する形容詞を持つ単純名詞または複合語であることがあります:
64
2012-06-14
言語モジュールリファレンス
•
新
•
高科技
品
5.2.2.2.16 ORGANIZATION
非営利団体、美術グループなどの団体や組織を含む、政府機関、法律機関、サービス機関。次のうちいずれ
かのサブタイプとして抽出されます。
•
COMMERCIAL– 主要な企業や法人などの営利組織の名前。例:
•
美洲
行
•
花旗集
•
首
•
白云山制
股份
股份有限公司
注
抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ
ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。
•
•
•
•
EDUCATIONAL– 主に教育を目的とする機関の名前。例:
•
交通大学
•
清
•
浙大
ENTERTAINMENT– 主に娯楽を目的とする組織の名前。例:
•
中央芭蕾舞
•
上海交响
•
月之海合唱
GOVERNMENT– 行政、政策、または国家に関連する組織の名前。政治的なエンティティとして機能するこ
とが可能な地政学的なエンティティも含まれます。例:
•
国
•
海
•
水利部
•
欧盟
•
独
署
体
MEDIA– マスメディア、広告、または出版を目的とする組織の名前。以下はその例です。
•
•
•
65
院
新
社
代周刊
人民日
2012-06-14
言語モジュールリファレンス
•
•
•
•
MEDICALSCIENCE– 医療または研究を目的とする組織の名前。例:
•
国家科学院
•
中国科
•
中科院
RELIGIOUS– 宗教を目的とする組織の名前。例:
•
佛教
•
基督教
•
天主教
SPORTS– スポーツを目的とする組織の名前。例:
•
国家奥委会
•
足球
•
国
会
米
部
OTHER– 特定のサブタイプに適合しないすべての組織。
•
中国共
•
合国
•
全国
党
工会
5.2.2.2.17 PEOPLE
次のサブタイプとして抽出される人々のグループ。
• NATIONALITY- 国籍に基づく人々の特定可能なグループ。
•
中国人
•
美国人民
5.2.2.2.18 PERCENT
パーセント表現:
•
百分之五十
•
55.3%
5.2.2.2.19 PERSON
個人の名前のバリエーション:
66
•
胡
•
毛
涛
2012-06-14
言語モジュールリファレンス
•
温家宝
5.2.2.2.20 PHONE
中国形式の電話番号:
•
68316616
5.2.2.2.21 PROP_MISC
他のエンティティで特定されるエンティティタイプのいずれにも属さない、すべての固有名詞句:
•
抗日
争
•
八国集
•
文化大革命
首
会
5.2.2.2.22 REGION
さまざまな地域は、次のサブタイプのいずれかとして抽出されます:
•
MAJOR– 国、県、地区の名前、または類似の区画や行政機関。以下はその例です。
• 海淀区
•
•
•
家嘴
花
MINOR– カナダの州や準州、フランスの行政区、米国の州などの国の主要な行政区分。以下はその例で
す。
• 江 省
•
新疆
吾
•
加利福尼
族自治区
5.2.2.2.23 TIME
時刻、および時間表現:
•
8
•
3点零5分
5.2.2.2.24 TIME_PERIOD
時間間隔のメジャー:
67
•
两个月
•
1小
2012-06-14
言語モジュールリファレンス
•
五天
5.2.2.2.25 TITLE
政府機関、企業などの組織で重要な地位の名前:
•
主席
•
司法部
•
5.2.2.2.26 URI
インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます:
•
•
EMAIL– 電子メールアドレス。例:
•
[email protected][email protected]
IP– IP アドレス。例:
•
•
147.132.42.18
URL– インターネットアドレス。例:
•
www.businessobjects.com
•
http://www.google.com
5.2.2.2.27 YEAR
年の識別子、および年に基づく表現:
•
2005年
•
一九九四年
5.2.2.3 名詞の一般表記
名詞の一般表記は、通常は固有名詞によって参照されることになる、組織、個人、施設などのエンティティを参
照するための、普通名詞の使用を参照します。
ここでは、簡体字中国語言語モジュールがサポートする名詞の一般表記と、それらの例について説明します。
次の各リンクをクリックすると、そのセクションに移動できます。69 ページの 「COMMON_CONTINENT」、69
ページの 「COMMON_COUNTRY」、69 ページの 「COMMON_FACILITY」、70 ページの 「COM
MON_GEO_AREA」、70 ページの 「COMMON_GEO_FEATURE」、71 ページの 「COMMON_LOCALITY」、
68
2012-06-14
言語モジュールリファレンス
71 ページの 「COMMON_ORGANIZATION」、72 ページの 「COMMON_PEOPLE」、72 ページの 「COM
MON_PERSON」、および 73 ページの 「COMMON_REGION」。
5.2.2.3.1 COMMON_CONTINENT
任意の大陸の全体に関する普通名詞:
•
大洲
5.2.2.3.2 COMMON_COUNTRY
国や政治的な地域に関する普通名詞:
•
王国
•
成
•
友邦
•
两岸三地
国
5.2.2.3.3 COMMON_FACILITY
人工の構造物に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
•
•
•
AIRPORT– 主に空輸ターミナルとして使用される、主として人工または維持対象の構造物に関する普通名
詞。例:
•
机
•
空港
•
候机大楼
BUILDGROUNDS– 建築的な土木構造物の名前、および主として人工または維持対象の戸外の空間に関
する普通名詞。機能に関する区別はされません。民間施設、軍用施設のどちらでもありえます。業務、娯楽
のどちらの用途でも使用される可能性があり、記念建造物である可能性もあります。例:
•
大
•
建筑物
•
停
PATH– 流動体、エネルギー、人、動物、または車両を、ある場所から別の場所に移動できる、主として人
工または維持対象の構造物に関する普通名詞。例:
•
高速
•
柏油路
•
天
路
PLANT– 工業用の目的で使用される、1 つ以上の建物で構成される施設に関する普通名詞。例:
•
69
院
水
站
2012-06-14
言語モジュールリファレンス
•
•
厂
•
水利枢
SUBAREA– 通常は建築上のもので、人、動物、または物を収容できる、施設の一部に関する普通名詞。
例:
•
盥洗室
•
房
•
育
房
5.2.2.3.4 COMMON_GEO_AREA
地理的地域に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
•
DOMESTIC– 国境を越えない場所に関する普通名詞:
•
区
•
国内
•
非
事区
INTL– 国境をまたぐ場所に関する普通名詞:
•
国
•
国内外
5.2.2.3.5 COMMON_GEO_FEATURE
地理的または行政的な地域ではない場所に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
•
•
•
70
BOUNDARY– 境界線などの場所に関する普通名詞:
•
国界
•
境
CELESTIAL– 地球の外側の場所に関する普通名詞:
•
小行星
•
星系
•
星球
LAND– 地質学的または生態学的に形成された、人工のものではない場所に関する普通名詞:
•
平原
•
群
•
戈壁
WATER– 水域に関する普通名詞。
2012-06-14
言語モジュールリファレンス
•
江
•
河
•
湖
•
海
5.2.2.3.6 COMMON_LOCALITY
市に関する普通名詞:
•
全市
•
小
•
省会
5.2.2.3.7 COMMON_ORGANIZATION
組織に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
COMMERCIAL– 会社に関する普通名詞:
•
公司
•
集
•
•
•
•
行
EDUCATIONAL– 教育を目的とする機関に関する普通名詞:
•
学院
•
高校
•
母校
ENTERTAINMENT– 娯楽を目的とする機関に関する普通名詞:
•
弦
•
•
•
文工
GOVERNMENT– 行政、政策、または国家に関連する機関に関する普通名詞:
•
•
•
机
•
法院
MEDIA– マスメディアに関連する機関に関する普通名詞:
•
71
媒
2012-06-14
言語モジュールリファレンス
•
台
•
•
社
MEDICALSCIENCE– 医学に関連する機関に関する普通名詞:
•
研究所
•
•
•
•
合医院
OTHER– 特定のサブタイプに適合しない組織に関する普通名詞:
•
会
•
理事会
•
合会
RELIGIOUS– 宗教に関連する機関に関する普通名詞:
•
教宗
•
主教
•
教会
SPORTS– スポーツに関連する機関に関する普通名詞:
•
球
•
羽毛球
•
运
合会
5.2.2.3.8 COMMON_PEOPLE
人に関する普通名詞。次のサブタイプとして抽出されます:
•
NATIONALITY– 修飾語を持たない国民:
•
人民
5.2.2.3.9 COMMON_PERSON
個人に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
•
GROUP– 個人のグループに関する普通名詞:
•
股民
•
小两口
•
中青年
INDIVIDUAL– 個人に関する普通名詞:
•
72
老大
2012-06-14
言語モジュールリファレンス
•
父
•
演
5.2.2.3.10 COMMON_REGION
さまざまな地域に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
• MAJOR - 国の主要な行政区分に関する普通名詞。例:
•
•
省份
•
自治区
MINOR - 行政区の全体に関する普通名詞。例:
•
郡
•
•
区
5.3 繁体字中国語言語リファレンス
この章では、繁体字中国語言語モジュールの動作について説明します。
5.3.1 言語処理
ここでは、単語のセグメンテーション、ステミング、タグ設定など、繁体字中国語テキストの言語処理における言
語固有の情報について説明します。
注
繁体字中国語と簡体字中国語で使用される言語処理アルゴリズムは同じであるため、言及しない限り、ここに
ある例はすべて簡体字中国語です。繁体字中国語では、文字エンコードのみ異なります。
5.3.1.1 繁体字中国語の文字エンコード
73
•
big5
•
utf_8、utf_16、ucs_4
2012-06-14
言語モジュールリファレンス
5.3.1.2 中国語の単語のセグメンテーション
中国語のセグメンテーション機能は、非スペース言語のすべての一般的なセグメンテーションルールに従いま
す。言語固有の動作は次のとおりです。
接辞などの拘束形態素は、内容語に結合されます。また、類別詞は先行する数字に結合されます。次の例の
簡体字中国語では、多媒体の多が接頭辞、三台の台が分類詞です。
テキスト
セグメンテーション後
市
市
部
部
得
得
多媒体
多媒体
三台
三台
ハイフンで接続された語は別々のパーツにセグメンテーションされます。例:
テキスト
セグメンテーション後
北京
北京-
京
-
京
74
2012-06-14
言語モジュールリファレンス
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.3.1.3 中国語のステミング
ここでは、中国語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.3.1.3.1 標準ステム機能
中国語の単語は屈折しないので、すべての単語のステムは、ソースの形式とまったく同じです。クローズドクラ
スの単語だけでなく、次の表に示すオープンクラスの単語も同様です。
カテゴリ
原形
例
名詞
ソースの形式
政府 -> 政府, 学生 -> 学生
動詞
ソースの形式
负责 -> 负责, 保留 -> 保留
形容詞
ソースの形式
小 -> 小, 必须 -> 必须
副詞
ソースの形式
非常 -> 非常
5.3.1.3.2 拡張ステム機能
拡張中国語言語モジュールでは、セグメンテーションとステミングの結果を、標準モジュールより詳細なものに
することができます。その出力は、テキストのインデックス化と検索システム向きに最適化されています。拡張モ
ジュールの出力は標準ステム機能と異なり、類別詞を数字から、接頭辞および接尾辞を主要語から分離して、
複合語分析を実行します。
次に例を示します。
類別詞は数詞から分離されます:
75
2012-06-14
言語モジュールリファレンス
テキスト
出力
一
一本
本
接頭辞および接尾辞は、主要語から分離されます:
テキスト
出力
女
女教
教
小
小
展
展部
部
複合語は別々のコンポーネントに分割されます:
テキスト
出力
布
斯
峡谷
布
斯峡谷国家公园
国家
公园
76
2012-06-14
言語モジュールリファレンス
テキスト
出力
彩色
彩色
定系
定
系
拡張バリアントは、標準中国語モジュールとすべて同じ操作をサポートします。ただし、詳細出力ではそれぞれ
の語の文脈上の情報が少なく、この多義性によってタグ設定の精度が上げられています。これらの操作につい
ては、標準中国語モジュールを使用することをお勧めします。拡張バリアントは、ステミングを目的する場合に
のみ推奨されています。
5.3.1.4 中国語の品詞タグ設定
次の表に中国語のタグセットを示します。タグセットは、繁体字中国語および簡体字中国語で同一です。各タ
グ名に、簡単な説明と 1 つ以上の例を示します。繁体字中国語の例は、Big5 エンコード形式です。
アンブレラタグ
完全タグ
説明
繁体字中国語の例 (Big5)
Adj
Adj
非叙述形容詞
一流,大型
Adv
副詞
僅僅,非常
Adv-BAN
比喩標識
般,似的
Adv-Comp
比較級の副詞
最
Adv-DENG
名詞の後ろに付く省略形
等
Adv-Idiom
慣用表現
寸草春暉,游人止步
Asp
Asp
動詞の後ろに付く、相標
識
了,過,著
Aux
Aux
助動詞
應當,能
Cl
Cl
類別詞
張,副
Conj
節形式の接続語
不論,即使
Conj-Nn
名詞形式の接続語
及,和
Adv
Conj
77
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
繁体字中国語の例 (Big5)
Det
Det
限定詞
這,每,任何
Interj
Interj
感嘆詞
哇,喂
Nn
普通名詞
東西,菜單,椅子
Nn-Ascii
ASCII 文字の名詞
a, B
Nn-Loc
処格の名詞
上,以內,之中
Nn-Net
URL または電子メール
アドレス
www.inxight.com
Nn-Prop
固有名詞
香港,葉爾欽
Nn-Time
名詞語句の時間表現
今天, 周一, 上半年 下
午
Num
Num
数値
萬、3、5
Ord
Ord
序数
第
Part
Part
文末の不変化詞
吧, 矣
Prep
前置詞
根據,以,由
Prep-Assoc
修飾標識
的
Prep-Assoc-ZHI
名詞の修飾標識
之
Prep-Assoc-DI
動詞の修飾標識
地
Prep-Assoc-DEI
修飾標識
得
Pron
代名詞
她,我,你
Punct
区切り記号
..., –, ;, :
Punct-Comma
コンマ
,
Punct-Open
開く区切り記号
(, {, 【
Punct-Close
閉じる区切り記号
), }, 】
Punct-Sent
文末の区切り記号
。
Quant
Quant
数量詞
整個,眾多
Verb
Verb
動詞
走,下雨,負責
Nn
Prep
Pron
Punct
78
2012-06-14
言語モジュールリファレンス
5.3.2 抽出
ここでは、繁体字中国語の抽出固有の情報について説明します。
5.3.2.1 事前定義済みエンティティタイプ
ここでは、繁体字中国語言語モジュールがサポートする事前定義済みエンティティタイプと、例について説明
します。
5.3.2.1.1 NOUN_GROUP
中国語の名詞群は 1 つ以上の名詞で構成されますが、次のように複数の名詞を含むことがあります:
•
主細胞
•
國際勞工組織
5.4 クロアチア語言語リファレンス
この章では、クロアチア語言語モジュールの動作について説明します。
5.4.1 言語処理
ここでは、単語のセグメンテーション、ステミング、タグ設定など、クロアチア語テキストの言語処理における言語
固有の情報について説明します。
5.4.1.1 クロアチア語の文字エンコード
•
79
iso_8859_2
2012-06-14
言語モジュールリファレンス
•
cp_1250
•
utf_8、utf_16、ucs_4
5.4.1.2 クロアチア語のステミング
ここでは、クロアチア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.4.1.2.1 標準ステム機能
標準のクロアチア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つ
まり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名
詞のようなクローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
例
名詞
vojske -> vojska , ljudi -> èovjek , mjesta -> mjesto
動詞
udovoljava -> udovoljavati , ponude -> ponuditi ,
komentirao -> komentirati
形容詞
srbijansku -> srbijanski , spremni -> spreman ,
izborni -> izboran
副詞
kako -> kako , sada -> sada , opet -> opet
5.4.1.2.2 拡張ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。クロアチア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され
ていない固有名詞がこれに含まれます。
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Splet Svjetskih
Mreža など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。
80
2012-06-14
言語モジュールリファレンス
例
出力
Hrvata
Hrvat
hrvata
Hrvat
Plovka
plovka
plovka
plovka
Splet
splet
splet
splet
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
例
出力
bajaèica
bajaèica
bajacica
bajaèica
5.4.1.3 クロアチア語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、クロアチア語のタグセットを示します。各タグ名に、簡単
な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。
81
アンブレラタグ
完全タグ
説明
例
Abbr
Abbr
省略形
HDZ, RH
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Adj
形容詞の絶対格
dobar, velik
Adj-Comp
形容詞の比較級
bolji, veći
Adj-Sup
形容詞の最上級
najbolji, najveći
Adv
副詞の絶対格
brzo, mnogo
Adv-Comp
副詞の比較級
brže, više
Adv-Sup
副詞の最上級
najbrže, najviše
Conj-Co
等位接続詞
a, i
Conj-Sub
従属接続詞
jer, da
Enum
Enum
列挙
etc.
Interj
Interj
感嘆詞
hej, jao
Nn-Acc
名詞の対格
žene, profesori
Nn-Case
主格および対格以外の
名詞の格
ženama, profesorom
Nn-Nom
名詞の主格
žene, profesor
Num
数詞
dvanaest, sedamdeset
Num-Acc
数詞の対格
jednu, jednog
Num-Card
基数詞
tri, četiri
Num-Case
主格および対格以外の
数詞の格
jednom, dvama
Num-Nom
数詞の主格
jedan, dva
Num-Ord
序数詞
prvi, drugi
Prep
前置詞
za, na, u
Pron
代名詞
obje, vas, ovi, moji, koja
Pron-Pers
人称代名詞
ja, ti
Pron-Poss
所有代名詞
tvoji, naši
Pron-Ref
再帰代名詞
se
Adj
Adv
Conj
Nn
Num
Prep
Pron
82
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Prop
Prop
固有名詞
Zagreb
Punct
区切り記号
.:;-
Punct-Close
閉じる区切り記号
)
Punct-Comma
コンマの区切り記号
,
Punct-Open
開く区切り記号
(
Punct-Sent
文の区切り記号
.!?
V-Aux-Clit
接続助動詞
je, sam
V-Fin
動詞の定形
radimo, nose, nosi
V-Inf
動詞の不定詞
raditi, nosi
V-Part
動詞の分詞
misleći, uzimajući,
nosili, nosio
Punct
V
5.4.1.4 クロアチア語のグループ化
クロアチア語の単純名詞句は、velika soba, soba na katu, nepoznat netko など、名詞または名詞的な代名
詞と、必要に応じて形容詞的指示詞、および必要に応じて名詞的な補部と前置詞補部で構成されます。
指示詞は、形容詞、形容詞的代名詞、形容詞的数詞、またはこれらの連続です。
•
veliki stol, moj stol, moj prvi stol, moj veliki stol
補語には、名詞、または前置詞と (修飾された) 名詞の組み合わせを含めることができます。
•
buka motora
•
rad na crno
すべての前置詞は PP 補語として使用できます。
•
83
put u Pariz, stepenice na terasu, pasta za zube
2012-06-14
言語モジュールリファレンス
5.4.2 抽出
ここでは、クロアチア語の抽出固有の情報について説明します。
5.4.2.1 事前定義済みエンティティタイプ
ここでは、クロアチア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい
て説明します。
5.4.2.1.1 NOUN_GROUP
クロアチア語の名詞群は、必要に応じて前置修飾語をともなう 1 つ以上の名詞で構成できます。
前置修飾語は、0 個以上の副詞と、その後に続く 1 個以上の (等位) 形容詞、形容詞的代名詞、形容詞的数
詞で構成できます。
例:
•
milijardi kuna
•
skoroj privatizaciji
•
minimalno potrebnog broja
5.5 チェコ語言語リファレンス
この章では、チェコ語言語モジュールの動作について説明します。
5.5.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、チェコ語テキストの言語処理における言語固有の情報に
ついて説明します。
84
2012-06-14
言語モジュールリファレンス
5.5.1.1 チェコ語の文字エンコード
•
iso_8859_2
•
cp_1250
•
utf_8、utf_16、ucs_4
5.5.1.2 チェコ語の単語のセグメンテーション
チェコ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま
す。
5.5.1.3 チェコ語のステミング
ここでは、チェコ語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.5.1.3.1 標準ステム機能
標準のチェコ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、
主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞の
ようなクローズドクラスの単語も、ステム処理される場合があります。
85
カテゴリ
例
名詞
tělem -> tělo, města -> město, výzkumy -> výzkum
動詞
máš -> mít, vrátil -> vrátit, dostane -> dostat,
pracuji -> pracovat
形容詞
velká -> velký, starší -> starý
副詞
brzy -> brzy, dnes -> dnes
2012-06-14
言語モジュールリファレンス
5.5.1.3.2 拡張ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。チェコ語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記されてい
ない固有名詞がこれに含まれます。例:
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
Slovensko
Slovensko
slovensko
Slovensko
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
例
出力
padák
padák
padak
padák
5.5.1.4 チェコ語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、チェコ語のタグセットを示します。各タグ名に、簡単な説
明と 1 つ以上の例を示します。タグセットは性別を区別しません。
86
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Adj
形容詞
úřadní, úřadními, úřadním
Adj-Comp
比較級の形容詞
úřadnější, úřadnějšími,
úřadnějším
Adj-Sup
最上級の形容詞
nejuřednější, nejuřednějším, nejuřednějšími
Adv
副詞
úředně,zúředněně,
zdeúředně
Adv-Comp
比較級の副詞
úředněji, zúředněněji,
zdeúředněji
Adv-Sup
最上級の副詞
nejúředněji, nejzúředněněji, nejzdeúředněji
Conj
Conj
接続詞
či, čili, že
Interj
Interj
感嘆詞
úhuhu, ó, ólala
Nn
不変化名詞
sec, pH, um.
Nn-Pl-Gen
複数形、所有格の名詞
úřadníků, úřeků, úřezů
Nn-Pl-Case
複数形、主格、呼格、対
格、与格、処格、および
助格の名詞
úřadníci, úřadníkům,
úřadníků
Nn-Sg-Gen
単数形、所有格の名詞
úřadníka, úřeku, úřezu
Nn-Sg-Case
単数形、主格、呼格、対
格、与格、処格、および
助格の名詞
úřadníka, úřadníkovi,
úřadníkem
Nn-Net
URL、電子メールアドレス
www.inxight.com, [email protected],
Prop
固有名詞
ČSLA, Ňasko, Ňasku,
Ňaska, Ňaskem, Íliada
Num
基数または序数以外の
数値表現
XV, mil.
Num-Card
基数
dvě, dvěma, dvou
Num-Ord
序数
šestýma, šestými,
šestým
Adj
Adv
Nn
Prop
Num
87
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Part
Part
不変化詞
řekněmež, čau, žbluňk
Prep
Prep
前置詞
zmísta, zkraje, zaň
Pron-Dem-Pl
複数形の指示代名詞
týmiž, týmaž, týchž
Pron-Dem-Sg
単数形の指示代名詞
týž, týmž
Pron-Pl
複数形の代名詞
číchkoliv, číchkoli,
čímisi, čímasi, čímsi
Pron-Sg
単数形の代名詞
číhosi, čímsi, čímukoliv,
čímukoli, číhokoliv,
číhokoli, číhosi
Pron-Int/Rel
疑問代名詞または関係
代名詞
čí, čími, čím, čích, čímu
Pron-Refl
再帰代名詞
svůj, svých, svýmu,
svým
Pron-Pers-Sg
単数形の人称代名詞
on, ono, ona, ty, von
Pron-Pers-Pl
複数形の人称代名詞
vy, vás, vám, vámi
Pron-Poss
所有代名詞
tvůj, váš, vaší
Pron
88
2012-06-14
言語モジュールリファレンス
アンブレラタグ
V
完全タグ
説明
例
V-Inf
不定詞の動詞
dělat, úžit, úžívat
V-Imp
命令形の動詞
dělej, dělejme, dělejte
V-Ind
直説法、動詞
dělána, dělány, dělánu,
dělánu, dělána
V-PaPart
過去分詞
dělal, dělals, dělaly,
dělali
V-Inf-Be
動詞 "to be"、不定詞
být, bývat, nebýt, nebývat
V-Imp-Be
動詞 "to be"、命令法
buď, budiž, buďme,
buďte
V-Pres-Be
動詞 "to be"、現在形
je, jest, jsi, jste, jsme,
jsou, jsem
V-Fut-Be
動詞 "to be"、未来形
bude, budu, budeš,
budete, budou, budem
V-PaPart-Be
動詞 "to be"、過去分詞
byl, byla, bylo, byla,
byly, byli
V-APart
形容詞的/副詞的な分詞
dělaje, dělajíc, dělajíce
V-Aux
助動詞
by, bys, byste, bych,
bychom
Punct-Sent
文末の区切り記号
!?.
Punct-Comma
コンマ
,
Punct-Open
開く区切り記号
(
Punct-Close
閉じる区切り記号
)
Punct-Quote
引用符
"'
Punct
その他の区切り記号
+-
Punct
5.5.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、チェコ語の推測機能に渡され、最も適していると思われるタ
グが設定されます。チェコ語の推測機能は、チェコ語の形態構造に関するルールセットに基づいて、検出され
89
2012-06-14
言語モジュールリファレンス
なかった単語にタグを設定します。たとえば、末尾が -ova の単語は形容詞とみなされます。インターネットお
よび電子メールのアドレスには、Nn-Net というタグが設定されます。
大文字表記の情報も重要です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。
5.5.1.5 チェコ語のグループ化
チェコ語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。
修飾語は、形容詞または序数であることがありますが、限定詞または代名詞ではありません。
修飾語は、副詞を自身の修飾語としてともなうことができます。
例:
•
ministrem Vrbou
•
úst paní ministryně Štěpové
5.5.2 抽出
ここでは、チェコ語の抽出固有の情報について説明します。
5.5.2.1 事前定義済みエンティティタイプ
ここでは、チェコ語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説
明します。
5.5.2.1.1 NOUN_GROUP
チェコ語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。修飾語は、形容詞または序
数であることがありますが、限定詞または代名詞ではありません。修飾語は、副詞を自身の修飾語としてともな
うことができます。
例:
90
•
ministrem Vrbou
•
úst paní ministryně Štěpové
2012-06-14
言語モジュールリファレンス
5.6 デンマーク語言語リファレンス
この章では、デンマーク語言語モジュールの動作について説明します。
5.6.1 言語処理
ここでは、単語のセグメンテーション、ステミング、タグ設定など、デンマーク語テキストの言語処理における言
語固有の情報について説明します。
5.6.1.1 デンマーク語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.6.1.2 デンマーク語の単語のセグメンテーション
デンマーク語のセグメンテーション機能は、スペース言語の単語のセグメンテーションの一般的なルールに従
います。デンマーク語のセグメンテーション機能には、次の言語固有の動作があります。
デンマーク語のセグメンテーション機能は、s または 's を使用して記述された複数形および所有格をそのまま
保持します。ハイフンは、ハイフンを使用して記述された複合語のパーツから分離されません。ピリオドは序数
表現から分離されません。次に例を示します。
91
テキスト
セグメンテーション後
Eriks
Eriks
14.
14.
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
post-
post- og telegrafvæsenet
og
telegrafvæsenet
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.6.1.3 デンマーク語のステミング
ここでは、デンマーク語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.6.1.3.1 標準ステム機能
デンマーク語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主
な品詞 (オープンクラス) はその原形にステム処理されます。次の表にデンマーク語の原形を示します。限定
詞や代名詞のようなクローズドクラスの単語も、ステム処理される場合があります。
92
カテゴリ
原形
例
名詞
不定形単数
kager -> kage, cyklen -> cykel
動詞
不定詞
sendes -> sende, luk -> lukke
形容詞
原型
kolde -> kold, smukkest -> smuk
副詞
基本形またはソースの形式
oftest ->ofte, bagfra -> bagfra
2012-06-14
言語モジュールリファレンス
5.6.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。デンマーク語固有
のものを次に示します。
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
erik
Erik
Erik
Erik
アクセント記号付き文字のタイプライター形式
拡張バージョンでは、アクセント記号付き文字のタイプライター表記を許容します。つまり、aa と記述されている
場合は å、ae と記述されている場合は æ、oe と記述されている場合は ø と認識されます。
例
出力
blaa
blå
blå
blå
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
93
例
出力
bla
blå
blå
blå
2012-06-14
言語モジュールリファレンス
ハイフネーション
拡張バージョンでは、数値ではない表現内のハイフンはオプションです。これは、ハイフンがもともと単語の一
部なのか強制改行のためだけのものなのかに関係なく、強制改行とハイフンを両方削除することで強制改行
ハイフンを解除する前処理が行われているテキストの場合に役立ちます。
例
出力
Vdag
V-dag
V-dag
V-dag
5.6.1.4 デンマーク語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、デンマーク語のタグセットを示します。各タグ名に、簡単
な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字で
示します。タグセットは性別を区別しません。
アンブレラタグ
完全タグ
説明
例
Abbr
Abbr
省略形
nov., kg, dkr., USA
Adj
形容詞
det gode brød
Adj-Comp
比較級の形容詞
et bedre forslag
Adj-Gen
所有格の形容詞
den enkeltes tryghed
Adj-PaPart
形容詞として使用されて
いる過去分詞
bestemt niveau
Adj-PaPart-Gen
形容詞として使用されて
いる過去分詞、所有格
den ansattes papirer
Adj-PrPart
現在分詞の形容詞
manglende
Adj
94
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Adv
副詞 (不変化詞を含む)
igen
Adv-Comp
比較級の副詞
tidligere
Adv-Int/Rel
疑問副詞または関係副
詞
hvor, hvorefter
Adv-Sup
最上級の副詞
oftest
Adv
95
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Aux/V-Infin-blive
不定詞の助動詞または
本動詞 blive
blive
Aux/V-Infin-faa
不定詞の助動詞または
本動詞 få
få
Aux/V-Infin-have
不定詞の助動詞または
本動詞 have
have
Aux/V-Infin-vaere
不定詞の助動詞または
本動詞 vaere
være
Aux/V-PaPart-blive
過去分詞の助動詞また
は本動詞 blive
blevet
Aux/V-PaPart-faa
過去分詞の助動詞また
は本動詞 få
fået
Aux/V-PaPart-have
過去分詞の助動詞また
は本動詞 have
haft
Aux/V-PaPart-vaere
過去分詞の助動詞また
は本動詞 vaere
været
Aux/V-Past-blive
過去形の助動詞または
本動詞 blive
blev
Aux/V-Past-faa
過去形の助動詞または
本動詞 få
fik
Aux/V-Past-have
過去形の助動詞または
本動詞 have
havde
Aux/V-Past-vaere
過去形の助動詞または
本動詞 vaere
var
Aux/V-Pres-blive
現在形の助動詞または
本動詞 blive
bliver
Aux/V-Pres-faa
現在形の助動詞または
本動詞 få
får
Aux/V-Pres-have
現在形の助動詞または
本動詞 have
har
Aux/V-Pres-vaere
現在形の助動詞または
本動詞 vaere
er
Aux/V
96
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Cmpd
Cmpd-Part
残された複合語のパーツ
post - og telegrafvæsenet
Conj
接続詞
at, når
Conj-Coord
等位接続詞
og, eller
Conj-hvis
接続詞または関係代名
詞 hvis
hvis
Conj-som
接続詞または関係代名
詞 som
som
Det
限定詞
en
Det-Indet
不定限定詞
forskellig, somme
Det-Indet-Gen
不定限定詞、所有格
forskelliges
Det-Coord
接続詞的副詞
både
Det/Pron-Int/Rel
疑問代名詞または関係
代名詞
hvad, hvem, hvilke
Det/Pron-Poss
所有限定詞または所有
代名詞
vores, min
Det/Pron-Poss-Refl
再帰所有代名詞
sin, sit, sine
Det/Pron-Quant
数量限定詞または数量
代名詞
mange
Det/Pron-Quant-Compmere
比較級 mere
mere
Det/Pron-Quant-Gen
所有格の数量限定詞ま
たは数量代名詞
manges
Det/Pron-Quant-Pre
数量前置限定詞または
数量代名詞
alle, hver
Det/Pron-Quant-Supmest
最上級 mest
mest
Func
Func
機能語 (その他のカテゴ
リ)
ambulatorie, barne
Interj
Interj
名詞
kvinde
Conj
Det
97
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Nn
所有格の名詞
kvindens
Nn-Gen
小文字および大文字の
文字
b, N
Nn-Letter
URL および電子メール
アドレス
Nn
www.inxight.com
[email protected]
Nn-Net
Num
Num
基数 (数字または単語)
3m tre
Ord
Ord
序数、数字またはスペル
アウト
20., femte
Part-Inf
不定詞の不変化詞 at
få lov at indtage
Part-Neg
否定の不変化詞
ikke
Prep
前置詞
med, hos
Prep-af
前置詞 af
af
Pron
代名詞
den, denne
Pron-Expl
虚辞代名詞
der var 400 deltagere
Pron-Gen
所有格の代名詞
begges
Pron-Pers
人称代名詞
jeg, mig
Pron-Recip
相互代名詞
hinanden
Pron-Recip-Gen
所有格の相互代名詞
hinandens
Pron-Rel
関係代名詞 der および
som
familier, der skilles
Prop
固有名詞、頭文字または
肩書き
Ole, H., fru, dr.
Prop-Gen
所有格の固有名詞
Jensens bil
Punct
その他の区切り記号
-)
Punct-Comma
コンマ
,
Punct-Sent
文の境界の区切り記号
.?!
Part
Prep
Pron
Prop
Punct
98
2012-06-14
言語モジュールリファレンス
アンブレラタグ
V
完全タグ
説明
例
V-Impv
命令形の動詞
skriv
V-Infin
不定詞の動詞
skrive
V-PaPart
過去分詞の動詞
skrevet
V-Past
過去形の動詞
skrev
V-Past-SForm
過去形の S 形動詞
taltes
V-Pres
現在形の動詞
sker
V-Pres-SForm
現在形の S 形動詞
sendes
5.6.1.5 デンマーク語のグループ化
デンマーク語の単純名詞句は、必要に応じて固有名詞の所有形、形容詞、序数で修飾された、名詞または連
続した名詞のことです。所有代名詞は名詞群に含まれません。例:
•
varmt vand
•
fin, ny cykel
•
Odenses vedkommende
•
29. october
形容詞と名詞は、og 'and' や eller 'or' のような等位接続詞で結合される場合があります。連続した複合語の
パーツを等位接続詞で名詞に結合することもできます。
•
vand og salt
•
stor eller lille is
•
vand- og varmemester
単純名詞句の後に、af ではじまる前置詞句が続く場合があります。例:
•
ejeren af hesten
5.6.2 抽出
99
2012-06-14
言語モジュールリファレンス
ここでは、デンマーク語の抽出固有の情報について説明します。
5.6.2.1 事前定義済みエンティティタイプ
ここでは、デンマーク語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい
て説明します。
5.6.2.1.1 NOUN_GROUP
デンマーク語の単純名詞句は、必要に応じて固有名詞の所有形、形容詞、序数で修飾された、名詞または連
続した名詞のことです。所有代名詞は名詞群に含まれません。例:
•
varmt vand
•
fin, ny cykel
•
Odenses vedkommende
•
29. october
形容詞と名詞は、og 'and' や eller 'or' のような等位接続詞で結合される場合があります。連続した複合語の
パーツを等位接続詞で名詞に結合することもできます。
•
vand og salt
•
stor eller lille is
•
vand- og varmemester
5.7 オランダ語言語リファレンス
この章では、オランダ語言語モジュールの動作について説明します。
5.7.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、オランダ語テキストの言語処理における言語固有の情報
について説明します。
100
2012-06-14
言語モジュールリファレンス
5.7.1.1 オランダ語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.7.1.2 オランダ語の単語のセグメンテーション
オランダ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従い
ます。
オランダ語のセグメンテーション機能には、次の言語固有の動作があります。短縮形は分割しません。s または
's を使用して記述された複数形および所有格は分割されません。ハイフンは、ハイフンを使用して記述された
複合語のパーツから分離されません。
テキスト
セグメンテーション後
m'n
m'n
'k
'k
auto's
auto's
Jansens
Jansens
honden-
honden- en kattenvoer
en
kattenvoer
関連項目
• 25 ページの「単語のセグメンテーション」
101
2012-06-14
言語モジュールリファレンス
•
25 ページの「スペース言語」
5.7.1.3 オランダ語のステミング
ここでは、オランダ語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.7.1.3.1 標準ステム機能
オランダ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な
品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のような
クローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
原形
例
名詞
指小辞の付かない単数形
bloem -> bloem, emmers ->
emmer, kinderen -> kind
動詞
不定詞
schrijft -> schrijven, hebt ->
hebben
形容詞
原型
lange -> lang, onhandigste ->
handig
副詞
基本形またはソースの形式
eventjes -> even, liefst -> graag,
gisteren -> gisteren
5.7.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ここでは、オランダ
語固有のものを示します。
オランダ語のステム機能の拡張バージョンでは、正確な大文字表記およびアクセント記号表記は必要ありませ
ん。必須のハイフンをオプションにすることができます。また、特定の非標準の複合語内のハイフン表記を許容
します。
102
2012-06-14
言語モジュールリファレンス
ハイフネーション
ハイフンを正式に使用するのは、最初の複合語要素の末尾が母音で 2 番目の複合語要素の先頭も母音であ
るときに、発音しやすくするために使用する場合のみです。拡張バージョンでは、強制的なハイフンがない場
合もこれらの複合語を許容します。
例
出力
auto-ongeluk
auto | ongeluk
autoongeluk
auto | ongeluk
通常、複合語はハイフンを使用せずに記述される場合がほとんどですが、一般的な慣行として、多くの複合語
がハイフンを使用して記述されている場合も、ハイフンを使用せずに記述されている場合も頻繁にあります。拡
張バージョンでは、母音がない場合の任意のハイフネーションを許容します。
例
出力
kinderbioscoop
kind | bioscoop
kinder-bioscoop
kind | bioscoop
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
USA
USA
usa
USA
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字を許容します。
103
例
出力
privé
privé
2012-06-14
言語モジュールリファレンス
例
出力
prive
privé
5.7.1.3.3 オランダ語の複合語分析
オランダ語の複合では、名詞と名詞、名詞と形容詞、動詞と名詞など、さまざまな品詞を結合できます。
注
次のサンプル出力では、縦棒 (|) を使用して用語またはステムを区切っています。複合語は常に分割されま
す。
名詞 - 名詞型
オランダ語の名詞の複合語には、多くの場合、接続要素が含まれます。たとえば、leven という単語と echt と
いう単語を組み合わせて複合語にする場合、接続要素 -s- がこれらの単語の間に追加され、levensecht とな
ります。最も頻出する 2 つの接続要素は -s- および -en- です (3 番目の接続要素である -e- は、いくつかの
不規則な複合語でのみ出現します)。
例
出力
begrafenisstoet
begrafenis | stoet
mensenrechtenorganisaties
mens | recht | organisatie
levensecht
leven | echt
母音変化などの不規則をともなう名詞も処理されます。例:
例
出力
scheepskapitein
schip | kapitein
zonnescherm
zon | scherm
最初の複合語要素の末尾が母音で 2 番目の複合語要素の先頭も母音である場合、従来は、ソースの形式の
要素の間にハイフンが挿入されます。ハイフンはステマー出力には出現しません。
104
2012-06-14
言語モジュールリファレンス
例
出力
auto-ongeluk
auto | ongeluk
boeken- en platenzaak ("本およびレコードの店") や kindertheater en -bioscoop ("子供の劇場および映
画館") のような複合語が出現することがあります。最初のパーツ boeken- のハイフンは名詞 zaak の代わり
で、-bioscoop のハイフンは kinder の代わりです。
例
出力
boek
boeken- en platenzaak
en
platenzaak
kind | theater
kindertheater en -bioscoop
en
bioscoop
動詞 - 名詞型
複合語では動詞と名詞を結合することもできます。動詞のパーツは動詞の不定詞形にステム処理されます。
例
出力
schrijfwijze
schrijven | wijze
名詞 - 形容詞型
形容詞と名詞を結合した複合語には、名詞 - 名詞型の複合語で頻繁に出現する接続要素がありません。
105
例
出力
kinderloos
kind | loos
2012-06-14
言語モジュールリファレンス
5.7.1.4 オランダ語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、オランダ語のタグセットを示します。各タグ名に、簡単な
説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字で示
します。タグセットは性別を区別しません。
アンブレラタグ
Adj
完全タグ
説明
例
Adj-Attr
限定形容詞
een snelle auto
Adj-Post
後置修飾の形容詞
wat anders
Adj-Pred
叙述形容詞
hij rijdt snel
Adv
非形容詞的副詞
stroomopwaarts
Adv-Deg
形容詞を修飾できる副詞
hij wil te snel
Adv-Int
疑問副詞
waarom gaat hij
Adv-Pron
代名詞的副詞
hij praat hierover
Aux-Fin
定形助動詞
hij is geweest
Aux-Inf
不定詞の助動詞
hij zal zijn
Aux-PaPart
過去分詞の助動詞
hij is geweest
Cmpd-Left
複合語の左の省略され
たパーツ
honden - en kattenvoer
Cmpd-Right
複合語の右の省略され
たパーツ
kattenvoer en - melk
Conj-Comp
比較の接続詞
zo groot als
Conj-Coord
等位接続詞
jan en marie
Conj-Inf
不定詞の接続詞
door te vragen
Conj-Rel
関係接続詞
het kind dat ...
Conj-Sub
従属接続詞
hoewel hij er was
Conj-Sub-Adv
疑問副詞または従属接
続詞
wanneer gaat hij weg?
Adv
Aux
Cmpd
Conj
106
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Det-Art
限定詞
een bus
Det-Dem
指示限定詞
deze machine gaat
goed
Det-Indef
不定限定詞
geen broer
Det-Int/Rel
疑問限定詞または関係
限定詞
de vraag wier man ...
Det-Poss
所有限定詞
mijn boek
Det-Post-Indef
不定後置限定詞
de beide broers
Det-Pre-Indef
不定後置限定詞
binnen al deze pakketten
Interj
感嘆詞
och
Nn
普通名詞
boek
Nn-Letter
小文字および大文字の
文字
b, N
Nn-Net
URL および電子メール
アドレス
www.inxight.com in
[email protected]
Num
Num
基数
125, vijf, 12/2
Ord
Ord
序数
vijfde, 125ste, 12de
Part-Inf
オランダ語の 'te+infini
tive' 構文の不変化詞
hij hoopt te gaan
Part-Neg
否定の不変化詞
hij gaat niet snel
Part-Prefix
(代名詞的) 副詞または
動詞の分離された接頭
辞
hij loopt mee
Prep
前置詞
in
Prep-Circ
名詞の前後に置く両置
詞の右のパーツ
tot nu toe
Prep-Post
後置詞
veel passanten langs
komen
Prep-van
前置詞 van
van
Det
Interj
Nn
Part
Prep
107
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Pron
Prop
Punct
完全タグ
説明
例
Pron-Dem
指示代名詞
deze gaat goed
Pron-Indef
不定代名詞
beide
Pron-Int/Rel
疑問代名詞または関係
代名詞
de vraag wie ...
Pron-Pers
人称代名詞
hij
Pron-Rel
関係代名詞
de man die lachte
Prop
受取人の頭文字および
肩書きを含む、固有名詞
Peter, C., Prof.
Prop-Art
名前の先頭の冠詞
De Vries
Prop-Prep
名前の先頭の前置詞
Van den Broek
Punct
その他の区切り記号
{ } [ ] - ---
Punct-Comma
コンマ
,
Punct-Quote
引用符タイプの区切り記
号 (かっこを含む)
"''()
Punct-Sent
文末の区切り記号
.?!;
Punct-Slash
スラッシュマーク
/
V-Fin
定形動詞
zegt
V-Inf
不定詞の動詞
zeggen
V-PaPart
過去分詞の動詞
gezegd
V-PrPart
現在分詞の動詞
zeggend
V
5.7.1.5 オランダ語のグループ化
オランダ語の名詞句は、次のように必要に応じて形容詞などの修飾語をともなう、名詞で構成されます。
•
108
Amerikaanse minister
2012-06-14
言語モジュールリファレンス
オランダ語では複合語もグループ化されます。複合語のパーツは修飾されることがあります。また、パーツがコ
ンマや接続詞で区切られて複数あることがあります。
•
boeken- en platenzaak
•
kindertheater en -bioscoop
オランダ語では、次のように en 'and' などを使用して、名詞を接続できます。
•
productiviteitscijfers en fabrieksbestellingen
•
specifieke juwelen en kledingstukken
•
studenten, ouders en leraren
名前では ter も使用できますが、次に示すように、名詞群に含まれる前置詞は van のみです。名前は、Van,
De, Den, Der, or Ter ではじまることがあります。前置詞または限定詞が名詞句の先頭に出現できるのはこの
ときのみです。
•
voorstel van de werkgevers
•
militaire nederlaag van de afgelopen weken
5.7.2 抽出
ここでは、オランダ語の抽出固有の情報について説明します。
5.7.2.1 事前定義済みエンティティタイプ
ここでは、オランダ語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について
説明します。
5.7.2.1.1 NOUN_GROUP
オランダ語の名詞句は、次のように必要に応じて形容詞などの修飾語をともなう、名詞で構成されます。
•
Amerikaanse minister
オランダ語では複合語もグループ化されます。複合語のパーツは修飾されることがあります。また、パーツがコ
ンマや接続詞で区切られて複数あることがあります。
•
boeken- en platenzaak
•
kindertheater en -bioscoop
オランダ語では、次のように en 'and' などを使用して、名詞を接続できます。
109
2012-06-14
言語モジュールリファレンス
•
productiviteitscijfers en fabrieksbestellingen
•
specifieke juwelen en kledingstukken
•
studenten, ouders en leraars
5.8 英語言語リファレンス
この章では、英語言語モジュールの動作について説明します。
5.8.1 言語処理
ここでは、単語のセグメンテーション、ステミング、タグ設定など、英語テキストの言語処理における言語固有の
情報について説明します。
5.8.1.1 英語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.8.1.2 英語の単語のセグメンテーション
英語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従います。
英語のセグメンテーション機能には、次の言語固有の動作があります。
英語では、don't, can't や won't のような短縮形は、これを構成する構文ユニットに分離されます。Ain't は、適
切な分離方法がないため、分離されません。所有の語尾 's や ' は、これらが修飾する単語から分離されます。
110
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
can
can't
n't
will
won't
n't
it
it's
's
ain't
ain't
helper
helper's
's
helpers
helpers'
'
省略形は区切り記号からは分割されませんが、後続のハイフンからは分割されます。2 つの省略形の間に出
現するハイフンが、構文ユニットを分解することはありません。省略形はシステム辞書と、大文字、小文字、ピリ
オド、任意のハイフンを許容するルールセットにリストされています。
アルファベット文字と数字の組み合わせ、およびこれらと任意の区切り記号の組み合わせは、そのまま保持さ
れます。例:
テキスト
セグメンテーション後
Apr.
Apr.-
111
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
D-Nebr.
D-Nebr.
3a.m.
3a.m.
11Jan.
11Jan.
Mon.-Thurs.
Mon.-Thurs.
Bloomberg-U.S.
Bloomberg-U.S.
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.8.1.3 英語のステミング
ここでは、英語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.8.1.3.1 標準ステム機能
英語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品詞
(オープンクラス) はその原形にステム処理されます。次の表にこれを示します。
112
カテゴリ
原形
例
名詞
単数形
dog, dogs -> dog
動詞
不定詞
runs, ran, run -> run
形容詞
原型
happy, happier, happiest ->
happy
2012-06-14
言語モジュールリファレンス
カテゴリ
原形
例
副詞
基本形またはソースの形式
quickly -> quickly
英語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されます。複数
形のみの形、およびすべての人称代名詞では、数と性別情報が保持されます。適用できる場合は、これらの
代名詞は主格形にステム処理されます。その他の形式はすべて、単数形にステム処理されます。次の表にこ
れを示します。
テキスト
ステム
none
none
that
that
themselves
themselves
her
she
these
this
標準ステム機能では、米国英語および英国英語にみられるスペリングのバリエーションが処理されます。どちら
のバリアントも米国式のスペリングにステム処理されます。次の表にこの処理を示します。
113
テキスト
ステム
color
color
colour
color
organization
organization
organisation
organization
2012-06-14
言語モジュールリファレンス
5.8.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。次に英語固有のも
のを示します。
大文字小文字のバリアント
拡張バージョンでは、通常は大文字ではじめる単語の大文字の他に、小文字を許容します。ステム機能に、小
文字のバリアントと大文字のバリアントの両方が含まれる場合、両方がステムとして返されます。大文字のステ
ムだけがステム機能に含まれている場合、小文字のバリアントに大文字のステムが返されます。
例
出力
Eric
Eric
eric
Eric
ハイフネーション
強制改行ハイフンを削除して分割された単語の 2 つのパーツを連結することで、強制改行ハイフンを処理す
るソフトウェアを補助するには、数値以外の表現におけるハイフンを拡張バージョンのオプションにして、本来
ハイフンで連結されている単語をそのまま認識できるようにします。
例
出力
square-dance
square-dance
squaredance
square-dance
motherinlaw
mother-in-law
5.8.1.3.3 派生ステム機能
派生ステム機能は、必要に応じて複数の単語のカテゴリを横断して、エントリの基語を生成するように設計され
ています。たとえば、connection という名詞は、connect という動詞に -ion という接尾辞が加えられてできてい
ます。
そのため、派生ステム機能は、connection という名詞の connect という基語を検出します。同様に、driver は
drive、quickly は quick にステム処理されます。
114
2012-06-14
言語モジュールリファレンス
テキスト
ステム
connection
connect
belongings
belong
driver
drive
quickly
quick
5.8.1.3.4 屈折ステマー推測機能
屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能
にとって未知であるため、ステム処理できない単語に適用できます。
言語処理は、最初に標準または拡張屈折ステム機能を使用してステミングを試み、次に、従来どおりにステム
処理できなかった単語にのみ、ステマー推測機能を適用します。
5.8.1.4 英語の品詞タグ設定
次の表に英語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。例が複数の単語
で構成される場合、現在のタグを例示する単語を太字で示します。
アンブレラタグ
完全タグ
説明
例
Abbr
Abbr
省略形
i.e.
Adj
形容詞
big
Adj-Comp
比較級の形容詞
bigger
Adj-Ord
序数を表す形容詞
third
Adj-Sup
最上級の形容詞
biggest
Adj
115
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Adv
副詞
quickly
Adv-Comp
比較級の副詞
sooner
Adv-Int/Rel
wh- 副詞
how
Adv-Sup
最上級の副詞
soonest
Aux
助動詞または法助動詞
could
Conj-Coord
等位接続詞
and
Conj-Sub
従属接続詞
unless
Det
不定限定詞 (単数形ま
たは複数形)
some food
Det-Def
冠詞
the
Det-Indef
不定限定詞
an
Det-Int
疑問限定詞
what time?
Det-Int/Rel
疑問限定詞または関係
限定詞
whose
Det-Pl
複数形の限定詞
those apples
Det-Poss
所有限定詞
my
Det-Rel
関係限定詞
whatsoever
Det-Sg
単数形の限定詞
every
Interj
感嘆詞
oh, hello
Nn
不変化名詞
sheep
Nn-Letter
Letter
b, N
Nn-Net
URL、電子メールアドレ
ス
Nn-Pl
複数形の名詞
computers
Nn-Sg
基数またはその他の数
値表現
farmer
Adv
Aux
Conj
Det
Interj
Nn
116
www.inxight.com,
[email protected]
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Num
Num
基数またはその他の数
値表現
40.5, 11/27/00, $12.55,
12%, xvii, 9:00
Part-Inf
不定詞マーカー
to be or not to be
Part-Neg
否定の不変化詞
not
Part-Poss
所有マーカー
John's coat
Prep
前置詞
below
Prep-at
前置詞 at
at
Prep-of
前置詞 of
of
Pron
代名詞
he
Pron-Int
wh 代名詞
what do you want?
Pron-Int/Rel
wh 代名詞
who
Pron-Refl
再帰代名詞
himself
Pron-Rel
関係代名詞
whoever
Prop
個人または物の名前
Graceland
Punct
その他の区切り記号
- ; /%$
Punct-Close
閉じる区切り記号
)]}
Punct-Comma
コンマ
,
Punct-Open
開く区切り記号
([{
Punct-Quote
引用符
" ''
Punct-Sent
文末の区切り記号
.!?
Part
Prep
Pron
Prop
Punct
117
2012-06-14
言語モジュールリファレンス
アンブレラタグ
V
完全タグ
説明
例
V-Inf-be
不定値 to be
be
V-PaPart
動詞、過去分詞、-ed 形
の動詞
has walked
V-PaPart-be
to be の過去分詞
has been
V-PaPart-have
to have の過去分詞
he has had
V-Past
動詞、過去形
ran
V-Past-have
have の過去形
we had
V-Past-Pl-be
動詞、to be の複数形の
過去形
were
V-Past-Sg-be
動詞、to be の単数形の
過去形
was
V-Pres
動詞、現在形または不
定詞
sit
V-Pres-3-Sg
動詞、現在形、三人称
単数形
sits
V-Pres-3-Sg-have
現在形、have の三人称
単数形
has
V-Pres-have
現在形または have の
不定詞
have
V-Pres-Pl-be
動詞、to be の複数形の
現在形
are
V-Pres-Sg-be
動詞、to be の単数形の
現在形
is
V-PrPart
動詞、現在分詞、-ing
形の動詞
is walking
5.8.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、英語のタグ設定推測機能に渡され、最も適していると思わ
れるタグが設定されます。英語のタグ設定推測機能は、英語の形態構造に関するルールセットに基づいて、検
出されなかった単語にタグを設定します。たとえば、末尾が -ly の単語は副詞とみなされます。インターネット
および電子メールのアドレスには、Nn-Net というタグが設定されます。
118
2012-06-14
言語モジュールリファレンス
大文字表記の情報も重要です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。同
様に、アルファベット文字と数字の組み合わせは、固有名詞とみなされます。序数は、ソフトウェアによって決
定されるコンテキストに応じて、名詞または形容詞のどちらかとしてタグ設定されます。
5.8.2 抽出
ここでは、英語の抽出固有の情報について説明します。
5.8.2.1 詳細解析
抽出プロセスでは、単語の語義および構文に関する知識を持つツールを使用することで、言語処理が実行さ
れます。通常、言語処理では、段落、文、および句を識別してから、テキスト内での語義および構文情報が識
別されます。抽出には、英語の言語処理用に、標準と詳細の 2 つのモードがあります。デフォルトは標準です。
詳細解析には、代名詞の解決の他に、従来よりさらに改善された構文的機能の属性を含む名詞句抽出機能
があります。抽出ルールを処理中の場合にのみ使用できます。
5.8.2.2 英語のサブタイプ
英語がサポートするサブタイプのタイプは、FACILITY、GEO_AREA、GEO_FEATURE、NIN、ORGANIZATION、
REGION、SOCIAL_MEDIA、URI、COMMON_FACILITY、COMMON_GEO_AREA、COMMON_GEO_FEATURE、
COMMON_ORGANIZATION、COMMON_PERSON、および COMMON_REGION です。
関連項目
• 34 ページの「 サブタイプ」
5.8.2.3 事前定義済みエンティティタイプ
ここでは、英語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説明し
ます。
119
2012-06-14
言語モジュールリファレンス
次の各リンクをクリックすると、サブセクションに移動できます。120 ページの 「ADDRESS1」、120 ページの
「CONTINENT」、121 ページの 「COUNTRY」、121 ページの 「CURRENCY」、121 ページの 「DATE」、121 ペー
ジの 「DAY」、122 ページの 「FACILITY」、122 ページの 「GEO_AREA」、123 ページの 「GEO_FEATURE」、123
ページの 「HOLIDAY」、124 ページの 「LOCALITY」、124 ページの 「MEASURE」、124 ページの 「MONTH」、
124 ページの 「NIN」、125 ページの 「NOUN_GROUP」、125 ページの 「ORGANIZATION」、126 ページの
「PEOPLE」、126 ページの 「PERCENT」、127 ページの 「PERSON」、127 ページの 「PHONE」、128 ページの
「PRODUCT」、128 ページの 「PROP_MISC」、128 ページの 「REGION」、129 ページの 「SOCIAL_MEDIA」、129
ページの 「TICKER」、129 ページの 「TIME」、130 ページの 「TIME_PERIOD」、130 ページの 「TITLE」、130
ページの 「URI」、および 131 ページの 「YEAR」。
注
英語言語モジュールは、次の公共部門エンティティも抽出します。GEOCOORD、MGRS、MISC_NUMERIC、
PHONEMTF、PRECURSOR、VEHICLE、WEAPON、COMMON_PRECURSOR、COMMON_VEHICLE、およ
び COMMON_WEAPON。
これらの公共部門エンティティの詳細については、337 ページの 「公共部門コンテンツエンティティ - 英語」を
参照してください。
5.8.2.3.1 ADDRESS1
ADDRESS1 の形式は、米国の住所の形式に基づきます。
通り番地および通り
市
州
郵便番号
1234 Mahana St.
Honolulu
Hawai'i
96816
通り番地および通りは住所に必須のパーツですが、市、州、および郵便番号はオプションです。私書箱と地方
配送路は、ADDRESS1 としてもグループ化されます。
•
1234 Mahana St.
•
PO Box 1010
•
Rural Route 5
5.8.2.3.2 CONTINENT
大陸のいずれか。例:
•
Asia
•
Europe
注
America と Australia は、COUNTRY としてのみ抽出されます。
120
2012-06-14
言語モジュールリファレンス
5.8.2.3.3 COUNTRY
国の名前、および省略形。このリストには、紛争中の領土や国際的に認知されていない領土などの、従来のラ
ベルを適用できない、地政学的なエンティティの名前も含まれます:
•
Italy
•
U.K.
•
USA
•
Palestinian National Authority
•
Taiwan
5.8.2.3.4 CURRENCY
国際通貨額、および通貨額の範囲:
•
35 cents
•
1.19 dlrs
•
one dollar and twenty-five cents
•
785 to 995 dlrs
5.8.2.3.5 DATE
日付は最低でも数字と月で構成されます。
•
April 2
•
26 November 1998
•
September tenth
•
fourth of June
日付表現:
•
2-4 May
•
3 June to 5 July
5.8.2.3.6 DAY
省略形を含む曜日。
121
•
Monday
•
Mon.
•
TUES
2012-06-14
言語モジュールリファレンス
5.8.2.3.7 FACILITY
人工の構造物。次のサブタイプのいずれかとして抽出されます。
•
•
•
•
•
AIRPORT– 主に空輸ターミナルとして使用される、主として人工または維持対象の構造物の名前。次はそ
の例です。
•
Los Angeles International Airport
•
South Capitol Street Heliport
BUILDGROUNDS– 建築的な土木構造物の名前、および主として人工または維持対象の戸外空間の名
前。機能に関する区別はされません。民間施設、軍用施設のどちらでもありえます。業務、娯楽のどちらの
用途でも使用される可能性があり、記念建造物である可能性もあります。例:
•
Berlin Wall
•
Disneyland
•
Fort Knox
•
Grand Central Station
•
Statue of Liberty
PATH– 流動体、エネルギー、人、動物、または車両を、ある場所から別の場所に移動できる、主として人
工または維持対象の構造物の名前。次はその例です。
•
Champs-Elysees
•
Erie Canal
•
London Bridge
•
Times Square
PLANT– 工業目的で使用される、1 つ以上の建物で構成される施設の名前。次はその例です。
•
San Onofre Nuclear Generating Station
•
Shell Oil Refinery
•
Three Mile Island
SUBAREA– 人、動物、または物を収容できる、施設の一部の名前。通常は建築上のもの。例:
•
Air Canada Maple Leaf Lounge
5.8.2.3.8 GEO_AREA
国の集団など、重要な土地の集合体を指す、大きい地理的な領域。次のうちいずれかのサブタイプとして抽出
されます:
•
122
DOMESTIC– 国境を越えない場所の名前。例:
•
Northern Chicago
•
South Miami
2012-06-14
言語モジュールリファレンス
•
•
•
Midwest
INTL– 国境をまたがる場所の名前。例:
•
Southeast Asia
•
Western Europe
•
European countries
OTHER– 特定のサブタイプに適合しない場所の名前。次はその例です。
•
European region
5.8.2.3.9 GEO_FEATURE
政治的なエンティティを構成しない、人工のものではない地理的な場所。次のうちいずれかのサブタイプとして
抽出されます:
•
•
•
•
BOUNDARY– 境界線などの場所の名前。例:
•
Mason-Dixon
•
Tropic of Cancer
CELESTIAL– 地球の境界線の外側にある天文学的な場所の名前。次はその例です。
•
Neptune
•
Mars
LAND– 地質学的または生態学的に形成された、人工のものではない場所の名前。例:
•
Grand Canyon
•
Mount Fuji
WATER– 水域である場所の名前。例:
•
Pacific Ocean
•
Lake Michigan
•
Volga River
5.8.2.3.10 HOLIDAY
休日および特例日:
123
•
New Year's Day
•
4th of July
•
Martin Luther King Day
•
Rosh Hashanah
2012-06-14
言語モジュールリファレンス
5.8.2.3.11 LOCALITY
主要都市の省略形を含む、市の名前。
•
Cairo
•
New Delhi
•
Honolulu
•
N.Y.
•
Seville, Spain
•
Paris, Texas
•
Sunnyvale, CA, USA
5.8.2.3.12 MEASURE
測定単位の標準的な省略形を含む、英語または測定単位で表された、重さ、体積、長さなどのメジャー:
•
25 cubic feet
•
20 grams
•
6m
変更率、およびメジャーの比率と範囲:
•
65 mph
•
33 mpg
•
five cts per share
•
20 dlrs per unit
5.8.2.3.13 MONTH
省略形を含む、暦の月:
•
January
•
Feb.
•
OCT
5.8.2.3.14 NIN
国民識別番号、社会保障番号:
•
124
012-44-5668
2012-06-14
言語モジュールリファレンス
注
抽出された NIN/US_SSN エンティティは、SSN 入力フィールドのいずれかにマッピングすることで、Data Quality
Data Cleanse トランスフォームを使用して解析および標準化できます。
5.8.2.3.15 NOUN_GROUP
英語の名詞群は、修飾する形容詞を持つ複数の名詞です。次はその例です。
•
biggest problem
•
interest rate
•
mortgage interest tax relief
5.8.2.3.16 ORGANIZATION
非営利団体、美術グループなどの団体や組織を含む、商業機関、政府機関、教育機関、法律機関、および
サービス機関。次のうちいずれかのサブタイプとして抽出されます。
•
COMMERCIAL– 主要な企業や法人などの営利組織の名前。例:
•
Apple Corporation
•
General Electric Co.
企業や法人のバリアントおよび省略形も含まれます。
•
Apple
•
NBC
•
IBM
注
抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ
ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。
•
•
EDUCATIONAL– 主に教育を目的とする機関の名前。次はその例です。
•
Brown
•
Cambridge University
•
MIT
•
Stanford University
ENTERTAINMENT– 主に娯楽を目的とする機関の名前。例:
•
Cirque du Soleil
•
Boston Symphony Orchestra
注
COMMERCIAL と考えられる、 Time Warner や Disney などのマスメディア関連のコングロマリットも抽出
されます。
125
2012-06-14
言語モジュールリファレンス
•
•
•
•
•
•
GOVERNMENT– 行政、政策、または国家に関連する組織の名前。このリストには、政治的なエンティティ
として機能することが可能な地政学的なエンティティのグループも含まれます。例:
•
Foreign Ministry
•
Air National Guard
•
European Community
•
Benelux
MEDIA– マスメディア、広告、または出版を目的とする組織の名前。次はその例です。
•
Associated Press
•
PBS
MEDICALSCIENCE– 医療または研究を目的とする組織の名前。例:
•
American Medical Association
•
Dana-Farber Cancer Institute
•
European Space Agency
RELIGIOUS– 宗教を目的とする組織の名前。例:
•
Church of Jesus Christ of Latter Day Saints
•
Church of England
SPORTS– スポーツを目的とする組織の名前。例:
•
Red Sox
•
New York Yankees
OTHER– 特定のサブタイプに適合しないすべての組織。次はその例です。
•
Greenpeace
•
United Nations
5.8.2.3.17 PEOPLE
国、民族、地域、または宗教に基づく人々の特定可能なグループに関連する名前。次はその例です。
•
Arabs
•
Scots
5.8.2.3.18 PERCENT
パーセンテージ:
126
•
220%
•
18 pc
2012-06-14
言語モジュールリファレンス
•
fifty percent
パーセント表現:
•
from 10% to 20%
•
between 5 and 10 percent
5.8.2.3.19 PERSON
名前で特定される個人。さまざまな形式が識別されます。
•
Bill Clinton
•
William J. Clinton
•
W.J. Clinton III
•
William Jefferson Clinton
•
Mustafa Al-Jaziri `Abd Al-Rahaman Nudle
•
Mary Beth Josephine Thomas
•
Ms. Washington
•
Mr. Copperfield
注
Bush などの有名な場合を除いて、単独で出現する名および姓は、これらが普通名詞を伴って多義的でない
限りは、PERSON として抽出されます。
5.8.2.3.20 PHONE
米国形式の電話番号:
•
1-408-738-6200
•
408-738-6200
•
738-6200
•
(408) 738-6200
•
1-888-FLOWERS
•
408-738-6200 x111
フランス形式、ドイツ形式、およびスペイン形式の国際電話番号:
127
•
11 11 22 22 22
•
11/22/33/44/55
•
(01) 11 22 33 44 55
•
(+49)-111-22-33333
2012-06-14
言語モジュールリファレンス
•
Telefon: 0111-22222
•
T 030/11 22 333
5.8.2.3.21 PRODUCT
ソフトウェア製品およびサービス指向の製品を含む、製品名:
•
Windows
•
Cheerios
•
Legos
5.8.2.3.22 PROP_MISC
他のエンティティで特定されるエンティティタイプのいずれにも分類されない、固有名詞:
•
Second World War in A book on the Second World War
•
World Cup in It is called the World Cup
•
North American Legal System in A working group on the "idea" of a North American Legal System
5.8.2.3.23 REGION
さまざまな地域は、次のサブタイプのいずれかとして抽出されます:
•
MAJOR– 標準の省略形および 2 文字の郵便番号を含む、米国の 50 州のうちの 1 つ。例:
•
California
•
Hawai'i
•
Calif.
カナダの州や準州、フランスの行政区などの国の主要な行政区分。次はその例です。
•
128
•
British Columbia
•
Puerto Rico
•
Pays de la Loire
•
Guam
•
Bavaria
MINOR– 国、県、地区の名前、または類似の区画や行政機関:
•
District of Columbia
•
Orange County
2012-06-14
言語モジュールリファレンス
5.8.2.3.24 SOCIAL_MEDIA
ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック
は、次のサブタイプのいずれかとして抽出されます:
注
SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。
•
•
"@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例:
•
@SCNblogs
•
@sapnoticiasbr
•
@sapnews
•
@SAP_MICROSOFT
"#" ではじまる TOPIC_TWITTER–Twitter のトピック。例:
•
#SAP
•
#Mobility
•
#SAPPRESS
•
#SAP_projects
5.8.2.3.25 TICKER
株式取引で使用される企業の株式のティッカーシンボル。TICKER エンティティは、為替のコンテキスト内で、
次のパターンの 1 つに使用されている場合にのみ抽出されます。
•
左かっこ "("、および右側に ":" と証券取引所が順に続く。例: (MSFT:NYSE
•
証券取引所と後続の ":"。例: NYSE:MSFT
•
"Microsoft Corporation (NASDAQ:MSFT)" の中の MSFT
•
"Hewlett-Packard (HPQ:NASDAQ)" の中の HPQ
5.8.2.3.26 TIME
時、分、および秒の指定:
•
9:00
•
9:00 a.m.
•
9:15 pm PST
時間表現:
129
•
8 a.m.-2 p.m.
•
2 to 5 p.m.
2012-06-14
言語モジュールリファレンス
5.8.2.3.27 TIME_PERIOD
時間のメジャー、および時間の範囲のメジャー:
•
5 seconds
•
1 hour, 35 minutes
•
25 years
•
5-10 minutes
•
20-30 years
•
21st century
5.8.2.3.28 TITLE
肩書きおよび地位 (可能な場合は所属とともに):
•
President
•
Secretary of State
•
Director of Marketing
•
United States Attorney
•
Queen of England
•
Microsoft CEO
•
British Prime Minister
5.8.2.3.29 URI
インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます:
•
EMAIL– 電子メールアドレス。例:
•
•
IP– IP アドレス。例:
•
•
130
[email protected]
8.22.200.3
URL– インターネットアドレス。例:
•
http://www.netscape.com
•
www.netscape.com
•
kcbs.com
2012-06-14
言語モジュールリファレンス
5.8.2.3.30 YEAR
A.D., BC, BCE, または C.E などの表記を含む、すべての年:
•
2001
•
'63
•
1998 A.D.
•
200 BC
•
2525 C.E.
10 年間、100 年間、および年の表現:
•
1950s
•
50s
•
1999-2000
5.8.2.4 名詞の一般表記
名詞の一般表記は、通常は固有名詞によって参照されることになる、組織、個人、施設などのエンティティを参
照するための、普通名詞の使用を参照します。これらは、適切な名詞を主要語として、名詞句として定義され
ます。単数形および複数形の両方が一致されます。固有名詞および修飾語句も含まれます。限定詞は含まれ
ません。
ここでは、英語言語モジュールがサポートする名詞の一般表記と、それらの例について説明します。次の各リ
ンクをクリックすると、サブセクションに移動できます。131 ページの 「COMMON_ADDRESS1」、131 ページの
「COMMON_CONTINENT」、132 ページの 「COMMON_COUNTRY」、132 ページの 「COMMON_FACILITY」、
133 ページの 「COMMON_GEO_AREA」、133 ページの 「COMMON_GEO_FEATURE」、134 ページの 「COM
MON_LOCALITY」、134 ページの 「COMMON_ORGANIZATION」、135 ページの 「COMMON_PERSON」、お
よび 135 ページの 「COMMON_REGION」。
5.8.2.4.1 COMMON_ADDRESS1
住所に関する普通名詞:
•
fictitious address
5.8.2.4.2 COMMON_CONTINENT
任意の大陸の全体に関する普通名詞:
•
131
major continents
2012-06-14
言語モジュールリファレンス
5.8.2.4.3 COMMON_COUNTRY
任意の国の全体に関する普通名詞。このリストには、紛争中の領土や国際的に認知されていない領土などの、
従来のラベルを適用できない、地政学的なエンティティに関する普通名詞も含まれます:
•
beloved motherland
•
major countries
•
Native American reservation
•
smaller nations
5.8.2.4.4 COMMON_FACILITY
人工の構造物に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
•
•
•
132
AIRPORTS– 主に空輸ターミナルとして使用される、主として人工または維持対象の構造物の名前。以下
はその例です。
•
commercial airport
•
busy air field
•
public heliport
BUILDGROUNDS– 建築的な土木構造物の名前、および主として人工または維持対象の戸外空間の名
前。機能に関する区別はされません。民間施設、軍用施設のどちらでもありえます。業務、娯楽のどちらの
用途でも使用される可能性があり、記念建造物である可能性もあります。以下はその例です。
•
public library
•
famous national archives
•
national park
•
training camp
•
train station
•
naval port
PATH– 流動体、エネルギー、人、動物、または車両を、ある場所から別の場所に移動できる、主として人
工または維持対象の構造物の名前。以下はその例です。
•
deserted street
•
narrow canal
•
heavily defended bridge
PLANT– 工業目的で使用される、1 つ以上の建物で構成される施設の名前。以下はその例です。
•
oil refinery
•
copper smelter
•
thermal power station
2012-06-14
言語モジュールリファレンス
•
•
steel foundry
SUBAREA– 人、動物、または物を収容できる、施設の一部の名前。通常は建築上のもの。例:
•
small atrium
•
cold cellar
•
new kitchen
•
top-floor apartment
5.8.2.4.5 COMMON_GEO_AREA
政治的なエンティティでも自然の場所でもない地理的な地域に関する普通名詞。次のサブタイプのいずれか
として抽出されます:
•
•
DOMESTIC– 国境を越えない場所に関する普通名詞:
•
remote region
•
open frontier area
•
modest neighborhood
INTL– 国境をまたぐ場所に関する普通名詞
•
overseas
5.8.2.4.6 COMMON_GEO_FEATURE
自然地理的または政治的な地域に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
•
•
•
133
BOUNDARY– 境界線などの場所に関する普通名詞:
•
northern border
•
unaccessible frontiers
CELESTIAL– 地球の外側の場所に関する普通名詞:
•
largest planet
•
night sky
LAND– 地質学的または生態学的に形成された、人工のものではない場所に関する普通名詞:
•
mountain range
•
French seaside
WATER– 水域に関する普通名詞:
•
saltwater lake
•
flooding rivers
2012-06-14
言語モジュールリファレンス
5.8.2.4.7 COMMON_LOCALITY
市に関する普通名詞:
•
border town
•
densely populated cities
5.8.2.4.8 COMMON_ORGANIZATION
組織に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
•
•
•
•
•
•
134
COMMERCIAL– 会社に関する普通名詞:
•
small robotics company
•
pesticides manufacturers
•
world's fourth-biggest airline
EDUCATIONAL– 教育を目的とする機関に関する普通名詞:
•
private university
•
public colleges
ENTERTAINMENT– 娯楽を目的とする機関に関する普通名詞:
•
contemporary circus
•
theater company
GOVERNMENT– 行政、政策、または国家に関連する機関に関する普通名詞。政治的なエンティティとし
て機能することが可能な地政学的なエンティティのグループに関する普通名詞も含まれます
•
Taliban regime
•
Clinton administration
•
EU federation
MEDIA– マスメディアに関連する機関に関する普通名詞:
•
news service
•
television station
MEDICALSCIENCE– 治療または研究に関連する機関に関する普通名詞:
•
health group
•
teaching hospital
RELIGIOUS– 宗教に関連する機関に関する普通名詞:
•
Catholic church
•
powerful archdiocese
2012-06-14
言語モジュールリファレンス
•
•
SPORTS– スポーツに関連する組織に関する普通名詞:
•
major league
•
sport team
OTHER– 特定のサブタイプに適合しない組織に関する普通名詞:
•
Palestinian and Lebanese organizations
•
largest opposition party
5.8.2.4.9 COMMON_PERSON
個人に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
•
•
GROUP– 個人のグループに関する普通名詞:
•
wedding ceremony ministers
•
dead or injured members
•
submarine crew
INDIVIDUAL– 個人に関する普通名詞:
•
58-year-old man
•
math teacher
5.8.2.4.10 COMMON_REGION
さまざまな地域に関する普通名詞。次のサブタイプのいずれかとして抽出されます:
MAJOR - 州および地方に関する普通名詞。例:
•
historical provinces
•
home state
MINOR - 行政区の全体に関する普通名詞。例:
•
millionaire counties
•
development district
5.9 フランス語言語リファレンス
この章では、フランス語言語モジュールの動作について説明します。
135
2012-06-14
言語モジュールリファレンス
5.9.1 言語処理
ここでは、単語のセグメンテーション、ステミング、タグ設定など、フランス語テキストの言語処理における言語固
有の情報について説明します。
5.9.1.1 フランス語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.9.1.2 フランス語の単語のセグメンテーション
フランス語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま
す。フランス語のセグメンテーション機能には、次の言語固有の動作があります。
フランス語の接語やエリジオンは、これらが修飾する単語から分離されます。セグメンテーション機能では、動
詞の末尾のハイフンは保持され、各接語の先頭にハイフンが付けられます。エリジオンを分離するときに、アポ
ストロフィは、文字が省略されていた単語に付いて保持されます。省略形は、区切り記号がそのまま保持されま
す。
テキスト
セグメンテーション後
donne-
donne-le-moi
-le
-moi
l'
l'abri
abri
136
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
trad.
trad.
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.9.1.3 フランス語のステミング
ここでは、フランス語のステミングで使用される、標準ステム機能、拡張屈折ステム機能、および屈折ステマー
推測機能について説明します。
5.9.1.3.1 標準ステム機能
フランス語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な
品詞 (オープンクラス) はその原形にステム処理されます。女性の職業名詞は、同等の男性名詞にステム処理
されます。固有名詞はそのものにステム処理されます。次の表にこれを示します。
カテゴリ
原形
例
名詞
単数形
livres -> livre; actrice -> acteur
固有名詞
ソースの形式
France -> France
動詞
不定詞
connais, connaissez -> connaître
形容詞
男性単数形
grandes, grande -> grand
副詞
ソースの形式
probablement -> probablement
フランス語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されます。
複数形のみの形、およびすべての人称代名詞では、数情報が保持されます。適用できる場合は、これらの代
137
2012-06-14
言語モジュールリファレンス
名詞は主格形にステム処理されます。その他の形はすべて、男性単数形にステム処理されます。次の表にこ
れを示します。
テキスト
ステム
beaucoup
beaucoup
plusieurs
plusieurs
elles
ils
moi
je
lesquelles
lequel
クローズドクラスの単語は正規化される場合と、そのものにステム処理される場合があります。
省略形、頭字語、感嘆詞、数字、および擬音語の各形式の単語カテゴリは、そのものにステム処理されます。
次の表にこれを示します。
例
ステム
par ex.
par ex.
min.
min.
UNICEF
UNICEF
15km
15km
短縮された前置詞は、そのコンポーネントに分割され、これらのステムの間に等号を挿入して返されます。等号
は、各ステムが意味上同じ程度重要であることを示します。短縮された前置詞が複合語ユニット内に出現する
場合、最後の短縮が分割されます。次の表にこれを示します。
138
例
ステム
au
à=le
2012-06-14
言語モジュールリファレンス
例
ステム
au moment du
au moment de=le
5.9.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。フランス語固有の
ものは次のとおりです。
拡張バージョンでは、正確な大文字表記およびアクセント記号表記は必要ありません。
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
Paris
Paris
paris
Paris
IBM
IBM
ibm
IBM
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字に置き換えられるアクセント記号なし文字を許容します。
139
例
出力
héros
héros
heros
héros
nôtre
nôtre
2012-06-14
言語モジュールリファレンス
例
出力
notre
nôtre
ハイフネーション
拡張バージョンでは、数値ではない表現内のハイフンはオプションです。
例
出力
Tiers-Monde
Tiers-Monde
TiersMonde
Tiers-Monde
est-ouest
est-ouest
estouest
est-ouest
5.9.1.3.3 屈折ステマー推測機能
屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能
にとって未知であるため、ステム処理できない単語に適用できます。
このソフトウェアの言語処理は、最初に標準または拡張屈折ステム機能を使用してステミングを試み、次に、従
来どおりにステム処理できなかった単語にのみ、ステマー推測機能を使用します。
5.9.1.4 フランス語の品詞タグ設定
次の表にフランス語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。例が複数の
単語で構成される場合、現在のタグを例示する単語を太字で示します。タグセットは性別を区別しません。
140
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Adj
不変化形容詞
heureux
Adj-Ord-Pl
スペルアウトされた複数
形の序数
deuxièmes
Adj-Ord-Sg
スペルアウトされた単数
形の序数
deuxième
Adj-Pl
複数形の形容詞
gentilles
Adj-Pre
前置された、不変化形容
詞
vieux
Adj-Pre-Pl
前置された、複数形の形
容詞
petits chiens
Adj-Pre-Sg
前置された、単数形の形
容詞
petit chien
Adj-Sg
単数形の形容詞
gentille
Adv
副詞
finalement, aujourd'hui
Adv-Deg
形容詞を修飾できる副詞
très
Aux-Fin-12
一人称または二人称の
助動詞、任意の時制
fusse
Aux-Fin-3-Pl
三人称複数の助動詞、
任意の時制
seraient
Aux-Fin-3-Sg
三人称単数の助動詞、
任意の時制
serait
Aux-Inf
不定詞の助動詞
en avoir assez
Aux-PaPart
過去分詞の助動詞
eu
Aux-PrPart
現在分詞の助動詞
ayant
Conj-Adv
等位接続詞または従属
接続詞
quand
Conj-comme
Comme
comme
Conj-Coord
等位接続詞
et, ou
Conj-que
Que
que
Adj
Adv
Aux
Conj
141
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Det-Pl
複数形の限定詞
vos
Det-Sg
単数形の限定詞
ma, votre
Interj
感嘆詞
hi, pouah
Nn
不変化名詞
taux
Nn-Letter
Letter
z, K
Nn-Net
URL および電子メール
アドレス
Nn-Pl
複数形の名詞
chiens, fourmis
Nn-Sg
単数形の名詞
chien, fourmi
Num
数詞または数字表現
treize, un million, 12,
15kHz, XIX
Part-Neg
否定の不変化詞
ne
Part-voicila
不変化詞 voici および
voilà
voici, voilà
Prep
前置詞 ( à au de du ...
以外)
dans
Prep-a
前置詞 à
à, au, aux
Prep-de
前置詞 de
de, des, du, d'
Prep-en
前置詞 en
en bonne santé
Pron
代名詞
il, elles
Pron-12
一人称または二人称の
代名詞
je
Pron-Clit
接続代名詞
donne-le, donne-lui
Pron-IntRel
関係代名詞または疑問
代名詞 (que 以外)
qui, quoi, lequel
Prop
固有名詞
Marie, Paris
Det
Interj
Nn
Num
Part
Prep
www.inxight.com,
[email protected]
Pron
Prop
142
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Punct
区切り記号
:-
Punct-Comma
コンマ
,
Punct-Quote
引用符
"
Punct-Sent
文末の区切り記号
. ! ?;
V/Adj-PaPart
不変化過去分詞の動詞
または形容詞
souri
V/Adj-PaPart-Pl
複数形過去分詞の動詞
または形容詞
lues
V/Adj-PaPart-Sg
単数形過去分詞の動詞
または形容詞
dansé
V-Fin-12
一人称または二人称の
動詞、任意の時制
dansiez, dansais
V-Fin-3-Pl
三人称複数の動詞、任
意の時制
danseront
V-Fin-3-Sg
三人称単数の動詞、任
意の時制
dansait
V-Inf
不定詞の動詞
danser, finir
V-PrPart
現在分詞の動詞
notant
Punct
V/Adj
V
5.9.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、フランス語のタグ設定推測機能に渡されます。この機能で
は、これらの単語に、フランス語の形態構造および大文字表記に関するルールセットに基づくタグが設定され
ます。次のタグ設定ルールセットは、このモジュールの一部です。
動詞のタグは動詞の活用形に従って設定されます。副詞のタグは、末尾が -ement, -amment, -emment,
-iment の単語に設定されます。末尾が -able(s), -ible(s), -eux, -ois の単語は形容詞とみなされ、末尾が
-gé(s), -ré(s) の単語は過去分詞とみなされます。
その他の、すべて小文字のアルファベットの単語 (末尾が -s のもの以外) はすべて単数形の名詞とみなされ、
末尾が -s, -aux, および -men のすべて小文字のアルファベットの単語は複数形の名詞とみなされ、末尾が
x, z, ais, ois のすべて小文字のアルファベットの単語は不変化名詞とみなされます。インターネットアドレスお
よび電子メールアドレスには、Nn-Net としてタグ設定されます。
大文字ではじまる単語、または数字ではじまり大文字が続く単語は、固有名詞とみなされます。このような単語
の残りの部分には、数字、小文字または大文字の文字、ハイフン、またはスラッシュが含まれることがあります。
143
2012-06-14
言語モジュールリファレンス
数字と区切り記号の組み合わせは、数字としてタグ設定されます。連続した区切り記号マークは、区切り記号
としてタグ設定されます。
5.9.2 抽出
ここでは、フランス語の抽出固有の情報について説明します。
5.9.2.1 フランス語のサブタイプ
フランス語がサポートするサブタイプのタイプは、NIN、ORGANIZATION、REGION、SOCIAL_MEDIA、および
URI です。
関連項目
• 34 ページの「 サブタイプ」
5.9.2.2 事前定義済みエンティティタイプ
ここでは、フランス語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について
説明します。次の各リンクをクリックすると、サブセクションに移動できます。144 ページの 「ADDRESS1」、145
ページの 「CONTINENT」、145 ページの 「COUNTRY」、146 ページの 「CURRENCY」、146 ページの 「DATE」、
147 ページの 「DAY」、147 ページの 「GEO_AREA」、147 ページの 「GEO_FEATURE」、148 ページの 「HOLI
DAY」、148 ページの 「LANGUAGE」、148 ページの 「LOCALITY」、148 ページの 「MEASURE」、149 ページの
「MONTH」、149 ページの 「NIN」、149 ページの 「NOUN_GROUP」、150 ページの 「ORGANIZATION」、151
ページの 「PEOPLE」、151 ページの 「PERCENT」、151 ページの 「PERSON」、151 ページの 「PHONE」、152
ページの 「PRODUCT」、152 ページの 「PROP_MISC」、152 ページの 「REGION」、153 ページの 「SOCIAL_ME
DIA」、153 ページの 「TICKER」、153 ページの 「TIME」、154 ページの 「TIME_PERIOD」、154 ページの 「TITLE」、
155 ページの 「URI」、および 155 ページの 「YEAR」。
5.9.2.2.1 ADDRESS1
ADDRESS1 の形式は、カナダ系フランス語およびヨーロッパのフランス語の住所にみられる、典型的な住所の
パターンに基づきます:
144
2012-06-14
言語モジュールリファレンス
Street-address
City
Province
Country
Postal-code
27 rue Pasteur
Sherbrooke
Québec
Canada
J1K 2Y3
•
4, rue du 8 Mai 1945, Vancouver, BC, V6E 1R8
•
Case Postale 123, Succursale Centre-Ville, Montréal, PQ, Canada
Street-address
Postal-code
City
Country
31bis, Saint-Joseph
nord
13402
Marseille,
France
•
Rue du Cornet 6 B-4800 VERVIERS BELGIQUE
•
19 quai de la Voltaire, Paris
•
68bis avenue des Abesses
•
1, av Carnot
•
2ter, Fbg des Abesses
5.9.2.2.2 CONTINENT
大陸のいずれか。例:
•
Asie
•
Europe
•
Afrique
5.9.2.2.3 COUNTRY
国の名前、および一定の国家集団の略称。このリストには、紛争中の領土や国際的に認知されていない領土
などの、従来のラベルを適用できない、地政学的なエンティティの名前も含まれます:
145
•
France
•
République française
•
Belgique
•
Royaume de Belgique
•
Canada
2012-06-14
言語モジュールリファレンス
•
Suisse
•
É.-U.
•
Gibraltar
•
Kosovo
•
Taiwan
•
Tibet
5.9.2.2.4 CURRENCY
金額を表す表現、および金額の範囲を表す表現:
•
6 800 000 DM
•
68.985FB
•
300,687
•
28,5 £
•
$ 5000
•
deux cent deux yens
•
une dizaine de milliards de francs belges
•
de 3 à 4 francs
•
de 5DM à 15DM
•
entre trois et quatre milliards de dollars canadiens
•
1260000000 EUR
•
0.18 EUR
•
200000 USD
•
50000000000 USD
•
36.33 USD
5.9.2.2.5 DATE
日付は最低でも 1 つの数字と月の名前で構成されます:
146
•
6 Oct
•
10 nov.
•
17 fév 1999
•
31/12/1986
•
3-31-2000
2012-06-14
言語モジュールリファレンス
•
3.31.2000
•
2007-07-30
日付表現:
•
3 et 4 juin, 2000
•
3, 5, et 7 juin, 2000
•
du 3 au 5 juin 2000
•
28 et 29 juillet
5.9.2.2.6 DAY
曜日の名前、および曜日を基にした表現:
•
vendredi
•
Mardi
•
jeudi et vendredi
•
de samedi à dimanche
•
vendredi, samedi et dimanche
5.9.2.2.7 GEO_AREA
国の集団など、重要な土地の集合体を指す、市よりも大きい地理的な領域:
•
Gaspésie
•
Amazonie
•
Asie du Sud-Est
•
Silicon Valley
•
Moyen-Orient
•
Afrique de l'Ouest
5.9.2.2.8 GEO_FEATURE
CONTINENT、COUNTRY、GEO_AREA、LOCALITY、または REGION として識別されない場所の名前:
147
•
delta du Niger
•
Himalaya
•
fleuve Saint-Laurent
•
mer Ionienne
2012-06-14
言語モジュールリファレンス
5.9.2.2.9 HOLIDAY
一般的な休日の名前:
•
Toussaint
•
Nouvel An
•
Pâques
•
Réveillon de Noël
5.9.2.2.10 LANGUAGE
言語に関連する名詞:
•
Il parle l'espagnol
•
Un livre en allemand
•
Le swahili est une langue d'Afrique
5.9.2.2.11 LOCALITY
市の名前:
•
Honfleur
•
Bruxelles
•
Londres
•
Prague
•
San Francisco
5.9.2.2.12 MEASURE
メジャー表現、およびメジャーの範囲を表す表現:
148
•
200.000 tonnes
•
1.600 mégawatts
•
242.000 barils
•
45 degrés
•
18 kilomètres
•
30 ml
•
512 bits
•
entre 5 et 6 centimètres
•
de 50 à 60 eV
2012-06-14
言語モジュールリファレンス
5.9.2.2.13 MONTH
暦の月の名前および 1 つ以上の月を表す句:
•
septembre
•
mi-août
•
entre avril et juin
•
d'avril à juin
•
mi-décembre
•
de mai à septembre 1896
5.9.2.2.14 NIN
カナダの社会保険番号およびフランスの INSEE 番号は、次のサブタイプのいずれかとして抽出されます:
•
FR_INSEE– Numbers from the French Institut national de la statistique et des études économiques:
1 23 45 67 890 000
•
CA_SIN– Canadian Social Insurance numbers:
123-456-789
注
カスタムクレンジングパッケージを作成して、NIN/CA_SIN エンティティまたは NIN/FR_INSEE エンティティを解
析および標準化できます。抽出された NIN/CA_SIN または NIN/FR_INSEE エンティティは、UDPM (ユーザ定
義パターン一致) 入力フィールドのいずれかにマッピングすることで、Data Quality Data Cleanse トランスフォー
ムを使用して解析および標準化できます。
UDPM 入力フィールドの使用の詳細については、 『SAP Business Objects Data Services リファレンスガイド 』
を参照してください。
5.9.2.2.15 NOUN_GROUP
フランス語の単純名詞句は、名詞と、必要に応じて前置修飾語および後置修飾語で構成されます:
149
•
progression équivalente
•
développement durable
•
épargne populaire
•
pays européens
•
internautes expérimentés
•
fonds spéculatif australien
2012-06-14
言語モジュールリファレンス
5.9.2.2.16 ORGANIZATION
非営利団体、美術グループなどの団体や組織を含む、商業機関、政府機関、教育機関、法律機関、および
サービス機関。次のうちいずれかのサブタイプとして抽出されます。
•
COMMERCIAL– 主要な企業や法人などの営利組織の名前。例:
•
Airbus
•
Enron
•
Northern Trust
•
Banque de Montréal
•
XYZ S.A. as in Peugeot S.A.
•
XYZ Enregistrée as in Goblet Systems Enregistrée
•
XYZ Incorporée as in Goblet Incorporée
•
Télécom XYZ as in Télécom Intermosane
一定の、英語の会社名のパターン:
•
XYZ and Co. as in Arditon and Co.
•
XYZ Limited as in Advance Technology Limited
注
Any extracted ORGANIZATION/COMMERCIAL entities can be parsed and standardized using the Data
Quality Data Cleanse transform by mapping them to one of the FIRM input fields.
•
•
150
EDUCATIONAL– 主に教育を目的とする機関の名前。例:
•
Université de Bordeaux
•
Université Pierre et Marie Curie
•
Université du Québec
•
Ecole élémentaire publique d’Amiens
OTHER– 政治的なエンティティとして機能することが可能な地政学的なエンティティのグループを含む、そ
の他の非営利組織:
•
Agence Européenne de la Sécurité Aérienne
•
Université de Louvain
•
Unesco
•
Union Européenne
•
Benelux
2012-06-14
言語モジュールリファレンス
5.9.2.2.17 PEOPLE
国民の名前:
•
les Anglais
•
les Canadiens
•
les Danois
5.9.2.2.18 PERCENT
パーセント表現、およびメジャーの範囲を表す表現:
•
26.8%
•
6.6%
•
de 70 à 85 %
5.9.2.2.19 PERSON
個人の名前のバリエーション:
•
François Guérard
•
Clinton
•
William J. Clinton
•
W. J. Clinton
敬称の省略形ではじまる、氏名または名前:
•
M. Thibaut
•
Mr. Bill H. Jones
•
Lieut. Van Damme
•
très hon. Jean Chrétien
5.9.2.2.20 PHONE
北アメリカ形式の電話番号:
•
1-800-555-1111
•
(408) 555-1111
•
555-1111
フランスおよび国際的に使用されるパターンの電話番号:
•
151
12 34 56 78 90
2012-06-14
言語モジュールリファレンス
•
12/34/56/78/90
•
(01) 12 34 56 78 90
•
+44 (0) 1252 761314
•
Tél. : +33 1 41 25 38 15
•
tel +32 2 423 17 67
•
Fax: +33 (0)1 55 77 33 96
5.9.2.2.21 PRODUCT
必要な場合は会社名が先行する、製品名:
•
PlayStation
•
iPhone
•
Airbus A320
•
Boeing 737
5.9.2.2.22 PROP_MISC
他のエンティティで特定されるエンティティタイプのいずれにも分類されない、固有名詞:
•
Gemstar-TV
•
EurObserver
•
CeBIT
•
Enduring Freedom
5.9.2.2.23 REGION
さまざまな地域は、次のサブタイプのいずれかとして抽出されます:
•
•
MAJOR– カナダの州や準州、フランスの行政区、米国の州などの国の主要な行政区分:
•
Alsace
•
Bretagne
•
Lorraine
•
Saint-Pierre-et-Miquelon
•
Ontario
•
Andalousie
MINOR– 国、県、地区の名前、または類似の区画や行政機関:
•
152
Calvados
2012-06-14
言語モジュールリファレンス
•
Essonne
•
Finistère
5.9.2.2.24 SOCIAL_MEDIA
ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック
は、次のサブタイプのいずれかとして抽出されます:
注
SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。
•
•
"@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例:
•
@LaurenceDutour
•
@René_Latendresse
•
@sapnoticiasbr
•
@SCNblogs
•
@sapnews
•
@SAP_MICROSOFT
"#" ではじまる TOPIC_TWITTER–Twitter のトピック。例:
•
#Ardèche
•
#CharliHeddo
•
#SAP
•
#Mobility
•
#SAPPRESS
•
#SAP_projects
5.9.2.2.25 TICKER
株式市場で使用される企業の株式のティッカーシンボル:
•
NYSE: SAP
•
Nasdaq: BOBJ
•
Nasdaq: US7170811035
5.9.2.2.26 TIME
時刻、および時間表現:
•
153
21h35
2012-06-14
言語モジュールリファレンス
•
21 h 35
•
21h 35
•
21h
•
21:35
•
21:35:15
•
21H00 GMT
語句での時刻表現:
•
3 heures
•
3 heures et quart
•
midi moins un quart
時刻に基づく表現:
•
entre 3h 30 et 4h
•
de 12h 20 à 6h 10
5.9.2.2.27 TIME_PERIOD
時間間隔のメジャー、および時間のメジャーの範囲を表す表現:
•
20 ans
•
deux années
•
deux jours
•
dix-huit ans
•
quatre-vingt-dix minutes
•
de trois à deux semaines
•
une journée
•
deux derniers jours
•
10-15 ans
•
de 3 à 8 ans
•
entre 30 et 55 ans
5.9.2.2.28 TITLE
政府機関、企業などの組織で重要な地位の名前:
154
•
directeur de service
•
ministre des Finances
2012-06-14
言語モジュールリファレンス
•
gouverneur de la Banque du Canada
5.9.2.2.29 URI
インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます:
•
•
EMAIL– Lotus Notes のアドレスなどを含む、電子メールアドレス。例:
•
[email protected][email protected][email protected]
•
Dupont/BOBJ@CMP
•
CTarin/Inxight@CMP
IP– IP アドレス。例:
•
•
8.22.200.3
URL– インターネットアドレス。例:
•
Monde.fr
•
www.gensdebaignade.org
•
www.champy.ca
•
www.lactualite.com
•
http://clubobs.nouvelobs.com/blogs/blogs/regereau
5.9.2.2.30 YEAR
年の識別子、10 年間を表す表現、100 年間を表す表現、年の範囲、年に基づく表現:
155
•
2007
•
années 60
•
entre 1996 et 2006
•
entre 1991 et 2000
•
années 90
•
2005-2007
•
2007/2008
•
années 80 et 90
2012-06-14
言語モジュールリファレンス
5.10 ドイツ語言語リファレンス
この章では、ドイツ語言語モジュールの動作について説明します。
5.10.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、ドイツ語テキストの言語処理における言語固有の情報に
ついて説明します。
5.10.1.1 ドイツ語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.10.1.2 ドイツ語の単語のセグメンテーション
ドイツ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま
す。ドイツ語のセグメンテーション機能には、次の言語固有の動作があります。
ドイツ語のセグメンテーション機能では、短縮形がアポストロフィの位置で分割されます。いくつかのアポストロ
フィを含む非短縮形は、アポストロフィが単語の一部なので、アポストロフィの位置では分割されません。
テキスト
セグメンテーション後
geht
geht's
's
156
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
auf
auf's
's
Maxime's
Maxime's
複合語が接続詞で結合された 2 つのパーツで構成される場合、ハイフンは複合語の一部から分離されませ
ん。後続の単語が小文字ではじまる場合、先行するハイフンは分割されません。ただし、後続の単語が大文字
ではじまる場合、ハイフンは分割されます。
テキスト
セグメンテーション後
West-
West- und Ostgoten
und
Ostgoten
Silbermesser
Silbermesser und -gabel
und
-gabel
-
-West
West
省略形の区切り記号は分割されません。序数も、ピリオドがそのまま保持されます。
157
テキスト
セグメンテーション後
Mrd.
Mrd.
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
bzgl.
bzgl.
43.
43.
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.10.1.3 ドイツ語のステミング
ここでは、ドイツ語のステミングで使用される、標準ステム機能、拡張屈折ステム機能、および屈折ステマー推
測機能について説明します。
5.10.1.3.1 標準ステム機能
ドイツ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品
詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。
カテゴリ
原形
例
名詞
主格の単数形
Tischen -> Tisch; Leuten ->
Leute
動詞
不定詞
schwimmt, schwamm,
geschwommen -> schwimmen
形容詞
原型
farbigen -> farbig; vag -> vage
副詞
ソースの形式
ganztags -> ganztags
ドイツ語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されます。複
数形のみの形、およびすべての人称代名詞では、数と性別情報が保持されます。適用できる場合は、これら
158
2012-06-14
言語モジュールリファレンス
の代名詞は主格形にステム処理されます。その他の形はすべて、単数形の任意の性別の主格形にステム処
理されます (適用可能な場合)。次の表にこれを示します。
テキスト
ステム
manch
manch
ich, meiner, mir
ich
demjenigen
dasjenige,derjenige
非屈折カテゴリはそのものにステム処理されます。たとえば、省略形、頭字語、数字、接続語などです。ドイツ
語のステム機能では、新旧両方のスペリングのバリアントがサポートされます。入力が新しいスペリングのバリア
ントの場合、古いスペリングにステム処理されます。次の表に例を示します。
テキスト
ステム
zahlr.
zahlr.
ZDF
ZDF
Delphin, Delfin
Delphin
behende, behände
behende
短縮された前置詞は、そのコンポーネントに分割され、これらのステムの間に等号を挿入して返されます。等号
は、各ステムが意味上同じ程度重要であることを示します。次の表にこれを示します。
159
テキスト
ステム
aufs
auf=das
beim
bei=das,bei=der
zur
zu=die
2012-06-14
言語モジュールリファレンス
5.10.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ドイツ語固有のもの
は次のとおりです。
ドイツ語モジュールの拡張バージョンは、強制的にハイフンが付く単語の任意のハイフネーション、大文字小
文字のバリエーション、およびアクセント記号付き文字のアクセント記号が付いていない形式に対応します。
ハイフネーション
拡張バージョンでは、通常は強制的にハイフンが付く単語の、任意のハイフネーションを許容します。
例
出力
MS-DOS
MS-DOS
MSDOS
MS-DOS
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
USA
USA
usa
USA
アクセント記号なし文字
ドイツ語の拡張バージョンでは、アクセント記号付き文字の他に、完全なアクセント記号なし文字を許容します。
160
例
出力
Müller
Müller
Muller
Müller
2012-06-14
言語モジュールリファレンス
これは、ドイツ語の標準、拡張の両バージョンが許容する、タイプライターのアクセント記号付き文字 (ü の ue)
に追加されるものであることに注意してください。
5.10.1.3.3 屈折ステマー推測機能
屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能
にとって未知であるため、ステム処理できない単語に適用できます。
言語処理は、最初に標準または拡張屈折ステム機能を使用してステミングを試み、次に、従来どおりにステム
処理できなかった単語にのみ、ステマー推測機能を適用します。
5.10.1.3.4 ドイツ語の複合語分析
ドイツ語のステミングモジュールには、多様な複合語を分析することを目的とし、本来無限数の複合語を処理
する能力のある、包括的メカニズムがあります。ドイツ語の複合では、名詞と名詞、名詞と形容詞、動詞と名詞
など、さまざまな品詞を結合できます。ハイフンで接続された複合語は、他の複合語と同様に扱われます。
デフォルトでは、複合語は複数のコンポーネントステムに分割されます。非分割ステミングバリアントを使用し
て、複合語をそのまま保持できます。
次のサンプル出力で、標準ステム機能に返される場合の、コンポーネントステムを示します。複合語の境界は
# でマークされます。
例
出力
Muttertag
Mutter#Tag
複合語の要素の原形が、複合語の中での出現する位置に関わらず、単独で出現する場合と同様に大文字で
はじめられます。そのため名詞要素は、複合語の先頭要素でない場合にも、大文字ではじまるステムを持ちま
す。同様に、複合語の先頭要素としての形容詞のステムは、大文字ではじまりません。
Vor- und Nachmittag ("正午前と正午後") や Bachkonzerte und -kantaten ("バッハのコンチェルトとカンター
タ") のような複合語が出現することがあります。このハイフンは、原形の一部ではありません。
例
出力
vor
Vor- und Nachmittag
und
Nachmittag
161
2012-06-14
言語モジュールリファレンス
例
出力
Bach#Konzert
Bachkonzerte und -kantaten
und
Kantate
名詞 - 名詞型の複合
ドイツ語の名詞 - 名詞型の複合語には、多くの場合、主要な要素を接続させる要素 (Fugenelemente) が含
まれます。たとえば、Herr ("男性") という単語と Mantel ("コート") という単語を組み合わせて複合語にする場
合、接続要素 -en- がこれらの単語の間に挿入され、Herrenmantel ("男性のコート") となります。接続要素は
ステマー出力には出現しません。
例
出力
Herrenmantel
Herr#Mantel
ドイツ語モジュールは、このような接続要素が、名詞の屈折クラスに基づいて決定できることを前提にしていま
す。つまり、原形と接続要素の組み合わせからは通常、関連する単語の標準的な屈折形が生成されます
(Herren は Herr の複数形など)。
名詞 - 名詞型複合語の例を示します。モジュールは、3 語以上の単語を組み合わせた複合語も分析できるこ
とに注意してください。
162
例
出力
Lehrlingsnot
Lehrling#Not
Kinderarzt
Kind#Arzt
Kindesentführung
Kind#Entführung
Obstanbaugebiet
Obst#Anbau#Gebiet
Informatik-Konzepte
Informatik#Konzept
2012-06-14
言語モジュールリファレンス
名詞的な最終要素
名詞で終わるドイツ語の複合語において、最終要素以外の要素になる可能性があるとされているのは、名詞
だけではありません。モジュールは、数詞、形容詞、形容詞的分詞、副詞、動詞のステム、および固有名詞も
認識します。すでに述べたように、ステムの大文字表記は単独の単語の用法で行われます。
例
出力
Optimalsumme
optimal#Summe
Linkskurve
links#Kurve
Goethehaus
Goethe#Haus
Waschmaschine
waschen#Maschine
形容詞的な最終要素
形容詞は他の形容詞と結合して、結合形容詞を作れます。名詞と数詞は、形容詞的な最終要素を持つ複合
語の、先頭要素になることができます。例:
163
例
出力
blaugrün
blau#grün
hellgelb
hell#gelb
graphiktauglich
Graphik#tauglich
ausbaufähig
Ausbau#fähig
zweiblättrig
zwei#blättrig
blau-grau
blau#grau
2012-06-14
言語モジュールリファレンス
5.10.1.3.5 複合語非分割ステム機能
標準の複合語分析の他に、ドイツ語言語モジュールには、複合の分割を実行しないさまざまなステム機能があ
ります。このステム機能は、複合語を全体としてステム処理しますが、その複合語を複数のステムに分離しませ
ん。返されるステムは、常に 1 つの語で、複合語の境界マーカーがついていないため、分割できません。
次の例で、非分割ステム機能からの出力と標準ステム機能の出力を比較します。
例
標準出力
非分割出力
Bildungsromane
Bildung#Roman
Bildungsroman
Männerhosen
Mann#Hose
Männerhose
Hundehütten
Hund#Hütte
Hundehütte
himmelblaue
Himmel#blau
himmelblau
Rotstiften
rot#Stift
Rotstift
ABC-Alarm
ABC#Alarm
ABC-Alarm
Informatik-Konzepte
Informatik#Konzept
Informatik-Konzept
Bereitschafts-Dienst
Bereitschaft#Dienst
Bereitschafts-Dienst
blau-grau
blau#grau
blau-grau
これらの複合語は分割されないため、入力例と同じ大文字表記が保持されます。たとえば、この大文字表記
は、主要な単語の品詞によって決定されます。ハイフンで結合された単語も分割されず、ハイフンが保持され
ます。
5.10.1.4 ドイツ語の品詞タグ設定
次の表にドイツ語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。例が複数の単
語で構成される場合、現在のタグを例示する単語を太字で示します。タグセットは性別を区別しません。
164
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Adj-Attr
限定形容詞
schwarze Katze
Adj-Attr-Comp
比較級の限定形容詞
kleinere Datei
Adj-Attr-Ord
スペルアウトされた序数
dritter Mann
Adj-Attr-Sup
最上級の限定形容詞
schnellster Läufer
Adj-Dem
指示形容詞
solche
Adj-Indet
不定形容詞
deinige
Adj-Pred
叙述形容詞 (副詞の場
合あり)
schnell
Adj-Pred-Comp
比較級の叙述形容詞
besser
Adj-Pred-Sup
最上級の叙述形容詞
am schnellsten
Adv
副詞
immer, zwar
Adv-Int/Rel
疑問副詞または関係副
詞
wieso
Adv-Pron
代名詞的副詞
hierfür
Aux-Fin
定形助動詞
bist
Aux-Inf
助動詞の不定詞
gebildet haben
Aux-PaPart
助動詞の過去分詞
gehabt
Cmpd
Cmpd-Left
残された複合語のパーツ
zwei-, Kontakt-
Conj/Adv
Conj/Adv
接続詞または副詞
jedoch
Conj-als
接続詞 als
als
Conj-Coord
等位接続詞
und
Conj-Inf
不定詞の接続詞
um ... zu
Conj-Post
相関接続詞
weder ... noch
Conj-Pre
前置接続詞
weder
Conj-Subord
従属接続詞
weil
Conj-wie
接続詞 wie
wie
Adj
Adv
Aux
Conj
165
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Det/Pron
Det/Pron-Quant
数量限定詞または数量
代名詞
lauter Sachen
Det-Art
冠詞
die, das
Det-Dem
指示限定詞
diese
Det-Indet
不定限定詞
keiner
Det-Int/Rel
疑問限定詞または疑問
代名詞
wieviel
Det-Poss
所有限定詞
dein
Interj
感嘆詞
ach, oh
Modal-Fin
定形の法動詞
darf
Modal-Inf
法動詞の不定詞
gehorchen sollen
Modal-PaPart
法動詞の過去分詞
segeln gedurft
Nn
名詞
Tisch
Nn-Letter
ピリオド付きまたはピリオ
ドのない小文字の文字
列、および大文字の文字
列
Nn-Net
URL および電子メール
アドレス
Num
基数または日付
zwei, 2.3.1999
Num-Ord
序数
43.
Det
Interj
Modal
Nn
Ein e
Ein r.
www.inxight.com,
[email protected]
Num
166
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Part-Ant
文の不変化詞
danke
Part-Comp
比較の不変化詞
viel besser
Part-Inf
不定詞の不変化詞
zu sagen
Part-Neg
否定の不変化詞
nicht
Part-Num
数の不変化詞
rund 50 Dateien
Part-Pos
肯定の不変化詞
zu schnell
Part-Pref
分離できる接頭辞
Er rief mich an.
Part-Sup
最上級の不変化詞
am besten
Prep-aus
前置詞 aus
aus
Prep-Circ
名詞の前後に置く両置
詞の最後のパーツ
um Himmels willen
Prep-Det
前置詞と冠詞の組み合
わせ
zum
Prep-fuer
前置詞 für
für
Prep-Post
後置詞
dem Haus gegenüber
Prep-Pre
前置詞
mit
Prep-pro
前置詞 pro
pro
Prep-von
前置詞 von
von
Part
Prep
167
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Pron
Punct
完全タグ
説明
例
Pron-Dem
指示代名詞
diese ist besser
Pron-Dem-Inv
非屈折指示詞
solch ein Erfolg
Pron-Indet
不定代名詞
niemand
Pron-Indet-Inv
非屈折限定詞
manch ein Mensch
Pron-Int/Rel
疑問代名詞または関係
代名詞
was, wer
Pron-Int/Rel-Inv
非屈折疑問代名詞また
は関係代名詞
was für
Pron-Pers
人称代名詞
ich
Pron-Poss
所有代名詞
meine sind gelb
Pron-Recip
相互代名詞
einander
Pron-Refl
再帰代名詞
sich
Pron-Rel
関係代名詞
die Leute, die . . .
Punct
区切り記号
()
Punct-Comma
コンマ
,
Punct-Sent
文末の区切り記号
.?!
V-Fin
定形動詞
schwimmt
V-Inf
不定詞の動詞
er kann schwimmen
V-Izu
zu 不定詞
auszubilden
V-PaPart
過去分詞の動詞
er ist geschwommen
V
5.10.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、ドイツ語のタグ設定推測機能に渡されます。この機能では、
これらの単語に、ドイツ語の形態構造および大文字表記に関するルールセットに基づくタグが設定されます。
次のタグ設定ルールセットは、このモジュールの一部です。
名詞のタグは、多くの名詞の接尾辞で終わる単語に設定されます。動詞のタグは、-ier などの特定の末尾で終
わる小文字の単語に設定されます。副詞のタグは、-weise、-ens、および -mal で終わる単語に設定されます。
-ig、-isch、および -los のような末尾を持つ単語は、形容詞とみなされます。インターネットアドレスおよび電子
メールアドレスには、Nn-Net というタグが設定されます。
168
2012-06-14
言語モジュールリファレンス
大文字ではじまる単語は名詞とみなされます。これらの単語には、スラッシュ、数字、または中間に大文字が含
まれる可能性がありますが (TelCo、Tel/Fax、および 3Com)、ハイフンまたはアポストロフィは含まれません。
小文字の単語は形容詞または副詞とみなされます。区切り記号の組み合わせは、区切り記号とみなされます。
数字と区切り記号の組み合わせは、数字とみなされます。
5.10.2 抽出
ここでは、ドイツ語の抽出固有の情報について説明します。
5.10.2.1 ドイツ語のサブタイプ
ドイツ語がサポートするサブタイプのタイプは、ORGANIZATION、REGION、SOCIAL_MEDIA、および URI で
す。
関連項目
• 34 ページの「 サブタイプ」
5.10.2.2 事前定義済みエンティティタイプ
ここでは、ドイツ語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説
明します。次の各リンクをクリックすると、サブセクションに移動できます。169 ページの 「ADDRESS1」、170 ペー
ジの 「CONTINENT」、170 ページの 「COUNTRY」、170 ページの 「CURRENCY」、171 ページの 「DATE」、172
ページの 「DAY」、172 ページの 「GEO_AREA」、172 ページの 「GEO_FEATURE」、172 ページの 「HOLIDAY」、
173 ページの 「LANGUAGE」、173 ページの 「LOCALITY」、173 ページの 「MEASURE」、174 ページの
「MONTH」、174 ページの 「NOUN_GROUP」、174 ページの 「ORGANIZATION」、175 ページの 「PEOPLE」、
175 ページの 「PERCENT」、176 ページの 「PERSON」、176 ページの 「PHONE」、176 ページの 「PRODUCT」、
177 ページの 「PROP_MISC」、177 ページの 「PUBLICATION」、177 ページの 「REGION」、178 ページの 「SO
CIAL_MEDIA」、178 ページの 「TIME」、178 ページの 「TIME_PERIOD」、179 ページの 「TITLE」、179 ページの
「URI」、および 179 ページの 「YEAR」。
5.10.2.2.1 ADDRESS1
住所の形式は、ドイツ語の住所に基づきます。ストリート住所の場合:
169
2012-06-14
言語モジュールリファレンス
Street
Street No.
City-Code
市
国
Kaiserstraße
123
D-10623
Berlin
Deutschland
•
Kaiserstraße 123, 10623 Berlin, Deutschland
•
Stockerauerstraße 9, A8700 Leoben
•
Zugerbergstrasse 18, CH-6414 Unteraegeri
私書箱住所の場合:
P.O. Box number
City-Code
市
国
Postfach 10 43 51
D-70049
Stuttgart
Deutschland
5.10.2.2.2 CONTINENT
大陸のいずれか。例:
•
Afrika
•
Europa
5.10.2.2.3 COUNTRY
国の名前、および国の略称。このリストには、紛争中の領土や国際的に認知されていない領土などの、従来の
ラベルを適用できない、地政学的なエンティティの名前も含まれます:
•
Deutschland
•
Vereinigte Staaten von Amerika
•
U.K.
•
Palästina
•
Taiwan
5.10.2.2.4 CURRENCY
国際通貨の額:
170
•
3$
•
85,00 DM
2012-06-14
言語モジュールリファレンス
•
DM 48,00
•
US$ 1.00
•
drei Dollar
•
15,- DM
•
Euro 14.78
•
40 Millionen Euro
通貨額の範囲:
•
zwischen 3 und 4 Euro
•
zwischen $3 und $4
•
von 3 bis 4 Euro
通貨を表す語句:
•
3 Millionen Euro Umsatz
•
EUR 3.000 Festgeld
通貨率:
•
4500 Euro pro Quadratmeter
•
119 EUR pro Aktie
•
$20 / Stunde
•
0,5 Pf/min.
5.10.2.2.5 DATE
日付:
•
Montag, den 30. September 1954
•
Mi., 10. November 1998
•
14. Februar 1999
•
14. Februar '99
•
7. Januar
•
16.01.2000
•
16.01.99
•
7-2-2000
数日の期間がある日付:
•
171
29.3.-2.5.2000
2012-06-14
言語モジュールリファレンス
•
9.-10. Mai 2000
•
vom 1. März bis 2. Juni
•
14. August - 15. September
5.10.2.2.6 DAY
曜日:
•
Montag
•
Mittwoch
•
Mo.
•
Di.
5.10.2.2.7 GEO_AREA
国の集団など、重要な土地の集合体を指す、市よりも大きい地理的な領域:
•
Südamerika
•
Nordamerika
•
Karibik
•
Westeuropa
5.10.2.2.8 GEO_FEATURE
COUNTRY、GEO_AREA、LOCALITY、または REGION として識別されない場所の名前。
•
Bodensee
•
Zugspitze
•
Uranus
•
Indischer Ozean
5.10.2.2.9 HOLIDAY
一般的な休日の名前:
172
•
Weihnachten
•
Tag der Arbeit
•
Buß- und Bettag
2012-06-14
言語モジュールリファレンス
5.10.2.2.10 LANGUAGE
言語に関連する名詞
•
Englisch
•
Deutsch
•
Portugiesisch
5.10.2.2.11 LOCALITY
市の名前:
•
Paris
•
San Francisco
•
La Paz
地理的に指定された市の名前:
•
Freiburg im Breisgau
•
Frankfurt am Main
•
Frankfurt a.d. Oder
5.10.2.2.12 MEASURE
メジャー表現:
•
2800 Angström
•
50 eV
•
58,68 mm
•
9kWh
•
25 Grad Celsius
•
90° Fahrenheit
•
sechshundert Kilogramm
メジャーの範囲:
•
von 50 bis 60 Kilometer
•
von 10 Volt bis 20 Volt
•
zwischen 5 und 6 Zentimetern
メジャーの比率:
•
173
5 km/h
2012-06-14
言語モジュールリファレンス
•
33g/l
•
27 mg/Kubikmeter
•
5 Kilometer pro Stunde
5.10.2.2.13 MONTH
暦の月の名前:
•
Januar
•
Dezember
•
Jan.
•
Mrz.
5.10.2.2.14 NOUN_GROUP
ドイツ語の名詞句には、ハイフンで接続された名詞群、および形容詞 - 名詞型の名詞群があります。
•
moderne Technologien
•
fachliches Wissen
•
rationelle Terminplanung
•
Ingenieur-Kompetenz
5.10.2.2.15 ORGANIZATION
非営利団体、美術グループなどの団体や組織を含む、政府機関、法律機関、サービス機関。次のうちいずれ
かのサブタイプとして抽出されます。
•
174
COMMERCIAL–The name of commercial organizations, such as major companies or corporations. For
example:
•
Mercedes Benz
•
Siemens
•
Dr. Nacken und Partner
•
Texas Instruments
•
Siemens AG
•
Otto Wolff Kunststoffvertrieb GmbH
•
Bartsch und Partner GbR
•
Ormecon Chemie GmbH & Co., KG
•
Walter de Gruyter, Inc.
•
Greening Donald Co. Ltd.
2012-06-14
言語モジュールリファレンス
•
Volksbank Hamburg
•
Volksbank Bonn Rhein-Sieg
•
Dresdner Raiffeisenbank eG
注
Any extracted ORGANIZATION/COMMERCIAL entities can be parsed and standardized using the Data
Quality Data Cleanse transform by mapping them to one of the FIRM input fields.
•
•
EDUCATIONAL– 主に教育を目的とする機関の名前。例:
•
Freie Universität Berlin
•
Rheinisch-Westfälische Technische Hochschule Aachen
OTHER–Any organization that does not fit into a more specific subtype including groupings of geopolitical
entities that can function as political entities:
•
Die Grünen
•
Landesamt für Statistik
•
Greenpeace
•
Sozialdemokratische Partei Deutschlands
•
Zentralstelle für Agrardokumentation und -information
•
Benelux
•
Commonwealth
5.10.2.2.16 PEOPLE
国、民族、または地域に基づく人々のグループに関連する名前
•
Schwabe
•
Amerikanerin
5.10.2.2.17 PERCENT
パーセント表現:
•
1%
•
+ 1,234%
•
3 Prozent
•
drei Prozent
•
4 1/2 Prozentpunkte
パーセントの率と範囲:
175
2012-06-14
言語モジュールリファレンス
•
7% pro Jahr
•
5%/Jahr
•
34%/Person
•
2 bis 3 Prozent
•
2-3%
•
1-1,5 Prozent
5.10.2.2.18 PERSON
名前のバリエーション:
•
Maria Hildebrandt
•
Hans Peter Mayer
•
Heidi
•
Anne-Marie
•
Vera F. Burkhardt
•
Otto von Gruber
5.10.2.2.19 PHONE
ドイツ、オーストリア、およびスイスの電話番号:
•
+49 1111 2222
•
(+49)-111-22-33333
•
Telefon 01 11/11 22 33
•
Fax: 0111 - 22222
•
Tel. 01111-1111
•
T 030/22 22 200
5.10.2.2.20 PRODUCT
商品名:
176
•
Ford Explorer
•
Windows
•
Jacobs Kaffee
2012-06-14
言語モジュールリファレンス
5.10.2.2.21 PROP_MISC
連続する 1 つ以上の固有名詞、展覧会やスポーツイベントなどのイベントの名前:
•
CeBIT
•
Internationale Funkausstellung
•
Europacup
•
Olympiade
5.10.2.2.22 PUBLICATION
新聞、雑誌、または機関紙:
•
Handelsblatt
•
Frankfurter Allgemeine Zeitung
•
Fürther Nachrichten
5.10.2.2.23 REGION
さまざまな地域は、次のサブタイプのいずれかとして抽出されます:
•
MAJOR– ドイツの行政区、米国の州などの国の主要な行政区分。例:
• German Bundesländer:
•
Hessen
•
Baden-Württemberg
•
Sachsen-Anhalt
他の国の州:
•
177
•
California
•
New York State
•
British Columbia
MINOR– 国、県、地区の名前、または類似の区画や行政機関:
•
Mittelfranken
•
Landkreis Pfaffenhofen
•
Kreis Kelheim
2012-06-14
言語モジュールリファレンス
5.10.2.2.24 SOCIAL_MEDIA
ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック
は、次のサブタイプのいずれかとして抽出されます:
注
SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。
•
•
"@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例:
•
@Matthias_123
•
@RüdigerSchmitz
•
@SCNblogs
•
@sapnoticiasbr
•
@sapnews
•
@SAP_MICROSOFT
"#" ではじまる TOPIC_TWITTER–Twitter のトピック。例:
•
#Griechenland
•
#Mobility
•
#SAP
•
#SAPPRESS
•
#SAP_projects
•
#Weihnachten
5.10.2.2.25 TIME
時間表現:
•
18:05:48
•
02:00 MET
•
16.15 Uhr
•
2h 39
•
16h 45
5.10.2.2.26 TIME_PERIOD
時間間隔のメジャー、および時間の間隔を表す表現:
178
•
27 Jahre
•
0,6 sec.
2012-06-14
言語モジュールリファレンス
•
9 - 12 Monate
•
im 1. Halbjahr '99
•
des ersten Quartals 1999
5.10.2.2.27 TITLE
名前ではなく肩書きだけで特定される個人:
•
Schah
•
Papst
•
Königin
•
Dr.
•
Professor
•
Bundesgesundheitsministerin
5.10.2.2.28 URI
インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます:
•
EMAIL– 電子メールアドレス。例:
• [email protected]
•
IP– IP アドレス。例:
• 8.22.200.3
•
URL– インターネットアドレス。例:
• IP–IP adresses, for example:
• 8.22.200.3
•
http://www.netscape.com
•
www.netscape.com
•
kcbs.com
5.10.2.2.29 YEAR
年の識別子、10 年間を表す表現、100 年間を表す表現、年の範囲、年に基づく表現:
179
•
'99
•
58 vor Christus
•
200 v.Chr.
•
3 n. Chr.
2012-06-14
言語モジュールリファレンス
•
11. Jhdt.
•
6. Jh. vor Christus
•
2000-1
•
404-399 v.Chr.
•
in den Jahren 1488 bis 1490
5.11 ギリシャ語言語リファレンス
この章では、ギリシャ語言語モジュールの動作について説明します。
5.11.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、ギリシャ語テキストの処理における言語固有の情報につ
いて説明します。
5.11.1.1 ギリシャ語の文字エンコード
•
iso_8859_7
•
cp_1253
•
utf_8、utf_16、ucs_4
5.11.1.2 ギリシャ語の単語のセグメンテーション
ギリシャ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま
す。
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
180
2012-06-14
言語モジュールリファレンス
5.11.1.3 ギリシャ語のステミング
ギリシャ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な
品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のような
クローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
例
名詞
αποζημιώσεις -> αποζημίωση, όζαινες -> όζαινα,
ευμάρειαν -> ευμάρεια
動詞
κοροϊδεμένη -> κοροϊδεύω, φουχτωθούμε ->
φουχτώνω, μισθοδοτημένους -> μισθοδοτώ
形容詞
αρθρωτήν -> αρθρωτός, πλαστικές -> πλαστικός,
μονόσπερμοι -> μονόσπερμος
副詞
πόθεν -> πόθεν, κατανυκτικότερα -> κατανυκτικά
5.11.2 抽出
注
ギリシャ語は基本レベルサポート言語です。つまり、辞書または抽出ルールによる抽出のみがサポートされま
す。
5.12 ハンガリー語言語リファレンス
この章では、ハンガリー語言語モジュールの動作について説明します。
5.12.1 言語処理
181
2012-06-14
言語モジュールリファレンス
ここでは、単語のセグメンテーション、ステミングなど、ハンガリー語テキストの処理における言語固有の情報に
ついて説明します。
5.12.1.1 ハンガリー語の文字エンコード
•
iso_8859_2
•
cp_1250
•
utf_8、utf_16、ucs_4
5.12.1.2 ハンガリー語の単語のセグメンテーション
ハンガリー語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従
います。
関連項目
• 25 ページの「単語のセグメンテーション」
5.12.1.3 ハンガリー語のステミング
ハンガリー語のステミングには、標準ステム機能と拡張ステム機能が含まれます。
5.12.1.3.1 標準ステム機能
ハンガリー語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主
な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のよう
なクローズドクラスの単語も、ステム処理される場合があります。
182
カテゴリ
例
名詞
hírt -> hír, vállalatnak -> vállalat, bevételei ->
bevétel
2012-06-14
言語モジュールリファレンス
カテゴリ
例
動詞
kérek -> kér, ünnepelnek -> ünnepel, élünk -> él
形容詞
privatizációssal -> privatizációs, frisset -> friss,
japánok -> japán
副詞
már -> már, majd -> majd
5.12.1.3.2 拡張ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。ハンガリー語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され
ていない固有名詞がこれに含まれます。例:
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
Júnót
Júnó
junot
Júnó
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
183
例
出力
tunulnék
tanul
tunulnek
tanul
Junot
Júnó
2012-06-14
言語モジュールリファレンス
5.12.2 抽出
注
ハンガリー語は基本レベルサポート言語です。つまり、辞書または抽出ルールによる抽出のみがサポートされ
ます。
5.13 イタリア語言語リファレンス
この章では、イタリア語言語モジュールの動作について説明します。
5.13.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、イタリア語テキストの言語処理における言語固有の情報
について説明します。
5.13.1.1 イタリア語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.13.1.2 イタリア語の単語のセグメンテーション
イタリア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま
す。イタリア語のセグメンテーション機能には、次の言語固有の動作があります。
184
2012-06-14
言語モジュールリファレンス
セグメンテーション機能は、省略されていた数字など、イタリア語のエリジオンを修飾する単語から分離します。
エリジオンを分離するときに、アポストロフィは、文字が省略されていた単語に付いて保持されます。アポストロ
フィを使用せずに記述された結合語は分割されません。
テキスト
セグメンテーション後
d'
d'un'artistica
un'
artistica
cinqu'
cinqu'inviati
inviati
nella
nella
関連項目
• 25 ページの「単語のセグメンテーション」
5.13.1.3 イタリア語のステミング
ここでは、イタリア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.13.1.3.1 標準ステム機能
イタリア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な
品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のような
クローズドクラスの単語も、ステム処理される場合があります。
185
カテゴリ
原形
例
名詞
単数形
capi -> capo, pagine -> pagina
2012-06-14
言語モジュールリファレンス
カテゴリ
原形
例
動詞
不定詞
andiamo -> andare; parlava ->
parlare
形容詞
男性単数形
alte -> alto; grandissimo ->
grande
副詞
ソースの形式
contentamente -> contentamente; più -> più
短縮された前置詞および代名詞は、そのコンポーネントに分割され、これらのステムの間に等号を挿入して返
されます。等号は、各ステムが意味上同じ程度重要であることを示します。次の表にこれを示します。
例
ステム
allo
a=lo
d'una
di=uno
glielo
lui=lui
5.13.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。イタリア語固有のも
のを次に示します。
拡張バージョンでは、正確な大文字表記およびアクセント記号表記は必要ありません。
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
186
例
出力
Roma
Roma
roma
Roma
2012-06-14
言語モジュールリファレンス
例
出力
USA
USA
usa
USA
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
例
出力
città
città
citta
città
ハイフネーション
拡張バージョンでは、数値ではない表現内のハイフンはオプションです。
例
出力
Clermont-Ferrand
Clermont-Ferrand
ClermontFerrand
Clermont-Ferrand
liberal-democratico
liberal-democratico
liberaldemocratico
liberal-democratico
5.13.1.3.3 屈折ステマー推測機能
屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能
にとって未知であるため、ステム処理できない単語に適用できます。ステマー推測機能は、対応する言語の標
準ステム機能または拡張屈折ステム機能と組み合わせて使用できます。この場合、屈折推測機能を最後のス
テム機能として使用する必要があります。これによって言語処理で、最初に標準または拡張屈折ステム機能を
使用してステミングを試み、次に、従来どおりにステム処理できなかった単語にのみ、ステマー推測機能を使
用できます。
187
2012-06-14
言語モジュールリファレンス
5.13.1.4 イタリア語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、イタリア語のタグセットを示します。各タグ名に、簡単な説
明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字で示し
ます。タグセットは性別を区別しません。
アンブレラタグ
完全タグ
説明
例
Adj-ex
接頭辞 ex
ex
Adj-Pl
複数形の形容詞 (secon
di などの序数を含む)
belle
Adj-PrPart-Pl
複数現在分詞の動詞
meditanti, destreggianti
Adj-PrPart-Pl-Pron
接語付きの複数現在分
詞の動詞
fasciantemela, quietanteti
Adj-PrPart-Sg
単数現在分詞の動詞
meditante, destreggiante
Adj-PrPart-Sg-Pron
接語付きの単数現在分
詞の動詞
epurantelo, andantevi
Adj-Sg
単数形の形容詞 (secon
do, 2º などの序数を含
む)
buono, narcisistico
Adv
副詞
fumettisticamente
Aux
定形助動詞 (be および
have)
saranno, avrete
Aux-Ger
動名詞的助動詞
essendo, avendo
Aux-Impv
命令形の助動詞
sii, abbi
Aux-Inf
不定詞の助動詞
esser, aver
Aux-PaPart-Pl
複数過去分詞の助動詞
avuti, avute
Aux-PaPart-Sg
単数過去分詞の助動詞
avuta, avuto
Aux-PrPart-Pl
複数現在分詞の助動詞
essenti, aventi
Aux-PrPart-Sg
単数現在分詞の助動詞
essente, avente
Adj
Adv
Aux
188
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Conj
Det/Pron
Det
Interj
Nn
189
完全タグ
説明
例
Conj
接続詞
tuttavia
Conj-Adv
疑問副詞
quando, dove, come
Conj-che
接続詞 che
ch', che
Conj-Coord
等位接続詞
ed, e/o
Conj-Pre
複合語接続詞の最初の
パーツ
dato che
Det/Pron-Int-Pl
複数形の疑問限定詞ま
たは疑問代名詞
quanti soldi
Det/Pron-Int-Sg
単数形の疑問限定詞ま
たは疑問代名詞
qual, cos'
Det/Pron-Poss-Pl
複数形の所有限定詞ま
たは所有代名詞
mie, vostri
Det/Pron-Poss-Sg
単数形の所有限定詞ま
たは所有代名詞
nostro, sua
Det/Pron-Quant
不変化数量限定詞また
は不変化数量代名詞
qualunque, qualsivoglia
Det/Pron-Quant-Pl
複数形の数量限定詞ま
たは数量代名詞
molti vomini
Det/Pron-Quant-Sg
単数形の数量限定詞ま
たは数量代名詞
molta gente
Det-Pl
複数形の限定詞
quei
Det-Pre
前置限定詞
tutto il giorno
Det-Sg
単数形の限定詞
quel
Interj
感嘆詞または擬音語
uhi, perdiana, eh
Nn-Letter
単独またはピリオドや右
かっこが後に続く、小文
字および大文字の文字
b, N
Nn-Net
URL、電子メールアドレス
www.inxight.com, [email protected]
Nn-Pl
複数形の名詞
case
Nn-Sg
単数形の名詞
casa, balsamo
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Num
Num
数値表現 (数字)
+5, 23.05, 3,45, 1997
Prep
前置詞
tra, con
Prep-a
前置詞 a
a
Prep-da
前置詞 da
da
Prep-Det-Pl
前置詞と複数形の限定
詞の組み合わせ
sulle, sugl', pegli
Prep-Det-Pl-a
a と複数形の限定詞の組
み合わせ
ai, alle
Prep-Det-Pl-da
da と複数形の限定詞の
組み合わせ
dalle
Prep-Det-Pl-di
di と複数形の限定詞の
組み合わせ
delle
Prep-Det-Sg
前置詞と単数形の限定
詞の組み合わせ
sullo, nella
Prep-Det-Sg-a
a と sg. 限定詞の組み合
わせ
al, allo
Prep-Det-Sg-da
da と単数形の限定詞の
組み合わせ
dalla
Prep-Det-Sg-di
di と単数形の限定詞の
組み合わせ
delle
Prep-di
前置詞 di
di
Prep-Pre
複合語前置詞の最初の
単語
per mezzo
Prep
190
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Pron
Prop
Punct
完全タグ
説明
例
Pron
不変化代名詞
sé
Pron-chi
疑問代名詞 chi
chi
Pron-Clitic
接続代名詞
vi, ne, mi, glielo
Pron-Clitic-Pre
連続した 2 つの接語の
最初
ce, ve
Pron-Indef-Pl
複数形の不定代名詞
Tutti amano le vacaze.
Pron-Indef-Sg
単数形の不定代名詞
qualcuno
Pron-Pl
複数形の代名詞
noi
Pron-Rel
不変化関係代名詞
cui
Pron-Rel-Pl
複数形の関係代名詞
i bambini i quali
Pron-Rel-Sg
単数形の関係代名詞
il bambino il quale
Pron-Sg
単数形の代名詞
lei, lui
Prop
固有名詞
Bernardo, Monte Isola
Punct
区切り記号
:-\
Punct-Comma
コンマ
,
Punct-Sent
文の区切り記号
.!?;
V/Adj-PaPart-Pl
複数過去分詞の動詞ま
たは形容詞
riposti, offuscate
V/Adj-PaPart-Pl-Pron
接語付きの複数過去分
詞の動詞または形容詞
telatesele, assestatici
V/Adj-PaPart-Sg
単数過去分詞の動詞ま
たは形容詞
sbudellata
V/Adj-PaPart-Sg-Pron
接語付きの単数過去分
詞の動詞または形容詞
commossosi, ingranditomi
V/Adj
191
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
V-Fin
定形動詞
blatereremo
V-Fin-Pron
接語付きの定形動詞
trattansi, leggevansi
V-Ger
動名詞
adducendo, intervistando
V-Ger-Pron
接語付きの動名詞
saziandotele, appurandolo
V-Impv
命令形の動詞
Va' a casa!
V-Impv-Pron
接語付きの命令形の動
詞
russateli, planaci
V-Inf
不定詞の動詞
sciupare, trascinar
V-Inf-Pron
接語付きの不定詞の動
詞
spulciarsi, risucchiarsi
V
5.13.1.5 イタリア語のグループ化
イタリア語の名詞群は、必要に応じて前置修飾語または後置修飾語をともなう名詞で構成されます。次のよう
に、名詞は先行する形容詞で修飾されることがあります:
•
tradizionale gara
名詞は後に続く形容詞で修飾されることがあります。例:
•
allenamento obbligatorio
名詞は後に続く名詞ともグループ化されます:
•
Aeroporto Aeritalia
名詞群には、di または da ではじまる前置詞句と (修飾された) 名詞が含まれます:
192
•
pilota di volo
•
immagine da satellite
2012-06-14
言語モジュールリファレンス
5.13.2 抽出
ここでは、イタリア語の抽出固有の情報について説明します。
5.13.2.1 事前定義済みエンティティタイプ
ここでは、イタリア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説
明します。
5.13.2.1.1 NOUN_GROUP
イタリア語の名詞群は、必要に応じて前置修飾語または後置修飾語をともなう名詞で構成されます。次のよう
に、名詞は先行する形容詞で修飾されることがあります:
•
tradizionale gara
名詞は後に続く形容詞で修飾されることがあります。例:
•
allenamento obbligatorio
名詞は後に続く名詞ともグループ化されます:
•
Aeroporto Aeritalia
5.14 日本語言語リファレンス
この章では、日本語言語モジュールの動作について説明します。
5.14.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、日本語テキストの言語処理における言語固有の情報に
ついて説明します。
193
2012-06-14
言語モジュールリファレンス
5.14.1.1 日本語の文字エンコード
•
shift_jis
•
euc_jp
•
utf_8、utf_16、ucs_4
5.14.1.2 日本語の単語のセグメンテーション
日本語のセグメンテーション機能は、非スペース言語のすべての一般的なセグメンテーションルールに従いま
す。日本語のセグメンテーション機能には、次の言語固有の動作があります。
単語セグメンテーション機能は、テキストを、日本語では "文節" という最小の構文ユニットに分解します。日本
語の単語 (構文ユニット) には、格標識 (が、を、は) および述部の屈折する部分 (ます、た、させる) など、多
くの従属語が含まれます。
格標識は、名詞の要素から分離されます:
テキスト
セグメンテーション後
太郎
が
太郎が本を読む
本
を
読む
屈折する接尾辞は、主要な動詞とともにセグメンテーションされます:
194
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
来ました
来ました
食べさせられました
食べさせられました
相動詞および法動詞は、主要な動詞から分離されます:
テキスト
セグメンテーション後
食べる
食べるようだ
よう
だ
食べ
食べはじめた
はじめた
連結詞は主要な名詞から分離されます:
テキスト
セグメンテーション後
本
本だ
だ
類別詞は先行する数詞に結合されます:
195
テキスト
セグメンテーション後
3冊
3冊
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
三人
三人
名詞の接頭辞は名詞から分離されますが、動詞と形容詞の接頭辞はそれらの主要語に結合されます:
テキスト
セグメンテーション後
高
高品質
品質
お座り
お座り
バカ
バカでかい
でかい
開閉するマークを含む区切り記号は、別々にセグメンテーションされます:
テキスト
セグメンテーション後
「
「紅花」
紅花
」
★
★注意
注意
日本語のセグメンテーション機能は、連続するひらがなおよびカタカナの間のスペースを、構文ユニットの境界
として扱います。つまり、構文ユニットは次のように分解されます:
196
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
オフィス
オフィス ソリューション
ソリューション
"/n" などの改行文字は、カタカナの単語で囲まれている場合、保持されます。
ハイフンおよびスラッシュも、構文ユニットを分割します。ハイフンで区切られた漢字の単語およびカタカナの単
語は、分離されます:
テキスト
セグメンテーション後
東京
東京―箱根
―
箱根
パリ
パリ―ロンドン
―
ロンドン
パリ
パリ/ロンドン
/
ロンドン
数値表現は、区切り記号があってもなくても、そのまま保持されます:
197
テキスト
セグメンテーション後
12,000
12,000
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
20/20
20/20
25%
25%
2.5
2.5
二五―五十
二五―五十
注
より標準的な漢字とひらがなの組み合わせではなく、すべてひらがなで記述された日本語の単語は、多義的
なため、適切にセグメンテーションされない可能性があります。このような記述スタイルは通常、子供または日本
語学習者を対象とするテキストに限定されます。
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.14.1.3 日本語のステミング
ここでは、日本語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.14.1.3.1 標準ステム機能
日本語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品
詞 (オープンクラス) はその原形または辞書形式にステム処理されます。次の表にこれを示します。
198
カテゴリ
原形
名詞
ソースの形式
動詞
過去形ではない形式
形容詞
過去形ではない形式
2012-06-14
言語モジュールリファレンス
カテゴリ
原形
副詞
ソースの形式
類別詞および派生接尾辞は、ステム機能では、名詞から削除されません。以下はその例です。
品詞
Word
ステム
Num + Cl
二冊
二冊
Nn + Adj_suffix
高さ
高い
Verb + Nn_suffix
読み方
読み方
Nn + Pl_suffix
学生たち
学生たち
Nn + Hon_suffix
佐藤様
佐藤様
代名詞、指示詞、文字、および数字のようなクローズドクラスの単語は、それらの基本形にステム処理され、既
存の格標識はすべて削除されます。
日本語の動詞および形容詞の単語は、時制、相、法性、丁寧さなどに応じて屈折します。ステム機能は、屈折
する末尾を削除した動詞および形容詞を返します。これを一般に辞書形式といいます。たとえば、次の屈折し
た動詞の形式はすべて、"食べる" にステム処理されます。
199
Word
ステム
食べた
食べる
食べさせる
食べる
食べます
食べる
食べない
食べる
2012-06-14
言語モジュールリファレンス
5.14.1.3.2 拡張ステム機能
拡張日本語言語モジュールでは、セグメンテーションとステミングの結果を、標準モジュールより詳細なものに
することができます。その出力は、テキストのインデックス化と検索システム向きに最適化されています。拡張モ
ジュールの出力は標準のステム機能と異なり、類別詞、数詞、接頭辞、および接尾辞を主要語から分離して、
複合語分析を実行します。
次に例を示します。
類別詞は数詞から分離されます:
テキスト
出力
1996
1996年
年
30
30 分
分
接頭辞は、主要語から分離されます:
テキスト
出力
お
お部屋
部屋
副
副作用
作用
接尾辞は、主要語から分離されます:
200
2012-06-14
言語モジュールリファレンス
テキスト
出力
全国
全国的
的
須田
須田さん
さん
ニューヨーク
ニューヨーク州
州
複合語は別々のコンポーネントに分割されます:
テキスト
出力
朝日
朝日新聞社
新聞
社
日本
日本電信電話
電信
電話
サウンド
サウンドマスター
マスター
201
2012-06-14
言語モジュールリファレンス
拡張バリアントは、標準日本語モジュールとすべて同じ操作をサポートします。ただし、詳細出力ではそれぞれ
の語の文脈上の情報が少なく、この多義性によってタグ設定操作の精度が上げられています。これらの操作
については、標準日本語モジュールを使用することをお勧めします。拡張バリアントは、ステミングを目的する
場合にのみ推奨されています。
5.14.1.4 日本語の品詞タグ設定
次の表に日本語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。
アンブレラタグ
完全タグ
説明
例
Adj
形容詞
赤い、大きい
Adj-D
法性を表す形容詞
(て)ほしい、(て)
よい
Adnom
Adnom
名詞の前に付く名詞相
当語句
この、そんな
Adv
Adv
副詞
ゆっくり、じっと
Aux
Aux
助動詞
だ、です、ない
Case
Case
格標識
が、を、さえ
Conj
Conj
接続詞
そして、しかし
Interj
Interj
感嘆詞
さあ、えっ
Nn
名詞
先生、分析、ファイル
Nn-Adv
一般に形容詞的に使用
される名詞
今日、午後、1月
Nn-Ascii
ASCII 文字、連続するも
のまたは単語
computer
Nn-D
形式名詞、意味を持たな
い名詞
こと、の、もの, よう
Nn-Pron
代名詞
あなた、私、ここ
Nn-Prop
固有名詞
山田、富士山
Num
Num
数値の名詞相当語句
2000年、95%
Pre
Pre
名詞に付く接頭辞
お(水)、高(品質)
Adj
Nn
202
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Punct
Suf
完全タグ
説明
例
Punct
区切り記号
” :# @
Punct-Close
閉じる区切り記号
) 、}、」
Punct-Comma
コンマ
、
Punct-Open
開く区切り記号
(、{、「
Punct-Sent
文末の区切り記号
。?
Suf
後置記号
さん
Verb
動詞
読む、理解する
Verb-D
法性および相を表す動
詞
はじめる、できる、
(て)いる
Verb
5.14.2 抽出
ここでは、日本語の抽出固有の情報について説明します。
5.14.2.1 事前定義済みエンティティタイプ
ここでは、日本語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説明
します。
5.14.2.1.1 NOUN_GROUP
日本語の名詞群は、ここに示すルールによって定義されます。
日本語の名詞群は、1 つ以上の名詞で構成されることがあります。例:
•
電子計算機
•
生命保険会社
日本語の名詞群は、1 つ以上の固有名詞で構成され、次のように 1 つの名詞を修飾することがあります:
203
•
東京大会
•
箱根マラソン
2012-06-14
言語モジュールリファレンス
•
佐藤 , 花子
5.15 韓国語言語リファレンス
この章では、韓国語言語モジュールの動作について説明します。
5.15.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、韓国語テキストの言語処理における言語固有の情報に
ついて説明します。
5.15.1.1 韓国語の文字エンコード
•
euc_kr
•
utf_8、utf_16、ucs_4
5.15.1.2 韓国語の単語のセグメンテーション
韓国語のセグメンテーション機能は、スペース言語のセグメンテーション機能と同じ基礎アルゴリズムを使用し
ます。つまり、区切り文字は空白文字やタブ文字と同様に、構文ユニット区切り記号として処理されます。韓国
語のセグメンテーション機能には、次の言語固有の動作があります。
韓国語の単語には、格標識や屈折する末尾など、複数の種類の従属する形態素を含めることができます。従
属する形態素は別々の単語にはなりません。
たとえば、名詞 사람들은 ("人々は") は、名詞 사람、複数形標識 들、主題標識 은 という 3 つの形態素で構
成されますが、1 つの単語としてセグメンテーションされます。同様に、가셨습니다 ("(尊敬すべき人物) は行っ
た") で、主語の敬称 시 、過去形の接尾辞 었 (これらはまとめて 셨 に短縮されています)、受取人の敬称の
接尾辞 습、直説法の接尾辞 니、平叙形式の接尾辞 다 は、先頭の動詞のステム 가 ("行く") の後にこの順番
で出現します。
204
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
.
.
テキスト
セグメンテーション後
.
.
ヨーロッパの言語のセグメンテーション機能は、複合語ユニットを 1 つのユニットとして認識します (英語の "to
and fro" など)。韓国語のセグメンテーション機能は、"이랬다" や "저랬다" のような句に対して同じ処理を行
います。
関連項目
• 25 ページの「単語のセグメンテーション」
5.15.1.3 韓国語のステミング
韓国語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品
詞 (オープンクラス) はその原形または引用形式にステム処理されます。次の表にこれを示します。韓国語で
205
2012-06-14
言語モジュールリファレンス
は、代名詞のようなクローズドクラスの単語もステム処理されますが、ここには示していません。限定詞のような
非屈折形はそのものにステム処理されます。
韓国語システムは、韓国語標準ステム機能および韓国語拡張ステム機能の 2 つのステム機能をサポートしま
す。主な違いは、複合語が拡張ステム機能では分割されるのに対し、標準ステム機能では分割されない点で
す。アプリケーションでステム推測が重要な場合、拡張ステム機能の処理が最初に行われるように、拡張ステム
機能と標準ステム機能を実行することをお勧めします。
5.15.1.3.1 標準ステム機能
カテゴリ
原形
名詞/代名詞
原形 (格標識なし)
動詞
平叙形式
形容詞
平叙形式
副詞
ソースの形式
韓国語の名詞語は、格標識を示す後置詞 (不変化詞) を含むことがあります。ステム機能は、標準化された名
詞 (非屈折主要語または内容語など) から格標識を除いて返します。
名詞、代名詞、固有名詞、数詞はすべて、格標識のない原形にステム処理されます。たとえば、次の名詞はす
べて、학생 にステム処理されます:
Word
206
ステム
2012-06-14
言語モジュールリファレンス
動詞および形容詞は、屈折する接尾辞のない辞書形式にステム処理されます。次の屈折した動詞の形式は
すべて、먹다 ("食べる") にステム処理されます:
Word
ステム
文 학생이 케이크 마지막 조각을 먹었다. ("生徒はケーキの最後の 1 切を食べた。") は、次のようにステム
処理されます:
Word
ステム
5.15.1.3.2 韓国語の複合語分析
韓国語の複合語のステミングは、拡張屈折ステム機能モジュールで、korean-expanded.stemmer を使用して実
行されます。この辞書はヨーロッパの言語の拡張屈折ステム機能と同じ名前ですが、韓国語では、複合語のス
テミングを実行します。韓国語のモジュールは、2 つのパーツで構成された 2 種類の複合語 (名詞 - 動詞型、
名詞 - 名詞型) を処理します。
注
韓国語の複合語は内部構造が複雑であるため、拡張屈折ステミング操作はほかの操作に比べて時間がかか
ることがあります。
次のサンプル出力では、縦棒 (|) を使用して用語またはステムを区切っています。複合語は常に分割されま
す。
207
2012-06-14
言語モジュールリファレンス
名詞 - 動詞型の複合語
名詞は自動詞と結合して複合動詞を作ります。名詞は屈折しません。動詞は屈折でき、原形にステム処理され
ます。
例
出力
|
|
|
|
名詞 - 名詞型の複合語
名詞は名詞と結合して別の複合名詞を作ります。最初の名詞は屈折しません。2 番目の名詞は屈折でき、原
形にステム処理されます。
例
出力
|
|
|
5.15.1.4 韓国語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、韓国語のタグセットを示します。各タグ名に、簡単な説明
と 1 つ以上の例を示します。
208
アンブレラタグ
完全タグ
説明
例
Adv
Adv
副詞
만일, 그러면
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Case
Case
格標識
을, 를
Det
Det
限定詞
이, 그
Interj
Interj
感嘆詞
아이고, 어머
Nn
名詞
책, 코끼리
Nn-Ascii
ASCII 文字、名詞
copyright, Web
Nn-Case
格標識付きの名詞
호박은
Nn-Case-Acc
格標識付きの名詞の対
格
조각을
Nn-Case-Conj
結合された格標識付きの
名詞
고양이와는, 토끼와는
Nn-Case-Conj-Pl
結合された格標識付きの
複数形の名詞
교인들하고는
Nn-Case-Disj
離接形の格標識付きの
名詞
여기까지나
Nn-Case-Disj-Pl
離接形の格標識付きの
複数形の名詞
박사들까지나
Nn-Case-Gen
格標識付きの名詞の所
有格
인간의
Nn-Case-Pl
格標識付きの名詞 - 複
数形
선생님들은, 군인들은
Nn-Case-Pl-Acc
格標識付きの名詞 - 複
数形の対格
학생들을
Nn-Case-Pl-Gen
格標識付きの名詞 - 複
数形の所有格
교수들의
Nn-Conj
結合された名詞
강아지와, 사자와
Nn-Conj-Pl
結合された複数形の名
詞
교인들하고, 친구들하
고
Nn-Disj
離接形の名詞
짐승이나, 과학자나
Nn-Disj-Pl
離接形の複数形の名詞
약사들이나, 화가들이
나
Nn-Pl
名詞 - 複数形
사람들, 박사들
Nn
209
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Num
Num
数値表現
30분, 삼십분
Pron
代名詞
나, 너
Pron-Case
格標識付きの代名詞
나는
Pron-Case-Acc
格標識付きの代名詞の
対格
너를
Pron-Case-Conj
格標識付きの代名詞 接続形
자네하고는
Pron-Case-Conj-Pl
格標識付きの代名詞 接続形の複数形
우리들하고는
Pron-Case-Disj
格標識付きの代名詞 離接形
자기나만은
Pron-Case-Disj-Pl
格標識付きの代名詞 離接形の複数形
저이들까지나
Pron-Case-Gen
格標識付きの代名詞の
所有格
나의
Pron-Case-Pl
格標識付きの代名詞の
複数形
우리들은
Pron-Case-Pl-Acc
格標識付きの代名詞の
複数形の対格
우리들을
Pron-Case-Pl-Gen
格標識付きの代名詞の
複数形の所有格
우리들의
Pron-Conj
結合された代名詞
자네하고
Pron-Conj-Pl
結合された複数形の代
名詞
우리들하고
Pron-Disj
離接形の代名詞
자기나
Pron-Disj-Pl
離接形の複数形の代名
詞
우리들이나
Pron-Pl
複数形の代名詞
우리들, 그들
Pron
210
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Prop
固有名詞
삼성전자, 서울대학교
Prop-Case
格標識付きの固有名詞
현대건설은
Prop-Case-Acc
格標識付きの固有名詞
の対格
고려대학교를
Prop-Case-Conj
格標識付きの固有名詞
の接続形
나이키와는
Prop-Case-Disj
格標識付きの固有名詞
の離接形
소니에게나
Prop-Case-Gen
格標識付きの固有名詞
の所有格
한국은행의
Prop-Conj
結合された固有名詞
동국제강과
Prop-Disj
離接形の固有名詞
UBS나
Punct
区切り記号
;, '
Punct-Comma
区切り記号 - コンマ
,
Punct-Sent
区切り記号 - 文
.
V-Fut
未来形の動詞
판매하겠다, 시작하겠다
V-Past
過去形の動詞
출발했다, 몰랐었다
V-PreMod
前置修飾の動詞
좋은
V-Pres
現在形の動詞
상회하다, 번거롭다
Prop
Punct
V
5.15.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、韓国語の推測機能に渡されます。この機能では、これらの
単語に、韓国語の形態構造に関するルールセットに基づくタグが設定されます。たとえば、名詞の接尾辞に基
づいて Nn-* タグを決定します。英語の単語などの外国語には Nn-Ascii タグが設定されます。
5.15.2 抽出
ここでは、韓国語の抽出固有の情報について説明します。
211
2012-06-14
言語モジュールリファレンス
5.15.2.1 韓国語のサブタイプ
韓国語がサポートするサブタイプのタイプは、ORGANIZATION、REGION、SOCIAL_MEDIA、および URI で
す。
関連項目
• 34 ページの「 サブタイプ」
5.15.2.2 事前定義済みエンティティタイプ
ここでは、韓国語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説明
します。次の各リンクをクリックすると、サブセクションに移動できます。212 ページの 「COUNTRY」、212 ページ
の 「FACILITY」、212 ページの 「GEO_AREA」、213 ページの 「GEO_FEATURE」、213 ページの 「LOCALITY」、
213 ページの 「ORGANIZATION」、213 ページの 「PERSON」、214 ページの 「PHONE」、214 ページの 「RE
GION」、214 ページの 「SOCIAL_MEDIA」、215 ページの 「TITLE」、および 215 ページの 「URI」。
5.15.2.2.1 COUNTRY
国の名前:
•
•
•
5.15.2.2.2 FACILITY
人工の構造物:
•
•
•
5.15.2.2.3 GEO_AREA
大陸や国の集団など、重要な土地の集合体を指す、市よりも大きい地理的な領域:
•
212
2012-06-14
言語モジュールリファレンス
•
•
5.15.2.2.4 GEO_FEATURE
境界線、天文学的な場所、水域、地質学的または生態学的に形成された場所などの名前:
•
•
•
5.15.2.2.5 LOCALITY
市の名前:
•
•
•
5.15.2.2.6 ORGANIZATION
非営利団体、美術グループなどの団体や組織を含む、政府機関、法律機関、サービス機関。次のうちいずれ
かのサブタイプとして抽出されます。
•
COMMERCIAL - 主要な企業や法人などの営利組織の名前。例:
•
•
•
注
抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ
ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。
•
OTHER - 特定のサブタイプに適合しないすべての組織。
•
IAEA
•
•
5.15.2.2.7 PERSON
名前のバリエーション:
•
213
2012-06-14
言語モジュールリファレンス
•
•
5.15.2.2.8 PHONE
電話番号:
•
02-3321-2345
•
(011)222-3456
•
1-800-223-4567
5.15.2.2.9 REGION
さまざまな地域は、次のサブタイプのいずれかとして抽出されます:
•
MAJOR– 州および地方の名前:
•
•
•
•
MINOR– 国、県、地区の名前、または類似の区画や行政機関:
•
•
•
5.15.2.2.10 SOCIAL_MEDIA
ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック
は、次のサブタイプのいずれかとして抽出されます:
注
SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。
•
•
"@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例:
•
@HyunheeJeon
•
@SangSangYi
•
@
•
@SecretGarden_KD
"#" ではじまる TOPIC_TWITTER–Twitter のトピック。例:
•
214
inkorea10
#
_
2012-06-14
言語モジュールリファレンス
•
#
10
•
#JBBANK
•
#JP
10
5.15.2.2.11 TITLE
政府機関、企業などの組織で重要な地位の名前:
•
•
•
5.15.2.2.12 URI
インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます:
•
•
EMAIL - 電子メールアドレス。例:
•
[email protected][email protected]
•
Jesus Melendrez/Corp/Enron@CMP
URL - インターネットアドレス。例:
•
www.cyworld.com/common
•
http://www.cnn.com/2007/US/law/07/17/couey.hearing/index.html
•
http://kr.news.yahoo.com/service/news/shellsection.htm?linkid
5.16 ノルウェー語: ブークモール語言語リファレンス
この章では、ブークモール語言語モジュールの動作について説明します。
5.16.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、ブークモール語テキストの言語処理における言語固有の
情報について説明します。Bokmål
215
2012-06-14
言語モジュールリファレンス
5.16.1.1 ブークモール語の文字エンコードBokmål
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.16.1.2 ブークモール語の単語のセグメンテーションBokmål
ブークモール語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに
従います。Bokmålブークモール語のセグメンテーション機能には、次の言語固有の動作があります。Bokmål
ブークモール語のセグメンテーション機能は、s または 's を使用して記述された複数形および所有格を分割
しません。Bokmålハイフンは、ハイフンを使用して記述された複合語のパーツから分離されません。ピリオドは
序数表現から分離されません。
テキスト
セグメンテーション後
Eriks
Eriks
32.
32.
lonns-
lonns- og inntektsutviklingen
og
inntektsutviklingen
関連項目
• 25 ページの「単語のセグメンテーション」
216
2012-06-14
言語モジュールリファレンス
5.16.1.3 ブークモール語のステミングBokmål
ここでは、ブークモール語のステミングで使用される、標準ステム機能と拡張屈折ステム機能について説明しま
す。Bokmål
5.16.1.3.1 標準ステム機能
ブークモール語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。Bokmål
つまり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代
名詞のようなクローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
原形
例
名詞
不定形単数
dammer -> dam; bondens ->
bonde
動詞
不定詞
ventet -> vente; sendes ->
sende
形容詞
原型
laveste -> lav; kalde -> kald
副詞
基本形またはソースの形式
nærest -> nær; imens -> imens
5.16.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ブークモール語固
有のものを次に示します。Bokmål
大文字小文字のバリアント
拡張バージョンでは、通常は大文字ではじめる単語の大文字の他に、小文字を許容します。
217
例
出力
Erik
Erik
erik
Erik
2012-06-14
言語モジュールリファレンス
アクセント記号付き文字のタイプライター形式
拡張バージョンでは、アクセント記号付き文字のタイプライター表記を許容します。つまり、aa と記述されている
場合は å、ae と記述されている場合は aa, æ、oe と記述されている場合は ø と認識されます。
例
出力
blaa
blå
blå
blå
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
例
出力
bla
blå
blå
blå
ハイフネーション
強制改行ハイフンを削除して分割された単語の 2 つのパーツを連結することで、強制改行ハイフンを処理す
るソフトウェアを補助するには、数値以外の表現におけるハイフンを拡張バージョンのオプションにして、本来
ハイフンで連結されている単語をそのまま認識できるようにします。
例
出力
Nord-Vestlandet
Nord-Vestlandet
NordVestlandet
Nord-Vestlandet
5.16.1.4 ブークモール語の品詞タグ設定Bokmål
218
2012-06-14
言語モジュールリファレンス
次の表に、カスタムエンティティの定義で使用できる、ノルウェーブークモール語のタグセットを示します。各タ
グ名に、簡単な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する
単語を太字で示します。タグセットは性別を区別しません。
219
アンブレラタグ
完全タグ
説明
例
Abbr
Abbr
省略形
adr., ibid.
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Adj-Comp
比較級の形容詞
mindre, eldre
Adj-Comp-Gen
所有格の比較級の形容
詞
eldres
Adj-Def-Pl
限定形および複数形の
形容詞
gretne, mørke, kalde
Adj-Def-Pl-Gen
所有格限定形および複
数形の形容詞
fremmedes, uvørnes
Adj-Def-Sg
限定形単数の形容詞
lille
Adj-Def-Sg-Gen
所有格限定形単数の形
容詞
lilles
Adj-Indef-Sg
不定形単数の形容詞
skriftlig
Adj-Indef-Sg-Gen
所有格不定形単数の形
容詞
skriftligs
Adj-PaPart-Def-Pl
限定形および複数形の
形容詞的過去分詞
besøkte, befestede,
dempede
Adj-PaPart-Def-Pl-Gen
所有格、限定形および複
数形の形容詞的過去分
詞
besøktes, befestedes,
dempedes
Adj-PaPart-Indef-Sg
形容詞的過去分詞、不
定形単数
for kryptert kommunikasjon
Adj-Pl
複数形の形容詞
små problemer
Adj-Pl-Gen
所有格複数形の形容詞
smås
Adj-PrPart
形容詞的現在分詞
begynnende, stirrende
Adj-PrPart-Gen
所有格の形容詞的現在
分詞
reisendes, lekendes,
gråtendes
Adj-Sup
最上級の形容詞
best, raskest, størst
Adj-Sup-Def
限定最上級の形容詞
fineste, innerste, viktigste
Adj-Sup-Def-Gen
所有格限定最上級の形
容詞
finestes, innerstes, viktigstes
Adj
220
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Adv
完全タグ
説明
例
Adv
副詞
ikke, oppe, heller
Adv-Comp
比較級の副詞
lenger
Adv-Sup
最上級の副詞
helst
Aux/V-Impv
命令形の助動詞または
本動詞
bli
Aux/V-Inf
不定詞の助動詞または
本動詞
vaere
Aux/V-Inf-SForm
不定詞の助動詞または
本動詞の S 形
has
Aux/V-PaPart
助動詞または本動詞の
過去分詞
hatt, vaert, blitt, fått
Aux/V-Past
過去形の助動詞または
本動詞
hadde, var, ble
Aux/V-Pres
現在形の助動詞または
本動詞
har, er, blir, får
Aux/V-PrPart
助動詞または本動詞の
現在分詞
havende, blivende
Aux-Inf
不定詞の助動詞
kunne, måtte
Aux-Inf-SForm
不定詞の助動詞の S 形
kunnes, måttes
Aux-PaPart
助動詞の過去分詞
kunnet, måttet
Aux-Past
過去形の助動詞
kunne, måtte
Aux-Pres
現在形の助動詞
kan, vil
Aux-Pres-SForm
現在形の助動詞の S 形
villes, skulles
Aux-PrPart
助動詞の現在分詞
villende, skullende
Cmpd-Part
残された複合語のパーツ
kontor - og forretningsbygg
Conj
従属接続詞または関係
接続詞
som, mens
Conj-Coord
等位接続詞
og, eller
Aux
Cmpd
Conj
221
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Det
Interj
222
完全タグ
説明
例
Det-Art-Def-Pl
限定形複数の限定詞
disse
Det-Art-Def-Sg
限定形単数の限定詞
på denne grunn
Det-Art-Indef
不定形単数の限定詞
en, et
Det/Pron-Comp
限定詞または代名詞、比
較級
mer
Det/Pron-Pl
限定詞または代名詞、複
数形
noen, hvilke, alle, andre
Det/Pron-Pl-Gen
限定詞または代名詞、複
数形所有格
noens, alles, andres
Det/Pron-Sg
限定詞または代名詞、単
数形
hver, litt, alt
Det/Pron-Sg-Gen
限定詞または代名詞、単
数形所有格
enhvers, annens
Det/Pron-Sup
限定詞または代名詞、最
上級
mest
Det/Pron-Sup-Def
限定詞または代名詞、限
定最上級
meste
Interj
感嘆詞
ja, herregud
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Nn-Def-Pl
限定複数形の名詞
dørene, armene
Nn-Def-Pl-Gen
所有格限定形複数の名
詞
salongenes, kollegenes
Nn-Def-Sg
限定形単数の名詞
flyet, klokken
Nn-Def-Sg-Gen
所有格限定形単数の名
詞
selskapets, spisestuens
Nn-Indef-Pl
不定複数形の名詞
plasser, mapper
Nn-Indef-Pl-Gen
所有格不定形複数の名
詞
tiders, menneskers
Nn-Indef-Sg
不定形単数の名詞
stol, stripe
Nn-Indef-Sg-Gen
所有格不定形単数の名
詞
topps
Nn-Indef-SP
不定形単数または複数
の名詞
lys, skritt
Nn-Indef-SP-Gen
所有格形不定単数また
は複数の名詞
slags, lands, års
Nn-Letter
小文字および大文字の
文字
b, N
Nn-Net
URL および電子メール
アドレス
www.inxight.com in
[email protected]
Num
基数の数値表現または
複数形の基数 (スペルア
ウト)
-294, 4,6%, xii, 1.100to,
tre, fire
Num-Def-Sg
数値 "one"、限定形単数
(スペルアウト)
ene
Num-Indef-Sg
数値 "one"、不定形単数
(スペルアウト)
en, ett
Ord
Ord
序数 (数字またはスペル
アウト)
7., første
Part
Part-Inf
不定詞の不変化詞
å beskrive
Nn
Num
223
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Prep
Pron
完全タグ
説明
例
Prep
前置詞
med, ut
Prep-av
前置詞 av
av
Prep-for
前置詞 for
for
Prep-fra
前置詞 fra
fra
Prep-i
前置詞 i
i
Prep-paa
前置詞 på
på bakgrunn
Prep-ved
前置詞 ved
ved
Pron-Acc
対格の代名詞
ham, henne
Pron-Nom
主格の代名詞
han, hun
Pron-Poss-Pl
複数呼応をともなう所有
代名詞
sine
Pron-Poss-Sg
単数呼応をともなう所有
代名詞
sin
Prop
固有名詞
Oslo, Arne
Prop-Gen
所有格の固有名詞
Akers
Punct
その他の区切り記号
-[
Punct-Comma
コンマ
,
Punct-Quote
引用符
" ' ' '' ''
Punct-Sent
文の境界の区切り記号
. ... ? : ; !
Prop
Punct
224
2012-06-14
言語モジュールリファレンス
アンブレラタグ
V
完全タグ
説明
例
V-Impv
命令形の動詞
se, ta
V-Inf
不定詞の動詞
komme, gjøre
V-Inf-SForm
不定詞の動詞の S 形
kan belastes
V-PaPart
過去分詞の動詞
reist, utpekt, stanset
V-PaPart-SForm
過去分詞の動詞の S 形
trivdes
V-Past
過去形の動詞
sa, vokste
V-Past-SForm
過去形の動詞の S 形
levdes, mistrivdes
V-Pres
現在形の動詞
vet, gir
V-Pres-SForm
現在形の動詞の S 形
flyttes, møtes, finnes,
synes
V-PrPart
現在分詞の動詞
vœre avtakende
5.16.1.5 ブークモール語のグループ化Bokmål
ブークモール語の単純名詞句は、次のように 1 つ以上の名詞または固有名詞で構成されることがありま
す:Bokmål
•
Arne Huuse
ブークモール語の名詞群には、形容詞、所有格、不定名詞など、さまざまな修飾語を含めることができます。
例:Bokmål
•
nordisk rett
•
utvalgets sekretær
•
statsadvokat Ketil Haukaas
名詞句には複合語のパーツも含まれます。また、次のように、og または eller を使用して接続できます:
225
•
person- og rettsvern
•
politi og påtalemyndighet
•
subsumsjon eller straffutmåling
2012-06-14
言語モジュールリファレンス
単純名詞句は、前置詞 av および fra ではじまる前置詞句と結合することもあります。例:
•
formidling av informasjon
•
instrukser fra riksadvokaten
固有名詞が後に続く場合、名詞句に前置詞 ved, i および på も含まれます:
•
kontrollen ved Norsk Tipping AS
•
kasino i Finland
•
organisasjon på Østlandet
次のように、固有名詞の後に前置詞が続く場合、名詞句に前置詞が含まれます:
•
Internett for privatpersoner
5.16.2 抽出
ここでは、ブークモール語の抽出固有の情報について説明します。Bokmål.
5.16.2.1 事前定義済みエンティティタイプ
ここでは、ブークモール語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につ
いて説明します。Bokmål
5.16.2.1.1 NOUN_GROUP
ブークモール語の単純名詞句は、次のように 1 つ以上の名詞または固有名詞で構成されることがありま
す:Bokmål
•
Arne Huuse
ブークモール語の名詞群には、形容詞、所有格、不定名詞など、さまざまな修飾語を含めることができます。
例:Bokmål
•
nordisk rett
•
utvalgets sekretær
•
statsadvokat Ketil Haukaas
名詞句には複合語のパーツも含まれます。また、次のように、og または eller を使用して接続できます:
•
226
person- og rettsvern
2012-06-14
言語モジュールリファレンス
•
politi og påtalemyndighet
•
subsumsjon eller straffutmåling
5.17 ノルウェー語: ニーノシク語言語リファレンス
この章では、ニーノシク語言語モジュールの動作について説明します。
5.17.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、ニーノシク語テキストの言語処理における言語固有の情
報について説明します。
5.17.1.1 ニーノシク語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.17.1.2 ニーノシク語の単語のセグメンテーション
ニーノシク語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従
います。ニーノシク語のセグメンテーション機能には、次の言語固有の動作があります。
ニーノシク語のセグメンテーション機能は、s または 's を使用して記述された複数形および所有格を分割しま
せん。ハイフンは、ハイフンを使用して記述された複合語のパーツから分離されません。ピリオドは序数表現か
ら分離されません。
227
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
Eriks
Eriks
32.
32.
lonns-
lonns- og inntektsutviklinga
og
inntektsutviklinga
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.17.1.3 ニーノシク語のステミング
ここでは、ニーノシク語のステミングで使用される、標準ステム機能と拡張屈折ステム機能について説明します。
5.17.1.3.1 標準ステム機能
ニーノシク語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主
な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のよう
なクローズドクラスの単語も、ステム処理される場合があります。
228
カテゴリ
原形
例
名詞
不定形単数
bilen -> bil; jenta -> jente
動詞
不定詞
leikte -> leike; speil -> speile
形容詞
原型
høgare -> høg; blått -> blå
2012-06-14
言語モジュールリファレンス
カテゴリ
原形
例
副詞
基本形またはソースの形式
svintare -> svint; imedan ->
imedan
5.17.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ニーノシク語固有
のものを次に示します。
大文字小文字のバリアント
拡張バージョンでは、通常は大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
Erik
Erik
erik
Erik
アクセント記号付き文字のタイプライター形式
拡張バージョンでは、アクセント記号付き文字のタイプライター表記を許容します。つまり、aa と記述されてい
る場合は å、ae と記述されている場合は æ、oe と記述されている場合は ø と認識されます。
例
出力
blaa
blå
blå
blå
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
229
例
出力
bla
blå
2012-06-14
言語モジュールリファレンス
例
出力
blå
blå
ハイフネーション
強制改行ハイフンを削除して分割された単語の 2 つのパーツを連結することで、強制改行ハイフンを処理す
るソフトウェアを補助するには、数値以外の表現におけるハイフンを拡張バージョンのオプションにして、本来
ハイフンで連結されている単語をそのまま認識できるようにします。
例
出力
NATO-land
NATO-land
NATOland
NATO-land
5.17.1.4 ニーノシク語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、ノルウェーニーノシク語のタグセットを示します。各タグ名
に、簡単な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語
を太字で示します。タグセットは性別を区別しません。
230
アンブレラタグ
完全タグ
説明
例
Abbr
Abbr
省略形
red.
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Adj
Adv
231
完全タグ
説明
例
Adj-Comp
比較級の形容詞
mindre, eldre
Adj-Def-Pl
限定形および複数形の
形容詞
gretne, mørke, kalde
Adj-Def-Pl-Gen
所有格限定形複数の形
容詞
framandes
Adj-Def-Sg
限定形単数の形容詞
lisle, vesle
Adj-Indef-Sg
不定形単数の形容詞
norsk
Adj-Indef-Sg-Gen
所有格不定形単数の形
容詞
nærliggjandes
Adj-PaPart-Def-Pl
過去分詞から派生した限
定形および複数形の形
容詞
kjende
Adj-PaPart-Indef-Sg
過去分詞から派生した不
定形単数の形容詞
reist
Adj-Pl
複数形の形容詞
ørsmåe
Adj-PrPart
現在分詞から派生した形
容詞
begynnande, stirande
Adj-PrPart-Gen
現在分詞から派生した所
有格の形容詞
reisandes, leikandes
Adj-Sup
最上級の形容詞
best, raskast, størst
Adj-Sup-Def
限定最上級の形容詞
finaste, inste, viktigaste
Adv
副詞
ikkje, no
Adv-Comp
比較級の副詞
lenger, heller
Adv-Sup
最上級の副詞
verst
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Aux/V
Aux
Cmpd
完全タグ
説明
例
Aux/V-Impv
命令形の助動詞または
本動詞
ver
Aux/V-Inf
不定詞の助動詞または
本動詞
bli
Aux/V-Inf-SForm
不定詞の助動詞または
本動詞の S 形
havast, fåast
Aux/V-PaPart
助動詞または本動詞の
過去分詞
hatt, vore, blitt, fått
Aux/V-Past
過去形の助動詞または
本動詞
hadde, var, blei, fekk
Aux/V-Pres
現在形の助動詞または
本動詞
har, er, blir, får
Aux/V-PrPart
助動詞または本動詞の
現在分詞
havande, blivande, verande
Aux-Inf
不定詞の助動詞
kunne, måtte
Aux-PaPart
助動詞の過去分詞
vilja, måtta
Aux-Past
過去形の助動詞
kunne, måtte
Aux-Pres
現在形の助動詞
kan, vil
Aux-PrPart
助動詞の現在分詞
viljande, kunnande
Cmpd-Part
残された複合語のパーツ
kontor - og forretningsbygg
Conj
従属接続詞または関係
接続詞
som, mens
Conj-Coord
等位接続詞
og, eller
Conj
232
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Det/Pron
Det
Interj
233
完全タグ
説明
例
Det/Pron-Comp
比較級の限定詞または
代名詞
meir
Det/Pron-Pl
複数形の限定詞または
代名詞
alle
Det/Pron-Sg
単数形の限定詞または
代名詞
nokon
Det/Pron-Sup
最上級の限定詞または
代名詞
mest
Det/Pron-Sup-Def
限定最上級の限定詞ま
たは代名詞
meste
Det-Art-Def-Pl
限定形複数の限定詞
(冠詞または指示代名詞)
dei, desse
Det-Art-Def-Sg
限定形単数の限定詞
(冠詞または指示代名詞)
denne artikkelen
Det-Art-Indef
不定形単数の限定詞
eit
Interj
感嘆詞
hei, tjo
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Nn-Def-Pl
限定複数形の名詞
dørene, armane
Nn-Def-Pl-Gen
所有格限定形複数の名
詞
salonganes, kollegaenes
Nn-Def-Sg
限定形単数の名詞
flyet, klokka
Nn-Def-Sg-Gen
所有格限定形単数の名
詞
selskapets, stovas
Nn-Indef-Pl
不定複数形の名詞
plassar, mapper
Nn-Indef-Pl-Gen
所有格不定形複数の名
詞
tiders
Nn-Indef-Sg
不定形単数の名詞
stol, lekam
Nn-Indef-Sg-Gen
所有格不定形単数の名
詞
fridoms
Nn-Indef-SP
不定形単数または複数
の名詞
lys, skritt
Nn-Letter
小文字および大文字の
文字
b, N
Nn-Net
URL および電子メール
アドレス
Num
基数の数値表現または
複数形の基数 (スペルア
ウト)
Num-Def-Sg
限定形単数の基数
"one" (スペルアウト)
eine
Num-Indef-Sg
不定形単数の基数 (スペ
ルアウト)
eitt
Ord
Ord
序数 (数字またはスペル
アウト)
7., første
Part
Part-Inf
不定詞の不変化詞
å kalla
Nn
Num
234
www.inxight.com
[email protected]
-294, 4,6%, xii, 1.100
to, tre
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Prep
Pron
完全タグ
説明
例
Prep
前置詞
med, ut, opp
Prep-av
前置詞 av
av
Prep-for
前置詞 for
for
Prep-fra
前置詞 frå
frå sin opposisjon
Prep-i
前置詞 i
i
Prep-paa
前置詞 på
på alle
Prep-ved
前置詞 ved
ved
Pron-Acc
対格の代名詞
henne
Pron-Nom
主格の代名詞
han, ho
Pron-Poss-Pl
複数呼応をともなう所有
代名詞
sine
Pron-Poss-Sg
単数呼応をともなう所有
代名詞
sin
Prop
固有名詞
Johan
Prop-Gen
所有格の固有名詞
Espens
Punct
その他の区切り記号
-[>
Punct-Comma
コンマ
,
Punct-Quote
引用符
" ' ' << >> '' ''
Punct-Sent
文の境界の区切り記号
. ... ? : ; !
Prop
Punct
235
2012-06-14
言語モジュールリファレンス
アンブレラタグ
V
完全タグ
説明
例
V-Impv
命令形の動詞
speil, kann
V-Inf
不定詞の動詞
gjera
V-Inf-SForm
不定詞の動詞の S 形
belastast, synast
V-PaPart
過去分詞の動詞
peika
V-PaPart-SForm
過去分詞の動詞の S 形
trivest
V-Past
過去形の動詞
sa
V-Past-SForm
過去形の動詞の S 形
møttest, mistreivst,
syntest
V-Pres
現在形の動詞
gir, oppfattar
V-Pres-SForm
現在形の動詞の S 形
finst
V-PrPart
現在分詞の動詞
seg nemnande
5.17.1.5 ニーノシク語のグループ化
ニーノシク語の単純名詞句は、最低でも 1 つ以上の名詞または固有名詞で構成されます。例:
•
Johan Brox
次のように、名詞は前置修飾の形容詞、所有格、不定名詞とグループ化されます:
•
anvendt forsking
•
modernismens kris
•
økonom Tormod Hermannsen
ニーノシク語の名詞句には複合語のパーツを含めることもできます。また、og および eller を使用して接続で
きます。例:
•
stats- og folkekyrkja
•
kommunikasjon og inngangsport
•
personane eller gruppene
次のように、単純名詞句は av および frå ではじまる前置詞句とも結合します:
236
2012-06-14
言語モジュールリファレンス
•
overtatt av staten
•
betong frå sementfabrikken
固有名詞が後に続く場合、名詞群に前置詞 ved, i, および på も含まれます。
•
semesteropning ved Volda Lærarhøgskule
•
redaktør i Fjeld-Ljom
•
sosialkomiteen på Stortinget
固有名詞の後に続く場合、for ではじまる前置詞句が含まれます:
•
Sundet for fulle segl
5.17.2 抽出
ここでは、ニーノシク語の抽出固有の情報について説明します。
5.17.2.1 事前定義済みエンティティタイプ
ここでは、ニーノシク語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい
て説明します。
5.17.2.1.1 NOUN_GROUP
ニーノシク語の単純名詞句は、最低でも 1 つ以上の名詞または固有名詞で構成されます。例:
•
Johan Brox
次のように、名詞は前置修飾の形容詞、所有格、不定名詞とグループ化されます:
•
anvendt forsking
•
modernismens kris
•
økonom Tormod Hermannsen
ニーノシク語の名詞句には複合語のパーツを含めることもできます。また、og および eller を使用して接続で
きます。例:
237
•
stats- og folkekyrkja
•
kommunikasjon og inngangsport
•
personane eller gruppene
2012-06-14
言語モジュールリファレンス
5.18 ポーランド語言語リファレンス
この章では、ポーランド語言語モジュールの動作について説明します。
5.18.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、ポーランド語テキストの処理における言語固有の情報に
ついて説明します。
5.18.1.1 ポーランド語の文字エンコード
•
iso_8859_2
•
cp_1250
•
utf_8、utf_16、ucs_4
5.18.1.2 ポーランド語の単語のセグメンテーション
ポーランド語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従
います。
関連項目
• 25 ページの「単語のセグメンテーション」
5.18.1.3 ポーランド語のステミング
238
2012-06-14
言語モジュールリファレンス
ポーランド語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主
な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のよう
なクローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
例
名詞
hosannami -> hosanna, fyrgolu -> fyrgol
動詞
śle -> słać, zajętego -> zająć
形容詞
profonicznym -> profoniczny, progościnniejsze > progościnny
副詞
procale -> procały, wtyczkowie -> wtyczkowy
5.18.2 抽出
注
ポーランド語は基本レベルサポート言語です。つまり、辞書または抽出ルールによる抽出のみがサポートされ
ます。
5.19 ポルトガル語言語リファレンス
この章では、ポルトガル語言語モジュールの動作について説明します。
5.19.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、ポルトガル語テキストの言語処理における言語固有の情
報について説明します。
239
2012-06-14
言語モジュールリファレンス
5.19.1.1 ポルトガル語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.19.1.2 ポルトガル語の単語のセグメンテーション
ポルトガル語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従
います。ポルトガル語のセグメンテーション機能には、次の言語固有の動作があります。
接語は分離されません。また、結合語は 1 つの単語として処理されます。
テキスト
セグメンテーション後
dir-se-ia
dir-se-ia
pela
pela
関連項目
• 25 ページの「単語のセグメンテーション」
5.19.1.3 ポルトガル語のステミング
ここでは、ポルトガル語のステミングで使用される、標準ステム機能と拡張屈折ステム機能について説明します。
5.19.1.3.1 標準ステム機能
ポルトガル語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主
な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のよう
なクローズドクラスの単語も、ステム処理される場合があります。
240
2012-06-14
言語モジュールリファレンス
カテゴリ
原形
例
名詞
(男性) 指小辞の付かない単数形
filhos -> filho, balinha -> bala
動詞
不定詞
traremos -> trazer, alimentará > alimentar
形容詞
男性単数形
bonitona -> bonito, caríssimos > caro
副詞
肯定形またはソースの形式
ultimamente -> ultimamente,
pessimamente -> pessimamente, mal -> mal
短縮された前置詞および代名詞は、そのコンポーネントに分割され、これらのステムの間に等号を挿入して返
されます。等号は、各ステムが意味上同じ程度重要であることを示します。短縮された前置詞が複合語ユニッ
ト内に出現する場合、最後の短縮が分割されます。次の表にこれを示します。
例
ステム
pelo
por=o
dele
de=ele
abaixo deste
abaixo de=este
ma
eu=ela
5.19.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。ここでは、ポルトガ
ル語固有のものを示します。
拡張バージョンでは、正確な大文字表記およびアクセント記号表記は必要ありません。
241
2012-06-14
言語モジュールリファレンス
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
Varig
Varig
varig
Varig
USA
USA
usa
USA
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
例
出力
mãos
mão
maos
mão
faríeis
fazer
farieis
fazer
ハイフネーション
拡張バージョンでは、数値ではない表現内のハイフンはオプションです。
242
例
出力
Port-Royal
Port-Royal
PortRoyal
Port-Royal
2012-06-14
言語モジュールリファレンス
5.19.1.4 ポルトガル語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、ポルトガル語のタグセットを示します。各タグ名に、簡単
な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字で
示します。タグセットは性別を区別しません。
Adj
Adj
不変化形容詞
simples
Adj-Pl
複数形の形容詞
cidãos portugueses
Adj-Sg
単数形の形容詞
continente europeu
Adv
副詞
directamente
Adv-Deg
形容詞を修飾できる副詞
mais livre
Aux-be
ser および estar の助動
詞
são, estão
Aux-have
ter および haver ('have')
の助動詞
tem, haverá
Aux-Inf-be
不定詞の助動詞 estar
estar
Aux-Inf-have
ter および haver の不定
詞形
ter, haver
Aux-Inf-Pron-be
接語付きの 'be' 助動詞
の不定詞
sê-lo
Aux-Inf-Pron-have
接語付きの ter および
haver の不定詞
ter-se
Aux-Pron-be
接語付きの 'be' 助動詞
estava-me
Aux-Pron-have
接語付きの助動詞 ter お
よび haver
tinham-se
Conj
未分類の接続詞
nem, aquando, tal como
Conj-Comp
比較の接続詞
mais do que uma vez
Conj-Coord
等位接続詞
por fax ou correio
Conj-Sub
従属接続詞
para que, se, que
Adv
Aux
Conj
243
2012-06-14
言語モジュールリファレンス
Det/Pron-Dem-Pl
複数形の指示限定詞ま
たは代名詞
estes, aqueles
Det/Pron-Dem-Sg
単数形の指示限定詞ま
たは代名詞
este, aquele
Det/Pron-Poss-Pl
複数形の所有限定詞ま
たは所有代名詞
vossos, seus
Det/Pron-Poss-Sg
単数形の所有限定詞ま
たは所有代名詞
vosso, seu
Det/Pron-Quant-Pl
複数形の数量限定詞ま
たは数量代名詞
quantas vezes
Det/Pron-Quant-Sg
単数形の数量限定詞ま
たは数量代名詞
quanta vez
Det-Int
疑問限定詞
demostra a que ponto
Det-Int-Pl
複数形の疑問限定詞
quantos, quantas,
quais
Det-Int-Sg
単数形の疑問限定詞
quanto, quanta, qual
Det-Pl
複数形の限定詞
os maiores aplausos
Det-Rel-Pl
複数形の関係限定詞
cujas
Det-Rel-Sg
単数形の関係限定詞
cuja
Det-Sg
単数形の限定詞
o service
Interj
感嘆詞または擬音語
oh, claro
Nn
不変化名詞
caos
Nn-Letter
単独またはピリオドや右
かっこが後に続く、小文
字および大文字の文字
b, N
Nn-Net
URL および電子メール
アドレス
Nn-Pl
複数形の名詞
serviços
Nn-Sg
単数形の名詞
esta rede
Num
数値表現
123
Det/Pron
Det
Interj
Nn
Num
244
www.inxight.com
[email protected]
2012-06-14
言語モジュールリファレンス
Part
245
Part-Neg
否定の不変化詞
nunca
2012-06-14
言語モジュールリファレンス
Prep
Prep
前置詞
com
Prep-a
前置詞 a
a
Prep-Adv
前置詞と副詞の組み合
わせ
venho daqui
Prep-de
前置詞 de
de
Prep-Dem-Pl
前置詞と複数形の指示
詞の組み合わせ
desses recursos
Prep-Dem-Sg
前置詞と単数形の指示
詞の組み合わせ
nesta placa
Prep-Det-Pl
前置詞と複数形の限定
詞の組み合わせ
nas, longe das
Prep-Det-Pl-a
a と複数形の限定詞の組
み合わせ
aos
Prep-Det-Pl-de
de と複数形の限定詞の
組み合わせ
dos Grandes Bancos
Prep-Det-Sg
前置詞と単数形の限定
詞の組み合わせ
na construção
Prep-Det-Sg-a
a と単数形の限定詞の組
み合わせ
ao
Prep-Det-Sg-de
de と単数形の限定詞の
組み合わせ
da, doutro
Prep-para
前置詞 para
para
Prep-Pron
前置詞と代名詞の組み
合わせ
atrás dela
Prep-Quant-Pl
前置詞と複数形の数量
詞の組み合わせ
nuns terrenos
Prep-Quant-Sg
前置詞と単数形の数量
詞の組み合わせ
numa nuvem
Prep-Rel
前置詞と関係代名詞の
組み合わせ
nesta praia aonde ...
Prep-Rel-Pl
前置詞と複数形の関係
代名詞の組み合わせ
alunos aos quais
Prep-Rel-Sg
246
área através do qual
2012-06-14
言語モジュールリファレンス
前置詞と単数形の関係
代名詞の組み合わせ
Pron
Prop
Punct
V/Adj
V
247
Pron
不変化代名詞
si
Pron-Int-Pl
複数形の疑問代名詞
Quais são os livros de
Manuel?
Pron-Int-Sg
単数形の疑問代名詞
Qual é o livro dela?
Pron-Pl
複数形の代名詞
eles
Pron-Rel
不変化関係代名詞
um ortopedista que
Pron-Rel-Pl
複数形の関係代名詞
as instalações as quais
Pron-Rel-Sg
単数形の関係代名詞
o ensayo o qual
Pron-Sg
単数形の代名詞
ele
Prop
固有名詞
Lisbon, Windows
Punct
その他の区切り記号
:()
Punct-Comma
コンマ
,
Punct-Sent
文の区切り記号
.!?;
V/Adj-PaPart
過去分詞の動詞または
形容詞
penetrado, referida
V-Fin
定形動詞
corresponde
V-Fin-Pron
接語付きの定形動詞
deu-lhe
V-Inf
不定詞の動詞
reunir, conservar
V-Inf-Pron
接語付きの不定詞の動
詞
datar-se
V-PrPart
現在分詞の動詞
falando
V-PrPart-Pron
接語付きの現在分詞の
動詞
deixando-a
2012-06-14
言語モジュールリファレンス
5.19.1.5 ポルトガル語のグループ化
ポルトガル語の単純名詞句は、必要に応じて前置修飾語および後置修飾語をともなう名詞のことです。次のよ
うに、名詞の前に形容詞が先行することがあります:
•
diferentes destinos
後置修飾語には形容詞および名詞が含まれます。例:
•
água salgada
•
Monte Sinai
名詞は、de ではじまり (修飾された) 名詞を含む、後続の前置詞句ともグループ化されます:
•
mastro de emergência
5.19.2 抽出
ここでは、ポルトガル語の抽出固有の情報について説明します。
5.19.2.1 事前定義済みエンティティタイプ
ここでは、ポルトガル語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい
て説明します。
5.19.2.1.1 NOUN_GROUP
ポルトガル語の単純名詞句は、必要に応じて前置修飾語および後置修飾語をともなう名詞のことです。次のよ
うに、名詞の前に形容詞が先行することがあります:
•
diferentes destinos
後置修飾語には形容詞および名詞が含まれます。例:
248
•
água salgada
•
Monte Sinai
2012-06-14
言語モジュールリファレンス
5.20 ルーマニア語言語リファレンス
この章では、ルーマニア語言語モジュールの動作について説明します。
5.20.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、ルーマニア語テキストの処理における言語固有の情報に
ついて説明します。
5.20.1.1 ルーマニア語の文字エンコード
•
iso_8859_2
•
cp_1250
•
utf_8、utf_16、ucs_4
5.20.1.2 ルーマニア語の単語のセグメンテーション
ルーマニア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従
います。
関連項目
• 25 ページの「単語のセグメンテーション」
5.20.1.3 ルーマニア語のステミング
ルーマニア語のステミングには、標準ステム機能と拡張ステム機能が含まれます。
249
2012-06-14
言語モジュールリファレンス
5.20.1.3.1 標準ステム機能
ルーマニア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、
主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞の
ようなクローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
例
名詞
profesorul -> profesor, muzeele -> muzeu, marii
-> mare
動詞
terminam -> termina, doresc -> dori, credeam ->
crede
形容詞
frumoasa -> frumos, mici -> mic, eficace -> eficace
副詞
aici -> aici, teoretic -> teoretic, mai -> mai
5.20.1.3.2 拡張ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。ルーマニア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記さ
れていない固有名詞がこれに含まれます。例:
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
România
România
românia
România
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
250
2012-06-14
言語モジュールリファレンス
例
出力
inimă
inimă
inima
inimă
5.20.2 抽出
注
ルーマニア語は基本レベルサポート言語モジュールです。つまり、辞書または抽出ルールによる抽出のみが
サポートされます。
5.21 ロシア語言語リファレンス
この章では、ロシア語言語モジュールの動作について説明します。
5.21.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、ロシア語テキストの言語処理における言語固有の情報に
ついて説明します。
5.21.1.1 ロシア語の文字エンコード
251
•
iso_8859_5
•
cp_1251
•
koi8_r
•
utf_8、utf_16、ucs_4
2012-06-14
言語モジュールリファレンス
5.21.1.2 ロシア語の単語のセグメンテーション
ロシア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま
す。ロシア語のセグメンテーション機能は、вряд ли、4ръЧ фев., 07ОШб などの複合語ユニットと、лаб.、фр
. のような省略形を処理します。
関連項目
• 25 ページの「単語のセグメンテーション」
5.21.1.3 ロシア語のステミング
ロシア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品
詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のようなク
ローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
例
名詞
работу -> работа, изменения -> изменение
покупаю -> покупать, едешь -> ехать
動詞
покупала -> покупать, ехали -> ехать
形容詞
красного -> красный, краснее -> красный,
краснейшим -> красный
副詞
хорошо -> хорошо, ясно -> ясно
5.21.1.4 ロシア語の品詞タグ設定
252
2012-06-14
言語モジュールリファレンス
次の表にロシア語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。タグセットは
数または性別を区別しません。
アンブレラタグ
完全タグ
説明
例
Adj-Nom
主格の形容詞
красивый, красивая, красивое,
красивые
Adj-Acc
対格の形容詞
красивого, красивую, красивое,
красивые
Adj-Gen
所有格の形容詞
красивого, красивой, красивых
Adj-Obl
斜格の形容詞 (与格、
助格など)
красивым, красивой,
красивому, красивыми
Adj-Comp
比較級の形容詞
краше
Adj-Brf
短縮形の形容詞
красив, красива, красивы
Adj-Inv
省略形の形容詞
т.н.
Adv
副詞
быстро
Adv-Comp
比較級の副詞
лучше
Conj
接続詞
и, но, чтобы
Det-Nom
主格の代名詞的形容
詞
этот
Det-Acc
対格の代名詞的形容
詞
эту
Det-Gen
所有格の代名詞的形
容詞
нашей
Det-Obl
斜格の代名詞的形容
詞
этому
Det-Inv
省略形の代名詞的形
容詞
др.
Dig
Dig
数値 (数字)
1999, 100Мб
Interj
Interj
感嘆詞
ага, ах, ба
Adj
Adv
Conj
Det
253
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Nn-Nom
主格の名詞
сестра, сестры
Nn-Acc
対格の名詞
сестру, сестер
Nn-Gen
所有格の名詞
сестер
Nn-Obl
斜格の名詞
сестрой, сестрами
Nn-Inv
省略形の名詞
пр., о., г.
Num
Num
数値
три, восемь
Ord
Ord
序数 (数字)
7., 3.
Pron-IntRel-Nom
主格の関係代名詞
кто
Pron-IntRel-Acc
対格の関係代名詞
кого
Pron-IntRel-Gen
所有格の関係代名詞
чего
Pron-IntRel-Obl
斜格の関係代名詞
кому
Pron-Pers-Nom
主格の人称代名詞
я, ты
Pron-Pers-Acc
対格の人称代名詞
меня, тебя
Pron-Pers-Gen
所有格の人称代名詞
меня, тебя
Pron-Pers-Obl
斜格の人称代名詞
мной, тобой
Pron-Adv
代名詞的副詞
откуда, кое-как
Pron-Nom
主格の代名詞
все, ничто
Pron-Acc
対格の代名詞
все
Pron-Gen
所有格の代名詞
всего, ничего
Pron-Obl
斜格の代名詞
всеми, ничем
Nn
Pron
254
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Prep-Nom
主格を支配する前置
詞
плюс, минус
Prep-Acc
対格を支配する前置
詞
за
Prep-Gen
所有格を支配する前
置詞
без, накануне
Prep-Obl
斜格を支配する前置
詞
благодаря, к
Prop-Nom
主格の固有名詞
Москва, Мальцев
Prop-Acc
対格の固有名詞
Москву
Prop-Gen
所有格の固有名詞
Москвы
Prop-Obl
斜格の固有名詞
Москве, Мальцеве
Punct-Comma
コンマ
,
Punct-Sent
文末の区切り記号
.?!
Punct-Symbol
文中の区切り記号
%/$
Part
不変化詞
аж, же
Part-Int
導入の不変化詞
авось
Part-Sent
文の不変化詞
аминь
Part-Mood
法マーカーの不変化
詞
бы, ли
Aux
助動詞
быть
Prep
Prop
Punct
Part
Aux
255
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Verb
完全タグ
説明
例
Verb-Fin
定形動詞
делай, делает, делал
Verb-Ger
副詞的分詞 (動名詞)
делав, делавши, делая
Verb-Inf
不定詞の動詞
делать
Verb-Acc
対格の分詞
делавшего, делавшую
Verb-Gen
所有格の分詞
делавшего, делавшей
Verb-Nom
主格の分詞
делавший, делавшее,
делавшая
Verb-Obl
斜格の分詞
делавшим, делавшей
Verb-Brf
短縮形の分詞
делано, делана
Verb-Inv
省略形の動詞
исп.
5.21.2 抽出
ここでは、ロシア語の抽出固有の情報について説明します。
5.21.2.1 ロシア語のサブタイプ
ロシア語がサポートするサブタイプのタイプは、ORGANIZATION および URI です。
関連項目
• 34 ページの「 サブタイプ」
5.21.2.2 事前定義済みエンティティタイプ
256
2012-06-14
言語モジュールリファレンス
ここでは、ロシア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について説
明します。次の各リンクをクリックすると、サブセクションに移動できます。257 ページの 「COUNTRY」、257 ペー
ジの 「GEO_AREA」、257 ページの 「GEO_FEATURE」、258 ページの 「LOCALITY」、258 ページの 「ORGANI
ZATION」、259 ページの 「PERSON」、259 ページの 「PHONE」、260 ページの 「PROP_MISC」、260 ページの
「TITLE」、および 260 ページの 「URI」。
5.21.2.2.1 COUNTRY
省略形を含む、国の名前:
•
Германия
•
Россия
•
Северная Корея
•
США
•
ОАЭ
5.21.2.2.2 GEO_AREA
大陸、国の集団、州、自治区など、重要な土地の集合体を指し、一連の市や町が含まれている、市よりも大き
い地理的な領域:
•
Центральная Европа
•
Якутия
•
Огайо
•
штат Уттар-Прадеш
•
республика Бурятия
•
Сахалинская область
•
Дальний Восток
•
Ненецкий автономный округ
5.21.2.2.3 GEO_FEATURE
地区、小さい町、村、または川、湖、山の名前:
257
•
Чистопольский район
•
поселок Кутопьюган
•
озеро Иссык-Куль
•
Каспийское море
•
река Волга
2012-06-14
言語モジュールリファレンス
5.21.2.2.4 LOCALITY
市の名前:
•
Таганрог
•
Нью-Йорк
•
Берлин
•
Великие Луки
•
Санкт-Петербург
前に方向を示す指定子が付いている市の名前:
•
северо-запад Москвы
•
восток Лондона
5.21.2.2.5 ORGANIZATION
非営利団体、美術グループなどの団体や組織を含む、政府機関、法律機関、サービス機関。次のうちいずれ
かのサブタイプとして抽出されます。
•
COMMERCIAL– 主要な企業や法人などの営利組織の名前。例:
•
АФК Система
•
Майкрософт
•
Газпром
•
Газпром-Медиа
•
МТС
•
Норникель
•
компания "СМВБ-Информационные технологии"
•
ЗАО “Эдем”
•
холдинг "Телекоминвест"
•
Автобанк-Никойл
•
Автомобильный Банкирский Дом
•
Росевробанк
•
Банк Москвы
注
抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ
ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。
•
258
OTHER– 特定のサブタイプに適合しないすべての組織:
2012-06-14
言語モジュールリファレンス
•
правительство США
•
Международная организация по стандартизации
•
Санкт-Петербургский государственный
университет
•
ООН
•
Ассоциация независимых центров экономического
анализа
•
Министерство по налогам и сборам
5.21.2.2.6 PERSON
名前のバリエーション:
•
Валерий Трошин
•
Наталья Фотиева
•
Алексей Иванович Сергеев
•
П.В. Шавенков
•
Иван
•
Иван Иванович
•
Сокуров
•
Джордж Буш-младший
•
Фритц Фидлер
•
Татьяна Щепкина-Куперник
•
Суворова Мария Георгиевна
5.21.2.2.7 PHONE
ロシア国内および国際電話番号:
•
8(920) 284 8484
•
(+7495) 771 7226
•
+7(495)788-97-99
等位接続された一連の電話番号:
259
•
телефоны 2100500 или 2222222
•
тел.: (8-0512)-21-81-60, 49-21-92, 47-88-97
2012-06-14
言語モジュールリファレンス
5.21.2.2.8 PROP_MISC
他のエンティティで特定されるエンティティタイプのいずれにも分類されない、固有名詞:
•
В финале последнего Кубка Кремля теннисистка
добилась победы
•
Заодно можно проверить готовность города к
Олимпиаде 2008
•
Между тем, согласно исследованию "Аэртон", депозиты
в долларах показали отрицательную доходность
•
В годы Второй Мировой войны офицер был капитаном
жандармерии
5.21.2.2.9 TITLE
人物の地位の説明。地位エンティティには、組織、会社、地名で表現される補語が含まれます:
•
генеральный директор Агентства прикладной и
региональной политики
•
генеральный секретарь ОПЕК
•
председатель Ассоциации коммуникационных
агентств России
•
ректор Военно-медицинской академии
•
глава Генеральной прокуратуры
•
президент Франции
•
адвокат экс-главы "ЮКОСа"
5.21.2.2.10 URI
インターネットのアドレス:
•
www.yandex.ru
•
http://blog.kp.ru/community/1231628
•
[email protected]
5.22 セルビア語言語リファレンス
この章では、セルビア語言語モジュールの動作について説明します。
260
2012-06-14
言語モジュールリファレンス
5.22.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、セルビア語テキストの言語処理における言語固有の情報
について説明します。
5.22.1.1 セルビア語の文字エンコード
•
iso_8859_2
•
cp_1250
•
utf_8、utf_16、ucs_4
5.22.1.2 セルビア語の単語のセグメンテーション
セルビア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従い
ます。
関連項目
• 25 ページの「単語のセグメンテーション」
5.22.1.3 セルビア語のステミング
ここでは、セルビア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.22.1.3.1 標準ステム機能
標準のセルビア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つま
り、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞
のようなクローズドクラスの単語も、ステム処理される場合があります。
261
2012-06-14
言語モジュールリファレンス
カテゴリ
例
名詞
nemanja -> nemanje , teglu -> tegla , odgovorom
-> odgovor
動詞
donese -> doneti , ponude -> ponuditi , zadovoljimo -> zadovoljiti
形容詞
srbijansku -> srbijanski , spremni -> spreman ,
izborni -> izboran
副詞
joj -> ona , to -> taj , neku -> neki
5.22.1.3.2 拡張ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。セルビア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され
ていない固有名詞がこれに含まれます。
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Informacione
Tehnologije など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。
262
例
出力
Srbija
Srbija
srbija
Srbija
Plovka
plovka
plovka
plovka
Splet
splet
splet
splet
2012-06-14
言語モジュールリファレンス
発音区分符号なし文字
拡張バージョンでは、発音区分符号付きの文字の代わりに発音区分符号なし文字も許容します。以下はその
例です。
例
出力
bajačica
bajačica
bajacica
bajačica
5.22.1.4 セルビア語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、セルビア語のタグセットを示します。各タグ名に、簡単な
説明と 1 つ以上の例を示します。タグセットは性別を区別しません。
アンブレラタグ
完全タグ
説明
例
Abbr
Abbr
省略形
napr
Adj
形容詞
mnogima, srpskog
Adj-Comp
比較級の形容詞
dublji, manje
Adj-Sup
最上級の形容詞
najnovija, najgore
Adv
副詞
bar, tako
Adv-Comp
比較級の副詞
bolje, smelije
Conj
Conj
接続詞
da, zato
Enum
Enum
列挙体
etc.
Interj
Interj
感嘆詞
ne, li
Adj
Adv
263
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Nn-Pl-Nom
複数形主格の名詞
srbi, ljudi
Nn-Pl-Acc
複数形対格の名詞
gorštačkim, razloge
Nn-Pl-Gen
複数形所有格の名詞
svetinja, vekova
Nn-Pl-Case
呼格、処格、および助格
を含む、複数形
funkcionerima, uslovima
Nn-Sg-Nom
単数形主格の名詞
istina, pravda
Nn-Sg-Acc
単数形対格の名詞
put, narod
Nn-Sg-Gen
単数形、所有格の名詞
godine, poverenja
Nn-Sg-Case
呼格、処格、および助格
の名詞を含む、単数形
ratu, knjizi
Num
数字
123
Num-Nom
主格の数値表現
desetoro
Num-Acc
対格の数値表現
dvoje
Num-Case
主格および対格以外の
数値表現
troje
Num-Card
基数
jedan, devet
Num-Ord
序数
prvu, osmo
Prep
前置詞
za, od
Pron
代名詞
svog, te
Pron-Pl
複数形の代名詞
koje
Pron-Sg
単数形の代名詞
šta
Pron-Ref
再帰代名詞
se
Pron-Pers-Sg
単数形の人称代名詞
mi
Pron-Pers-Pl
複数形の人称代名詞
ih
Pron-Poss-Sg
単数形の所有代名詞
našoj
Pron-Poss-Pl
複数形の所有代名詞
njegovih
Prop
固有名詞
Zagreb
Nn
Num
Prep
Pron
Prop
264
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Punct
V
完全タグ
説明
例
Punct-Sent
文末の区切り記号
!?.
Punct-Comma
コンマ
,
Punct-Open
開く区切り記号
(
Punct-Close
閉じる区切り記号
)
Punct
その他の区切り記号
…
V-Inf
不定詞の動詞
objasniti, uništiti
V-Fin-Sg
単数形の定形動詞
reci
V-Fin-Pl
複数形の定形動詞
smatraju, istaknemo
V-Part
分詞
izvadivši
V-Part-Sg
単数形の分詞
napao, dozvolio
V-Part-Pl
複数分詞
iskopali, proganjali
V-Aux-Clit
助動詞
nisu, bi
5.22.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、セルビア語の推測機能に渡され、最も適していると思われる
タグが設定されます。セルビア語の推測機能は、セルビア語の形態構造に関するルールセットに基づいて、検
出されなかった単語にタグを設定します。たとえば、末尾が sti -» の単語は不定詞の動詞とみなされます。イ
ンターネットおよび電子メールのアドレスには、Nn-Net というタグが設定されます。大文字表記の情報も重要
です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。
5.22.1.5 セルビア語のグループ化
セルビア語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。修飾語は、形容詞、形容
詞的代名詞、または序数であることがありますが、限定詞または wh- 代名詞ではありません。修飾語は、副詞
を自身の修飾語としてともなうことができます。例:
265
•
dole podpisani pravoslavni srpski sveštenici
•
hiljadugodišnjim iskustvom
•
posle srpskih seoba
2012-06-14
言語モジュールリファレンス
5.22.2 抽出
ここでは、セルビア語の抽出固有の情報について説明します。
5.22.2.1 事前定義済みエンティティタイプ
ここでは、セルビア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について
説明します。
5.22.2.1.1 NOUN_GROUP
セルビア語の名詞群は、必要に応じて前置修飾語をともなう 1 つ以上の名詞で構成できます。
前置修飾語は、0 個以上の副詞と、その後に続く 1 個以上の (等位) 形容詞、形容詞的代名詞、形容詞的数
詞で構成できます。
例:
•
poslednje ostatke Krsta
•
duhu politike
•
petvekovno tursko ropstvo
5.23 スロバキア語言語リファレンス
この章では、スロバキア語言語モジュールの動作について説明します。
5.23.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、スロバキア語テキストの言語処理における言語固有の情
報について説明します。
266
2012-06-14
言語モジュールリファレンス
5.23.1.1 スロバキア語の文字エンコード
•
iso_8859_2
•
cp_1250
•
utf_8、utf_16、ucs_4
5.23.1.2 スロバキア語の単語のセグメンテーション
スロバキア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従
います。
関連項目
• 25 ページの「単語のセグメンテーション」
5.23.1.3 スロバキア語のステミング
ここでは、スロバキア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.23.1.3.1 標準ステム機能
標準のスロバキア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つ
まり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名
詞のようなクローズドクラスの単語も、ステム処理される場合があります。
267
カテゴリ
例
名詞
jablká -> jablko, brány -> brána, domom -> dom,
stoly -> stôl
動詞
chcel -> chciť, prosím -> prosiť, boli -> byť, myslí
-> myslieť
形容詞
tmavom -> tmavý, úzkej -> úzký, starąí -> starý
2012-06-14
言語モジュールリファレンス
カテゴリ
例
副詞
dobre -> dobre, nikde -> nikde, neskôr -> neskôr
5.23.1.3.2 拡張ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。スロバキア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され
ていない固有名詞がこれに含まれます。
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Stredoveká
Literatúra など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。
例
出力
Bratislava
Bratislava
bratislava
Bratislava
Ide
Ida, idea, ísť
ide
Ida, idea, ísť
Literatúra
literatúra
literatúra
literatúra
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
268
例
出力
lačný
lačný
2012-06-14
言語モジュールリファレンス
例
出力
lacny
lačný
5.23.1.4 スロバキア語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、スロバキア語のタグセットを示します。各タグ名に、簡単
な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。
次の表に、カスタムエンティティの定義で使用できる、スロバキア語のタグセットを示します。各タグ名に、簡単
な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。
Umbrella Tag
Complete Tag
Description
Examples
Abbr
Abbr
Abbreviation
dopr., hl
Adj
Adjectives
úškrnových, úšustov
Adj-Comp
Comparative adjectives
účtovovanší, účtovovanším
Adj-Sup
Superlative adjectives
najúbohším, najúbohších
Adv
Adverbs
najavo, sami
Adv-Comp
Comparative adverbs
účastnšie, účastnejšie
Adv-Conj
Either adverb or conjunction
ako, kde, tak
Adv-Part
Either adverb or particle
celkom, ešte, práve
Adv-Sup
Superlative adverbs
najúbohšie, najúlisnšie
Conj
Conjunction
alebo, keby, pritom
Conj-Part
Either conjunction or
particle
a, aj, ale
Interj
Interjection
zbohom, výborne
Adj
Adv
Conj
Interj
269
2012-06-14
言語モジュールリファレンス
Umbrella Tag
Complete Tag
Description
Examples
Nn
Invariant noun
zombi, šapitó
Nn-Pl-Gen
Plural, genitive noun
účtov, účtovaní
Nn-Pl-Case
Plural, nominative, accusative, dative, locative
and instrumental noun
účtami, účtovaniami
Nn-Sg-Gen
Singular, genitive noun
účtu, účtovania
Nn-Sg-Case
Singular, nominative, accusative, dative, locative
and instrumental noun
účtovi, účtovaním
Nn-Net
URL, e-mail address
Num
Number expression other
than cardinal or ordinal,
ascii numbers
1, 12%
Num-Card
Cardinal number
osemsto, štyritisíc osemsto
Num-Ord
Ordinal number
dvetisíc, dvetisícsto
Part
Part
Particles
nie, by
Pref
Pref
Prefix (stand alone prefix)
vodo, ne
Prep
Prep
Prepositions
v, zo
Nn
www.inxight.com
Num
270
[email protected]
2012-06-14
言語モジュールリファレンス
Umbrella Tag
Pron
Prop
Punct
271
Complete Tag
Description
Examples
Pron-Dem-Pl
Plural demonstrative
pronoun
všelitakí, všelitakým
Pron-Dem-Sg
Singular demonstrative
pronoun
taký, všelitakom
Pron
Indefinite pronoun
čosi
Pron-Pl
Plural pronoun
dačíchsi, čiesi
Pron-Sg
Singular pronoun
kdečiasi, všeličiasi
Pron-Interrog
Interrogative pronoun
kto, všelikoho
Pron-Refl
Reflexive pronoun
sám, svoj
Pron-Pers-Sg
Singular personal pronoun
ona, on
Pron-Pers-Pl
Plural personal pronoun
oni, ony
Pron-Poss
Possesive pronoun
váš, ich
Prop
Prop
Swisscom, Swisscomami
Punct-Sent
Sentence ending punctuation
!?.
Punct-Comma
Comma
,
Punct-Open
Opening punctuation
(
Punct-Close
Closing punctuation
)
Punct-Quote
Quote
"
Punct
Other punctuation
... -
2012-06-14
言語モジュールリファレンス
Umbrella Tag
Complete Tag
Description
Examples
V-Inf
Infinitive verb
účtovat, útočiet
V-Past-Pl
Plural, past tense verb
účtovali, účinkovali
V-Past-Sg
Singular, past tense verb
účtoval, účtovala
V-Pres-Pl
Plural, present tense
verb
účtovujú, účtujeme
V-Pres-Sg
Singular, present tense
verb
účtovujem, účtovuj
V-Fut-Pl
Plural, future tense verb
budú, budete
V-Fut-Sg
Singular, future tense
verb
bude, budeš
V-Aux
Auxiliary verb
vie, vieš
V
5.23.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、スロバキア語の推測機能に渡され、最も適していると思われ
るタグが設定されます。スロバキア語の推測機能は、スロバキア語の形態構造に関するルールセットに基づい
て、検出されなかった単語にタグを設定します。たとえば、末尾が -» の単語は不定詞の動詞とみなされます。
インターネットおよび電子メールのアドレスには、Nn-Net というタグが設定されます。
大文字表記の情報も重要です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。
5.23.1.5 スロバキア語のグループ化
スロバキア語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。
修飾語は、形容詞または序数であることがありますが、限定詞または代名詞ではありません。
修飾語は、副詞を自身の修飾語としてともなうことができます。
例:
272
•
rokovaniach orgánov Európskej únie
•
základe poverenia poslancov Národnej rady
2012-06-14
言語モジュールリファレンス
5.23.2 抽出
ここでは、スロバキア語の抽出固有の情報について説明します。
5.23.2.1 事前定義済みエンティティタイプ
ここでは、スロバキア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい
て説明します。
5.23.2.1.1 NOUN_GROUP
スロバキア語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。修飾語は、形容詞また
は序数であることがありますが、限定詞または代名詞ではありません。修飾語は、副詞を自身の修飾語としてと
もなうことができます。
例:
•
rokovaniach orgánov Európskej únie
•
základe poverenia poslancov Národnej rady
5.24 スロベニア語言語リファレンス
この章では、スロベニア語言語モジュールの動作について説明します。
5.24.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、スロベニア語テキストの言語処理における言語固有の情
報について説明します。
273
2012-06-14
言語モジュールリファレンス
5.24.1.1 スロベニア語の文字エンコード
•
iso_8859_2
•
cp_1250
•
utf_8、utf_16、ucs_4
5.24.1.2 スロベニア語の単語のセグメンテーション
スロベニア語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従
います。
関連項目
• 25 ページの「単語のセグメンテーション」
5.24.1.3 スロベニア語のステミング
ここでは、スロベニア語のステミングで使用される、標準ステム機能と拡張ステム機能について説明します。
5.24.1.3.1 標準ステム機能
標準のスロベニア語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つ
まり、主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名
詞のようなクローズドクラスの単語も、ステム処理される場合があります。
274
カテゴリ
例
名詞
čtiva -> čtivo, čtivu -> čtivo, čbeličarju -> čbeličar,
čvrstost -> čvrstost, čvrstostih -> čvrstost
動詞
jva -> jesti, jta -> jesti, jte -> jesti, je -> jesti, jesla
-> jesti
2012-06-14
言語モジュールリファレンス
カテゴリ
例
形容詞
yorški -> yorški, yorških -> yorški, yorška ->
yorški
副詞
čvrsto -> čvrsto
5.24.1.3.2 拡張ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。スロベニア語では、発音区分符号がないアクセント記号付きの文字、単語の頭文字が大文字表記され
ていない固有名詞がこれに含まれます。
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。Informacijska
Tehnologija など、普通名詞が大文字ではじまる場合を扱うため、先頭の大文字は小文字にされます。
例
出力
Čile
Čile, čil
čile
Čile, čil
Tomaž
Tomaž
tomaž
Tomaž
Tehnologija
tehnologija
tehnologija
tehnologija
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
275
2012-06-14
言語モジュールリファレンス
例
出力
Čile
Čile, čil
Cile
Čile, čil
5.24.1.4 スロベニア語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、スロベニア語のタグセットを示します。各タグ名に、簡単
な説明と 1 つ以上の例を示します。タグセットは性別を区別しません。
アンブレラタグ
Adj
Adv
完全タグ
説明
例
Adj
形容詞
miren, mirna, mlad,
mladi
Adj-Comp
比較級の形容詞
lepši, lepše, bolj divji,
manj divji
Adj-Sup
最上級の形容詞
najlepši, najlepše, najbolj divji, najmanj divji
Adv
副詞
lepo, naglo, nagloma
Adv-Comp
比較級の副詞
lepše, bolj vroče, manj
razločno
Adv-Sup
最上級の副詞
najlepše, najbolj vroče,
najmanj razločno
Conj
接続詞
in, pa, medtem ko
Conj-Part
接続詞または分詞
samo, ne
Interj
感嘆詞
pfuj, ehej
Conj
Interj
276
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Nn
完全タグ
説明
例
Nn
省略形、頭字語などを含
む、不変化名詞
ZDA, št.
Nn-Du-Gen
双数形、所有格の名詞
čvrstosti
Nn-Du-Case
双数形、主格、対格、与
格、処格、および助格の
名詞
čvrstostih, čvrstostima
Nn-Pl-Gen
複数形、所有格の名詞
čvrstosti
Nn-Pl-Case
複数形、主格、対格、与
格、処格、および助格の
名詞
čvrstostih, čvrstostmi
Nn-Sg-Gen
単数形、所有格の名詞
čvrstosti
Nn-Sg-Case
単数形、主格、対格、与
格、処格、および助格の
名詞
cvrstosti, čvrstostjo
Nn-Net
URL、電子メールアドレス
www.inxight.com [email protected]
Num
不変化の数値表現
1, 12%
Num-Card-Gen
基数、所有格
stotih
Num-Card-Case
基数、主格、対格、与
格、処格、および助格
sto, stotim
Num-Ord-Gen
序数、所有格
stotih
Num-Ord-Case
序数、主格、対格、与
格、処格、および助格
sto, stotim
Num-Gen
基数または序数以外の
数値表現、所有格
četvorke, četvork
Num-Case
基数または序数以外の
数値表現、主格、対格、
与格、処格、および助格
četvorka, četvorki
Part
不変化詞
že, žal
Prep
前置詞
pod, po
Prep-Cmpd
接語付きの前置詞
podnje, podnjo
Num
Part
Prep
277
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Pron
Prop
278
完全タグ
説明
例
Pron-Dem-Du
双数形の指示代名詞
toliki, tolikima
Pron-Dem-Pl
複数形の指示代名詞
tolike, tolikimi
Pron-Dem-Sg
単数形の指示代名詞
to, toliko
Pron-Ref
再帰代名詞、数変化なし
sebe, seboj, sebi
Pron-Ref-Sg
単数形の再帰代名詞
svoj, svojim, svoji
Pron-Ref-Du
双数形の再帰代名詞
svoji, svojih, svojima
Pron-Ref-Pl
複数形の再帰代名詞
svoji, svoje, svoja
Pron-Pers-Sg
単数形の人称代名詞
jaz, ti, on, ona, ono
Pron-Pers-Du
双数形の人称代名詞
midva, vidva, onadva
Pron-Pers-Pl
人称代名詞、複数形
mi, me, vi, ve, oni
Pron-Poss-Sg
所有代名詞、単数形
moj, tvoj, njen, njegov
Pron-Poss-Du
所有代名詞、双数形
najin, vajin, njun
Pron-Poss-Pl
所有代名詞、複数形
naš, vaš, njihov
Pron-Interrog
疑問代名詞
kdo, kaj, kateri
Pron-Rel
関係代名詞
kdor, kar, kateri, ki
Pron-Pl
複数形の代名詞
vsem, vsemi, vse, vsa
Pron-Du
双数形の代名詞
vsi, vsema
Pron-Sg
単数形の代名詞
vso, vsm, vse
Pron
その他の代名詞、不定
形、評価など
isti, drug
Prop
固有名詞
Sava, Ljubljana Prop
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Punct-Sent
文末の区切り記号
.!?
Punct-Comma
コンマ
,
Punct-Open
開く区切り記号
(
Punct-Close
閉じる区切り記号
)
Punct-Quote
引用符
"
Punct
その他の区切り記号
... -
V-Aux
助動詞
biti, bi
V-Sup
動名詞の動詞
prodat, spat
V-Inf
不定詞の動詞
prodati, spati
V-PPast-Du
双数形、過去形の動詞
čvrcali, čvrčala
V-PPast-Pl
複数形、過去形の動詞
čvrčala, čvrčale
V-PPast-Sg
単数形、過去形の動詞
čvrčalo, čvrčal
V-Pres-Du
双数形、現在形の動詞
jva, jta
V-Pres-Pl
複数形、現在形の動詞
jte, jmo
V-Pres-Sg
単数形、現在形の動詞
je, ješ
Punct
V
5.24.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、スロベニア語の推測機能に渡され、最も適していると思われ
るタグが設定されます。スロベニア語の推測機能は、スロベニア語の形態構造に関するルールセットに基づい
て、検出されなかった単語にタグを設定します。たとえば、末尾が -ti の単語は不定詞の動詞とみなされます。
インターネットおよび電子メールのアドレスには、Nn-Net というタグが設定されます。
大文字表記の情報も重要です。たとえば、大文字ではじまる単語は固有名詞とみなされる傾向があります。
5.24.1.5 スロベニア語のグループ化
スロベニア語の名詞群は、修飾語を持つ複数の名詞です。
279
2012-06-14
言語モジュールリファレンス
修飾語は、形容詞または序数であることがありますが、限定詞または代名詞ではありません。
修飾語は、副詞を自身の修飾語としてともなうことができます。
例:
•
življenju otrok
•
Evropski uniji
5.24.2 抽出
ここでは、スロベニア語の抽出固有の情報について説明します。
5.24.2.1 事前定義済みエンティティタイプ
ここでは、スロベニア語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につい
て説明します。
5.24.2.1.1 NOUN_GROUP
スロベニア語の名詞群は、修飾語を持つ単純名詞または複合語であることがあります。修飾語は、形容詞また
は序数であることがありますが、限定詞または代名詞ではありません。修飾語は、副詞を自身の修飾語としてと
もなうことができます。
例:
•
življenju otrok
•
Evropski uniji
5.25 スペイン語言語リファレンス
この章では、スペイン語言語モジュールの動作について説明します。
280
2012-06-14
言語モジュールリファレンス
5.25.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、スペイン語テキストの言語処理における言語固有の情報
について説明します。
5.25.1.1 スペイン語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.25.1.2 スペイン語の単語のセグメンテーション
スペイン語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従い
ます。スペイン語のセグメンテーション機能には、次の言語固有の動作があります。
del、al などの略語は分割されません。dámelo にあるような接語は分離されません。末尾のハイフンは単語から
分割されます。序数はピリオドから分離されません。
テキスト
セグメンテーション後
dámelo
dámelo
del
del
empresa
empresa2a.
281
2a.
2012-06-14
言語モジュールリファレンス
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.25.1.3 スペイン語のステミング
ここでは、スペイン語のステミングで使用される、標準ステム機能、拡張屈折ステム機能、および屈折ステマー
推測機能について説明します。
5.25.1.3.1 標準ステム機能
スペイン語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な
品詞 (オープンクラス) はその原形にステム処理されます。固有名詞はそのものにステム処理されます。末尾の
指小辞はすべて、名前の中にあるものでも削除されます。次の表にこれを示します。
カテゴリ
原形
例
名詞
指小辞の付かない単数形
caballitos -> caballo; gatos ->
gato
固有名詞
指小辞の付かないソースの形式
África -> África; Anita -> Ana
動詞
不定詞
compuesto -> componer; contéstame-> contestar
形容詞
男性単数形
altas -> alto; chiquito -> chico
副詞
ソースの形式
por qué -> por qué; cariñosamente -> cariñosamente
スペイン語の代名詞は次の方法でステム処理されます。すべての非屈折形はそのものにステム処理されます。
複数形のみの形、およびすべての人称代名詞では、数情報が保持されます。適用できる場合は、これらの代
名詞は主格形にステム処理されます。その他の形はすべて、男性単数形にステム処理されます。次の表にこ
れを示します。
282
2012-06-14
言語モジュールリファレンス
テキスト
ステム
algo
algo
ambas
ambos
ellas
ellos
mí
yo
éstas
éste
限定詞や序数のようなクローズドクラスの単語は、男性単数の主格形にステム処理されます。屈折しない単語
カテゴリはそのものにステム処理されます。たとえば、接続詞、基数、前置詞などです。
テキスト
ステム
esta
este
con
con
頭字語、省略形、および複合語ユニットはそのものにステム処理されます。代名詞の省略形は、完全形にステ
ム処理されます。次の表にこの処理を示します。
テキスト
ステム
UNAM
UNAM
p.ej.
p.ej.
Ud.
usted
los tuyos
el tuyo
略語は複数のコンポーネントパーツにステム処理されます。
283
2012-06-14
言語モジュールリファレンス
テキスト
ステム
conmigo
con=yo
al
a=el
5.25.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。スペイン語固有の
ものを次に示します。
ハイフネーション
拡張バージョンでは、通常は強制的にハイフンが付く単語の、任意のハイフネーションを許容します。
例
出力
MS-DOS
MS-DOS
MSDOS
MS-DOS
Baden-Baden
Baden-Baden
BadenBaden
Baden-Baden
大文字小文字のバリアント
拡張バージョンでは、強制的に大文字ではじめる単語の大文字の他に、小文字を許容します。
284
例
出力
OEA
OEA
oea
OEA
2012-06-14
言語モジュールリファレンス
アクセント記号なし文字
拡張バージョンでは、アクセント記号付き文字の他に、完全なアクセント記号なし文字を許容します。
例
出力
corazón
corazón
corazon
corazón
5.25.1.3.3 屈折ステマー推測機能
屈折ステマー推測機能には、形態規則のセットが含まれます。この規則は、標準または拡張屈折ステム機能
にとって未知であるため、ステム処理できない単語に適用できます。
言語処理は、最初に標準または拡張屈折ステム機能を使用してステミングを試み、次に、従来どおりにステム
処理できなかった単語にのみ、ステマー推測機能を適用します。
5.25.1.4 スペイン語の品詞タグ設定
次の表にスペイン語のタグセットを示します。各タグ名に、簡単な説明と 1 つ以上の例を示します。例が複数
の単語で構成される場合、現在のタグを例示する単語を太字で示します。タグセットは性別を区別しません。
アンブレラタグ
完全タグ
説明
例
Adj
不変化形容詞
beige, mini
Adj-Ord-Pl
複数形、スペルアウトされ
た序数
primeros
Adj-Ord-Sg
単数形、スペルアウトされ
た序数
primer, primera, sexta
Adj-Pl
複数形の形容詞
bonitos, nacionales
Adv
副詞
siempre, directamente
Adv-Deg
形容詞を修飾できる副詞
muy importante
Adv-Int
疑問副詞
cuándo
Adv-Rel
副詞的な関係節を示す
語
donde
Adj
Adv
285
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Aux
完全タグ
説明
例
Aux-be
助動詞 ser および estar
('be')
es, fui, estaba
Aux-have
助動詞 haber ('have')
han, hubo, hay
Aux-Inf-be
'be' 助動詞の不定詞
estar
Aux-Inf-have
haber の不定詞形
haber
Aux-Inf-Pron-be
接語付きの 'be' 助動詞
の不定詞
serme, estarlo
Aux-Inf-Pron-have
接語付きの haber の不
定詞
haberle, habérseme
Conj
接続詞
si, porque
Conj-como
単語 como
como
Conj-Coord
等位接続詞
y, o
Conj-que
単語 que
que
Det/Pron-Quant-Pl
複数形の数量限定詞ま
たは数量代名詞
unas casas
Det/Pron-Quant-Sg
単数形の数量限定詞ま
たは数量代名詞
poca
Det-Dem-Pl
複数形の指示限定詞
estas, esos
Det-Dem-Sg
単数形の指示限定詞
esta
Det-Pl
複数形の限定詞
tus
Det-Pre-Pl
複数形の前置限定詞
todas las, todos los
Det-Pre-Sg
単数形の前置限定詞
todo el, toda la
Det-Rel
関係限定詞
cual, cuyo
Det-Sg
単数形の限定詞
mi
Interj
感嘆詞または擬音語
ah
Conj
Det/Pron
Det
Interj
286
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Nn
名詞、数字の不変化部
分
fénix
Nn-Letter
ピリオド付きまたはピリオ
ドの付かない小文字の文
字、またはピリオドの付か
ない大文字
a, h., M
Nn-Net
URL または電子メールア
ドレス
Nn-Pl
複数形の名詞
gatos
Nn-Sg
単数形の名詞
gato
Num
数値表現、基数
123, XIX, once, cuatrocientos
Num-Ord
序数
1o., 2a
Part-Neg
否定の不変化詞 no
no
Prep
前置詞
en, con, por
Prep-a
前置詞 a
a casa
Prep-de
前置詞 de
la casa de María
Prep-Det
前置詞と限定詞の組み
合わせ
fuera del, antes del
Prep-Det-a
a と限定詞の組み合わせ
al
Prep-Det-de
de と限定詞の組み合わ
せ
del
Prep-para
前置詞 para
para la casa
Nn
Num
Part
Prep
287
www.inxight.com、
[email protected]
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Pron
Prop
Punct
完全タグ
説明
例
Pron
代名詞
yo
Pron-Clitic
接語代名詞 (acc. または
dat.)
le, me, os, nos
Pron-Dem
指示代名詞
ésta, aquél
Pron-Int
疑問代名詞
cuánto, cuál, quién
Pron-Poss
所有代名詞
el mío, las vuestras
Pron-Rel
関係代名詞
lo cual, quien
Pron-se
再帰代名詞
se
固有名詞、またはアル
ファベット、数字、区切り
記号の組み合わせ
Pablo
Prop
Punct
その他の区切り記号
' " / & { :;
Punct-Comma
コンマ
,
Punct-Sent
文の区切り記号
.?!
V/Adj-PaPart-Pl
複数過去分詞の動詞ま
たは形容詞
hechas
V/Adj-PaPart-Sg
単数過去分詞の動詞ま
たは形容詞
fundada
V-Fin
定形動詞
tiene, pueda, dicte
V-Impv
命令形の動詞
dejad
V-Impv-Pron
接語付きの命令形の動
詞
déjame, sígueme
V-Inf
不定詞の動詞
evitar, tener, conducir
V-Inf-Pron
接語付きの不定詞の動
詞
hacerse, suprimirlas
V-PrPart
現在分詞の動詞
siendo, tocando
V-PrPart-Pron
接語付きの現在分詞の
動詞
haciéndoles, tomándolas
U-587, Win2000
V/Adj
V
288
2012-06-14
言語モジュールリファレンス
5.25.1.4.1 検出されない単語
タグ設定機能の辞書で検出されなかった単語は、スペイン語のタグ設定推測機能に渡されます。この機能で
は、これらの単語に、スペイン語の形態構造および大文字表記に関するルールセットに基づくタグが設定され
ます。次のタグ設定ルールセットは、このモジュールの一部です。
動詞のタグは動詞の活用形に従って設定されます。インターネットアドレスおよび電子メールアドレスには、NnNet としてタグ設定されます。
大文字ではじまる単語、または数字ではじまり大文字が続く単語は、固有名詞とみなされます。アルファベット
文字と数字の組み合わせ、およびこれらと任意の区切り記号の組み合わせも、固有名詞とみなされます。数字
と区切り記号の組み合わせは、数字としてタグ設定されます。連続した区切り記号マークは、区切り記号として
タグ設定されます。
5.25.2 抽出
ここでは、スペイン語の抽出固有の情報について説明します。
5.25.2.1 スペイン語のサブタイプ
スペイン語がサポートするサブタイプのタイプは、ORGANIZATION、REGION、SOCIAL_MEDIA、および URI
です。
関連項目
• 34 ページの「 サブタイプ」
5.25.2.2 事前定義済みエンティティタイプ
ここでは、スペイン語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例について
説明します。次の各リンクをクリックすると、サブセクションに移動できます。290 ページの 「ADDRESS1」、290
ページの 「COUNTRY」、290 ページの 「CURRENCY」、291 ページの 「DATE」、291 ページの 「DAY」、291 ペー
ジの 「GEO_AREA」、292 ページの 「GEO_FEATURE」、292 ページの 「HOLIDAY」、292 ページの 「LAN
GUAGE」、293 ページの 「LOCALITY」、293 ページの 「MEASURE」、293 ページの 「MONTH」、294 ページの
「NOUN_GROUP」、294 ページの 「ORGANIZATION」、295 ページの 「PEOPLE」、295 ページの 「PERCENT」、
295 ページの 「PERSON」、296 ページの 「PHONE」、296 ページの 「PRODUCT」、296 ページの 「PROP_MISC」、
289
2012-06-14
言語モジュールリファレンス
297 ページの 「REGION」、297 ページの 「SOCIAL_MEDIA」、298 ページの 「TIME」、298 ページの 「TIME_PE
RIOD」、298 ページの 「TITLE」、299 ページの 「URI」、および 299 ページの 「YEAR」。
5.25.2.2.1 ADDRESS1
ADDRESS1 の形式は、イベリア半島、メキシコ、南アメリカのスペイン語の住所にみられる、典型的な郵便先住
所のパターンに基づきます。
住所には、通りの名前と番地が含まれる必要があります。また、州と国の両方またはいずれかを指定された市、
郵便番号、またはメキシコで使用される近隣を示す地名を含むことがあります。
•
Avenida Cristobal Colón 5667
•
Plaza de la Lealtad, 5 28014 Madrid
•
Calle Castillo Chapultepec 47
Colonia Chapultec
62380 Cuernavaca, México
•
Apartado Postal 20818, 28011 Madrid
5.25.2.2.2 COUNTRY
国の名前、および一定の国家集団の略称。紛争中の領土や国際的に認知されていない領土などの、従来の
ラベルを適用できない、地政学的なエンティティの名前も含まれます。以下はその例です。
•
Rusia
•
Nicaragua
•
Estado de Israel
•
EE UU
•
Kosovo
•
Gibraltar
•
Palestina
•
Tibet
5.25.2.2.3 CURRENCY
世界通貨額を表す表現、およびこれらの額の範囲を表す表現:
290
•
tres mil cuatrocientos veinte escudos
•
3 pesos chilenos
•
$15
•
¥ 2500
•
de 3 a 5 pesetas
2012-06-14
言語モジュールリファレンス
•
$15-30
•
entre cinco mil y un millón de florines
5.25.2.2.4 DATE
さまざまな形式の、数字で構成される日付:
•
15-9-96
•
15.09.96
•
10/10/2001
•
2000-3-31
•
1980/05/02
完全な日付には、少なくとも 1 つの数字と月が含まれる必要があります。
•
31 de junio
•
1 de enero de 1555
5.25.2.2.5 DAY
曜日:
•
lunes
•
Miércoles
•
viernes
日にちの範囲:
•
lunes-viernes
•
sábado/domingo
5.25.2.2.6 GEO_AREA
大陸、国の集団、および大陸の一部を含む、市よりも大きな地理上の領域:
291
•
Alpes
•
Norteamérica
•
Centroamérica
•
Caribe
•
Cáucaso
•
América Latina
•
Europa del Este
2012-06-14
言語モジュールリファレンス
•
Medio Oriente
•
Amazonía
•
Balcanes
5.25.2.2.7 GEO_FEATURE
COUNTRY、GEO_AREA 、LOCALITY、または REGION に当てはまらない、他のすべての場所の名前:
•
Cisjordania
•
Mesopotamia
•
Costa Azul
•
Sierra Nevada
•
Cabo Cañaveral
•
Atlantis
•
Valle de María
•
Antillas
•
Parque Nacional Nahuel Huapi
•
Parque Nacional Galápagos
•
Carretera Panamericana
5.25.2.2.8 HOLIDAY
休日および特例日の名前:
•
Navidad
•
Epifanía
•
Semana Santa
•
Nochevieja
•
Sagrado Corazón
•
Año Nuevo
5.25.2.2.9 LANGUAGE
言語に関連する名詞:
292
•
el español
•
el ruso
•
el alemán
2012-06-14
言語モジュールリファレンス
•
el noruego
•
el francés
5.25.2.2.10 LOCALITY
市の名前:
•
Madrid
•
Tel Aviv
•
Miami
•
México
•
Barcelona
•
Roma
5.25.2.2.11 MEASURE
重さ、体積、長さなどのすべてのメジャー:
•
3 km
•
9 grados
•
12 grados centígrados
•
75 kilos
•
348.000 hectáreas
•
siete litros
•
diez millas
•
646 toneladas
•
660 megavatios
メジャーの範囲、およびメジャー表現:
•
de 28 a 30 grados
•
130 litros por metro cuadrado
•
de 20.000 a 348.000 hectáreas
比率:
•
cincuenta kilómetros por hora
5.25.2.2.12 MONTH
省略形を含む、月の名前:
293
2012-06-14
言語モジュールリファレンス
•
octubre
•
Jul
ハイフンまたはスラッシュを使用した月の範囲:
•
julio-agosto
•
julio/agosto
5.25.2.2.13 NOUN_GROUP
スペイン語の単純名詞句は、必要に応じて前置修飾語および後置修飾語をともなう名詞のことです。
•
torneo femenino
•
cascos azules
•
decisión definitiva
•
relaciones sino-norteamericanas
•
verdadera reanudación
•
préstamos inmobiliarios
•
equilibrio presupuestario
5.25.2.2.14 ORGANIZATION
非営利団体、美術グループなどの団体や組織を含む、商業機関、政府機関、教育機関、法律機関、および
サービス機関。次のうちいずれかのサブタイプとして抽出されます。
•
COMMERCIAL– 主要な企業や法人などの営利組織の名前。例:
•
Texaco
•
Yamaha
•
agencia de noticias Xinhua
•
FIAT
•
Corporación del Cobre de Chile
•
la empresa SOGEMIN
•
Compañía de Energía de Ceara
注
抽出された ORGANIZATION/COMMERCIAL エンティティは、FIRM 入力フィールドのいずれかにマッピ
ングすることで、Data Quality Data Cleanse トランスフォームを使用して解析および標準化できます。
•
294
EDUCATIONAL– 主に教育を目的とする機関の名前。例:
•
Universidad Nacional Autónoma de México
•
Universidad Complutense de Madrid
2012-06-14
言語モジュールリファレンス
•
•
Escuela Elemental Rafael De Jesús
OTHER– 政治的なエンティティとして機能することが可能な地政学的なエンティティのグループを含む、そ
の他の非営利組織:
•
Consejo de Seguridad
•
UNESCO
•
Consejo Estatal Chino
•
Frente Zapatista de Liberación Nacional
•
Movimiento Revolucionario Túpac Amaru
•
Cámara de Comercio
•
Hospital Americano de Paris
•
Benelux
•
Comunidad Económica Europea
•
Unión Europea
5.25.2.2.15 PEOPLE
国、民族、地域、または宗教に基づく人々の特定可能なグループに関連する名前:
•
los británicos
•
los sirios
•
los mexicanos
•
los indígenas
•
los brasileños
•
los ecuatorianos
5.25.2.2.16 PERCENT
パーセント表現、およびパーセントの範囲を表す表現:
•
60%
•
53.83%
•
de 0,8 % a 16,44 %
•
un cinco por ciento
5.25.2.2.17 PERSON
名前で参照される個人。さまざまな形式が識別されます。
295
2012-06-14
言語モジュールリファレンス
•
Roberto
•
Suzanne Prou
•
Yitzhak Rabin
•
PAPA JUAN PABLO II
•
Juan Caballero Velásquez
完全または省略形の敬称付きの、氏名または名前:
•
Señor García
•
Sr. Sanchez-Farrés
•
Sra. María José de la Garza
5.25.2.2.18 PHONE
スペイン語を話す国で使用される FAX 番号および電話番号:
•
(331) 40 41 45 69
•
Fax: (331) 40 41 46 95
•
Tel: 34 91 33782 00
•
1-800-111-2222
•
Tel: 91 111 11 11
•
+34 111 222222
•
111 222 3333 ext 1111
•
Fax: 111-2222
•
111-2222
5.25.2.2.19 PRODUCT
必要な場合は会社名が先行する、製品名:
•
Boeing 757
•
Marlboro
•
Windows
•
Compaq 3-5/8
5.25.2.2.20 PROP_MISC
他のエンティティで特定されるエンティティタイプのいずれにも属さない、すべての固有名詞句:
•
296
Prestige
2012-06-14
言語モジュールリファレンス
•
Wye Plantation
•
Guatemala-Elecciones
•
Zimbabue/N.8
5.25.2.2.21 REGION
さまざまな地域は、次のサブタイプのいずれかとして抽出されます:
•
•
MAJOR– 県や自治区などの、国の行政区分または州:
•
País Vasco
•
Canarias
•
Chiapas
•
provincia de Córdoba
•
Cauca
•
California
•
Minas Gerais
MINOR– 国、県、地区の名前、または類似の区画や行政機関:
•
Martinica
•
Guadalupe
5.25.2.2.22 SOCIAL_MEDIA
ソーシャルメディアフィードからエンティティを抽出するためのエンティティタイプ。ハンドル (ID) およびトピック
は、次のサブタイプのいずれかとして抽出されます:
注
SOCIAL_MEDIA エンティティタイプは Twitter フィードのみをサポートします。
•
•
"@" ではじまる ID_TWITTER–Twitter のハンドルまたは ID。例:
•
@IsabelNevado
•
@Ramón_Sanchez
•
@SCNblogs
•
@sapnoticiasbr
•
@sapnews
•
@SAP_MICROSOFT
"#" ではじまる TOPIC_TWITTER–Twitter のトピック。例:
•
297
#EnElFuturo
2012-06-14
言語モジュールリファレンス
•
#La_Colonia
•
#SAP
•
#Mobility
•
#SAPPRESS
•
#SAP_projects
5.25.2.2.23 TIME
時刻、および時間表現:
•
13:45
•
1:45 de la tarde
•
la 1.45 de la tarde
•
las 2:30 horas
•
12H45
•
las 08H00
•
07h GMT
•
05H00 GMT
•
LAS 12H00 GMT
語句での時刻表現:
•
las cinco y cuarto de la tarde
•
las diez de la mañana
5.25.2.2.24 TIME_PERIOD
時間間隔のメジャー、およびメジャーの範囲を表す表現:
•
doce horas
•
15 minutos
•
cuatro décadas
•
20 meses
•
cinco siglos
5.25.2.2.25 TITLE
名前がなくても地位または肩書きだけで特定される個人:
•
298
Rey
2012-06-14
言語モジュールリファレンス
•
Subcomandante
•
Secretario de Estado
5.25.2.2.26 URI
インターネット上のアドレス。次のサブタイプのいずれかとして抽出されます:
•
•
EMAIL– Lotus Notes の電子メールアドレスなどを含む、電子メールアドレス。例:
•
[email protected]
•
Dupont/BOBJ@CMP
•
CTarin/Inxight@CMP
URL– インターネットアドレス。例:
•
elpais.es
•
www.elpais.es
5.25.2.2.27 YEAR
完全または省略形の、年の識別子:
•
1982
•
444 aC
•
'68
•
'50 y '60
10 年間または 100 年間の識別子:
•
los años sesenta
•
la década de los noventa
•
los setenta
•
siglo XX
年の範囲:
•
1979-90
•
entre 1989 y 1991
5.26 スウェーデン語言語リファレンス
299
2012-06-14
言語モジュールリファレンス
この章では、スウェーデン語言語モジュールの動作について説明します。
5.26.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、スウェーデン語テキストの言語処理における言語固有の
情報について説明します。
5.26.1.1 スウェーデン語の文字エンコード
•
iso_8859_1
•
cp_1252
•
utf_8、utf_16、ucs_4
5.26.1.2 スウェーデン語の単語のセグメンテーション
スウェーデン語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに
従います。スウェーデン語のセグメンテーション機能には、次の言語固有の動作があります。
スウェーデン語のセグメンテーション機能は、s または 's を使用して記述された複数形および所有格を分割し
ません。ハイフンは、ハイフンを使用して記述された複合語のパーツから分離されません。数字と区切り記号の
組み合わせはそのまま保持されます。
テキスト
セグメンテーション後
Eriks
Eriks
metall-
metall- och kemikoncern
och
kemikoncern
300
2012-06-14
言語モジュールリファレンス
テキスト
セグメンテーション後
456:-
456:-
関連項目
• 25 ページの「単語のセグメンテーション」
• 25 ページの「スペース言語」
5.26.1.3 スウェーデン語のステミング
ここでは、スウェーデン語のステミングで使用される、標準ステム機能、拡張屈折ステム機能、および複合語ス
テム機能について説明します。
5.26.1.3.1 標準ステム機能
スウェーデン語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、
主な品詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞の
ようなクローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
原形
例
名詞
不定形単数
hunden, hundar, hundarna ->
hund
動詞
不定詞
springer, sprang, sprungit ->
springa
形容詞
原型
vackra, vackert -> vacker
副詞
基本形またはソースの形式
snabbt -> snabbt
5.26.1.3.2 拡張屈折ステム機能
拡張屈折ステム機能は、標準形式の単語と同様に、大文字表記エラーなど、特定の非標準の単語形式を許
容します。このため、電子メール、オンラインドキュメント、クエリなどの略式で不完全なテキストの処理に使用で
きます。一般的な動作については29 ページの 「拡張屈折ステミング」を参照してください。次の表にスウェー
デン語固有のものを示します。
301
2012-06-14
言語モジュールリファレンス
拡張バージョンでは、通常は大文字ではじめる単語の大文字の他に、小文字を許容します。
例
出力
Erik
Erik
erik
Erik
アクセント記号付き文字のタイプライター形式
拡張バージョンでは、アクセント記号付き文字のタイプライター表記を許容します。つまり、aa と記述されてい
る場合は å、ae と記述されている場合は ä、oe と記述されている場合は ö と認識されます。
例
出力
blaa
blå
blå
blå
アクセント記号なし文字
拡張バージョンでは、アクセント記号付きの文字の代わりにアクセント記号なし文字も許容します。
例
出力
bla
blå
blå
blå
ハイフネーション
強制改行ハイフンを削除して分割された単語の 2 つのパーツを連結することで、強制改行ハイフンを処理す
るソフトウェアを補助するには、数値以外の表現におけるハイフンを拡張バージョンのオプションにして、本来
ハイフンで連結されている単語をそのまま認識できるようにします。
302
例
出力
uland
u-land
2012-06-14
言語モジュールリファレンス
例
出力
u-land
u-land
5.26.1.3.3 複合語ステム機能
複合語ステム機能は、多様な複合語のステミングとともに標準屈折ステミングを実行します。特に、複合語ステ
ム機能は複合語を分割し、パーツをステミングします。多様な複合語は辞書に格納されていません。これによ
り、さまざまな単語の組み合わせが可能になります。
注
標準ステム機能は複合語分析を実行しません。
次の例では、複合語ステム機能の操作を説明しています:
Noun-noun
例
出力
aftonbladet
afton | bladet
berglandskap
berg | landskap
Noun ninus final -a/e + noun
例
出力
flickskola
flick | skola (flicka および skola から)
kistnyckel
kist | nyckel (kista および nyckel から)
Noun+s+noun
303
例
出力
anfallsspel
anfall | spel
2012-06-14
言語モジュールリファレンス
例
出力
stavningsreform
stavning | reform
5.26.1.4 スウェーデン語の品詞タグ設定
次の表に、カスタムエンティティの定義で使用できる、スウェーデン語のタグセットを示します。各タグ名に、簡
単な説明と 1 つ以上の例を示します。例が複数の単語で構成される場合、現在のタグを例示する単語を太字
で示します。タグセットは性別を区別しません。
アンブレラタグ
完全タグ
説明
例
Abbr
Abbr
省略形
S.
Adj-Comp
比較級の形容詞
äldre
Adj-Def-Pl
限定形および複数形の
形容詞
svenska
Adj-Indef-Sg
不定形単数の形容詞
grov
Adj-Sup
最上級の形容詞
viktigast
Adj-Sup-Def
限定最上級の形容詞
fullaste
Adv
Adv
副詞
redan
Cmpd
Cmpd-Part
複合語のパーツ
plats- och släktnamnen
Conj
接続詞
att
Conj-Coord
等位接続詞
och, eller
Adj
Conj
304
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
Det/Pron-Pl
複数形の限定詞または
代名詞
dessa
Det/Pron-Pl-Gen
複数形所有格の限定詞
または代名詞
andras
Det/Pron-Sg
単数形の限定詞または
代名詞
något, denna
Det/Pron-Sg-Gen
単数形所有格の限定詞
または代名詞
dennes
Det-Def-Pl
限定形複数の限定詞
de partierna
Det-Def-Sg
限定形単数の限定詞
den ekonom
Det-Indef-Sg
不定形単数の限定詞
en, ett
Interj
感嘆詞
ja
Det/Pron
Det
Interj
305
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Nn
完全タグ
説明
例
Nn-Def-Pl
限定複数形の名詞
verken
Nn-Def-Pl-Gen
所有格限定形複数の名
詞
professionernas
Nn-Def-Sg
限定形単数の名詞
historikern
Nn-Def-Sg-Gen
所有格限定形単数の名
詞
dagens
Nn-Indef-Pl
不定複数形の名詞
strukturer
Nn-Indef-Pl-Gen
所有格不定形複数の名
詞
rikens
Nn-Indef-Sg
不定形単数の名詞
dag
Nn-Indef-Sg-Gen
所有格不定形単数の名
詞
institutions
Nn-Indef-SP
不定形単数または複数
の名詞
universitet
Nn-Indef-SP-Gen
所有格形不定単数また
は複数の名詞
års
Nn-Letter
小文字および大文字の
文字
b, N
Nn-Net
URL および電子メール
アドレス
www.inxight.com
Nn-Def-Pl
限定複数形の名詞
verken
Num
序数、数字またはスペル
アウトされた複数
5,4 or 300
Num
Ord
306
[email protected]
hundra
Num-Sg
スペルアウトされた数値
"one"
en
Ord
序数 (数字または単語)
tredje
2012-06-14
言語モジュールリファレンス
アンブレラタグ
Prep
完全タグ
説明
例
Prep
前置詞
kring
Prep-av
前置詞 av
av
Prep-foer
前置詞 för
för
Prep-om
前置詞 om
om
Prep-paa
前置詞 på
på
Pron-Acc
対格の代名詞
en
Pron-Gen
所有格の代名詞
ens
Pron-Nom
主格の代名詞
man
Pron-Pers-Acc
対格の人称代名詞
sig
Pron-Pers-Gen
所有格の人称代名詞
dess, deras
Pron-Pers-Nom
主格の人称代名詞
du
Pron-Poss-Pl
複数形の所有代名詞
mina
Pron-Poss-Sg
単数形の所有代名詞
vår, ert
Prop
固有名詞
Europa, Margareta
Prop-Gen
所有格の固有名詞
Eriks
Punct
区切り記号
/-
Punct-Comma
コンマ
,
Punct-Paren
かっこの区切り記号
()[]
Punct-Quote
引用符の区切り記号
"''«»
Punct-Sent
文末の区切り記号
.?!
Quant
数量詞
alla, många
Pron
Prop
Punct
Quant
307
2012-06-14
言語モジュールリファレンス
アンブレラタグ
完全タグ
説明
例
V-Impv
命令形の動詞
tänk
V-Impv-SForm
命令形の動詞、S 形
minns
V-Inf
不定詞の動詞
skilja
V-Inf-SForm
不定詞の動詞、S 形
tänkas
V-PaPart
過去分詞の動詞
tecknat, handlat
V-Past
過去形の動詞
slog
V-Past-SForm
過去形の動詞、S 形
kysstes
V-Pres
現在形の動詞
varnar
V-Pres-SForm
現在形の動詞、S 形
sägs
V-PrPart
現在分詞の動詞
mötande
V
5.26.1.5 スウェーデン語のグループ化
スウェーデン語の名詞句には、必要に応じて修飾語をともなう 1 つ以上の名詞が含まれます。名詞修飾語は、
名詞の所有格の形、一連の形容詞 (副詞をともなう場合があります)、および分詞句であることがあります。例:
•
svenska småföretag
•
skiftande arbetstider
•
årligen återkommande attraktion
•
Göteborgs stadsteater
次のように、修飾語の接続や複合語のパーツを使用できます:
•
metall- och kemikoncern
•
socialdemokratiska ledare och regeringschefer
前置詞 för、om、av、および på を名詞句内で使用できます。例:
308
•
knepig fråga för regeringen
•
debatt om rasism
•
behandling av naturliga språk
2012-06-14
言語モジュールリファレンス
•
synpunkt på de övriga skäl
5.26.2 抽出
ここでは、スウェーデン語の抽出固有の情報について説明します。
5.26.2.1 事前定義済みエンティティタイプ
ここでは、スウェーデン語言語モジュールがサポートする事前定義済みエンティティタイプと、それらの例につ
いて説明します。
5.26.2.1.1 NOUN_GROUP
スウェーデン語の名詞句には、必要に応じて修飾語をともなう 1 つ以上の名詞が含まれます。名詞修飾語は、
名詞の所有格の形、一連の形容詞 (副詞をともなう場合があります)、および分詞句であることがあります。例:
•
svenska småföretag
•
skiftande arbetstider
•
årligen återkommande attraktion
•
Göteborgs stadsteater
次のように、修飾語の接続や複合語のパーツを使用できます:
•
metall- och kemikoncern
•
socialdemokratiska ledare och regeringschefer
5.27 タイ語言語リファレンス
この章では、タイ語言語モジュールの動作について説明します。
5.27.1 言語処理
309
2012-06-14
言語モジュールリファレンス
ここでは、単語のセグメンテーション、ステミングなど、タイ語テキストの処理における言語固有の情報について
説明します。
5.27.1.1 タイ語の文字エンコード
•
tis_620
•
utf_8、utf_16、ucs_4
5.27.1.2 タイ語の単語のセグメンテーション
タイ語のセグメンテーション機能は、非スペース言語のすべての一般的なセグメンテーションルールに従いま
す。タイ語には、次の言語固有の動作があります。
次に示すように、接尾辞と接頭辞は内容語に付いたまま保持されます:
テキスト
セグメンテーション後
関連項目
• 25 ページの「単語のセグメンテーション」
5.27.1.3 タイ語のステミング
タイ語の単語は屈折しないので、すべての単語のステムは、ソースの形式とまったく同じです。クローズドクラス
の単語だけでなく、次の表に示すオープンクラスの単語も同様です。
310
2012-06-14
言語モジュールリファレンス
カテゴリ
原形
例
名詞
ソースの形式
ภาพถ่าย -> ภาพถ่าย
動詞
ソースの形式
กลั่น -> กลั่น
形容詞
ソースの形式
คอนกรีต -> คอนกรีต
副詞
ソースの形式
กรอด -> กรอด
5.27.2 抽出
注
タイ語は基本レベルサポート言語モジュールです。つまり、辞書または抽出ルールによる抽出のみがサポート
されます。
5.28 トルコ語言語リファレンス
この章では、トルコ語言語モジュールの動作について説明します。
5.28.1 言語処理
ここでは、単語のセグメンテーション、ステミングなど、トルコ語テキストの処理における言語固有の情報につい
て説明します。
5.28.1.1 トルコ語の文字エンコード
311
2012-06-14
言語モジュールリファレンス
•
iso_8859-9
•
utf_8、utf_16、ucs_4
5.28.1.2 トルコ語の単語のセグメンテーション
トルコ語のセグメンテーション機能は、スペース言語のすべての一般的なセグメンテーションルールに従いま
す。
関連項目
• 25 ページの「単語のセグメンテーション」
5.28.1.3 トルコ語のステミング
トルコ語のステム機能は、一般的なステミングルール (27 ページの 「ステミング」) に従います。つまり、主な品
詞 (オープンクラス) はその原形にステム処理されます。次の表にこれを示します。限定詞や代名詞のようなク
ローズドクラスの単語も、ステム処理される場合があります。
カテゴリ
例
名詞
kitaplar -> kitap, anahtarýný -> anahtar, denizi ->
deniz
動詞
açabilir -> aç, gideceðim -> git, boyamaya -> boya
形容詞
küçük -> küçük, dikkatli -> dikkat, güzel -> güzel
副詞
sessiz -> ses, gergin -> ger, çabukça -> çabuk
5.28.2 抽出
312
2012-06-14
言語モジュールリファレンス
注
トルコ語は基本レベルサポート言語です。つまり、辞書または抽出ルールによる抽出のみがサポートされます。
313
2012-06-14
カスタマの声コンテンツ
カスタマの声コンテンツ
カスタマの声コンテンツには、カスタマの感想および要求を抽出する要件を指定するエンティティタイプとルー
ルのセットが含まれます。このコンテンツを使用して、テキストの処理および分析時に、カスタマのニーズと意見
に関する特定の情報を取得できます。
カスタマの声コンテンツは、次の言語モジュールに含まれ、これらの言語モジュールをサポートします。
•
英語
•
フランス語
•
ドイツ語
•
スペイン語
抽出には、複雑な言語分析とパターン一致処理が必要です。これには、品詞、構文パターン、否定などを処理
して、抽出されるパターンを識別することが含まれます。
抽出出力には、識別されたパターンと、抽出された情報のタイプ (感想または要求のどちらか) などの各抽出
に関する情報が含まれます。
カスタマの声コンテンツには、次のルールセットが含まれます。
ルールセットの説明
コンパイル済み (.fsm) ファイルおよびソース (.rul) ファイル
english-tf-voc-sentiment.fsm
english-tf-voc-sentiment.rul
french-tf-voc-sentiment.fsm
•
Sentiment
強い、または弱いなどの感想の強さを含む、感想
と問題に関する情報を抽出します
french-tf-voc-sentiment.rul
german-tf-voc-sentiment.fsm
german-tf-voc-sentiment.rul
spanish-tf-voc-sentiment.fsm
spanish-tf-voc-sentiment.rul
315
2012-06-14
カスタマの声コンテンツ
ルールセットの説明
コンパイル済み (.fsm) ファイルおよびソース (.rul) ファイル
english-tf-voc-request.fsm
english-tf-voc-request.rul
french-tf-voc-request.fsm
•
Request
連絡してほしいなどのカスタマによる一般的な要
求を抽出します。
french-tf-voc-request.rul
german-tf-voc-request.fsm
german-tf-voc-request.rul
spanish-tf-voc-request.fsm
spanish-tf-voc-request.rul
データの分析および抽出時、ルールセットでは、カスタマの感想や要求を表現するステートメントが意向として
考慮されます。意向はさらに、スタンスとトピックに分割されます。
•
感想の意向の場合、スタンスは感想のカテゴリまたはタイプを表します。たとえば、肯定的で強い感想、否
定的で強い感想などです。
•
要求の意向の場合、スタンスは一般か連絡かなどの要求のタイプを表します。
•
トピックは、感想または要求の内容を表します。
抽出される各意向には、通常次のものが含まれます。
•
少なくとも 1 つのスタンス
•
オプションのトピック (1 つの意向に複数のトピックが可能)
抽出を拡張するためのカスタマの声コンテンツの使用の詳細については、 『SAP BusinessObjects Data
ServicesText Data Processing 抽出カスタマイゼーションガイド 』を参照してください。
関連項目
• 316 ページの「感想の抽出」
• 321 ページの「要求の抽出」
6.1 感想の抽出
感想ルールは、何かに対する誰かの感想に関する情報を抽出するために設計されています。このルールは、
コンセプト、場所、アクション、項目 (例: 製品、会社、サービス、個人) などに対するカスタマの感情を表現する
パターンを抽出します。
316
2012-06-14
カスタマの声コンテンツ
このルールは、抽出された感想を次のスタンスタイプに分類します。
感想のスタンスタイプ
説明
肯定的で強い感想
肯定的で強い意見 ("とてもよい"、"すばらしい" な
ど)
肯定的で弱い感想
肯定的で弱い意見 ("よい"、"結構" など)
中立の感想
肯定的でも否定的でもない意見 ("OK"、"まあまあ"
など)
否定的で弱い感想
否定的で弱い意見 ("悪い"、"嫌い" など)
否定的で強い感想
否定的で強い意見 ("大嫌い"、"ひどい" など)
小さな問題
カスタマ側で回避可能な障害についての意見 ("役
に立たない"、"欠点がある") など
大きな問題
カスタマ側で回避不可能な障害についての意見 ("壊
れた"、"動かない" など)
抽出された感想には、スタンスだけでなく、1 つのトピック (感想の内容) も含まれます。トピックは、"カスタマは
何に対する感想を言っているのか?" という疑問の答えです。
6.1.1 英語: 感想の抽出例
肯定的で強い感想
• I totally recommend this car for everyone.
[Sentiment]I [StrongPositiveSentiment]totally recommend[/StrongPositiveSentiment] [Topic]this
car[/Topic] for everyone.[/Sentiment]
肯定的で弱い感想
• The screen is nice with a good picture quality.
[Sentiment][Topic]The screen[/Topic] is [WeakPositiveSentiment]nice[/WeakPositiveSentiment] with a
[WeakPositiveSentiment]good[/WeakPositiveSentiment] [Topic]picture quality[/Topic].[/Sentiment]
317
2012-06-14
カスタマの声コンテンツ
中立の感想
• I don't love your software.
[Sentiment]I do[NeutralSentiment]n't love[/NeutralSentiment] [Topic]your software[/Topic].[/Sentiment]
否定的で弱い感想
• I was disappointed that the coffee was cold.
[Sentiment]I was [WeakNegativeSentiment]disappointed[/WeakNegativeSentiment] [Topic]that the coffee
was cold[/Topic][/Sentiment].[/Sentiment]
否定的で強い感想
• I am very dissatisfied with your service.
[Sentiment]I am [StrongNegativeSentiment]very dissatisfied[/StrongNegativeSentiment] with [Topic]your
service[/Topic].[/Sentiment]
小さな問題
• Most flights are overbooked.
[Sentiment][Topic]Most flights[/Topic] are [MinorProblem]overbooked[/MinorProblem].[/Sentiment]
大きな問題
• Contrary to what the package indicates, it doesn't work.
[Sentiment]Contrary to what the package indicates, it does[MajorProblem]n't work[/MajorProblem].[/Sen
timent]
6.1.2 フランス語: 感想の抽出例
肯定的で強い感想
• Les repas y sont excellents.
[Sentiment][Topic]Les repas[/Topic] y sont [StrongPositiveSentiment]excellents[/StrongPositiveSenti
ment][/Sentiment].
肯定的で弱い感想
• Je suis satisfait du confort intérieur.
Je suis [Sentiment][WeakPositiveSentiment]satisfait[/WeakPositiveSentiment] du [Topic]confort
intérieur[/Topic][/Sentiment].
中立の感想
• Une voiture relativement acceptable.
318
2012-06-14
カスタマの声コンテンツ
[Sentiment][Topic]Une voiture[/Topic] [NeutralSentiment]relativement acceptable[/NeutralSentiment][/Sen
timent].
否定的で弱い感想
• Un serveur assez impoli.
[Sentiment][Topic]Un serveur[/Topic] [WeakNegativeSentiment]assez impoli[/WeakNegativeSentiment][/Sen
timent].
否定的で強い感想
• Le tirage photo me déçoit beaucoup par sa mauvaise qualité.
[Sentiment][Topic]Le tirage photo[/Topic] me [StrongNegativeSentiment]déçoit beaucoup[/StrongNega
tiveSentiment][/Sentiment] par sa mauvaise qualité.
小さな問題
• Le problème se situe dans le moteur.
Le [Sentiment][MinorProblem]problème[/MinorProblem] se situe dans le moteur.[/Sentiment]
大きな問題
• Contrairement à ce que l'emballage indique, ça ne fonctionne pas.
Contrairement à ce que l'emballage indique, [Sentiment]ça ne [MajorProblem]fonctionne pas[/MajorProb
lem][/Sentiment].
6.1.3 ドイツ語: 感想の抽出例
肯定的で強い感想
• Der Fernseher ist klasse.
[Sentiment][Topic] Der Fernseher [/Topic] ist [StrongPositiveSentiment] klasse [/StrongPositiveSenti
ment][/Sentiment].
肯定的で弱い感想
• Ich mag das Radio.
[Sentiment] Ich [WeakPositiveSentiment] mag [/WeakPositiveSentiment][Topic] das Radio[/Topic][/Senti
ment].
中立の感想
• Ich finde Ihre Produkte etwas mittelmäßig.
319
2012-06-14
カスタマの声コンテンツ
Ich finde [Sentiment][Topic] Ihre Produkte[/Topic][NeutralSentiment] etwas mittelmäßig [/NeutralSenti
ment][/Sentiment].
否定的で弱い感想
• Der Hauptbahnhof ist nicht schön.
[Sentiment][Topic] Der Hauptbahnhof [/Topic] ist [WeakNegativeSentiment] nicht schön[/WeakNega
tiveSentiment][/Sentiment].
否定的で強い感想
• Der Service war furchtbar.
[Sentiment][Topic] Der Service [/Topic] war [StrongNegativeSentiment] furchtbar [/StrongNegativeSenti
ment][/Sentiment].
小さな問題
• Es sieht so aus, als ob es meinem Computer schadet.
Es sieht so aus, als ob es [Sentiment][Topic] meinem Computer [/Topic][MinorProblem] schadet [/Minor
Problem][/Sentiment].
大きな問題
• Die Installierung hat meinen Computer kaputt gemacht!.
[Sentiment] Die Installierung hat [Topic] meinen Computer [/Topic][MajorProblem] kaputt gemacht [Ma
jorProblem][/Sentiment].
6.1.4 スペイン語: 感想の抽出例
肯定的で強い感想
• Absolutamente adoro este álbum.
[Sentiment][StrongPositiveSentiment]Absolutamente adoro[/StrongPositiveSentiment] [Topic]este
álbum[/Topic][/Sentiment].
肯定的で弱い感想
• Me gusta este grupo.
[Sentiment][WeakPositiveSentiment]Me gusta[/WeakPositiveSentiment] [Topic]este grupo[/Topic][/Sen
timent].
中立の感想
• No es una maravilla.
320
2012-06-14
カスタマの声コンテンツ
[Sentiment]No es una [NeutralSentiment]maravilla[/NeutralSentiment][/Sentiment].
否定的で弱い感想
• Es una mala tienda.
[Sentiment]Es una [WeakNegativeSentiment]mala[/WeakNegativeSentiment] [Topic]tienda[/Topic][/Sen
timent].
否定的で強い感想
• Odio este televisor.
[Sentiment][StrongNegativeSentiment]Odio[/StrongNegativeSentiment] [Topic]este televisor[/Topic][/Sen
timent].
小さな問題
• Tengo problemas con el sonido.
•
[Sentiment]Tengo [MinorProblem]problemas[/MinorProblem] con [Topic]el sonido[/Topic][/Sentiment].
大きな問題
• El archivo es corrupto.
[Sentiment][Topic]El archivo[/Topic] es [MajorProblem]corrupto[/MajorProblem][/Sentiment].
6.2 要求の抽出
要求ルールは、変更や改善に対するカスタマの要望に関する情報を抽出するために設計されています。この
ルールは、連絡を希望する、または製品、会社、サービス、または個人などの項目についての新機能や追加
機能に関するカスタマの要求を表現するパターンを抽出します。
要求は次のスタンスに分類されます。
要求のスタンスタイプ
説明
一般要求
改善や新規機能に関する要求 ("追加してくださ
い"、"作成してください"、"してほしい" など)
連絡要求
直接または即時の連絡に関する要求 ("私に連絡し
てください"、"私に電話してください" など)
抽出されるリクエストには次のものが含まれます。
321
2012-06-14
カスタマの声コンテンツ
•
1 つの要求のスタンス (ContactRequest または GeneralRequest)
•
オプションで 1 つのトピック - 要求の内容。トピックは、"カスタマが望んでいることは何か?" という疑問の答
えです。
•
オプションの連絡先情報 - 電話番号または FAX 番号、住所、電子メールアドレス、Web サイトアドレス
6.2.1 英語: 要求の抽出例
一般要求
• Improve the software UI.
[Request][GeneralRequest]Improve[/GeneralRequest] [Topic]the software UI[/Topic].[/Request]
•
An additional switch would be great to have on this vacuum cleaner.
[Request][Topic]An additional switch[/Topic] [GeneralRequest]would be great[/GeneralRequest] to have
on this vacuum cleaner.[/Request]
連絡要求
• I would like to be contacted by your customer support service at 617-555-5555.
[Request]I [ContactRequest]would like to be contacted[/ContactRequest] by [Topic]your customer support
service[/Topic] at [ContactInfo]617-555-5555[/ContactInfo].[/Request]
•
I would like to receive the January catalog.
[Request]I [ContactRequest]would like to receive[/ContactRequest] [Topic]the January catalog[/Top
ic].[/Request]
6.2.2 フランス語: 要求の抽出例
一般要求
• Le conso aimerait savoir s'il peut avoir une extension de garantie.
[Request]Le conso [GeneralRequest]aimerait[/GeneralRequest] [Topic]savoir s'il peut avoir une extension
de garantie[/Topic][/Request].
•
J'aurais aimé trouver plus de fonctions.
[Request]J'[GeneralRequest]aurais aimé[/GeneralRequest] [Topic]trouver plus de fonctions[/Topic].[/Re
quest]
322
2012-06-14
カスタマの声コンテンツ
連絡要求
• Il souhaitait des informations sur les nouveaux produits.
[Request]Il [ContactRequest]souhaitait[/ContactRequest] [Topic]des informations[/Topic] sur les nouveaux
produits.[/Request]
•
Il demande des renseignements sur la garantie constructeur.
[Request][ContactRequest]Il demande[/ContactRequest] [Topic]des renseignements[/Topic] sur la garantie
constructeur.[/Request]
6.2.3 ドイツ語: 要求の抽出例
一般要求
• Lizenzmodel deutlich vereinfachen!
[Request] [Topic] Lizenzmodel [/Topic] [GeneralRequest] deutlich vereinfachen [/GeneralRequest] !
[/Request]
連絡要求
• Rufen Sie mich unter der Nummer 555-1212 an.
[Request] [ContactRequest] Rufen [/ContactRequest] Sie mich unter der Nummer [ContactInfo] 555-1212
[/ContactInfo] an. [/Request]
6.2.4 スペイン語: 要求の抽出例
一般要求
• Podría hacer un otro color en vez de blanco?
[Request]Podría [GeneralRequest]hacer[/GeneralRequest] [Topic]un otro color en vez de blanco[/Top
ic]?[/Request]
連絡要求
• Quiero contactarme contigo.
[Request][ContactRequest]Quiero contactarme contigo[/ContactRequest][/Request].
323
2012-06-14
企業コンテンツ
企業コンテンツ
企業に特化したコンテンツには、企業のドメイン固有の抽出要件を指定するルールが含まれます。この企業コ
ンテンツを使用して、テキストの処理および分析時に、次の特定の種類の情報を抽出できます。
ルールセットの説明
コンパイル済み (.fsm) ファイルおよびソース (.rul) ファイル
•
english-tf-ent-Member.fsm
メンバーシップ情報
個人の所属に関する情報を抽出します
•
管理の変更
管理の変更に関する情報を抽出します
•
製品リリース
製品リリースに関する情報を抽出します
•
吸収合併
吸収合併に関する情報を抽出します
•
組織情報
創立者、場所、または連絡先情報などの組織に
関する情報を抽出します
english-tf-ent-Member.rul
english-tf-ent-ManagementChanges.fsm
english-tf-ent-ManagementChanges.rul
english-tf-ent-ProductRelease.fsm
english-tf-ent-ProductRelease.rul
english-tf-ent-Mergers.fsm
english-tf-ent-Mergers.rul
english-tf-ent-OrganizationInfo.fsm
english-tf-ent-OrganizationInfo.rul
注
企業コンテンツは、英語言語モジュールのみに含まれ、英語言語モジュールのみをサポートします。
企業コンテンツを使用して抽出ルールを拡張する方法の詳細については、 『SAP BusinessObjects Data
ServicesText Data Processing 抽出カスタマイゼーションガイド 』を参照してください。
関連項目
• 326 ページの「メンバーシップ情報の抽出」
• 327 ページの「管理の変更イベントの抽出」
• 330 ページの「製品リリースイベントの抽出」
• 330 ページの「吸収合併情報の抽出」
325
2012-06-14
企業コンテンツ
•
358 ページの「組織情報の抽出」
7.1 メンバーシップ情報の抽出
メンバールールは、個人および組織内での地位に関する、個人のメンバーシップ情報を抽出するために設計
されています。
次の表に、メンバーシップ情報を抽出するためのルールを示します。
ルール
Member_OrgPerPos
説明
例
一般書式 "組織、個人、位置" に
一致するパターンを抽出します
Southern Community Financial
Corporation announced the appointment of Richard M. Cobb,
Executive Vice President, Chief
Operating Officer and Chief Financial Officer
Member_OrgPosPer
"It is a typical tight stock situation," said Smith Barney analyst
Walter Spilka.
Member_OrgPosPer_PosGuess
Baptist minister and Salvation
Army volunteer Ralph Balley
says the favorite song among
inmates is the hymn "Amazing
Grace" about a lost soul who
found redemption.
一般書式 "組織、位置、個人" に
一致するパターンを抽出します
Member_OrgPosPer_PerGuess
326
CanWest Global Communications Corp Chief Executive Officer Izzy Asper said on Thursday
he expects the broadcast company will see a "substantial advance" in profits, dividends and
developments in 1997.
2012-06-14
企業コンテンツ
ルール
説明
例
Larry Wachtel, a Prudential Securities market analyst
Member_PerOrgPos
一般書式 "個人、組織、位置" に
一致するパターンを抽出します
Member_PerOrgMember
Yael Dayan, a Labour Party
member
Member_PerPosOrg
Harry Reid, president of True
North Communications International
Member_PerMemberOrgBoD
一般書式 "個人、位置、組織" に
一致するパターンを抽出します
Member_PerMemberOrg
Willy Kiekens, a member of the
IMF's board of directors
Willy Kiekens, a member of the
IMF
7.2 管理の変更イベントの抽出
管理の変更ルールは、個人の肩書きや会社の変更に関する情報を抽出するために設計されています。この情
報には、肩書きの以前の保持者、今後の保持者に関する情報が含まれます。
管理の変更ルールファイルには、次の 2 つのグループのルールがあります。
327
•
HireEvent - 雇用の開始に関連するパターンを抽出するルール
•
ResignEvent - 雇用の終了に関連するパターンを抽出するルール
2012-06-14
企業コンテンツ
表 7-3: HireEvent ルール
ルール
HireEvent_OrgActPerPos
説明
例
一般書式 "組織、アクション、個
人、位置" に一致するパターンを
抽出します
Big Bear Networks, delivering
intelligence into the Optical/Electrical interface for enterprise, metro and carrier networks, today named Amit Jain
as its president and chief executive officer.
HireEvent_OrgPerActPos
一般書式 "組織、個人、アクショ
ン、位置" に一致するパターンを
抽出します
nLayers, the leader in real-time
discovery and resource optimization, announced today that
Frank Moss, Ph.D., has joined
its Strategic Advisory Board.
HireEvent_OrgPerActBoD
HireEvent_PerActPosOrg
HireEvent_PerActOrgPos
HireEvent_PerActOrgBoD
328
Specialty Disease Management Services, Inc., a leading
provider of disease management services, announced today that Brian Vervynck has
joined the firm as vice president of sales.
一般書式 "個人、アクション、位
置、組織" に一致するパターンを
抽出します
一般書式 "個人、アクション、組
織、位置" に一致するパターンを
抽出します
Jeff McLean has been named
president of CooperVision's
U.S. operations.
Brad Jones joins CooperVision's management team as
vice president of U.S. sales.
Willy Kiekens was named to
the IMF's board of directors.
2012-06-14
企業コンテンツ
表 7-4: ResignEvent ルール
ルール
説明
例
一般書式 "組織、個人、アクショ
ン、位置" に一致するパターンを
抽出します
Suburban Propane Partners
L.P. said Thursday that Salvatore Quadrino resigned as
president to pursue other business opportunities.
一般書式 "組織、個人、位置、ア
クション" に一致するパターンを
抽出します
Southern Community Financial
Corporation (Nasdaq: SCMF;
SCMFO) announced today that
on February 5, 2005, Richard
M. Cobb, Executive Vice President, Chief Operating Officer
and Chief Financial Officer of
Southern Community Financial
Corporation, announced his
resignation from the Company
effective today.
一般書式 "組織、位置、個人、ア
クション" に一致するパターンを
抽出します
Performance Technologies,
Inc. (Nasdaq: PTIX), today announced that current President
and Chief Executive Officer,
Donald L. Turrell, will leave the
Company's executive management at the end of 2005 to explore personal interests.
ResignEvent_PerActPosOrg
一般書式 "個人、アクション、位
置、組織" に一致するパターンを
抽出します
VOSTROM Holdings, Inc., a
company closely held by Victor
Oppleman, today announced
that Mr. Oppleman resigned as
president of MainNerve, Inc.
effective March 4, 2005.
ResignEvent_PerActOrgBoD
一般書式 "個人、アクション、組
織、位置" に一致するパターンを
抽出します
Willy Kiekens resigned from the
IMF's board of directors.
ResignEvent_OrgPerActPos
ResignEvent_OrgPerPosAct
ResignEvent_OrgPosPerAct
329
2012-06-14
企業コンテンツ
7.3 製品リリースイベントの抽出
製品リリースルールは、新製品の発表に関する情報を抽出するために設計されています。この情報には会社、
日付、および価格が含まれます。このルールは、新規の製品名を抽出するように試みるもので、PRODUCT エ
ンティティという、確立済みの抽出セットには依存しません。
次の表に製品リリースに対して有効なルールを示します。
ルール
ProductRelease_OrgRelProd
説明
一般書式 "組織の製品販売" に
一致するパターンを抽出します
例
Microsoft Corp said it plans to
release its Microsoft Internet Information Service 3.0 software,
a web page development package.
TRW Automotive Holdings Corp.
announced plans to unveil the
company's integrated safety
system platform.
ProductRelease_OrgAnnProd
一般書式 "組織の製品発表" に
一致するパターンを抽出します
Apple(R) today announced
iTunes(R) 5, bringing new features and a refined look to the
world's most popular digital music jukebox and online music
store.
7.4 吸収合併情報の抽出
吸収合併ルールは、吸収合併に関する情報を抽出するために設計されています。
次の表に、吸収合併情報に対して有効なルールを示します。
330
2012-06-14
企業コンテンツ
ルール
説明
例
BuyEvent
一般書式 "組織 1、購入、組織 2"
に一致するパターンを抽出します
Toys R Us will acquire Baby
Superstore Inc in a stock merger
valued at about $376 million.
SellEvent
一般書式 "組織 1、販売、組織 2"
に一致するパターンを抽出します
The Netherlands's largest bank
ABN AMRO said on Friday it
had signed a letter of intent to
sell its MeesPierson investment
bank unit to Belgian/Dutch financial group Fortis.
MergeEvent_MergePre
一般書式 "マージ、範囲、組織
1、AND、組織 2" に一致するパ
ターンを抽出します
The merger of AUSTEL and
Spectrum Management Authority was announced today.
MergeEvent_MergePost
一般書式 "組織 1、AND、組織
2、マージ" に一致するパターンを
抽出します
Namibian Fishing Industries Ltd
(Namfish) and Namibian Sea
Products Ltd (Namsea) are to
merge in April.
7.5 組織情報の抽出
組織情報ルールは、会社および組織の中心となる情報を抽出するために設計されています。次の表に、組織
用に定義されたルールセットを示します。
331
ルール
説明
OrganizationPerson
一般書式 "個人、組織での位置"
に一致するパターンを抽出します
(電話、Fax、電子メール、および
URL をオプション指定できます)
OrganizationPhone
一般書式 "組織、電話" に一致す
るパターンを抽出します
例
•
Patti J. McAtee, Director of
CalEnergy, 402-341-4500.
•
Motorola, Inc., George Grimsrud, 847/576-2346.
•
Business Objects, North
America, +1 800 877 2340
2012-06-14
企業コンテンツ
ルール
OrganizationFax
OrganizationEmail
OrganizationURL
OrganizationAddress
OrganizationLocation
332
説明
例
•
Marriott International press
releases are available through
Company News On-Call by
fax, 800-758-5804, ext.
532963.
•
Inxight Software Inc., 500
Macara Avenue, Sunnyvale,
CA 94085, U.S.A., Email: in
[email protected]
•
Seagate's home page address
on the World Wide Web is
http://www.seagate.com.
•
These documents are all available on Intuit's Web site at
http://www.intuit.com.
•
For more information contact:
Inxight Software Inc., 500
Macara Avenue, Sunnyvale,
CA 94085, Tel: 555.555.1212.
•
U.S. operations of Toyota,
Japan's largest automaker, are
headquartered in New York.
•
Fort Lauderdale-based Blockbuster has nearly 2,800 stores
nationwide.
•
Cypress Asset Management
Inc, a Houston-based investment adviser
一般書式 "組織、Fax" に一致す
るパターンを抽出します
一般書式 "組織、電子メール" に
一致するパターンを抽出します
一般書式 "組織、URL" に一致す
るパターンを抽出します
一般書式 "組織、住所" に一致す
るパターンを抽出します
一般書式 "組織、[拠点を置く] 場
所"、"場所 -[に拠点を置く]、組
織"、または "組織、場所 -[に拠
点を置く]" に一致するパターンを
抽出します
2012-06-14
企業コンテンツ
ルール
OrganizationFounder
一般書式 "設立者、[設立した] 組
織"、"設立者、[の] 組織"、"組織、
[設立した] 設立者"、または "組
織、設立者" に一致するパターン
を抽出します
OrganizationNationality
一般書式 "国籍、組織" または
"組織、[の] 国籍" に一致するパ
ターンを抽出します
OrganizationTicker
一般書式 "組織、ティッカー" に
一致するパターンを抽出します
OrganizationStockPrice
333
説明
一般書式 "組織価値"、"組織の
評価価格"、"組織の株価価格"、
または "組織の株の上昇/獲得/
価格" に一致するパターンを抽出
します
例
•
English social reformer Sir
GEORGE WILLIAMS, who
founded the YMCA, was born
in 1821.
•
Jean-Louis Gassee, the
founder of Be Inc.
•
Canal Plus was founded by
Andre Rousselet.
•
Apple Computer Inc. fired cofounder Steven Jobs in 1985.
•
Michelin Tyre is a unit of
France's Michelin S.A.
•
The Miami fast-food chain,
owned by Grand Metropolitan
of Britain.
•
Microsoft (Nasdaq: MSFT) announced this quarter's earnings.
•
NASDAQ: BOBJ $41.34.
•
NASDAQ: BOBJ valued at
$41.34.
•
$41.37 is Business Objects
stock price.
•
Caterpillar's shares rose 0.9
percent to $85.93.
•
Microsoft gained 2.2 percent
to $30.33.
•
Kodak shares were up 4.5 percent to $45.87.
2012-06-14
公共部門コンテンツ
公共部門コンテンツ
公共部門コンテンツには、テキストの処理および分析時に、公共部門固有の情報を抽出するのに使用できる
ルールセットが含まれます。次の言語モジュールに含まれ、これらの言語モジュールをサポートします。
•
アラビア語
•
英語
•
簡体字中国語
注
アラビア語、ファルシ語、ヘブライ語など、右から左に記述する言語の言語および抽出に関する情報は、別の
付録に記載されています。
使用中の言語モジュールに応じて、公共部門コンテンツには次の抽出機能があります。
•
•
アラビア語、英語、および簡体字中国語言語モジュール
•
デフォルトのエンティティタイプ (このガイドの 『言語モジュールリファレンス 』の節で説明)
•
公共部門固有のエンティティタイプ (この章で説明)
英語言語モジュールのみ
•
イベントタイプおよび関連タイプ
•
公共部門固有タイプの情報を抽出するための追加ルールセット
関連項目
• 335 ページの「英語: 抽出される情報のタイプ 」
• 370 ページの「公共部門エンティティ - 簡体字中国語」
• 45 ページの「言語モジュールリファレンス」
8.1 英語: 抽出される情報のタイプ
標準英語言語モジュールと併用すると、公共部門コンテンツでは、公共部門固有のエンティティおよびデフォ
ルトのエンティティタイプを抽出できます。公共部門コンテンツには、公共部門関連の追加情報の抽出ができ
るルールセットも含まれます。
335
2012-06-14
公共部門コンテンツ
8.1.1 公共部門コンテンツのルールセット - 英語
公共部門コンテンツには、英語言語モジュール用の次の抽出ルールセットが含まれます。
ルールセットの説明
•
アクション
アクションイベントおよび旅行イベントに関する情
報を抽出します
•
軍隊
チーム、飛行隊、戦隊などの軍隊に関する情報
を抽出します
•
組織情報
組織に関する情報を抽出します
•
個人のエイリアス
個人に可能なエイリアスに関する情報を抽出しま
す
•
個人の外見
個人の外見に関する情報を抽出します
•
個人の属性
個人の外見以外の属性に関する情報を抽出しま
す
•
個人の関係
個人の関係に関する情報を抽出します
•
空間参照
距離、基本方位、場所などの相対的な空間参照
を抽出します
336
コンパイル済み (.fsm) ファイルおよびソース (.rul) ファイル
english-tf-gov-Action.fsm
english-tf-gov-Action.rul
english-tf-gov-MilitaryUnits.fsm
english-tf-gov-MilitaryUnits.rul
english-tf-gov-Org.fsm
english-tf-gov-Org.rul
english-tf-gov-PersonAlias.fsm
english-tf-gov-PersonAlias.rul
english-tf-gov-PerApp.fsm
english-tf-gov-PerApp.rul
english-tf-gov-PerAtt.fsm
english-tf-gov-PerAtt.rul
english-tf-gov-PerRel.fsm
english-tf-gov-PerRel.rul
english-tf-gov-SpatialRef.fsm
english-tf-gov-SpatialRef.rul
2012-06-14
公共部門コンテンツ
抽出ルールの拡張の詳細については、 『SAP BusinessObjects Data ServicesText Data Processing 抽出カス
タマイゼーションガイド 』を参照してください。
関連項目
• 342 ページの「アクションイベントの抽出」
• 349 ページの「旅行イベントの抽出」
• 357 ページの「軍隊の抽出」
• 358 ページの「組織情報の抽出」
• 360 ページの「個人のエイリアスの抽出」
• 363 ページの「個人の外見に関する情報の抽出」
• 364 ページの「個人の属性に関する情報の抽出」
• 367 ページの「個人の関係に関する情報の抽出」
• 369 ページの「空間参照の抽出」
8.1.2 公共部門コンテンツエンティティ - 英語
公共部門コンテンツは、標準英語モジュールによって検出されるエンティティタイプおよび一般表記エンティ
ティタイプのすべてだけでなく、次のものも抽出します。
•
特別なエンティティタイプ: 337 ページの 「GEOCOORD」、338 ページの 「MGRS」、338 ページの
「MISC_NUMERIC」、338 ページの 「PHONEMTF」、338 ページの 「PRECURSOR」、339 ページの 「VEHI
CLE」、および 339 ページの 「WEAPON」。
•
特別な一般表記エンティティタイプ: 340 ページの 「COMMON_PRECURSOR」、341 ページの 「COMMON_VE
HICLE」、および 341 ページの 「COMMON_WEAPON」。
8.1.2.1 GEOCOORD
さまざまな形式の地理座標
337
•
1234N/12345E
•
LAT. 12.34N LONG. 012.34W
•
234500S/0123400W
•
12'34.5N4-012'34.5E6
•
3074N04429E
•
33 40' 56.14" N 69 56' 20.20" E
2012-06-14
公共部門コンテンツ
•
38˚53'23"N , 77˚00'27"W
8.1.2.2 MGRS
さまざまな形式の Military Grid Reference System の座標
•
18SUH6743
•
42S VB 7917 2559
8.1.2.3 MISC_NUMERIC
さまざまな種類の数字
•
120-89
•
12345678
8.1.2.4 PHONEMTF
PHONEMTF は、米国形式の電話番号と、フランス形式、ドイツ形式、およびスペイン形式の国際電話番号を
抽出します。PHONEMTF は、次の特別な形式も処理します。
•
角括弧を使用する番号。例: [1] (202) 628-7342。
•
非標準表記の番号。例: 5521 5074151
•
並列表記された電話番号。例: +525 728-9562 | +525 728-9563
8.1.2.5 PRECURSOR
兵器の前駆物質。次のサブタイプのいずれかとして抽出されます。
•
CHEMICAL - 化学兵器の製造に使用される物質として公式に認定されている化学物質の名前。
•
338
Cyanide
2012-06-14
公共部門コンテンツ
•
•
Dimethyl methylphosphonate
NUCLEAR - 核兵器の製造に使用される物質として公式に認定されている核物質および放射性物質の名
前。
•
Cesium-137
•
Strontium-90
8.1.2.6 VEHICLE
輸送方法。次のサブタイプのいずれかとして抽出されます。
•
•
•
•
•
AIR - 航空機、ヘリコプターなどの飛行体。例:
•
Air Force One
•
Concorde
LAND - 陸上車。色、年式、モデル、メーカーを含みます。例:
•
blue 1993 Volkswagen Passat
•
1988 red Toyota Camry
WATER - 船舶。例:
•
USS Cole
•
USS Constitution
LICENSE - 州の略称ではじまる場合、米国およびカナダのナンバープレート形式に準拠する、連続した英
数字。
•
NY DGR-3532
•
CA 1AVC367
VIN - 次の形式の車両識別番号 (VIN)。常に 17 文字を含みます。
•
1G1JF27W8GJ178227
VIN 内のそれぞれの位置には、国コード、メーカーコード、装置コード、シリアル番号などを識別する、特定
の意味があります。
8.1.2.7 WEAPON
兵器。次のサブタイプのいずれかとして抽出されます。
339
2012-06-14
公共部門コンテンツ
•
•
•
•
•
•
BIOLOGICAL - 人体、植物 (農作物)、動物に危害を与えるために使用されるとして、または潜在的な生物
学的脅威として公式に認定されている、細菌、病原体、菌類、天然の毒物、および疾病の名前。これらの兵
器のいずれかを散布する手段を説明するエンティティも抽出します。
•
Anthrax
•
ricin
CHEMICAL - 人体、植物 (農作物)、または動物に危害を与えるために使用されるとして、または潜在的な
化学的脅威として公式に認定されている化学物質の名前。これらの兵器のいずれかを散布する手段を説
明するエンティティも抽出します。
•
VX
•
tabun
EXPLODING - 爆発することにより危害を与える物質の名前。
•
TNT
•
Dynamite
NUCLEAR - 放射性エネルギーまたは核エネルギーを散布することで、人体、植物 (農作物)、および動物
に危害を与えるために使用されるとして公式に認定されている、または潜在的な核の脅威として認定される
兵器の名前。
•
A-bomb
•
plutonium
PROJECTILE - 危害を与える目的で、高速で発射されるように設計されている、または使用されている兵
器の名前。
•
Stinger
•
Silkworm
SHOOTING - 危害を与える目的で、高速で発射体を発射するように設計されている、または使用されてい
る兵器
•
AK-47
•
AKM
8.1.2.8 COMMON_PRECURSOR
兵器の前駆物質の一般名称。次のサブタイプのいずれかとして抽出されます。
•
CHEMICAL
•
•
340
precursor chemical material
NUCLEAR
2012-06-14
公共部門コンテンツ
•
precursor nuclear material
8.1.2.9 COMMON_VEHICLE
輸送方法。次のサブタイプのいずれかとして抽出されます。
•
•
•
AIR
•
dirigible
•
Black Hawk helicopter
•
jetliner
LAND
•
car
•
motorbike
WATER
•
cruiseliner
•
boat
•
Russian submarine
8.1.2.10 COMMON_WEAPON
兵器の一般名称。次のサブタイプのいずれかとして抽出されます。
•
BIOLOGICAL
•
•
CHEMICAL
•
•
341
rocket-propelled grenades
NUCLEAR
•
•
nerve agent
EXPLODING
•
•
attractive biological threat agent
radioactive materials
PROJECTILE
2012-06-14
公共部門コンテンツ
•
•
SHARP
•
•
machetes
SHOOTING
•
•
bullets
rifle
OTHER
•
weapons
8.1.3 アクションイベントの抽出
Action ルールは、個人または組織に関するイベント、および個人または組織の移動、作成、転送に関するイベ
ントに関係する情報を抽出するために設計されています。必要に応じて、これらのルールでは Action イベント
の Time 属性および Place 属性も抽出されます。次の表に、Action ルールを示します。
ルール
Action_Buy_Active
Action_Buy_Passive
342
説明
一般書式 "エージェント、[購入す
る] 製品" に一致するパターンを
抽出します
例
•
Al Qaeda purchased diamonds
in Belgium.
•
In April, Al Qaeda insurgents
stockpiled stolen US Army
goods in a house in southern
Bagdad.
•
The most frightening item on
Mr. Bolton's list at least that
is known publicly is the large
amounts of growth media acquired by Saddam, and which
in such substantial quantities
could only be used as cultures
for growing biological agents.
•
This cottage by the lake was
inherited by the Smith family.
一般書式 "製品、[購入する] エー
ジェント" に一致するパターンを抽
出します
2012-06-14
公共部門コンテンツ
ルール
Action_Capture_Active
一般書式 "エージェント、[逮捕さ
れた] 受動者" に一致するパター
ンを抽出します
Action_Capture_Passive
一般書式 "受動者、[逮捕した]
エージェント" に一致するパター
ンを抽出します
Action_Command_Active
Action_Command_Passive
Action_Command_Appositive
343
説明
例
•
THE NARCOTICS POLICE
ARRESTED ALFONSO
CASTILLO ARMENTA IN MI
AMI LAST DECEMBER.
•
In April, Pakistan President
Gen. Pervez Musharraf apprehended a high ranking Taliban
member.
•
Fathi Subuh was arrested by
the Palestinian Authority's
Preventative Security Service
(PSS) on July 2, 1997.
•
G. W. Smith commanded the
Army of Northern Virginia.
•
Pakistan President Gen. Pervez Musharraf coordinated the
Pakistani army efforts last
April.
•
City leaders coordinated the
City Council.
•
The Third Regiment, Texas
Volunteer Infantry (United
States Volunteers), was commanded by Colonel R. P.
Smyth.
•
Al Qaeda is headed by Osama
Bin Laden since 1996. Al Qaeda was created by Osama Bin
Laden.
•
In Kuwait every company commander has a specialist advising him," said Thomas Spoehr,
the commander of the 3rd
Chemical Brigade.
一般書式 "エージェント、[指揮さ
れる] 組織" に一致するパターン
を抽出します
一般書式 "組織、[指揮をとる]
エージェント" に一致するパター
ンを抽出します
一般書式 "エージェント、[指揮に
よる] 組織" に一致するパターン
を抽出します
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式 "エージェント、[面会を
受ける] 受動者" に一致するパ
ターンを抽出します
•
Action_Communicate_Meet_Active
President Clinton met Jacques
Chirac in July 1995.
•
Action_Communicate_Meet_Passive
一般書式 "受動者、[対面する]
エージェント" に一致するパター
ンを抽出します
As soon as he stepped out the
plane, Paul was met by FBI
agents.
Action_Communi
cate_PhoneWrite_Active
一般書式 "エージェント、[電話/
手紙を受ける] 受動者" に一致す
るパターンを抽出します
•
President Clinton called
Jacques Chirac in July 1995.
•
Action_Communicate_Other_Active
一般書式 "エージェント、[連絡を
受ける] 受動者" に一致するパ
ターンを抽出します
In December 2000, Osama Bin
Laden communicated with AlQaeda members. City leaders
notified the Iraqi Army.
Action_Communicate_Other_Pas
sive
一般書式 "エージェント、[連絡を
する] エージェント" に一致するパ
ターンを抽出します
•
Paul was interviewed by John
in December 2007.
•
THE NARCOTICS POLICE
DESTROYED 1,200 KG OF
COCAINE.
•
In April, Iraqi insurgents attacked 5 US Army convoys.
•
Al Qaeda insurgents ransacked
houses of private Iraqis in
search for weapons.
Action_Destroy_Active
344
一般書式 "エージェント、[破壊さ
れた] 製品または受動者" に一致
するパターンを抽出します
2012-06-14
公共部門コンテンツ
ルール
Action_Destroy_Passive
Action_Drive_Active
345
説明
一般書式 "製品または受動者、
[破壊した] エージェント" に一致
するパターンを抽出します
一般書式 "エージェント、[運転す
る] 車" に一致するパターンを抽
出します
例
•
Atta files destroyed by the
Pentagon.
•
US Army soldiers were attacked by Iraqi insurgents in
December in Bagdad.
•
Pilgrims were assaulted by Iraqi
insurgents when they headed
to the Great Mosque last
Thursday.
•
Saddam's Presidential Palace
was taken over by U.S. soldiers
in 2003.
•
MUSTAFA DRIVES A BLACK
SUBARU.
•
Jane drives a green Subaru to
work.
•
That dialogue took place in a
white Peugeot driven by John
Smith.
•
A stolen black SUV was used
by the terrorists in the market
bomb attack.
Action_Drive_Passive
一般書式 "車、[運転する] エー
ジェント" に一致するパターンを抽
出します
•
Action_Execute_Active
一般書式 "エージェント、[殺害さ
れた] 受動者" に一致するパター
ンを抽出します
The Iraqi terrorist group executed their American prisoners.
一般書式 "エージェント、[殺害し
た] 受動者" に一致するパターン
を抽出します
•
Action_Execute_Passive
Daniel Pearl was executed by
his captors in Karachi.
2012-06-14
公共部門コンテンツ
ルール
例
•
In April, Al Qaeda financed
Iraqi insurgents.
一般書式 "エージェント、[資金提
供を受ける] 受動者" に一致する
パターンを抽出します
•
Al Qaeda subsidizes various
international terrorist groups.
•
Some Islamic organizations
support terrorist groups in
Iraq.
一般書式 "エージェント、[資金提
供する] 受動者" に一致するパ
ターンを抽出します
•
Some Islamic organizations
might be financed by wealthy
Saudis.
•
The Cincinnati Reds have hired
Bob Boo in Major League
Baseball.
•
In April, Al Qaeda recruited
Iraqi insurgents to attack a
Mosque.
•
The local soccer federation
hired John Brown as acting director.
•
HAMAL WAS RECRUITED
BY SHEIKH MAHMOUD MOHAMMED ALI MALIK.
一般書式 "エージェント、[採用す
る] エージェント" に一致するパ
ターンを抽出します
•
Iraqis, Jordanians, and Iranians
were enlisted by Al Qaeda.
•
Mohammad Ata was recruited
by Al Qaeda in 2000 to lead
the 9/11 plane attack on New
York and Washington.
一般書式 "エージェント、[起訴さ
れる] 受動者" に一致するパター
ンを抽出します
•
Action_Indict_Active
The UN indicted Sloban Milosevic in 2000.
一般書式 "Patient, [is hired by]
Agent" に一致するパターンを抽
出します
•
Action_Indict_Passive
In 2000, Milosevic was indicted
by the United Nations.
Action_Finance_Active
Action_Finance_Passive
Action_Hire_Active
Action_Hire_Passive
346
説明
一般書式 "エージェント、[採用さ
れる] 受動者" に一致するパター
ンを抽出します
2012-06-14
公共部門コンテンツ
347
ルール
説明
例
•
Action_Injure_Active
一般書式 "エージェント、[負傷し
た] 受動者" に一致するパターン
を抽出します
Iraqi insurgents wounded ten
civilians at an outdoor market
in Baghdad last April.
一般書式 "エージェント、[負傷さ
せた] 受動者" に一致するパター
ンを抽出します
•
Action_Injure_Passive
Three men were injured by the
Taliban attack in Kabul.
•
Action_Kill_Active
一般書式 "エージェント、[殺害さ
れた] 受動者" に一致するパター
ンを抽出します
Lee Harvey Oswald killed
President Kennedy in November 1963.
•
Action_Kill_Passive
一般書式 "受動者、[殺害した]
エージェント" に一致するパター
ンを抽出します
Many people were slaughtered
by Jeffrey Dahmers in the
1980's and 1990's.
一般書式 "エージェント、[製造さ
れる] 製品" に一致するパターン
を抽出します
•
Action_Make_Active
Hamal made explosives for
money. John builds IEDs.
一般書式 "製品、[製造する] エー
ジェント" に一致するパターンを抽
出します
•
Action_Make_Passive
The bombs were made by
Spanish Al Qaeda cells.
•
Action_Make_MakerOf
一般書式 "エージェント、[は] 製
品 [製造者]" に一致するパターン
を抽出します
KAMIL IS A MORE ADVANCED BOMB MAKER
THAN HAMAL.
•
In April, Al Qaeda cooperated
with the Taliban.
•
Mr. Roh will join the Uri Party
in January 2004.
•
Al Qaeda was joined by other
Muslim extremists in England.
•
The United Nations is served
by 145 national delegates.
Action_Participate_Active
一般書式 "エージェント、[参加さ
れる] 組織" に一致するパターン
を抽出します
Action_Participate_Passive
一般書式 "組織、[参加する] エー
ジェント" に一致するパターンを抽
出します
2012-06-14
公共部門コンテンツ
ルール
Action_ReceivePay_Active
Action_ReceivePay_Passive
Action_Survey_Active
Action_Survey_Passive
Action_Train_Active
Action_Train_Passive
348
説明
一般書式 "受領者、[受領される]
支払金" に一致するパターンを抽
出します
一般書式 "支払金、[受け取る] 受
領者" に一致するパターンを抽出
します
一般書式 "エージェント、[調査さ
れる] 受動者または製品" に一致
するパターンを抽出します
一般書式 "受動者または製品、
[調査する] エージェント" に一致
するパターンを抽出します
一般書式 "エージェント、[教育を
受ける] 受動者" に一致するパ
ターンを抽出します
一般書式 "受動者、[教育する]
エージェント" に一致するパター
ンを抽出します
例
•
Jamal Ahmed Al-Fadl received
$10,000 for his time and effort
and did not take a further role
in the uranium acquisition.
•
John received $2000 for his old
car.
•
Articles by Tina Griego showed
that the largest contribution
was the $46,000 received by
Manny Aragon.
•
A total of 9.5 million dollars
were incorrectly charged by
Halliburton company to the US
Army.
•
Al Qaeda assessed the US
Army positions.
•
Osama Bin Laden was reviewing high ranking Al Qaeda
members.
•
The party leadership evaluated
would-be candidates.
•
North Korean nuclear facilities
will be inspected by the UN
Nuclear Agency.
•
Remember when the CIA was
funding and training Bin Laden
and his boys to fight against
the Russians?
•
The Montreal Baseball School
trained John before he played
in New York.
•
Spivey trained by Whitaker!
•
Mohammad Ata was trained by
Al Qaeda operatives in Pak
istan.
2012-06-14
公共部門コンテンツ
ルール
Action_Train_With
Action_Transport_Active
Action_Transport_Passive
説明
例
•
John trained with the FBI.
•
Brigitte trained with Algerian
al-Qaeda in rural France and
worked for Christian
Ganczarski and Karim Mehdi,
the former of whom was a lieutenant for Khalid Sheikh Mohammed (the latter was planning a Bali-style attack on Reunion Island).
•
Abu Mohjen was later indicted
for his role in transporting the
arms by sea to Kanj's bases.
•
In April, the US Army deployed
25,000 more soldiers all over
Iraq.
•
John transported the stolen
goods across the border.
•
Mohammed was transported by
Al Qaeda to Jordan.
•
Over the past 3 years, presumed terrorists were transported by the US Government
to an undisclosed location.
•
Poor Mexican illegal immigrants were deported by US
immigration officials.
一般書式 "受動者、[共に教育を
受ける] エージェント" に一致する
パターンを抽出します
一般書式 "エージェント、[移送さ
れる] 製品または受動者" に一致
するパターンを抽出します
一般書式 "製品または受動者、
[移送する] エージェント" に一致
するパターンを抽出します
8.1.4 旅行イベントの抽出
Action イベントには、個人と個人の旅行イベントに関する情報を抽出するために設計された Travel ルールも
含まれます。次の表に、定義済みの Travel ルールを示します。
349
2012-06-14
公共部門コンテンツ
ルール
Travel_visited
説明
一般書式 "個人、訪問した、目的
地" に一致するパターンを抽出し
ます。日付は句の先頭または末尾
のどちらかに表示できます。
例
•
In April, Pakistan President
Gen. Pervez Musharraf visited
Kabul.
•
Pakistan President Gen. Pervez Musharraf visited Kabul in
April.
•
John Doe was arrested in Apri,
when he visited Kabul.
•
In December 2000, Mr. Benatta entered the United States
from Canada.
•
Mr. Benatta entered the United States from Canada in December 2000.
•
John Doe was arrested in December 2000, when he entered
the United States from Cana
da.
一般書式 "個人、日付、時点、訪
問した、目的地" に一致するパ
ターンを抽出します。
Travel_visited_When
Travel_enteredFrom
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、入った、目的
地、から、出発地" に一致するパ
ターンを抽出します。日付は句の
先頭、中間、または末尾に表示で
きます。
一般書式 "個人、日付、時点、
入った、目的地、から、出発地" に
一致するパターンを抽出します。
Travel_enteredFrom_When
350
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
2012-06-14
公共部門コンテンツ
ルール
説明
Travel_arrivedInFrom
一般書式 "個人、到着した、へ、
目的地、から、出発地" に一致す
るパターンを抽出します。日付は
句の先頭、中間、または末尾に表
示できます。
一般書式 "個人、日付、時点、到
着した、へ、目的地、から、出発
地" に一致するパターンを抽出し
ます。
Travel_arrivedIn_When
Travel_cameToFrom
例
•
On Christmas Day, Queen
Elizabeth arrived in San Francisco from England.
•
John Doe was arrested on
Christmas Day, when he ar
rived in San Francisco from
England.
•
On Dec. 1, Clinton flew back
to the United States from Ger
many.
•
John Doe was arrested on Dec.
1, when he flew back to the
United States from Germany.
•
On Dec. 1, Clinton flew from
Germany back to the United
States.
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、へ戻った、目的
地、から、出発地" に一致するパ
ターンを抽出します。日付は句の
先頭、中間、または末尾に表示で
きます。
一般書式 "個人、日付、時点、
戻った、へ、目的地、から、出発
地" に一致するパターンを抽出し
ます。
Travel_cameToFrom_When
Travel_cameFromTo
351
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、から来た、出発
地、戻った、目的地" に一致する
パターンを抽出します。日付は句
の先頭、中間、または末尾に表示
できます。
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式
"個人、日付、時点、来た、から、
出発地、戻った、目的地" に一致
するパターンを抽出します。
Travel_cameFromTo_When
Travel_departedFor
•
John Doe was arrested on Dec.
1, when he flew from Germany
back to the United States.
•
On Christmas Eve, Mohamed
departed Germany for the
Netherlands.
•
John Doe was arrested on
Christmas Eve, when he departed Germany for the Netherlands.
•
In 1992, Mohamad Hammoud
gained entry to the U.S.
through Venezuela.
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、出発した、出発
地、へ、目的地" に一致するパ
ターンを抽出します。日付は句の
先頭、中間、または末尾に表示で
きます。
一般書式 "個人、日付、時点、出
発した、出発地、へ、目的地" に
一致するパターンを抽出します。
Travel_departedFor_When
Travel_gainedEntryIntoFrom
352
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、入った、へ、目
的地、から、出発地" に一致する
パターンを抽出します。日付は句
の先頭、中間、または末尾に表示
できます。
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式 "個人、日付、時点、
入った、へ、目的地、から、出発
地" に一致するパターンを抽出し
ます。
Travel_gainedEntryIntoFrom_When
Travel_crossedIntoFrom
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、渡った、国境、
へ、目的地、から、出発地" に一
致するパターンを抽出します。日
付は句の先頭、中間、または末尾
に表示できます。
•
John Doe was arrested on Oct.
10, when he gained entry into
Thailand from Laos.
•
On Oct. 10, Hambali crossed
into Thailand from Laos.
•
John Doe was arrested on Oct.
10, when he crossed into
Thailand from Laos.
•
In April, Mr. Singh crossed
over into Pakistan from
Afghanistan.
一般書式 "個人、日付、時点、
渡った、国境、へ、目的地、から、
出発地" に一致するパターンを抽
出します。
Travel_crossedIntoFrom_When
Travel_crossedOverToFrom
353
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、国境を超えた、
へ、目的地、から、出発地" に一
致するパターンを抽出します。日
付は句の先頭、中間、または末尾
に表示できます。
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式 "個人、日付、時点、国
境を超えた、へ、目的地、から、出
発地" に一致するパターンを抽出
します。
Travel_crossedOverToFrom_When
Travel_crossedOverFromTo
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、国境を超えた、
から、出発地、へ、目的地" に一
致するパターンを抽出します。日
付は句の先頭、中間、または末尾
に表示できます。
•
Mr. Singh was arrested in
April, when he crossed over
into Pakistan from Afghanistan.
•
In April, Mr. Singh crossed
over from Afghanistan into
Pakistan.
•
Mr. Singh was arrested in
April, when he crossed over
from Afghanistan into Pakistan.
•
In 1980, Adnan Al-Ghoul escaped to Lebanon from Israel.
一般書式 "個人、日付、時点、国
境を超えた、から、出発地、へ、目
的地" に一致するパターンを抽出
します。
Travel_crossedOverFromTo_When
Travel_escapedToFrom
354
注
このルールを適切に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、逃亡した、へ、
目的地、から、出発地" に一致す
るパターンを抽出します。日付は
句の先頭、中間、または末尾に表
示できます。
2012-06-14
公共部門コンテンツ
ルール
説明
一般書式 "個人、日付、時点、逃
亡した、へ、目的地から、出発地"
に一致するパターンを抽出しま
す。
Travel_escapedToFrom_When
Travel_escapedFromTo
Travel_fledFor
355
•
Adnan Al-Ghoul had been on
the wanted list since 1980,
when he escaped to Lebanon
from Israel.
•
In 1980, Adnan Al-Ghoul escaped from Israel to Lebanon.
•
Adnan Al-Ghoul had been on
the wanted list since 1980,
when he escaped from Israel to
Lebanon.
•
On August 6, 1998, Abdullah
Ahmed Abdullah fled Nairobi
for Karachi.
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、逃亡した、から、
出発地、へ、目的地" に一致する
パターンを抽出します。日付は句
の先頭、中間、または末尾に表示
できます。
一般書式 "個人、日付、時点、逃
亡した、から、出発地、へ、目的
地" に一致するパターンを抽出し
ます。
Travel_escapedFromTo_When
例
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、逃げた、出発
地、へ、目的地" に一致するパ
ターンを抽出します。日付は句の
先頭、中間、または末尾に表示で
きます。
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式 "個人、日付、時点、逃
げた、出発地、へ、目的地" に一
致するパターンを抽出します。
Travel_fledFor_When
Travel_triedToCrossIntoFrom
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、越境を試みた、
国境、へ、目的地、から、出発地"
に一致するパターンを抽出しま
す。日付は句の先頭、中間、また
は末尾に表示できます。
一般書式 "個人、日付、時点、越
境を試みた、国境、へ、目的地、
から、出発地" に一致するパター
ンを抽出します。
Travel_triedToCross
IntoFrom_When
Travel_attemptedEntryIntoFrom
356
•
Broderick was arrested on
March 14, 2002 when he fled
for Canada at the International
Bridge.
•
In 1999, Captain Aleksey
Konkov tried to cross into
Laredo from Mexico.
•
Broderick was arrested on
March 14, 2002 when he tried
to cross into Canada at the International Bridge.
•
Last October, Mr. Hammoud
sought entry into Canada from
the United States.
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、入国を試みた、
へ、目的地、から、出発地" に一
致するパターンを抽出します。日
付は句の先頭、中間、または末尾
に表示できます。
2012-06-14
公共部門コンテンツ
ルール
説明
一般書式 "個人、日付、時点、入
国を試みた、へ、目的地、から、出
発地" に一致するパターンを抽出
します。
Travel_attemptedEntry
IntoFrom_When
Travel_attemptedToEnter
例
•
Broderick was arrested on
March 14, 2002 when he
sought entry into Canada at
the International Bridge.
•
In 1998, Abdulla Ocalan attempted to enter Italy.
•
Broderick was arrested on
March 14, 2002 when he tried
to enter Canada at the International Bridge.
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
一般書式 "個人、入国を試みた、
目的地" に一致するパターンを抽
出します。日付は句の先頭または
末尾のどちらかに表示できます。
一般書式 "個人、日付、時点、入
国を試みた、目的地" に一致する
パターンを抽出します。
Travel_attemptedToEnter_When
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、旅行イベント
がその個人の祖先に適用され、日
付情報が失われます。
8.1.5 軍隊の抽出
MilitaryUnit ルールは、次の表に示すような、軍隊に関する表現を抽出するために設計されています。
357
2012-06-14
公共部門コンテンツ
ルール
MilitaryUnit
説明
このルールは、長期間にわたって
頻繁に組み合わされた、軍隊に関
連する表現を抽出します。
例
•
Paul serves in Company A, 1st
Battalion, 22nd Infantry Regiment, 1st Brigade Combat
Team, 4th Infantry Division.
•
Soldiers from Company C, 3rd
Battalion, 67th Armor Regiment, 4th Brigade Combat
Team, 101st Airborne Division,
detained four kidnappers in
Baghdad July 31.
8.1.6 組織情報の抽出
組織情報ルールは、会社および組織の中心となる情報を抽出するために設計されています。次の表に、組織
用に定義されたルールセットを示します。
ルール
説明
OrganizationPerson
一般書式 "個人、組織での位置"
に一致するパターンを抽出します
(電話、Fax、電子メール、および
URL をオプション指定できます)
OrganizationPhone
一般書式 "組織、電話" に一致す
るパターンを抽出します
OrganizationFax
OrganizationEmail
358
例
•
Patti J. McAtee, Director of
CalEnergy, 402-341-4500.
•
Motorola, Inc., George Grimsrud, 847/576-2346.
•
Business Objects, North
America, +1 800 877 2340
•
Marriott International press
releases are available through
Company News On-Call by
fax, 800-758-5804, ext.
532963.
•
Inxight Software Inc., 500
Macara Avenue, Sunnyvale,
CA 94085, U.S.A., Email: in
[email protected]
一般書式 "組織、Fax" に一致す
るパターンを抽出します
一般書式 "組織、電子メール" に
一致するパターンを抽出します
2012-06-14
公共部門コンテンツ
ルール
OrganizationURL
OrganizationAddress
OrganizationLocation
OrganizationFounder
OrganizationNationality
359
説明
一般書式 "組織、URL" に一致す
るパターンを抽出します
例
•
Seagate's home page address
on the World Wide Web is
http://www.seagate.com.
•
These documents are all available on Intuit's Web site at
http://www.intuit.com.
•
For more information contact:
Inxight Software Inc., 500
Macara Avenue, Sunnyvale,
CA 94085, Tel: 555.555.1212.
•
U.S. operations of Toyota,
Japan's largest automaker, are
headquartered in New York.
•
Fort Lauderdale-based Blockbuster has nearly 2,800 stores
nationwide.
•
Cypress Asset Management
Inc, a Houston-based investment adviser
•
English social reformer Sir
GEORGE WILLIAMS, who
founded the YMCA, was born
in 1821.
•
Jean-Louis Gassee, the
founder of Be Inc.
•
Canal Plus was founded by
Andre Rousselet.
•
Apple Computer Inc. fired cofounder Steven Jobs in 1985.
•
Michelin Tyre is a unit of
France's Michelin S.A.
•
The Miami fast-food chain,
owned by Grand Metropolitan
of Britain.
一般書式 "組織、住所" に一致す
るパターンを抽出します
一般書式 "組織、[拠点を置く] 場
所"、"場所 -[に拠点を置く]、組
織"、または "組織、場所 -[に拠
点を置く]" に一致するパターンを
抽出します
一般書式 "設立者、[設立した] 組
織"、"設立者、[の] 組織"、"組織、
[設立した] 設立者"、または "組
織、設立者" に一致するパターン
を抽出します
一般書式 "国籍、組織" または
"組織、[の] 国籍" に一致するパ
ターンを抽出します
2012-06-14
公共部門コンテンツ
ルール
説明
OrganizationTicker
一般書式 "組織、ティッカー" に
一致するパターンを抽出します
OrganizationStockPrice
一般書式 "組織価値"、"組織の
評価価格"、"組織の株価価格"、
または "組織の株の上昇/獲得/
価格" に一致するパターンを抽出
します
例
•
Microsoft (Nasdaq: MSFT) announced this quarter's earnings.
•
NASDAQ: BOBJ $41.34.
•
NASDAQ: BOBJ valued at
$41.34.
•
$41.37 is Business Objects
stock price.
•
Caterpillar's shares rose 0.9
percent to $85.93.
•
Microsoft gained 2.2 percent
to $30.33.
•
Kodak shares were up 4.5 percent to $45.87.
8.1.7 個人のエイリアスの抽出
PersonAlias ルールは、個人と、個人が使用する可能性のある代替名およびエイリアスに関する情報を抽出す
るために設計されています。次の表に、PersonAlias 用に定義されたルールを説明します。
360
ルール
説明
例
•
PersonAlias_alias_Person
一般書式 "個人、エイリアス、個人
または固有名詞、句読点" に一致
するパターンを抽出します
Qasim Bokhari, a/k/a Syed
Qasim Ali Bokhari, and a/k/a
Kasim Bokhari.
一般書式 "固有名詞、エイリアス、
個人、句読点" に一致するパター
ンを抽出します
•
PersonAlias_alias_Proper
Sam Sneed, a.k.a. William
Smith, is one of the group.
•
PersonAlias_alias_PersonParen
一般書式 "左かっこ、エイリアス、
個人または固有名詞、右かっこ"
に一致するパターンを抽出します
Qasim Bokhari (a/k/a Syed
Qasim Ali Bokhari, and a/k/a
Kasim Bokhari).
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式 "固有名詞、左かっこ、
エイリアス、個人、右かっこ" に一
致するパターンを抽出します
•
PersonAlias_alias_ProperParen
Sam Sneed, (a.k.a. William
Smith), is one of the group.
•
PersonAlias_or
一般書式 "個人、カンマ、または、
個人、カンマ" に一致するパター
ンを抽出します
Soldiers spotted the groups led
by another Abu Sayyaf leader,
Mr. Umbra Jumdail, or Dr. Abu
Pula, as he's known.
•
PersonAlias_AlsoKnown As
一般書式 "個人、としても知られ
る、個人または固有名詞" に一致
するパターンを抽出します
Nasr Fahmi Nasr Hassanein,
known as Mohamed Salah, was
also involved.
•
He left Egypt in 1989 and went
to Peshawar, where he met Dr.
Rashid Abd-al-Alim, who is
known as Dr. Fadl.
一般書式 "個人、は、としても知ら
れる、個人または固有名詞" に一
致するパターンを抽出します
PersonAlias_AlsoKnown As_Who
361
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、検出されたエ
イリアスがそれ以前の祖先に適用
されます。
一般書式 "個人、カンマ、NP、は、
としても知られる、個人または固有
名詞" に一致するパターンを抽出
します
•
PersonAlias_AlsoKnown
As_NPWho
ABU SUHAYB AL-AMRIKI:
A 25-year-old U.S. citizen who
is known as Adam Pearlman.
•
PersonAlias_AlsoKnown As_Quote
一般書式 "個人、としても知られ
る、左引用符、一般エイリアス、右
引用符" に一致するパターンを抽
出します
Ahmed Khalhan Ghailiani, also
known as "Foopie," "Fupi" and
"Ahmed the Tanzanian."
•
PersonAlias_UsingThe Name
一般書式 "個人、使用している名
前、個人または固有名詞" に一致
するパターンを抽出します
Filippo Bertotti, using the
nickname Filippo Rumi, has
written several articles in the
newspaper Il Manifesto.
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式 "個人、は、使用してい
る名前、個人または固有名詞" に
一致するパターンを抽出します
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、検出されたエ
イリアスがそれ以前の祖先に適用
されます。
•
Subhi Abdel-Aziz El-Gohari
Abu Sittah, who also goes by
the name Abu Hafs El-Masri.
•
PersonAlias_UsingThe
Name_NPWho
一般書式 "個人、カンマ、NP、は、
使用している名前、個人または固
有名詞" に一致するパターンを抽
出します
ABU SUHAYB AL-AMRIKI:
A 25-year-old U.S. citizen who
is using the name of Adam
Pearlman.
•
PersonAlias_UsingThe
Name_Quote
一般書式 "個人、使用している名
前、左引用符、一般エイリアス、右
引用符" に一致するパターンを抽
出します
Filippo Bertotti, using the
nickname "Filippo Rumi", has
written several articles in the
newspaper Il Manifesto.
•
PersonAlias_UsingTheNames
一般書式 "個人、使用している名
前、個人または固有名詞" に一致
するパターンを抽出します
MICHAEL KAIGHN is using
the aliases D.S. and Patrick
Grogan.
•
Subhi Abdel-Aziz El-Gohari
Abu Sittah, who also goes by
the names Abu Hafs El-Masri
and Mohamed Atif.
•
ABU SUHAYB AL-AMRIKI:
A 25-year-old U.S. citizen who
also goes by the names Adam
Pearlman and Adam Gadahn.
PersonAlias_UsingThe Name_Who
一般書式 "個人、は、使用してい
る名前、個人または固有名詞" に
一致するパターンを抽出します
PersonAlias_UsingTheNames_Who
PersonAlias_UsingTh
eNames_NPWho
362
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。オフにせず、詳細解析
をオンにしていると、検出されたエ
イリアスがそれ以前の祖先に適用
されます。
一般書式 "個人、カンマ、NP は、
使用している名前、個人または固
有名詞" に一致するパターンを抽
出します
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式 "個人、使用している名
前、左引用符、一般エイリアス、右
引用符" に一致するパターンを抽
出します
•
PersonAlias_UsingTh
eNames_Quote
MICHAEL KAIGHN is using
the aliases "D.S." and "Patrick
Grogan".
一般書式 "としても知られる、個人
または固有名詞、カンマ、個人"
に一致するパターンを抽出します
•
PersonAlias_AlsoKnownAsPRE
Also known as Robert, John is
the leader of the organization.
一般書式 "としても知られる、左引
用符、一般エイリアス、右引用符、
カンマ、個人" に一致するパター
ンを抽出します
•
PersonAlias_AlsoKnow
nAsPRE_Quote
Using the alias "Jafar the Pilot", John is the leader of the
organization.
8.1.8 個人の外見に関する情報の抽出
個人の外見 (PerApp) ルールは、身長、目の色、服装のスタイルなどの個人の外見に関する属性を抽出する
ために設計されています。次の表に、PerApp 用に定義されたルールを説明します。
ルール
説明
一般書式 "個人、年齢 [歳]" に一
致するパターンを抽出します
PerApp_Age
例
•
Mary is a 32-year-old registered nurse.
•
Febe Velazquez, age 27 and
the mother of three, died from
severe skull injuries.
•
Hamal wears t-shirt and jeans.
一般書式 "個人、年齢" に一致す
るパターンを抽出します
PerApp_Dress
363
一般書式 "個人 [身に着ける]、衣
類" に一致するパターンを抽出し
ます
2012-06-14
公共部門コンテンツ
ルール
説明
例
一般書式 "個人、[持つ] 目" に一
致するパターンを抽出します
•
Ahmad has piercing brown
eyes.
一般書式 "個人、目 [は]" に一致
するパターンを抽出します
•
Jane's eyes are green.
一般書式 "個人、[持つ] 髪" に一
致するパターンを抽出します
•
JOHN HAS MEDIUM
LENGTH BLACK HAIR.
•
Jane's hair is brown.
•
Muhammed is a 35 year-old
male, approximately 186 cm
tall, weighs 70 kg, has a thin
build.
•
AMIR ((AL-JALIL)), IS 43
YEARS OLD, 170 CENTIMETERS TALL, 90 KILOGRAMS
IN WEIGHT, WITH AN
OVERWEIGHT BUILD.
•
John weighs approximatively
190 pounds.
PerApp_Eyes
PerApp_Hair
PerApp_Height
一般書式 "個人、髪 [は] 髪色ま
たは髪型" に一致するパターンを
抽出します
一般書式 "個人、身長" に一致す
るパターンを抽出します
一般書式 "個人、体重" に一致す
るパターンを抽出します
PerApp_Weight
一般書式 "個人、体重 [体重]" に
一致するパターンを抽出します
8.1.9 個人の属性に関する情報の抽出
この個人属性 (PerAtt) ルールは、外見以外の個人の属性を抽出するために設計されています。次の表に、
PerAtt 用に定義されたルールを説明します。
364
2012-06-14
公共部門コンテンツ
ルール
説明
•
JOSE IGNACIO RODRIGUEZ
RESIDES AT 1500 LARREA
ST.
•
When John left his flat at 112
Boulevard John Kennedy in
Corbeil just outside Paris in
October 1997, he was heading
for London.
•
You can write to Bill Smith at
7701 Boca Ciega Drive, St.
Pete Beach, Florida 33706.
•
John lived in Montreal.
一般書式 "個人、場所" に一致す
るパターンを抽出します
•
Bah's rental house in Mon
rovia.
一般書式 "個人、場所 [住居]" に
一致するパターンを抽出します
•
JOHN SMITH, A MIAMI RESIDENT.
•
LUZ MERY GARCIA, A RESIDENT OF SANTO DOMINGO.
•
Saad Khayyat, who has lived in
New Zealand for more than
seven years, said the war was
about the Middle East being
"remade" to suit American interests.
一般書式 "個人、[住んでいる] 住
所" に一致するパターンを抽出し
ます
PerAtt_Address
例
一般書式 "個人、[住んでいる場
所] 住所" に一致するパターンを
抽出します
一般書式 "個人、[の] 住所" に一
致するパターンを抽出します
句の内部で一般書式 "個人、場
所" に一致するパターンを抽出し
ます
PerAtt_Location
一般書式 "個人、[住居の] 場所"
に一致するパターンを抽出します
文の内部で一般書式 "個人、場
所" に一致するパターンを抽出し
ます
PerAtt_Location_verbSn
365
注
このルールを正確に機能させるに
は、詳細解析をオフにする必要が
あります。
2012-06-14
公共部門コンテンツ
ルール
PerAtt_Phone
説明
例
一般書式 "個人 [の番号は]、電
話番号" に一致するパターンを抽
出します
•
John's phone number is 888333-1212.
一般書式 "個人、電話番号" に一
致するパターンを抽出します
•
Roderick Liddell (telephone:
(0)3 88 41 24 92)
•
You can contact Karl Horwitz
in Paris for details and prices
(Phone: 47 42 17 11; FAX: 4742-80-44).
PerAtt_Phone_verbSn
一般書式 "[連絡先] 個人、[電話
番号] 電話番号" に一致するパ
ターンを抽出します
PerAtt_Vehicle
一般書式 "個人、[運転する] 車"
に一致するパターンを抽出します
•
John drives a red Subaru.
一般書式 "個人、[は] 国籍" に一
致するパターンを抽出します
•
John is Canadian.
一般書式 "個人、[出身] 国籍" に
一致するパターンを抽出します
•
John is from Canada.
一般書式 "個人 [の国籍は]、国
籍" に一致するパターンを抽出し
ます
•
John 's nationality is Canadian.
•
MEXICAN NARCOTICS POLICE HAVE ARRESTED
COLOMBIAN CITIZEN
JORGE HUMBERTO
CHALARIA.
•
JENNIFER CASOLO, A U.S.
CITIZEN WAS ARRESTED BY
THE SECURITY CORPS.
•
Marwan al-Shehhi, a citizen of
the United Arab Emirates.
PerAtt_Nationality
一般書式 "国籍、[国民]、個人"
に一致するパターンを抽出します
一般書式 "個人、国籍 [国民]" に
一致するパターンを抽出します
一般書式 "個人、[国民の] 国籍"
に一致するパターンを抽出します
366
2012-06-14
公共部門コンテンツ
ルール
PerAtt_Affiliation
PerAtt_Occupation
説明
例
一般書式 "個人、[参加する] 組
織" に一致するパターンを抽出し
ます
•
John joined the Democratic
Party.
一般書式 "個人、[メンバーである]
組織" に一致するパターンを抽出
します
•
James Walsh, R-N.Y., a senior
member of the Appropriations
Committee.
一般書式 "組織 [メンバー]、個人"
に一致するパターンを抽出します
•
M-19 DIRECTORATE MEMBER RAFAEL VERGARA.
一般書式 "個人、組織 [メンバー]"
に一致するパターンを抽出します
•
Yael Dayan, a Labour Party
member
一般書式 "個人、[は] 職業" に一
致するパターンを抽出します
•
John is a carpenter.
一般書式 "個人、[働いている] 職
業" に一致するパターンを抽出し
ます
•
Robert Fisk has worked as a
journalist in the Middle East
for years.
•
No water, no electricity, no
work, no medicine, said Ali
Noor, a retired chemical engineer.
一般書式 "個人、[所有される] 製
品" に一致するパターンを抽出し
ます
•
John has a bike.
一般書式 "製品、[所有する] 個
人" に一致するパターンを抽出し
ます
•
The bike owned by John.
一般書式 "個人、[ある] 職業" に
一致するパターンを抽出します
PerAtt_Possession
8.1.10 個人の関係に関する情報の抽出
367
2012-06-14
公共部門コンテンツ
個人の関係 (PerRel) ルールは、2 者の関係が家族、社会、仕事の関係かどうかを抽出するために設計されて
います。次の表に、PerRel 用に定義されたルールを説明します。
ルール
説明
一般書式 "親、子供" に一致する
パターンを抽出します
PerRel_ParentChild
一般書式 "子供、親" に一致する
パターンを抽出します
PerRel_Sibling
368
一般書式 "兄弟、兄弟" に一致す
るパターンを抽出します
例
•
Surjit Kaur's son Prabjot
Singh.
•
Surjit Kaur's son, Prabjot
Singh.
•
Fateha Gazi, the mother of
Rana and Amy.
•
Surjit Kaur is Prabjot Singh's
father.
•
Prabjot Singh's father Surjit
Kaur.
•
Prabjot Singh's father, Surjit
Kaur.
Rana, the daughter of Fateha
Gazi.
•
•
Prabjot Singh is Surjit Kaur's
son.
•
Paul and John Singh are Surjit
Kaur's sons.
•
Mohamed Kubwa's half-brother
Amina.
•
Mohamed Kubwa's half-brother, Amina.
•
Amina, half-brother of Mohamed Kubwa.
•
Mohamed Kubwa and his halfbrother Amina.
•
John enlisted his brother Joe.
2012-06-14
公共部門コンテンツ
ルール
PerRel_Spouse
PerRel_Relative
PerRel_Associate
説明
一般書式 "配偶者、配偶者" に一
致するパターンを抽出します
一般書式 "親戚、親戚" に一致す
るパターンを抽出します
一般書式 "友達、友達" に一致す
るパターンを抽出します
例
•
John Manningham's wife Patri
cia.
•
John Manningham's wife, Patri
cia.
•
Patricia, the wife of John Manningham.
•
John Manningham and his wife
Patricia.
•
John asked his wife Donna to
help him.
•
Bach's father, Johann Ambrosius, married Maria Elisabeth
Lämmerhirt on April 8, 1668.
•
Bin Laden's brother-in-law
Mohammed Jamal Khalifa.
•
Bin Laden's brother-in-law,
Mohammed Jamal Khalifa.
•
John talked to his uncle Char
lie.
•
Italian acting Finance Minister
Giovanni Goria met Treasury
Secretary James Baker last
night.
•
John and Fred met at the park.
•
A curious story was told by
Swaran Singh and his friend
Sukhdev Singh.
•
John and Fred are roommates.
8.1.11 空間参照の抽出
369
2012-06-14
公共部門コンテンツ
SpatialReference ルールは、次の表に示す、距離、方向、および場所に基づく正確な空間参照 (30 KM South
of Kandahar)、または前置詞および場所に基づく漠然とした空間参照 (in Kandahar、near Kandahar)) のど
ちらかを抽出するために設計されています。
ルール
説明
SpatialReference_Exact
このルールは、"n km/miles
North/South/West/East of Place"
などの距離、方向、および場所を
含む、的確な空間参照を抽出しま
す。
SpatialReference_Vague
このルールは、"in/near Place" な
どの前置詞と場所で構成される漠
然とした空間参照を抽出します。
例
•
15 km north of Kandahar
•
South of Kabul
•
near Mosul
•
in the vicinity of Kandahar
•
near Mosul, Kirkuk, and Basrah
8.2 簡体字中国語: 抽出される情報のタイプ
標準簡体字中国語モジュールと併用すると、公共部門コンテンツでは、公共部門固有のエンティティおよびデ
フォルトのエンティティタイプを抽出できます。
8.2.1 公共部門エンティティ - 簡体字中国語
公共部門コンテンツは、標準簡体字中国語モジュールによって検出されるすべてのエンティティタイプを抽出
するだけでなく、次のように動作します。
370
•
すべての一般表記エンティティタイプがデフォルトで抽出されます。
•
公共部門コンテンツには、標準のエンティティタイプだけでなく、特別なエンティティタイプ 371 ページの
「VEHICLE」 および 371 ページの 「WEAPON」 が含まれます。
•
標準の一般表記タイプだけでなく、特別な一般表記エンティティタイプ 372 ページの 「COMMON_VEHICLE」
および 373 ページの 「COMMON_WEAPON」 も含まれます。
2012-06-14
公共部門コンテンツ
8.2.1.1 VEHICLE
輸送方法。次のサブタイプのいずれかとして抽出されます。
•
•
AIR - 航空機、ヘリコプターなどの飛行体。
•
波音767
•
空中客
LAND - 陸上車。色、年式、モデル、メーカーを含みます。
•
丰田汽
•
•
•
迪拉克
切
基吉普
WATER - 船舶。
•
泰坦尼克
•
永丰
8.2.1.2 WEAPON
兵器。次のサブタイプのいずれかとして抽出されます。
•
BIOLOGICAL - 人体、植物 (農作物)、動物に危害を与えるために使用されるとして、または潜在的な生物
学的脅威として公式に認定されている、細菌、病原体、菌類、天然の毒物、および疾病の名前。これらの兵
器のいずれかを散布する手段を説明するエンティティも抽出します。
•
•
BLUNT - 殴打する道具として設計されている、または使用されている兵器の名前。
•
•
器
芥子毒气
EXPLODING - 爆発することにより危害を与える物質の名前。
•
371
X号
CHEMICAL - 人体、植物 (農作物)、または動物に危害を与えるために使用されるとして、または潜在的な
化学的脅威として公式に認定されている化学物質の名前。これらの兵器のいずれかを散布する手段を説
明するエンティティも抽出します。
•
•
炭疽武器
TNT炸
2012-06-14
公共部門コンテンツ
•
NUCLEAR - 放射性エネルギーまたは核エネルギーを散布することで、人体、植物 (農作物)、および動物
に危害を与えるために使用されるとして公式に認定されている、または潜在的な核の脅威として認定される
兵器の名前。
•
•
•
•
•
广
原子
PROJECTILE - 危害を与える目的で、高速で発射されるように設計されている、または使用されている兵
器の名前。
•
响尾蛇
•
赤
蛇
SHARP - 切断する、切りつける、突き刺す、または切り刻むことを目的として設計されている、または使用さ
れている兵器の名前。
•
•
崎原子
碧血
SHOOTING - 危害を与える目的で、高速で発射体を発射するように設計されている、または使用されてい
る兵器
•
卡
•
来福
OTHER - 特定のサブタイプに適合しない兵器の名前。
•
X型武器
8.2.1.3 COMMON_VEHICLE
輸送方法。次のサブタイプのいずれかとして抽出されます。
•
AIR - 航空機、ヘリコプターなどの飛行体。
•
•
•
•
•
运
火箭
船
LAND - 陸上車。色、年式、モデル、メーカーを含みます。
•
面包
•
坦克
•
出租
WATER - 船舶。
•
372
斗机
快艇
2012-06-14
公共部門コンテンツ
•
•
航空母
8.2.1.4 COMMON_WEAPON
兵器。次のサブタイプのいずれかとして抽出されます。
•
•
•
•
•
BIOLOGICAL - 人体、植物 (農作物)、動物に危害を与えるために使用されるとして、または潜在的な生物
学的脅威として公式に認定されている、細菌、病原体、菌類、天然の毒物、および疾病の名前。これらの兵
器のいずれかを散布する手段を説明するエンティティも抽出します。
•
生物武器
•
菌炸
BLUNT - 殴打する道具として設計されている、または使用されている兵器の名前。
•
器
•
警棍
CHEMICAL - 人体、植物 (農作物)、または動物に危害を与えるために使用されるとして、または潜在的な
化学的脅威として公式に認定されている化学物質の名前。これらの兵器のいずれかを散布する手段を説
明するエンティティも抽出します。
•
化学武器
•
催泪
EXPLODING - 爆発することにより危害を与える物質の名前。
•
炸
•
炸
•
雷管
NUCLEAR - 放射性エネルギーまたは核エネルギーを散布することで、人体、植物 (農作物)、および動物
に危害を与えるために使用されるとして公式に認定されている、または潜在的な核の脅威として認定される
兵器の名前。
•
核
•
•
•
原子
PROJECTILE - 危害を与える目的で、高速で発射されるように設計されている、または使用されている兵
器の名前。
•
•
373
2012-06-14
公共部門コンテンツ
•
•
•
374
SHARP - 切断する、切りつける、突き刺す、または切り刻むことを目的として設計されている、または使用さ
れている兵器の名前。
•
宝
•
匕首
•
利斧
SHOOTING - 危害を与える目的で、高速で発射体を発射するように設計されている、または使用されてい
る兵器
•
手
•
冲
•
半自
OTHER - 特定のサブタイプに適合しない兵器に関する普通名詞。
•
武器
•
凶器
•
火
2012-06-14
索引
C
CCJT 言語 25, 26
N
NLP
使用される能力 14
NOUN_GROUP 37
あ
アクセント記号付き文字のタイプライター
形式
スウェーデン語 301
デンマーク語 93
ニーノシク語 229
ブークモール語 217
アクセント記号なし文字
イタリア語 186
オランダ語 102
カタロニア語 48
スウェーデン語 301
スペイン語 284
スロバキア語 268
スロベニア語 275
チェコ語 86
デンマーク語 93
ドイツ語 160
ニーノシク語 229
ハンガリー語 183
ブークモール語 217
フランス語 139
ポルトガル語 241
ルーマニア語 250
アンブレラタグ 31
い
イタリア語
アクセント記号なし文字 186
エンティティタイプ 193
大文字小文字のバリアント 186
拡張屈折ステム機能 186
屈折ステマー推測機能 187
グループ化 192
言語処理 184
ステミング 185
単語のセグメンテーション 184
抽出 193
375
イタリア語 (続き)
ハイフネーション 186
標準ステム機能 185
品詞タグ設定 188
名詞群 193
文字エンコード 184
イタリア語言語モジュールリファレンス 184
え
英語
エンティティタイプ 119
公共部門コンテンツ 337
大文字小文字のバリアント 114
拡張屈折ステム機能 114
感想の抽出例 317
屈折ステマー推測機能 115
言語処理 110
検出されない単語 118
公共部門コンテンツのルール 336
サブタイプ 119
詳細解析 119
ステミング 112
単語のセグメンテーション 110
抽出 119
ハイフネーション 114
派生ステム機能 114
標準ステム機能 112
品詞タグ設定 115
名詞群 125
名詞の一般表記 131
文字エンコード 110
要求の抽出例 322
英語言語モジュールリファレンス 110
エンコードの識別 21
エンティティ
サブタイプ 34
定義済み 17
名前付きエンティティ 37
エンティティタイプ
イタリア語 193
英語 119
オランダ語 109
カタロニア語 54
韓国語 212
クロアチア語 84
公共部門エンティティ
英語 337
簡体字中国語 370
スウェーデン語 309
スペイン語 289
エンティティタイプ (続き)
スロバキア語 273
スロベニア語 280
セルビア語 266
チェコ語 90
中国語 - 簡体字 60
中国語 - 繁体字 79
デンマーク語 100
ドイツ語 169
ニーノシク語 237
日本語 203
ブークモール語 226
フランス語 144
ポルトガル語 248
名詞の一般表記 42
ロシア語 256
エンティティの抽出 33
お
大文字小文字の正規化 21, 30, 32
ルール 26
大文字小文字のバリアント
イタリア語 186
英語 114
オランダ語 102
カタロニア語 48
クロアチア語 80
スペイン語 284
スロバキア語 268
スロベニア語 275
セルビア語 262
チェコ語 86
デンマーク語 93
ドイツ語 160
ニーノシク語 229
ハンガリー語 183
ブークモール語 217
フランス語 139
ポルトガル語 241
ルーマニア語 250
オランダ語
アクセント記号なし文字 102
エンティティタイプ 109
大文字小文字のバリアント 102
拡張屈折ステム機能 102
グループ化 108
言語処理 100
ステミング 102
単語のセグメンテーション 101
抽出 109
2012-06-14
索引
オランダ語 (続き)
ハイフネーション 102
標準ステム機能 102
品詞タグ設定 106
複合語分析 104
名詞群 109
文字エンコード 101
オランダ語言語モジュールリファレンス
100
か
拡張屈折ステミング 29
拡張屈折ステム機能 27
イタリア語 186
英語 114
オランダ語 102
カタロニア語 48
スウェーデン語 301
スペイン語 284
デンマーク語 93
ドイツ語 160
ニーノシク語 229
ブークモール語 217
フランス語 139
ポルトガル語 241
拡張ステム機能
クロアチア語 80
スロバキア語 268
スロベニア語 275
セルビア語 262
チェコ語 86
中国語 57
日本語 200
ハンガリー語 183
ルーマニア語 250
カスタマイズ
辞書 18, 33
抽出 18, 33
ルール 18, 33
カスタマの声コンテンツ
エンティティタイプ 315
感想の抽出 316
感想の抽出例
英語 317
スペイン語 320
ドイツ語 319
フランス語 318
サポートされる言語 315
要求の抽出 321
要求の抽出例
英語 322
スペイン語 323
ドイツ語 323
フランス語 322
376
カタロニア語
アクセント記号なし文字 48
エンティティタイプ 54
大文字小文字のバリアント 48
拡張屈折ステム機能 48
グループ化 53
言語処理 45
検出されない単語 53
ステミング 46
単語のセグメンテーション 46
抽出 54
ハイフネーション 48
標準ステム機能 46
品詞タグ設定 49
名詞群 54
文字エンコード 45
カタロニア語言語モジュールリファレンス
45
韓国語
エンティティタイプ 212
言語処理 204
検出されない単語 211
サブタイプ 212
ステミング 205
単語のセグメンテーション 204
抽出 211
標準ステム機能 206
品詞タグ設定 208
複合語分析 207
名詞 - 動詞型の複合語 207
名詞 - 名詞型の複合語 207
文字エンコード 204
韓国語言語モジュールリファレンス 204
完全タグ 31
感想
カスタマの声コンテンツの抽出 316
感想の抽出例
英語 317
スペイン語 320
ドイツ語 319
フランス語 318
簡体字中国語
エンティティタイプ 60
公共部門コンテンツ 370
拡張ステム機能 57
言語処理 55
サブタイプ 60
ステミング 56
単語のセグメンテーション 55
抽出 60
標準ステム機能 56
品詞タグ設定 58
名詞群 64
名詞の一般表記 68
文字エンコード 55
簡体字中国語言語モジュールリファレン
ス 55
き
企業コンテンツ
ルール 325
機能, 各言語 22
ギリシャ語
言語処理 180
ステミング 181
単語のセグメンテーション 180
抽出 181
文字エンコード 180
ギリシャ語言語モジュールリファレンス 180
く
区切り記号 26
屈折ステマー推測機能 29
イタリア語 187
英語 115
スペイン語 285
ドイツ語 161
フランス語 140
屈折ステミング 22
グループ化
イタリア語 192
オランダ語 108
カタロニア語 53
クロアチア語 83
スウェーデン語 308
スロバキア語 272
スロベニア語 279
セルビア語 265
チェコ語 90
デンマーク語 99
ニーノシク語 236
ブークモール語 225
ポルトガル語 248
クロアチア語
アクセント記号なし文字 80
エンティティタイプ 84
大文字小文字のバリアント 80
拡張ステム機能 80
グループ化 83
言語処理 79
ステミング 80
抽出 84
標準ステム機能 80
品詞タグ設定 81
名詞群 84
文字エンコード 79
クロアチア語言語モジュールリファレンス
79
2012-06-14
索引
け
言語機能マトリクス 22
言語処理
イタリア語 184
英語 110
オランダ語 100
カタロニア語 45
韓国語 204
ギリシャ語 180
クロアチア語 79
スウェーデン語 300
スペイン語 281
スロバキア語 266
スロベニア語 273
セルビア語 261
タイ語 310
チェコ語 84
中国語 - 簡体字 55
中国語 - 繁体字 73
デンマーク語 91
ドイツ語 156
トルコ語 311
ニーノシク語 227
日本語 193
ハンガリー語 182
ブークモール語 215
フランス語 136
ポーランド語 238
ポルトガル語 239
ルーマニア語 249
ロシア語 251
言語の識別 21
言語分析
概要 17
言語モジュールのサポートレベル 22
言語分析サポート
詳細 22
標準 22
言語モジュール 34
言語分析サポートレベル 22
抽出サポートレベル 35
定義済み 17
言語モジュールの基本レベルの抽出サ
ポート 35
ギリシャ語 181
タイ語 311
トルコ語 313
ハンガリー語 184
ポーランド語 239
ルーマニア語 251
言語モジュールの詳細言語分析サポー
ト 22
言語モジュールの詳細抽出サポート 35
言語モジュールの標準言語分析サポー
ト 22
377
言語モジュールの標準抽出サポート 35
言語モジュールリファレンス 45
イタリア語 184
英語 110
オランダ語 100
カタロニア語 45
韓国語 204
簡体字中国語 55
ギリシャ語 180
クロアチア語 79
スウェーデン語 300
スペイン語 280
スロバキア語 266
スロベニア語 273
セルビア語 260
タイ語 309
チェコ語 84
デンマーク語 91
ドイツ語 156
トルコ語 311
ニーノシク語 227
日本語 193
ハンガリー語 181
繁体字中国語 73
ブークモール語 215
フランス語 135
ポーランド語 238
ポルトガル語 239
ルーマニア語 249
ロシア語 251
検出されない単語 32
英語 118
カタロニア語 53
韓国語 211
スペイン語 289
スロバキア語 272
スロベニア語 279
セルビア語 265
チェコ語 89
ドイツ語 168
フランス語 143
こ
公共部門コンテンツ
エンティティタイプ
英語 337
簡体字中国語 370
サポートされる言語 335
抽出される情報のタイプ
英語 335
簡体字中国語 370
ルール
英語 336
さ
サブタイプ
英語 119
韓国語 212
簡体字中国語 60
スペイン語 289
定義済み 34
ドイツ語 169
フランス語 144
ロシア語 256
し
自然言語処理 (NLP) 17
使用される機能 14
事前定義済みエンティティタイプのサポー
ト 37
詳細解析
英語 119
す
スウェーデン語
アクセント記号付き文字のタイプライ
ター形式 301
アクセント記号なし文字 301
エンティティタイプ 309
拡張屈折ステム機能 301
グループ化 308
言語処理 300
ステミング 301
単語のセグメンテーション 300
抽出 309
ハイフネーション 301
標準ステム機能 301
品詞タグ設定 304
複合語ステム機能 303
名詞群 309
文字エンコード 300
スウェーデン語言語モジュールリファレン
ス 300
ステミング 21, 27
イタリア語 185
英語 112
オランダ語 102
拡張屈折 29
カタロニア語 46
韓国語 205
ギリシャ語 181
屈折ステマー推測機能 29
クロアチア語 80
スウェーデン語 301
スペイン語 282
スロバキア語 267
スロベニア語 274
2012-06-14
索引
ステミング (続き)
セルビア語 261
タイ語 310
タグ付き 32
チェコ語 85
中国語 56, 75
デンマーク語 92
ドイツ語 158
トルコ語 312
ニーノシク語 228
日本語 198
派生 30
ハンガリー語 182
標準屈折 28
ブークモール語 217
複合語のステミング 29
複合語非分割 30
フランス語 137
ポーランド語 238
ポルトガル語 240
未知の単語 30
ルーマニア語 249
ロシア語 252
スペイン語
アクセント記号なし文字 284
エンティティタイプ 289
大文字小文字のバリアント 284
拡張屈折ステム機能 284
感想の抽出例 320
屈折ステマー推測機能 285
言語処理 281
検出されない単語 289
サブタイプ 289
ステミング 282
単語のセグメンテーション 281
抽出 289
ハイフネーション 284
標準ステム機能 282
品詞タグ設定 285
名詞群 294
文字エンコード 281
要求の抽出例 323
スペイン語言語モジュールリファレンス
280
スペース言語 25
スロバキア語
アクセント記号なし文字 268
エンティティタイプ 273
大文字小文字のバリアント 268
拡張ステム機能 268
グループ化 272
言語処理 266
検出されない単語 272
ステミング 267
単語のセグメンテーション 267
抽出 273
378
スロバキア語 (続き)
標準ステム機能 267
品詞タグ設定 269
名詞群 273
文字エンコード 267
スロバキア語言語モジュールリファレンス
266
スロベニア語
アクセント記号なし文字 275
エンティティタイプ 280
大文字小文字のバリアント 275
拡張ステム機能 275
グループ化 279
言語処理 273
検出されない単語 279
ステミング 274
単語のセグメンテーション 274
抽出 280
標準ステム機能 274
品詞タグ設定 276
名詞群 280
文字エンコード 274
スロベニア語言語モジュールリファレンス
273
せ
セグメントの生成 21, 25
セルビア語
エンティティタイプ 266
大文字小文字のバリアント 262
拡張ステム機能 262
グループ化 265
言語処理 261
検出されない単語 265
ステミング 261
単語のセグメンテーション 261
抽出 266
発音区分符号なし文字 262
標準ステム機能 261
品詞タグ設定 263
名詞群 266
文字エンコード 261
セルビア語言語モジュールリファレンス
260
た
タイ語
言語処理 310
ステミング 310
単語のセグメンテーション 310
抽出 311
文字エンコード 310
タイ語言語モジュールリファレンス 309
タグ設定 (「品詞タグ設定」を参照) 31
タグ付きステミング 21, 22, 32
タグ名の仕様 31
単語のセグメンテーション 21, 22, 25
イタリア語 184
英語 110
オランダ語 101
カタロニア語 46
韓国語 204
ギリシャ語 180
スウェーデン語 300
スペイン語 281
スロバキア語 267
スロベニア語 274
セルビア語 261
タイ語 310
チェコ語 85
中国語 55, 74
デンマーク語 91
ドイツ語 156
トルコ語 312
ニーノシク語 227
日本語 194
ハンガリー語 182
ブークモール語 216
フランス語 136
ポーランド語 238
ポルトガル語 240
ルーマニア語 249
ロシア語 252
単語の分割 32
ち
チェコ語
アクセント記号なし文字 86
エンティティタイプ 90
大文字小文字のバリアント 86
拡張ステム機能 86
グループ化 90
言語処理 84
検出されない単語 89
ステミング 85
単語のセグメンテーション 85
抽出 90
標準ステム機能 85
品詞タグ設定 86
名詞群 90
文字エンコード 85
チェコ語言語モジュールリファレンス 84
抽出
イタリア語 193
英語 119
オランダ語 109
概要 17, 33
カスタマイズ 18, 33
カスタマの声コンテンツ 315
2012-06-14
索引
抽出 (続き)
カタロニア語 54
韓国語 211
企業コンテンツ 325
ギリシャ語 181
クロアチア語 84
言語モジュールのサポートレベル 35
公共部門コンテンツ 335
サブタイプ 34
スウェーデン語 309
スペイン語 289
スロバキア語 273
スロベニア語 280
セルビア語 266
タイ語 311
チェコ語 90
中国語 - 簡体字 60
中国語 - 繁体字 79
デンマーク語 100
ドイツ語 169
トルコ語 313
ニーノシク語 237
日本語 203
ハンガリー語 184
ブークモール語 226
フランス語 144
ポーランド語 239
ポルトガル語 248
リソース ファイル 34
ルーマニア語 251
ロシア語 256
抽出する
カスタマの声コンテンツを使用する感
想 316
カスタマの声コンテンツを使用する要
求 321
カスタマの声情報 315
企業情報 325
公共部門エンティティ - 英語 337
公共部門エンティティ - 簡体字中国
語 370
公共部門情報 335
抽出ルール 18, 33, 34, 35
カスタマの声 315
企業コンテンツ 325
公共部門コンテンツ 335
英語 336
て
ディクショナリ 18, 33, 34, 35
デンマーク語
アクセント記号付き文字のタイプライ
ター形式 93
アクセント記号なし文字 93
エンティティタイプ 100
379
デンマーク語 (続き)
大文字小文字のバリアント 93
拡張屈折ステム機能 93
グループ化 99
言語処理 91
ステミング 92
単語のセグメンテーション 91
抽出 100
ハイフネーション 93
標準ステム機能 92
品詞タグ設定 94
名詞群 100
文字エンコード 91
デンマーク語言語モジュールリファレンス
91
と
ドイツ語
アクセント記号なし文字 160
エンティティタイプ 169
大文字小文字のバリアント 160
拡張屈折ステム機能 160
感想の抽出例 319
屈折ステマー推測機能 161
言語処理 156
検出されない単語 168
サブタイプ 169
ステミング 158
単語のセグメンテーション 156
抽出 169
ハイフネーション 160
標準ステム機能 158
品詞タグ設定 164
複合語非分割ステム機能 164
複合語分析 161
名詞群 174
文字エンコード 156
要求の抽出例 323
ドイツ語言語モジュールリファレンス 156
ドキュメント分析 21, 32
特別な抽出
カスタマの声コンテンツ 315
企業コンテンツ 325
公共部門コンテンツ 335
トルコ語
言語処理 311
ステミング 312
単語のセグメンテーション 312
抽出 313
文字エンコード 312
トルコ語言語モジュールリファレンス 311
な
名前付きエンティティ 37
に
ニーノシク語
アクセント記号付き文字のタイプライ
ター形式 229
アクセント記号なし文字 229
エンティティタイプ 237
大文字小文字のバリアント 229
拡張屈折ステム機能 229
グループ化 236
言語処理 227
ステミング 228
単語のセグメンテーション 227
抽出 237
ハイフネーション 229
標準ステム機能 228
品詞タグ設定 230
名詞群 237
文字エンコード 227
ニーノシク語言語モジュールリファレンス
227
日本語
エンティティタイプ 203
拡張ステム機能 200
言語処理 193
ステミング 198
単語のセグメンテーション 194
抽出 203
標準ステム機能 198
品詞タグ設定 202
名詞群 203
文字エンコード 194
日本語言語モジュールリファレンス 193
は
ハイフネーション
イタリア語 186
英語 114
オランダ語 102
カタロニア語 48
スウェーデン語 301
スペイン語 284
デンマーク語 93
ドイツ語 160
ニーノシク語 229
ブークモール語 217
フランス語 139
ポルトガル語 241
派生ステミング 27, 30
派生ステム機能
英語 114
発音区分符号なし文字
セルビア語 262
ハンガリー語
アクセント記号なし文字 183
2012-06-14
索引
ハンガリー語 (続き)
大文字小文字のバリアント 183
拡張ステム機能 183
言語処理 182
ステミング 182
単語のセグメンテーション 182
抽出 184
標準ステム機能 182
文字エンコード 182
ハンガリー語言語モジュールリファレンス
181
繁体字中国語
エンティティタイプ 79
拡張ステム機能 75
言語処理 73
ステミング 75
単語のセグメンテーション 74
抽出 79
標準ステム機能 75
品詞タグ設定 77
名詞群 79
文字エンコード 73
繁体字中国語言語モジュールリファレン
ス 73
ひ
標準屈折ステミング 27, 28
標準ステム機能
イタリア語 185
英語 112
オランダ語 102
カタロニア語 46
韓国語 206
クロアチア語 80
スウェーデン語 301
スペイン語 282
スロバキア語 267
スロベニア語 274
セルビア語 261
チェコ語 85
中国語 56
中国語 - 繁体字 75
デンマーク語 92
ドイツ語 158
ニーノシク語 228
日本語 198
ハンガリー語 182
ブークモール語 217
フランス語 137
ポルトガル語 240
ルーマニア語 250
品詞タグ設定 21, 22, 32
アンブレラタグ 31
イタリア語 188
英語 115
380
品詞タグ設定 (続き)
オランダ語 106
カタロニア語 49
韓国語 208
完全タグ 31
クロアチア語 81
スウェーデン語 304
スペイン語 285
スロバキア語 269
スロベニア語 276
セルビア語 263
タグ名の仕様 31
チェコ語 86
中国語 - 簡体字 58
中国語 - 繁体字 77
デンマーク語 94
ドイツ語 164
ニーノシク語 230
日本語 202
ブークモール語 218
フランス語 140
ポルトガル語 243
ロシア語 253
ふ
ファクト
定義済み 17
ファクトの抽出 33
ブークモール語
アクセント記号付き文字のタイプライ
ター形式 217
アクセント記号なし文字 217
エンティティタイプ 226
大文字小文字のバリアント 217
拡張屈折ステム機能 217
グループ化 225
言語処理 215
ステミング 217
単語のセグメンテーション 216
抽出 226
ハイフネーション 217
標準ステム機能 217
品詞タグ設定 218
名詞群 226
文字エンコード 216
ブークモール語言語モジュールリファレ
ンス 215
複合語 22
複合語ステム機能
スウェーデン語 303
複合語のステミング 29
複合語非分割ステミング 30
複合語非分割ステム機能
ドイツ語 164
複合語分析 27, 29
オランダ語 104
韓国語 207
スウェーデン語 303
中国語 75
ドイツ語 161
複合語ユニット 22, 25
フランス語
アクセント記号なし文字 139
エンティティタイプ 144
大文字小文字のバリアント 139
拡張屈折ステム機能 139
感想の抽出例 318
屈折ステマー推測機能 140
言語処理 136
検出されない単語 143
サブタイプ 144
ステミング 137
単語のセグメンテーション 136
抽出 144
ハイフネーション 139
標準ステム機能 137
品詞タグ設定 140
名詞群 149
文字エンコード 136
要求の抽出例 322
フランス語言語モジュールリファレンス
135
ほ
ポーランド語
言語処理 238
ステミング 238
単語のセグメンテーション 238
抽出 239
文字エンコード 238
ポーランド語言語モジュールリファレンス
238
ポルトガル語
アクセント記号なし文字 241
エンティティタイプ 248
大文字小文字のバリアント 241
拡張屈折ステム機能 241
グループ化 248
言語処理 239
ステミング 240
単語のセグメンテーション 240
抽出 248
ハイフネーション 241
標準ステム機能 240
品詞タグ設定 243
名詞群 248
文字エンコード 240
ポルトガル語言語モジュールリファレンス
239
2012-06-14
索引
み
未知の単語
ステミング 30
め
名詞群
イタリア語 193
英語 125
オランダ語 109
カタロニア語 54
簡体字中国語 64
クロアチア語 84
スウェーデン語 309
スペイン語 294
スロバキア語 273
スロベニア語 280
セルビア語 266
チェコ語 90
デンマーク語 100
ドイツ語 174
ニーノシク語 237
日本語 203
繁体字中国語 79
ブークモール語 226
フランス語 149
ポルトガル語 248
名詞の一般表記
英語 42, 131
簡体字中国語 42
中国語 - 簡体字 68
も
文字エンコード
イタリア語 184
英語 110
オランダ語 101
カタロニア語 45
381
文字エンコード (続き)
韓国語 204
ギリシャ語 180
クロアチア語 79
スウェーデン語 300
スペイン語 281
スロバキア語 267
スロベニア語 274
セルビア語 261
タイ語 310
チェコ語 85
中国語 - 簡体字 55
中国語 - 繁体字 73
デンマーク語 91
ドイツ語 156
トルコ語 312
ニーノシク語 227
日本語 194
ハンガリー語 182
ブークモール語 216
フランス語 136
ポーランド語 238
ポルトガル語 240
ルーマニア語 249
ロシア語 251
よ
要求
カスタマの声コンテンツを使用する抽
出 321
要求の抽出例
英語 322
スペイン語 323
ドイツ語 323
フランス語 322
り
リソースファイル, 抽出
言語モジュール 34
辞書 34
抽出ルール 34
る
ルーマニア語
アクセント記号なし文字 250
大文字小文字のバリアント 250
拡張ステム機能 250
言語処理 249
ステミング 249
単語のセグメンテーション 249
抽出 251
標準ステム機能 250
文字エンコード 249
ルーマニア語言語モジュールリファレン
ス 249
ルール 34
大文字小文字の正規化 26
カスタマの声コンテンツ 315
企業コンテンツ 325
公共部門コンテンツ 335
英語 336
ろ
ロシア語
エンティティタイプ 256
言語処理 251
サブタイプ 256
ステミング 252
単語のセグメンテーション 252
抽出 256
品詞タグ設定 253
文字エンコード 251
ロシア語言語モジュールリファレンス 251
2012-06-14