様々な言語の文書において、 人名、地名、組織名 を自動的に抽出します。

RBL
REX
RES
(基本言語解析モジュール)
高精度の検索を多くの言語で実現
検索精度の向上
Entity Extractor
(固有表現抽出モジュール)
人物、地名および組織名を抽出
固有表現
www.basistech.jp
[email protected]
03-3511-2947
Entity Resolver
構造化テキスト
様々な言語の文書において、
RNI
人名、地名、組織名
RNT
を自動的に抽出します。
RCA
Name Indexer
(名称照合モジュール)
様々な表記から名前を照合、検出
人物特定
Name Translator
(名称翻訳モジュール)
外国語名を英語に翻訳
名前の翻訳
ROSETTE
Categorizer
RSA
ROSETTE
Sentiment Analyzer
大量のテキストデータから
固有表現を速やかに抽出
ビッグデータと呼ばれているものの大半はテキストデータです。テキストには重要な情報
が含まれていますが、いちいち人間が調べなければ、なかなかその情報は得られません。
データが外国語の場合は更に難しい作業となります。重要な情報は、人名、地名、
日付など
の、いわゆる固有表現に関連していることが多く、それらを調べることでデータの概要を把
握することができます。
Rosette 固有表現抽出モジュール(REX) は、大量の多言語テキストを素早く読み込んで該当
するデータをタグ付けします。REXは、高度な統計モデリング、
カスタマイズ可能なルール、
あらかじめ定義されたリスト等を駆使し、正確に固有表現を抽出します。
Sorted Content
16
Actionable Insigh
言語に対応
主な機 能
- Rosette SDKのコンポーネント
- シンプルなAPI
- 高い拡張性と処理能力
- 強力なサポート
- 簡単なインストール
- 柔軟でカスタマイズ可能
- Java、C++、
ウェブサービスAPI
- プラットフォーム:Unix、Linux、Mac、Windows
言語学とコンピューター技術を熟知した専門家集団Basis Technologyは、サポート言語の
追加、機能のアップデート、学術界からの最新技術の導入など、Rosette製品ファミリーの
改善を絶えず続けています。
主な顧客
ACTIVE INTELLIGENCE
今すぐお試しください
無料の評価版をご用意しています
http://www.basistech.jp/
ons
RBL
REX
RES
Base Linguistics
(基本言語解析モジュール)
高精度の検索を多くの言語で実現
検索精度の向上
Entity Extractor
(固有表現抽出モジュール)
人物、地名および組織名を抽出
固有表現
言語処理プラットフォーム
Entity Resolver
機能
構造化テキスト
REXの出力例
Language Identifier
RLI
1. 機械学習Name Indexer
The New
York Philharmonic
Orchestra
will make a
Identify
languages
and encodings
historic trip to North Korea on人物特定
February, it has announced.
Dominique de Villepin a été nommé Premier ministre
ce mardi en fin de matinée par Jacques Chirac.
RNI
(名称照合モジュール)
様々な表記から名前を照合、検出
言語解析に基づく高度な統計モデリングは、次に
示すようなケースの処理に有効です。
RNT
RLI
RBL
Name Translator
人物
地名
Base
日付
(基本言
高精度の
組織 RBL
Base Linguistics
(名称翻訳モジュール)
1. 人名、地名、組織名などに、
共通の名前が使われ
外国語名を英語に翻訳
ている場合。
例えば、一般的な姓であるSmithは、
会社名のSmith & Co.や都市名のSmithfield, RIから区別する必要があります。
ROSETTE
2. 膨大なフォーマットや異表記のある名前。
Searchpresident
many languages
with
highZarin
accuracy
The orchestra's
and executive
director,
名前の翻訳
Mehta said it would play in the capital Pyongyang
on February 26. In August, the reclusive communist
country's Ministry of Culture sent an invitation to
Sorted
Content
the orchestra
at Lincoln
in Manhattan.
Tag names
ofCenter
people,
places, and organizations
これらを正しく処理して、人名、地名、組織名な
どの固有表現を抽出するには、
統計エンジンは
ROSETTE
欠かせません。統計エンジンは、
ウェブ上にある
膨大な数のニュースやブログ記事の分析、注釈
付け、および処理を行い、実際の文脈に応じて、
機械学習によってトレーニングされています。
朝鲜外务省发言人11月1日在平壤宣布,朝鲜将重返六方会谈,但前提条件是朝鲜与
美国在六方会谈框架内讨论解除美国对朝鲜金融制裁问题。针对朝鲜方面的动向,
Actionable Insights
各方均表示欢迎。美联社11月1日报道说:“长期以来一直拒绝与平壤进行直接对话
的美国总统布什认为,各方达成一致、同意恢复六方会谈应归功于中国的斡旋。
Make real-world connections in your data
RCA
RSA
REX
Categorizer
Sentiment Analyzer
RES
時間
Entity Extractor
称号
Entity Resolver
固有表現は、標準リスト
およびユーザー分類に従って
抽出します。例えば、製品名
はリストベースで抽出します。
またガゼティアと呼ばれる
膨大なリストを標準装備
しています。アーティスト名など、ユーザー定義の
リストも簡単に追加できます。
Name Indexer
RNI
Match
names
between
manyKorea
variations
In October,
Mehta
spent six
days in North
exploring venues
and other arrangements for a concert in Pyongyang.
2. リスト
REX
RES
L'ancien ministre de l'Intérieur, qui n'a jamais participé à une
élection, a déjeuné avec les députés UMP et UDF à l'invitation du
président de l'Assemblée nationale, Jean-Louis Debré.
RNI
‫ )ﻣﻜﺔ‬10:01
‫ م )آﺧﺮ ﲢﺪﻳﺚ( اﻟﺴﺎﻋﺔ‬21/1/2010 ‫ اﳌﻮاﻓﻖ‬- ‫ ﻫـ‬5/2/1431
‫اﳋﻤﻴﺲ‬
Name
Translator
RNT،(‫اﳌﻜﺮﻣﺔ‬
RNT
(‫)ﻧﺎﺗﻮ‬Translate
‫ﺷﻤﺎل اﻷﻃﻠﺴﻲ‬
‫ﺣﻠﻒ‬names
‫ﻷﻓﻐﺎﻧﺴﺘﺎن ﻳﺨﻄﻂ‬
‫ )ﻏﺮﻳﻨﺘﺶ( ﻧﺎﺗﻮﻳﻔﻜﺮ ﲟﺴﺆول ﻣﺪﻧﻲ‬7:01
foreign
into English
‫ وﺳﻂ دﻋﻮاﺗﻠﺘﺤﺴﲔ اﻟﺘﻨﺴﻴﻖ اﻟﺴﻴﺎﺳﻲ واﻟﺘﻨﻤﻮي ﻓﻲ‬،‫ﻟﺘﻌﻴﲔ ﻣﺴﺆول ﻣﺪﻧﻲ ﻛﺒﻴﺮ ﻓﻲ أﻓﻐﺎﻧﺴﺘﺎن‬
‫اﻟﺒﻼد وﻓﻖ ﻣﺎ ﻧﻘﻠﺘﻪ ﺻﺤﻴﻔﺔ وول ﺳﺘﺮﻳﺖ‬
RCA
Categorizer
コードベース
プラットフォームサポート
© 2015 Basis Technology Corporation. Basis Technology
Corporation、Rosette,およびHighlightはBasis Technology
Corporationの登録商標です。Big Text AnalyticsはBasis
Technology Corporationの商標です。その他の商標、役務商標、ロ
ゴは、それぞれの権利者に帰属します。(2014-12-17-REX)
Detect
利用できます
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
本社
One Alewife Center
Cambridge, M A
02140
他の言語はカスタム開発を通して
利用できます。
The Sentiments Of Your Text
人名
地名
組織名
称号
国籍
宗教
製品
クレジットカード番号
地理座標
通貨
総称数
個人識別番号
電話番号
Eメールアドレス/URL
距離
日付
時間
ワシントンD.C.支社
2553 Dulles View Dr.
Suite 450
Herndon, VA
20171
Entit
(固有表
人物、地
Entit
Nam
(名称照
様々な表
Nam
(名称翻
外国語名
ROSETT
Cate
利用できる言語
REXは、次の固有表現タイプを標準でサポートして
Sentiment Analyzer
RSA
います。ユーザー定義の固有表現(SKU番号等)
も
日付、時間、
メールアドレスなどは、正規表現を用い
たルールを適用して抽出することができます。正規表
現には、多くの文字列のパターンが含まれています。
特定のニーズに基づき、ユーザーが独自に編集また
は追加することもできます。
RCA
Categorize Everything In Sight
システム固有の固有表現タイプ
3. 正規表現
Lang
(言語判
言語と文
-
-
-
-
-
アラビア語
ヘブライ語
パシュトウ語
ペルシャ語
ウルドゥ語
-
-
-
-
中国語(簡体)
中国語(繁体)
日本語
朝鮮語
サンフランシスコ支社
1700 Montgomery St
San Francisco, CA
94111
ロンドン支社
-
-
-
-
-
-
-
-
RSA
オランダ語
英語
フランス語
ドイツ語
イタリア語
ポルトガル語
ロシア語
スペイン語
Furzeground Way
Middlesex UB11 1BD,
UK
日本法人
102−0084
東京都千代田区
二番町9−6
ROSETT
Sent