大量の多言語テキストデータを 瞬時に判別および選定

Rosette
言語処理プラットフォーム
RLI
RBL
Language Identifier
(言語判別モジュール)
言語と文字コードを判別
言語分類
www.basistech.jp
[email protected]
03-3511-2947
Base Linguistics
大量の多言語テキストデータを
Entity Extractor
REX
固有表現
瞬時に判別および選定
(基本言語解析モジュール)
高精度の検索を多くの言語で実現
検索精度の向上
日本語
(固有表現抽出モジュール)
人物、地名および組織名を抽出
Instantly identify and triage many languages
Entity
Resolver
within
large
volumes
of text.
RES
主言語
即时识别和处理大量多语言文本。
9%
中国語
39%
Identifiez et triez instantanément plusieurs
Name
Indexertextes.
langues à travers
de nombreux
RNI
フランス語
5%
英語
構造化テキスト
中国語
日本語
フランス語
文字種
ラテン文字
22%
アラビア語
フランス語
(名称照合モジュール)
様々な表記から名前を照合、検出
‫اﻟﺘﺤﺪﻳﺪ واﻟﺘﺼﻨﻴﻒ اﻟﻔﻮري ﻟﻠﻌﺪﻳﺪ ﻣﻦ اﻟﻠﻐﺎت‬
.‫ﺿﻤﻦ ﻛﻤﻴﺎت ﻛﺒﻴﺮة ﻣﻦ اﻟﻨﺼﻮص‬
英語
人物特定
26%
アラビア語
RNT
Name Translator
(名称翻訳モジュール)
外国語名を英語に翻訳
55
言語の判別と
RCA ROSETTE
Categorizer
文字コードの変換
Rosette言語判別モジュール (RLI)は、文書データのテキストを読んで、使われている言語と
文字コードを素早く正確に判別します。多言語データの分類、検索、処理、保存を行うアプリ
ROSETTE RLIの自動言語判別機能で簡単に行えます。文書は、各言
ケーションの膨大な文書処理が、
語の専門家に送られたり、
タグ付けして効率よく次の工程に送られ処理されます。対象言語
に特化された検索エンジンのプラグイン(Rosette基本言語解析モジュール等)
と組み合わ
せ、検索結果を向上させることもできます。
RSA
Sentiment Analyzer
RLIは、統計解析に基づく豊富な情報量の言語プロファイルによる特殊なアルゴリズムで、
非常に高い精度を実現します。言語学とコンピューター技術を熟知した専門家集団Basis
Technologyは、サポート言語の追加、機能のアップデート、学術界からの最新技術の導入
など、Rosette製品ファミリーの改善を絶えず続けています。
名前の翻訳
言語に対応
Sorted
Content
主な機 能
- シンプルなAPI
- 高い拡張性と処理能力
- 強力なサポート
Actionable Insigh
- 簡単なインストール
- 柔軟でカスタマイズ可能
- Java、C++、
ウェブサービスAPI
- プラットフォーム:Unix、Linux、Mac、Windows
- Rosette SDKのコンポーネント
主な顧客
StumbleUpon
今すぐお試しください
無料の評価版をご用意しています
http://www.basistech.jp/
ons
Rosette®
言語処理プラットフォーム
RLI
RBL
判別機能
Language Identifier
(言語判別モジュール)
言語と文字コードを判別
言語分類
言語処理プラットフォーム
Base Linguistics
(基本言語解析モジュール)
高精度の検索を多くの言語で実現
- 文書の主要な言語を判別
Entity Extractor
検索精度の向上
文字コード変換
言語領域検出
RLI
Language Identifier
J'ai été surprise
par cette
surprise. Vice President
Identify
languages
and encodings
REX
- 文書内の言語体系
(ラテン文字やキリル文字等)
(固有表現抽出モジュール)
を識別
人物、地名および組織名を抽出
Biden spoke about this in Munich. El carpintero
- 多言語文書で使用されている言語と、その割合
を判別
Entity Resolver
wound care management prevents die Geige gibt
RES
RBL
Base Linguistics
einen schoenen Laut von sich.
- アラビア語をアルファベットで表記したアラビア
語チャットのような、音訳された言葉にも対応
RNI
RNT
RCA
Name Indexer
(名称照合モジュール)
様々な表記から名前を照合、検出
Categorizer
188
55
7
44
コードベース
フランス語
ドイツ語
スペイン語
REX
Entity Extractor
REX
RES
Entity Resolver
RES
RNI
ROSETTE
Make real-world connections in your data
旧来
文字コード
Name Indexer
RNI
Match names between many variations
アルバニア語 — ISO-8859-1, Windows-1252
ラトビア語 — ISO-8859-13, Windows-1257
ActionableリInsights
アラビア語 — ISO-8859-6, Windows-720,
トアニア語 — ISO-8859-13, Windows-1257
Windows-1256
マケドニア語 — ISO-8859-5, Windows-1251
アラビア語 (音訳) — ISO-8859-1, Windows-1252,
マレー語 — ISO-8859-1, Windows-1252
Windows-1256
マラヤーラム語 — ISCII-Malayalam
ベンガル語 Translate
— ISCII-Bengali
ノルウェー語 — ISO-8859-1, Windows-1252
foreign names into English
ブルガリア語 — ISO-8859-5, Windows-1251,
パシュトウ語 — ISO-8859-6, Windows-1256
KOI8-R
パシュトウ語 (音訳) — ISO-8859-1, Windows-1252
カタロニア語 — ISO-8859-1, Windows-1252
ペルシャ語 — ISO-8859-6, Windows-1256
中国語(簡体)— GB-2312, GB-18030, HZペルシャ語 (音訳) — ISO-8859-1,
GB-2312, ISO-2022-CN
Windows-1252, Windows-1256
中国語(繁体)
— Big5, Big5-HKSCS
Categorize
Everything In Sight ポーランド語 — ISO-8859-2, Windows-1250
クロアチア語 — Windows-1250
ポルトガル語 — ISO-8859-1, Windows-1252
チェコ語 — ISO-8859-2, Windows-1250
ルーマニア語 — ISO-8859-2, Windows-1250
デンマーク語 — ISO-8859-1, Windows-1252
ロシア語 — ISO-8859-5, Windows-1251, KOI8-R,
オランダ語 — ISO-8859-1, Windows-1252
IBM-866, Mac Cyrillic
英語 — ISO-8859-1, Windows-1252
セルビア語 — ISO-8859-5, Windows-1251
Detect
The Sentiments
Of Yourセルビア語
Text (音訳) — ISO-8859-2, Windows-1250
エストニア語
— ISO-8859-13,
Windows-1257
フィンランド語 — ISO-8859-1, Windows-1252
スロバキア語 — Windows-1250
フランス語 — ISO-8859-1, Windows-1252
スロベニア語 — Windows-1250
ドイツ語 — ISO-8859-1, Windows-1252
ソマリ語 — ISO-8859-1, Windows-1252
ギリシャ語 — ISO-8859-7, Windows-1253
スペイン語 — ISO-8859-1, Windows-1252
グジャラート語 — ISCII-Gujarati
スウェーデン語 — ISO-8859-1, Windows-1252
ヘブライ語 — ISO-8859-8, Windows-1255
タガログ語 — ISO-8859-1, Windows-1252
ヒンディー語 — ISCII-Hindi
タミル語 — ISCII-Tamil
ハンガリー語 — ISO-8859-2, Windows-1250
テルグ語 — ISCII-Telugu
アイスランド語 — ISO-8859-1, Windows-1252
タイ語 — Windows-874
インドネシア語 — ISO-8859-1, Windows-1252
トルコ語 — ISO-8859-9, Windows-1254
イタリア語 — ISO-8859-1, Windows-1252
ウクライナ語 — ISO-8859-5, Windows-1251,
日本語 — EUC-JP, ISO-2022-JP, Shift-JIS, ShiftKOI8-R
JIS-2004 (JIS X 0213)
ウルドゥ語 — ISO-8859-6, Windows-1256
カンナダ語 — ISCII-Kannada
ウルドゥ語 (音訳) — ISO-8859-1, Windows-1252
朝鮮語 — EUC-KR, ISO-2022-KR
ウズベキスタン語 — ISO-8859-5, Windows-1251,
クルド語 — Windows-1256
KOI8-R
クルド語 (音訳) — ISO-8859-1, Windows-1252,
ウズベキスタン語 (音訳) — Windows-1251
Windows-1256
ベトナム語 — TCVN, VIQR, VISCII, VNI, VPS
Name Translator
RNT
RCA
Categorizer
RCA
RSA
Sentiment Analyzer
RSA
プラットフォームサポート
© 2015 Basis Technology Corporation. Basis Technology
Corporation、Rosette,およびHighlightはBasis Technology
Corporationの登録商標です。Big Text AnalyticsはBasis
Technology Corporationの商標です。その他の商標、役務商標、ロ
ゴは、それぞれの権利者に帰属します。(3-13-2014-RLI)
Sorted Content
RNT
言語
Unicode
ラテン文字表記
音訳
RBL
Rosetteは、旧来の文字コードで作成された大量の
電子データには、一つの文書に複数の言語が含まれ テキストを、Unicode規格に正確に変換します。変換
されたテキストは、文字コードの互換性に起因する
ていることが多く、多言語の処理は、
コンピューター
文字化けなど、データ破損の心配がありませんので、
にとっても人間にとっても大きな課題です。
RLIは、
人物特定
多くの言語で使用することができます。
Tag names of people, places,
and
organizations
多言語データの言語が同じ文字体系であっても
(英
語、
フランス語、
ドイツ語、イタリア語等)、各言語の
領域にスタートおよびエンドマーカーを追加します。
また、
ラテン文字、キリル文字、仮名、漢字等の各文
名前の翻訳
字体系の境界も検出します。
Sentiment
言語/ Analyzer
文字コード
最新の文字コード規格(XML等)はUnicodeの使
用を義務づけていますが、多くの既存のアプリケー
ション、文書、
ウェブサイトおよびデータストリーム
は、ASCII、ISO 8859-1、Shift-JISその他の「旧来の文
字コード」
を使用しています。
high
accuracy
Search many languages
with
構造化テキスト
ROSETTE
対応言語および文字コード
RSA
英語
Name Translator
(名称翻訳モジュール)
外国語名を英語に翻訳
固有表現
prensa los bordes de la placa decorativa. Proper
RLI
本社
One Alewife Center
Cambridge, M A
02140
ワシントンD.C.支社
2553 Dulles View Dr.
Suite 450
Herndon, VA
20171
サンフランシスコ支社
1700 Montgomery St
San Francisco, CA
94111
ロンドン支社
Furzeground Way
Middlesex UB11 1BD,
UK
日本法人
102−0084
東京都千代田区
二番町9−6
Lang
(言語判
言語と文
Base
(基本言
高精度の
Entit
(固有表
人物、地
Entit
Nam
(名称照
様々な表
Nam
(名称翻
外国語名
ROSETT
Cate
ROSETT
Sent