オントロジー構築のための文書からの意味関係抽出

オントロジー構築のための
オントロジ
構築のための
文書からの意味関係抽出
(株)東芝 研究開発センター
長野 伸一
2010/03/05 セマンティックWebコンファレンス2010
Copyright 2007, Toshiba Corporation.
目次
1.
2.
3.
4.
5.
背景:企業内の非構造化データ
研究開発の目的
オントロジー自動構築システム
文書から 意味関係抽出技術
文書からの意味関係抽出技術
オントロジー応用例
2
Copyright 2010, Toshiba Corporation.
91
1.背景:企業内の非構造化データ
•
データは,企業にとって重要なIT資産
– クラウド導入が進んでも,データだけは企業内に残る
– 企業内データの80%以上が非構造化データ(文書,画像など)
•
非構造化データの活用例
– 内部統制
• 財務会計に関するデータを管理監督し,業務適正化,法令遵守
– ビジネス・インテリジェンス(BI)
• 経営,財務などの業務データを分析し,戦略立案や経営計画に活用
– CRM
• 問い合わせ,苦情などの顧客の声を分析し,製品・サービスにFB
•
非構造化データを取り扱う上での課題
1 デ
1.
データの収集,一元管理
タの収集
元管理
– 部門毎に/異なるツールで,保管,管理されている
2. 非構造化データ間の統合
– ワークフローにかかわる文書同士が関連づけられていない
3. 構造化データとの統合
– 業務データと文書が統合されず,データ生成過程を監視追跡できない
3
Copyright 2010, Toshiba Corporation.
1.背景:言語資源
• 言語資源
– テキストデータを解析するためのリソース(辞書,ツールなど)
– 徐々に整備が進みつつあり,既存のオントロジーを再利用/拡張する
ことにより,目的のオントロジーを構築することが可能に
抽象的
具体的
汎用的
• 利用可能な言語資源の例
利
能な言語資源 例
特定用途向け
– 汎用辞書
• WordNet(英:米プリンストン大,日:NICT)
オントロジー
– 領域オントロジー
• 情報家電オントロジー(INTAP)
Thing
• 臨床医学オントロジー(東大・阪大)
– 軽量オントロジ
軽量オントロジー
徐々に整
• Wikipediaオントロジー(東大,慶応大)
備されつ
– インスタンス中心のデータ(Linked Open Data)
つある
• US SEC data(米証券取引所):企業情報
企業内文書の処
• LinkedGeoData(独ライプツィヒ大):地理情報
理に不足する分
• LinkedCT(米ClinicalTrials.gov):臨床試験情報
は整備が必要
4
Copyright 2010, Toshiba Corporation.
92
2.研究開発の目的
企業内の非構造化文書を対象とした文書処理を行うため,
低コストでオントロジーを自動獲得できる技術を開発する
– 文書内から意味関係にある概念を獲得し,オントロジーを構築する
– 獲得したオント
獲得したオントロジーを利用して文書にアノテーションし,文書同士
ジ を利用して文書にアノテ ションし,文書同士
を関連づける
抽象的
オントロジーを獲得
具体的
汎用的
w
オントロジー
w
w
アノテー
ション
文書データ
特定用途向け
Thing
獲得のターゲット
w
w
w
w
w
w
w
w
オントロジーを介して
文書同士を関連づけ
5
Copyright 2010, Toshiba Corporation.
3.オントロジー自動構築システム
スタンドアローンで実行可能な自動構築システムを試作
アノテーションされた文書データ
文書データ
オントロジー
を獲得
2009/10/05付け当社プレスリリース
Copyright 2010, Toshiba Corporation.
93
6
4.文書からの意味関係抽出技術:方式概要
基本アイデア
– 文書を文単位で解析し,2項関係にある語の組を概念ペアとして抽出する
– あらかじめ手がかり(シード)として,少量の概念ペアを人手で与えておく
– 関係抽出パターン(構文木)と概念ペアとを文書から順次獲得し
関係抽出パタ ン(構文木)と概念ペアとを文書から順次獲得し,オントロ
オントロ
ジーを構築する
オントロジー技術者
FB
概念ペアから関係抽出パターンを獲得
関係抽出パターンDB
w
概念ペアDB
(c, c)
(c, c)
(c, c)
w
w
w
構 造化
文書群
関係抽出パターンから概念ペアを獲得
オントロジー
少量のペアを事
前に与えておく
7
Copyright 2010, Toshiba Corporation.
4.文書からの意味関係抽出技術:処理の例
液晶テレビでは初となる「レグ
ザ」を発売
上位下位関係にある
概念ペアを格納
概念ペアDB
概念ペアから関係
抽出パターンを獲得
構文
解析
液晶テレビでは
初となる
(液晶テレビ,レグザ)
関係抽出パターン
から概念ペアを獲得
概念ペア
と比較
「レグザ」を
発売
関係抽出パ
ターンを獲得
Xでは
初となる
「Y」を
関係抽出パターンDB
発売
Xでは
関係抽出
パターン
を格納
初となる
「Y」を
発売
8
Copyright 2010, Toshiba Corporation.
94
4.文書からの意味関係抽出技術:処理の例
液晶テレビでは初となる「レグ
ザ」を発売
上位下位関係にある
概念ペアを格納
概念ペアDB
概念ペアから関係
抽出パターンを獲得
構文
解析
液晶テレビでは
初となる
(液晶テレビ,レグザ)
(レコーダー,ヴァルディア)
概念ペア
と比較
概念ペア
を格納
「レグザ」を
関係抽出パターン
から概念ペアを獲得
(レコーダー,ヴァルディア)
概念ペア
を獲得
発売
関係抽出パ
ターンを獲得
レコーダーでは
初となる
Xでは
「ヴ
「ヴァルディア」を
デ
を
初となる
発売
「Y」を
関係抽出パターンDB
発売
構文解析
Xでは
関係抽出
パターン
を格納
初となる
「Y」を
発売
関係抽出
パターン
と比較
レコーダーでは初となる「ヴァ
ルディア」を発売
9
Copyright 2010, Toshiba Corporation.
5.オントロジー応用例:コンタクトセンタ問い合わせマップ
コンタクトセンタに寄せられた顧客からの問い合
わせログを分析し,オントロジーを利用して内容
が類似した問い合わせログを同心円状に配置
Copyright 2010, Toshiba Corporation.
溝口 他, コンタクトセンタの高度化に向けた最新技術, 東芝ソリューション
テクニカルニュース, vol.15, pp.14-16, 2008.
95
10
6.まとめと今後の課題
• まとめ
– 企業内文書の処理のためのオントロジーを低コストで自動獲得する手法
を提案し,試作システムを紹介
• 今後の課題
– 自動構築システムの精度向上
– 外部の言語資源の活用,連携
– ワークフロー,構造化データとの対応付け
11
Copyright 2010, Toshiba Corporation.
東芝コーポレートブランド ― PowerPoint フォーマット:β版 ―
Copyright 2010, Toshiba Corporation.
96
12