異種データ間の隠れた関連性を探り出す

Unsupervised object matching
01
異種データ間の隠れた関連性を探り出す
~教師なしオブジェクトマッチング~
どんな研究
どこが凄い
目指す未来
異なる種類のデータ集合の間で
関連するオブジェクトを自動的
に見つける研究です。例えば、
意味が同じ英語と日本語の単語
の対応付け(辞書自動作成)、
画像と文の対応付け(説明文作
成)、複数のデータベースのID
の対応付け(名寄せ)に利用で
きます。
これまでは人手で対応付けた
データや異種データ間の類似尺
度が必要でした。提案法は潜在
空間に全データを埋め込むこと
によって、対応データや類似尺
度なしで関連性を発見できます。
また多対多対応がある場合や、
2つ以上のデータ集合が与えら
れた場合でも適用できます。
現在、大量のデータ集合が多様
な用途で収集・管理されていま
す。そのため異なるデータ集合
の間の関係を解析することが困
難でした。本技術により複数の
データ集合の統一的解析が可能
となり、これまで知りえなかっ
た因果関係や知識の発見につな
がります。
潜在空間
一見対応関係のない複数のデータ集合
を、性質を保存したまま共通の空間
(潜在空間)に埋め込むことによって、
要素間の対応を付けることができます。
✓ 教師データが不要
✓ 特徴数・データ数・統計的性質が異
なるデータにも適用可能
✓ 多対多の関連性を自動的に推定
データ集合A
データ集合B
【応用例】日本語と英語の商品レビュー記事集合を用い
辞書や対訳文なしで関連する単語を対応付け
日本語レビュー記事
英語レビュー記事
ライブ ファン
曲
収録
アルバム
含まれる単語
カメラ デザイン
本 曲 文学
ライブ アルバム
物語 収録 作品
時計 使用 ファン
機能
撮影
bag watch
music
caseuse
read
camera
sound
story
track
character
author
album
look book song
watch
use
bag
look
case
camera
本 文学
作品 物語
story
read
book character
author
使用
デザイン
時計 撮影
カメラ 機能
sound album
music track
song
関連文献
[1] T. Iwata, T. Hirao, N. Ueda, “Unsupervised cluster matching via probabilistic latent variable models,” in Proc. The Twenty-Seventh AAAI
Conference on Artificial Intelligence (AAAI-13), 2013.
連 絡 先
岩田 具治 (Tomoharu Iwata)
協創情報研究部 創発知能環境研究グループ
E-mail: iwata.tomoharu{at}lab.ntt.co.jp ({at}の部分を@に置き換えてください)