2002年8月 ムツミインサイト株式会社 アナリスト・チーム

2002年8月
ムツミ インサイト株式会社
アナリスト・チーム
−1−
1.タクソノミー技術、出現の背景
■ 時間の不足こそが重大な問題
ワープロからウエブパブリッシングまで、情報生成ソフトのブームに後押しされ、私たちは、多くの情
報資源を持つようになった。しかし、作成された情報資源は有効に活用されてはいないようだ。情報の
不足はもはや問題ではない。情報を相互に関連づけ、分類し、分析する時間、そして、その情報に基づ
いて行動する時間の不足こそが重大な問題である。
情報は、報告書、電子メール、企画書、企業ウェブサイトの中に隠されている。現代における最も希少
なリソースは、人でもモノでも金でも、また情報でもない。それは、時間である。ビジネスチャンスが
増加すると同時に、ビジネスチャンスを捕らえるための時間は減少している。
情報社会は無関係な情報の海に溺れる危険な状態にある。この情報氾濫から知性を救済するために新た
に出現したソフトウエアセグメントがタクソノミーである。
タクソノミーソフトウェアは多数の情報ソースからの情報を関連させてグループ化する。また、このプ
ロセスの自動化にも役立つ。タクソノミーとは、ディジタル図書館で情報を探索し、検索し、相互参照
することを可能にするコンピューターで生成したカード式目録のようなものである。
■ 行動可能な知識を持つ
タクソノミーソフトウェアは、私たちの反応時間を短縮することができる。このソフトウェアは、私た
ちが知らなかった情報からのアイデア形成を可能とする。知らなかった情報とは、情報過多の海洋の真
中で関係及び相関性が見失われた情報のことである。
これは、個人においても集団においても起こり得ることである。私たちは限定されたグループで働くの
ではなく、オープンなネットワークを介し、必要なパートナー(内外を問わず)と仕事をする。したが
って、論点が少々ずれるが、私たちは行動可能な知識を持つことができるように、ネットワーク上の各
人とコミュニケーションができなければならない。
さて、生産性の決定要因は、つながりがわかること、つながりの重要性を評定すること、コンテキスト
を認識すること、情報の意味や相関性を理解することである。
タクソノミーソフトウェアは情報過多の波を阻止することはできない。しかし、企業や組織が生き残る
ために必要な情報へのアクセスを支援するものである。
次にタクソノミー技術を概観し、製品を紹介する。
−2−
2.タクソノミー技術の概観
まず、タクソノミー技術を理解するうえで必要となる基礎的な用語についてまとめてみよう。
■ ヒエラルキー
私たちが集める情報は脳のこじんまりした居心地の良い場所に置かれる。私たちが他のものにそれを関
連づけることができるまで、その情報は有用ではない。しかし、階層的関係をグラフィックに構築する
過程は、人間がそれらの関係をより速く構築するのを助ける。階層的関係の構築は人間が本来備えてい
る特性である。
階層は、さらに私たちが大きな画像(単なる主要なトピックを備えた)及び詳細の両方を見ることを可能
にする。いくつの階層が必要か、あるいは、実用的かということはシステム設計者にとって公知の問題
である。
■ ボトム・アップとトップ・ダウン
カテゴリーを構築するための異なる方法がある。1つのアプローチは、個々の要素をとり、「バケツ」に
それらを置き始めることである。このアプローチは「ボトム・アップ」と呼ばれる。例えば、「チップ」
をGoogleで検索すると570,000件ヒットする。これを集積回路関連、食品関連、旅行関連のいずれかに文
書を分けることによりスタートする。食品カテゴリーに分類される文書が多すぎる場合、そのグループ
をポテトチップス及びチョコレートチップに分割する必要があるかもしれない。ボトム・アップアプロ
ーチは、このように分類プロセスを反復してカテゴリーを拡張する。
逆のプロセスは「トップ・ダウン」と呼ばれ、人々がどのように伝統的に分類するかである。このアプ
ローチでは、領域エキスパートが主題を分析し、例えば10の一般的なトピックに文書が分類されるだろ
うということを決める。その後、各文書は検査され、その適切なカテゴリーに置かれる。
■ コンテキスト
コンテキストとは、何かを取り囲み、何かに意味を与えるもの。人は概念を探求し、コンピューターは
キーワードを探索する。検索した各個人だけが、どれくらい適切か判断することができる。その文書は
技術的過ぎたり古過ぎたり、あなたのニーズには一般的過ぎるかもしれない。コンテキストが決定的な
要因である。
「チップ」に関する上記の例において、チョコレートチップ・クッキーを作るためのレシピではなく集
積回路「チップ」を捜したいならば、コンピューターまたはエレクトロニクスのようなカテゴリーを探
索すれば、より少数かつ適切な情報を見つけることができる。情報のカテゴリー及び階層的構造を持っ
ていれば、探索フィールドを狭くし、適切な情報をより速く見つけることができる。
■ ブラウジングと検索
効果的に検索するには、その文書を見る前に、検索に使用する用語を知っていなければならない。キー
ワード検索は、あなたが何を捜しているかを知っていることを仮定しているが、現実は仮定通りではな
いことがしばしばである。知識労働者が何を捜しているか必ずしも正確に確信しているとは限らない。
しかし、彼らは、それを見とときに、それが何かを知る。知識労働者の一日の25%以上は、コンピュー
−3−
ター・システム上の情報探索に費やされている。その時間の約70%はブラウジングに費やされている。
Yahoo市場調査プロジェクト中に調査された人々の75%は、検索よりブラウジングを好む。
「チップ」に関する前の例で見るなら、探索者は多くのタイプのコンピューター「チップ」があること
を知らなかったかもしれない。プロセッサー「チップ」、特定の(ASIC)適用「チップ」あるいはメモリ
「チップ」など。もしも、プロセッサー、ASIC、メモリなどのコンピューター「チップ」のカテゴリー
があったならば、必要な情報はフラッシュ・メモリー「チップ」に関することだとわかったかもしれな
い。関連する情報のコンテキストで見れば、特別の主題に関する情報を発見することははるかに容易で
ある。ブラウジングは連想を促進する。カテゴリーのブラウジングは情報発見プロセスを通じてあなた
を導くことができる。
■ ブラウジング・プロセス
特にあなたの主題に関する適切な情報のためにブラウジングするにつれ、プロセスに関する3つの特徴
に気がつく。ブラウジングは、動的、対話的、反復的である。
ブラウジングは動的である。情報は終始変わる。今日の世界では、事実上、複雑なトピック上のどんな
探索も移動標的の捜索になる。例えば、「チップ」の捜索は、652,000のヒット、わずか3週間前より
82,000多くの情報が現れた。バージョン変更、記事の削除、情報の追加など。
ブラウジングは繰り返し作業である。情報への良く設計されたインターフェースを航海すると、他の適
切なトピックに自動的に導かれる。プロセスの繰り返しはあなたの知識を広げ、あなたの焦点を洗練す
る。単に探索し発見するよりも、適切な情報及び関連性のあるアイデアや概念へのアクセスは、あなた
の活動の基本的な変化を促進するのである。
−4−
次に、タクソノミー技術に言及するが、各技術がどのようにしてその弱点を改善しようとしているかを
理解できるように、探索と検索の簡潔な分析から始める。
■ キーワード [Keyword]
検索エンジンは、タイトル、見出し、本文、メタタグ(データに関するデータ)中のキーワードを捜す。
その前に、スパイダー(プログラム)が文書を這って、キーワードはインデックスを付けるデータベー
スの中に入れられる。インデックスを付けるデータベースには、その特定のキーワードを何回発見した
か、節、ページ、文書のどこに位置していたかが記述される。スパイダーは、特定の言葉を捜すが、to,
in, or, andなどの前置詞や接続詞を含んでいない。
結果は、洋書の巻末に付いている索引のようなものになる。これは、適切な情報を見つけるには、あま
り効率的な方法ではない。
しかし、検索エンジンの高度な機能で、探索プロセスにブーリーン論理を適用することができる。例え
ば、多数の言葉を用い、その言葉がすべて存在する実例を探すことが可能である。また、多数の言葉の
うち、いくつかの言葉は存在し、その他の言葉は存在しない実例を探すことも可能である。
■ クラスタリング
クラスタリングは、文書・言葉間の共通要素の識別に基づき、類似の文書・言葉の部分集合へと文書・
言葉を分割するための技術である。各文書は「言葉の袋」とみなされる。クラスタリングは本質的に各
袋に含まれている類似の言葉をグループ化する。
■ 統計的テキスト分析とクラスタリング
この技術は、言葉の共起を観察し測定する。例えば、スターバックスと共に現れた「Java」は、おそら
く、プログラミング言語ではなくコーヒーと関係がある。言葉の相対的な配置が重要である。また、文
書の一行目の言葉は、著作権について言及した部分より重要である。統計的分析とクラスタリングは、
文書中の言葉と言葉の距離、言葉の頻度、配置及びグループを捜す。パターン分析はさらに正確さを向
上させる。
■ パターンマッチング
パターンマッチングは、しばしば一まとめにされる言葉の集合を捜すプロセスである。文書の中で使用
される言葉の頻度、言葉の配置、言葉の相互近接性、関連する言葉のクラスタなどがパターンの例であ
る。パターンマッチングは本質的に言語の種類には無関係。
■ ベイジアン[Bayesian]
ベイジアンのアプローチは、既定のカテゴリーに該当する言葉のパターンを学習しようとするものであ
る。例えば、ある文書が「りんご」や「オレンジ」という単語を含んでいる場合、この文書が果物に関
係しているらしい、また、「ブドウ」や「タンジェリン」のような他の果物名詞が生じるだろうという
仮説につながる。
ベイジアンのアルゴリズムは、そこに含まれている用語、言葉及び句の検討により、文書をソートする。
ベイジアンは、トレーニング・セット(各カテゴリーを代表する文書)の言葉から統計的モデルを使用
し、相関性を算定するためにパターン分析を使用する。
−5−
■ 例に基づく分類
非体系データ分類の別のアプローチは1セットの参照コンテンツによって定義されたカテゴリーをあら
かじめ設定し、文書の部分集合を開発することである。ソフトウェアは、トレーニング・セットとの比
較において新しい文書を分析し、同様の概念及び考えを探索する。このアプローチは「機械学習」とも
呼ばれる。
この方法の限界は、トレーニング・セットの幅及び正確さに左右されること。
■ ニューラル・ネット
コンピューター・システムに適用されるような人工知能は、生物の神経系のニューロン(神経細胞)を
モデルとして作られる。ニューラル・ネットは各々限られた数の入力及び出力と共に要素を処理する相
互に連結したシステムとして設計されている。プログラムされるのではなく、これらのシステムはパタ
ーンを認識することを学ぶ。ニューラル・ネットは、脳のような生物の神経系が情報を処理する方法に
基づいた情報処理技術である。多くの高度に相互に連結した処理要素から構成されて、ニューラル・ネ
ット・システムは、問題を解決するために、例によって学習する人間と類似した手法を使用している。
ニューラル・ネットは「トレーニング」と呼ばれる学習過程を通じて、データ分類あるいはパターン認
識のような特定用途のために形成される。
■ Support Vector Machine
Support Vector Machine(SVM)のアルゴリズムは、統計的学習理論に由来している。SVMは、文書
と文書の最大「分離」を多次元で計算する。文書(意味を持った言葉および句の集まり)を、ベクトル
として表わす。ベクトルの方向は、文書が包含する言葉(次元)によって決定される。ベクトルの大き
さは、文書内で各単語が何回発生したかによって決定される。この反復的方法で連続的に文書を分析す
ると、文書は、「関係のある」スペースか「無関係の」スペースかに分けられる。プロセスの繰り返し
によって、SVMは、類似のカテゴリーへ「関係のある」文書を分類するが、さらに重要なことには、
それらがどのように異なるかを学んでいることである。
■ 意味的及び言語的クラスタリング
意味的な分析は、特定の言語および方言に依存する。文書は、類語辞典、カスタム辞書(例えば略語辞
書)、品詞アナライザー、ルールベース、蓋然論の文法、イディオムの認識、名詞句アイデンティファ
イヤー(例えば「事業・単位・マネージャー」をひとまとまりと解釈する)を使用し、言葉の意味によっ
てクラスタリング(グループ化)される。また、言語的ソフトウェアは、主語、動詞および目的語を識
別し、文の構造を分析する。そして、文の構造分析は意味を抽出するために適用される。
■ 方法論の組合せ
あらゆる用途を考えた場合、ひとつのタクソノミー方法論、アルゴリズムあるいは技術が、別のものよ
り優秀であるとは限らない。類似の文書をグループ化する際の正確性や適切性を向上させるために多数
の方法を組み合わせることが、タクソノミーソフトウェア会社にとってのトレンドになっている。
−6−
3.会社と製品の紹介
読者にとって、タクソノミー製品を学ぶ足がかりとなることを意図し、5製品を紹介する。紹介の順番
は会社名による50音順であり製品の優劣とは無関係である。また、「製品の機能および特徴」の文面は
製品ベンダー各社のウェブページ上の表現をそのまま使用している。■NTTソフトウェア株式会社
Autonomy Portal-in-a-Box ■東芝情報システム株式会社 Verity Information Server
ストシステムConceptBase Classifier
■株式会社東陽テクニカ
SEMIO
■株式会社ジャ
■マイクロソフト株式会社
SharePoint Portal Server に搭載された「カテゴリ アシスタント」
会社名:NTTソフトウェア株式会社
製品名:Autonomy Portal-in-a-Box
製品の機能および特徴:
異なる形式の社内情報と、提携企業等の外部情報を一括管理し、必要な情報を即座に検索/入手できる
企業内情報ポータルを自動的に構築、運用支援するソリューションです。
情報源は、内外のサイトはもちろん、Microsoft社のOffice文章、SQLデータベース、PDFファイルな
ど、様々な形式の情報を指定できます。そのため、企業ポータルを構築するために、既存システムの改
造は一切行わずに企業内外ナレッジを有効に利用し、構築する事が可能です。
また、従来、情報公開・キーワード付与・情報分類・関連文章へのリンク等の情報は、手作業で付与
していましたが、Autonomy Portal-in-a-Boxでは、導入時の設定だけで、スケジュールにしたがって最
新のコンテンツを自動的に収集し、・ 情報の公開・ キーワード付与・ 情報の分類・ 関連文書へのリ
ンクの自動化も可能となります。これにより、サイト運営スタッフの負担を最小限にできます。
会社名:株式会社ジャストシステム
製品名:ConceptBase Classifier
製品の機能および特徴:
・ドキュメントの内容を判別し自動分類
ドキュメントの内容を自動判別し、あらかじめ設定したカテゴリに高速かつ高精度に分類します。い
ままで人間にしかできないと思われていた作業を自動化、効率化します。
・分類ノウハウを学習し精度向上
分類カテゴリは、プロファイルと呼ばれる分類基準で定義します。プロファイルは、分類結果の正誤
をフィードバックすることで作成でき、フィードバックを繰り返してトレーニングすることで分類精
度が向上します。
会社名:東芝情報システム株式会社
製品名:Verity
製品の機能および特徴:
〔分類&整理〕
格納された情報を企業のニーズに合わせた形式に分類し整理することができます。収
−7−
集した情報の内容やファイルフォーマット、ドメイン名のような情報ソースの位置などによって分類し
たり、製品情報や顧客情報、技術情報などのビジネス上のカテゴリごとに分類するといった、企業ニー
ズに合わせた情報の構造化が可能です。Verity Knowledge Organizer を利用することにより企業情報を
ビジュアルにカテゴライズすることもできます。
〔検索&ナビゲート〕
Verity Information Server の持つ強力な検索機能を利用することで、必要な情
報をすばやく見つけ出すことができます。同製品は単語やフレーズ、フリーテキストによる検索、論理
検索、ファイルの属性についての検索、類似文書の検索(クエリー・バイ・エグザンプル)といった豊富
な検索機能と Topic 辞書やシソーラス辞書などの辞書機能を持っています。また、Verity Knowledge
Organizer を使用して、情報をカテゴリ毎に分類し、ナレッジ・ツリーを構築することもできます。強
力な検索機能とナレッジ・ツリーを組み合わせることで、必要な情報をすばやく直感的に取得すること
ができます。
会社名:株式会社東陽テクニカ
製品名:SEMIO
製品の機能および特徴:
1.キーワード検索とは違い、事前にドキュメントが分類されているため、ユーザのドキュメント取得
時間を大幅に短縮します。
2.埋もれていたドキュメントも自動的に分類されます。
3.ほとんどのビジネスドキュメントフォーマット に対応。テキスト、MSOffice、PDF、HTML、
XML他 。
4.スケジューリング機能により、夜中に新規ドキュメントの自動更分類が行えます。
会社名:マイクロソフト株式会社
製品名:SharePoint Portal Server に搭載された「カテゴリ アシスタント」
製品の機能および特徴:
SharePoint Portal Server に搭載された「カテゴリ アシスタント」を利用することで、自動的にドキュ
メントをカテゴライズできます。扱いたいドキュメントの量が多い場合、カテゴリへの分類を 手動で
行うことは大変な労力が必要となります。マイクロソフト リサーチからの技術提供により開発された
カテゴリ アシスタントは、予め作成したカテゴリに対して典型的な内容を含むドキュメントをトレー
ニング サンプルとして使用し、学習を行い、その後分類されていないドキュメントを自動的に適合す
るカテゴリにカテゴライズ できます。新規で作成されたドキュメントの場合、適合するカテゴリが存
在すれば自動的にカテゴライズ可能です。カテゴリ アシスタントは、SharePoint Portal Server に格納
されたドキュメント以外にも、検索対象となる Exchange Server や ロータス ノーツ/ドミノのデータ
ベースなどのコンテンツ ソース内のドキュメントも対象に含めることができます。
TAXONOMY(コンテンツ分類学)により知的資本がさらに有効活用できる
−8−