第2話 ちょっぴり本格的にテキストマイニング

連載
●
登場人物紹介
真凛(まりん):TM研究室の真面目なアラサーリーダー。自然言語と統計
学の専門家。専門看護師の資格を持っている。
舞(まい):ナースから研究員になったばかりの新人。おしゃべりで自由
奔放,アバウトなトラブルメーカー。時々,
「げーっ,単に面倒くさい
だけじゃん」とつぶやく。
たま
きず
忍(にん):物静かなレディだが,細かいのが玉に瑕。仕事は完璧にこな
す努力家。周りから「細かい」「細かすぎる」と煙たがられることもあ
る。時々,舞との“細かいVSアバウト合戦”が勃発する。舞の1年先輩。
まい にん
真凛
軍(ぐん):無口でクールだが,たまにすごいアイデアを出す。舞忍合戦
の時「どっちもどっち…引き分けだな」と判定を下す。大学時代は落
語研究会に所属。スノボ上級者。
忍
ここは,テキストマイニング・ラボ(以下,TMラボ)
。リーダー
真凛を中心に,舞,忍,軍の個性豊かなメンバーが,自然言語処理
とテキストマイニング技術の向上のため,日々,頭と手を(口も…
軍
舞
H.Lee
モグモグ♪)動かしている集団です。
さて,「『看護研究』のイメージが一変するほど面白い」と評判の
テキストマイニング。前回(本誌2016年8・9月号)は,テキスト
マイニングの基本的な流れや,どのような分析ができるのか,概要を学びました。今日は,実際にビッ
グデータを用いてテキストマイニングを行うようです。さぁ,メンバーと一緒に分析していきましょう。
ちょっぴり本格的にテキストマイニング
第2話 テキストマイニングするなら…
今でしょ
い」といった声が出るくらいに,まだまだ使い
「今でしょ」なんて,今絶対使ったらアカン
の基本的な仕組みを理解しないまま使用するこ
やつになりました。時代遅れの寒~いギャグで
とによって生じる誤解が多々あるようです。そ
すが,読者との心の距離を縮めるキッカケにな
こで今回は,適切に使用するために押さえておか
ればチョベリグ(超ベリー・グッド)です。
なければならないポイントについて解説します。
こなされていないのが現状のようです。
これらの批判の中には,テキストマイニング
あげあげ
じゃあ,今回もアゲアゲ(テンション↑↑)で
いきましょう。
SOAPのアセスメント
ところで,最近は,多くのテキストマイニン
テキストマイニングでは,文章の中にどのよ
グのソフトが発売されていますが,「期待した
うな内容が記述されていて,
「その内容が全体
結果が出ない」「辞書作りが大変」「役に立たな
として多いか少ないか」
「増加しているか減少
しているか」
「ほかの内容との関連が強いか弱
もっと知りたい! TM
なぜ「形態素解析」と「構文解析」を
しなくてはいけないの?
文章から適切に単語の切り出しを行うのが「形態素解析」
,文
いか」という統計的な分析を行います。これは,
看護記録のSOAPの「A:アセスメント」に似
ていませんか? 似ているというより,そのも
章の構造を把握し意味のつながりを発見するのが「構文解析」
のですね。特に「ことばネットワーク」は,病
です。この前処理をしておかなければ,コンピュータが元デー
態関連図を見慣れている人は取っつきやすいと
タを読み取ることができません。ですから,面倒でもやらなけ
ればいけない工程なのです。これは自動で行われますが,デー
タ量が多いと何時間も掛かる場合があります。
66
看護人材育成 Vol.13 No.4
思います。
図1●テキストマイニングの基本的な作業手順
図2●テキストマイニングの流れ
人手による文書データの準備
前処理
出力図表
1.基本情報 2.係り受け頻度解析
3.ことばネットワーク
辞書の整備
分析の精度を向上させるために内
蔵されたユーザ辞書を整える
分析の実施
文書全体の特徴や言葉の関連性を
ビジュアルに表示し,視覚的に把
握する
把握したいこと
1.研究の動向 2.時系列での変遷
3.新知見
マイニング
コンピュータによる
情報の整理・分析
分かち書き
文書に記述された内容をコンピュー
タが分析可能な状態にする
検索条件
1.医学中央雑誌 2.検索語⇒看護
3.1987 ∼ 2015年原著標題
のだ!」という狙いをはっきりさせておかなけ
れば,どっさりと出た図表の中でアップアップ
人が考察して報告書作成
して,大変なことになりますよ。
作業の流れ(図1)
まず,元データとなるアンケートの自由記述
やインタビューの逐語録を自分で集めなければ
なりません。ここでテキストマイニングをする
のに適した分析対象をセレクトしておかなけれ
ば,最終の結果図表もありきたりのものになっ
H.Lee
てしまいます。
次の段階は,全自動でコンピュータ処理され
るので安心してください。分かち書き(自然言
語処理)と呼ばれるコンピュータが文書を読み
4 4
出力図表
出力図表だけ
で
内容を推測してみたら…
取れるように加工することから始まります。続
テキストマイニングは,途方もない膨大な文
いて,人手によるソフト内の辞書の整理です
字情報から「新たな事実や傾向」を発見する技
したごしら
が,面倒でもここで元データをきれいに下拵え
術です。試しに,次の条件で検索し,抄録を読ま
しておかなければ,マズイ結果になりかねませ
ずに出力図表だけで内容・傾向を把握してみま
ん。だから,分析のプロは,この作業に相当の
しょう(図2)
。解析には,Text Mining Studio
労力を掛けます。
バージョン6.0(NTTデータ数理システム)と,
そして,コンピュータによる作図です。どん
一部K H Coderを使用しました。
なにチョベリバ(超ベリー・バッド)なデータ
ただし,本格的に研究する場合は,研究目的
であっても,それはそれは綺麗な図が自動作成
を明確にして取り組まなければ,ゴールに辿り
されます。でも最初に,「これを明らかにする
着けませんよ。
もっと知りたい! TM
自然言語処理
テキスト マ イ ニ ン グ
ケイエイチ
スタジオ
コ ダ ー
辞書
「形態素解析」や「構文解析」の技術のことを,
「自然言語処
もちろん,国語辞書や英和辞書のことではありません。テキ
理」と言います。最近では大いに技術が進展してきましたが,
ストマイニングでは,言葉をまとめ上げて,どのような場合で
類義処理を行うための辞書作成,意味的なまとまりを作り出す
も同じ単語として扱いたい時に,コンピュータに内蔵された
ための辞書作成といった点に,課題が残っています。また,形
「類義語辞書」という辞書を使用します。また,分析結果とし
態素解析の場合,文をどこで区切るかについては,言語学者の
て表示させたくない単語がある場合は,
「削除語辞書」を設定
考え方や使用する解析ソフトによって異なっています。
できます。
看護人材育成 Vol.13 No.4
67
もっと知りたい! TM
4 4
声だけで誰だか分かる?
4
ビッグデータ
単に量が多いだけでなく,さまざまな種類・形式が含まれ
4
舞:真凛先生! 声だけで誰か把握するのは難
る非構造化データ・非定型的データです。日々膨大に生成・
記録される時系列性・リアルタイム性のあるようなものを指
しいですね。
真凜:そうですね。電話を使った“オレオレ詐
欺”が後を絶たないのもそうですよ。
します。今までは管理しきれなかったために見過ごされてき
たデータ群を解析することで,新たな知見を発見できる可能
性があります。
忍:それって,先週,高速道路のサービスエリ
アに立ち寄った時の話でしょ?
して,CSV形式で保存しました。その後,デー
真凜:何があったの?
タをセットして前処理を始めましたが,Text
舞:トイレの個室に入って,便座に座ろうとし
Mining Studioでは30分,KH Coderでは8分で
たら隣から「お久しぶり,元気?」って。
した。この前処理時間の差は,どこにあるので
真凜:あら,いやだ…。隣から見えてるの?
ためら
舞:どうしていいか分からなかったので,躊躇
いながら「まぁまぁ…」と答えました。
4
4
しょうか。
答えは,解析内容の差です。KH Coderは「形
態素解析」のみを行っていますが,Text Mining
真凜:声だけでは誰だか判断できないからね。
Studioでは「構文解析」までやっているので時
舞:そしたらお隣さんが,「そっかぁ…。それ
間がかかっているのです。
で今,何してるの?」って聞くんです。
「ふむふむ。なんとなく作業手順は分かったけ
真凜:それで?
れど…,具体的なイメージが沸かないなぁ…」
舞:変だなと思いましたが,
「あなたと同じよ…」っ
そんな読者の心の声が聞こえてきます。それで
て返答しました。
真凜:そうしか言えないですよね。
は,TMラボのスタッフと一緒に,実際の分析
を進めながら学んでいきましょう!
…やがて,隣が声をひそめ「後でかけ直す…。
横にいちいち返答する人がいるのよ」
道を歩いている時に「もしもし?」と声
をかけられて,「あっ,はい?」と答えな
がら声のした方を見ると,その人は電話を
していたってことありませんか? このよ
うに,声だけで判断するのは勘違いの基で,
ちゃんと声の主を確認するのが一番です。
これと同様に,テキストマイニングで
も,出力図表からだけで判断するのは間違
いの基です。気がかりな言葉があれば,随
時「原文検索」機能を使って,内容を確認
することが大切です。
真凜:みなさん,画面1は何を表しているで
しょうか?
舞:真凛先生! 中央に表示されている基本情
報を見ると,データ数は12万6,803件です。
真凜:舞さん,それだけ?
舞:左は単語頻度解析の結果画面です。
忍:縦軸に単語が多い順に表示され,横軸がそ
の実数になります。
真凜:じゃあ忍さん,頻出単語を具体的に言っ
てください。
忍:上から,看護,患者,検討,看護師,学生
の順になっています。
ビッグデータ…なんと12万件!
真凜:では軍さん,そのほかに分かることは?
医学中央雑誌で,看護を検索語として実際に
軍:どんな単語が使われているかを見ることに
やってみると,12万6,803件ヒットしました。
68
図を眺めて,みんなでディスカッション
より,内容を大まかに把握できます。
これくらいの膨大な量になると,ビッグデータ
真凜:そうですね。
と呼ばれます。
軍:右の係り受け頻度解析が面白いです。
この29年分の抄録タイトルをダウンロード
真凜:どんなふうに?
看護人材育成 Vol.13 No.4
画面1●単語頻度解析(左)と係り受け頻度解析(右)
画面2●特徴表現抽出(1980∼1999年)
画面3●特徴表現抽出(2000∼2010年以降)
軍:何を「分析」しているかがよく分かります。
真凜:もう少し詳しく。
軍:要因,アンケート調査,自己評価,実習記
録の分析が多いですね。
真凜:そう,気になる単語があれば調べること
ができますね。画面2は?
一目瞭然ですね。右は?
軍:1990年代に入ると,
「因子・要因分析」が
増加しています。
真凜:じゃあ,画面3は?
軍:2000年代では,明らかに「要因分析」が
増えていますね。
軍:10年毎の時系列分析が見て取れます。
真凜:右は?
真凜:左から,どんな特徴が読み取れますか?
軍:2010年代から,初めて“テキストマイニ
軍:1980年代は「事故報告書」に関する標題
が多いようです。
真凜:そう,その年代に注目されていたことが
ング”が出てきました。
真凜:今後,どのような情報に着目して分析す
るかの指針を得ることができますね。
看護人材育成 Vol.13 No.4
69