第2話ちょっぴり本格的にテキストマイニング

連載
●
登場人物紹介
真凛（まりん）：TM研究室の真面目なアラサーリーダー。自然言語と統計
学の専門家。専門看護師の資格を持っている。
舞（まい）：ナースから研究員になったばかりの新人。おしゃべりで自由
奔放，アバウトなトラブルメーカー。時々，
「げーっ，単に面倒くさい
だけじゃん」とつぶやく。
たま
きず
忍（にん）：物静かなレディだが，細かいのが玉に瑕。仕事は完璧にこな
す努力家。周りから「細かい」「細かすぎる」と煙たがられることもあ
る。時々，舞との“細かいVSアバウト合戦”が勃発する。舞の１年先輩。
まいにん
真凛
軍（ぐん）：無口でクールだが，たまにすごいアイデアを出す。舞忍合戦
の時「どっちもどっち…引き分けだな」と判定を下す。大学時代は落
語研究会に所属。スノボ上級者。
忍
ここは，テキストマイニング・ラボ（以下，TMラボ）
。リーダー
真凛を中心に，舞，忍，軍の個性豊かなメンバーが，自然言語処理
とテキストマイニング技術の向上のため，日々，頭と手を（口も…
軍
舞
H.Lee
モグモグ♪）動かしている集団です。
さて，「『看護研究』のイメージが一変するほど面白い」と評判の
テキストマイニング。前回（本誌2016年８・９月号）は，テキスト
マイニングの基本的な流れや，どのような分析ができるのか，概要を学びました。今日は，実際にビッ
グデータを用いてテキストマイニングを行うようです。さぁ，メンバーと一緒に分析していきましょう。
ちょっぴり本格的にテキストマイニング
第２話　テキストマイニングするなら…
今でしょ
い」といった声が出るくらいに，まだまだ使い
「今でしょ」なんて，今絶対使ったらアカン
の基本的な仕組みを理解しないまま使用するこ
やつになりました。時代遅れの寒～いギャグで
とによって生じる誤解が多々あるようです。そ
すが，読者との心の距離を縮めるキッカケにな
こで今回は，適切に使用するために押さえておか
ればチョベリグ（超ベリー・グッド）です。
なければならないポイントについて解説します。
こなされていないのが現状のようです。
これらの批判の中には，テキストマイニング
あげあげ
じゃあ，今回もアゲアゲ（テンション↑↑）で
いきましょう。
SOAPのアセスメント
ところで，最近は，多くのテキストマイニン
テキストマイニングでは，文章の中にどのよ
グのソフトが発売されていますが，「期待した
うな内容が記述されていて，
「その内容が全体
結果が出ない」「辞書作りが大変」「役に立たな
として多いか少ないか」
「増加しているか減少
しているか」
「ほかの内容との関連が強いか弱
もっと知りたい！ TM
なぜ「形態素解析」と「構文解析」を
しなくてはいけないの？
文章から適切に単語の切り出しを行うのが「形態素解析」
，文
いか」という統計的な分析を行います。これは，
看護記録のSOAPの「Ａ：アセスメント」に似
ていませんか？　似ているというより，そのも
章の構造を把握し意味のつながりを発見するのが「構文解析」
のですね。特に「ことばネットワーク」は，病
です。この前処理をしておかなければ，コンピュータが元デー
態関連図を見慣れている人は取っつきやすいと
タを読み取ることができません。ですから，面倒でもやらなけ
ればいけない工程なのです。これは自動で行われますが，デー
タ量が多いと何時間も掛かる場合があります。
66
看護人材育成 Vol.13 No.４
思います。
図１●テキストマイニングの基本的な作業手順
図２●テキストマイニングの流れ
人手による文書データの準備
前処理
出力図表
１．基本情報２．係り受け頻度解析
３．ことばネットワーク
辞書の整備
分析の精度を向上させるために内
蔵されたユーザ辞書を整える
分析の実施
文書全体の特徴や言葉の関連性を
ビジュアルに表示し，視覚的に把
握する
把握したいこと
１．研究の動向２．時系列での変遷
３．新知見
マイニング
コンピュータによる
情報の整理・分析
分かち書き
文書に記述された内容をコンピュー
タが分析可能な状態にする
検索条件
１．医学中央雑誌２．検索語⇒看護
３．1987 ∼ 2015年原著標題
のだ！」という狙いをはっきりさせておかなけ
れば，どっさりと出た図表の中でアップアップ
人が考察して報告書作成
して，大変なことになりますよ。
作業の流れ（図１）
まず，元データとなるアンケートの自由記述
やインタビューの逐語録を自分で集めなければ
なりません。ここでテキストマイニングをする
のに適した分析対象をセレクトしておかなけれ
ば，最終の結果図表もありきたりのものになっ
H.Lee
てしまいます。
次の段階は，全自動でコンピュータ処理され
るので安心してください。分かち書き（自然言
語処理）と呼ばれるコンピュータが文書を読み
4 4
出力図表
出力図表だけ
で
内容を推測してみたら…
取れるように加工することから始まります。続
テキストマイニングは，途方もない膨大な文
いて，人手によるソフト内の辞書の整理です
字情報から「新たな事実や傾向」を発見する技
したごしら
が，面倒でもここで元データをきれいに下拵え
術です。試しに，次の条件で検索し，抄録を読ま
しておかなければ，マズイ結果になりかねませ
ずに出力図表だけで内容・傾向を把握してみま
ん。だから，分析のプロは，この作業に相当の
しょう（図２）
。解析には，Text Mining Studio
労力を掛けます。
バージョン6.0（NTTデータ数理システム）と，
そして，コンピュータによる作図です。どん
一部K H Coderを使用しました。
なにチョベリバ（超ベリー・バッド）なデータ
ただし，本格的に研究する場合は，研究目的
であっても，それはそれは綺麗な図が自動作成
を明確にして取り組まなければ，ゴールに辿り
されます。でも最初に，「これを明らかにする
着けませんよ。
もっと知りたい！ TM
自然言語処理
テキストマイニング
ケイエイチ
スタジオ
コダー
辞書
「形態素解析」や「構文解析」の技術のことを，
「自然言語処
もちろん，国語辞書や英和辞書のことではありません。テキ
理」と言います。最近では大いに技術が進展してきましたが，
ストマイニングでは，言葉をまとめ上げて，どのような場合で
類義処理を行うための辞書作成，意味的なまとまりを作り出す
も同じ単語として扱いたい時に，コンピュータに内蔵された
ための辞書作成といった点に，課題が残っています。また，形
「類義語辞書」という辞書を使用します。また，分析結果とし
態素解析の場合，文をどこで区切るかについては，言語学者の
て表示させたくない単語がある場合は，
「削除語辞書」を設定
考え方や使用する解析ソフトによって異なっています。
できます。
看護人材育成 Vol.13 No.４
67
もっと知りたい！ TM
4 4
声だけで誰だか分かる？
4
ビッグデータ
単に量が多いだけでなく，さまざまな種類・形式が含まれ
4
舞：真凛先生！　声だけで誰か把握するのは難
る非構造化データ・非定型的データです。日々膨大に生成・
記録される時系列性・リアルタイム性のあるようなものを指
しいですね。
真凜：そうですね。電話を使った“オレオレ詐
欺”が後を絶たないのもそうですよ。
します。今までは管理しきれなかったために見過ごされてき
たデータ群を解析することで，新たな知見を発見できる可能
性があります。
忍：それって，先週，高速道路のサービスエリ
アに立ち寄った時の話でしょ？
して，CSV形式で保存しました。その後，デー
真凜：何があったの？
タをセットして前処理を始めましたが，Text
舞：トイレの個室に入って，便座に座ろうとし
Mining Studioでは30分，KH Coderでは８分で
たら隣から「お久しぶり，元気？」って。
した。この前処理時間の差は，どこにあるので
真凜：あら，いやだ…。隣から見えてるの？
ためら
舞：どうしていいか分からなかったので，躊躇
いながら「まぁまぁ…」と答えました。
4
4
しょうか。
答えは，解析内容の差です。KH Coderは「形
態素解析」のみを行っていますが，Text Mining
真凜：声だけでは誰だか判断できないからね。
Studioでは「構文解析」までやっているので時
舞：そしたらお隣さんが，「そっかぁ…。それ
間がかかっているのです。
で今，何してるの？」って聞くんです。
「ふむふむ。なんとなく作業手順は分かったけ
真凜：それで？
れど…，具体的なイメージが沸かないなぁ…」
舞：変だなと思いましたが，
「あなたと同じよ…」っ
そんな読者の心の声が聞こえてきます。それで
て返答しました。
真凜：そうしか言えないですよね。
は，TMラボのスタッフと一緒に，実際の分析
を進めながら学んでいきましょう！
…やがて，隣が声をひそめ「後でかけ直す…。
横にいちいち返答する人がいるのよ」
道を歩いている時に「もしもし？」と声
をかけられて，「あっ，はい？」と答えな
がら声のした方を見ると，その人は電話を
していたってことありませんか？　このよ
うに，声だけで判断するのは勘違いの基で，
ちゃんと声の主を確認するのが一番です。
これと同様に，テキストマイニングで
も，出力図表からだけで判断するのは間違
いの基です。気がかりな言葉があれば，随
時「原文検索」機能を使って，内容を確認
することが大切です。
真凜：みなさん，画面１は何を表しているで
しょうか？
舞：真凛先生！　中央に表示されている基本情
報を見ると，データ数は12万6,803件です。
真凜：舞さん，それだけ？
舞：左は単語頻度解析の結果画面です。
忍：縦軸に単語が多い順に表示され，横軸がそ
の実数になります。
真凜：じゃあ忍さん，頻出単語を具体的に言っ
てください。
忍：上から，看護，患者，検討，看護師，学生
の順になっています。
ビッグデータ…なんと12万件！
真凜：では軍さん，そのほかに分かることは？
医学中央雑誌で，看護を検索語として実際に
軍：どんな単語が使われているかを見ることに
やってみると，12万6,803件ヒットしました。
68
図を眺めて，みんなでディスカッション
より，内容を大まかに把握できます。
これくらいの膨大な量になると，ビッグデータ
真凜：そうですね。
と呼ばれます。
軍：右の係り受け頻度解析が面白いです。
この29年分の抄録タイトルをダウンロード
真凜：どんなふうに？
看護人材育成 Vol.13 No.４
画面１●単語頻度解析（左）と係り受け頻度解析（右）
画面２●特徴表現抽出（1980∼1999年）
画面３●特徴表現抽出（2000∼2010年以降）
軍：何を「分析」しているかがよく分かります。
真凜：もう少し詳しく。
軍：要因，アンケート調査，自己評価，実習記
録の分析が多いですね。
真凜：そう，気になる単語があれば調べること
ができますね。画面２は？
一目瞭然ですね。右は？
軍：1990年代に入ると，
「因子・要因分析」が
増加しています。
真凜：じゃあ，画面３は？
軍：2000年代では，明らかに「要因分析」が
増えていますね。
軍：10年毎の時系列分析が見て取れます。
真凜：右は？
真凜：左から，どんな特徴が読み取れますか？
軍：2010年代から，初めて“テキストマイニ
軍：1980年代は「事故報告書」に関する標題
が多いようです。
真凜：そう，その年代に注目されていたことが
ング”が出てきました。
真凜：今後，どのような情報に着目して分析す
るかの指針を得ることができますね。
看護人材育成 Vol.13 No.４
69

Download Report