連載 ● 登場人物紹介 真凛(まりん):TM研究室の真面目なアラサーリーダー。自然言語と統計 学の専門家。専門看護師の資格を持っている。 舞(まい):ナースから研究員になったばかりの新人。おしゃべりで自由 奔放,アバウトなトラブルメーカー。時々, 「げーっ,単に面倒くさい だけじゃん」とつぶやく。 たま きず 忍(にん):物静かなレディだが,細かいのが玉に瑕。仕事は完璧にこな す努力家。周りから「細かい」「細かすぎる」と煙たがられることもあ る。時々,舞との“細かいVSアバウト合戦”が勃発する。舞の1年先輩。 まい にん 真凛 軍(ぐん):無口でクールだが,たまにすごいアイデアを出す。舞忍合戦 の時「どっちもどっち…引き分けだな」と判定を下す。大学時代は落 語研究会に所属。スノボ上級者。 忍 ここは,テキストマイニング・ラボ(以下,TMラボ) 。リーダー 真凛を中心に,舞,忍,軍の個性豊かなメンバーが,自然言語処理 とテキストマイニング技術の向上のため,日々,頭と手を(口も… 軍 舞 H.Lee モグモグ♪)動かしている集団です。 さて,「『看護研究』のイメージが一変するほど面白い」と評判の テキストマイニング。前回(本誌2016年8・9月号)は,テキスト マイニングの基本的な流れや,どのような分析ができるのか,概要を学びました。今日は,実際にビッ グデータを用いてテキストマイニングを行うようです。さぁ,メンバーと一緒に分析していきましょう。 ちょっぴり本格的にテキストマイニング 第2話 テキストマイニングするなら… 今でしょ い」といった声が出るくらいに,まだまだ使い 「今でしょ」なんて,今絶対使ったらアカン の基本的な仕組みを理解しないまま使用するこ やつになりました。時代遅れの寒~いギャグで とによって生じる誤解が多々あるようです。そ すが,読者との心の距離を縮めるキッカケにな こで今回は,適切に使用するために押さえておか ればチョベリグ(超ベリー・グッド)です。 なければならないポイントについて解説します。 こなされていないのが現状のようです。 これらの批判の中には,テキストマイニング あげあげ じゃあ,今回もアゲアゲ(テンション↑↑)で いきましょう。 SOAPのアセスメント ところで,最近は,多くのテキストマイニン テキストマイニングでは,文章の中にどのよ グのソフトが発売されていますが,「期待した うな内容が記述されていて, 「その内容が全体 結果が出ない」「辞書作りが大変」「役に立たな として多いか少ないか」 「増加しているか減少 しているか」 「ほかの内容との関連が強いか弱 もっと知りたい! TM なぜ「形態素解析」と「構文解析」を しなくてはいけないの? 文章から適切に単語の切り出しを行うのが「形態素解析」 ,文 いか」という統計的な分析を行います。これは, 看護記録のSOAPの「A:アセスメント」に似 ていませんか? 似ているというより,そのも 章の構造を把握し意味のつながりを発見するのが「構文解析」 のですね。特に「ことばネットワーク」は,病 です。この前処理をしておかなければ,コンピュータが元デー 態関連図を見慣れている人は取っつきやすいと タを読み取ることができません。ですから,面倒でもやらなけ ればいけない工程なのです。これは自動で行われますが,デー タ量が多いと何時間も掛かる場合があります。 66 看護人材育成 Vol.13 No.4 思います。 図1●テキストマイニングの基本的な作業手順 図2●テキストマイニングの流れ 人手による文書データの準備 前処理 出力図表 1.基本情報 2.係り受け頻度解析 3.ことばネットワーク 辞書の整備 分析の精度を向上させるために内 蔵されたユーザ辞書を整える 分析の実施 文書全体の特徴や言葉の関連性を ビジュアルに表示し,視覚的に把 握する 把握したいこと 1.研究の動向 2.時系列での変遷 3.新知見 マイニング コンピュータによる 情報の整理・分析 分かち書き 文書に記述された内容をコンピュー タが分析可能な状態にする 検索条件 1.医学中央雑誌 2.検索語⇒看護 3.1987 ∼ 2015年原著標題 のだ!」という狙いをはっきりさせておかなけ れば,どっさりと出た図表の中でアップアップ 人が考察して報告書作成 して,大変なことになりますよ。 作業の流れ(図1) まず,元データとなるアンケートの自由記述 やインタビューの逐語録を自分で集めなければ なりません。ここでテキストマイニングをする のに適した分析対象をセレクトしておかなけれ ば,最終の結果図表もありきたりのものになっ H.Lee てしまいます。 次の段階は,全自動でコンピュータ処理され るので安心してください。分かち書き(自然言 語処理)と呼ばれるコンピュータが文書を読み 4 4 出力図表 出力図表だけ で 内容を推測してみたら… 取れるように加工することから始まります。続 テキストマイニングは,途方もない膨大な文 いて,人手によるソフト内の辞書の整理です 字情報から「新たな事実や傾向」を発見する技 したごしら が,面倒でもここで元データをきれいに下拵え 術です。試しに,次の条件で検索し,抄録を読ま しておかなければ,マズイ結果になりかねませ ずに出力図表だけで内容・傾向を把握してみま ん。だから,分析のプロは,この作業に相当の しょう(図2) 。解析には,Text Mining Studio 労力を掛けます。 バージョン6.0(NTTデータ数理システム)と, そして,コンピュータによる作図です。どん 一部K H Coderを使用しました。 なにチョベリバ(超ベリー・バッド)なデータ ただし,本格的に研究する場合は,研究目的 であっても,それはそれは綺麗な図が自動作成 を明確にして取り組まなければ,ゴールに辿り されます。でも最初に,「これを明らかにする 着けませんよ。 もっと知りたい! TM 自然言語処理 テキスト マ イ ニ ン グ ケイエイチ スタジオ コ ダ ー 辞書 「形態素解析」や「構文解析」の技術のことを, 「自然言語処 もちろん,国語辞書や英和辞書のことではありません。テキ 理」と言います。最近では大いに技術が進展してきましたが, ストマイニングでは,言葉をまとめ上げて,どのような場合で 類義処理を行うための辞書作成,意味的なまとまりを作り出す も同じ単語として扱いたい時に,コンピュータに内蔵された ための辞書作成といった点に,課題が残っています。また,形 「類義語辞書」という辞書を使用します。また,分析結果とし 態素解析の場合,文をどこで区切るかについては,言語学者の て表示させたくない単語がある場合は, 「削除語辞書」を設定 考え方や使用する解析ソフトによって異なっています。 できます。 看護人材育成 Vol.13 No.4 67 もっと知りたい! TM 4 4 声だけで誰だか分かる? 4 ビッグデータ 単に量が多いだけでなく,さまざまな種類・形式が含まれ 4 舞:真凛先生! 声だけで誰か把握するのは難 る非構造化データ・非定型的データです。日々膨大に生成・ 記録される時系列性・リアルタイム性のあるようなものを指 しいですね。 真凜:そうですね。電話を使った“オレオレ詐 欺”が後を絶たないのもそうですよ。 します。今までは管理しきれなかったために見過ごされてき たデータ群を解析することで,新たな知見を発見できる可能 性があります。 忍:それって,先週,高速道路のサービスエリ アに立ち寄った時の話でしょ? して,CSV形式で保存しました。その後,デー 真凜:何があったの? タをセットして前処理を始めましたが,Text 舞:トイレの個室に入って,便座に座ろうとし Mining Studioでは30分,KH Coderでは8分で たら隣から「お久しぶり,元気?」って。 した。この前処理時間の差は,どこにあるので 真凜:あら,いやだ…。隣から見えてるの? ためら 舞:どうしていいか分からなかったので,躊躇 いながら「まぁまぁ…」と答えました。 4 4 しょうか。 答えは,解析内容の差です。KH Coderは「形 態素解析」のみを行っていますが,Text Mining 真凜:声だけでは誰だか判断できないからね。 Studioでは「構文解析」までやっているので時 舞:そしたらお隣さんが,「そっかぁ…。それ 間がかかっているのです。 で今,何してるの?」って聞くんです。 「ふむふむ。なんとなく作業手順は分かったけ 真凜:それで? れど…,具体的なイメージが沸かないなぁ…」 舞:変だなと思いましたが, 「あなたと同じよ…」っ そんな読者の心の声が聞こえてきます。それで て返答しました。 真凜:そうしか言えないですよね。 は,TMラボのスタッフと一緒に,実際の分析 を進めながら学んでいきましょう! …やがて,隣が声をひそめ「後でかけ直す…。 横にいちいち返答する人がいるのよ」 道を歩いている時に「もしもし?」と声 をかけられて,「あっ,はい?」と答えな がら声のした方を見ると,その人は電話を していたってことありませんか? このよ うに,声だけで判断するのは勘違いの基で, ちゃんと声の主を確認するのが一番です。 これと同様に,テキストマイニングで も,出力図表からだけで判断するのは間違 いの基です。気がかりな言葉があれば,随 時「原文検索」機能を使って,内容を確認 することが大切です。 真凜:みなさん,画面1は何を表しているで しょうか? 舞:真凛先生! 中央に表示されている基本情 報を見ると,データ数は12万6,803件です。 真凜:舞さん,それだけ? 舞:左は単語頻度解析の結果画面です。 忍:縦軸に単語が多い順に表示され,横軸がそ の実数になります。 真凜:じゃあ忍さん,頻出単語を具体的に言っ てください。 忍:上から,看護,患者,検討,看護師,学生 の順になっています。 ビッグデータ…なんと12万件! 真凜:では軍さん,そのほかに分かることは? 医学中央雑誌で,看護を検索語として実際に 軍:どんな単語が使われているかを見ることに やってみると,12万6,803件ヒットしました。 68 図を眺めて,みんなでディスカッション より,内容を大まかに把握できます。 これくらいの膨大な量になると,ビッグデータ 真凜:そうですね。 と呼ばれます。 軍:右の係り受け頻度解析が面白いです。 この29年分の抄録タイトルをダウンロード 真凜:どんなふうに? 看護人材育成 Vol.13 No.4 画面1●単語頻度解析(左)と係り受け頻度解析(右) 画面2●特徴表現抽出(1980∼1999年) 画面3●特徴表現抽出(2000∼2010年以降) 軍:何を「分析」しているかがよく分かります。 真凜:もう少し詳しく。 軍:要因,アンケート調査,自己評価,実習記 録の分析が多いですね。 真凜:そう,気になる単語があれば調べること ができますね。画面2は? 一目瞭然ですね。右は? 軍:1990年代に入ると, 「因子・要因分析」が 増加しています。 真凜:じゃあ,画面3は? 軍:2000年代では,明らかに「要因分析」が 増えていますね。 軍:10年毎の時系列分析が見て取れます。 真凜:右は? 真凜:左から,どんな特徴が読み取れますか? 軍:2010年代から,初めて“テキストマイニ 軍:1980年代は「事故報告書」に関する標題 が多いようです。 真凜:そう,その年代に注目されていたことが ング”が出てきました。 真凜:今後,どのような情報に着目して分析す るかの指針を得ることができますね。 看護人材育成 Vol.13 No.4 69
© Copyright 2024 Paperzz