トピックモデル解析による卒業論文傾向調査 Research on Topic Modeling for Graduate Student Theses Corpus Analysis 認知支援システム学講座 0312012023 上野 正道 指導教員: David Ramamonjisoa 1. ⅱ.単語を生成wdn ~𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑐𝑎𝑙(𝜑𝑑𝑛 ) はじめに 図 1.1 トピックモデルの生成過程 近年,コンピューターによる文章の自動解析など,自動 化が進んできている.そこでその機械解析による調査を卒 業論文を対象として行った.卒業論文には著者の興味関心, 所属研究室の方針,その時代の流行等が現れる.そこで研 究室毎の人数,コース毎の人数,卒業生の人数等との比較 が取りやすい岩手県立大学ソフトウェア情報学部の近年 7年分のデータを用いて研究を行った. 本稿では,年度毎の論文に対してクラスタリングアルゴ リズムを用い,重要トピックとして出力された単語と,そ の年度の卒業生情報を用いて法則を探る. 2. トピックモデル 文書中に存在する複数のトピックを扱う場合,混合ユニ 図 1.2 トピックモデルによる文書集合の生成例.文書 グラムモデルではトピックの組み合わせすべての単語分 ごとのトピック確率θdに従って単語のトピック(色) 布を用意する必要がある.このとき推定すべき単語分布が を決め,そのトピックの単語分布φkに従って語彙を 膨大な数になり,適切に推定できない.この問題を解決す 決定. るのが,一つの文章が複数のトピックを持つと仮定するト ピックモデルである.混合ユニグラムモデルでは文書集合 全体で一つのトピック分布があったのに対し,トピックモ デルでは文章ごとにトピック分布θd =(θd1 ,・・・,θdK) がある.ここでθdk = 𝑝(𝑘|𝜃𝑑 )は文書 d の単語にトピック 3. 研究手法 本研究では, 岩手県立大学ソフトウェア情報学部の 2009 年~2014 年までの卒業論文要旨を用いて,単語毎のトピ ックを抽出する必要がある.まず取得したデータを加工し k が割り当てられる確率で,θdk ≧ 0, ∑𝐾 𝑘=1 𝜃𝑑𝑘 = 1 を満 解析が行える状態を作る.形態素解析1を用いて年度ごとに たす.トピック分布θdに従い文書 d のそれぞれの単語に 仕分けした文字列データから名詞のみを抽出した文字列 トピックzdnが割り当てられる.そして割り当てられたト を作成する. ピックの単語分布φz に従って単語が生成される.φk = dn (φk1 ,・・・,φkV )はトピックkの単語分布を表し,φkv =p(v|φk)はトピック k で語彙 v が生成される確立(φkv ≧ 0,∑𝑉𝑣=1 𝜑𝑘𝑣 1. 2. = 1)を表している. また,この条件に合うクラスタリング手法として LDA(latent Dirichlet allocation,潜在ディレクレ配分モデ ル)を採用した.LDA とは文書中の単語の「トピック」を 確率的に求める言語モデルである.各単語が「隠れトピッ ク」(話題,カテゴリー)から生成されている,と想定し, そのトピックを文書集合から教師無しで推定することが For トピック k = 1, ・・・, K 目的である.一言で言えば,単語は独立に存在しているの (a)単語分布を生成φk ~Dirichlet(β) ではなく,潜在的なトピックを持ち,同じトピックを持つ For 文書 d = 1, ・・・, D 単語は同じ文章に出現しやすい.に着目している.卒業論 (a)トピック分布を生成θd ~Dirichlet(a) 文要旨のデータは学内提出フォームから PDF ファイルを (b)For 単語d = 1, ・・・, Nd ⅰ.トピックを生成zdn ~𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑐𝑎𝑙(𝜃𝑑 ) 1http://www4414uj.sakura.ne.jp/Yasanichi1/unicheck/ 取得し学年ごとに加工を行ったものを用意した. 5. 3.1. LDA 解析 評価 今回の手法で実装を行った.結果,ある程度の意味を読 2009 年~2014 年までの卒業論文要旨を各年度毎にトピ ックモデル解析2を行い,各項目の上位 5 個のトピックを抽 出するものとする. み取ることができる結果を得ることができた.各年度毎の 流行などの読み取りも成功し,特に 2012 年の実行結果で は「災害」 「非難」と言ったワードが流行として見て取れ た.これは,2011 年 3 月の東日本大震災に由来するもの 3.2.年度毎比較 として考えられる. 抽出したトピックを元に,縦の時間軸に対する比較を行 い,各年度毎の特色を読み取る. 図 5.1. トピック解析実行結果,2012 年度の上位 5 トピッ ク 図 3.1 実装手法の流れ 4. 仮定 この研究では,年度毎の比較による調査結果が主な成果 となる.縦の時間軸での比較を行うことにより,トピック として上がった項目に特色が見て取れるのか,又は毎年出 てくるトピックなのかによって次の考察に移る事ができ る筈である.例年共通のトピックであればその人の研究室 のテーマと近い分野である可能性が考えられ,また常に興 図 5.1.トピック解析実行結果 2013 年度の上位 5 トピック 6. おわりに 味関心の高い分野の研究であるとも考えられる.逆にその 本稿では岩手県立大学卒業論文という極小規模な単位 年のみに特定の単語(トピック)発生する.もしくはその年 での研究を行った.サンプルの数や対象が毎年 150 人程度 にだけその単語(トピック)の発生頻度が増えるといった場 という事もあり,大きな規模でのサンプルデータを利用し 合は,その時期の流行や時事が関係していると予想できる. た方がより傾向が取得しやすいと考えられる.本稿で行っ 例えば震災の翌年以降に,災害対策などのトピックが上が た調査以外にも関連付けられる項目はいくつも存在する. ることが考えられ,時系列順に見たときの特徴を見て取れ それらを研究対象とすることで論文のトピックモデル解 るであろう.この仮定をまとめた表を以下にしめす. 析の法則を見つける事ができる可能性が有るものと考え られる. 表 4.1. 比較の仮定 特異性 高い その年の流行や時事に関わるト ピックである 参考文献 1) 岩田具治,機械学習プロフェッショナルシリーズトピッ クモデル,講談社,2015 低い 研究室の研究や人気の衰えない 2) 村上力,トピックモデルを用いたユーザーコメントから トピックである のキーコメント抽出, 平成26 年度岩手県立大学卒業論文, 2015 2 https://radimrehurek.com/gensim/
© Copyright 2024 Paperzz