トピックモデル解析による卒業論文傾向調査

トピックモデル解析による卒業論文傾向調査
Research on Topic Modeling
for Graduate Student Theses Corpus Analysis
認知支援システム学講座 0312012023 上野 正道
指導教員: David Ramamonjisoa
1.
ⅱ.単語を生成wdn ~𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑐𝑎𝑙(𝜑𝑑𝑛 )
はじめに
図 1.1 トピックモデルの生成過程
近年,コンピューターによる文章の自動解析など,自動
化が進んできている.そこでその機械解析による調査を卒
業論文を対象として行った.卒業論文には著者の興味関心,
所属研究室の方針,その時代の流行等が現れる.そこで研
究室毎の人数,コース毎の人数,卒業生の人数等との比較
が取りやすい岩手県立大学ソフトウェア情報学部の近年
7年分のデータを用いて研究を行った.
本稿では,年度毎の論文に対してクラスタリングアルゴ
リズムを用い,重要トピックとして出力された単語と,そ
の年度の卒業生情報を用いて法則を探る.
2.
トピックモデル
文書中に存在する複数のトピックを扱う場合,混合ユニ
図 1.2 トピックモデルによる文書集合の生成例.文書
グラムモデルではトピックの組み合わせすべての単語分
ごとのトピック確率θdに従って単語のトピック(色)
布を用意する必要がある.このとき推定すべき単語分布が
を決め,そのトピックの単語分布φkに従って語彙を
膨大な数になり,適切に推定できない.この問題を解決す
決定.
るのが,一つの文章が複数のトピックを持つと仮定するト
ピックモデルである.混合ユニグラムモデルでは文書集合
全体で一つのトピック分布があったのに対し,トピックモ
デルでは文章ごとにトピック分布θd =(θd1 ,・・・,θdK)
がある.ここでθdk = 𝑝(𝑘|𝜃𝑑 )は文書 d の単語にトピック
3.
研究手法
本研究では,
岩手県立大学ソフトウェア情報学部の 2009
年~2014 年までの卒業論文要旨を用いて,単語毎のトピ
ックを抽出する必要がある.まず取得したデータを加工し
k が割り当てられる確率で,θdk ≧ 0, ∑𝐾
𝑘=1 𝜃𝑑𝑘 = 1 を満
解析が行える状態を作る.形態素解析1を用いて年度ごとに
たす.トピック分布θdに従い文書 d のそれぞれの単語に
仕分けした文字列データから名詞のみを抽出した文字列
トピックzdnが割り当てられる.そして割り当てられたト
を作成する.
ピックの単語分布φz に従って単語が生成される.φk =
dn
(φk1 ,・・・,φkV )はトピックkの単語分布を表し,φkv
=p(v|φk)はトピック k で語彙 v が生成される確立(φkv
≧
0,∑𝑉𝑣=1 𝜑𝑘𝑣
1.
2.
= 1)を表している.
また,この条件に合うクラスタリング手法として
LDA(latent Dirichlet allocation,潜在ディレクレ配分モデ
ル)を採用した.LDA とは文書中の単語の「トピック」を
確率的に求める言語モデルである.各単語が「隠れトピッ
ク」(話題,カテゴリー)から生成されている,と想定し,
そのトピックを文書集合から教師無しで推定することが
For トピック k = 1, ・・・, K
目的である.一言で言えば,単語は独立に存在しているの
(a)単語分布を生成φk ~Dirichlet(β)
ではなく,潜在的なトピックを持ち,同じトピックを持つ
For 文書 d = 1, ・・・, D
単語は同じ文章に出現しやすい.に着目している.卒業論
(a)トピック分布を生成θd ~Dirichlet(a)
文要旨のデータは学内提出フォームから PDF ファイルを
(b)For 単語d = 1, ・・・, Nd
ⅰ.トピックを生成zdn ~𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑐𝑎𝑙(𝜃𝑑 )
1http://www4414uj.sakura.ne.jp/Yasanichi1/unicheck/
取得し学年ごとに加工を行ったものを用意した.
5.
3.1. LDA 解析
評価
今回の手法で実装を行った.結果,ある程度の意味を読
2009 年~2014 年までの卒業論文要旨を各年度毎にトピ
ックモデル解析2を行い,各項目の上位 5 個のトピックを抽
出するものとする.
み取ることができる結果を得ることができた.各年度毎の
流行などの読み取りも成功し,特に 2012 年の実行結果で
は「災害」
「非難」と言ったワードが流行として見て取れ
た.これは,2011 年 3 月の東日本大震災に由来するもの
3.2.年度毎比較
として考えられる.
抽出したトピックを元に,縦の時間軸に対する比較を行
い,各年度毎の特色を読み取る.
図 5.1. トピック解析実行結果,2012 年度の上位 5 トピッ
ク
図 3.1 実装手法の流れ
4.
仮定
この研究では,年度毎の比較による調査結果が主な成果
となる.縦の時間軸での比較を行うことにより,トピック
として上がった項目に特色が見て取れるのか,又は毎年出
てくるトピックなのかによって次の考察に移る事ができ
る筈である.例年共通のトピックであればその人の研究室
のテーマと近い分野である可能性が考えられ,また常に興
図 5.1.トピック解析実行結果 2013 年度の上位 5 トピック
6.
おわりに
味関心の高い分野の研究であるとも考えられる.逆にその
本稿では岩手県立大学卒業論文という極小規模な単位
年のみに特定の単語(トピック)発生する.もしくはその年
での研究を行った.サンプルの数や対象が毎年 150 人程度
にだけその単語(トピック)の発生頻度が増えるといった場
という事もあり,大きな規模でのサンプルデータを利用し
合は,その時期の流行や時事が関係していると予想できる.
た方がより傾向が取得しやすいと考えられる.本稿で行っ
例えば震災の翌年以降に,災害対策などのトピックが上が
た調査以外にも関連付けられる項目はいくつも存在する.
ることが考えられ,時系列順に見たときの特徴を見て取れ
それらを研究対象とすることで論文のトピックモデル解
るであろう.この仮定をまとめた表を以下にしめす.
析の法則を見つける事ができる可能性が有るものと考え
られる.
表 4.1. 比較の仮定
特異性
高い
その年の流行や時事に関わるト
ピックである
参考文献
1) 岩田具治,機械学習プロフェッショナルシリーズトピッ
クモデル,講談社,2015
低い
研究室の研究や人気の衰えない
2) 村上力,トピックモデルを用いたユーザーコメントから
トピックである
のキーコメント抽出,
平成26 年度岩手県立大学卒業論文,
2015
2
https://radimrehurek.com/gensim/