トピックモデル解析による卒業論文傾向調査

トピックモデル解析による卒業論文傾向調査
Research on Topic Modeling
for Graduate Student Theses Corpus Analysis
認知支援システム学講座 0312012023 上野正道
指導教員: David Ramamonjisoa
1.
ⅱ.単語を生成wdn ~𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑐𝑎𝑙(𝜑𝑑𝑛 )
はじめに
図 1.1 トピックモデルの生成過程
近年，コンピューターによる文章の自動解析など，自動
化が進んできている．そこでその機械解析による調査を卒
業論文を対象として行った．卒業論文には著者の興味関心，
所属研究室の方針，その時代の流行等が現れる．そこで研
究室毎の人数，コース毎の人数，卒業生の人数等との比較
が取りやすい岩手県立大学ソフトウェア情報学部の近年
７年分のデータを用いて研究を行った．
本稿では，年度毎の論文に対してクラスタリングアルゴ
リズムを用い，重要トピックとして出力された単語と，そ
の年度の卒業生情報を用いて法則を探る．
2.
トピックモデル
文書中に存在する複数のトピックを扱う場合，混合ユニ
図 1.2 トピックモデルによる文書集合の生成例．文書
グラムモデルではトピックの組み合わせすべての単語分
ごとのトピック確率θdに従って単語のトピック(色)
布を用意する必要がある．このとき推定すべき単語分布が
を決め，そのトピックの単語分布φkに従って語彙を
膨大な数になり，適切に推定できない．この問題を解決す
決定．
るのが，一つの文章が複数のトピックを持つと仮定するト
ピックモデルである．混合ユニグラムモデルでは文書集合
全体で一つのトピック分布があったのに対し，トピックモ
デルでは文章ごとにトピック分布θd ＝(θd1 ，･･･，θdK)
がある．ここでθdk = 𝑝(𝑘|𝜃𝑑 )は文書 d の単語にトピック
3.
研究手法
本研究では，
岩手県立大学ソフトウェア情報学部の 2009
年～2014 年までの卒業論文要旨を用いて，単語毎のトピ
ックを抽出する必要がある．まず取得したデータを加工し
k が割り当てられる確率で，θdk ≧ 0, ∑𝐾
𝑘=1 𝜃𝑑𝑘 = 1 を満
解析が行える状態を作る．形態素解析1を用いて年度ごとに
たす．トピック分布θdに従い文書 d のそれぞれの単語に
仕分けした文字列データから名詞のみを抽出した文字列
トピックｚdnが割り当てられる．そして割り当てられたト
を作成する．
ピックの単語分布φz に従って単語が生成される．φk =
dn
(φk1 ，･･･，φkV )はトピックｋの単語分布を表し，φkv
＝p(v|φk)はトピック k で語彙 v が生成される確立(φkv
≧
0，∑𝑉𝑣=1 𝜑𝑘𝑣
1.
2.
= 1)を表している．
また，この条件に合うクラスタリング手法として
LDA(latent Dirichlet allocation，潜在ディレクレ配分モデ
ル)を採用した．LDA とは文書中の単語の「トピック」を
確率的に求める言語モデルである．各単語が「隠れトピッ
ク」(話題，カテゴリー)から生成されている，と想定し，
そのトピックを文書集合から教師無しで推定することが
For トピック k = 1, ･･･, K
目的である．一言で言えば，単語は独立に存在しているの
(a)単語分布を生成φk ～Dirichlet(β)
ではなく，潜在的なトピックを持ち，同じトピックを持つ
For 文書 d = 1, ･･･, D
単語は同じ文章に出現しやすい．に着目している．卒業論
(a)トピック分布を生成θd ~Dirichlet(a)
文要旨のデータは学内提出フォームから PDF ファイルを
(b)For 単語d = 1, ･･･, Nd
ⅰ.トピックを生成zdn ~𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑐𝑎𝑙(𝜃𝑑 )
1http://www4414uj.sakura.ne.jp/Yasanichi1/unicheck/
取得し学年ごとに加工を行ったものを用意した．
5.
3.1． LDA 解析
評価
今回の手法で実装を行った．結果，ある程度の意味を読
2009 年~2014 年までの卒業論文要旨を各年度毎にトピ
ックモデル解析2を行い，各項目の上位 5 個のトピックを抽
出するものとする．
み取ることができる結果を得ることができた．各年度毎の
流行などの読み取りも成功し，特に 2012 年の実行結果で
は「災害」
「非難」と言ったワードが流行として見て取れ
た．これは，2011 年 3 月の東日本大震災に由来するもの
3.2．年度毎比較
として考えられる．
抽出したトピックを元に，縦の時間軸に対する比較を行
い，各年度毎の特色を読み取る．
図 5.1. トピック解析実行結果，2012 年度の上位 5 トピッ
ク
図 3．1 実装手法の流れ
4.
仮定
この研究では，年度毎の比較による調査結果が主な成果
となる．縦の時間軸での比較を行うことにより，トピック
として上がった項目に特色が見て取れるのか，又は毎年出
てくるトピックなのかによって次の考察に移る事ができ
る筈である．例年共通のトピックであればその人の研究室
のテーマと近い分野である可能性が考えられ，また常に興
図 5.1.トピック解析実行結果 2013 年度の上位 5 トピック
6.
おわりに
味関心の高い分野の研究であるとも考えられる．逆にその
本稿では岩手県立大学卒業論文という極小規模な単位
年のみに特定の単語(トピック)発生する．もしくはその年
での研究を行った．サンプルの数や対象が毎年 150 人程度
にだけその単語(トピック)の発生頻度が増えるといった場
という事もあり，大きな規模でのサンプルデータを利用し
合は，その時期の流行や時事が関係していると予想できる．
た方がより傾向が取得しやすいと考えられる．本稿で行っ
例えば震災の翌年以降に，災害対策などのトピックが上が
た調査以外にも関連付けられる項目はいくつも存在する．
ることが考えられ，時系列順に見たときの特徴を見て取れ
それらを研究対象とすることで論文のトピックモデル解
るであろう．この仮定をまとめた表を以下にしめす．
析の法則を見つける事ができる可能性が有るものと考え
られる．
表 4.1. 比較の仮定
特異性
高い
その年の流行や時事に関わるト
ピックである
参考文献
1) 岩田具治，機械学習プロフェッショナルシリーズトピッ
クモデル，講談社，2015
低い
研究室の研究や人気の衰えない
2) 村上力，トピックモデルを用いたユーザーコメントから
トピックである
のキーコメント抽出，
平成26 年度岩手県立大学卒業論文，
2015
2
https://radimrehurek.com/gensim/

Download Report