Vol.2016-CSEC-75 No.5 2016/12/1 情報処理学会研究報告 IPSJ SIG Technical Report 物体のサイズ感を利用した 3DCG 画像 CAPTCHA の検討西原大貴1,a) 新井イスマイル2 概要：人間特有の「常識からの逸脱を認識する能力」として，2 つの 3 次元 (3D) オブジェクトのめり込みを検出できる能力に着目した既存研究の 3DCG 画像 CAPTCHA は，CAPTCHA に要求される 3 要件「利便性」「安全性」「自動生成性」を満たすとされたが，輪郭抽出技術の応用などによって機械が解読できる可能性がある．これに対し，本研究では，「常識からの逸脱を認識する能力」として，特定の 3D オブジェクトのサイズ感が周囲と異なる場合に違和感を覚える能力に着目した CAPTCHA を提案する．その利便性および安全性について検証を行った結果，利便性のうち回答時間は既存研究に劣らないことが期待できる一方で，正答率は使用するオブジェクトの組み合わせに大きく左右されることが分かった．また，総当たり攻撃への安全性は，CAPTCHA 画像 1 枚のみの出題では十分に確保されにくく，既存研究と同様に複数回出題するなどの検討が必要であるという結果を得た．キーワード：ネットワークセキュリティ，CAPTCHA，サイズ感，3 次元コンピュータグラフィックス 1. はじめにれる [2]．これに対し，我々は「サイズ感」に着目することで，輪郭抽出技術などにより各オブジェクトの形状や名 Web サービスに対する，自動プログラムを用いた機械攻称が限定されたとしても容易には解読されないと期待で撃を防ぐ技術の一つとして，CAPTCHA(Completely Auto- きる手法を提案する．本稿では，提案手法の利便性および mated Public Turing test to tell Computers and Humans 総当たり攻撃に対する安全性を検証し，今後の方針を検討 Apart) と呼ばれる人間か機械かを識別するテストが利用する．検証の結果として，利便性のうちユーザの回答時間されている．それらのうち文字判別型 CAPTCHA は現在は平均 5.4 秒，正答率は平均 65.4%であった．文字判別型広く利用されているが，近年では OCR(Optical Character CAPTCHA の回答時間が 12 秒，正答率が 92%である [3] Recognition) 技術の発展などにより，機械攻撃によって破ことを鑑みれば，提案手法は利便性の向上が期待できる一られる可能性が高まってきた．すなわち，CAPTCHA は，方で，正答率が低下したためオブジェクトの選定に配慮が人間にとって解読しやすいこと (利便性) の他に，機械攻必要であることが確認された．また，総当たり攻撃への安撃耐性 (安全性) が確保されている必要がある．一方で，全性は，CAPTCHA 画像 1 枚のみの出題では十分に確保 CAPTHCA には，出題が自動生成可能である (自動生成されにくく，非現実画像 CAPTCHA と同様に複数回出題性) という要求も存在する [1]．これを満たさない場合，出するなどの検討が必要であるという結果を得た．題の総数は有限となり，データベースを参照する機械攻撃が予測される．従って，CAPTHCA にはこれらの 3 要件 2. 関連研究が要求される．文字判別型 CAPTCHA は，図 1*1 のように歪ませた文これを満たす既存研究として藤田らは，常識的な形状を字列画像の文字列をユーザが読み取り，テキストとして入した異なる 2 つの 3 次元オブジェクトをマージしてめり力するものである．自動生成が可能であり，かつ機械攻撃込ませることで生成した非現実オブジェクトをユーザに耐性に優れていたため，現在に至るまで多くの Web サービ選択させる 3DCG 画像 CAPTCHA 手法 (以下，非現実画スで利用されてきたが，近年では OCR(Optical Character 像 CAPTCHA) を提案した [1]．しかしながら，輪郭抽出 Recognition) 技術の発展により機械攻撃によって破られつ技術を応用した機械攻撃により破られる可能性が考えらつある．この問題を解決するため，以下に挙げるような様々な 1 2 a) 明石工業高等専門学校電気情報工学科奈良先端科学技術大学院大学総合情報基盤センター [email protected] ⓒ 2016 Information Processing Society of Japan 手法が提案されてきた．文字判別型 CAPTCHA を含めた *1 https://auth.sso.biglobe.ne.jp/mail/ 1 Vol.2016-CSEC-75 No.5 2016/12/1 情報処理学会研究報告 IPSJ SIG Technical Report 図 1 表 1 文字判別型 CAPTCHA 既存手法の 3 要件に対する評価安全性利便性自動生成文字判別型 △ ⃝ ⃝ Assira × ⃝ △ 4 コマ漫画 × △ × 2 枚画像 ⃝ △ ⃝ 非現実画像 △ ⃝ ⃝ 図 2 非現実オブジェクトを選択する「非現実画像 CAPTCHA」各々の手法について，著者が 3 要件への評価を行い，高い順に ⃝△× で表したものを表 1 に示す．有の高度な認知能力であることに着目し，2 体の 3D オブジェクト同士をめり込ませて生成した新しいオブジェクト 2.1 Assira (非現実オブジェクト) をユーザに選択させる非現実画像「Assira」[4] は，12 枚の犬と猫の画像から，猫をすべて CAPTCHA を提案した．具体的には，図 2 に示すような選択させることで，ユーザが人間であるとする CAPTCHA 画像をユーザに出題し，複数の 3D オブジェクトの中に配である．猫の絵を認知する能力は人間の高度な認知能力で置された 1 体の非現実オブジェクトをクリックさせる．こあり，機械による突破は難しいと考えられていたが，2 クれは，3DCG を用いることで出題の自動生成が可能であり，ラスの分類を得意とする機械学習判別機を用いた攻撃が有また，常識を持つ人間は容易に正解できるが，機械は人間効であるとされた [5]．の常識を備えることが困難で，通常と非現実のオブジェクトを見分け難い．さらに，安全性の検証としてオブジェク 2.2 4 コマ漫画 CAPTCHA ト同士の境界線が，マージされてできためり込み部分であ「4 コマ漫画」CAPTCHA[3] は，人間特有の最も高度なるのか，あるいはめり込んではいないが遮蔽関係にあるの認知処理である「ユーモアを解する能力」に着目し，ランかを機械学習により検出する攻撃手法や，その他総当たりダムに並べ替えられた 4 コマ漫画の各コマを，正しい順序攻撃にも耐性を持ちうるとされた．具体的には，機械学習に並べ替えさせる手法を用いた．機械はユーモアの理解がを用いた手法では，あらかじめ入手した大量の出題画像か困難で，正攻法による突破が簡単ではない．しかし，並べら，「一部を切り出した画像」と「その部分に正解オブジェ替え総数が少なく総当たり攻撃 (ブルートフォースアタックト (めり込んでいる部分) が存在するか否か」という教ク) に脆弱であり，また起承転結が明解な 4 コマ漫画の自師用データセットを用いて機械学習を行うことで，画像中動生成が難しいという問題が残る．に「めり込みが含まれるか否か」を判定する分類器を作り，めり込んだオブジェクトを検出する攻撃手法を実装した． 2.3 2 枚の画像を重ね合わせた CAPTCHA その後，この手法では画像中の「めり込んだ部分」と「遮小林らが提案した，2 枚の画像を重ね合わせた画像の認蔽関係」を検出できるかどうかを検証した結果，正解率は識能力を問う CAPTCHA[6] は，重ねられた元の 2 枚の画 69.6%であることから，「遮蔽関係」と「めり込み」の区別像が何であるかを 10 種類の大分類に分けられた合計 100 は機械にとって困難であると結論付けた．また，総当たり個の選択肢から選択する方式である．従って，答えは 4950 攻撃耐性の検証では，CAPTCHA の有するべき総当たり通り存在し，藤田らが 4096 通り確保できれば十分である数が 4096 通りであるとし，機械が画像解析によって出題とした [1] ことを鑑みれば，機械攻撃耐性は高い．また重画像中のすべてのオブジェクトを抽出できた場合を考えれねられた 2 枚の画像を自動で分離することは困難であるたば，オブジェクト数 N に対して，総当たり数は N となるめ，安全性が保たれていると言える．しかし，この「2 枚ため，4 体のオブジェクトが描画された出題画像を 6 枚出画像」方式は，検証の結果，人間の回答時間が平均 27.2 秒題し，全て正解できたユーザを人間とみなせば 46 = 4096 であり，一般的な文字列画像が 10 秒から 18 秒 (論文中の通り確保できるとした．値を引用) であることに比べて長くなるという課題が残る．しかしながら，輪郭抽出技術の応用など，その他の攻撃手法により，めり込んだオブジェクトが検出できる可能性 2.4 非現実画像 CAPTCHA が考えられる [2]．藤田らは，「常識からの逸脱を認識する能力」が人間特 ⓒ 2016 Information Processing Society of Japan 2 Vol.2016-CSEC-75 No.5 2016/12/1 情報処理学会研究報告 IPSJ SIG Technical Report ピクセル数が異なり，やはり背景との関連を見破る必要がある．これらより，高い安全性が期待できる．また，本提案手法では，出題画像は無作為に自動生成されるため，無数の出題が可能であることから，自動生成性を有すると言える．一方で，常識を持つ人間は，背景からその状況を容易に推測することができ，常識的なサイズ感を瞬時に把握することができるため，出題に対する解読の負担が小さくなり，利便性の確保が期待できる．以上のことから，提案手法は CAPTCHA に要求される 3 要件を満たすと期待する．図 3 提案手法による CAPTCHA 画像のイメージ 3. 物体のサイズ感を利用した手法の提案 4. 提案手法の検証 4.1 検証方法 3 種類の「背景」(実装の簡略化のためいずれも閉鎖され本研究では，藤田らと同様に，常識からの逸脱を認識すた室内：学校教室，住宅の一室 2 種類) および 11 種類のる人間特有の能力に着目し，ユーザに物体の常識的なサイ「物体」(インターネットから 3D モデルデータを取得できズ感を識別させる CAPTCHA 手法を提案する．たオブジェクトのうち，アニメキャラクターなどのように普通名詞で表し難いものを除いたオブジェクト：消火器， 3.1 CAPTCHA 画像の生成手法概要図 3 に示すように，「背景」3D オブジェクトを基準とし椅子，机 2 種類，鉢植え，タンス，戸棚 2 種類，ライフル銃，林檎 2 種類) の 3D オブジェクトを用意した．「物体」て複数の「物体」3D オブジェクトを宙に浮かせることなを無作為に 4 種類選択し，そのうち 1 種類を 0.25∼0.75 倍く (「背景」に接するように) 任意の位置に配置した画像をに縮小あるいは 1.5∼2 倍に拡大した「正解」オブジェクト出題し，その中から背景に対して非常識な大きさの「正解」として，1 種類の「背景」の中に無作為に配置した画像をオブジェクト (この例では，テーブル上の横転した白いコッ生成した．その中から 4 種類全ての「物体」の一部あるいプ) を選択できたユーザを人間とみなす．この時，背景おは全部が描画されている (隠れていない) 画像を著者が 26 よび配置する物体はデータベースより無作為に選択し，ま枚選択し出題画像とした．12 人の被験者に対し，各出題画た，出題の 3DCG 画像を描画する際のカメラ位置は，配置像について正解だと思う座標をクリックしてもらい，そのした物体が全て映る範囲内で，一意に定めないとする．回答時間と正誤を記録した．また，総当たり攻撃への耐性 (安全性) を検討するため 3.2 期待される提案手法の有用性本提案手法では，ユーザは，背景を基準とした相対的な大きさとして，配置された物体を認識するため，背景が示に，各出題画像中に占める正解オブジェクトの描画ピクセル数を計数し，画像サイズに対する割合 (描画割合) を算出した．す場所や状況，奥行きを理解し考慮する必要がある．近い将来には，機械が輪郭抽出や機械学習などにより，配置さ 4.2 検証結果れた個々の物体の正体をおおむね解明することで，その物 26 枚すべての画像と，正答率の高い 10 枚のみに着目し体の常識的な大きさを検索エンジンやデータベースから参た場合のそれぞれについて，本検証で得られた被験者の平照できる可能性がある．しかし，提案手法では，背景の場均回答時間および平均正答率を表 2 に示す．同時に，比較所や，背景自体との物体の位置関係を解読できない限り，のために，藤田らの手法 (非現実画像) の実験結果の一例機械による突破は容易ではないと考えられる．例えば，学 (オブジェクト数 4 体の出題画像を 6 枚連続正解させると校教室内と体育館内では置かれる物体が同じであっても周した場合)，藤田らが指標に用いた文字判別型 CAPTCHA 囲の背景に対するサイズ感は異なり，また同じ体育館内でについても論文中のデータを引用した．図 4 は，提案手法あってもカメラの配置によって奥行きが変わり，物体のみの正答率が高かった出題 (成功例)，図 5 は正答率が低かっに着目した攻撃手法では突破できない．背景との関連が把た出題 (失敗例) を示している．握できない場合であっても，大きさを把握できた複数の物体同士で大きさを比較することにより，解答を推測できる可能性が考えられるが，出題画像には奥行きがあるため，手前と奥に配置された物体では同じ大きさであっても描画 ⓒ 2016 Information Processing Society of Japan また，提案手法の描画割合の平均は，3.5%であった． 5. 検証の考察と今後の課題表 2 に示す通り，提案手法は，出題画像 1 枚当たりの平 3 Vol.2016-CSEC-75 No.5 2016/12/1 情報処理学会研究報告 IPSJ SIG Technical Report 表 2 各手法の平均の回答時間および正答率回答時間 [s] 正答率 [%] 提案手法 5.4 65.4 提案手法 (上位 10 枚) 3.6 90.8 13.5 88.6 12 92 非現実画像 (6 枚出題時) 文字判別型均回答時間は 5.4 秒と十分に短いが，正答率が 65.4%と低く，人間であっても正解できない確率が高いため，正答率を向上させる対策が必要となる．特に，出題画像の中には正答率 8.3%という極端に低いものが含まれていたことが，平均正答率が大きく下げた一因と考えられるが，以下に述べるようにその出題の正答率が低かった原因を追究するこ図 4 提案手法の正答率が高かった出題 (成功例) とで，正答率の高い 10 枚のみを選出することができたとすれば，回答時間は更に短くなり，正答率は他の手法と同等になると言える．正答率が低い出題について，被験者の意見を交えて要因を挙げれば，机や鉢植えなどサイズ感が一意に定まらない，銃など親しみがなくサイズ感が分かりにくいなどがあったため，これらを解決するオブジェクトを選定する必要がある．特に図 5 に示した失敗例は，その両方によるものであったと思われる．これを解決する手法として，インターネット上からサイズ感を取得する (例えば商品サイトで物体名を検索することで，掲載されている商品のサイズを目安として取得する) などが挙げられ，これは今後の課題となる．図 5 提案手法の正答率が低かった出題 (失敗例) また，本検証では，描画物体数は 4 体に固定し，正解オブジェクトのサイズ変更の倍率は範囲を限定して行ったため，これらを変更し，利便性を向上させる検証も今後行う．安全性について，総当たり攻撃に着目すれば，総当たり数は 4096 通りを確保すれば十分である [1] が，本検証では，描画割合の平均が 3.5%であったため，3 枚出題して全 1 て正解できるかを試せば ( 0.035 )3 ≈ 23000 通り確保できる 1 といえる (2 枚の場合は ( 0.035 )2 ≈ 800 通り)．また，本検証においては正解物体数を 1 体としていたが，これを 3 体に変えて全て選択するタスクに変更すれば，1 枚の出題で 1 も ( 0.035 )3 · 1 3! ≈ 3800 通りの総当たり数が期待される．い CAPTCHA 画像 1 枚のみの出題では十分に確保されにくく，複数回出題するなどの検討が必要であるという結果を得た．今後は，これらの課題の解決とともに，関連研究との比較実験によって提案手法の優位性を確認し，機械攻撃手法を実装して耐性の確認を行う．参考文献 [1] ずれの手法も同時に利便性の低下が予想されるため，出題画像作成段階での描画割合の調整や，画像 1 枚当たりの利便性の向上が，今後の課題となる． [2] 6. おわりに本稿では，物体のサイズ感を利用した 3DCG 画像 [3] CAPTCHA 手法を提案し，利便性 (回答時間，正答率) と安全性 (総当たり攻撃耐性) の検証を行った．結果とし [4] て，回答時間は平均 5.4 秒，正答率は平均 65.4%であり，回答時間は既存手法に劣らないことが期待できる一方で，正答率は使用するオブジェクトを選定する必要性などの課題を見出した．また，総当たり攻撃への安全性として， ⓒ 2016 Information Processing Society of Japan [5] 藤田真浩，池谷勇樹，可児潤也，西垣正勝：非現実画像 CAPTCHA：常識からの逸脱を利用した 3DCG 画像 CAPTCHA，情報処理学会論文誌，Vol. 56, No. 12, pp. 2324–2336 (2015). 立花聖也，児玉英一郎，王家宏，高田豊雄：3 次元物体認知能力に着目した変形 3 次元モデル CAPTCHA の提案，電気関係学会東北支部連合大会講演論文集，Vol. 2014, pp. 231–231 (2014). 可児潤也，鈴木徳一郎，上原章敬，山本匠，西垣正勝：4 コマ漫画 CAPTCHA，情報処理学会論文誌，Vol. 54, No. 9, pp. 2232–2243 (2013). Elson, J., Douceur, J. R., Howell, J. and Saul, J.: Asirra: A CAPTCHA that Exploits Interest-Aligned Manual Image Categorization, Proc. of ACM CCS2007, pp. 366–374 (2007). Golle, P.: Machine Learning Attacks Against the Asirra CAPTCHA, Proc. of ACM CCS2008, pp. 535–542 (2008). 4 情報処理学会研究報告 IPSJ SIG Technical Report [6] Vol.2016-CSEC-75 No.5 2016/12/1 小林司，藤堂洋介，森井昌克：画像認識の困難性を利用した CAPTCHA 方式の提案，電子情報通信学会技術研究報告, LOIS, ライフインテリジェンスとオフィス情報システム， Vol. 110, No. 207, pp. 37–42 (2010). ⓒ 2016 Information Processing Society of Japan 5