1 北陸大学 紀要 第26号 (2002) pp. 73〜84 日本における英語実力テストの計量的解析と比較 Toby Dederick *,伴 浩 美 **,大 藪 多可志 *** Metrical Analysis and Comparison of English Proficiency Tests Toby Dederick * , Hiromi Ban ** , Takashi Oyabu *** Received October 31, 2002 1.はじめに 近年,様々な場面において,プレゼンテーション能力や広い意味でのコミュニケーション能 力が非常に重要視されてきている [1] 。自分の意思を伝えるためには言葉を適切に使う必要が あり,このようなコミュニケーション能力を評価する様々なテストも盛んに行われている。 本研究では,日本における英語コミュニケーション能力評価テストにはどのような特徴が見 られるか計量的解析を行った。すなわち,受験者数が多い実用英語技能検定(英検,STEP Test)2級,TOEIC,TOEFLの長文読解・聴解部分の英文について,文字種や単語種,及び その出現頻度を調査した。さらに,日本の中学校必修単語が各々の試料にどの程度含まれてい るかを調べ,主成分分析を用いて解析した。これにより,各テストの難易度を照合することに よって,3種類のテストがどのようなレベルにあるかを示す因子を求めることが出来た。 2.解析方法 本研究において解析した試料は以下の通りである。 試料1:STEP Test, 2nd grade, 1st Test of 1997〜1st Test of 2002 (Reading comp.) (13 tests) 試料2:TOEIC Part VII (Reading comp.) (5 tests) 試料3:TOEFL Sec. 3 (Reading comp.) (7 tests) 試料4:TOEIC Part IV (Listening comp.) (4 tests) 試料5:TOEFL Sec. 1, Part C (Listening comp.) (7 tests) 試料1〜3は長文読解問題の英文であり,試料4,5は長文聴解問題のトランスクリプトで ある。なお,いずれも本文の部分のみとし,設問や解答部分は除外した。 解析プログラムはC++で構成されている。このプログラムからは,各試料の文字と単語の頻 外国語学部 Faculty of Foreign Languages *** 金沢星稜大学 Kanazawa Seiryo University * ** 富山国際大学 Toyama University of International Studies 73 2 Toby Dederick,伴 浩美,大藪多可志 度特性の他に,文の数,段落数,平均単語長など様々な情報が得られるよう配慮されている[2]。 3.解析結果 3.1. 文字頻度特性 まず,各試料における使用頻度の高い文字の種類とその頻度を調べた。5試料共に,空白が 1位,eが2位,tが3位となっている。以下,試料1,2,3ではaが4位,oが5位,試 料4,5ではそれらの順位が入れ替わっている。さらに5試料共にs,i,n,r,hが上位 に見られ,上位10位については,順位の多少の違いがあるものの,出現文字種はいずれの試料 もほとんど違いが見られない。 各試料の上位50位までを頻度の高い順に,縦軸は頻度の度合い,縦軸は順位で,片対数でプ ロットした。一例として,試料1のSTEP Testの2002年第1回のテストの結果をFig.1に示す。 24位と25位に,減少度が異なるために生じる変曲点が見られ,25位以降は落ち込みが若干大き くなっている。この頻度特性を y=c・exp(-bx) (1) で指数近似を行った[2]。Fig.1に示した試料の場合,c=14.327,b=0.1372という値が得られ た。それぞれの試料について得られた係数c,bの値をFig.2に示す。著者らは以前,アメリ カの代表的な週刊誌であるTIMEの計量言語学的分析を行ったところ,ここ60年間文字や単語 の頻度特性がほとんど変化してないことが明らかとなり,それを種々比較の基準としている。 参考のため,TIMEの2000年1月15日号の解析結果も図中に示す。試料1〜5の係数cとbに はリニアな関係が見られる。前報において著者らは様々なジャンルの英文を解析し,それらの 係数cとbには正の相関が見られ,ジャーナリズムは係数の値が低く,文学作品は高い傾向に [3] あることを示した 。試料2のTOEICがcが8.829〜11.896,bが0.0965〜0.1211と低い値にな Fig.1 Frequency Characteristics of Character-Appearance in STEP Test 74 日本における英語実力テストの計量的解析と比較 3 っており,ジャーナリズムに近い傾向を示している。また,試料4と5を比較した場合も試料 4のTOEICの方が低い値となっている。一方,試料1でcが14,bが0.135以上の高い値のも のが5 testsあり,STEP Testには文学作品に近い英文が多いと考えられる。 Fig.2 Dispersion of Coefficients c and b for Character-Appearance 3.2. 単語頻度特性 次に単語の頻度特性を調べてみた。出現頻度上位20位までの結果をTable 1に記す。試料2 と4では共に,WILLという助動詞,またYOU,YOUR,WE,OURという人称代名詞の頻度 が高くなっている。試料3と5ではOR,またWASやWEREといった過去形の頻度が高いとい う特徴が見られる。なお,試料5では,YOUやHEといった人称代名詞も多く用いられている。 先の解析と同様に,上位50位までをプロットし,(1)式で近似を行った。得られた係数c, bの値をFig.3に示す。いずれの試料もTIME誌よりもcの値が高く,bの値が低くなっている。 cとbには文字の場合のような相関関係は見られない。ただし,試料1〜3については,各 testが比較的近い値をとっており,Fig.3に示したようなクラスターと見なすことが可能と思わ れる。試料1については係数bの値が約0.043以下と,比較的低くなっている。 単語の特徴を表す方法として,統計学者のUndy Yuleが1944年に,作家の語彙量を測るKCharacteristic(K特性値)と呼ぶ指標を提案し,これを用いてThe Imitation of Christの著者 の推定を行っている [4] 。このK特性値は,或る作品の中にxi回使用された単語がfi個あるとす 2 ると,S1=Σxifi,S2=Σxi fiとして,次のように定義される。 K=104(S2/S12−1/S1) (2) 各試料についてK特性値を求めてみた。その結果をFig.4に示す。図より,試料3は全て90以 上であり,120以上の大きな値のものが3 testsあり,全体的に高い値であることが分かる。試 75 4 Toby Dederick,伴 浩美,大藪多可志 Table 1 TOEIC TOEFL TOEIC Listening TOEFL Listening 1 THE THE THE THE THE 2 TO OF OF OF TO 3 OF TO AND AND OF 4 IN AND IN IN A 5 A A A A AND 6 AND IN TO TO IN 7 THAT FOR THAT YOU THAT 8 IS YOU IS FOR YOU 9 ARE BE FOR BE IS 10 THEY IS AS IS FOR 11 HAVE WILL WAS THIS THIS 12 FOR YOUR IT WE WAS 13 THIS THAT ARE WILL HE 14 IT ARE BY ON ON 15 PEOPLE AT OR THAT BE 16 AS WE FROM OUR WITH 17 BE WITH WITH YOUR CAN 18 BY ON THEY AT IT 19 THEIR THIS WERE HAVE AS 20 ON OUR AT WITH OR Fig.3 76 High-Frequency Vocabulary for Each Material STEP Test Dispersion of Coefficients c and b for Vocabulary-Appearance 日本における英語実力テストの計量的解析と比較 5 料1と2,試料4と5の値がそれぞれ似たような分布となっている。試料4と5は試料3の低 い値のものと近い値であることが明らかとなった。 Fig.4 K-Characteristic for Each Material 3.3. 難易度 単語の種類とその頻度から各試料の難易度を求める [5] 。難易度を表すパラメータには,単 語種からの難易度(Dws)と単語数からの難易度(Dwn)を考慮する。 これらは,全単語数(nt),全単語種数(ns),日本の中学校での必修単語数(nrs),各必修 単語数(n(i))とすると, Dws=(1−nrs/ns) (3) Dwn={1−(1/nt・Σn(i))} (4) より求められる。得られた値をFig.5に示す。図中の値は1に近づくほど難易度が高くなるこ とを示している。図より,単語種数からの難易度(Dws)については,聴解問題の難易度が低 く,読解問題の難易度が試料1,2,3の順に高くなっている。これより,必修単語の種類数 とその頻度を難易度を求めるパラメータとすることの妥当性が認められた。 単語数からの難易度(Dwn)に関しては,文中において出現頻度の高い単語はTHE,OF, TO,AND,IN,A等であり,これは各試料においてほぼ共通している。また,単語頻度特性 も各試料で同じような特性を示すことから,Dwnは0.39〜0.53あたりで飽和する確率が高いこ とが考えられる。 受験生にとって,各テストがどの程度の難易度であるか,また,そのテストが他のそれと比 較してどのくらいのレベルにあるのかを示すために,DwsとDwnを算出したが,さらに適切な 指数を与えるために,DwsとDwnを変量として主成分分析を行った。これにより,難易度が1 つのパラメータ,つまり1次元で表すことが可能となる。 主成分分析とは,2つの変量に重みとなる係数a1,a2をかけて和をとることで総合化を図る ことである。ここでは, 77 6 Toby Dederick,伴 浩美,大藪多可志 Fig.5 Two Measures of Difficulty for Each Material z=a1*Dws+a2*Dwn (5) これが主成分分析の式となる。分散共分散行列を用いて求めた第1主成分zは,z=0.8643* Dws+0.5029*Dwnとなった。これより主成分得点を求める。各試料がどのレベルにあるかを判 断するために,得られた主成分得点を一次元で表したものをFig.6に示す。 Fig.6 Principal Component Scores 読解問題の英文は,試料3,2,1の順に難しく,特に試料3,2は試料1と同程度である ものが1 testずつしかなく,かなり難しいと判断できる。聴解問題の英文は,難しいものが試 料1の易しいものとほぼ同程度となっている。なお,TOEICとTOEFLは,読解問題では両者 78 7 日本における英語実力テストの計量的解析と比較 の難易度の差が若干見られるが,聴解問題ではほとんど違いが見られないことが明らかとなっ た。 3.4. その他の特徴 各試料のその他の計量的数値を比較してみた。平均単語長,一文当たりの単語数などについ ての結果をまとめてTable 2に記す。これは各テスト共にそれぞれの平均値である。参考のた めTIME誌の結果も示す。各試料における前置詞などの使用頻度を求めたが,1語ずつ意味を 調べたわけではないので,前置詞等とカウントしたものの中に,それ以外の品詞として用いら れている単語も若干含まれている。 Table 2 Metrical Data for Each Material STEP Test Total num. of characters TOEIC TOEFL TOEIC TOEIC TIME 2000 Listening Listening 6,659 5,183 10,181 3,323 4,020 108,169 60 48 64 57 55 79 1,146 868 1,696 584 706 18,474 Total num. of word-type 488 414 742 326 356 5,184 Total num. of sentences 64 48 78 41 40 895 Total num. of paragraphs 16 19 17 8 11 187 Total num. of character-type Total num. of words Mean word length Words/sentence 5.811 4.267 6.000 5.701 5.698 5.855 17.988 13.132 21.930 14.728 17.814 10.641 Repetition of a word 2.355 1.486 2.285 1.780 1.983 3.564 Commas/sentence 0.876 0.592 1.246 0.586 0.803 1.342 Sentences/paragraph 4.000 2.526 4.588 5.125 3.636 4.786 Freq. of prepositions 14.930 15.435 16.157 14.794 15.452 15.828 Freq. of relatives 3.235 1.461 1.971 1.724 2.603 2.133 Freq. of auxiliaries 1.437 2.018 0.820 2.166 1.731 0.660 Freq. of personal pronouns 3.704 5.152 2.929 7.298 7.150 4.574 まず,平均単語長については,試料1が5.811文字で,TIME(5.855文字)と非常に近い。 同じ聴解問題の試料4と5は共に約5.7文字と,TIMEより若干少なくなっている。試料2は 4.267文字と最も少ない値である。 一文当たりの単語数は,いずれの試料もTIMEの10.641語よりも多くなっている。試料2の TOEICが約13語で5試料中最も少なく,試料3のTOEFLが約22語とかなり多いことが分かる。 TOEFLは聴解問題も約18語と多くなっている。この点からもTOEFLはかなり難解な文章で あると思われる。試料4のTOEICの聴解問題は約14.7語で,TOEICの読解問題よりも1.7語多 い。 一文当たりの単語数が最も多い試料3は,一文当たりのコンマ数も1.246で最も多くなって いる。 79 8 Toby Dederick,伴 浩美,大藪多可志 一段落当たりの文数は,試料2のTOEICの読解問題(2.526文)が最も少なく,一方,同じ TOEICの聴解問題である試料4は試料2の約2倍の5.125文で,最も多くなっている。TOEFL は,読解問題がTIME(4.786文)に近い4.588文,聴解問題は3.636文と,読解問題の方が若干 多くなっている。 関係詞は関係代名詞,関係副詞,関係形容詞を合わせたものである。これは,試料1が 3.235%と最も多くなっている。従って,試料1は複文が多く,その点で読みにくさを感じる 可能性が考えられる。試料4と5では,試料5の方が2.603%と,試料4(1.724%)より1% 程度多くなっており,試料5の方が構文が若干複雑であると思われる。 広い意味での助動詞には2種類あり,一つは,進行形・受動態を形成するBE,完了形の HAVE,疑問・否定文のDOなどの時制や態を表すものである。今一つは,話者の気持ちや態 度を表すWILL,CANなどの法助動詞である [6] 。ここでは法助動詞のみを調査の対象とした。 その結果,試料2と4のTOEICの助動詞の頻度がいずれも2%以上と高く,試料3が0.82%で 最も少なくなっている。従って,TOEICの英文は,より多くの助動詞を用いて微妙なニュア ンスを表しているものが多く,一方,TOEFLの読解問題の英文は断定的な表現が多い傾向が あると言える。 人称代名詞の使用度は,試料4と5が7%以上とかなり高くなっており,聴解問題では人称 代名詞が多く使われることが明らかとなった。 3.5. 前置詞・関係詞・助動詞・人称代名詞の頻度特性 文の構成上重要と思われる,前置詞,関係詞,助動詞,人称代名詞の4品詞についてさらに 詳細に調べてみた。各試料の解析結果をまとめてTable 3に示す。これは,各試料に出現した 前置詞,関係詞等それぞれ全体を100%とし,頻度の高い順に10位まで単語とその頻度を示し たものである。表より,まず,前置詞については,TO,OF,INがいずれの試料においても 多く使用されており,これらで出現全前置詞の50%程度,さらにそれ以上を占めている。また FORの頻度も高く,特に試料2と4では10%以上とかなり高くなっている。 関係詞では全体的にTHAT,WHEN,WHOが多用されている。特にTHATはいずれの試料 においても頻度が最も高く,50%を占めている。また,試料3でWHICHの頻度が14.103%で 2位と非常に高くなっている。現在,WHICHの使用はTHATに取って代わられている傾向に ある [7] 。従って,試料3のTOEFLの読解問題の英文はやや古い文体の英文である可能性が強 い。一方,試料5のTOEFLの聴解問題ではWHICHの頻度は2.344%と低く,読解問題と聴解 問題との文体の違いが伺われる。 助動詞ではCANとWILLの頻度が高くなっているが,試料3においては,それらの過去形の COULDやWOULDの方が頻度が若干高い。従って,試料3は丁寧な表現が多い傾向にあると 思われる。なお,試料3と5のTOEFLでは使用されている助動詞の種類が多く,それらにお いてのみOUGHTが僅かながら使用されている。 人称代名詞では,試料1でHERSELF,OURSELVES,MYSELFといった再帰代名詞の頻 度が高いという特徴が見受けられる。試料2と4ではI,WE,YOUなどの一人称や二人称の ものが多く,試料3ではITやTHEYなどの三人称が多くなっている。試料5は同じ聴解問題 である試料4同様にYOUの頻度が25%以上とかなり多く,またHEも10%と多い。 80 9 日本における英語実力テストの計量的解析と比較 Table 3 High-Frequency Vocabulary and Their Percentages for Each Part of Speech in Each Material STEP Test TOEIC TOEFL TOEIC Listening TOEFL Listening Word % Word % Word % Word % Word % TO 19.964 OF 21.436 OF 26.159 OF 18.444 TO 21.990 OF 19.874 TO 21.436 IN 15.425 IN 15.274 OF 17.932 IN 15.423 IN 12.433 TO 13.809 TO 14.697 IN 12.958 FOR 5.441 FOR 10.075 FOR 5.263 FOR 10.086 FOR 5.890 AS 4.631 AT 5.252 AS 5.211 ON 6.340 ON 4.712 BY 3.912 WITH 4.823 BY 4.117 AT 4.035 WITH 4.188 ON 3.777 ON 4.287 FROM 3.960 WITH 4.035 AS 3.796 WITH 3.013 BY 3.323 WITH 3.908 BY 3.746 AT 3.534 FROM 2.878 FROM 2.680 AT 3.022 AS 3.458 BUT 3.010 AT 2.788 AS 2.358 ON 2.762 ABOUT 2.594 LIKE 2.487 THAT 51.967 THAT 59.551 THAT 53.419 THAT 52.381 THAT 53.906 WHEN 10.352 WHO 10.112 WHICH 14.103 WHO 11.905 WHAT 14.063 WHO 10.145 WHEN 8.989 WHEN 12.393 WHEN 9.524 HOW 8.594 HOWEVER 8.696 WHICH 7.865 WHAT 5.128 WHICH 7.143 WHEN 7.813 WHICH 5.176 WHAT 5.618 WHO 4.701 WHY 7.143 WHO 7.031 HOW 3.934 HOW 2.247 HOWEVER 3.419 WHAT 4.762 WHERE 3.906 WHERE 3.313 HOWEVER 2.247 HOW 2.137 HOW 2.381 WHICH 2.344 WHY 2.484 WHERE 2.247 WHERE 2.137 HOWEVER 2.381 HOWEVER 1.563 WHY 1.282 WHERE 2.381 WHY 0.781 WHAT 2.070 WHENEVER 1.124 WHENEVER 0.828 WHEREVER 0.427 CAN 38.028 WILL 49.194 COULD 26.531 WILL 46.939 CAN 36.047 WILL 16.901 MAY 11.290 CAN 20.408 CAN 20.408 WILL 30.233 MAY 12.207 MUST 11.290 MUST 14.286 SHOULD 10.204 MIGHT 8.140 WOULD 11.737 CAN 10.484 WOULD 12.245 COULD 6.122 SHOULD 6.977 COULD 8.920 SHOULD 8.871 WILL 11.224 MIGHT 6.122 WOULD 6.977 MUST 4.225 WOULD 8.065 MAY 10.204 WOULD 6.122 COULD 5.814 SHOULD 4.225 COULD 0.806 MIGHT 3.061 MAY 4.082 MAY 4.651 MIGHT 3.756 OUGHT 1.020 OUGHT 1.163 SHOULD 1.020 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 MINE 23.897 2 ITS 20.221 3 HERSELF 15.625 4 I 7.169 5 OURS 6.618 6 OURSELVES 4.596 7 YOUR 4.412 8 HE 3.309 9 MYSELF 2.390 10 THEY 2.390 YOU YOUR WE OUR IT I US THEIR ME ITS 21.981 IT 25.581 17.957 THEY 20.930 15.789 THEIR 16.570 10.526 ITS 9.302 6.811 THEM 8.430 4.644 HER 4.942 4.334 SHE 4.360 3.715 WE 2.035 3.096 HE 1.744 1.858 THEMSELVES 1.453 YOU WE OUR YOUR I IT THEY US SHE THEM 26.705 16.477 10.227 9.091 7.955 5.682 3.977 3.977 2.841 2.841 YOU IT HE THEY WE I OUR YOUR HIS THEIR 25.287 11.494 10.920 8.621 8.621 7.471 5.460 5.172 4.310 2.586 81 10 Toby Dederick,伴 浩美,大藪多可志 次に,Table 3に示した結果について,前置詞は上位34位,関係詞は上位9位,助動詞は上 位7位,人称代名詞は上位18位までを頻度の高い順に片対数でプロットした。一例として,人 称代名詞の結果をFig.7に示す。図より,2位と3位で値にばらつきがみられるものの,それ 以降,試料1,2,4はよく似た曲線を描いている。試料5は5位〜10位まで他の試料より若 干上位に位置し,試料3は8位以降落ち込みが他の試料に比べて大きいという特徴が見受けら れる。 Fig.7 Frequency Characteristics of Personal-Pronoun Appearance in Each Material この頻度特性を(1)式:y=c・exp(-bx)で近似を行った。それぞれの品詞について得られ た係数c,bの値をTable 4に示す。表より,前置詞の場合,どの試料もほぼ似たような値と なっているが,特に同じ聴解問題の試料4と5がc,b共にかなり近い値となっている。また, 関係詞,助動詞共試料1と4がc,b共に近い値であることが分かる。Fig.7に示した人称代 名詞については,試料3の係数c,bが最も高いことが明らかとなった。 82 11 日本における英語実力テストの計量的解析と比較 Table 4 Coefficients c and b for Each Part of Speech in Each Material Prepositions Relatives Auxiliaries Personal Pronouns Material c b STEP Test 11.7050 0.1386 TOEIC 10.5720 0.1410 TOEFL 9.8712 0.1283 TOEIC Listening 10.7280 0.1263 TOEFL Listening 10.9720 0.1296 STEP Test 34.1240 0.3367 TOEIC 40.1990 0.4070 TOEFL 42.2690 0.4084 TOEIC Listening 35.2510 0.3395 TOEFL Listening 50.6050 0.4470 STEP Test 42.0910 0.3456 TOEIC 57.7710 0.4731 TOEFL 37.7890 0.2895 TOEIC Listening 42.6780 0.3659 TOEFL Listening 40.2600 0.3427 STEP Test 27.0010 0.2437 TOEIC 24.1900 0.2233 TOEFL 29.0830 0.2790 TOEIC Listening 23.0960 0.2134 TOEFL Listening 26.3520 0.2294 4.まとめ 英語コミュニケーション能力テストの長文問題の文字・単語頻度特性を調べた。この時,指 数関数の近似式を採用し,係数c,bより各試料の特徴を抽出した。また,試料中に使用され ている必修単語の種類数やその頻度より難易度を求めた。さらに,これらの難易度を主成分分 析することにより,総合的な難易度を導出した。すなわち,各種英語テストに使用されている 英語が相対的にどの程度のレベルにあるかを示す難易度が求められた。また,文の構成上重要 と思われる,前置詞,関係詞,助動詞,人称代名詞について詳細にその特徴を調べてみた。今 後も様々な英語力テストの特徴抽出に関し,さらに研究を重ねていく予定である。 文 献 [1] 週刊ダイヤモンド,ダイヤモンド社(Sept. 21, 2002) [2] 伴,T. Dederick,菅田,大藪: シンガポール英字新聞における計量言語学的要因の変遷 感性 工学研究論文集第1巻2号,pp.89-94 (Aug. 2001) [3] H. Ban, T. Sugata, T. Dederick, and T. Oyabu: “Metrical Comparison of English Columns with Other Genres” Proc. 5th Int. Conf. on Eng. Design and Automation, pp.912-917 (Aug. 2001, Las Vegas, USA) 83 12 Toby Dederick,伴 浩美,大藪多可志 [4] G.U. Yule: The Statistical Study of Literary Vocabulary, Cambridge University Press (1944) [5] 伴,菅田,T. Dederick,大藪: シンガポール英字新聞と他ジャーナリズムとの解析比較 信学 技報,Vol.101, No.506, pp.17-22 (Dec. 2001) [6] H. Ban, T. Dederick, and T. Oyabu: “Metrical Comparison of Singapore English Newspapers and Other English Journalism,” Proc. 6th Int. Conf. on Eng. Design and Automation, pp.717-722 (Aug. 2002, Maui, USA) [7] H. Ban, T. Sugata, T. Dederick, and T. Oyabu: “Linguistical Analysis of American Presidents’ Inaugural Addresses” Proc. 3rd Asia-Pac. Conf. on Ind. Eng. and Mgt. Syst., pp.47-54 (Dec. 2000, Hong Kong, China) 84 ■ 戻る ■
© Copyright 2024 Paperzz