Computerized Testing −基礎と応用

第11回
Computerized Testing―基礎と応用―
第11回研究会
Computerized Testing −基礎と応用−
野口裕之(名古屋大学教授)
協力:熊谷龍一(新潟大学助教授)
2005年10月20日
於:東京大学赤門総合研究棟 A200講義室
野口裕之先生は,IRT やその理論を用いてのテスト開発などについて造詣が深く,また最近では日本語能力試験
の試験分析委員会において委員長を務められるなど,多方面でご活躍中である。本講演では,先生のこれまでのご
研究の中から CBT,CAT について事例を交えながらその考え方や発展の経緯,そしてそれらの背景となる IRT(項目
応答理論),またそうした開発の技術的側面についてご説明いただいた。そして闇雲に新技術を導入すればいいと
いうものではなく,状況・テストの目的に応じた使い分けが大切である,寧ろテストで測定する内容について深く
考えるべきであるという先生のまとめは,テストに携わる者が常に忘れてはならない視点として重みのある一言で
あった。
(本稿は講演および事後の質疑応答の内容を事務局が要約的にまとめたものである。)
それから,私の研究室の大学院生で現在は新潟大学の熊
谷龍一君が作った CBT(Computer Based Test)と CAT の
システムを後で実演してお見せしたいと思います。
1
はじめに
本日は,次のような流れでお話していきたいと思います。
まず,Computerized Test で CBT と CAT とは何か。それ
野口:皆さん,こんにちは。名古屋大学の野口と申しま
す。よろしくお願いします。
私自身,テスティングが専門であることは間違いありま
せん。最近ある雑誌(月刊「言語」)には,専門が「日本
から,基本になるのは項目応答(反応)理論と呼ばれる
IRT(Item Response Theory)。私も言語テストに関わり
始めてから,前者の項目"応答"理論という言い方をするこ
とが多くなっています。これらを少しお話しします。
語教育」と書かれております。私は心理学をやっていると
それから,CAT の基礎,利点,形式について。少し細か
思われてはいなくなってしまっているようです。きょうも
くなりますが,項目固定型の場合と項目可変型の場合のお
お話ししますが,日本語教育に関するテスティングと特性
話をいたします。
評価,評価というよりも測定に寄ったところでいろいろな
以上は教科書的な話ですが,もう少し具体的な実際の話
ことをやっていることもあって「日本語教育」が専門であ
として,一つは日本語口頭能力試験を CBT の例としてとり
ると見られるようです。
あげます。これはまだ開発途上のものですので,全てを私
今日はコンピュータライズド・テスティング
(Computerized Testing)ということでお話しさせていた
だきますが,特に CAT(Computerized Adaptive Testing)
がお話しすることはできませんが,これまで学会等で報告
されたものを中心にお話しします。
その次に識別性検査です。これは聞いたことがないとお
に関しては,かつてはいろいろとやっていたこともあるの
っしゃる方も多いと思いますが,後で説明いたします。実
ですが,最近あまり私自身は取り組んでおりません。です
は私が 1990 年代に手掛けていたもので,それも少し紹介
から,最近の動向についてはお話しし切れません。ですが,
をしてみようと思います。
このようなこともできますということは,少しお見せする
ことができると思います。
それから語彙理解尺度です。これはもう少し古いのです
が,これも後で説明いたします。ただ,これを使って先程
31
第Ⅲ部
研究会(下半期)
の熊谷君が CBT 化の効果を見たということと,もう一つ,
Adaptive Test です。それをコンピュータ制御で実施する
CAT システム自体は熊谷君が作ったものですが,これに関
のが Computerized Adaptive Test です。コンピュータが
しては語彙理解尺度以外のものでも内容として入れるこ
なくてどうやってできるのかと思われるかもしれません
とができます。今回は,その語彙理解尺度を用いた実演を
が,でも実はそれをやった例もあるのです。CBT の場合は,
お見せしたいと思います。最後に簡単なまとめをしたいと
全員が同じ項目を受けていても構いません。もちろん CAT
思います。
も含んでいます。
■CBT
Computer Based Test ですが,コンピュータを用いて実
2
Computerized Test
施するテスト方式で,コンピュータの利用可能性の拡大に
対応したり,或いは利用のしやすさに対応して,テストの
可能性を広げているものです。項目としては,画像は当然
Computerized Test ですが,コンピュータを利用したテ
ストということです。それから,ここでもう一つお断りし
ておかなくてはいけないのですが,事例としてご紹介する
三つのテストはどこの商品でもなく,研究的に使われてい
るものです。特定の会社で開発された商品はここでは除き
ました。あと,CBT 或いは CAT の代表事例として,医学共
用試験―――これから医師の国家試験にも当然影響して
いくだろうし,医療系の看護士の試験その他にも当然影響
をしていくと思うのですが―――がありますが,私は全然
関与しておりません。あの試験に関して私も知りたいこと
が沢山あるのですが,別途の講座かどこかで関連の方が話
をされることがあると期待しています。その時は私もぜひ
参加させていただきたいと思っております。
商品では例えば,日本で開発されているものはないので
差し障りはないと思うのですが,
TOEFL の CBT があります。
日本の企業も関係があるのかもしれませんが,ここではと
にかく私自身が関与した,研究的なものに限らせていただ
きます。
■CBT と CAT
使えますし,音声も使えますし,それから動画も使えます。
ある意味では真正性が高い。ほかのテストでも言うのかも
しれませんが,言語テストの分野ではよく真正性
(authenticity)と言います。ここについてはきちんと言
わないと誤解を招いてしまうのですが,例えば多肢選択形
式でも実際の場面に近づけた形で行います。実際の場面と
いっても限度があるのですが,その中で例えば言葉なら言
葉の何かを知っているのではなく,自分の意思をきちんと
伝えられるかどうかという,実際の場面に近づけて見てい
く。そういうものが真正性の向上ということなのです。
それがコンピュータを使うので,コンピュータの中での
ことだと言われればそれまでですが,動いたり,音声が入
ったり,三次元画像が回転するようなこともできます。そ
れが真正性かと言われると微妙ではありますが,とにかく,
ある意味で可能性の拡大をしているということで,米国で
は建築士の関係の試験にも用いられているそうです。
そして,テストの進行上もコンピュータを用いることに
より,
応答時間(解答時間)
の記録をすることができます。
或いは,項目の困難度を受験者に最適化することができま
コンピュータを利用したテストとしては,CBT と CAT で
す。最適化していく方法論が CAT ということになります。
すが,BとAがどう違うのかというと,Bのほうが先で,
採点システムは,対個人の場合には,結果を即時的に返
アルファベットとは逆順なのです。CBT は Computer Based
却することが可能になります。コンピュータだけではない
Test です。CAT は Computerized Adaptive Test。要する
のですが,電話をかけて,英語のスピーキングの力を測定
に,コンピュータをベースにしたテストを総称して CBT
するようなテストもあります。その場合も,受験者はコン
と呼んでおります。そして,Adaptive Test 自体は,後で
ピュータ相手に話しているだけですが,即時的に結果が返
少しだけ触れますが,必ずしもコンピュータを使う必要は
ってきます。それから,集団データの分析も,どんどんデ
ないのです。適応型テストと訳したりしていますが,要す
ータが入ってきて積み上げていくわけですから,その集団
るに個人によって―――TOEFL の CBT 版と同じですが――
データをいち早く分析していきます。早ければいいという
―隣の人と解答している項目が違う。本当に隣の人の解答
わけではないのですが,早く分析する必要がある場合には
を覗くわけにはいきませんが,それはともかくその時点で
早くすることができます。例えば集団を抱えているテスト
測 定 す る の に 最 適 な 項 目 を 出 し て テス ト を す る のが
主催機関に対して,早く返却することができます。
32
第11回
Computerized Testing―基礎と応用―
採点システムが対個人の場合でも,即時的に返却すると
――そうは言っても,あのテストがすべての受験者に対し
いうことが要求される場合もあるし,それよりも,もう少
て同じぐらいの精度になっているのかというと,必ずしも
しじっくりといろいろな観点から採点をしてほしいとい
そうではありません。学力がものすごく高い人にとっては
う場合もあります。だから,極端に言えばコンピュータ化
あまり精度が高くはなく,ものすごく低い人にとっても,
しなければいけないというわけではないのですが,とにか
多分精度が良くないのだと思います。
くそういう利点があるということです。
それはとにかくとして CAT というのは,基本的には「直
ただ,あくまでもテストの可能性を広げるもので,PBT
前に実施した項目に受験者が正答した場合には,次にはよ
(Paper Based Test)要するに紙と鉛筆によるテストに取
り難しい項目を,誤答した場合にはより易しい項目を実施
って代わるものではないということです。必要に応じた使
する」となっています。
い分けが大切であるということです。役に立つならば大い
CAT の場合には,受験者ごとに解答をする項目そのもの,
に使いましょう。しかし,無理して最新の情報技術を使わ
或いは解答項目数が異なります。解答項目数を揃えている
なければならないという理由は一つもありません。その場
試験もあります。それで不公平感を持たれたりすると困る
その場に応じて,きちんと使い分けていくことが大事だと
からです。解答をする項目が違う。項目数も違う。それに
いうことです。
もかかわらず測定結果を同一の尺度上に表現して,測定精
例えば,テレビが出てきてラジオや新聞が不要になった
度を確認できます。それから同一の尺度上に表現できると
かというと,そうではなかったのと同じことで,勿論シェ
いうところが長所ですが,TOEFL の CBT 版も隣の人と異な
アは下がるかもしれませんが,いろいろな意味でそれぞれ
る項目を解答したにもかかわらず,結果は 0∼300 の範囲
の特徴が生かされるのです。
のスコアで表現されるわけです。確か TOEFL では,項目数
TOEFL もそうですね。結局 PBT というのが未だに行われ
は揃えていると思いますが。
ていますし,日本の場合,テストセンターが現在は東京に
2カ所と横浜(南東京)と,大阪地区の4カ所で,名古屋
とにかく,そのためには項目応答理論(IRT)を適用し
てやっていかなければ,なかなか難しいでしょう。
にはないので,CBT を受けたければ,名古屋の人は東京に
来るか大阪に行くかしなければなりません。CBT が取って
代わるものではないわけです。あれはいろいろな事情があ
るのでしょうけれども,受験側としては必ずしも CBT だけ
3
項目応答理論
ではないのです。
それから,テストは媒体も大切なのですが,測定内容が
ここからは,簡単に項目応答理論についてお話をしてお
最も大切だということを忘れてはいけません。いろいろな
こうと思います。皆さんの中には「そんなものは聞き飽き
パンフレット等でハイテク技術が前面に出ているものが
ている」或いは「自分のほうが専門だ」という方もいらっ
あります。それはそれで勿論必要ですが,ただ,冷静に中
しゃるでしょうが,少し我慢してください。
身はどうですか,ということをきちんと見て判断して,利
用するかどうかを考えていかなければならないでしょう。
■CAT
■テスト理論
「テスト理論」というのはおなじみですが,古典的テス
ト理論と,項目応答理論と呼ばれる大きな二つのものがあ
CAT は,受験者個人ごとに最適な項目を選択・編集して
ります。古典的テスト理論というのは,おなじみの信頼性
実施するテスト方式です。最適な,と言っても,結果的に
係数がどうしたとか,妥当性だとか,―――もちろん項目
後から見たら最適な道筋になっているのかどうかは分か
応答理論であっても妥当性のない検査というのは論外で
らないのですが,その時点その時点で,次の出題としてで
すが―――とにかく項目分析をし,信頼性をチェックし,
きるだけ最適な項目を選ぶというものです。全ての受験者
妥当性を見て,テストの性能について検討する,また個人
に対して,一定水準の精度での測定が可能になります。
の測定結果は正答項目数を数え上げて表示するという計
通常のテストの場合「信頼性係数がいくつです」などと
数モデルになっています。
言われるのですが,―――例えば大学入試センター試験の
それに対して,項目応答理論の場合には,特性尺度値と
信頼性係数が公表されているかどうかは忘れましたが―
正答確率とが鍵概念になっています。特性尺度値とはモデ
33
第Ⅲ部
研究会(下半期)
ル上想定するわけですが,間隔尺度水準の尺度を構成しま
比較可能となるのです。
す。正答数ではなく,尺度上に位置づけるという計量モデ
正答数得点は相互に比較可能ではなかったのですが,標
ルになっています。正答数をカウントするという計数モデ
準 得 点 な ら ば , 同 一 受 験 者 集 団 , 或い は 能 力 水 準が
ルとは異なっています。詳しくお話しすると際限ないので
equivalent(等価)な二つの受験者集団であるならばとい
すが,少しだけお話しすると,正答数得点というのは,受
う条件はありますが,相互に比較可能となります。しかし
験者が正答した項目の数を数え上げて得点とする方法で
受験者集団間で能力水準が equivalent ではなかったら,
す。全ての項目に同じ重みをかけるのではなく,項目の重
もはや標準得点化しても相互に比較はできないというこ
要度に応じて重みをかけて足し合わせる,重みつき正答数
とになります。
得点というものもあります。
でも,基本的には正答した項目の数をカウントすること
次に標準得点化後も残る問題として,相互に比較可能と
なるのは,同一の受験者集団が複数のテストを受験した,
です。正答数得点の問題点は,同じ受験者でも問題項目が
或いは能力水準が等価な複数の受験者集団が異なるテス
異なると得点が変化するということです。つまり,同じ能
トを受験した場合のことですが,どうやってこの点を保証
力の人でも難しい項目からなるテストを受ければ得点は
するのかという問題があります。毎年行われているテスト
下がるし,易しい項目から構成されるテストを受ければ得
の場合,年度間で受験者の能力水準が equivalent である
点は上がるということです。
ならば,年度ごとの試験を標準化しておけば,年度間で比
ということは,問題項目が異なると,相互に得点が比較
較することができるということになります。ですが,年度
できないということになります。TOEFLCBT のように,受
間でその受験者集団の能力水準が等しいという保証はど
験者によって解答した項目が異なると,もはや正答数で評
うやって作るのだろうかという疑問が残ります。
価しても意味がないということです。また,難易度の異な
そうは言っても,厳密さばかりを求めるよりは,おおよ
る二つ以上のテストの得点を相互に比較をしても意味が
その同一性がいろいろなことから分かっていれば,もしか
ありません。
したら何もしないよりも標準得点化したほうがいいかも
■標準得点の考え方
標準得点というものがありますが,この中でも(テスト
得点−平均点)÷標準偏差×10+50 と計算する「Z得点」
というもので表示することが多いです。「Z得点」という
とニュートラルな感じがするのですが,いわゆる偏差値と
いうものになります。
この標準得点は,常に平均が0,標準偏差が1になるよ
うになっています。つまり,テストが難しかろうが,やさ
しかろうが,とにかくその集団の中で―――集団の中でと
いうことが重要な点ですが―――平均が0,標準偏差が1
になる。通常は一次変換をして,平均は 50,標準偏差は
10 になるおなじみの偏差値ということになります。
標準得点化による改善は何かというと,受験者集団にお
けるテスト得点の分布状況(平均・標準偏差)とは無関係
しれません。
外国語としての日本語能力を測定するような場合で考
えます。例えばある国で急に受験者が増えたということが
あるとすると,この受験者像というのはどういう受験者な
のか。equivalent(同等)に全体として受験者数が上乗せ
になるわけではないのですね。大抵の場合は,元々は割と
優秀な層がテストを受けていますので,増える場合には下
のほうが増えてくるということですから,equivalent で
はなくなってくるということです。そのようなことがあり,
標準得点化だけでは適切な処理にはならないと考えます。
ということで,結局は等価であることが保証されていな
い,普通の受験者集団の場合には,テストの結果を標準得
点化しただけではだめですよ,ということが言えます。
■共通尺度の必要性
に―――平均が高かろうが低かろうが―――個々の受験
結局,そこには共通尺度が必要です。つまり異なる複数
者の当該受験者集団内の相対的な位置を表すことができ
のテストによる測定結果が相互に比較可能であるために
るということです。受験者集団での相対的な位置を表すと
は,異なるテストの結果が共通の尺度(尺度とスケールは
いうことから,同一の受験者集団(これは基本ですが),
心理学の用語ですが,所謂「ものさし」です)上の値で,
もしくは能力水準が等しい二つの受験者集団が,難易度の
表現される必要があります。
異なる二つのテストを受験した場合に,各テストの結果を
例えば複数の年度に亘っていても,或いは同一年度内に
標準得点で表示するならば,二つのテストの得点は相互に
複数回実施されていたとしても,それらのテストが,――
34
第11回
―問題は当然異なるわけですが―――共通の尺度上の値
で表現される必要があるということです。
TOEFL などではこれを実現していたわけです。PBT 版の
場合でもそうです。地域によって違うとは思いますが,年
Computerized Testing―基礎と応用―
に含まれているわけです。
一方,項目応答理論ならば受験者集団とは独立に困難度
を定義することができます。実はそういうモデルを作って
いるのですね。
間8回ぐらい実施しているわけです。それから世界各地で
それから,受験者集団の特性尺度(能力尺度)値が解答
も実施しているわけですが,例えば,8月に受けたら 10
した項目群とは独立に定義される。これは先ほどから言っ
月より易しくて得をした,などという話はあまり聞いたこ
てきたことです。
とがないですね。その代わりに TOEFL で 550 だったらどう
更に,項目の困難度と,受験者の特性尺度(能力尺度)
した,600 だったらどうしたということは聞かれたります。
値とが同一の尺度上に位置づけて表される。これは大きな
ということは,結局 TOEFL の PBT 版の場合は,500 点を中
意味をもちます。古典的テスト理論の場合には,困難度が
心としておよそ 300 点から 700 点の間の得点で結果が表示
正答率でした。だから,0と1の間の値をとるのです。し
されますが,それが共通の尺度です。問題項目は違ってい
かも当該受験者集団での正答した人の比率です。では,受
ても,共通の尺度上の値として表せているということです。
験者の能力値をどうやって表したかというと,標準得点化
なお,CBT 版の場合は 0 点から 300 点の間の得点で表示さ
の有無に関わらず,基本は正答数得点です。例えば 0∼100
れますが,これは PBT 版との混乱を避けるために得点の範
点とか,0∼200 点とかです。そうすると,項目の困難度
囲をずらしたものと言われています。
が比率で 0∼1 の間の値になるのに対して,受験者側の能
「学年別標準得点」は,よく使いますのでご覧になった
方もいらっしゃると思いますが,「共通尺度」との関係は
次のようになります。即ち,こういう学力の共通尺度があ
力値は,0∼200 とか,0∼100 の範囲の値。これでは全然
両者を関係づけられないわけです。
項目応答理論では,同一の尺度(ものさし)上に,困難
り,高1の時に,ちょうど高1の集団の真ん中だったら,
度も能力値も位置付けて表すことができます。ということ
標準得点換算ならば 50 ですね。次に高2になりますと,
は,自分の能力に近い困難度の項目はどれかなということ
―――学力とは何の学力か,等と細かいことは言いません
が,一つのスケール上で分かるわけですね。
が―――学力は確かに伸びたのですね。でも,受験者が全
それから測定精度が測定尺度値の関数として表されて,
員伸びていくので,高2の集団の中ではまた真ん中辺りで
尺度値ごとにきめの細かい―――テスト情報量というの
標準得点は 50 です。全然変わらないですね。標準得点と
ですが―――測定精度の評価が可能になります。従来の信
は,そういうことを表しています。集団の中での相対的な
頼性係数は,―――先ほど申し上げましたように―――例
位置は,ど真ん中だということです。でも,学力は伸びて
えばある試験の場合には,能力の高い人や低い人たちにと
いるわけですね。それで高3になります。やはり真ん中で
っては,あまりよい精度の測定にならないということがあ
す。でも学力は伸びています。
ります。つまり信頼性係数が意味するのは,全受験者にと
つまり,標準得点が高 1∼高 3 まで 50,50,50 だとす
ると,この 50 を相互に比較しても何の意味もありません。
っての平均的な値だということです。
そこをきめ細かく測定することができるのが,IRT の利
集団の中で真ん中ですねという意味はあるかもしれない
点であるということです。ただ,利点が出てくるからには
ですが,学力の伸びを見ていこうとしたら,共通尺度上で
項目応答理論は良いことだけではなく,適用するためには
の変化を見なければいけませんねというお話です。
それなりの前提条件が必要です。それを満たしていないよ
■項目応答理論の利点
次に,項目応答理論の利点ですが,項目の困難度が,受
うなテスト或いはデータでは使いようがないわけです。
■IRT のモデル
験者集団とは独立に定義されるということがあります。こ
もう少し項目応答理論の話をしますと,モデルのひとつ
れは分かりにくいのですが,古典的テスト理論でいう困難
に2値型の応答モデルがあります。これは受験者の応答が
度は,通過率を使っています。「通過率」とは,正答率で
「正答か誤答」など,二つの段階で表される場合に適用さ
す。その集団の中でどのぐらいの比率の人が正答できたか
れるものです。
「正答と誤答」或いは「はいといいえ」「賛
を表します。古典的テスト理論の場合には「その集団で」
成と反対」などです。
という前提条件が,項目の困難度を表す正答率の定義の中
35
第Ⅲ部
研究会(下半期)
それから,多値型の応答モデル。これは受験者の応答が
段階づけられたカテゴリで表される場合に適用されます。
即ち「正答か誤答」ではなく,その間の部分得点といいま
すか。例えば 0 か 1 かで表して,誤答に近いけれども少し
項目 X
できている,或いは正答に近いけれども十分ではないなと
項目 Y
いうことを含めて,4段階の両端が 0 や 1 でしたという,
4段階で段階づけられた形で表すような場合に適用され
ます。
2値型の項目応答モデルには,1パラメタ・ロジスティ
ック・モデル(Rasch Model)があります。最初に考えた
人が,ゲオルク・ラッシュというデンマークの数学者です
(Georg Rasch,1960)。本人が直接,現在の1パラメタ・ロ
ジスティック・モデルを考えたわけではないのですが,
Rasch モデルにある変換を施すと,実は2パラメタ・ロジ
スティック・モデルの特別な場合になるのだということで,
特に,Rasch モデルと呼ばれることが多いのです。適用例
は欧州(英国圏)に多く,ニュージーランドやオーストラ
リアも Rasch モデルが多く使われています。或いは欧州で
はテストだけではなく,QOL(Quality of Life)尺度なども
Rasch モデルを使って尺度化している例が多いです。
それから2パラメタ・ロジスティック・モデルがありま
す。日本では使用例が多いかどうかは分かりませんが,私
はわりと好んで用います。あと,3パラメタ・ロジスティ
ック・モデル。米国では圧倒的にこれが使われています。
更に正規累積モデルというものもあります。
2パラメタ・ロジスティック・モデルですが,項目特性
曲線が次の関数で与えられる IRT モデルです。すなわちθ
の値と正答確率との関係を表しています。
Pj(θ) = 1/[1+exp{1.7aj(θbj)}]
a,b とあるのがパラメータです。θは能力値です。aj,
項目 X に正答できる確率は 0.5。つまり b の値は,右にあ
るほうが,例えば同じθ=1.0 の人でも,項目 Y のほうが
項目 X より正答しにくいわけですね。ということは,難し
い項目だということですね。つまり,項目のもつ b の値が
大きい,即ち右側にあるほど難しい項目である,と。
それに対して,a の値は,曲線の立ち上がり,傾きと言
ってもいいかと思うのですが,実はグラフでは直線に見え
ますが,曲線なんですね。下に凸な曲線と上に凸な曲線と
の変曲点の位置が b になります。a の値はこの変曲点にお
ける傾きですが,実はそのまま微分をしてもこの値が出て
くるわけではありません。比例していると考えておけばい
いと思います。
a の値が 1.5 のほう(項目 X)が立ち上がりは急です。
a=0.8(項目 Y)のほうが緩くなります。a=0.4 ならば,も
っとなだらかになるわけです。それは何かというと,ある
能力値 b の前後で考えたときに,曲線の立ち上がりが急だ
ということは,b の前後で少し変化をしただけで正答確率
は大きく変わるということです。この勾配が急だというこ
とは,横方向の変化に対して,縦方向の変化が大きいとい
うことですね。勾配が緩やかだということは,横方向の変
bj,というのは,項目 j に対して二つのパラメータがある
化に対して,縦方向の変化が少ないということです。つま
ことを意味します。それが一体何なのかを表したのが下の
りどういうことかというと,能力値がこの前後で少し変わ
図です。横軸は能力尺度値を表します。それに対して b
っただけで,敏感に正答確率が変わる。或いは能力値が少
の値というのは,曲線 X と曲線 Y があり,曲線 Y のほうが
し変わっただけでは,正答確率もそれほど敏感には変わら
右にあるわけですが,b はその位置を表します。
ない。そういうことで,a の値はどれだけこの能力値の違
高さは何かというと,正答確率です。ですから,或る値
のθ(例えばθ=1.0)を持つ人が,項目 Y に正答する確率
ということでしたら,ちょうどこれは 0.5 です。でも,項
いを識別するかという意味で,識別力と呼ばれたりしてい
ます。
困難度パラメタ(b)は,特性曲線の位置を表して,パラ
目 X の曲線でみると,正答確率はほぼ1ですね。或いは,
メタ値が大きいほうが右寄りになり,困難度が高い。それ
項目の特性値(困難度)と,個人の能力値とが同じ尺度上
から識別力パラメタ(a)は,立ち上がりの程度(勾配)を
に表されるという点からみると,bxに相当するθの値
表して,パラメタ値が大きいほうが立ち上がりが急になり,
(1.0)の人が項目 Y に正答できる確率は殆どないですね。
識別力が大きいことを表わしています。
36
第11回
Computerized Testing―基礎と応用―
ラッシュ・モデルの場合は,次の関数のとおり bj は bj
のままですが,aj は a になっていますね。つまり,困難度
Pj(θ) = 1/[1+exp{1.7a(θbj)}]
だけが項目 j のパラメタになっているということです。で
すから,立ち上がりの具合はどの項目でも同じです。この
場合には,予備テスト等で,点双列相関係数が―――全く
等しくなることはないですが―――比較的等しくて,モデ
ルを適用しても大丈夫だろう,というようなことを,予め
チェックしておかなければいけないわけです。先述のとお
り欧州や豪州の言語テスト等では,比較的このモデルを使
っていることが多いです。
3パラメタの場合,要するに図中の矢印の分だけ
3パラメタ・ロジスティック・モデルですと,パラメタ
random guessing(あて推量)で正答確率が上がっている
が三つ出てくるのですが(下の式参照),その3つ目が
わけです。でもこれを見て分かるように,図というのは書
Pj(θ) =cj+(1-cj)/[1+exp{1.7aj(θbj)}]
random guessing(あて推量)と言います。つまり多肢選
択形式のテストの場合には,たとえば4肢選択ならば,あ
き方によってどうにでもなるから怖いのですが,ただ,b>0
の範囲では,あまり差はないですね。
■測定の精度
てずっぽうに回答しても正答確率が1/4ありうる,とい
それからテストの測定精度についてですが,これはあと
う要素をパラメタとして取り込もうとしています。考え方
で少し出てきます。テストの測定精度を表すのに「テスト
としては cj というのが実は個人の能力に関わらず一定で
情報量」を用います。これは特性尺度値の関数で次の式で
あると仮定しています。つまり,能力の高い人も低い人も
分からないときには,一定の確率 cj で random guessing
n
I( )
D2
2
a j Pj ( ){1 Pj ( )}
j 1
(あて推量)して,正答を得ることができるというモデル
表されるということですが,要するに,θの関数であると
です。
いうことだけ押さえていただければいいかと思います。尺
しかし,4肢選択だとしたら,能力の高い人というのは
度値の関数になっているということです。ですから,同じ
絞ってきているはずですね。例えば,選択肢のうち二つは
テストでも,尺度値によって情報量は変わってきます。信
明らかに間違いで,本来の正答と,もう一つはどちらかな
頼性係数の場合には,テストに対してどういう受験者集団
という辺りでランダムに選ぶ。下位層だと,全然分からな
で推定するかによるということとか,推定の方法がいろい
いから,本当に4肢で random guessing(あて推量)する,
ろとあること等の要素はあれど,基本的にはひとつのテス
などということもあります。
ではこの cj のところに cj(θ)
トに対して一つの信頼性係数ですが,これはそうではなく,
としてθの関数と見做したら,モデルとしてはできるかも
テストに対して個人のθの値が異なる場合,つまり能力の
しれないけれど,私には現実に適用したときに,それほど
高い人・低い人それぞれについて異なる値を示します。
効果があるとは思えないのです。しかも,random guessing
(あて推量)が大きく影響するような,つまり難しい項目
を課しているわけですから,そういう項目を解かせて測定
をすることに意味があるのかどうか,寧ろある程度正答で
きるような困難度の項目で測定をするほうが,実際のテス
トとしては意味があるだろうと思うのです。その他もいろ
いろな理由があるのですが,どうしてもそれでなければな
らない時以外は,使わないほうがいいのではないかと思っ
ております。
これには違う意見をお持ちの方もたぶんいらっしゃる
と思います。
図の例は「日本語 Candostatements」というもので,
37
第Ⅲ部
研究会(下半期)
テスト情報曲線はきれいな対称形になっています。通常は
て立つ考え方が少し違うのです。ですが,考え方のところ
こんなふうにはならないのですが。これは平均0で,標準
でも,私自身は Partial Credit Model のほうはいま一つ
偏差が1ですから,だいたいの人は±2の範囲に入り,そ
しっくり来ず(これは決して悪いという意味ではありませ
れより外の範囲では出現率が低くなります。即ち,基準と
ん),Graded Response Model のほうが好きなのです。そ
してこの±2以内のどの辺にあるか,或いは,ある一定の
うは言っても最終的に同じデータに対していろいろな尺
情報量以上を示すθの値はどのくらいか,という線をテス
度を適用してみたのですが,Graded Response Model と,
トごとに見ていくことで,一定以上の精度で,きめ細かく
Partial Credit Model の二つを見ると,どちらでやって
評価していくことができるということです。
も,そう変わらないということです。だから,どちらが良
それから,IRT 尺度のほうは,複数の IRT 尺度が存在す
いか悪いかという問題ではないだろうということです。
るとき,これら各尺度の原点と単位をそろえた共通尺度を
IRT に関する参考文献は,自分の著書で恐縮ですが『組
構成する必要があります。IRT 尺度では,項目パラメタ値
織心理測定論』(1999)があります。今はもっと新しい本が
や,特性尺度値を表現する目盛の原点と単位とは線形変化
いろいろと出ていると思いますので,それらをご覧くださ
の範囲内で自由に決定できるという性質があります。
い。ただ,少しだけ内容をご紹介すると,項目数が少ない
異なる原点と単位を持つ複数の IRT 尺度は,適切な線形
変換を行うことで,全て共通の原点と単位を持つ共通尺度
ところに適用した場合の,様々な問題・課題について本格
的な研究をした結果を載せております。
に合わせられる。これを IRT 尺度の等化と言います。例え
ば,年度毎に或いは年度間に複数のテストがあり,それぞ
れの尺度ごとに IRT 尺度構成をしていたら,それぞれのテ
ストごとに原点と単位が異なるのですが,適切な線形変換
4
CAT の基礎
を行えば,共通尺度に全部合わせられるということです。
但し,この適切な線形変換にあたって,どうやって線形
変換の等化係数を求めるのかということは問題ではあり
ます。
■多値型モデル
Graded Response Model(段階反応モデル),これは 1969
年に鮫島(史子)氏が発表されています。それから Partial
Credit Model
(部分得点モデル)
で,これは 1982 年 Masters
のものです。更に,Modified Graded Response Model と
か,Generalized Partial Credit Model(一般化部分得点
モデル),後者は今,東北大学にいらっしゃる村木(英治)
氏のモデルです。
Graded Response Model は2パラメタ・ロジスティッ
ク・モデルから拡張されたものであり,Partial Credit
Model は,Rasch モデルを拡張したものになっています。
私自身は Graded Response Model のほうが2パラメタ・ロ
ジスティック・モデルからの自然な拡張として受け入れや
すいです。
要するに,段階付けられたカテゴリが,例えば五つある
わけです。それぞれに,あるθ値の人がそれぞれのカテゴ
リを取る確率を図のような曲線で表すということです。そ
の点は,Partial Credit Model も Rasch モデルの拡張で
すから,同じような形の曲線になります。しかしその拠っ
38
それでは CAT(Computerized Adaptive Test)の基礎と
いうことで,お話を進めていきたいと思います。
CAT の利点のひとつは,全ての受験者に対して高い精度
の測定が実施可能であるということです。但し項目プール
が整備されていればという条件つきの話ですが。項目プー
ルがあまり整備されていない状況ではこんなことはでき
ませんので,そのことに注意しなければいけません。利点
というのは,常に前提条件があるのですね。
2点目は,精度を落とすことなく,受験者一人当たりに
実施する項目数を減らすことができるということです。テ
スト実施時間も節約できるということです。テストの実施
時間は,やはり短いほうがいいのでしょうか。程度問題で
すが,例えば MMPI(Minnesota Multiphasic Personality
Inventory) 系 の パ ー ソ ナ リ テ ィ 検 査 や , C P I TM
(California Psychological InventoryTM)のようなテスト
は 500 項目あるわけです。必要があってのことでしょうけ
れども,我々が普通に受検しても,途中で回答が嫌になる
のですから,実際問題としてそれを精神神経科にいらっし
ゃる患者さん,或いは社会復帰直前ぐらいの人たちに回答
させるのはかなりきついですね。そういう場合は本当に,
単に時間を節約できるという以上に切実な問題なわけで
す。
第11回
Computerized Testing―基礎と応用―
それから,難しい項目が続いて,受験者にフラストレー
ションや不安を起こさせない。或いは易しい項目が続いて
受験者が飽きたり,適当に解答したりということがないよ
う,最適な項目を提示していくことができます。
これは付加的かもしれませんが,実施する立場にとって
は受験者の予定に最大限配慮して実施できます。テスティ
ングセンターに予約をして来てもらう方式ばかりではな
く,家庭から電話でやるとか,或いは Web でやるとか,い
ろいろな方法があると思います。
UCLA にバックマンという応用言語学の研究者(Lyle
F.Bachman)がいるのですが,そこでは Web 上でプレイス
メントテスト的な,外国語のテストを実施したりしていま
す。プレイスメントテストですから,問題項目に関するセ
キュリティの問題がかからないわけですね。といって無制
限に項目が表に出ていいとは言いませんが,プレイスメン
トテストで事前にテスト項目を入手して,不正に高い点数
を取ってレベルの高いクラスに入っても,結局苦しむのは
自分ですから,あまり意味がない。
それに対して High Stakes Test というか,自分自身の
処遇に非常に大きな影響を与えるときには,そういう意味
で求められるセキュリティの高さは違ってくるというこ
とです。
CAT の形式には項目固定タイプと,項目可変タイプがあ
り,項目可変タイプというのは,項目があらかじめ項目特
性(主として困難度)に基づいて,ネットワーク状に配列
図
項目固定型多段階テスト
に。図のなかで真横への経路の意味は何かというと,実は
多肢選択形式の項目を念頭に置いていて,正答選択肢なら
ば上,誤答選択肢の中でも中程度のものは横にというよう
なネットワークを組んでいます。この方式は実は CAT では
なくて,テスト過程が管理しやすくて,ペーパーテストで
も実施可能なのです。例えば私が昔,大学院生の時代に「教
育心理学研究」に出たものですが,一定の効果があったと
いうことが示されました(芝・野口・南風原,1978)。関
心のある方はそれをご覧ください。
■項目可変型多段階テスト方式
それに対して可変型のものですが,項目プールが整備さ
れていることが条件で,どうやって最適な項目を選び出す
かという項目プールからの項目選択基準に応じて,最大情
報量方式,それからベイズ方式などがあります。
受験者の解答後,瞬時に次に提示するのに最適な項目を
されています。受験者には逐次項目に対する応答に応じて,
決定するための数値計算を行い,その内容を提示する必要
ネットワーク上の項目が提示されます。
があるわけです。受験者がすでに何項目か解答をして,さ
それから項目可変タイプは,あらかじめ項目特性が推定
らに或る項目に解答をする。その時点で,その人の能力推
されている項目プールの中から,ある基準に照らして最適
定値を計算し,さらにその推定値を基に,最適な項目を項
な項目を逐次取り出して,受験者に提示します。項目プー
目プール中から選び出して,その計算をします。しかも選
ルが整備されていることが条件です。固定タイプも,結局
び出した項目の内容を項目プールから取り出してパッと
ネットワーク状に配列されて固定しているわけですから,
画面上に出してくる必要があるわけです。ですから,コン
ただネットワーク状に配列すればいいというものではな
ピュータの利用が不可欠です。
く,いわば項目プールに相当するものがきちんと整備され
実は,最近のコンピュータでは全然問題はないのですが,
て,項目がきちんと配列されていないと話にならないわけ
昔々のその昔は,こんなに高速ではなかったものですから,
です。ですから,これは結構大変です。
画面表示が追いつかなくて,ちょっと待つ感じになってし
項目固定型の場合は,最初はツリー状に配置された項目
まうのですね。解答者は嫌気がさしてしまいますので,結
に順次解答をして枝分かれをして進み,そのあとは複数の
局,常に最適化をしているのではなく,一つ前までの情報
層状のネットワークを上下して進むということで図のよ
で最適化したものを準備しておいて次に出していくとい
うになります。層がいま1∼6とあります。これは易しい
う工夫をしなければならない時代もありました。ですから,
ものから難しい項目への流れです。最初はツリー状に,で
コンピュータの技術と言いますか,性能の向上もやはり大
きた,できない,できた,できた,できない……そして6
きく影響をするわけですね。
層から先は層の間を上下に,できたら上,できなければ下
次ページの図をどこかで見たことがある方もいらっし
39
第Ⅲ部
研究会(下半期)
ゃると思います。項目プールにいろいろと項目があり,×
性尺度値は,事前分布に正規分布を設定して,一項目実施
印はすでに実施したものを示しています。それから,上の
したあとは,事後分布の平均,分散と等しい平均,分散を
配列は受験者の解答パタンです。正答,誤答,誤答,正答
もつ正規分布を次の事前分布とする,という手順を繰り返
……。既に出た反応から,選択の基準を計算して,その基
すのですが,一項目終了ごとの事後分布は正規分布にはな
準を最大にする項目をこのプール中から選んで次に実施
らないのです。そうすると,今の高速なコンピュータでは
計算できるのかもしれませんが,昔のコンピュータでは複
雑な分布を瞬時に計算することが出来ず,平均,分散と期
待値ならば簡単に計算できましたから,事後分布は正規分
布ではないけれども,その平均と分散を持つ正規分布を次
の事前分布とするということで,ここでは分布を置き換え
ながら進めるのですね。というように,計算の煩雑さを工
夫しているということです。
期待事後分散が基準値以下になった時点でテストを打
ち切ります。即ち次の項目に正答した場合と誤答した場合
の平均を考えます。これはご存知の方にとっては余計な注
図
項目可変型多段階テスト
釈かとは思います。
します。図では4問目まで解答がありますが,5問目が終
われば,そこまでの情報を基に,同様の手順を繰り返して
いきます。選択の基準をどうやって決めるのかというとこ
ろが問題になるわけですね。
■最大情報量方式
ベイズ方式の場合は,受験者に対する事前情報を利用し,
最大情報量方式の場合は,何項目かを最初に固定しておく。
易しいものから難しいものまで適当な間隔で抜き出して,
全員に同じように実施して能力特性尺度の推定値を求め
ます。一方ベイズ方式の場合は,受験者に関する事前情報
最大情報量方式というのは,すでに実施した項目の応答
を利用して,最初の項目から最適な項目を実施することが
パタンから,受験者の推定尺度値を計算して,項目プール
できます。ただ,事前情報をどう利用するのか,しかもそ
中からその推定尺度値で最大の項目情報量を示す項目を
れを事前分布という形にどうやって定式化していくのか
選択する。その推定尺度値は動くわけですね。“動く”と
というあたりが問題ではあるのですが,とにかくそういう
いうのは,例えば5項目実施した時点と,10 項目実施し
ことが可能です。
た時点の推定尺度値は異なります。ですから,最終的に見
ただ,次の事前分布を正規分布で近似することが妥当か
直してみたときに,最適な道筋になっていたかどうかとい
どうか。Owen(1969)による方法では,結構うまくいくこと
うのは何とも言えませんが,実施中は各時点での推定尺度
はいくのです。それから,近似しないとして,瞬時に計算
値を求め,それに対してそこで最も情報量の高い項目を選
をして次の項目が選択できるのか。つまり,正規分布で近
択して実施する,というのが最大情報量方式です。
似しないで,事後分布の形で決めて数値計算で求めて,本
そうは言っても最初の数項目は,初期値を求めるために
固定しておきます。
今も申し上げましたが,実施中は,個人の最終的なθで
当に実際に瞬時でできるのか。しかし,それが解決したと
しても,ベイズ方式に限らず,項目プールの整備が大前提
であることは変わりません。
はなく,推定値を基に項目情報量を計算しているため,最
終的な推定値で計算した場合と途中段階のそれとは必ず
しも一致しません。
■ベイズ方式
5
CBT・CAT の実際
それに対して,ベイズ方式とは,ベイズ統計学を積極的
に適用して,受験者の特性尺度値を推定するという手順を
とる方式です。随分古いのですが,Owen という人の 1969
年の論文があります。その方法は次のとおりです。能力特
では,
ここから CAT と CBT の実際の話に入っていきます。
まずは,日本語口頭能力試験をご紹介します。これは CBT
です。ただ IRT の事例ということではなく,まだ開発中で
ということもあり,尺度についても精度を高める余地が残
40
第11回
されている試験です。
5.1 日本語口頭能力試験
コンピュータを利用した日本語口頭能力の測定という
Computerized Testing―基礎と応用―
目的地にいたる経路を説明します。ですが,パソコンに向
かって話すので,それがやりにくいという人と,やり易い
という人がいます。後者は,テスト中に人に見られている
といろいろと気になるから嫌だということです。
ことです。外国語としての日本語を測定する試験として日
それから,商品の取替えを交渉する。買い求めた辞書に
本語能力試験があるのですが,その中には口頭能力の測定
印刷汚れがあったために,店頭で新品との交換を求めると
がなかったのです。それを加えることを意図して,日本語
いう想定に基づく交渉の課題です。これは相当日本語能力
口頭能力試験というものが開発されました。
が高くないと出来ない課題で,先程の日本語能力試験で1
実はこの調査に私も一員として参加したのですが,すで
級或いは2級の受験者クラスの人を想定しています。それ
にこの委員会は終了しております。ですが,有志で開発の
から,画面に順次提示される 4 コマのイラストを元にスト
継続を行っております。この日本語能力試験についてご存
ーリーを構成する。それを日本語で説明します。
じない方が多いと思うのですが,1984 年から実施されて
いる日本語能力測定に関する試験の嚆矢であるというこ
とです。勿論,戦前や戦中など日本語に関する試験をやっ
このような課題が出るのですが,ここから先はまだ開発
途上のものを少しだけお見せします。
< デモの紹介については,詳細割愛 >
ていた可能性はあるのですが,大規模な形で実施している
試験は初めてです。独立行政法人国際交流基金と財団法人
日本国際教育支援協会とが共催でやっています。日本国内
及び海外において,原則として日本語を母語としない人を
対象に,日本語の能力を測定し,認定することを目的とし
て,能力水準に応じて四つの級を設定しています。
「文字・
語彙」「聴解」「読解・文法」の3類に分けて測定をして
います。ですから,ここに「口頭能力(スピーキング)」
或いは「ライティング」は入っていないわけです。
この試験は,日本への留学生の日本語能力を測る試験と
して使われていた時代もあります。ただ,現在はそちらの
ほうは分離独立をして,別の試験になっています。日本語
能力試験は純粋に日本語を母語としない人を対象として,
測定認定することを目的とした試験になっています。
その中に,口頭能力を測定する試験がありません。今,
日本語能力試験は 30 万人を超える受験者が全世界である
わけです。センター試験が 50 万人を超えることと比べて,
かなりの大規模な試験だということです。口頭能力という
と,人間のテスターがいて受験者がいて,それで試験をす
る方式が多いのですが,大規模試験の中で実施をするとい
う拘束条件から,それはとてもできない。そこでパーソナ
ルコンピュータによって課題提示し,受験者の発話の音声
を記録します。ただ,評価の段階は訓練された評価者でや
ります。包括的(holistic)な評価ではなくて,二つの側面
から分析的な評価をやる。具体的には言及事項の量的な評
■評価・評定
評価は全て訓練された評価者が行います。
チェックリスト評定という,量的な部分ですが,辞書の
取替えの問題で「昨日こちらで辞書を買ったら汚れていま
した。まだ使っていないので取り替えてほしい」というよ
うなことを言って欲しいわけです。それがちゃんと入って
いるかどうかをチェックするのです。そもそもどうやって
そうした解答に求める要素を決めておくのかということ
ですが,これは我々日本語の母語話者に対して実施して,
どういう解答をするかというのを集めます。コーパス
(Corpus)というものがありますが,そこまで大げさではな
く,年齢によって微妙に変わったりしますので年齢にもバ
リエーションをつけて,それから地域もバリエーションを
つける形で,どちらにしても取替え課題ではあまり地域の
バリエーションはないかもしれませんが,とにかく日本語
の母語話者の模範解答というのをデータから決めておき
ます。そして各要素が入っている,入っていないというこ
とをチェックするわけです。これがチェックリスト評定で
す。即ち量的な評価です。
それに対して査定基準評定という質的なところは,応用
言語学というか,言語テスティングの知見に基づいている
のですが,「即応性と滑らかさ」「発音の分かりやすさ」
「語彙の分かりやすさ」「構造の分かりやすさ」が全ての
課題に共通な査定項目となっています。正確さに重点を置
定(チェックリスト評定)と,言及方法の質的評定(査定
基準評定)という質と量の二側面でみようということです。
課題例としては,例えば道順を指示させます。PC 画面
上の略図を元に,課題文中で想定した聞き手に,受験者が
41
第Ⅲ部
研究会(下半期)
いた,口頭能力測定と言えます。具体的には評定結果は前
ページの表のようになります。
■実施可能性の検討
そしてこのような口頭能力測定がうまくいくのかとい
う実施可能性について検討しました。国内だけでうまくい
ってもこの場合はだめなので,外国語としての日本語能力
を測定するわけですから,海外でできなければ話にならな
いわけです。それを確認します。
それから評価方式,そして評価結果ももちろん検討する
ii:敬語,ポライトネス,待遇表現,授受表現等を駆使した
社会言語学的能力
iii:視点の定置,それに伴うヴォイス等を使用し,場面や
状況を叙述,描写する能力
iv:接続詞,指示代名詞,副詞等を駆使した結束性のある段
落構成能力 など
3)口頭能力を発揮するために求められる認知能力及び社会
文化能力,例えば
1.漫画,写真,平面地図等の含意やストーリーに関する読
み取り能力
2.商店,留守電,図書館等の場面や状況に関する社会的背
景知識
などである。ただし,時事問題は,試験実施時の情勢の影響
が大きいので取り上げない。
ため,2001 年の8∼10 月に国内5カ所,それから海外で
も実施しました。海外は実施し易いところを選ぶのですが,
■結果の分析
中国・タイ・マレーシア・オーストラリア・インドネシア
これは結局,評価者の問題です。1名の受験者に対して
など,だいたい日本語学習者の多いところで実施をしまし
2名の評価者を配置しました。細かくは省略しますが,評
た。受験者数はおおよそ 200 名ぐらいでした。
価者の間の相関がチェックリストの量的な部分で 0.89。
それから査定基準,質的な基準で 0.71。両方を合わせた
■試験実施の手順
試験は個室内に設置されたコンピュータの前に着席を
します。音声を出しますので,ブースで隣の音声が聞こえ
ると困るわけです。発話が隣に聞こえては困りますので,
結局,この時点では個室内に設置したコンピュータ前に着
席をして解答してもらうことにしました。
まずコンピュータ試験の説明等をします。本試験のあと,
試験の妥当性を検討するため,一部受験者に次の2つを課
しました。ひとつは OPI(Oral Proficiency Interview)と
言い,米国の国務省で開発が始まったものですが,その日
本語対象版です。訓練をされたテスターが1対1で面接す
るという,口頭能力に関するインタビュー形式のテストで
す。これは実際には何万人に対してできるものではないの
ですね。もう一つが Candostatements 調査です。これは
「∼ができますか?」という自己評価をとる質問調査です。
最後に試験に関するアンケート調査を行いました。
もので 0.83 と高い値を示しました。
相関係数の特徴として,例えば一人の人は高いところ,
そしてもう一人の人は低いところで付けていても,パタン
が一緒だと相関は高くなるのです。ですから,数値の大き
さだけでなく差の絶対値というものを見なくてはいけま
せん。値の評価は難しいのですが,全体としては小さく,
評価者間の評定の一致度は高かったということです。この
場合は,評価者はかなり訓練をさせていただきましたので
高かったのですが,もちろん誰が評価してもこうなるとい
うものではありません。
また,各評価対象を2名が評価しているのですが,その
評価者の評定を平均したものを個人の受験者の評定デー
タとして分析をしてみたら,チェックリスト評定の部分に
関してはα係数で 0.829 になります。一因子性が高いこと
が確認されました。
それから査定基準,質的なほうですが,プロマックス回
■測定対象口頭能力
転で斜交する2因子を求めたところ,因子間相関が 0.626
測定対象は次のような内容になります。
測定対象口頭能力
1)発話テクストを算出する能力
母語話者データを参考にし,当該課題に対して必要十分な
テクストを構成する項目を洗い出し,チェックリストによ
り測定する。
2)口頭技能
1.発話のわかりやすさを構成する能力
音声,語彙,文法,談話等の言語形式に関する知識と運用力
2.発話の「滑らかさ」や「適切さ」を構成する能力
i:聞き手にストレスを与えない即応力,及び制限時間内に
必要な情報を伝えられる発話速度を維持する能力
です。これは2因子取るか,取らないかは微妙なところで
はあります。ですが,「即応性・滑らかさ」「論理的説明」
「主張の論理性」というのは2つの因子の両方に関係して
いて,「語選択の適切性」「ポライトネス(語彙・構造)」
「段落間の結束性」「ハイライト(心情・情景)」に関す
る因子と,「分かりやすさ(発音・語彙・構造)」「スピ
ーチレベル」「丁寧さ」に関する因子と,確かにある意味
では二つに分かれるなというのは分かります。しかし,前
述のとおり因子間相関が 0.626 です。
では2因子にしておきながら合計得点を求めて,査定基
42
第11回
Computerized Testing―基礎と応用―
準得点として扱ったならばどうなったかというと,α係数
についても項目応答理論を用いる。そして,4.検査の実
が 0.8 でした。受験生へのフィードバックには二つの下位
施は適応型テスト方式を用いたいということでした。それ
得点を平均する意味もあるだろうと。だけれども,査定基
で誰か適切な人材はいないかということで,IRT の専門家
準がどうで,量的な部分はどうでというフィードバックの
はそんなに多くはありませんし,方針のうち「1.鉄道に関
仕方でもいいのではないか。ちなみに質的な部分と量的な
係の深い素材を用いる」ということが重視されて私に委託
部分の相関では 0.809 でした。やはり相関が高いわけです
されたようです。それはともかくとして,学生にも被験者
ね。ただ,受験者の能力の範囲,能力水準がそのくらい上
になってもらったりしたのですが,「先生,これは仕事で
から下までいたかとか,いろいろな要因でこの値は変わっ
すか?趣味ですか?」と言われながら「仕事だ,つらいな」
てきます。とりあえずやってみた結果が上記のとおりです。
とか言いながらやっていました。
以上の内容に関心のある方がいらっしゃいましたら,こ
れは日本語教育学会の「日本語教育」誌に論文として載せ
ております(2003,2004)。
5.2 識別性検査 A-1001
識別性検査については,簡単にご説明しますが,これは
ぜひともお見せしたかったものです。
■識別性検査とは
鉄道事業における最大のサービスは「安全」だそうです。
実は鉄道運転規則というものがあるのですが,そこには
『次に掲げる作業を行う係員については適性検査を行い,
「知覚の速さ・正確さ」領域の問題はクレペリン検査と
その作業を行うために必要な知識および技術を保有する
いうわけではないのですが,一つ一つの課題はやさしいけ
ことを確かめた後でなければ,作業を行わせてはならな
れども,どのぐらい量的にできているかをみます。「関係
い』とあります。例の尼崎のJR西日本の事故がありまし
判断力・応用力」領域の問題は,一つ一つがやや易しいも
たので,この考え方はもっと厳密になるはずです。
のから難しいものまであるのですが,じっくり取り組んで
国鉄(日本国有鉄道)の時代から続けられてきた識別性
いけばよい。そして,「記憶」領域というものがこれまで
検査というものがあるのですが,ある種の知的能力を測っ
の識別性検査にはなかったのですが実験的に加えてみま
ている検査と言っていいと思います。ここでお話しするの
した。
はその検査の改良のための委託研究過程で,あくまでも実
■各問題の概要
験的に作成されたものであって,実際の業務で用いられた
図形・記号の問題からご紹介します。これはほとんど趣
ものではありません。東日本旅客鉄道安全研究所からの委
味ですね。画面下に記号が五つあって,上段にパッと記号
託研究として実施したものです。
実験的な検査項目には,抽象的なものばかりを使うなと
いうことでした。検査を受ける人たちは運転関係の従事員
ということで,運転士だけではありません。車掌,そして
列車指令や,新幹線ならば東京駅のところにある,どの列
車が今どこを走っているかというのが全部分かるような
所で,パネルの前でいろいろと指示を出しているような人
たちも含みます。
■検査の改良
改良方針は次のとおりでした。1.検査項目には鉄道に
関係の深い素材を用いる。それから,2.検査の実施にパ
ーソナルコンピュータを使う。それから,3.テスト理論
が1つ表示されます。五つの中から同じものを選んでクリ
ックしろというものです。
次に異同弁別問題です。左と右とで図版が同じか違うか
43
第Ⅲ部
研究会(下半期)
を答えさせます。これには列車の前面をパタンとして用い
ました。図にあるのは 100 系の新幹線,205 系という山手
線を以前走っていたもの,それから EF66 というJR貨物
の電気機関車です。画面左右の各領域に含まれる図形・記
号の数を 3,4,5,6,8 と変えることによって,難易度を変え
たのです。上の図は6つ含まれる場合です。左右で見て違
うのがおわかりと思います。
それに対して,空間図形の推理問題が次の図です。普通,
例です。
次が,新たに加えた記憶問題です。「色」というものを
加えてみたのです。図ではモノクロでしかも一斉に出てい
ますが,実際のテスト画面では全て隠れています。赤がパ
ッと出て消えて,緑が出て消えてと,順番に1秒間だけ表
示されます。それを見て,どういう順番に表示されたかを
覚えて答えます。記憶の順唱課題,逆唱課題という言い方
をここではしていますが,知能検査ではよく「3,7,6,
8」というように数字が使われます。それを「色」や「ト
レインマーク」など,いろいろな鉄道の素材に置き換えた
のですが,「色」の記憶が一番難しかったようです。
■テスト結果の尺度化
予備テストの結果を IRT を用いて尺度化するときには,
少し工夫しました。課題の一つひとつは易しいけれど,結
局はどれぐらいできるかという反応時間の問題になりま
す。PC で実施すると反応時間を記録することが可能だか
心理学の知能検査では立方体を積むのですが,これには
ら,それを直接得点化するという考え方があると思います。
PC 枕木(prestressed concrete sleeper)という,コンク
その際には反応時間を横軸にとって,別の変数とモデル化
リートで作られた枕木を用いました。色がついた枕木に接
するということもあるかもしれませんが,そうは言っても
している枕木の数を多肢選択式で答えるものです。
実験心理学の実験とは違い,0.何ミリセカンド単位を問題
それから,図形・記号系列の問題です。これも順番にパ
にしませんので,本研究では受験者の各項目に対する解答
時間と解答の正誤とを組み合わせてカテゴリを設定し,
「段階反応モデル」に基づいて時間情報を組み込みました。
カテゴリの境界には,全ての受験者の正答項目の反応時間
を大小順に並べて,四分位(25,50,75%)にあたる反応
時間を求め,それらを丸めてきりのよい数値,0.90 秒,
1.10 秒,1.40 秒を境界値として,カテゴリ 1∼4 に分け,
加えて誤答の場合を別のカテゴリとしました。そうすると,
graded な反応になるわけです。それで Graded Response
Model(段階反応モデル)を適用した,つまり,各カテゴ
ッパッと出てくるのですが,グリーン車・グリーン車・指
定・グリーン車,グリーン車・カフェテリア・グリーン車・
グリーン車・指定と並んだときに,次にくる記号を選んで
答えろという課題です。系列を作る。これは易しい項目の
44
リ1∼4のいずれかを受験者の応答に割り当てたという
ことです。これが最適な方法かどうかは分かりません。そ
れから誤答の取り扱いをどうするのかという問題を解決
することと,従来の作業量に基づく得点化法による結果と
第11回
比較をする必要があると思います。
Computerized Testing―基礎と応用―
調査では,各被験者から全項目の反応をとっています。そ
2パラメタ・ロジスティック・モデルによる IRT 尺度化
れを用いて,事後にシミュレーションをしたのです。つま
には,当時 BILOG3(市販ソフトウェア,現行は BILOGMG)
り,項目の応答と,応答時間について,仮にテストが 30
というソフトを使いました。分かる人は分かると思うので
項目ならば 30 項目分の一人一人のデータがあるわけです
すが(笑)。当時はそれしかなかったと。
が,ある 15 番目の項目を実施したときにその人の反応が
2パラメータ IRT 尺度化を試行した結果,テスト情報量
正答であったならば上へ行くように。そして,その次も同
の観点からも実用化に向けて今後の作業を進める方向性
様です。そういう形で,既に全項目テストで答えていたも
が示されたわけですが,項目パラメータ値の推定に用いた
のを,適応型化してシミュレーションしたわけです。
受験者数はこのときは少なかったのですね。
■適応型テスト
更に,適応型テストを構成しました。記憶問題を水準が
四つで項目固定型の多段階テスト方式にしました。
「数字」
「色」「時刻表の記号」「駅名」それから「列車種類」と
いう素材別にして,提示する記号の数も変えました。順唱
課題は記号数が 4∼7 個。それから逆唱課題はやや難しい
ので記号数が 3∼6 と,順唱より1個少なくしました。
項目の提示順は図のとおりです。項目固定型で配置をし
テストの評価をするとして,これは基準の問題になるの
ですが,何を基準にするかが難しいのです。例えば解答時
間をみると,およそ 70%程度に短縮できたということで
す。それから実施項目数は 60%程度になりました。それ
でもテスト情報量は元の 80%ぐらいの水準で,推定尺度
値に関しても,特に望ましくない影響が出ている様子はあ
りませんでした。
左の図の右側のようなケースもなくはないです。最初の
「数字」課題は全正答ですが,「時刻表」課題で誤答が続
いています。尤も,多くの人はちゃんと正答しています。
条件をかえていろいろ検討しましたが,全受験者を通し
ての最終結果を見ると,項目数を半分にしても,テスト情
報量が元の 80%を超えました。テスト情報量基準とあり
ますが,テスト情報量を基準としたら,60%の時間で,項
目数もおよそ 60%で,テスト情報量では 90%に近い値を
示しています。初期の項目数の半分近いところで許容水準
を満たしているということです。
てあったわけです。既に IRT 尺度化した項目を4段階で,
最初の「数字」だけは全部解かせます。数字を解かせて,
図では「4問すべて正答」ですね。
そして最上位の段階でできた時は次の素材の問題にな
る。できないときは下へ下がる。最上段で正答したときは,
この素材のものがもう無いので,次の「時刻表」素材へ行
きます。そしてこれが間違ったら下がる。下がってこれは
できたら上はなくて,実際にもう実施をして間違ったので
すから,今度はこちらの素材へと行く。例はわりときれい
に,やや高い水準に能力値がありそうだとわかります。
上図の事例(左)は順唱課題でした。逆唱課題(図中 右
側)は,提示された順序と逆に素材を入れていきます。数
字はわりとやさしいのです。そして色に行って,これも最
上位の段階で出来たのですね。そして時刻表課題になって
誤答,誤答という動きをしているということです。
今まで実際に被験者の人に適応型テストを実施したか
のように説明して参りましたが,実は実施しておりません。
5.3 語彙理解尺度
次に,語彙理解尺度です。これは,私の指導教官だった
芝祐順先生が 1978 年に最初に発表されたもので,言葉の
意味理解力を測定する尺度です。語彙数を測定するもので
はありません。知っている語彙の数を数えるというのでは
なく,意味の理解力を測定する尺度です。小学校1年生か
ら大学生までを対象とした 11 版の下位尺度で構成されま
す。
それらが等化され,すべての項目のパラメタ値が共通尺
度で表された単一の項目プールの形で整備されたのが
1982 年です(芝・野口,1982)。
この語彙理解尺度を用いて,適応型テストがいろいろと
試みられました。多層適応型テストというのは,コンピュ
ータを使いません。先ほども例としてご紹介しましたが,
中学校1年生から大学生まで,とても広い能力レンジを一
つのテストで測定するというものです。しかも,受験者ご
とに次に実施する項目が異なる(芝・野口,1978)。
45
第Ⅲ部
研究会(下半期)
これは PBT 版で次のように実現しました。5肢選択形式
で一つのページに複数の項目があるのですが,受験者はそ
のうちの一つだけに解答します。そうすると,その項目で
選んだ選択肢によって,次のページでどの項目に解答する
かという指示が出ています。例えば3番の選択肢を選ぶと,
その矢印の先に1とあり,次のページでは1番の項目に解
5.4 CAT システム実演
以降は実演になります。検査がどういうものだったかを
お見せします。
■CBT 版
**紹介のあった語彙理解尺度の CBT 版について**
答する,という方式を採っていたのです。なかなかうまく
いきました。
それから,在外日本人児童の日本語語彙理解力を測定す
1.イントロダクション
2.操作に関する説明を読む
るのに,適応型テストを使いました(芝・野口・大浜,1980)。
「スタートボタンをクリック」するとスタート
これはなぜかというと,語彙理解尺度は,日本の学年にあ
3.出題に関する説明を読む
わせて小学校 6 版,中学校が 2 版,高校が 2 版,それ以上
4.語彙理解尺度の例題。―――「下の最も意味の近いも
むけが 1 版,と計 11 版を作成していたのですが,在外日
のを右から選びなさい」――
本人児童の場合にはその区分での適用は難しいのです。小
5.「テスト開始」ボタンを押す。テストが始まる。
学校4年生相当の年齢だから,日本国内の4年生のものを
画面には残り問題数と,解いた問題数とが表示される。
やってうまくいくかというと,そうではない。そこで,何
6. 「実験は終了。ご協力ありがとうございました」と
年生相当の版を実施すればいいのか,例えば4年生相当の
いうメッセージが表示されて,終了。
学年だけれど,2年生ぐらいの冊子を使うのが適当だとい
うようにテストの最初で簡易的に推定するために適応型
にしたのです。
「前に戻れないので,慎重に」解答しましょう,という
のが CAT,CBT の問題のひとつです。戻って解答できるよ
それから,項目可変型の適応型テストがコンピュータ化
うにすることは可能かもしれませんが,現状ではそれはで
され,中学校2年生から高校3年生までを測定しておりま
きません。それから,冊子形式ならば,先のほうの問題も
す(柴山・野口・芝・鎌原,1987)。当時は,コンピュータ
含めてパラパラとあちこち見ることができるのですが,画
を使うといっても,ライトペンでディスプレイ画面を押し
面の中でしか見られないのでそれもできません。技術的に
て解答する,というような時代でした。
は不可能ではないのかもしれませんが,現状ではなかなか
うまくいかないというあたりに,受験者にとって多少やり
■尺度の同等性
「尺度の同等性の検証」ということがあり,今,語彙理
解尺度で PBT 版と,CBT 版とがあったのですが,その尺度
としての同等性を検証しておかなければいけません。
APA(American Psychological Association)の Guidelines
for computerbased test and interpretations(1986)に
よると,検証には次のことが求められます。
*両形式に解答した被験者の得点順位がほぼ対応しているこ
と。(完全に対応することには無理があるので,ほぼ対応
しているということ)
*平均・分散・得点分布の形がほぼ等しいか,尺度変換すれ
ば等しくなること
この点については,語彙理解尺度を用いて熊谷さんが
にくさがあるかもしれません。
解答はシステムのなかにファイルとして入っています
ので試験が終了したら,項目毎の正誤を表示することがで
きます。
これが CBT です。別に adaptive ではなく,全員同じ問
題項目を解答します。これを用いて,PBT 版と CBT 版とで
のテストの同等性を実験的に調べた研究が熊谷(2002)に
なります。そしてその時の結果では,この語彙理解尺度の
場合には同等であることが示されたということです。
■CAT 版
**紹介された CAT 版について**
2002 年に,CBT 版と PBT 版との同等性を示したものが,名
古屋大学の教育発達科学研究科紀要に載っています(熊
(CBT 版との画面の違いは大きく2点)
谷,2002)。
1.問題を解いているときの経過時間(秒)が表示される
2.都度,θと推定標準誤差とが表示される。
46
第11回
これは,汎用的につくったシステムに,画像ファイルと
7
Computerized Testing―基礎と応用―
質疑応答
して語彙理解尺度を入れたものです。なので,項目のファ
イルやパラメータのファイルなどを入れ替えれば,どんな
ものにも使えます。
―――IRT の適用に関してですが,伝統的に日本では大
問形式が多いです。こういう日本の文化がある中で,項目
ここに入っているのは都内の中学校1年生を対象にと
間の局所独立(local independence)を求めるような測定
ったデータに基づくパラメータです。順番に解いていくと,
を進めていくことの将来性と言いますか,そういう点でお
画面に表示されているθの値および推定標準誤差
考えを伺いたいというのが一つ。
(standard error of estimates)が変わっていくのがわか
もう一点,CAT の場合でも出題数を揃えるということが
ると思います。正解が続くとθが大きくなり,推定標準誤
あると思うのですが,収束基準をこえた後の出題について,
差が小さくなりますね。
項目の選び方および得られた情報量の扱いはどのように
ご覧のシステムが CAT 版になります。
考えるのでしょうか。
野口:後者の質問ですが,TOEFL 等で実際にはどうやっ
ているか分かりませんが,やはり情報量を上げていく形で
入れていくのだと思います。あと,やはり不公平感をなく
6
まとめ
すためだと思います。受験者の心理的な問題だと思います。
それから,前者はいろいろな考え方があるわけで,私も
CBT・CAT は,テストそのものに大きな変革をもたらす
コンピュータを必ずしも使う必要はないと言っているの
ものです。3次元画像や動きを入れることにより,現実場
と同じように,IRT を必ずしも使う必要はない。IRT を使
面に近い状況でのテストも実現可能です。全体の状況につ
うためには,それなりの条件,データが備わっていなけれ
いてもリアリティの高い検査を構成することが可能です
ばいけない。或いはデータの取り方として,或いは問題の
が,リアリティを追求しすぎていいかというと,そうでも
作り方がそうなっていなければいけません。
ないわけです。却って項目の応答に関係する心理特性が複
雑化しすぎる可能性があるでしょう。
特に,大問形式で云々の話になるのですが,これはなか
なか難しいのですが,何かを測定するときに,例えば言語
ですから,測りたいところに焦点を合わせた形でデフォ
テストの場合は小問形式で,―――TOEFL が典型的です―
ルメすることもまた大事なわけです。むしろそうではない
――うまくいくところがあります。けれども,パフォーマ
場合もありますが,検査の中身と測定したいものとを照ら
ンスの測定ということになってきたときにうまくいくか
し合わせて,それに応じて考えていかなくてはいけない。
どうかというのは,微妙なところがあるわけです。
検査の性能をかえって下げる結果に陥ることもあります。
結局はバランス感覚が必要ですねということです。
最後ですが,テストは媒体も大切ですが,測定する内容
ですから,適用できるときには IRT の形で小問で積み重
ね形式で問うけれども,評価全体として考えたときにどち
らがいいかをきちんと考えて動いていくべきだろうと思
が最も大切であることを忘れてはなりません。そこをきっ
います。例えば数学でも,米国では単問を沢山解かせます。
ちりとやっておかないといくらコンピュータを使っても
それに対して日本の場合は大問形式で解答させる。
だめなわけです。PBT のほうがどれだけいいか分からない
その大問形式のところに IRT を持ち込めるかどうかと
ということもあり得ますし,適切に設計・判断していくと
いうことはかなり難しいと思うのです。その場合どう考え
いうことは本当に大事なことです。ご清聴ありがとうござ
るかというと,数学の能力というものを評価なり測定する
いました。
のに,結局どちらの形式がよいのか。どちらがよいという
のではないかもしれません。それぞれ特徴があるのかもし
れません。その特徴を明らかにして,例えば仮に日本のい
ろいろな状況を考えたときに大問形式で細かく分けない
で解答させて,それを評価していくほうがいいのだという
ことであるならば,無理に IRT を適用する形に変えること
はないだろう,と。
ただそれは,日本独自で発展するのではなく,それを世
47
第Ⅲ部
研究会(下半期)
界に向けて,こういう数学の能力の評価というのはこうい
ります。そういった場合,このように標準誤差などを基準
うやり方が適切なのだ,ということを発信していく必要が
に収束したところを能力値とすると,収束した点が果たし
あると思います。
て受験者にとって適正な能力値になるのでしょうか,と。
ただし,一つのテスト全体の枠組みがあり,ほかの部分
一般的には例えば私が今まで受けてきたような試験は,得
が IRT 形式でやっている場合に,ある部分だけ違う形式と
意な分野も不得意な分野も,それを全て合わせての総合得
することができるかどうかというのは話が別です。全体の
点という見方だったりする。ということで,受験者の能力
設計の問題として考えなければいけないことだろうと思
の見方というものが若干異なってくるような点があるか
います。
と思います。先生はどのように思われますか?
■作問について
―――作る労力というのはどれぐらいですか。例えば簡
単なこういう検査みたいなものを想定すると……。
野口:大変だろうと思います。南風原さんもいらっしゃ
るからよくご存知だと思いますが,芝先生のところで作っ
ている時というのは,本当に随分長いこといろいろなとこ
ろでデータを集めて分析をしてということで,ものすごく
手間がかかりました。
そもそも項目を作る時に,題材を教科書や雑誌など,い
ろいろなところから取っています。ですから,かなりの時
間,労力が掛かっているわけです。
勿論それは個別の研究室で作っているから大変なので
あって,例えば組織化して作問するようなことであれば,
もう少しスピードアップしてできるかもしれません。
―――先程の熊谷さんのシステムでは,新しい項目プー
ルを作って,算数(教科試験)等でも使えるんですか?
野口:使えますね。
―――ということは,かなり汎用性があると?
野口:そうですね。インストラクションの部分に関して
別にファイルを持っていて,その内容を画面に出せばいい
ですし,問題についても可能です。それからパラメータの
推定値が入っていれば,新しく作ったものでも出てきます。
野口:これは一因子で保証しているからいいのですが,
そうはいっても集団データで分析して一次元であるとい
うことで一因子性が高いということが保証されるのです
が,個別に見たらいろいろな人がいます。
例えば,在外の日本人児童に語彙理解尺度を試した場合,
抽象的な言葉は意外と知っているのです。日本語補習校だ
けの場合もありますが,日本人学校に行っていると,学校
で習うことがある。ところが,日本人学校に行っている場
合は普段の会話も日本語かもしれませんが,日常的な言葉
を意外と知らないことがあるのです。そうすると,とても
易しい言葉を間違えたり,とても難しい言葉を知っていた
りするので,1 問毎に能力推定値が変動します。
幼稚園児での面白かった事例は,都心の幼稚園で実施し
た時に,他と違って軒並み出来ない項目がありました。そ
れは何かというと,「ぬかるみ」なんです。「ぬかるみ」
を知らないのです。マンションに住んでいる人が多く,舗
装された歩道を歩いて幼稚園に行くからです。尤も園庭は
「ぬかるみ」になるはずですが・・・。そういうことがある
と,多少変動しますが,テストにある程度の長さ(項目数)
を保っておけば,そうした項目が影響しても最終的には能
力推定値が収束するでしょう。
ただ,今お話があったように,出題できる項目数が限ら
れている場合には,修復が不可能なぶれをしてしまうこと
■解答時間について
―――今の話に関連してですが,先ほどの例だと,何問
ぐらい登録されているのですか?瞬時に問題が出てきた
ので,何枚ぐらいの画面から選ばれているのかなと。
野口:かなりの量だと思います。100 や 200 以上,もっ
と多い項目数です。
■能力の一因子性について
があるかと思います。
在外経験が長い子どもであるというように,特殊な状況
が分かっている場合には,調査時の基準をそのまま適用す
るのは無理なわけで,やはりテストする場合にも,そのテ
ストが本当に本人にとってプラスになるように,状況を踏
まえて適切性の判断をしなければいけないと思います。
―――CAT では,結局使う項目が限られてくることが起
―――先生のレジュメに(本稿 p45 の図),受験者の適
こらないですか?つまり,識別力が高い項目ばかりが使わ
応型としての進行状況というものが載っていますが,この
れて最終的には他の項目が無駄になる,言い換えると出題
ように基準が上下することがあるかなと,私もテストを受
が散らばらずに,特定の項目に集中してしまうということ
けた経験から思うことがあります。やはり私も仮に何か受
は起こりませんか?
験をしたときに,得意な分野,不得意な分野がそれぞれあ
48
野口:項目というよりは作り方だろうと思います。例え
第11回
ば,語彙理解尺度の場合だと,比較的難しい項目のほうが
識別力がやや低くなっている。易しい,困難度の低い項目
のほうが識別力が高くなったなどということがあるので
すが,困難度・識別力の両方の情報を使って選んでいます
ので,あまり偏るということは経験上ありません。
識別力の高いものを選んできますから,テスト情報量に
関しても識別力の影響は大きいとも言えますが,先ほどの
質問も,個人に対してどれだけの量の項目数を実施するか,
それから,どれだけの大きさの項目プールが設定されてい
るのか,ということとの関係だろうと思います。
■CAT における「コンピュータへの慣れ」の影響
―――私の会社では,実際に CAT を看板にしたテストを
Computerized Testing―基礎と応用―
りけりで,小さい子どもには考慮が必要かと思います。
―――そうすると,時間内に解答がなかった場合,次は
簡単な問題を選んで出題するようになるのですか?
野口:そうはなっていません。要するに一定時間内にで
きなかったということで,誤答と同じ扱いをしていると思
います。
■局所独立と実際場面
―――問題の内容について,CBT 版の評価をしています
が,項目プールから選ぶとき,一つ前の問題が次の問題の
ヒントになっていたらいけないかと思いますが,そういう
ことはないですか。
野口:そういうことはありませんでした。
運営しているのですが,「コンピュータに慣れている人は
―――問題の形式は,何かの基準で事前に決定されたの
高い得点を得られるのでは」とか,「コンピュータの慣れ
でしょうか。それとも,関連しそうな問題は条件に合致し
によって得点が上がるということはないか」ということを
ても出さないようにするとか,そういう制御をかけたよう
よく質問されます。共通尺度で測っているから能力が上が
なことはないのでしょうか。
れば得点が上がりますよ,と返答しているのですが,熊谷
野口:今のところはそこまで深く考えていません。ただ
さんのシステムでは(適応型ではないのですが)コンピュ
やはりヒントになるものがあったりするのは考えなけれ
ータが使われていますけれども,同様の点について野口先
ばいけないは確かだろうと思います。
生はどのようにお考えですか?
ただ,これは IRT の問題かもしれませんが,局所独立性
野口:ご紹介した語彙理解尺度 CAT の事例では,なんと
というのがあるのですが,能力を固定したときに,ある問
いっても受験者がみな大学生なので,コンピュータに慣れ
題に正答したことが次に影響をしない必要があります。そ
ていると考えていい人たちばかりだったということがあ
うならない典型的な場合は,(1)の結果を使って(2)
ります。ですからハンディを感じるケースが出てこなかっ
を解きますという形式のものです。(1)を間違えたら絶
たのですが,これが例えば MMPI のようなものを実施する
対に次は解けないわけですね。そういうものは困るのです
として,対象がお年寄りやコンピュータに慣れていない方
が,例えば外国語のテストの場合には,短文ではないけれ
だとしたら問題が出てくるかもしれません。
ども長文でもない。中文ぐらいのパッセージ(引用文)を
それから,私がメガネを使っていて思うのですが,老眼
読ませた時に,2題ぐらい問題を出すことがあります。そ
になったら,やはり普通の表示サイズで画面を見るのはつ
うすると,同じパッセージを読ませているから,それを理
らいものがあるわけです。そうすると例えば画面のどこか
解しているという意味では,二つの項目間に何か従属関係
をクリックすると拡大表示になる,といった配慮が必要に
が出てくるのではないかという心配はあり得るわけです。
なってくるのだろうと思います。
しかしそれは,現実的には程度問題です。厳密にはその
―――関連するのですが,先ほど解答時間も記録されて
可能性を否定しきれないけれども,実際よほど同じ文の前
いましたが,あれは何秒か経つと「(自動的に)次へ」と
後に接近した箇所から問題を出すようなことをしなけれ
いうようなことになるのですか?
ば,大きな影響はないと。そしてまた,それも個々のテス
野口:それも設定できるようになっています。理由がい
ト単位での問題だと思います。要するに言いたいことは何
ろいろとあって,例えば相手が年少の子どもの場合には,
かというと,一般論としても勿論あるけれども,IRT を適
ある程度解答を待たないといけません。解けないうちに次
用するには個別のテストごとにいろいろなことを確認し
の問題になってしまったらやはりショックですし。ですか
ておかなければいけないのだということだと思います。
ら相手によって設定を変えられるようになっています。
或いは最初の説明で,「一定時間経ったら切れることが
あります」ときちんと言っておく。だけどそれも相手によ
49
第Ⅲ部
研究会(下半期)
参考資料・参考文献
渡辺直登・野口裕之編著(1999) 組織心理測定論項目反
応理論のフロンティア- 白桃書房
芝祐順・野口裕之・南風原朝和(1978)
のための多層適応形テスト
語彙理解力測定
教育心理学研
究,26,pp.229238
庄司惠雄・青山眞子・金澤眞智子・伊東祐郎・野口裕之
(2003) 大規模口頭能力試験開発に関する基礎的研究発
話標本採取法の検討-「日本語教育」116 号 pp.109118
日本語教育学会
庄司惠雄・野口裕之・金澤眞智子・青山眞子・伊東祐郎・
迫田久美子・春原憲一郎・廣利正代・和田晃子 (2004) 大
規模口頭能力試験開発における分析的評価の試み 「日本
語教育」122 号 pp.4251 日本語教育学会
芝祐順・大浜幾久子・野口裕之(1980) 在外日本人児童の
日本語語彙理解力に関する調査,東京大学教育学部紀要,
20,pp.111128
柴山直・野口裕之・芝祐順・鎌原雅彦(1987) 最適化テス
ト方式による語彙理解力の測定
教育心理学研
究,35,pp.363367
熊谷龍一(2002) 語彙理解尺度における CBT 版と紙筆版の
同等性の検証項目反応理論によるテスト作成・分析を通
した検討- 名古屋大学教育発達科学研究科紀要(心理発
達学),49,pp.4754
以上
50