付加価値モデル:生徒の学力向上と,学校および教師の評価

講演2
付加価値モデル:生徒の学力向上と,学校および教師の評価
講演2(翻訳)
付加価値モデル:生徒の学力向上と,学校および教師の評価
Henry Braun(ETS,アメリカ)
翻訳
大澤
公一(東京大学大学院教育学研究科)
2005年12月12日
於:東京大学
小柴ホール
生徒のテスト成績の増分(成長幅)の解析に基づく学校や教師の量的評価は,近年多くの支持
を獲得してきており興味深く将来性がある。そのような量的評価の方法には,Value-Added Models
(付加価値モデル)と呼ばれる統計手法が採用されている。付加価値モデルでは生徒個人の学業
の成長幅を,複数科目や複数年度に渡って縦断的に追跡したデータを利用し,生徒の成長に対し
て学校や教師が寄与している部分を推定することが目的となる。多くの為政者が熱狂的な関心を
寄せているにもかかわらず,付加価値モデルの技術的なレビューは,多くの深刻な問題を何年に
も渡って明らかにしてきた。実際,付加価値モデルの実践とその結果の利用は,実践的,技術的,
あるいは哲学的でさえもある複雑な問題を数多く提起している。本稿では付加価値モデルの共通
モデルを紹介し,方法論的な諸問題について議論する。また合わせて最近の研究についてのレビ
ューを行う。
(本稿は講演内容および事後の質疑応答を事務局が要約的にまとめたものである。翻訳前の英文は後掲。)
1. 付加価値モデルとは何か?
よって測定される個々の生徒の成長を,学年を追って縦断
的に追跡していこうというのです。生徒の年間の成長幅は
教育システムに新しい説明責任(アカウンタビリティ
ー)を導入することは,アメリカでは非常に重要な問題と
なってきています。説明責任とは,教育システムの様々な
レベルを評価する,というほどの意味です。例えば,学校
や教師が子どもたちの学習を支援するという職責を果た
しているのかどうかを評価するといったことが考えられ
ます。もちろん,説明責任の考え方は医学や法律であって
も,あらゆる職掌に関係する基本的なものです。近年まで
は,教育における説明責任の考え方は概して弱いものであ
りました。アメリカでは他の諸国と同様に説明責任の考え
方を強め,特にテスト得点に基づく説明責任の数量的要因
(評価)を導入しようという動きが見られるようになって
きています。この点が,今回の私の議論の主な内容という
ことになります。
この領域における興味深い技術的発展の一つが付加価
値モデルなのです。生徒個人のレベルで測定される成長や
到達度を考察しようというのがその発想で,テスト得点に
特定の教室や教員についての集団データとしてまとめら
れますし,学級を横断してある特定の学校についてデータ
をまとめることもできます。付加価値モデルの発想は,教
室,教員,学校といった様々なレベルで集団データとして
の成長幅を比較しようというものです。価値付加モデルを
利用すれば,学校や教師の比較を有効性の観点から行うこ
とが可能になると信じている人もいます。本日は,学校や
教員について何らかの判断を下すために生徒レベルのテ
スト得点を利用することの中に含まれる,統計学的,実践
的,あるいは哲学的な諸問題について議論していきたいと
思います。
付加価値という術語を用いるときに気をつけておかな
ければならないのは,私たちは生徒の成長に対する教育シ
ステムや教員,あるいは学校の寄与を問題にしているとい
うことです。生徒の成長そのものについて考察するのでは
ありません。生徒の成長は生のデータとして用いるのです
が,そこに統計学的な補正を施して(教員や学校の寄与と
183
第Ⅳ部
特別公開研究
米国における教育測定
しての)付加価値の推定を行います。従って,私たちは経
験的観測としての生徒の成長と,統計的推論あるいは因果
2. 付加価値モデルを説明責任の目的で利用するた
めの二つの方法
推論としての付加価値という二つの発想を分離する必要
付加価値モデルは,説明責任のために二つの方法で利用
があるのです。しかし,両者は統計解析という観点からは
することができます。まず,付加価値モデルは州全体の,
強力に関連しているのです。
あるいは州内のある学区の学校に焦点を当てて用いるこ
とができます。テスト得点によって測定される生徒の成長
に対する学校の寄与を分離することができるなら,教育的
な改善が必要な学校を見つけることができるかもしれま
Current Year
せん。また,寄与の程度によって学校に賞罰を与えること
もできるでしょう。
A
次に,付加価値モデルは学校の説明責任に焦点を当てた
+2
A
No Child Left Behind法の文脈で用いることもできます。
+2
その場合,付加価値モデルはある学区の教員レベルで適用
-1.5
B
-1.5
され,さらなる教育能力開発が必要な教員を見つけるため
B
に利用されるでしょう。そのような状況では,昇給や昇進,
Prior year
test score 2
スライド2
あるいは生徒の学習に対する貢献という観点から教育的
に有効でないと繰り返し判断された場合に解雇を行うな
ど,教員の職務評価の一環として付加価値モデルを利用す
ることができます。
まずスライド2をご覧ください。いま,二つの学校AとB
を考えます。横軸は前年度の生徒のテスト得点を,縦軸は
本年度のテスト得点をそれぞれ表しています。学校Aの生
徒の平均テスト得点は全ての学校の全体平均より2ポイン
ト高いことが分かります。また,学校Bの平均テスト得点
は全体平均より1.5ポイント低く,こうした傾向がテスト
得点の尺度上で例外なく観察されています。この状況はも
ちろん架空のものです。学校Bでは,平均的に生徒の成長
が1.5ポイント分全体平均よりも下であり,逆に学校Aの生
徒たちは平均的に2ポイント全体平均より上であることが
分かります。しかしながら,生徒の得点分布に着目すると,
学校Bの生徒の得点はみな高いのに対して学校Aの生徒の
得点はみな低いというのです。このような状況では,学校
Aの生徒は学校Bの生徒ほど出来がよくないということに
なります。これを根拠として何かを言うとすると,学校B
の成績は学校Aよりも優れているが,前年度からの成長幅
という観点からは学校Aの生徒のほうがより大きな伸び
をみせている,ということになるでしょう。従って,生徒
の現状に基づく学校の比較と,前年度から今年度への生徒
の成長幅に基づく学校の比較と,学校間の比較には潜在的
に二つの構図があるということなのです。
3. Adequate Yearly Progress (AYP)
No Child Left Behind法の下,2002年の連邦教育改革法
案を思い出していただくと,そこでは各学校はAdequate
Yearly Progress (AYP,十分な年間向上)を達成すること
が義務付けられています。AYPが意味するところは,一年
ごとに「熟達」レベルの教育基準をクリアする生徒の割合
が,2014年(全生徒が基準をクリアしていることが求め
られる最終年度)まで増加し続けなければならないという
ことです。この改革法案に対しては多くの批判がなされて
おり,特にAYP規制に対して批判が集中しています。
まず,各州が採用しているテストの質に疑問があります。
次に,上に述べた非現実的な目標は,各州が教育基準を定
める方法に焦点を当てることになります。私たちは,教育
基準を満足する生徒の割合という一つの基準に基づいて
ある州の学校を評価判断しているのが現実であり,またあ
る学年における年間基準に基づいても比較を行っていま
す。こうした教育現場の現実は,私たちがある生徒のコー
ホートと別の生徒のコーホートについて成績を比較して
いることを意味しており,その結果,学校や教師のパフォ
ーマンスとコーホート間の相違が交絡してしまっていま
す。もし,ある学校がある年度の翌年度に力の弱いコーホ
ートの生徒を入学させたとするならば,仮に学校としての
184
講演2
教育効果が優れていたとしても,(生徒の成績としての)
付加価値モデル:生徒の学力向上と,学校および教師の評価
スライド6は,実際の州における「熟達」レベルの教育
結果は悪化することになるでしょう。ですから,教育シス
基準を満たす生徒の割合に関する,1998年から2001年に
テムのパフォーマンスとコーホートの違いとが年度をま
かけての史実データです。この図を見ると,その割合は大
たいで交絡してしまっているのです。この点が,AYPに関
まかにいって一定のまま推移していることが分かります。
する諸問題を技術的な観点から厄介なものとしているの
MAはマサチューセッツ州,TXはテキサス州です。両者共
です。
に少しずつ達成率が向上していますが,その理由について
は私の前回の発表「共通尺度上への州基準のマッピング」
からお分かりいただけると思います。以下はこの手の政策
% Meeting Proficiency Standard
に関する諸問題に取り組んでいる最も創造的な科学者の
一人だと私が考えているRobert Linnの論文からとってき
ているのですが,彼の議論では各州のパフォーマンスは非
100
State A
80
常に緩慢であるために,カリフォルニア州が教育基準を満
たす生徒の割合を今後約10年間で45%から100%に引き
State B
60
上げることは不可能であるというのです。AYP規制は,生
40
徒が教育基準をあたかも満たしているかのように見せか
20
ける手段をとらせる方向に各州を促してしまうかもしれ
ませんが,それは教育的な見地からは非生産的であるので
Year
5
2002
2006
2008
2010
2012
す。
2014
スライド5
NAEP と州の教育基準の比較
スライド5は,仮想的な二つの州がそれぞれのAYP目標
NAEP and State Standards
Comparison
をどのように達成していくのかを示したモデルの例です。
州Bは,約30%水準の教育基準達成率から2014年の100%
Figure 5.9. G4 2000 Math: NAEP Equivalents to the State Standards of Proficient vs.
Proportions at or above State Standards of Proficient
に至るまで,右肩上がりの直線的な増加(成長)を見込ん
300
でいます。それに対し,州Aではステップ関数に似た形の
260
Mapped Scale Score
280
ライン,まずゆったり増加し,次いで平行に推移,そして
2009年に急激な伸びをみせ,その後は2014年まで緩やか
240
220
200
180
160
な増加(成長)を見込んでいます。このように,各州は最
140
0.0
終的な100%の教育基準達成率に向けて進んでいく方法に
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Weighted proportion at or above the standard
Mapped score
ついては,ある程度の裁量をもって臨んでいるのです。
NAEP proficient level
School Focus
7
スライド7
Adapted from Linn et al (2002).
Educational Researcher, 31, 3-16.
100
Percent Meeting Standard
TX
スライド7は前回の発表で用いたものを拝借してきたも
TX
TX
90
TX
80
のですが,ここから州ごとに設定された教育基準の(レベ
70
MD
MD/OR
60
50
CA
CA
MA
MA
ルの)違いが分かります。このグラフは,「熟達」レベル
OR
OR
MD
MD/OR
CA
に相当するNAEP等化尺度得点について説明しています。
CA
40
30
MA
MA
テキサス州は85%か90%の,マサチューセッツ州は25%
くらいのところです。問題は,今後10年以内に全ての州が
教育基準を満たす生徒の割合を例外なく100%にすること
20
Year
10
が期待されていることなのです。
0
1998
1999
2000
2001
6
スライド6
185
第Ⅳ部
特別公開研究
米国における教育測定
学校の説明責任と No Child Left Behind:
技術的な観点からは,たった一つの基準に寄りかかって
学校の説明責任を評価する方法は,学力レベルの低い生徒
が入学してくる学校,特に田舎の学校や都市部の貧困地区
の学校にとって不利に働くことになります。その結果とし
て,低レベルの学力で入学してくる生徒たちは,(学区レ
ベルではなく)学校レベルで操作されている「熟達」レベ
ルの教育要件を満たすことができないでしょう。その一方
で,学力レベルの高い生徒が入学してくる学校,いうなれ
ば社会経済的地位の高い生徒が入学する学校にとっては,
彼らは既に教育基準を満たしているので,ただ一つの基準
に寄りかかって学校の説明責任を評価する方法は有利に
働くことになります。貧しい生徒の多い学校は教育基準を
満たすことができません。さらに,利用可能な教育資源に
は構造的な格差(不平等)が存在するため,同じ州や学区
内であっても,貧しい生徒の多い学校は教育成果を上げる
可能性が低いのです。No Child Left Behind政策は,意図
せざる負の結果を多々招くことになるでしょう。例えば,
学力や能力レベルの低い生徒が多く入学してくる学校は,
教師にとって魅力的な職場に映ることはないでしょう。満
足な教育資源も提供できない「落第」教育機関のレッテル
を貼られた学校に,教師は自ら赴任したいと思うでしょう
か?このように,既にハンディキャップを背負っている学
ーホートの様相が大きく異なるような学校です。そのよう
な学校では,生徒や学校の状態に影響を与える無関係の分
散が大きいのです。
付加価値モデルと説明責任
この話の流れで,付加価値モデルの考え方は人々の関心
を集めました。付加価値モデルでは,各学年における生徒
の成長に基づいて学校の評価を行おうとするからです。前
年度から今年度への生徒のテスト得点の変動で表される
生徒の成長は,年度末における生徒の到達レベルよりも,
学校がどのような教育活動をしているのかということと
より密接に関連しています。年度末における生徒のレベル
は,生徒の学校全体における活動歴や就学前の履歴,ある
いは家庭の背景などの関数であるからです。そのため,付
加価値モデルの考え方は一つの進歩であると理解するこ
とができます。付加価値モデルの考え方は,貧しい学校に
とってはいろいろな意味でより公平であると言えます。生
徒の一年間の成長幅は,社会経済的地位や生徒やその周辺
の特徴との結びつきがそれほど強くはなく,かなり貧しい
学校でも生徒の成長を示すことができる一方で,そうでな
い学校では生徒の成長が見られないといった結果も起こ
りうるからです。ですから,学校間の比較を行うためのよ
り公平な根拠として,私たちは付加価値モデルの利用を考
えているのです。
校は,他の学校に輪をかけて遅れをとることになるのです。
次に,多くの学校では教師はあと少しで「熟達」レベル
の教育基準をクリアできる生徒たちに,自らの教育資源の
NCLB Improvement by Grade of
Successive Cohorts
多くを投入しようとします。その結果,教育基準にはるか
及ばぬ生徒や,あるいは基準をはるかに超える能力をもっ
た生徒たちを蔑ろにすることになるのです。これでは,教
2005-06
育資源を最適に分配しているとはいえません。
2004-05
最後に,これは全ての州について言える事なのですが,
Tracking
growth
of each
cohort
2003-04
学校や教師の中には生徒の得点を上げるために不正な手
2002-03
段に手を染めているものがあります。州レベルで,そして
GRADE
3
4
5
6
個々の学校や学級において甚大な教育的混乱を引き起こ
11
している原因が,この連邦教育改革法案にあるのです。
説明責任とコーホート
スライド11
測定の見地からの問題点として,学校の評価が前年度の
コーホートと今年度のコーホートの状態比較に依存して
いることが挙げられます。学校の移動や有効性とコーホー
ト間の相違は互いに交絡しており,こうした交絡要因を統
制することは通常不可能です。交絡が特に問題となるのは,
規模の小さい学校や,生徒の移動が激しく年度によってコ
186
スライド11をご覧ください。付加価値モデルの考え方と
の違いを強調するために,垂直線は現行のAYP規制におけ
る比較の流れを表しています。AYP規制の下では,例えば
ある年度におけるある学校の第3学年の生徒のパフォーマ
ンスをみて,次に別のコーホートについてパフォーマンス
講演2
付加価値モデル:生徒の学力向上と,学校および教師の評価
をみて,という具合に学年を固定して異なるコーホートに
といった成長目標に向けて邁進してほしい,と願うわけで
ついての比較を行うことになります(縦方向で示されてい
す。そのような教育システムには生徒の成長と状態の両者
る現行のNCLBでは,生徒のコーホートが本質的に交換可
が組み合わさっており,生徒の成長のみ,あるいは生徒の
能であると仮定されているため,例えば今年度の3年生と
状態のみといった単独の要因からは構成されません。
前年度の3年生について比較を行う,という方法をとる)。
その一方で,付加価値モデル(斜めの線)ではあるコー
3. 付加価値モデルは万能薬ではない (1)
ホートに着目し,そのコーホートについて学年を追って追
跡していくという方法をとります。そのため,対角線は学
年ごとに成長していく個別のコーホートを追いかけるも
のとなっています。
これまでに述べてきた理由から,付加価値モデルは非常
に魅力的なものに思えます。しかし,このモデルは決して
万能薬ではありません。残念ですが,この世の中に万能薬
など存在したためしはないのです。これからの話の中で,
学校の説明責任,付加価値モデル,No Child Left
Behind
現在,各州は現行の説明責任システムを置き換えたり,
付加価値モデルがなぜそんなに魅力的であり,またなぜ取
扱いには注意が必要なのかを明らかにしていきたいと思
います。
あるいはそれを補強する目的で付加価値モデルを適用し
まず,付加価値モデルによって得られる推定値,つまり
始めています。カリフォルニア州とケンタッキー州がその
学校や教師の(生徒の成長に対する)寄与の推定値は,私
例ですが,重要なことは連邦政府がAYPを見直し,なんら
たちが測定しようとしているものとは無関係の多くの要
かの形で生徒の成長という要素を法規制の中に取り入れ
因によって影響を受けています。例えば,小標本によるボ
る必要性を認めだしたという事実なのです。政府の教育長
ラティリティーの問題が挙げられます。ある学校のコーホ
官は,2007年に施行予定の改正法案に付加価値モデルの
ートが非常に小さなものであると,標本変動が無視できな
考え方を取り入れることについて検討するためのワーキ
いほどの問題となるのです。また,学年ごとにコーホート
ンググループを設立したばかりです。各州が独自に付加価
(の成長)を追いかけていけるかどうかはテストバッテリ
値モデルを利用し始めている中で,連邦政府が付加価値モ
ーの垂直尺度としての特性に依存しますが,この尺度自身
デルを説明責任システムに適応させることができるかど
にも問題が含まれています。さらに,縦断データを取扱う
うかが重要なことなのです。
際に欠損値が出ることがままあります。ある年度のある生
付加価値モデルを学校の説明責任システムに導入す
徒のテスト得点が何らかの理由,例えばテストのときに欠
る:その可能性
席していたり病気であったり,あるいは教育システムに所
属していなかったり(停学や退学など)といった理由で欠
各州が付加価値モデルを含んだ説明責任システムを導
入しだすと,政策的な決定を多数行う必要が出てきます。
しかし,この場でそれらについて突っ込んだ議論を行うこ
落していることがあるのです。欠損値の取り扱い方は,付
加価値モデルの推定値に非常に強い影響を与えることに
なります。
とはいたしません。しかし,例えば固定成長目標といった
ものについて考えておくことができます。これは,各州に
付加価値モデルは万能薬ではない (2)
対して毎年度ある成長目標を達成することを,あるいは年
確かに,付加価値モデルによる解析は,異なる学校で学
度を追うごとに要求水準が高くなる成長目標を課すこと
んでいる生徒たちについて理解するためのよい構図を与
を求める,というものです。私たちは,確かに各コーホー
えてくれるでしょう。生徒の成長と状態は,生徒の学習に
トの成長を追いかけることができます。そして,この方法
何が起こっているのかということに関して補足的な記述
は非常に一般的なものになると私は考えています。という
を提供してくれます。しかし,これらの補足的記述は説明
のは,連邦政府はどうにかして成長目標と生徒の状態とを
責任のために用いられ,学校の有効性の正確な指標となっ
一つにまとめ上げようと考えているらしく,それは目標に
ていることが暗黙のうちに仮定されています。付加価値モ
向かって志向する「成長」という要因を取り込んだ教育シ
デルと生徒の状態は共に統計的な記述ですが,それらを説
ステムを開発することで,毎年新しいコーホートの生徒を
明責任のために用いるのなら,私たちは学校の有効性につ
学校に迎え入れ,例えば100%の生徒が教育基準を満たす
いて,学校が生徒の成長の原因であるような因果推論を行
187
第Ⅳ部
特別公開研究
米国における教育測定
うことになります。
付加価値モデルは万能薬ではない (3)
記述とは経験的な観察のことを指しますが,学校の有効
性というのは因果関係についての推論です。学校の有効性
について原因帰属を行うことは,統計的な記述に基づいて
因果推論を行うことにも等しいことです。このときデータ
が無作為化実験ではなく観察研究から取ってこられたも
のであると,データは非常に危険なものになります。
付加価値モデルは万能薬ではない (4)
生徒の現在のレベルという観点からのある学校につい
ての統計的な記述は,学校の有効性を判断するための基礎
としては非常に脆弱である,ということは既に明らかなこ
とであったと私は考えています。付加価値モデルによる統
計的な測度を学校評価の判断材料とすることに対しての
批判的な議論は微妙なものですが,それでもやはり,生徒
の状態(に基づく分析)に取って代わるものとして,ある
いはそれに追加される要因として付加価値モデルの測度
を受け入れる前に,そうした反論は考慮されなければなり
ません。というのは,学校の(教育的)成果が学校の支配
の及ばない多くの要因によって影響を受けることがある
からです。少なくともアメリカでは,学校によって利用で
きる教育資源の量に,ある学区や州内の地域間で格差があ
ります。この格差は,家族や学校周辺のコミュニティーの
特徴と同様に,生徒の母集団の特徴と関連付けることがで
きます。また,付加価値モデルの統計的な補正をもってし
ても,生徒と学校の無作為でないペアリングによって引き
起こされる選抜バイアスを完全に取り除くことは不可能
です。
これらの問題は,疫学研究や人口統計学的な調査から科
学的な推論を行うときに直面する問題と同様のものです。
この文脈で,ある学校の生徒たちは他所の学校の生徒たち
よりも早く成長するといったオブザベーションを分離し
なければならず,私たちはなぜそのようなことが起こって
4. 付加価値モデルと教師の有効性
今度は,学校ではなく教師の方に目を向けてみましょう。
教師に関して為政者が抱いている付加価値についての中
心的な疑問は,生徒の進歩に対する個々の教師の寄与がど
のようなものであるのかということです。
教師の質
No Child Left Behind法では教師の質についても触れ
られているのが興味深いのですが,その言い回しは教師の
資格や生徒の学習に関連する教師の創造性といったもの
ではありません。ここでは,先導するのは政府ではなく各
州なのです。多くの州では,付加価値分析に基づいた教員
評価のためのシステムを実装しているか,あるいはその予
定となっています。この点に関しては前史があり,1993
年にテネシー州が旗手となって付加価値モデルを導入し
ています。しかし,テネシー州のケースでは(後にテキサ
ス州ダラス市においても実施),付加価値モデルが説明責
任のために用いられなかったことが現在との大きな違い
でした。教育資源の追加投入が必要な教師や学校を見つけ
るためにこのモデルが利用されたので,説明責任ではなく
教育的改善が付加価値モデル適用の目的だったのです。
各州や学区で付加価値モデルが利用されている
いくつかの州では付加価値モデルを実験的に適用し始
めています。その他の州では,実際に法制度の中に付加価
値モデルを取り入れています。通常,その目的は(付加価
値の)分布の極端なところに位置する教師を見つけること
にあります。付加価値の推定値が正の値で大きな教師には,
報酬が与えられたり上級教員として任用されたりします。
あるいは,付加価値の値が負の値をとってしまうような底
辺の教師は,何らかの専門的な能力開発が必要であると評
価されるわけです。このような付加価値モデルの利用方法
は,テネシー州では1993年から(Sanders et al),ダラ
ス市ではテネシー州とは異なるモデルを用いて1992年か
ら(Webster & Mendro)行われています。
いるのかを問わなければなりません。また,そうした観測
結果は学校の環境や教育実践の関数なのでしょうか?説
明責任に関する議論では学校の教育実践に焦点が当てら
5. 付加価値モデルの論理
れますが,問題は,ある環境下において教育実践の無作為
ここで,付加価値モデルの考え方の直観的なアピールポ
ペアリングが行われない状況で,教育の環境と実践とをど
イントに立ち戻り,一つの疑問を通してこのモデルを枠組
のように分離していくのかというところにあるのです。
付けたいと思います。その疑問とは,生徒の学習にとって
よい授業が必須であるならば,私たちは生徒の学習(ある
いはその欠落)から授業の質について何らかの情報を得る
ことができないのだろうか,というものです。この疑問に
188
講演2
付加価値モデル:生徒の学力向上と,学校および教師の評価
対しては非常に直観的な回答が得られます。私たちは,良
あります。つまり,それぞれの学年について各生徒に割り
い教師は悪い教師よりも優れていると自明のように信じ
当てられた教師と生徒のテスト得点が分かっているわけ
ていますが,この命題が真であるならば,生徒のテストデ
です。このデータが4学年分に渡って収集できるものとし,
ータを使って他の方向での推論ができないものでしょう
この複雑なデータベースを付加価値モデルのエンジン(動
か。残念ながら,技術的な観点から分析すると,これはそ
力部)に投入します。その結果として私たちが手にできる
んなに単純な話ではありません。
のが,5人の教師A, B, C, D, Eについての付加価値の推定
付加価値モデルの主張
値ということになります。この例では教師Aの付加価値の
推定値は+6ポイント,教師Bは+2ポイント,教師Cは平
問題点の一つは,付加価値モデルの支持者が非常に強い
主張を展開することにあります。彼らの主張は,付加価値
モデルのような洗練された統計手法を用いることで,生徒
の学習に対する教師の寄与を客観的に分離できる,あるい
は付加価値を実際に測定できるといったものです。さらに,
均の0ポイントです。これは比較分析であるということを
思い出してください(私たちは,教員一人一人を常に比較
しています)。教師Dは付加価値の推定値が−3ポイント
と,あまり好ましくありません。教師Eに至っては,悲し
いことに付加価値は−5ポイントです。
教員の間には現実問題として(教育的有効性の)個人差が
あります。典型的な学区に勤める教師の約1/3が平均から
統計的に有意,つまり平均的な教師よりも有意に優れてい
るか,あるいは劣っているかのどちらかなのです。貧しい
Unpacking the VAM Claim (3)
生徒やマイノリティーに属する生徒たちは,非常に優れた
教師から教育を受けることの恩恵を,最も強く受けること
Class Effects
になります。付加価値モデルの利点は,特に優れた教師を
Grades
3 4 5 6
ただ発見できるということに留まらず,そうすることで優
Student Test
Scores
れた教師が生徒の学習の軌跡において意味のある相違を
Studentteacher
links
A
B
C
D
+6
+2
0
-3
E
VAM
-5
生み出せる,という点が重要なのです。しかしながら,こ
れらの論点は十分に実証されてはいません。
現在,学校や教師に対して説明責任の保持を求める集中
的な政策ニーズがあり,そこで付加価値モデルのような非
Teacher Focus
25
スライド25
常に洗練された統計的方法論が用意されています。付加価
値モデルの開発者たちは,(付加価値モデルによる分析を
通して)政治家たちが望むものを与えることができると主
付加価値モデルの主張を紐解く (2)
張しています。これは非常に強力な取り合わせであり,私
付加価値モデルの支持者による主張は,こうした付加価
たちのような測定のコミュニティーに身を置きながらこ
値の推定値は教師たちの相対的な有効性についても何ら
うした点に関してどこか懐疑的であるものは,こうした非
かの情報を与えてくれるというものです。しかし,付加価
常に強力な社会の風潮に対して闘いを挑んでいるのです。
値モデルのエンジン(動力部)が実際に行っていることは,
付加価値モデルの主張を紐解く (1)
前年度とその後に続く年度における,同じ生徒たちの異な
る教室での経験や,その年度の全ての教室の平均成長幅を
私たちはまだ敗北はしていませんが,別に勝利したわけ
でもありません。ここで,問題点に目をやって注意深く分
調整した後で,ある特定の年度の特定の教室における平均
成長幅の推定値を与えてくれるということです。
析を行ってみましょう。ただし,付加価値モデルの主張の
背後にあるものの中の,単純な部分について見ていきまし
ょう。
付加価値モデルの主張を紐解く (3)
統計モデルを考察するとき,ある年度で同じ教室に所属
いま,4つの学年からデータを収集している単純な状況
していた生徒のある一団は,その他の年度では異なる教室
について考えてみましょう(スライド25)。私たちには,
に所属しているという事実に,私たちは目を向けることに
生徒のテスト得点と,生徒と教師のリンクがデータとして
なります。このような生徒のパターンは,年度による平均
189
第Ⅳ部
特別公開研究
米国における教育測定
的な成長分の違いを説明することができるのでしょうか。
脈では,無作為化の手続きを推論のための黄金基準のひと
私たちが最後に手にするものは,付加価値の測度というこ
つとみなすことが多く,この考えは医学分野から派生して
とになります。これらの付加価値測度は直接教師に適用さ
います。例えば,薬の臨床試験においては標本となる被験
れるのではなく,むしろ教室レベルで適用されます(スラ
者集団を無作為に二つのグループ(処遇群と統制群)に分
イド25では,教室は教師の後ろの四角で表現しています)。
割し,処遇群には薬を,統制群にはプラセボを投与します。
教室は教師だけではなくその他の生徒たちや生徒たち自
無作為化を行うことで,各被験者は処遇群と統制群に割り
身の交互作用,生徒と教師の交互作用などによって構成さ
当てられる確率が等しくなります。そうすることで,処遇
れています。
群と統制群の間にはじめから存在する(かもしれない)集
付加価値モデルの主張を紐解く (4)
団の性質の違いについて,心配する必要がなくなるのです。
ですから,臨床試験の結果に差異が見られたとき,その差
こうしてみると,教師の有効性についての因果推論を行
うために,私たちが生徒の成長の観察に基づいて採用しな
ければならない重要なステップが二つあります。第一のス
テップは,教室の効果を,生徒の成長に対してある教室に
所属していることの寄与として解釈しなければなりませ
を生んだ原因を処遇群と統制群の間にはじめから存在す
る性質の差ではなく,薬とプラセボの間に存在する差に求
めることが妥当なものとなるのです。被験者の数が十分に
大きく無作為化が適切になされているときに限り,この結
果の解釈は強力なものとなります。
ん。第二のステップは,その教室がもつ寄与の(ほぼ)全
てを,教室内の教師の教育活動に対して帰属させることで
無作為化 (2)
す。統計的記述から,説明責任に関する諸問題の中心部で
アメリカでは,教師は無作為に学校に配属されるわけで
ある因果推論にまで推移する前に,これらの二つのステッ
はありません。同様に,生徒も無作為に教師に割り当てら
プを論理的かつ経験的に処理しなければなりません。
れるわけでもありません。学校という状況では無作為化に
付加価値モデルの主張を紐解く (5):調査段階 1
頼ることができないため,観測された結果が処遇(教室や
教師など)によって引き起こされたものであるということ
第一のステップについて見てみましょう。科学的な観点
から提示される疑問点は,どのような状況において,統計
分析の結果を因果の効果として曖昧性を排除しつつ解釈
を保証することはできません。実際,ある程度のところ観
測結果は生徒や教室全体にはじめからある差に関連して
いると思われます。
することができるのかというものです。その答えは,大規
模でよく計画された無作為化実験を行うのが最も望まし
い状況だろう,というものです。
付加価値モデルの主張を紐解く (6)
無作為化 (3)
これが意味するところは,原因帰属を行おうとするとき
には,どんなに複雑な統計モデルでもどんなに洗練された
分析方法でも,無作為化が達成できないという現実を十分
この理由は,教室間に生徒の特徴や彼らの間の交互作用
に関して系統的な差異があり,これらの差異が付加価値の
測度に入力される得点の成長と関連しているのであれば,
付加価値モデルのエンジン(動力部)から生み出される教
室効果の推定値は,生徒のテスト得点に対するそれらの教
室の寄与の精確な測度とはなりません。従って,無作為化
実験を行えないという現実状況は,原因の寄与における教
に補償することはできない,ということなのです。また,
付加価値モデルは教師の有効性を客観的に分離すること
ができるというモデル開発者の主張は,科学的な精査に耐
えるものではないということでもあります。この主張は近
似的には真実を述べているのかもしれませんが,私たちは
それを既成事実として受け入れてしまうのではなく,慎重
に調査する必要があるのです。
室間の現実的格差と,教室内での出来事と独立である教室
自身における格差とが,潜在的に交絡することを意味して
いるのです。
無作為化:黄金基準 (1)
付加価値モデルの主張を紐解く (7):調査段階 2
教室の効果という観点から近似的な因果推論を行うこ
とができる可能性を受け入れることができるとしても,第
2のステップに足を進めて,教室レベルの因果の効果をそ
ここで少し寄り道をして,無作為化と因果推論における
無作為化の重要性について触れたいと思います。実験の文
190
の教室内の個々の教師に帰属させる必要があります。ここ
での疑問は,どのような環境において私たちは(ほぼ)全
講演2
付加価値モデル:生徒の学力向上と,学校および教師の評価
ての教室の目的を,教師の教育学そのものに帰属すること
扱いも,重要な要因となります。現存する付加価値モデル
ができるのかというものです。この疑問に対する回答には,
は,これらの次元の一つ以上について互いに異なる構造を
まだ誰もたどり着くことができていません。
もっており,全ての次元の違いを考慮に入れると,膨大な
付加価値モデルの主張を紐解く (8)
数に上る付加価値モデルを潜在的に構成することができ
ます。それらの中のごく一部のモデルが現在研究されてい
私たちに言えることがあれば,教師は自分の生徒の学習
るのです。
に対して多くの責任を負っているだろう,ということです。
しかし,責任と有効性の程度は,学校やコミュニティーの
環境,教室内の生徒の混ざり具合,そして多くの意図せざ
Sanders の層化モデル (1)
ybue
tttt
kkkk
Sander’s Layered Model (1)
る出来事によって変動します。意図せざる出来事とは,例
ytk
えば,ある生徒の個人的な危機的状況が学級全体の崩壊を
呼び込むかもしれないといったことです。そんなとき,私
ytk 11
たちは教師を責めることができるでしょうか?その他に
btk
utk
btk 11 utk
etk
utk 11
etk 11
where
b
kt
も,付加価値モデルで調整することができない現実的問題
ytk
ybue
tttt
kkkk
y
kt
が,学校という環境には存在します。
btk
= student score in grade k, year t
u
kt
= district means core in grade k, year t
utk e
kt
この点で,因果関係の寄与分の不偏推定値として統計的
k
t
e
= contributions of the teacher in grade k, year t
= unexplained variation in student score in grade k, year t
記述を受け入れることに対して反対の立場をとる,科学的
議論が強力に展開されているにもかかわらず,統計的記述
35
は教師のパフォーマンスに関するその他の統計的,あるい
は非統計的な記述の文脈においては利用価値のあるもの
スライド35
なのです。従って,付加価値の推定値が多義的ではない意
味をもつものとして取り扱うことはできないと言うこと
付加価値モデルの趣を味わっていただくために,テネシ
は,付加価値の推定値は利用価値がないと言うこととは違
ー州をはじめその他の多くの州で利用されている,
います。付加価値の推定値が必ずしも因果関係の寄与の精
Sandersの層化モデルをここではご紹介します(スライド
確な測度ではないということを私たちが認識できるなら
35)。ここで皆さんにご紹介するのは単純化したモデルに
ば,こうした推定値の性質について何が議論できるのかを
なりますが,モデルに何が含まれているのか,そのアイデ
問うてみたいと思います。
アを得ることはできると思います。最初の方程式では,年
k
6. 付加価値分析のモデル
付加価値モデルは興味深く利用価値のあるものだとい
度tの第k学年のある生徒のテスト得点 yt を,二つの要因
btk と utk の和としてモデル化しています。ここで, btk は
う可能性を受け入れることができれば,引き続きモデルの
統計学的な特徴に意識を向けてみると良いでしょう。これ
までに研究されている付加価値モデルの種類はたくさん
k
学区の平均得点を, ut は年度tの第k学年のその生徒に対
する教師の寄与効果であり,学区の平均に比例して教員に
あり,そのうちのいくつかは実際に教育現場で応用されて
います。これらの付加価値モデルは,いくつかの次元の相
違によって分類されます。それらには,例えばモデルが要
求するデータの構造,分析に必要なコーホートの数,コー
k
帰属される偏差成分です。これらに誤差項 et が加わるこ
とになります。年度が変われば,学年はk+1に,年度はt+1
に,それぞれ添え字が一ずつ増えていきます。学区の平均
ホートについてのテスト得点の年度の数,科目数(数学,
読解,科学など,何科目を分析に用いるのか),社会経済
的地位や人種,ジェンダーなど,生徒の特徴に関する変数
を分析に用いるか,そしてモデル自体の構造などが含まれ
ます。水準の数(回帰モデルにおける仮定)や欠損値の取
k
得点 bt についても,第t+1年度の第k+1学年についての係
数が新たに定義されます。ここで重要なことは,教師に帰
属される偏差(寄与の効果)は次の年度に持ち越されると
いう点です。ですから,ある教師に生徒の学業の成長に対
191
第Ⅳ部
特別公開研究
米国における教育測定
して寄与するところがあった場合,その効果は次年度に引
Sandersは他の付加価値モデルのように生徒の特徴をモ
き継がれるわけです。問題は,この仮定が合理的なもので
デルに投入していません。彼の主張では,多くの科目とい
あるのかどうかということなのです。次年度についても,
くつもの学年に渡る縦断データを用いるこの多変量解析
同様に教師の寄与と誤差項が定義されます。このモデルを
では,個々の生徒は事実上自分自身のブロックとして動い
年度が変わるごとに構成していくわけです。Sandersの層
ているために,生徒の特徴を数量的にモデルに導入する必
化モデルとは,ある年度から次の年度にこのような回帰モ
要がないのです。ある生徒の成長の軌跡が非常に速いもの
デルを重ねていくことに由来しています。
であったとして,次年度に特定の教師の教室に配属される
Sanders の層化モデル (2)
とき,私たちが知りたいことはその教師がこの生徒の成長
を高めるか低めるかのいずれかに一役買っているのかど
スライド35の2つの方程式は混合モデルであり,地区平
均の係数bは固定効果,
教師や教室の偏差uは変動効果とな
ります。つまり,これは古典的な線形混合モデルとなって
いるのです。相違点は,このように2本や3本の単純な方程
式では話が済まないということです。年度を追いかけるの
に5年分の方程式が必要になったり,あるいは5科目分の方
程式を立てる必要があったりします。そうすると,仮に基
本的な付加価値モデルを定義するにしても,例えば25本の
方程式が現れたりするのです。しかし,ここが付加価値モ
デルのもっとも複雑な部分ではありません。
Sanders の層化モデル (3)
このモデルに置かれる重要な仮定のひとつに,教師の効
うかということなのです。この生徒の成長スピードが速い
か遅いかは重要でないため,教師を不利な立場に追いやる
生徒はいないというのがSandersの主張となっています。
疑問点は,その年の成長が前年度の成長と適合するのかど
うかというところにあります。これは,農業試験における
古典的な無作為化ブロックデザインと類似しているもの
です。
また,Sandersは欠損値の構造に関して,共分散構造に
含まれる情報を利用するために多変量縦断データを用い
ることによって,ランダムな欠損(MAR)の条件を満た
さない欠損データの影響を軽減することができると主張
しています。つまり,生徒のデータに欠損値がある場合,
果は次年度以降に引き継がれるというものがあります。ま
例えば生徒が貧しいほどテストを受けていない確率が高
た,共分散構造が別の問題となります。スライド35をみる
いということが考えられます。この場合,ランダムな欠損
と誤差項は互いに相関していませんが,実際にはかなり強
の条件が満たされておらず,推定値に選抜バイアスが混入
い相関関係があるのです。ここで,誤差項に関して三種類
することになります。そして,Sandersはこの巨大な共分
の共分散構造をモデル化する必要が出てきます。ある年度
散構造を利用することで,ランダムな欠損からの乖離によ
における同じ教室の生徒間の共分散,年度間の生徒内の共
って推定値が受ける影響を緩和できると主張しています。
分散,科目間の生徒と年度内の共分散についてモデル化を
しかしながら,生徒の学習に対する教師の寄与を分離する
行うのですが,そうすると共分散構造が非常に複雑なもの
ことができるという彼の主張(これは教師の因果の寄与を
となり,必要な計算を行うためには,2,000∼3,000人の生
引き出すことができると言うことでもあります)は,統計
徒がいる中規模の学区についての分析を行う場合でも,
学的な意味での頑健性を超えるものを必要とします。
200,000∼300,000本もの方程式を解かなければならない
これらの二つの主張,つまり多変量縦断データを用いる
ことがよくあります。高名な農業経済学者であった
ことで生徒の特徴をモデルに投入せずにすみ,また得られ
William Sandersと彼の同僚たちは,付加価値モデルの分
る結果が欠損値の構造に対して頑健であるというものに
析に特化したソフトウェアを開発しました。彼らのソフト
ついては,少なくとも尤もらしいものであります。私たち
ウェアでは,非常に巨大で複雑な共分散構造を効率的に分
がこれらの仮定に着目して行ったある研究での議論から,
解し,最良線形不偏予測因子であるこれらの巨大な混合モ
彼の第三の主張である因果推論の可能性についてはあま
デル方程式の集合の最尤推定方程式を生成します。
り尤もなものとは思えません。なぜならば,因果推論は統
Sanders の層化モデル (4)
計解析を超えて何も情報がない中で因果の道筋を解析す
るところに行ってしまうからです。従って,統計学的な見
Sandersの層化モデルをこんなにも興味深いものとし
地からははじめの二つの主張については合理的であると
ている重要な仮定の一つが,教師の効果が次年度に繰り越
考えられますが,三番目の因果推論については合理的では
されていくというものです。また,別の仮定として,
ないと私たちは考えています。
192
講演2
欠損値の扱いに関して興味をもっている方々のために,
付加価値モデル:生徒の学力向上と,学校および教師の評価
に関係することです。層化モデルは非常に単純なモデルの
古典的な参考文献としてRod LittleとDonald Rubinによ
ため,もう少し洗練された形にする必要があります。その
る欠損データに関する著書を挙げておきたいと思います。
理由は,例えば教師のパラメタが翌年度に引き継がれると
この本では,統計解析や特に観察研究における欠損値の役
いうモデルの仮定は,生徒の成績の向上に対する教師の寄
割について議論されています。もう一冊,参考文献として
与分は少しずつ減退していくかもしれないという現実を
Paul Rosenbaumによる観察研究に関する著作を挙げて
反映したものではないかもしれないからです。第二に,付
おきます。この本では,欠損値と交絡のある推定値との関
加価値モデルによって得られた付加価値(寄与)の推定値
連性について詳細に述べられています。
に基づく教師のランキングは非常に不安定であります。教
員内および教員間の分散成分の比のため,こうしたランキ
7.
Due Diligence(適正評価手続き,デューデリ
ジェンス)
ングの一過性は非常に大きなものとなっています。
もう一つ指摘しておくと,担当する学年が異なる教師の
間で比較を行ってはなりません。これは,異なる学年での
これらの付加価値モデルを,教員評価や給与の査定など
の社会的な影響力の強い評価の文脈で使用するならば,私
たちは付加価値モデルがどのようなものなのかというこ
とについて習熟し,同時にその限界についても理解してお
かなければならない,というのが私の結論です。実際に,
社会的影響力の強い評価を行う目的で付加価値分析のア
プローチを取る段階に入る前に,私たちは今よりももっと
多くのことを知っておかなければなりません。つまり,い
わゆる「Due Diligence」と呼ばれる一連の事前調査(経
テスト得点の成長は,異なる平均軌跡を辿るからです。こ
の問題を考慮に入れておかないと,異なる学年の教師に対
して有利不利を与えてしまいかねません。ですから,同学
年内においてのみ教師を比較するべきなのです。ただし,
同じ学年内であっても,決して交わることのない非常に異
質な生徒集団に対して教えているのであれば,そのような
状況下において教師の比較を行うことは回避されるべき
でしょう。
済用語です)を行う必要があるのです。例えば1,000万ド
ルの価値がある事業を買収しようとするとき,あなたは
8. 今後の研究
Due Diligenceを行い,その事業について調査し,顧客と
今年出版された付加価値モデルによる教員評価に関す
話をし,自分が考えている正しい行動(買収→収益)が取
る私の論文の中で,かなり広範にわたる研究課題の展望が
れていることを確認するのです。
行われています。統計的な記述や因果の帰属について話を
私たちが既に知っていることはなにか?
するとき,教員の有効性が何を意味するのか,ということ
をはっきりさせておく必要があると私は考えています。統
では,私たちが既に知っていることは何でしょうか?こ
れまでになされた多くの実践研究から,教師の間には,教
育学的な能力に関して測定可能な個人差があるだろうと
いうことが分かっています。付加価値モデルを用いること
で,特別な専門的能力開発が必要かどうかを判断するため
の詳細な観察を行うべき教員を見つけることができます。
この意味で,付加価値モデルはスクリーニングの一種とし
て利用することができます。統計的分析結果に基づいて,
専門的な能力開発が必要な教員を見つけることができま
すが,データベースに組み込まれていない文脈(環境)的
な諸問題を考慮に入れていないため,統計解析によって私
たちが道に迷っていないということを確かめる意味で,観
察法を用いてのフォローアップが必要となります。
ここで,注意事項がいくつかあります。その一つは
Tennessee Value-Added Assessment System (TVAAS)
計学的な観点からは,Sandersのモデルを用いるにせよ階
層線形モデルを用いるにせよ,あるいはダラス市で用いら
れた二段階最小二乗モデルにせよ,推定された教師の効果
(寄与)に対して,付加価値モデルの背後にある様々な仮
定からの乖離に対する感度分析を行う必要があるでしょ
う。モデルに関係なく,直接評価することが困難な重要な
仮定がいくつか付加価値モデルには含まれています。
教師の説明責任について考えるとき,生徒の学習に対す
る学校と環境の寄与分から,教師の真の有効性を紐解いて
やる方法を見つけなければなりません。これは,実際問題
として非常に困難なことであると私は考えています。また,
同じくらい重要な論点として,付加価値モデルによる分析
結果の利用が強く制限されるべき状況を特徴付けなけれ
ばなりません。さらに,まだ十分にフォローされていない
重要な観点として,教師の有効性の近似的な測度としての
193
第Ⅳ部
特別公開研究
米国における教育測定
教員の効果(寄与)の推定値に対して,何らかの外的妥当
化を行う必要があるということを挙げておきたいと思い
ます。ある学区において付加価値モデルによる分析を行う
とき,それと並行して教員評価に対する非統計的なアプロ
ーチ(例えば外部の調査者による観察や校長からの報告な
ど)を開発し,ヒューマニスティックな評価と純粋な統計
的評価との間の相関関係に着目するのです。
非統計的なアプローチも,評価にバイアスがかかったり
多くの不確実性を孕んだりといった,様々な課題を抱えて
います。しかし,そうしたアプローチからは統計的手法で
は得られない証拠(エビデンス)が得られるのです。いく
つかの研究によると,統計的方法による教員評価と非統計
的方法によるアプローチの相関は中程度となっています。
教師の評価の測度
付加価値モデルによる分析によって問題ありとされた
教師について,どのような種類の観察やデータが集められ
なければならないのでしょうか?可能性の一つは,「教授
の枠組」と呼ばれる構造化されたアプローチを用いた教室
での観察や,あるいは非常に優れた教師による観察という
ことになるでしょう。ここでは,私たちはある種の順位付
けやスクリーニングについて話をしています。しかし,恐
らくは教授に対する態度や生徒について抱いている信念,
あるいは彼らの経験といった教師の性質に目を向ける診
断的なテストでさえ,どのような種類の支援を彼らが要求
するのか診断を始める前に,適切な教師の構図を得るため
に利用することができるのです。
ここから得られる示唆は,誤差に晒されやすい測度が複数
ある場合には,それらの中の一つを使うのではなく,何ら
かの合理的な方法でそれらを一つにまとめることで,より
よい説明責任の指標が得られるということです。
教師の報酬と給与の格差
この時点での結論として,付加価値モデルによる分析は,
生徒の成績に基づいた教師の報酬や給与の格差に関する
一つ付け加えておきますと,現在私はいくつかのプロジ
意思決定の唯一の測度として用いられることがあっては
ェクトに参加しており,そこでは様々な仮定からの逸脱に
なりません。そのような評価は,教師のポートフォリオや
対する教員効果の推定値の感度に着目しています。ある研
十分に統制されたパイロット調査における観察のような
究では,欠損値の構造に関する仮定を変えることで教員の
測度と共に考慮することができるものなのです。
効果がどのように変化するのかを調べています。別の研究
ご清聴ありがとうございました。
では,分析の基礎となる生徒のテスト得点の要約方法を変
えたときに,教員効果の推定値がどのような影響を受ける
のかということを調査しています。
教師の評価と支援
生徒の成績向上に十分なレベルで寄与していない教員
9. 質疑応答
Q1:教員たちに対して教授方法や教育実践に関する質問
紙調査を実施していると思いますが,生徒の成績に影響を
与える教育の実践とはどのようなものなのか,お聞かせ頂
を見つけるために,付加価値モデルによるアプローチを利
ければと思います。
用できるということに対しては同意を得られるのではな
A1:今現在,教師の教育実践と生徒の成績向上を結び付
いかと思います。しかし,付加価値分析を信用するにして
けようとする研究はそれほど多くはありません。そのよう
も,こうした分析で教師にどんな問題があるのかというと
な研究はまだ始まったばかりなのです。しかし,
(質問紙)
ころまで,私たちは情報を得られるのでしょうか?教育学
調査を通じた研究は数多く行なわれてきました。これは言
的なスタイルが問題なのか,教室の管理が問題なのか,あ
い方を変えれば,私たちが教師に送った質問紙では,教師
るいはまったく別の何かが問題なのでしょうか?このよ
自身の教授スタイルとその取り組み方について記述して
うな付加的な情報が得られないのであれば,付加価値モデ
もらい,その結果から,私たちは教師の実践の個人差と生
ルを導入する以前よりも状況が改善されたとは言いがた
徒の成績の個人差を関連付けようとしているのです。
いでしょう。このような情報は,問題が何なのかを適切に
さしあたり,こうした研究には問題点が二つあります。
診断するために,教室内で必ず収集されなければなりませ
まず一点目は,教師(自身)は自分の教授スタイルを報告
ん。そうすることで,必要な専門的能力開発やその他の支
するのに必ずしも最適なレポーターであるとはいえない,
援を教師は得ることができるのです。教室の現実状況を無
ということです。二点目は,私自身このような質問紙調査
視して統計的な解析にのみ頼るのは,データの誤用なので
を行なってきましたが,質問紙の内容が冗長すぎず,かつ
す。
正確な情報を得られるような調査を計画することが非常
194
講演2
付加価値モデル:生徒の学力向上と,学校および教師の評価
に困難であるということです。例えば,いかにも教師ぶっ
学業歴にどれほどの付加価値を与えたのかを調べました。
た一方通行的アプローチ(とにかく生徒に教えるというア
学校と教室の環境について補正を行ったあとに私たちが
プローチ)と双方向的なアプローチのどちらを好むかを質
得た結論は,教師の教育実践と付加価値の測度との間にそ
問するとしましょう。すると,「もしあなたが双方向的な
れほど強い関係はないというものでした。
アプローチを好むのならば,もう一方のアプローチも併用
このような結果が得られた理由はたくさんありますが,
しますか?もし両者のアプローチを併用するならば,どの
その一つは私たちが教師の教育実践の良い測度を得られ
くらいの頻度と順序でそれらを用いますか?また,教授活
なかったということでしょう。教師の実践と学校や教室の
動においては例外なく両者のアプローチを用いますか?」
環境との間にはおそらく交絡が起こっていて,環境要因に
といった質問を次々とする必要があります。教授法に関す
対して補正を行おうとすると,実際には教師の教育実践に
るたった一つの側面について,最終的には2,3ページの紙
関連する効果の一部をも同時に取り去ってしまっている
面を費やしてしまうかもしれません。もちろん,教授法の
のです。これは,興味のある要因の寄与を分離するために
側面は他にもたくさんあるのです。こうした質問をしてい
関連のない要因に関して調整を行うと,その補正の結果と
くためには,質問紙の構造が非常に複雑になってしまうの
して関心下の要因の寄与を過小評価してしまうことにな
です。まあしかし,それでも何百という教室に足を運ぶよ
るということです。このような事態は,全ての要因が互い
りは安上がりではありますが。教室に足を運んで観察を行
に相関しているときに発生します。この種の研究を困難な
うにしても,観察に費やせる時間は1時間や2時間といった
ものとする要因には,現実的な問題と統計学的な問題の両
非常に短いものとなるでしょう。そのような状況では,統
者があるのです。
計学的な見地から不確実性が拭い去れません。教師の実践
観察研究と無作為化実験研究の対比に関連して話を続
活動を文書化することは非常に困難な作業なのです。つい
けますと,教師の効果を分離しようとすることは,不可能
最近になって,教師の実践活動と付加価値分析とを関連付
ではないにしても常に極めて困難であると私は考えてい
けようとする研究者が出てきました(それが新しいアイデ
ます。教育プログラムの評価について考えるなら,生徒や
アだからという理由です)。ですから,そうした方向の研
教室や学校を異なる教育プログラムに無作為に割り付け
究はまだそれほど多く行われてはいません。このような困
ること,および異なる教育プログラムの相対的な効果につ
難はあるものの,この領域は今後ますます重要性が高まる
いて,無作為配置の研究による分析に基づいて因果推論を
研究分野となると私は考えています。
行うことが,より現実的(に可能)であります。しかし,
少 し 話 を 広 げ ま し ょ う 。 2 年 前 , 私 た ち は ETS で
そのような統制された研究デザインにあっても,現実世界
Advanced Placementテスト(AP)の生徒のパフォーマン
では個人の生徒レベルで無作為化を行うことはできませ
スに関する研究を行いました。APとは,高校生が大学レ
んので,どうしても問題が発生してしまいます(無作為化
ベルのコースを履修して修了試験に合格すれば単位がも
できるのはせいぜい教室のレベルまでです)。そのため,
らえるというものです。その場合,大学入学後に入門コー
非常に大規模な研究を実施しないと,教育プログラムの差
スの履修を免除されたり,あるいは飛び級して3年間で学
について統計的に信頼性の高い推定値を得ることはでき
部課程を卒業できるような特典があります。APは非常に
ません。そうした研究を実施するには,アメリカでは少な
有名なプログラムなのですが,生徒のAPの成績に関連す
くとも数百万ドルもの研究資金が必要になってしまいま
る教師の教育実践を同定することができるのか,というこ
す。統制された条件下で教育プログラムの評価を行うこと
とが私たちの課した問題でした。
ができるかどうか定かではありませんが,アメリカの行政
この研究は生物と歴史の二科目について行われ,APを
はこうした無作為化実験を(行うよう)強力に押し進めて
担当する教師の全国調査のようなものを企画していまし
います。この点についてさらに多くのことを学びたければ,
た。教師の実践を実際的な方法で記録しようとしていたら,
What Works Clearinghouse(http://www.w-w-c.org)の
調査の遂行に大きな支障が出ていたことでしょう。生徒が
Webサイトを訪れることをお勧めします。このサイトは,
一定レベルの成績を収めたときだけではなく付加価値の
教育の様々な分野におけるあらゆる種類の無作為化実験
測度にも目をやると,つまり生徒の前年度の成績も考慮に
研究に関するアーカイブとなっています。これは,医学に
入れると,教師の教育実践の個人差と付加価値モデルにお
おける英国ベースの無作為化実験研究のアーカイブを模
ける個人差を関連付けようとして,私たちは教師が生徒の
範として構築されたものです。
195
第Ⅳ部
特別公開研究
米国における教育測定
Q2:Sandersの層化モデル(スライド35)において,ある
います。つまり,年度tの学年kにおけるテスト得点と,年
年度”t”の効果は,その後の年度”t+1”の効果と同じ尺度上
度t+1の学年k+1におけるテスト得点は互いに垂直等化さ
で比較することができるのでしょうか?もしそうだとし
れている(直接比較可能)ということになります。こうす
たら,その比較のためにどれくらいのテストが利用できる
ることで,私たちはテスト得点を同一の尺度上で比較する
のでしょうか?
ことができるのですから,生徒の成長の解釈を行いやすく
ybue
tttt
kkkk
なります。先ほどの発表で議論していた単一尺度である
Sander’s Layered Model (1)
k
t
y
ytk 11
k
t
b
u
btk 11 utk
k
t
NAEPの話題においては,水平等化と違って垂直等化では
k
t
e
utk 11
そこに課される仮定が問題となります。
垂直等化はデータの解釈を単純に分かりやすいものと
etk 11
してくれるのですが,例えば数学のようなテストを複数年
where
b
kt
ytk
ybue
tttt
kkkk
y
kt
btk
= student score in grade k, year t
度に渡って垂直等化すると,年度によってテスト内容のプ
= district means core in grade k, year t
ロフィールが異なるという問題を抱えます。このことは,
u
kt
utk e
= contributions of the teacher in grade k, year t
etk
= unexplained variation in student score in grade k, year t
kt
Robert Lissitzが編集した本の中で述べられています。ミ
シガン州のBill Schmidt他による論文では,年度ごとに数
35
学テスト内容のプロフィール分析を行い,第3学年から第8
学年にかけて数学の内容が変化していくことを示しまし
スライド35(再掲)
た。そして,この内容の変遷を踏まえた上で,垂直等化さ
れた数学尺度上のテスト得点は何を意味するのかという
A2:今回お話したSandersモデルの応用では,各生徒に
問いを提起しました。私は教科領域の専門家ではありませ
ついて第3学年から第7学年までの期間で5つの教科に渡る
んので彼らの議論の全てを安易に受け入れることはでき
縦断データを解析しています。つまり,ある生徒について
ないのですが,この議論は実にもっともらしいと思うので
大体25のデータポイントが得られるわけです(5年×5教
す。その彼らの議論では,垂直等化によって得られる結果
科)。教員の効果は一連のモデルに基づいており,年度と
(尺度の性質)とは,年度間で最大限に共通する次元を一
科目について継続されていきます。これらは全てある単一
つ取り出すことであり,それは特定の学年に固有の数学の
のコーホートについてのデータです。私たちは,あるコー
領域内容よりも,発展的な数学能力と関連しています。そ
ホートを追跡していくのだということを思い出してくだ
うでなければ,一次元の尺度として数学能力を捉えること
さい。テネシー州の事例では,あるコーホートに対する一
はできないでしょう。この議論が正しいとすると,彼らの
連の付加価値モデルは,一度に3つのコーホートの分析に
主張では,垂直等化された尺度は教師の教育実践に最も敏
用いられています。ある特定の教員効果の推定値は3つの
感なデータのほとんどを過小評価することになります。教
コーホートについての平均に基づいており,合理的な安定
師はその年度に特有の教科内容を教えようとするからで
性が確保されているといえます。その他の研究の中には,
あり,垂直等化された尺度は教師の教育実践に関連する情
コーホートがそれほど大きくないときには,教師の効果の
報を,そのほとんどとまでは言わなくても,少なくともそ
分散が厄介なほど大きくなってしまうことがあると示し
の一部を捨ててしまうことになるからです。彼らは,垂直
たものもあります。
等化されたデータを付加価値モデルに投入しても,教師の
有効性という観点からは私たちの求めるものを与えては
Q3:標準テストによって,年度間の縦断的な変化を比較
することは可能でしょうか?
くれないと主張しているのです。
Sandersの層化モデルでは,生徒のテスト得点が垂直等
A3:この場合,事態は複雑なものになります。「標準化」
化されていることは要求されません。実際,何の変換も加
というのは,テストが全ての生徒に対して公平な条件下で
えられていない生のデータの方が都合がよいのです。私は
実施される,という意味です。標準化テストでは,年度間
Sandersといろいろな話をしましたが,私の知る限りでは,
の垂直等化を行うことは想定されておらず,年度間の近似
彼は垂直等化されたデータと生のデータの両方を用いて
的な線形性のみが要求されます。しかしながら,テスト出
付加価値分析を行い,その結果を比較して両者の差を見る
版社が提供している標準テストの多くは垂直等化されて
ということは一度も行っていません。これは非常に興味深
196
講演2
い研究になると思いますが,まだ手がつけられていません。
付加価値モデル:生徒の学力向上と,学校および教師の評価
れた州に勧告を行う委員会にも出席していました。この投
資は非常に真剣なものであり,付加価値の他にも教育的に
Q4:The Tennessee Value-Added Assessment Systemか
生産的な意味をもつことになると私は考えています。なぜ
らどのような結論が得られたのでしょうか?
なら,各州は生徒が学校や学区を移動しても,彼らを追跡
A4:私はTVAASの研究に携わったことはありません。
することができるからです。生徒の記録データの輸送はよ
Sandersのモデルは,テネシー州の法律で用いることにな
り効率的に,より正確に行われることになるでしょう。ま
っていました。Sandersのモデルは州の教育法の中に組み
た,必ずしもそれほど洗練されていないその他の教育分析
込まれ,各学区はデータを提供することが義務付けられま
も,より手軽に行うことができるようになるでしょう。私
した。しかしながら,興味深いことに各学区にはデータや
の考えでは,こうしたデータシステムの構築に対するプレ
結果を利用することは義務として求められませんでした。
ッシャーは,付加価値モデルが各州の説明責任システムの
Sandersによると,
テネシー州の約1/3の学区が付加価値モ
一端となるかどうかにかかわりなく,生産的な結果をもた
デルの分析結果を用いて教師の専門的能力開発の評価や
らすと思います。
学校分析を行ったようです。残りの2/3の学区では,分析
結果を手にしながらも,全く利用しなかったようです。
Q7:日本では,「良い教師」の定義をデータに基づいて
求めることは難しいです。そのための十分なデータベース
Q5:各州は,個々の教師の付加価値の推定値を得られる
がないからなのですが,日本では,例えば生徒たちとの人
のでしょうか?もしそうなら,教師はそれに対して不満を
間関係を良好に保つことができるといった情緒的な側面
表明したりはしないのでしょうか?
が,(教師の)評価に大きな影響力をもっています。この
A5:当初,彼らは不満を述べていましたが今はそうでも
ような教師の情緒的な側面はどのように評価されます
ありません。というのは,分析結果が職務管理の評価とし
か?
て利用されていないからです。各学区の中では専門的能力
A7:アメリカでは,その手のことを行う方法は20,000通
開発やその他の目的のために分析結果が利用されますが,
りにも及ぶ方法があり,その一つ一つがアメリカ全土の学
賃金の査定や就職活動のための評価には用いられていま
区に対応します。従って,一般化することは不可能です。
せん。
この分析に関しては,私たちは多くのことを見失っている
と思います。特に,私たちはテスト得点という観点から教
Q6:(Henry Braun:質問)日本では,学校レベルでの縦
師(のパフォーマンス)を判断していますが,この方法で
断的なデータベースがありますか?
は州が採用するテストの質に多大な負荷(ウェイト)が掛
(司会者:回答)そのようなデータベースはありません。
かることになります(そうしたテストの性質には,時とし
(Henry Braun:コメント)アメリカでは,一部は連邦法
て根拠がないこともあります)。別の観点からは,テスト
の影響で,多くの州では生徒の成長を縦断的に追跡するこ
得点は,今テストされている教科についてでさえ,生徒が
とのできる複雑なデータシステムを構築しようとしてい
学んでいる全てのことを私たちに伝えてくれるわけでは
ます。現在そのような余裕のある州は相対的に少ないので
ありません(テストされていない教科については言うまで
すが,ほとんどの州で3年から5年の内にそのようなシステ
もありませんが)。教育の一般的な性質という観点からは,
ムが実装されることでしょう。このことが意味するのは,
数量的なアプローチでは十分適切に捉えられていない問
原則的に,各州は付加価値モデルによる分析を,あれこれ
題が多くあると私は考えています。そうした問題点は何ら
と理由があって行うことができるようになる,ということ
かの情報を含んでいるので,完全に無視してしまうのでは
です。データシステムの構造と全てのメカニズムが適切に
なく,付加価値分析による測度をもってそうした問題点を
配備されるでしょうから,付加価値モデルによる分析はよ
適切な場所に位置付ける努力が必要です。しかしながら,
り現実味を帯びたものとなっていくでしょう。実際,連邦
私たちは付加価値分析を評価のための第一の基礎とする
政府は14近くの州に対して5,500万ドルをつぎ込み,その
わけにはいきません。それでは,テストに比重が掛かりす
ようなデータシステムを構築するための支援を行ってい
ぎてしまうからです。アメリカでは,テストに基づいた説
ます。連邦政府や州政府は,これらのシステムに何百万ド
明責任および能力基準の発想というものが相当強調され
ルという予算を投資しているのです。私はいくつかの選ば
てきました。しかし,歴史を振り返ってみると,非常に教
197
第Ⅳ部
特別公開研究
米国における教育測定
養のある人間でも時として信じられないような行いをし
てきました。そういうところから,教育というものはマス
ターするべき教科という枠組を超えた存在であるべきな
のです。教育とは価値観や人間性について提供されるべき
であり,そうした側面はここでは全く話題に上っていませ
ん。世界経済のプレッシャーと競争の間に均衡を保とうと
する努力の中で,教育の焦点は能力(学力)に過度に傾倒
してしまっています。その一方で,少なくともアメリカで
は,民主主義のために市民をどのように教育するかという
広汎な問題意識が,私たちの視点からしばしば失われてし
まっているのです。現実問題は,テストに基づいて非常に
視野の狭い説明責任へ過度に依存してしまうことからく
るプレッシャーであると,私は考えています。
以上
198
講演2
Value-added modeling: Using student progress to evaluate schools and teachers
講演2
Value-added modeling: Using student progress to evaluate schools and teachers
Henry Braun
Educational Testing Service
Princeton NJ USA
Abstract
The quantitative evaluation of schools or teachers based on an analysis of the test score gains of
their students is an exciting prospect that has gained many adherents in recent years. Such
evaluations employ a class of statistical procedures called value-added models (VAMs). These
models require data that tracks individual students’ academic growth over several years and
different subjects in order to estimate the contributions that schools and teachers make to that
growth. Despite the enthusiasm among many policy-makers, over the years technical reviews of
VAMs have revealed a number of serious concerns. Indeed, the implementation of such models
and the utilization of the results raise a host of complex issues: practical, technical and even
philosophical. In this talk, I will present some of the more common models, discuss some of the
methodological concerns and review current research.
What is VAM?
classrooms to a particular school.
This issue is becoming increasingly important in the
compare the aggregate gains across time, either at the
United States. It has to do with trying to introduce new
classroom level, teacher level, or school level. Some
kinds of accountability into our education system.
believe that VAM can be used to enable the comparison
Accountability means that we want to evaluate different
of schools or teachers according to their effectiveness.
levels in our education system; for example, whether
What I want to discuss this afternoon is the statistical,
schools or teachers are carrying out their role in helping
practical, and even philosophical issues involved in
children to learn.
using test scores at the student level to make judgments
And of course, accountability is
fundamental to every profession; be it medicine or law.
The idea is to
about schoolteachers.
In education, until recently, accountability has largely
been very weak, and there has been a big movement in
One important aspect to keep in mind when using the
the United States—and some other countries as well—to
term value-added is that we are talking about the
strengthen accountability and, in particular, to introduce
contribution of the educational system, school teachers
a quantitative component of accountability based on test
or schools to students’ growth, which is not the same as
scores. This is what I want to discuss today.
students’ growth itself. Although we use student growth
as the raw material, we make statistical adjustments in
One of the more interesting developments in this area is
order to obtain estimates of value-added. Therefore, we
value-added modeling (VAM). The idea is to consider
have to dissociate the ideas of student growth, which is
growth and achievement measured at the individual
an empirical observation, and value-added, which is a
student level; that is, to track individual student growth
statistical or causal inference, although they are strongly
as measured by test scores over successive grades. The
related from the point of view of statistical analysis.
yearly gains of these students can then be aggregated to
a specific classroom or a teacher, even across
199
第Ⅳ部
特別公開研究
米国における教育測定
To begin with, let's look at this picture (slide2). Here,
require improvement; we can even give awards or
we have two schools, A and B. While the horizontal
sanctions; VAM could also be used with regard to the
axis presents students’ test scores of the previous year,
provisions of the No Child Left Behind Act, which
the vertical axis presents their current year test scores.
focuses on school accountability; it can be employed at
We see that the students’ average score in school A is 2
the teacher level within a district to identify teachers
points higher than the overall average of all schools,
who may need further professional development. We
whereas the students’ average score in school B is 1.5
could use it as part of their performance appraisals to
points below the overall average, and this is observed all
increase their salaries, to promote them, or to dismiss
along the test score scale.
them, if they are repeatedly found to be ineffective in
This is, of course, an
idealization. So, here, we can see that in school B, on an
contributing to students’ learning.
average, students’ growth falls 1.5 points below average,
whereas school A students are 2 points above. However,
Adequate Yearly Progress (AYP)
if we look at the distribution of the students’ scores, the
If you can recall, under the No Child Left Behind Act,
students of school B are all high, whereas those of
the Federal Education Law of 2002, schools must make
school A are all low. In terms of current status, the
adequate yearly progress (AYP). AYP means that each
students of school A will not look as good as those of
year, the percentage of students meeting the proficiency
school B.
So, on that basis we would say that the
standards must increase until all the students are
performance of school B is better than school A, and yet,
proficient by 2014. There are many criticisms of this
school A is doing a better job in terms of adding growth.
law, and particularly, of the AYP regulations.
So, there are two potentially different pictures for
comparing the schools, based on student status in the
First, there are questions regarding the quality of the
current year versus student growth from the previous
tests used by the states. Second, the above-mentioned
year to the current year.
unrealistic goal throws light on the ways in which the
states set proficiency standards. The fact that we are
judging schools in a state based on one criterion—the
Current Year
percentage of students above this proficiency standard—
A
and that we are making comparisons in a single grade on
a yearly basis means that we are comparing the
+2
A
performance of one cohort of students to another, so that
+2
the performances of the school and the teacher are
-1.5
B
-1.5
B
confounded with differences between the cohorts. If in
the following year, a school enrolls a weaker cohort,
Prior year
test score 2
then even though the school’s performance is better, the
results are worse.
slide2
So, you're confounding the
performance of the system with the differences in
cohorts over time. This makes the issue of AYP very
Two ways VAM may be used for accountability
problematic from the technical point of view.
VAM can be used in different ways for accountability.
We can use it to focus on schools, either in a whole state
Here is an example of how two different states can
or a district within a state. In fact, if we can isolate the
establish their AYP regulations over time (slide5). State
contribution of a school to student growth, as measured
B has a straight line from about 30% to 100% in 2014.
by test scores, then we might identify those schools that
State A has a step-like linear line—flat, linear, and a
200
講演2
Value-added modeling: Using student progress to evaluate schools and teachers
steep rise in 2009, which then becomes somewhat flat
proficient will be from 45% to 100% in about 10 years.
from 2009 to 2014. The states have a certain degree of
Though this regulation may lead states to take steps that
freedom in terms of the way in which they progress to
make them appear to meet the standards, it is
achieve the goal of 100% proficiency.
unproductive from a truly educational point of view. I
will say a little about that in a minute.
% Meeting Proficiency Standard
NAEP and state standards comparison
100
NAEP and State Standards
Comparison
State A
80
State B
Figure 5.9. G4 2000 Math: NAEP Equivalents to the State Standards of Proficient vs.
Proportions at or above State Standards of Proficient
60
300
40
Mapped Scale Score
280
20
Year
5
2002
2006
2008
2010
2012
2014
260
240
220
200
180
160
140
0.0
slide5
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Weighted proportion at or above the standard
Mapped score
NAEP proficient level
7
School Focus
Here is the historical data from 1998 to 2001 on the
percentage of students meeting the proficiency standards
slide7
in different states (slide6).
In this picture from the previous presentation (slide7),
Adapted from Linn et al (2002).
Educational Researcher, 31, 3-16.
100
Percent Meeting Standard
80
explains the proficiency scores in the previous slide—
TX
70
Texas with 85% and 90% and Massachusetts, about 25%.
MD
MD/OR
60
CA
CA
MA
MA
But the problem is that all the states are supposed to
OR
OR
MD
MD/OR
50
we can see the difference in standards set by states. This
TX
TX
TX
90
CA
CA
become 100% proficient in less than 10 years.
40
30
MA
MA
School accountability and NCLB
20
From the technical point of view, the fact that we are
Year
10
using a single criterion for school accountability is
0
1998
1999
2000
2001
6
slide6
disadvantageous for schools with students entering at
low levels, especially rural schools or those in poor
urban areas. As a result, the students entering at a low
You can see that this percentage is largely constant. MA
level
will
be
unable
to meet
the
proficiency
is Massachusetts; TX is Texas, which is going up a little.
requirements, which operate at the school level, not the
You may know the reason for this from my previous
district, level. And schools with students entering at
presentation (“Mapping state standards onto a common
higher levels, usually those with higher socioeconomic
scale”). This is adapted from an article by Robert Linn,
status, are at an advantage because they already meet the
who, I believe, is one of the most productive scientists
standards. Schools with poor students fail to meet the
working on these policy issues; He argues that the fact
standards. Moreover, because of the typical differences
since the states have a very flat performance, it is
in resources available, even within the same state or
impossible that the growth in California in percent
district, they have less capacity for making improvement.
201
第Ⅳ部
特別公開研究
米国における教育測定
This policy will lead to many negative, unintended
the school is doing than the students’ level at the end of
consequences.
For example, schools with students
the year, which is a function of their whole school
entering at low levels and those with low capacity will
history, their history before they went to school, as well
encounter difficulties in attracting teachers. Why would
as their family background. In many ways, it is fairer to
teachers want to go to a school that has been labeled a
the high poverty schools because yearly growth turns
failing
sufficient
out to be less strongly related to socioeconomic status
resources? So, the schools that are already handicapped
and other student and neighborhood characteristics, so
will be lag further behind.
that even high-poverty schools can show improvement
institution
that
cannot
supply
and low-poverty schools can show no improvement. So,
Secondly, it also means that in many schools, the
we think of this as a fairer basis for making school-to-
teachers focus on those students who are just below the
school comparisons.
proficiency level, and try to get them to increase their
proficiency, thus ignoring other students who are well
So, just to emphasize the difference, the vertical lines
above and below the average. This is an educationally
represent the comparisons under the current AYP
suboptimal allocation of resources.
regulations in each grade (slide11). We are looking at
the performance of the school for children in Grade 3 in
Finally, in every state, some schools and teachers
this academic year, then those in Grade 3 in this
engage in cheating to improve their students’ scores.
academic year, another cohort, and Grade 3 children in
Thus, it is the Federal law that’s causing massive
this academic year, and so on. So, we are comparing
dislocation at the state level and in individual schools
different cohorts on a fixed grade.
and classrooms.
NCLB Improvement by Grade of
Successive Cohorts
Accountability and cohorts
As mentioned earlier, another problem from the point of
2005-06
view of measurement is that the schools’ evaluation
2004-05
depends on the comparison of the status of last year’s
cohort with this year’s cohort.
confounding
between
school
change
or
2002-03
school
GRADE
effectiveness and the differences between the cohorts,
which we typically can't control.
Tracking
growth
of each
cohort
2003-04
So, we have this
3
4
5
6
This can be
11
particularly problematic in small schools, or schools
with highly transient populations due to student mobility.
slide11
So, we get a lot of irrelevant variance, which affects the
students’ and school’s status.
Whereas with VAM, we are taking one cohort and
following it over time across the grades, so the diagonal
VAM and accountability
lines track individual cohorts as they move over time
In this context, people have become very excited about
and across different grades.
the idea of VAM because the value-added modeling
bases school evaluation on students’ growth in each
School accountability, VAM, and NCLB
grade.
We see this as an improvement because the
Now, the states are beginning to use value-added
students’ growth—the change in test scores from last
modeling to either replace or augment their current
year to this year—will be more strongly related to what
accountability systems.
202
California and Kentucky are
講演2
Value-added modeling: Using student progress to evaluate schools and teachers
examples, but what's important is the fact that the
First, the VAM estimates, that is, the estimates of
Federal government has begun to acknowledge that they
schools or teachers’ contributions can be affected by
need to rethink their AYP, and perhaps, to incorporate
many factors that are irrelevant to what we are trying to
some kind of student growth into the Federal regulations.
measure. For example, we have small sample volatility.
The Secretary of Education in the Federal Department
If the school has a very small cohort, then the sampling
has just appointed a working group to look at different
variations can be very problematic. Following cohorts
ideas about incorporating value-added ideas into the new
across grades will often depend on the vertical scale
legislation, which will be implemented around 2007.
properties of the testing battery over time, which itself
While states are beginning to undertake value-added on
has some problems. When we deal with longitudinal
their own, what will really count is whether the Federal
data, some data is often missing—scores of some
government will accommodate value-added in its
students on a given test may be missing in a given year
accountability system
either because they were absent, sick, or sometimes they
leave the system. How we deal with missing data can
Incorporating VAM into school accountability
very strongly influence the estimates of VAM.
Systems: Some Possibilities
When states begin to bring in accountability systems
VAM is not a Panacea (2)
that involve VAM, there are a number of policy
Now it's certainly true that the VAM analysis can give
decisions to be made. I am not going to discuss them in
us a better picture of student learning in different
detail.
schools.
But we can, for example, think about fixed
Students’
growth
and
status
provide
growth targets; we can ask states to meet certain growth
complementary descriptions—a very important phrase—
targets each year, or we can even have growth targets
of what is happening with respect to students’ learning,
that become more and more demanding each year. We
but these descriptions are used for purposes of
can certainly track the growth of each cohort, and I think
accountability, and it is implicitly assumed that they are
this will become most popular partly because the
accurate indicators of school effectiveness. Both VAM
Federal Government is trying to somehow combine
and students’ status are statistical descriptions. But when
growth targets with status, that is, to develop systems
we want to use them for accountability, we are making
that involve growth toward the target, so that each year,
inferences about school effectiveness, which has to deal
you have a new cohort, and you want it to progress
with what we’ll call a causal inference; that is, that the
toward a target, say 100% proficiency. This involves a
school is the causal agent of growth.
combination of growth and status, rather than status
VAM is not a Panacea (3)
alone or growth alone.
Description is simply an empirical observation, but
VAM is not a Panacea (1)
Although
VAM is
very attractive
school effectiveness is an inference about causality. In
for
all
the
the next slide, we can see that make attributions of
abovementioned reasons, it’s not a panacea. “Panacea”
school effectiveness is equivalent to making causal
is an interesting Greek word that means a cure for
inferences on the basis of statistical descriptions. This is
everything. UNfortunately, nothing in the real world is
very dangerous when we get the data from an
really ever a panacea.
observational study rather than a randomized experiment.
Most of the talk will be
elucidating why VAM is so attractive and why it has to
be treated cautiously.
VAM is not a Panacea (4)
I think it was obvious that the statistical description of a
school in terms of its students’ current level is a very
203
第Ⅳ部
特別公開研究
米国における教育測定
poor basis for judging the effectiveness of the school.
the Federal government, that are taking the lead. Many
The argument against using value-added measures as a
states are implementing, or planning to implement
basis for judging schools is more subtle and we will now
systems for evaluating teachers on the basis of a value-
discuss it over the next few slides. Nevertheless, it is an
added analysis. In fact, there is an early history to this.
important issue that must be considered before we
The State of Tennessee took the lead in 1993, by
accept value-added measures as a replacement for, or
introducing a value-added model.
even in addition to, students’ status, because school
difference is that in Tennessee and later in Dallas, these
results can be influenced by many factors that are
models were not used for accountability, but simply to
outside the school’s control.
The resources that are
identify teachers and schools that were in need of extra
made available to the school can vary, at least in the
resources, so they could be targeted for improvement not
United States, within a district and certainly across
accountability.
districts within a state.
However, the
This can be related to the
characteristics of the student population as well as the
States and districts are using VAM
family and the community around the school.
The
Some states are beginning to experiment with VAM;
statistical adjustments of VAM cannot fully eliminate
others are actually incorporating it into their own
the selection bias caused by the nonrandom pairing of
legislation.
students and schools.
teachers at the extremes of the distribution. Teachers
Typically, they are trying to identify
who obtain high positive value-added measures may be
These problems are similar to those that we find in
rewarded or used as master teachers; similarly, those at
trying
from
the low end with negative value-added measures are
epidemiological studies or demographic surveys. In this
identified for some sort of professional development.
context, we have to try to separate the observation that
This has been the case in Tennessee (Sanders et al) since
the students in this school are growing faster than those
1993 as well as in Dallas (Webster & Mendro) with a
of another school and ask why is this happening?
different model since 1992.
to
make
scientific
inferences
Further, is it a function of the school’s context or the
school’s practices?
The accountability argument
The logic of VAM
focuses on schools’ practices, but the problem is how do
I want to come back to the intuitive appeal of this idea
we separate the two in a setting where we don’t have
of VAM, and I'm trying to frame it in one question: If
random pairings of the practice in the context?
good teaching is critical to students’ learning, then why
can't we use students’ learning or its absence to tell us
VAM and teacher effectiveness
something about the quality of teaching? This question
Let me now focus on the teacher level rather than the
has very intuitive answers. We do believe that good
school level.
The central value-added question for
teachers are better than bad teachers, and if that’s the
policy makers about teachers is what is the contribution
case, why can't we use this test data from the students to
of each teacher to the progress of the students in his or
make inferences in the other direction. Unfortunately,
her class?
this is not that simple when analyzed from the technical
point of view.
Teacher quality
Interestingly, the No Child Left Behind Act does address
VAM claims
the issue of teacher quality, but not in terms of teacher
One of the problems is that the proponents of VAM
qualifications or the productivity of the teacher with
make very strong claims. They claim that by using these
respect to student learning. Here it’s the states, rather
more sophisticated statistical methods, it is possible to
204
講演2
Value-added modeling: Using student progress to evaluate schools and teachers
objectively isolate the contribution of each teacher to
Teacher D doesn’t look so happy with –3, and teacher E
students’ learning, or to actually determine the value-
is very unhappy with –5.
added.
Further, there are real differences among
Unpacking the VAM Claim (3)
teachers, with about 1/3 of the teachers in a typical
district being statistically significant from the average,
that is, either substantially better or substantially worse
than the average teacher. In fact, students, especially
poor students or minority students, really benefit from
having very good teachers. So, the advantage is not just
Class Effects
Grades
3 4 5 6
Student Test
Scores
Studentteacher
links
that we can identify these particularly good teachers, but
A
B
C
D
+6
+2
0
-3
E
VAM
-5
it is important that we do because they can make a real
difference in students’ learning trajectories. However,
Teacher Focus
25
these points are not fully substantiated.
slide25
We now have the convergence of a real political need to
hold schools and teachers accountable and this very
Unpacking the VAM claim (2)
sophisticated statistical methodology, whose developers
So, the proponents are saying that these numbers tell us
claim that they can deliver what the politicians want.
something about the relative effectiveness of the
This is a very powerful combination, and those of us in
different teachers. But what the VAM engine is really
the measurement community who are expressing some
doing is giving us an estimate of the average gain in a
skepticism about this are fighting against a very
particular class in a particular year after adjusting for the
powerful tide.
experiences of the same students in other classes in
previous and subsequent years as well as the difference
Unpacking the VAM claim (1)
from the average gain in all classes in that year.
We haven’t lost yet, but we haven’t won either. Let's
look at the problem and undertake a very careful
Unpacking the VAM claim (3)
analysis, but at the simple level of what's behind this
When we examine the statistical model, we look at the
claim of the value-added model. Let's think of a very
fact that a set of students were in the same class in a
simple situation where we have data from, let's say, over
given year and in different classes in other years. How
four grades (slide25). We have student test scores and
much do these different patterns account for differences
the links between students and teachers; thus, in each
in average growth over time? What we really end up
grade, we know the teacher for each student, and their
with is a set of measures of value-added. These value-
test scores.
Suppose we could measure this over a
added measures do not actually apply to the teachers
period of four grades, and we take this very complicated
directly, but rather to the class. (I am representing the
database and feed it into the VAM engine—this black
class by the box around the teacher.) The class
box here—and out of this engine come value-added
comprises not just the teacher but other students and the
estimates for, let's say, these five teachers, A, B, C, D,
interactions among the students themselves, as well as
and E.
the interactions between the students and the teacher.
We see that teacher A has a value-added
estimate of +6; teacher B, +2; and teacher C is at the
average 0 because, remember, this is a comparative
Unpacking the VAM claim (4)
analysis. (We always compare teachers to one another.)
When we look at it this way, then we see that there are
two very important steps that we have to take based on
205
第Ⅳ部
特別公開研究
米国における教育測定
the observations of students’ growth to make a causal
group gets the drug and the control group gets a placebo.
inference about the effectiveness of the teachers. As the
With randomization, each patient has an equal chance of
first step, we have to interpret the class effect as the
being in either group, so we don’t have to worry about
causal contribution of being in that class to students’
the initial differences between the two groups.
gains, and the second step is to attribute all, or almost all,
Therefore, if we find a difference in the results, we are
of that causal contribution of the class to the actions of
in a good position to attribute it to the difference
the teacher in class. We have to deal with these two
between the drug and the placebo rather than to the
steps logically and empirically before we can make the
innate differences among the groups. This interpretation
transition from the statistical description to the causal
is stronger as long as we have a sufficiently large group
inference that’s at the heart of the accountability issue.
of people and, of course, the randomization has been
properly carried out.
Unpacking the VAM claim (5)-Examining step1
Let's look at step one. The question from a scientific
Randomization (2)
point of view is: Under what circumstances can we
In the United States, teachers are not randomly assigned
unequivocally interpret the result of the statistical
to schools, and students are certainly not randomly
analysis as the causal effect? The answer is that we are
assigned to teachers.
in the best situation if we've conducted a large, well-
randomization in the school settings, we can't be assured
designed randomized experiment.
that the observed results are caused by the treatment (i.e.
Since we can't rely on
the class or the teacher). In fact, they might be related to
Unpacking the VAM claim (6)
some degree to the initial differences in students and the
This is because if there are systematic differences
class as a whole.
among the classes with respect to the characteristics of
the students and the interactions among these students,
Randomization (3)
and if these differences are related to the score gains,
This means is that if we want to make causal attributions,
which are inputs to the value-added measures, then the
no statistical model, no matter how complicated, and no
class effect estimates produced by the VAM engine will
method of analysis, however sophisticated, can fully
not be accurate measures of the contributions of those
compensate
classes to students’ scores. Thus, the fact that we don’t
randomization.
have a randomized experiment means that we have
developers of the various VAM models that they can
potential confounding of the real differences between
objectively isolate teachers’ effectiveness will not stand
classes in their causal contributions and the differences
up to scientific scrutiny. It might be approximately true,
in the classes themselves independent of the events in
but it needs to be examined very carefully rather than
the class.
being accepted as a fact.
Randomization: the gold standard (1)
Unpacking the VAM claim (7) –Examining step2
Let's just take a quick detour and talk about
Even if we are able to accept the possibility of making
randomization and its importance in causal inference. In
approximate causal inferences in terms of the class
the experimental world, we often like to refer to
effect, we still need to proceed to the second step, which
randomization as a sort of golden standard for inference,
is attributing that casual effect at the classroom level to
and this actually stems from the medical world. For
this individual teacher in that class. The question that
example in a drug trial, if we divide a representative
we have to ask is under what circumstances can we
group of people randomly into two groups, the treatment
attribute all, or almost all, of the purpose of the class to
206
for
the
fact
that
we
don’t
have
This also means the claim of the
講演2
the teachers’ pedagogy itself?
Value-added modeling: Using student progress to evaluate schools and teachers
Nobody knows the
answer to this yet.
gender; and their structures as models. The number of
levels—one level or multilevel—the kinds of regression
assumptions they make, and how they treat missing data
Unpacking the VAM claim (8)
are also important. Thus, these models can differ on one
What we can say is that teachers probably bear a
or more of these dimensions, and when we cross all
substantial degree of responsibility for their students’
these dimensions, we have a very large number of
learning.
potential models only a few of which are really being
But the degree of responsibility and
effectiveness will vary both with the school and the
studied at present.
community environment, the mix of the students in the
classroom, and the number of unexpected events; for
example, a personal crisis of one student may disrupt the
whole class.
Sanders’ layered model (1)
ybue
tttt
kkkk
Sander’s Layered Model (1)
Should we blame the teacher for this?
ytk
There are other realities in school settings that are not
accommodated in this VAM.
ytk 11
btk
utk
btk 11 utk
etk
utk 11
etk 11
where
b
kt
I think it’s important at this point to say that despite the
ytk
ybue
tttt
kkkk
y
kt
very strong scientific arguments against accepting these
btk
= student score in grade k, year t
u
kt
= district means core in grade k, year t
utk e
kt
statistical descriptions as unbiased estimates of causal
k
t
e
= contributions of the teacher in grade k, year t
= unexplained variation in student score in grade k, year t
contributions, they can still be useful in the context of
other statistical and non-statistical descriptions of
35
teacher performance. Therefore, saying that we can’t
treat the value added estimates as having unambiguous
slide35
meaning, is not to say that they are useless. I now want
to step back a little and ask what can we argue in terms
Let me just give you a flavor of one of these models—
of the quality of these statistical estimates if we
Sanders’ model, which is being used in Tennessee and
recognize that they are not necessarily accurate
in a number of other states (slide35). I’m going to show
measures of casual contributions?
a very simplified version, but it may give you an idea of
what’s involved.
The first equation in the model
Models for Value-added Analysis
describes a student’s test scores in a given grade k in a
If we accept the possibility that these value-added
given year t ( yt ) as the sum of two components—a
models can be interesting and useful, then it’s
worthwhile to pay a little more attention to their
statistical properties. There are a number of value-added
models that have been studied, and some are also being
used.
They can differ along a number of different
k
k
district mean score ( bt ) and the contribution made by
k
the teacher to that student in grade k and year t ( ut );
dimensions such as the following: the kinds of data
the deviation that is allocated or attributed on a
structures they require; the number of cohorts they need
statistical basis to the teacher relative to the district
to conduct their analysis; the number of years of test
average. We also have an error term ( et ). During the
scores for these cohorts; the number of subjects—math,
k
reading, science, that is, how many subjects they will
next year, t increases by one and so does the grade. We
use—and whether or not they use student characteristics
have the district average for the next grade k+1 and year
such as students’ socioeconomic status, and race, and
t+1. Now the important thing is that the deflection or
207
第Ⅳ部
特別公開研究
米国における教育測定
the deviation due to that teacher carries over to the next
specialized software.
They were able to do these
year.
So, if the teacher’s made an improvement in
calculations in a finite amount of time. Their software is
students’ growth, it carries over to the next year. The
very efficient for breaking down these very large
question is whether or not this is a reasonable
complex covariance structures in order to produce the
assumption.
We then have the contribution of the
best linear unbiased predictors, which are basically the
teacher for the next year plus another error term. We
maximum likelihood estimate equations for these very
can build this up over successive years; thus, we have
large sets of mixed model equations.
Sanders’ layered model because we layer the regression
Sanders’ layered model (4)
models from one year on to the next.
One of the critical assumptions that make the Sanders’
Sanders’ layered model (2)
layered model so interesting is the persistence of the
So equations (1) and (2) are treated as a mixed model
teacher’s effect into the next year. Another assumption
and the “b” coefficients for the district averages are
is that he does not introduce student characteristics like
treated as fixed effects. The “u” coefficients, which are
many other models do. His claim is that because he is
the teacher deviations or class deviations, are treated as
using this multivariate analysis—with many subjects
random effects.
Thus, this is a classic linear mixed
and longitudinal data over many grades—he doesn’t
model. The difference is that we don’t have a simple set
need to introduce student characteristics because, in
of two or three equations. We will often have equations
effect, each student is acting as her own block. His
for subsequent years up to five years. And we’ll also
argument is that if a student was on a very fast trajectory
have equations for up to five other subjects. Thus, the
of growth and when he/she goes to a particular teacher’s
basic model will have, for example, up to 25 linear
class next year, what we are looking for is whether that
equations for a given analysis. But this is not the most
teacher helps deflect this growth even higher or lower.
complex part.
No student puts the teacher at a disadvantage, Sanders’
claims, since whether the student was slow or fast in
Sanders’ layered model (3)
growth is not crtical.
One of the critical assumptions here is that the teacher’s
growth in that year matched that of the previous year.
effect persists into the successive years.
This is analagous to
Another
problem is the covariance structure. If we go back to
The question is whether the
classic agricultural randomized
block designs.
slide 35, these error terms here are not uncorrelated. In
fact, they are very strongly correlated. We now have to
Sanders also claims that this use of multivariate
model the covariance structure among the error terms
longitudinal data to take advantage of the information in
with
covariances—the
the covariance structures reduces the impact of data
covariances across students in the same class within a
that’s not missing at random. That is, when students
year, the covariances within students across the years,
have missing data, it may be possible that poor students
and the covariances within students and years across
are more likely to not take the test. In this case, you’ll
subjects.
This creates very complex covariance
have what’s called not missing at random, which can
structures and to do the necessary computations, even
introduce a selection bias of a different kind into the
for a medium-sized school district, say with a couple of
estimates.
thousand students, can often involve solving two or
massive covariance structure buffers the estimates
three hundred thousand equations. And in fact, William
against departures from missing at random. However,
Sanders—who
his claim that he can isolate the teacher’s contribution to
three
different
statistician—and
208
was
his
kinds
quite
a
of
famous
colleagues
agricultural
developed
very
And Sanders’ claims that the use of this
student learnign, which is one way of saying that he can
講演2
Value-added modeling: Using student progress to evaluate schools and teachers
extract the causal contribution of the teacher, requires
that there are probably measurable differences between
still more than such robustness.
teachers in their “pedagogical efficacy.” Valued-added
models of one sort or another could be used to
These two claims that, by using the multivariate data, we
efficiently identify teachers who should be observed
can eliminate the need to use student characteristics and
more closely to determine if they need specific forms of
that the results are robust to departures from the missing
professional development. That is, we can use VAM as
data, are at least plausible. I’ll discuss some research
a kind of screening. Based on this statistical analysis,
that we’ve done to look at these assumptions, and argue
we can identify a group of teachers who may need
that his third claim, which allows us to make causal
professional development, but then we need to follow up
inferences, is less plausible because it goes beyond
with observations to make sure that the statistical
statistical analysis to the analysis of a causal pathway
analysis hasn’t led us astray because it hasn’t taken into
without any information. Thus, the first two claims are
account contextual issues that are not built into the
more reasonable at least from a statistical standpoint; the
database.
third, we believe, is not.
Now, there are some cautions. One of them concerns
For those who are interested in this issue of missing data,
the
Tennessee
Value-Added
Assessment
System
let me mention that the classic reference is a book by
(TVAAS), specifically: Layered models are probably so
Rod Little and Donald Rubin on missing data that talks
simple that we need to make them a little more
about the role of missing data in statistical analysis, and
sophisticated because, for example, the fact that the
particularly, in the analysis of observational studies.
teacher parameters persist may not in fact reflect the
There is another very good book by Paul Rosenbaum on
reality that over time, there has probably been a decay in
observational studies. It also talks in detail about the
the teacher contribution. Secondly, the extreme VAM
relationship between missing data and confounded
rankings where the teachers seemed to very high up on
estimates.
the positive side or very low down on the negative side
are very unstable. The volatility in these rankings turns
Due Diligence
out to be very high because of the ratio of variance
My conclusion is that if we’re going to use these value-
components within and between teachers.
added models for high stakes—that is, for consequential
reasons such as teacher evaluation and salary—then we
Another point here is that teachers with different grades
must make sure we know how they work, and
should not be compared because growth along the scale
understand their limitations. In fact, we need to know
at different grades may follow different average
much more before we can proceed to use such
trajectories, and if we don’t take that into account, we
approaches for high stakes. We must carry out what
could be disadvantaging or advantaging teachers in
might be called “due diligence”. Due diligence is really
different grades. Therefore, we should probably only
a business term.
Let’s say, you’re going to buy a
compare teachers in the same grade. In fact, even in the
business worth $10 million. You do due diligence: You
same grade, teachers shouldn’t be compared if they are
will read about it, talk to customers, and make sure that
teaching very different groups of students that are never
you are buying what you think you’re buying.
mixed.
What do we already know?
Research Agenda
So what do we already know? Well, we know some
There is a fairly broad research agenda in my paper that
good things. Based on many empirical studies, we know
appeared in the volume on value-added measures for
209
第Ⅳ部
特別公開研究
米国における教育測定
evaluating teachers that just came out this year. I think
is a better accountability indicator than to use only one
we need to clarify what we mean by teacher
of them.
effectiveness and also be clear when we are talking
about a statistical description and when we are talking
I’ll just add that I’m currently involved in a couple of
about a causal attribution. From the statistical point of
projects in which we’re really focusing on the sensitivity
view, we also need to investigate the sensitivity of the
of the estimated teacher effects to various departures
estimated teacher effects to departures from the
from assumptions. In one study, we’re looking at how
assumptions underlying all these value-added models,
the effects change as we move from the assumption of
whether we’re using Sanders’ model, a hierarchical
missing at random to various departures from the
linear model, or a two-stage least squares model that’s
missing random; in another study, we’re looking at how
used in Dallas. Irrespective of the model, there are some
these estimated teacher effects change when we look at
very critical assumptions that are hard to evaluate
different ways of summarizing student test scores as a
directly.
basis for the analysis.
If we’re talking about teacher accountability, we also
Teacher evaluation and assistance
have to find ways of disentangling true teacher
I think that we now agree that one of the value-added
effectiveness from school and context contributions to
approaches can be useful in identifying many teachers
students’ learning, and this is something that, I think, is
who are, perhaps, not performing at acceptable levels in
actually very difficult. And probably just as important,
terms of promoting student gains. However, even if we
we have to characterize those settings where the use of
are willing to trust the value-added analysis, can it tell us
the results of value-added models should be strongly
what the problem with the teacher is?
discouraged. I think another important point that is not
pedagogical style, is it class management, or is it
being followed much, as far as I know, is to find some
something entirely different? Unless we can get this
external validation of estimated teacher effects as
additional information, we are really not much better off.
approximate measures of teacher effectiveness. That is,
This information should be gathered in the classroom in
we could undertake some studies, where we conduct this
order to properly diagnose what the problems are, and
value added analysis, say in a school district, and at the
the teachers can then be provided with the needed
same time develop other nonstatistical approaches to
professional development or other forms of assistance.
teacher
example, observations by
But to rely purely on statistical analysis without
external examiners, reports by principals, and so on—
understanding the classroom context is, we think, a
and then look at the relationship between these
misuse of test data.
evaluation—for
Is it their
nonstatistical, more humanistic evaluations and this
purely statistical evaluation and see the extent of their
Teacher evaluation measures
correlation.
So what are the kinds of observations or kinds of data
should be collected for teachers that are identified
These humanistic evaluations have their own problems.
byVAM analysis? Certainly, one possibility is classroom
They can be biased and involve a lot of uncertainty, and
observations using some sort of structured approach
so on; but they have a different evidence base. In fact,
employing something called “Framework for Teaching”,
I’ve been able to find two or three such studies in which
or observations made by outstanding teachers. Here, we
the correlations are modest. This suggests that when we
are talking about a kind of a triage, or a screening
have multiple fallible measures (fallible means subject
approach. But perhaps, even diagnostic tests that look at
to error), then combining them in some reasonable way
teachers’ dispositions, that is, their attitudes toward
210
講演2
Value-added modeling: Using student progress to evaluate schools and teachers
teaching, their beliefs about students, their experiences,
three pages just on that one little aspect of teaching, and
and so on can be used to get a proper picture of teachers
there are several other aspects.
before we begin to make a diagnosis about what kind of
complicated to do that. But it’s still cheaper than trying
assistance they’ll require.
to visit hundreds of classrooms.
It becomes very
Even when you’re
making these observations, you have really very short
Teacher rewards and salary differentiation
segments of one or two hours, so you have statistical
Our conclusion at this point is that the value–added
uncertainty there, as well. The problem of documenting
analysis should not be used as the sole measure for
teacher practices is very difficult. There has been some
making decisions about teacher rewards or salary
research, and only recently, researchers have tried to
differentiation based on student performance, but it
relate teacher practices to value-added analysis because
could be considered in conjunction with other measures,
it is a new idea. Thus, not much has been achieved in
such as teachers’ portfolios and other observations in a
that direction. Despite all these difficulties, I think that
well-controlled pilot study.
it will be an area of increasingly important research.
I can expand a little.
Thank you very much.
Two years ago, I and my
colleagues finished a study at ETS where we looked at
students’ performances on the Advanced Placement, a
Questions & Answers
program where high school students take college level
Q1: I think you are conducting questionnaires on
courses and get credits if they do well enough. When
teachers about their teaching methods or practices.
they go to college, they can either skip the introductory
Could you tell us your insights on what kind of teachers’
first year courses, or they can even skip the first year and
practices will affect students’ performances?
finish college in three rather than four years. This is a
A1: Right now, there have not been many studies that
quite popular program, and the question was whether we
try to relate teacher practices to student improvement.
could identify teacher practices that were associated with
Such research is, in some ways, just beginning. But
the better performance of students on these exams.
there have been a number of studies that have been
We studied biology and history—two different kinds of
conducted through surveys. In other words, we send out
subjects—and we tried to do a sort of a national survey
survey questionnaires that teachers fill out about their
of these teachers. We would have had a lot of trouble
style and approach, and we then try to relate the
coming up with the survey if we tried to document
differences in teacher practices to differences in student
teacher practices in a practical way. When we tried to
outcomes.
relate the differences in teacher practices to those in
There are two problems right now. First, teachers are
VAM, not just when the students had made a certain
not always the best reporters of their own style; second, I,
level of score but when we looked at the value–added
having conducted one of these surveys myself, know
measures—that is, when we take account of students’
how hard it is to formulate a survey that’s not too long
previous performance—we looked at how much that
and obtains accurate information. For example, we can
teacher seemed to add to the students’ academic history.
ask teachers whether they prefer a didactic approach—
After we took account of the context of the school and
that is, instructing students—more questioning, or a
the classroom, we didn’t find very strong relationships
more interactive approach. But then, you have to ask,
between teacher practices and these measures.
“If you prefer the interactive approach, do you also use
This could be due to many reasons. One, maybe that we
the other one, and if you use both, how often do you use
didn’t get a very good measure of teacher practices;
them and in what order, and do you use them all the
there may be a confounding between teacher practices
time?” So by the time you finish, you can have two or
and the context so when you adjust for the context you
211
第Ⅳ部
特別公開研究
米国における教育測定
are, in fact, removing some of the effects of teacher
subjects. You have approximately 25 data points for
practices. That is, when you adjust for the factors that
each student and five subjects by five years. The teacher
are not of interest in order to isolate the contribution of
effects are based on a set of models and then continued
the relevant factor, then your adjustments can result in
over time and many subjects; all these represent the data
an underestimation of the contribution of this factor of
for a single cohort. Remember from the first picture that
since all the factors are correlated.
we are following one cohort over time.
Maybe, you are
In the
being very conservative. There are both substantive and
application, for example in Tennessee, a whole set of
statistical issues that make these kinds of studies very
models for one cohort is used for three cohorts at a time.
difficult.
The estimate for a particular teacher is based on the
But to continue on this issue of observational versus
average over three cohorts, which is a reasonable
randomized studies, I think that trying to isolate these
amount of stability over time.
teacher effects will always be very difficult, if not
shown that when the cohorts are not that big, you still
impossible. We have a better chance if we are talking
get an uncomfortably large statistical variance for
about program evaluation, where it’s more feasible to do
teacher effects.
Some analyses have
randomized allocations of students, classes, or schools to
different programs, and to make causal inferences about
Q3: Do standardized tests make it possible to compare
the relative effectiveness of different programs based on
annual longitudinal changes?
this analysis of the randomized study. But even there,
A3: This leads to some very complicated issues.
there are problems because typically, in the real world,
“Standardized” simply means that it is administratively
we cannot randomize at the student level; at most, we
fair to all the students. These kinds of models do not
can randomize at the classroom level. So, we need very
actually require a vertical linking from one year to the
large studies in order to have sufficient degree of
next.
freedom to get statistically reliable estimates of program
linearity between years. However, in practice, most of
differences, which cost millions of dollars, at least in
our standardized test batteries produced by test
United States. So, it’s not clear whether we’ll be able to
publishers are vertically linked. So y t
undertake many such randomized program evaluations,
All they require is a sort of an approximate
k 1
1
refers to the
although the current administration in the United States
scores that are obtained in year “t” and grade “k”, and
is pushing very hard on these randomized studies. If you
year “t+1” and grade “k+1” have already been vertically
want to learn more you should visit the website of “What
linked. This makes the interpretation of student growth
Works Clearinghouse (http://www.w-w-c.org/),” which
easier because we’re looking on the same scale. Just as I
is an archive of all kinds of randomized studies in
was arguing in the last lecture about the growth in the
various areas of education. This is modeled after the
National Assessment of Educational Progress (NAEP),
concurrent collaboration in medicine, which is a British-
where we had a single scale, the problem is that vertical
based archive of randomized studies in medicine.
linking, unlike horizontal equating, can be very
problematic in terms of the kinds of assumptions.
Q2: In Sanders’ layered model (slide 35), is the effect
To continue, the problem with vertical linking, even
for year “t” comparable to the effect for the subsequent
though it simplifies the presentation of data, is that when
year (“t+1”) on the same scale? If this is possible, how
you vertically link over
many tests are available for that comparison?
mathematics, the yearly content profile in the test will
A2: In the current application of Sanders’ model, he
change; this has been mentioned in the book edited by
uses five years of data on each student from grades three
Robert Lissitz. There is a paper by Bill Schmidt and
through seven in a particular subject, and up to five
others at Michigan State in which they conduct an
212
several years, like in
講演2
Value-added modeling: Using student progress to evaluate schools and teachers
analysis of the content profile in mathematics over time
interestingly, the districts are not required to use it; this
and show that the content changes across Grade 3
is again part of the local control. Sanders’ told me that
through Grade 8. They then ask, given this shift in
nearly one-third of the districts in Tennessee use the
content over time, what is represented by the scores on
results of VAM for evaluating teachers’ professional
the vertical scale constructed through this linking
development and for school analysis; two-thirds don’t
procedure? I’m not a subject-matter expert so I can’t
use it at all although they get the results.
say that I fully accept their argument, although I think
that it’s very plausible. They argue that the consequence
Q5: Can a state get estimated value of each individual
of this vertical linking is to pull out that dimension
teacher? If so, aren’t teachers complaining about it?
which is most common across years, and which
A5: They complained at the beginning, but they don’t
probably deals more with the developed ability in
do so now because it’s not used in their administrative
mathematics and less with the content that’s unique at
evaluation. It’s only used in the district for professional
that particular grade level,; if it is unique at that grade
development and other purposes.
level, it probably won’t be captured by one dimension
determine their salary or whether they get a job.
It’s not used to
across years. If this argument is correct, their claim is
that the vertical scale is downweighting much of the data
Q6 (Henry Braun): Do you have these kinds of
that’s most sensitive to teachers’ practices because the
longitudinal databases at the school level In Japan?
teachers are trying to teach the content that’s unique to
Answer: We don’t have such databases.
that year, and the vertical scale is throwing out at least
Henry Braun: In the U.S., partly because of the
some, if not most, of the information, relevant to what’s
federal law, many states are building complex data
sensitive to teachers’ practices. They are arguing that
systems to be able to track students’ growth, so that even
the vertical linking data, if we use that as the input to the
though right now, relatively few states will have that
value–added analysis, is probably not giving us what we
capacity, most states will have it within about three or
want in terms of teacher effectiveness.
five years. This means that, in principle, they can be
It should be mentioned that a model such as Sanders’
undertake this kind of value-added analysis for one
model doesn’t require vertical linking. In fact, it would
reason or another.I It’s going to become more and more
do better if the scores were more or less the raw data
feasible because the data structures and all mechanisms
from the individual test that had not been transformed by
will be in place; in fact, the federal government just
vertical linking. I have had many conversations with
awarded about $55 million to nearly 14 states to help
Sanders’, and as far as I know, he has never tried to use
build such data systems.
his model in parallel, once with the vertical linking data
governments are investing millions of dollars to build
that he uses in his application and once with the raw data
these systems.
before vertical linking to see the differences. I think that
recommending the selected states. It’s a very serious
will be a very interesting study, but it hasn’t been
investment, which, I think, will have educationally
undertaken.
productive implications apart from value-additions
The Federal and State
I was on the panel that was
because it means that states will now be able to track
Q4: What kind of results did you get from TVAAS
students as they go from one school to another or one
(The Tennessee Value-Added Assessment System)?
district to another.
A4: I have not done work on the TVAAS. Sanders’
efficiently and accurately.
model is used in Tennessee as a matter of law. It’s built
analyses, that are not necessarily so sophisticated, can be
into their State Education Law that districts must bring
done more easily. I think that this pressure will actually
the data and must submit it for analysis.
have productive consequences, irrespective of whether
However,
Records can be transferred more
In fact, other kinds of
213
第Ⅳ部
特別公開研究
米国における教育測定
or not VAM becomes part of the states’ accountability
system.
Q7: In Japan, “a good teacher” is hardly defined based
on data since we do not have an established database,
but emotional aspects such as being good at human
relationships with students have a greater influence on
the evaluation.
How do you assess these aspects of
teachers?
A7: In the United States, there are 20,000 different
ways of doing it, one for every school district in the
country. So, there is no generalization. We often lose
sight of many things in this analysis; in particular, we
make judgments about teachers in terms of the test
scores, which places an enormous burden on the quality
of tests used by the states, which is sometimes not
justified. The other point is that test scores don’t tell us
everything about what the students learn, even in those
subjects that are being tested, let alone the other subjects.
I think that in terms of the general quality of education,
there are many problems that are not well treated by this
quantitative approach, and the struggle is to take value–
added measures and put them in their proper place but
not ignore them entirely because they contain some
information.
However, we are not to make it the
principal basis for evaluation, as it gives tests too much
credit. And I would argue saying that in the United
States, we have laid considerable emphasis on this testbased accountability and the idea of proficiency; yet, if
we look at history, we know that very well educated
people have sometimes done terrible things, and that
education has to be more than just a subject that can be
mastered. Education should be provided about values
and humanity, and none of that appears here. So, in our
struggle with this balance between the pressure of the
global economy and competition, the focus is very
narrowly targeted on competencies, while the broader
issue of how we educate citizens for democracy that’s
often lost -- at least in our country. I think the real
problem is the pressure due to over reliance on this very
narrow test-based accountability.
(end)
214