講演2 付加価値モデル:生徒の学力向上と,学校および教師の評価 講演2(翻訳) 付加価値モデル:生徒の学力向上と,学校および教師の評価 Henry Braun(ETS,アメリカ) 翻訳 大澤 公一(東京大学大学院教育学研究科) 2005年12月12日 於:東京大学 小柴ホール 生徒のテスト成績の増分(成長幅)の解析に基づく学校や教師の量的評価は,近年多くの支持 を獲得してきており興味深く将来性がある。そのような量的評価の方法には,Value-Added Models (付加価値モデル)と呼ばれる統計手法が採用されている。付加価値モデルでは生徒個人の学業 の成長幅を,複数科目や複数年度に渡って縦断的に追跡したデータを利用し,生徒の成長に対し て学校や教師が寄与している部分を推定することが目的となる。多くの為政者が熱狂的な関心を 寄せているにもかかわらず,付加価値モデルの技術的なレビューは,多くの深刻な問題を何年に も渡って明らかにしてきた。実際,付加価値モデルの実践とその結果の利用は,実践的,技術的, あるいは哲学的でさえもある複雑な問題を数多く提起している。本稿では付加価値モデルの共通 モデルを紹介し,方法論的な諸問題について議論する。また合わせて最近の研究についてのレビ ューを行う。 (本稿は講演内容および事後の質疑応答を事務局が要約的にまとめたものである。翻訳前の英文は後掲。) 1. 付加価値モデルとは何か? よって測定される個々の生徒の成長を,学年を追って縦断 的に追跡していこうというのです。生徒の年間の成長幅は 教育システムに新しい説明責任(アカウンタビリティ ー)を導入することは,アメリカでは非常に重要な問題と なってきています。説明責任とは,教育システムの様々な レベルを評価する,というほどの意味です。例えば,学校 や教師が子どもたちの学習を支援するという職責を果た しているのかどうかを評価するといったことが考えられ ます。もちろん,説明責任の考え方は医学や法律であって も,あらゆる職掌に関係する基本的なものです。近年まで は,教育における説明責任の考え方は概して弱いものであ りました。アメリカでは他の諸国と同様に説明責任の考え 方を強め,特にテスト得点に基づく説明責任の数量的要因 (評価)を導入しようという動きが見られるようになって きています。この点が,今回の私の議論の主な内容という ことになります。 この領域における興味深い技術的発展の一つが付加価 値モデルなのです。生徒個人のレベルで測定される成長や 到達度を考察しようというのがその発想で,テスト得点に 特定の教室や教員についての集団データとしてまとめら れますし,学級を横断してある特定の学校についてデータ をまとめることもできます。付加価値モデルの発想は,教 室,教員,学校といった様々なレベルで集団データとして の成長幅を比較しようというものです。価値付加モデルを 利用すれば,学校や教師の比較を有効性の観点から行うこ とが可能になると信じている人もいます。本日は,学校や 教員について何らかの判断を下すために生徒レベルのテ スト得点を利用することの中に含まれる,統計学的,実践 的,あるいは哲学的な諸問題について議論していきたいと 思います。 付加価値という術語を用いるときに気をつけておかな ければならないのは,私たちは生徒の成長に対する教育シ ステムや教員,あるいは学校の寄与を問題にしているとい うことです。生徒の成長そのものについて考察するのでは ありません。生徒の成長は生のデータとして用いるのです が,そこに統計学的な補正を施して(教員や学校の寄与と 183 第Ⅳ部 特別公開研究 米国における教育測定 しての)付加価値の推定を行います。従って,私たちは経 験的観測としての生徒の成長と,統計的推論あるいは因果 2. 付加価値モデルを説明責任の目的で利用するた めの二つの方法 推論としての付加価値という二つの発想を分離する必要 付加価値モデルは,説明責任のために二つの方法で利用 があるのです。しかし,両者は統計解析という観点からは することができます。まず,付加価値モデルは州全体の, 強力に関連しているのです。 あるいは州内のある学区の学校に焦点を当てて用いるこ とができます。テスト得点によって測定される生徒の成長 に対する学校の寄与を分離することができるなら,教育的 な改善が必要な学校を見つけることができるかもしれま Current Year せん。また,寄与の程度によって学校に賞罰を与えること もできるでしょう。 A 次に,付加価値モデルは学校の説明責任に焦点を当てた +2 A No Child Left Behind法の文脈で用いることもできます。 +2 その場合,付加価値モデルはある学区の教員レベルで適用 -1.5 B -1.5 され,さらなる教育能力開発が必要な教員を見つけるため B に利用されるでしょう。そのような状況では,昇給や昇進, Prior year test score 2 スライド2 あるいは生徒の学習に対する貢献という観点から教育的 に有効でないと繰り返し判断された場合に解雇を行うな ど,教員の職務評価の一環として付加価値モデルを利用す ることができます。 まずスライド2をご覧ください。いま,二つの学校AとB を考えます。横軸は前年度の生徒のテスト得点を,縦軸は 本年度のテスト得点をそれぞれ表しています。学校Aの生 徒の平均テスト得点は全ての学校の全体平均より2ポイン ト高いことが分かります。また,学校Bの平均テスト得点 は全体平均より1.5ポイント低く,こうした傾向がテスト 得点の尺度上で例外なく観察されています。この状況はも ちろん架空のものです。学校Bでは,平均的に生徒の成長 が1.5ポイント分全体平均よりも下であり,逆に学校Aの生 徒たちは平均的に2ポイント全体平均より上であることが 分かります。しかしながら,生徒の得点分布に着目すると, 学校Bの生徒の得点はみな高いのに対して学校Aの生徒の 得点はみな低いというのです。このような状況では,学校 Aの生徒は学校Bの生徒ほど出来がよくないということに なります。これを根拠として何かを言うとすると,学校B の成績は学校Aよりも優れているが,前年度からの成長幅 という観点からは学校Aの生徒のほうがより大きな伸び をみせている,ということになるでしょう。従って,生徒 の現状に基づく学校の比較と,前年度から今年度への生徒 の成長幅に基づく学校の比較と,学校間の比較には潜在的 に二つの構図があるということなのです。 3. Adequate Yearly Progress (AYP) No Child Left Behind法の下,2002年の連邦教育改革法 案を思い出していただくと,そこでは各学校はAdequate Yearly Progress (AYP,十分な年間向上)を達成すること が義務付けられています。AYPが意味するところは,一年 ごとに「熟達」レベルの教育基準をクリアする生徒の割合 が,2014年(全生徒が基準をクリアしていることが求め られる最終年度)まで増加し続けなければならないという ことです。この改革法案に対しては多くの批判がなされて おり,特にAYP規制に対して批判が集中しています。 まず,各州が採用しているテストの質に疑問があります。 次に,上に述べた非現実的な目標は,各州が教育基準を定 める方法に焦点を当てることになります。私たちは,教育 基準を満足する生徒の割合という一つの基準に基づいて ある州の学校を評価判断しているのが現実であり,またあ る学年における年間基準に基づいても比較を行っていま す。こうした教育現場の現実は,私たちがある生徒のコー ホートと別の生徒のコーホートについて成績を比較して いることを意味しており,その結果,学校や教師のパフォ ーマンスとコーホート間の相違が交絡してしまっていま す。もし,ある学校がある年度の翌年度に力の弱いコーホ ートの生徒を入学させたとするならば,仮に学校としての 184 講演2 教育効果が優れていたとしても,(生徒の成績としての) 付加価値モデル:生徒の学力向上と,学校および教師の評価 スライド6は,実際の州における「熟達」レベルの教育 結果は悪化することになるでしょう。ですから,教育シス 基準を満たす生徒の割合に関する,1998年から2001年に テムのパフォーマンスとコーホートの違いとが年度をま かけての史実データです。この図を見ると,その割合は大 たいで交絡してしまっているのです。この点が,AYPに関 まかにいって一定のまま推移していることが分かります。 する諸問題を技術的な観点から厄介なものとしているの MAはマサチューセッツ州,TXはテキサス州です。両者共 です。 に少しずつ達成率が向上していますが,その理由について は私の前回の発表「共通尺度上への州基準のマッピング」 からお分かりいただけると思います。以下はこの手の政策 % Meeting Proficiency Standard に関する諸問題に取り組んでいる最も創造的な科学者の 一人だと私が考えているRobert Linnの論文からとってき ているのですが,彼の議論では各州のパフォーマンスは非 100 State A 80 常に緩慢であるために,カリフォルニア州が教育基準を満 たす生徒の割合を今後約10年間で45%から100%に引き State B 60 上げることは不可能であるというのです。AYP規制は,生 40 徒が教育基準をあたかも満たしているかのように見せか 20 ける手段をとらせる方向に各州を促してしまうかもしれ ませんが,それは教育的な見地からは非生産的であるので Year 5 2002 2006 2008 2010 2012 す。 2014 スライド5 NAEP と州の教育基準の比較 スライド5は,仮想的な二つの州がそれぞれのAYP目標 NAEP and State Standards Comparison をどのように達成していくのかを示したモデルの例です。 州Bは,約30%水準の教育基準達成率から2014年の100% Figure 5.9. G4 2000 Math: NAEP Equivalents to the State Standards of Proficient vs. Proportions at or above State Standards of Proficient に至るまで,右肩上がりの直線的な増加(成長)を見込ん 300 でいます。それに対し,州Aではステップ関数に似た形の 260 Mapped Scale Score 280 ライン,まずゆったり増加し,次いで平行に推移,そして 2009年に急激な伸びをみせ,その後は2014年まで緩やか 240 220 200 180 160 な増加(成長)を見込んでいます。このように,各州は最 140 0.0 終的な100%の教育基準達成率に向けて進んでいく方法に 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Weighted proportion at or above the standard Mapped score ついては,ある程度の裁量をもって臨んでいるのです。 NAEP proficient level School Focus 7 スライド7 Adapted from Linn et al (2002). Educational Researcher, 31, 3-16. 100 Percent Meeting Standard TX スライド7は前回の発表で用いたものを拝借してきたも TX TX 90 TX 80 のですが,ここから州ごとに設定された教育基準の(レベ 70 MD MD/OR 60 50 CA CA MA MA ルの)違いが分かります。このグラフは,「熟達」レベル OR OR MD MD/OR CA に相当するNAEP等化尺度得点について説明しています。 CA 40 30 MA MA テキサス州は85%か90%の,マサチューセッツ州は25% くらいのところです。問題は,今後10年以内に全ての州が 教育基準を満たす生徒の割合を例外なく100%にすること 20 Year 10 が期待されていることなのです。 0 1998 1999 2000 2001 6 スライド6 185 第Ⅳ部 特別公開研究 米国における教育測定 学校の説明責任と No Child Left Behind: 技術的な観点からは,たった一つの基準に寄りかかって 学校の説明責任を評価する方法は,学力レベルの低い生徒 が入学してくる学校,特に田舎の学校や都市部の貧困地区 の学校にとって不利に働くことになります。その結果とし て,低レベルの学力で入学してくる生徒たちは,(学区レ ベルではなく)学校レベルで操作されている「熟達」レベ ルの教育要件を満たすことができないでしょう。その一方 で,学力レベルの高い生徒が入学してくる学校,いうなれ ば社会経済的地位の高い生徒が入学する学校にとっては, 彼らは既に教育基準を満たしているので,ただ一つの基準 に寄りかかって学校の説明責任を評価する方法は有利に 働くことになります。貧しい生徒の多い学校は教育基準を 満たすことができません。さらに,利用可能な教育資源に は構造的な格差(不平等)が存在するため,同じ州や学区 内であっても,貧しい生徒の多い学校は教育成果を上げる 可能性が低いのです。No Child Left Behind政策は,意図 せざる負の結果を多々招くことになるでしょう。例えば, 学力や能力レベルの低い生徒が多く入学してくる学校は, 教師にとって魅力的な職場に映ることはないでしょう。満 足な教育資源も提供できない「落第」教育機関のレッテル を貼られた学校に,教師は自ら赴任したいと思うでしょう か?このように,既にハンディキャップを背負っている学 ーホートの様相が大きく異なるような学校です。そのよう な学校では,生徒や学校の状態に影響を与える無関係の分 散が大きいのです。 付加価値モデルと説明責任 この話の流れで,付加価値モデルの考え方は人々の関心 を集めました。付加価値モデルでは,各学年における生徒 の成長に基づいて学校の評価を行おうとするからです。前 年度から今年度への生徒のテスト得点の変動で表される 生徒の成長は,年度末における生徒の到達レベルよりも, 学校がどのような教育活動をしているのかということと より密接に関連しています。年度末における生徒のレベル は,生徒の学校全体における活動歴や就学前の履歴,ある いは家庭の背景などの関数であるからです。そのため,付 加価値モデルの考え方は一つの進歩であると理解するこ とができます。付加価値モデルの考え方は,貧しい学校に とってはいろいろな意味でより公平であると言えます。生 徒の一年間の成長幅は,社会経済的地位や生徒やその周辺 の特徴との結びつきがそれほど強くはなく,かなり貧しい 学校でも生徒の成長を示すことができる一方で,そうでな い学校では生徒の成長が見られないといった結果も起こ りうるからです。ですから,学校間の比較を行うためのよ り公平な根拠として,私たちは付加価値モデルの利用を考 えているのです。 校は,他の学校に輪をかけて遅れをとることになるのです。 次に,多くの学校では教師はあと少しで「熟達」レベル の教育基準をクリアできる生徒たちに,自らの教育資源の NCLB Improvement by Grade of Successive Cohorts 多くを投入しようとします。その結果,教育基準にはるか 及ばぬ生徒や,あるいは基準をはるかに超える能力をもっ た生徒たちを蔑ろにすることになるのです。これでは,教 2005-06 育資源を最適に分配しているとはいえません。 2004-05 最後に,これは全ての州について言える事なのですが, Tracking growth of each cohort 2003-04 学校や教師の中には生徒の得点を上げるために不正な手 2002-03 段に手を染めているものがあります。州レベルで,そして GRADE 3 4 5 6 個々の学校や学級において甚大な教育的混乱を引き起こ 11 している原因が,この連邦教育改革法案にあるのです。 説明責任とコーホート スライド11 測定の見地からの問題点として,学校の評価が前年度の コーホートと今年度のコーホートの状態比較に依存して いることが挙げられます。学校の移動や有効性とコーホー ト間の相違は互いに交絡しており,こうした交絡要因を統 制することは通常不可能です。交絡が特に問題となるのは, 規模の小さい学校や,生徒の移動が激しく年度によってコ 186 スライド11をご覧ください。付加価値モデルの考え方と の違いを強調するために,垂直線は現行のAYP規制におけ る比較の流れを表しています。AYP規制の下では,例えば ある年度におけるある学校の第3学年の生徒のパフォーマ ンスをみて,次に別のコーホートについてパフォーマンス 講演2 付加価値モデル:生徒の学力向上と,学校および教師の評価 をみて,という具合に学年を固定して異なるコーホートに といった成長目標に向けて邁進してほしい,と願うわけで ついての比較を行うことになります(縦方向で示されてい す。そのような教育システムには生徒の成長と状態の両者 る現行のNCLBでは,生徒のコーホートが本質的に交換可 が組み合わさっており,生徒の成長のみ,あるいは生徒の 能であると仮定されているため,例えば今年度の3年生と 状態のみといった単独の要因からは構成されません。 前年度の3年生について比較を行う,という方法をとる)。 その一方で,付加価値モデル(斜めの線)ではあるコー 3. 付加価値モデルは万能薬ではない (1) ホートに着目し,そのコーホートについて学年を追って追 跡していくという方法をとります。そのため,対角線は学 年ごとに成長していく個別のコーホートを追いかけるも のとなっています。 これまでに述べてきた理由から,付加価値モデルは非常 に魅力的なものに思えます。しかし,このモデルは決して 万能薬ではありません。残念ですが,この世の中に万能薬 など存在したためしはないのです。これからの話の中で, 学校の説明責任,付加価値モデル,No Child Left Behind 現在,各州は現行の説明責任システムを置き換えたり, 付加価値モデルがなぜそんなに魅力的であり,またなぜ取 扱いには注意が必要なのかを明らかにしていきたいと思 います。 あるいはそれを補強する目的で付加価値モデルを適用し まず,付加価値モデルによって得られる推定値,つまり 始めています。カリフォルニア州とケンタッキー州がその 学校や教師の(生徒の成長に対する)寄与の推定値は,私 例ですが,重要なことは連邦政府がAYPを見直し,なんら たちが測定しようとしているものとは無関係の多くの要 かの形で生徒の成長という要素を法規制の中に取り入れ 因によって影響を受けています。例えば,小標本によるボ る必要性を認めだしたという事実なのです。政府の教育長 ラティリティーの問題が挙げられます。ある学校のコーホ 官は,2007年に施行予定の改正法案に付加価値モデルの ートが非常に小さなものであると,標本変動が無視できな 考え方を取り入れることについて検討するためのワーキ いほどの問題となるのです。また,学年ごとにコーホート ンググループを設立したばかりです。各州が独自に付加価 (の成長)を追いかけていけるかどうかはテストバッテリ 値モデルを利用し始めている中で,連邦政府が付加価値モ ーの垂直尺度としての特性に依存しますが,この尺度自身 デルを説明責任システムに適応させることができるかど にも問題が含まれています。さらに,縦断データを取扱う うかが重要なことなのです。 際に欠損値が出ることがままあります。ある年度のある生 付加価値モデルを学校の説明責任システムに導入す 徒のテスト得点が何らかの理由,例えばテストのときに欠 る:その可能性 席していたり病気であったり,あるいは教育システムに所 属していなかったり(停学や退学など)といった理由で欠 各州が付加価値モデルを含んだ説明責任システムを導 入しだすと,政策的な決定を多数行う必要が出てきます。 しかし,この場でそれらについて突っ込んだ議論を行うこ 落していることがあるのです。欠損値の取り扱い方は,付 加価値モデルの推定値に非常に強い影響を与えることに なります。 とはいたしません。しかし,例えば固定成長目標といった ものについて考えておくことができます。これは,各州に 付加価値モデルは万能薬ではない (2) 対して毎年度ある成長目標を達成することを,あるいは年 確かに,付加価値モデルによる解析は,異なる学校で学 度を追うごとに要求水準が高くなる成長目標を課すこと んでいる生徒たちについて理解するためのよい構図を与 を求める,というものです。私たちは,確かに各コーホー えてくれるでしょう。生徒の成長と状態は,生徒の学習に トの成長を追いかけることができます。そして,この方法 何が起こっているのかということに関して補足的な記述 は非常に一般的なものになると私は考えています。という を提供してくれます。しかし,これらの補足的記述は説明 のは,連邦政府はどうにかして成長目標と生徒の状態とを 責任のために用いられ,学校の有効性の正確な指標となっ 一つにまとめ上げようと考えているらしく,それは目標に ていることが暗黙のうちに仮定されています。付加価値モ 向かって志向する「成長」という要因を取り込んだ教育シ デルと生徒の状態は共に統計的な記述ですが,それらを説 ステムを開発することで,毎年新しいコーホートの生徒を 明責任のために用いるのなら,私たちは学校の有効性につ 学校に迎え入れ,例えば100%の生徒が教育基準を満たす いて,学校が生徒の成長の原因であるような因果推論を行 187 第Ⅳ部 特別公開研究 米国における教育測定 うことになります。 付加価値モデルは万能薬ではない (3) 記述とは経験的な観察のことを指しますが,学校の有効 性というのは因果関係についての推論です。学校の有効性 について原因帰属を行うことは,統計的な記述に基づいて 因果推論を行うことにも等しいことです。このときデータ が無作為化実験ではなく観察研究から取ってこられたも のであると,データは非常に危険なものになります。 付加価値モデルは万能薬ではない (4) 生徒の現在のレベルという観点からのある学校につい ての統計的な記述は,学校の有効性を判断するための基礎 としては非常に脆弱である,ということは既に明らかなこ とであったと私は考えています。付加価値モデルによる統 計的な測度を学校評価の判断材料とすることに対しての 批判的な議論は微妙なものですが,それでもやはり,生徒 の状態(に基づく分析)に取って代わるものとして,ある いはそれに追加される要因として付加価値モデルの測度 を受け入れる前に,そうした反論は考慮されなければなり ません。というのは,学校の(教育的)成果が学校の支配 の及ばない多くの要因によって影響を受けることがある からです。少なくともアメリカでは,学校によって利用で きる教育資源の量に,ある学区や州内の地域間で格差があ ります。この格差は,家族や学校周辺のコミュニティーの 特徴と同様に,生徒の母集団の特徴と関連付けることがで きます。また,付加価値モデルの統計的な補正をもってし ても,生徒と学校の無作為でないペアリングによって引き 起こされる選抜バイアスを完全に取り除くことは不可能 です。 これらの問題は,疫学研究や人口統計学的な調査から科 学的な推論を行うときに直面する問題と同様のものです。 この文脈で,ある学校の生徒たちは他所の学校の生徒たち よりも早く成長するといったオブザベーションを分離し なければならず,私たちはなぜそのようなことが起こって 4. 付加価値モデルと教師の有効性 今度は,学校ではなく教師の方に目を向けてみましょう。 教師に関して為政者が抱いている付加価値についての中 心的な疑問は,生徒の進歩に対する個々の教師の寄与がど のようなものであるのかということです。 教師の質 No Child Left Behind法では教師の質についても触れ られているのが興味深いのですが,その言い回しは教師の 資格や生徒の学習に関連する教師の創造性といったもの ではありません。ここでは,先導するのは政府ではなく各 州なのです。多くの州では,付加価値分析に基づいた教員 評価のためのシステムを実装しているか,あるいはその予 定となっています。この点に関しては前史があり,1993 年にテネシー州が旗手となって付加価値モデルを導入し ています。しかし,テネシー州のケースでは(後にテキサ ス州ダラス市においても実施),付加価値モデルが説明責 任のために用いられなかったことが現在との大きな違い でした。教育資源の追加投入が必要な教師や学校を見つけ るためにこのモデルが利用されたので,説明責任ではなく 教育的改善が付加価値モデル適用の目的だったのです。 各州や学区で付加価値モデルが利用されている いくつかの州では付加価値モデルを実験的に適用し始 めています。その他の州では,実際に法制度の中に付加価 値モデルを取り入れています。通常,その目的は(付加価 値の)分布の極端なところに位置する教師を見つけること にあります。付加価値の推定値が正の値で大きな教師には, 報酬が与えられたり上級教員として任用されたりします。 あるいは,付加価値の値が負の値をとってしまうような底 辺の教師は,何らかの専門的な能力開発が必要であると評 価されるわけです。このような付加価値モデルの利用方法 は,テネシー州では1993年から(Sanders et al),ダラ ス市ではテネシー州とは異なるモデルを用いて1992年か ら(Webster & Mendro)行われています。 いるのかを問わなければなりません。また,そうした観測 結果は学校の環境や教育実践の関数なのでしょうか?説 明責任に関する議論では学校の教育実践に焦点が当てら 5. 付加価値モデルの論理 れますが,問題は,ある環境下において教育実践の無作為 ここで,付加価値モデルの考え方の直観的なアピールポ ペアリングが行われない状況で,教育の環境と実践とをど イントに立ち戻り,一つの疑問を通してこのモデルを枠組 のように分離していくのかというところにあるのです。 付けたいと思います。その疑問とは,生徒の学習にとって よい授業が必須であるならば,私たちは生徒の学習(ある いはその欠落)から授業の質について何らかの情報を得る ことができないのだろうか,というものです。この疑問に 188 講演2 付加価値モデル:生徒の学力向上と,学校および教師の評価 対しては非常に直観的な回答が得られます。私たちは,良 あります。つまり,それぞれの学年について各生徒に割り い教師は悪い教師よりも優れていると自明のように信じ 当てられた教師と生徒のテスト得点が分かっているわけ ていますが,この命題が真であるならば,生徒のテストデ です。このデータが4学年分に渡って収集できるものとし, ータを使って他の方向での推論ができないものでしょう この複雑なデータベースを付加価値モデルのエンジン(動 か。残念ながら,技術的な観点から分析すると,これはそ 力部)に投入します。その結果として私たちが手にできる んなに単純な話ではありません。 のが,5人の教師A, B, C, D, Eについての付加価値の推定 付加価値モデルの主張 値ということになります。この例では教師Aの付加価値の 推定値は+6ポイント,教師Bは+2ポイント,教師Cは平 問題点の一つは,付加価値モデルの支持者が非常に強い 主張を展開することにあります。彼らの主張は,付加価値 モデルのような洗練された統計手法を用いることで,生徒 の学習に対する教師の寄与を客観的に分離できる,あるい は付加価値を実際に測定できるといったものです。さらに, 均の0ポイントです。これは比較分析であるということを 思い出してください(私たちは,教員一人一人を常に比較 しています)。教師Dは付加価値の推定値が−3ポイント と,あまり好ましくありません。教師Eに至っては,悲し いことに付加価値は−5ポイントです。 教員の間には現実問題として(教育的有効性の)個人差が あります。典型的な学区に勤める教師の約1/3が平均から 統計的に有意,つまり平均的な教師よりも有意に優れてい るか,あるいは劣っているかのどちらかなのです。貧しい Unpacking the VAM Claim (3) 生徒やマイノリティーに属する生徒たちは,非常に優れた 教師から教育を受けることの恩恵を,最も強く受けること Class Effects になります。付加価値モデルの利点は,特に優れた教師を Grades 3 4 5 6 ただ発見できるということに留まらず,そうすることで優 Student Test Scores れた教師が生徒の学習の軌跡において意味のある相違を Studentteacher links A B C D +6 +2 0 -3 E VAM -5 生み出せる,という点が重要なのです。しかしながら,こ れらの論点は十分に実証されてはいません。 現在,学校や教師に対して説明責任の保持を求める集中 的な政策ニーズがあり,そこで付加価値モデルのような非 Teacher Focus 25 スライド25 常に洗練された統計的方法論が用意されています。付加価 値モデルの開発者たちは,(付加価値モデルによる分析を 通して)政治家たちが望むものを与えることができると主 付加価値モデルの主張を紐解く (2) 張しています。これは非常に強力な取り合わせであり,私 付加価値モデルの支持者による主張は,こうした付加価 たちのような測定のコミュニティーに身を置きながらこ 値の推定値は教師たちの相対的な有効性についても何ら うした点に関してどこか懐疑的であるものは,こうした非 かの情報を与えてくれるというものです。しかし,付加価 常に強力な社会の風潮に対して闘いを挑んでいるのです。 値モデルのエンジン(動力部)が実際に行っていることは, 付加価値モデルの主張を紐解く (1) 前年度とその後に続く年度における,同じ生徒たちの異な る教室での経験や,その年度の全ての教室の平均成長幅を 私たちはまだ敗北はしていませんが,別に勝利したわけ でもありません。ここで,問題点に目をやって注意深く分 調整した後で,ある特定の年度の特定の教室における平均 成長幅の推定値を与えてくれるということです。 析を行ってみましょう。ただし,付加価値モデルの主張の 背後にあるものの中の,単純な部分について見ていきまし ょう。 付加価値モデルの主張を紐解く (3) 統計モデルを考察するとき,ある年度で同じ教室に所属 いま,4つの学年からデータを収集している単純な状況 していた生徒のある一団は,その他の年度では異なる教室 について考えてみましょう(スライド25)。私たちには, に所属しているという事実に,私たちは目を向けることに 生徒のテスト得点と,生徒と教師のリンクがデータとして なります。このような生徒のパターンは,年度による平均 189 第Ⅳ部 特別公開研究 米国における教育測定 的な成長分の違いを説明することができるのでしょうか。 脈では,無作為化の手続きを推論のための黄金基準のひと 私たちが最後に手にするものは,付加価値の測度というこ つとみなすことが多く,この考えは医学分野から派生して とになります。これらの付加価値測度は直接教師に適用さ います。例えば,薬の臨床試験においては標本となる被験 れるのではなく,むしろ教室レベルで適用されます(スラ 者集団を無作為に二つのグループ(処遇群と統制群)に分 イド25では,教室は教師の後ろの四角で表現しています)。 割し,処遇群には薬を,統制群にはプラセボを投与します。 教室は教師だけではなくその他の生徒たちや生徒たち自 無作為化を行うことで,各被験者は処遇群と統制群に割り 身の交互作用,生徒と教師の交互作用などによって構成さ 当てられる確率が等しくなります。そうすることで,処遇 れています。 群と統制群の間にはじめから存在する(かもしれない)集 付加価値モデルの主張を紐解く (4) 団の性質の違いについて,心配する必要がなくなるのです。 ですから,臨床試験の結果に差異が見られたとき,その差 こうしてみると,教師の有効性についての因果推論を行 うために,私たちが生徒の成長の観察に基づいて採用しな ければならない重要なステップが二つあります。第一のス テップは,教室の効果を,生徒の成長に対してある教室に 所属していることの寄与として解釈しなければなりませ を生んだ原因を処遇群と統制群の間にはじめから存在す る性質の差ではなく,薬とプラセボの間に存在する差に求 めることが妥当なものとなるのです。被験者の数が十分に 大きく無作為化が適切になされているときに限り,この結 果の解釈は強力なものとなります。 ん。第二のステップは,その教室がもつ寄与の(ほぼ)全 てを,教室内の教師の教育活動に対して帰属させることで 無作為化 (2) す。統計的記述から,説明責任に関する諸問題の中心部で アメリカでは,教師は無作為に学校に配属されるわけで ある因果推論にまで推移する前に,これらの二つのステッ はありません。同様に,生徒も無作為に教師に割り当てら プを論理的かつ経験的に処理しなければなりません。 れるわけでもありません。学校という状況では無作為化に 付加価値モデルの主張を紐解く (5):調査段階 1 頼ることができないため,観測された結果が処遇(教室や 教師など)によって引き起こされたものであるということ 第一のステップについて見てみましょう。科学的な観点 から提示される疑問点は,どのような状況において,統計 分析の結果を因果の効果として曖昧性を排除しつつ解釈 を保証することはできません。実際,ある程度のところ観 測結果は生徒や教室全体にはじめからある差に関連して いると思われます。 することができるのかというものです。その答えは,大規 模でよく計画された無作為化実験を行うのが最も望まし い状況だろう,というものです。 付加価値モデルの主張を紐解く (6) 無作為化 (3) これが意味するところは,原因帰属を行おうとするとき には,どんなに複雑な統計モデルでもどんなに洗練された 分析方法でも,無作為化が達成できないという現実を十分 この理由は,教室間に生徒の特徴や彼らの間の交互作用 に関して系統的な差異があり,これらの差異が付加価値の 測度に入力される得点の成長と関連しているのであれば, 付加価値モデルのエンジン(動力部)から生み出される教 室効果の推定値は,生徒のテスト得点に対するそれらの教 室の寄与の精確な測度とはなりません。従って,無作為化 実験を行えないという現実状況は,原因の寄与における教 に補償することはできない,ということなのです。また, 付加価値モデルは教師の有効性を客観的に分離すること ができるというモデル開発者の主張は,科学的な精査に耐 えるものではないということでもあります。この主張は近 似的には真実を述べているのかもしれませんが,私たちは それを既成事実として受け入れてしまうのではなく,慎重 に調査する必要があるのです。 室間の現実的格差と,教室内での出来事と独立である教室 自身における格差とが,潜在的に交絡することを意味して いるのです。 無作為化:黄金基準 (1) 付加価値モデルの主張を紐解く (7):調査段階 2 教室の効果という観点から近似的な因果推論を行うこ とができる可能性を受け入れることができるとしても,第 2のステップに足を進めて,教室レベルの因果の効果をそ ここで少し寄り道をして,無作為化と因果推論における 無作為化の重要性について触れたいと思います。実験の文 190 の教室内の個々の教師に帰属させる必要があります。ここ での疑問は,どのような環境において私たちは(ほぼ)全 講演2 付加価値モデル:生徒の学力向上と,学校および教師の評価 ての教室の目的を,教師の教育学そのものに帰属すること 扱いも,重要な要因となります。現存する付加価値モデル ができるのかというものです。この疑問に対する回答には, は,これらの次元の一つ以上について互いに異なる構造を まだ誰もたどり着くことができていません。 もっており,全ての次元の違いを考慮に入れると,膨大な 付加価値モデルの主張を紐解く (8) 数に上る付加価値モデルを潜在的に構成することができ ます。それらの中のごく一部のモデルが現在研究されてい 私たちに言えることがあれば,教師は自分の生徒の学習 るのです。 に対して多くの責任を負っているだろう,ということです。 しかし,責任と有効性の程度は,学校やコミュニティーの 環境,教室内の生徒の混ざり具合,そして多くの意図せざ Sanders の層化モデル (1) ybue tttt kkkk Sander’s Layered Model (1) る出来事によって変動します。意図せざる出来事とは,例 ytk えば,ある生徒の個人的な危機的状況が学級全体の崩壊を 呼び込むかもしれないといったことです。そんなとき,私 ytk 11 たちは教師を責めることができるでしょうか?その他に btk utk btk 11 utk etk utk 11 etk 11 where b kt も,付加価値モデルで調整することができない現実的問題 ytk ybue tttt kkkk y kt が,学校という環境には存在します。 btk = student score in grade k, year t u kt = district means core in grade k, year t utk e kt この点で,因果関係の寄与分の不偏推定値として統計的 k t e = contributions of the teacher in grade k, year t = unexplained variation in student score in grade k, year t 記述を受け入れることに対して反対の立場をとる,科学的 議論が強力に展開されているにもかかわらず,統計的記述 35 は教師のパフォーマンスに関するその他の統計的,あるい は非統計的な記述の文脈においては利用価値のあるもの スライド35 なのです。従って,付加価値の推定値が多義的ではない意 味をもつものとして取り扱うことはできないと言うこと 付加価値モデルの趣を味わっていただくために,テネシ は,付加価値の推定値は利用価値がないと言うこととは違 ー州をはじめその他の多くの州で利用されている, います。付加価値の推定値が必ずしも因果関係の寄与の精 Sandersの層化モデルをここではご紹介します(スライド 確な測度ではないということを私たちが認識できるなら 35)。ここで皆さんにご紹介するのは単純化したモデルに ば,こうした推定値の性質について何が議論できるのかを なりますが,モデルに何が含まれているのか,そのアイデ 問うてみたいと思います。 アを得ることはできると思います。最初の方程式では,年 k 6. 付加価値分析のモデル 付加価値モデルは興味深く利用価値のあるものだとい 度tの第k学年のある生徒のテスト得点 yt を,二つの要因 btk と utk の和としてモデル化しています。ここで, btk は う可能性を受け入れることができれば,引き続きモデルの 統計学的な特徴に意識を向けてみると良いでしょう。これ までに研究されている付加価値モデルの種類はたくさん k 学区の平均得点を, ut は年度tの第k学年のその生徒に対 する教師の寄与効果であり,学区の平均に比例して教員に あり,そのうちのいくつかは実際に教育現場で応用されて います。これらの付加価値モデルは,いくつかの次元の相 違によって分類されます。それらには,例えばモデルが要 求するデータの構造,分析に必要なコーホートの数,コー k 帰属される偏差成分です。これらに誤差項 et が加わるこ とになります。年度が変われば,学年はk+1に,年度はt+1 に,それぞれ添え字が一ずつ増えていきます。学区の平均 ホートについてのテスト得点の年度の数,科目数(数学, 読解,科学など,何科目を分析に用いるのか),社会経済 的地位や人種,ジェンダーなど,生徒の特徴に関する変数 を分析に用いるか,そしてモデル自体の構造などが含まれ ます。水準の数(回帰モデルにおける仮定)や欠損値の取 k 得点 bt についても,第t+1年度の第k+1学年についての係 数が新たに定義されます。ここで重要なことは,教師に帰 属される偏差(寄与の効果)は次の年度に持ち越されると いう点です。ですから,ある教師に生徒の学業の成長に対 191 第Ⅳ部 特別公開研究 米国における教育測定 して寄与するところがあった場合,その効果は次年度に引 Sandersは他の付加価値モデルのように生徒の特徴をモ き継がれるわけです。問題は,この仮定が合理的なもので デルに投入していません。彼の主張では,多くの科目とい あるのかどうかということなのです。次年度についても, くつもの学年に渡る縦断データを用いるこの多変量解析 同様に教師の寄与と誤差項が定義されます。このモデルを では,個々の生徒は事実上自分自身のブロックとして動い 年度が変わるごとに構成していくわけです。Sandersの層 ているために,生徒の特徴を数量的にモデルに導入する必 化モデルとは,ある年度から次の年度にこのような回帰モ 要がないのです。ある生徒の成長の軌跡が非常に速いもの デルを重ねていくことに由来しています。 であったとして,次年度に特定の教師の教室に配属される Sanders の層化モデル (2) とき,私たちが知りたいことはその教師がこの生徒の成長 を高めるか低めるかのいずれかに一役買っているのかど スライド35の2つの方程式は混合モデルであり,地区平 均の係数bは固定効果, 教師や教室の偏差uは変動効果とな ります。つまり,これは古典的な線形混合モデルとなって いるのです。相違点は,このように2本や3本の単純な方程 式では話が済まないということです。年度を追いかけるの に5年分の方程式が必要になったり,あるいは5科目分の方 程式を立てる必要があったりします。そうすると,仮に基 本的な付加価値モデルを定義するにしても,例えば25本の 方程式が現れたりするのです。しかし,ここが付加価値モ デルのもっとも複雑な部分ではありません。 Sanders の層化モデル (3) このモデルに置かれる重要な仮定のひとつに,教師の効 うかということなのです。この生徒の成長スピードが速い か遅いかは重要でないため,教師を不利な立場に追いやる 生徒はいないというのがSandersの主張となっています。 疑問点は,その年の成長が前年度の成長と適合するのかど うかというところにあります。これは,農業試験における 古典的な無作為化ブロックデザインと類似しているもの です。 また,Sandersは欠損値の構造に関して,共分散構造に 含まれる情報を利用するために多変量縦断データを用い ることによって,ランダムな欠損(MAR)の条件を満た さない欠損データの影響を軽減することができると主張 しています。つまり,生徒のデータに欠損値がある場合, 果は次年度以降に引き継がれるというものがあります。ま 例えば生徒が貧しいほどテストを受けていない確率が高 た,共分散構造が別の問題となります。スライド35をみる いということが考えられます。この場合,ランダムな欠損 と誤差項は互いに相関していませんが,実際にはかなり強 の条件が満たされておらず,推定値に選抜バイアスが混入 い相関関係があるのです。ここで,誤差項に関して三種類 することになります。そして,Sandersはこの巨大な共分 の共分散構造をモデル化する必要が出てきます。ある年度 散構造を利用することで,ランダムな欠損からの乖離によ における同じ教室の生徒間の共分散,年度間の生徒内の共 って推定値が受ける影響を緩和できると主張しています。 分散,科目間の生徒と年度内の共分散についてモデル化を しかしながら,生徒の学習に対する教師の寄与を分離する 行うのですが,そうすると共分散構造が非常に複雑なもの ことができるという彼の主張(これは教師の因果の寄与を となり,必要な計算を行うためには,2,000∼3,000人の生 引き出すことができると言うことでもあります)は,統計 徒がいる中規模の学区についての分析を行う場合でも, 学的な意味での頑健性を超えるものを必要とします。 200,000∼300,000本もの方程式を解かなければならない これらの二つの主張,つまり多変量縦断データを用いる ことがよくあります。高名な農業経済学者であった ことで生徒の特徴をモデルに投入せずにすみ,また得られ William Sandersと彼の同僚たちは,付加価値モデルの分 る結果が欠損値の構造に対して頑健であるというものに 析に特化したソフトウェアを開発しました。彼らのソフト ついては,少なくとも尤もらしいものであります。私たち ウェアでは,非常に巨大で複雑な共分散構造を効率的に分 がこれらの仮定に着目して行ったある研究での議論から, 解し,最良線形不偏予測因子であるこれらの巨大な混合モ 彼の第三の主張である因果推論の可能性についてはあま デル方程式の集合の最尤推定方程式を生成します。 り尤もなものとは思えません。なぜならば,因果推論は統 Sanders の層化モデル (4) 計解析を超えて何も情報がない中で因果の道筋を解析す るところに行ってしまうからです。従って,統計学的な見 Sandersの層化モデルをこんなにも興味深いものとし 地からははじめの二つの主張については合理的であると ている重要な仮定の一つが,教師の効果が次年度に繰り越 考えられますが,三番目の因果推論については合理的では されていくというものです。また,別の仮定として, ないと私たちは考えています。 192 講演2 欠損値の扱いに関して興味をもっている方々のために, 付加価値モデル:生徒の学力向上と,学校および教師の評価 に関係することです。層化モデルは非常に単純なモデルの 古典的な参考文献としてRod LittleとDonald Rubinによ ため,もう少し洗練された形にする必要があります。その る欠損データに関する著書を挙げておきたいと思います。 理由は,例えば教師のパラメタが翌年度に引き継がれると この本では,統計解析や特に観察研究における欠損値の役 いうモデルの仮定は,生徒の成績の向上に対する教師の寄 割について議論されています。もう一冊,参考文献として 与分は少しずつ減退していくかもしれないという現実を Paul Rosenbaumによる観察研究に関する著作を挙げて 反映したものではないかもしれないからです。第二に,付 おきます。この本では,欠損値と交絡のある推定値との関 加価値モデルによって得られた付加価値(寄与)の推定値 連性について詳細に述べられています。 に基づく教師のランキングは非常に不安定であります。教 員内および教員間の分散成分の比のため,こうしたランキ 7. Due Diligence(適正評価手続き,デューデリ ジェンス) ングの一過性は非常に大きなものとなっています。 もう一つ指摘しておくと,担当する学年が異なる教師の 間で比較を行ってはなりません。これは,異なる学年での これらの付加価値モデルを,教員評価や給与の査定など の社会的な影響力の強い評価の文脈で使用するならば,私 たちは付加価値モデルがどのようなものなのかというこ とについて習熟し,同時にその限界についても理解してお かなければならない,というのが私の結論です。実際に, 社会的影響力の強い評価を行う目的で付加価値分析のア プローチを取る段階に入る前に,私たちは今よりももっと 多くのことを知っておかなければなりません。つまり,い わゆる「Due Diligence」と呼ばれる一連の事前調査(経 テスト得点の成長は,異なる平均軌跡を辿るからです。こ の問題を考慮に入れておかないと,異なる学年の教師に対 して有利不利を与えてしまいかねません。ですから,同学 年内においてのみ教師を比較するべきなのです。ただし, 同じ学年内であっても,決して交わることのない非常に異 質な生徒集団に対して教えているのであれば,そのような 状況下において教師の比較を行うことは回避されるべき でしょう。 済用語です)を行う必要があるのです。例えば1,000万ド ルの価値がある事業を買収しようとするとき,あなたは 8. 今後の研究 Due Diligenceを行い,その事業について調査し,顧客と 今年出版された付加価値モデルによる教員評価に関す 話をし,自分が考えている正しい行動(買収→収益)が取 る私の論文の中で,かなり広範にわたる研究課題の展望が れていることを確認するのです。 行われています。統計的な記述や因果の帰属について話を 私たちが既に知っていることはなにか? するとき,教員の有効性が何を意味するのか,ということ をはっきりさせておく必要があると私は考えています。統 では,私たちが既に知っていることは何でしょうか?こ れまでになされた多くの実践研究から,教師の間には,教 育学的な能力に関して測定可能な個人差があるだろうと いうことが分かっています。付加価値モデルを用いること で,特別な専門的能力開発が必要かどうかを判断するため の詳細な観察を行うべき教員を見つけることができます。 この意味で,付加価値モデルはスクリーニングの一種とし て利用することができます。統計的分析結果に基づいて, 専門的な能力開発が必要な教員を見つけることができま すが,データベースに組み込まれていない文脈(環境)的 な諸問題を考慮に入れていないため,統計解析によって私 たちが道に迷っていないということを確かめる意味で,観 察法を用いてのフォローアップが必要となります。 ここで,注意事項がいくつかあります。その一つは Tennessee Value-Added Assessment System (TVAAS) 計学的な観点からは,Sandersのモデルを用いるにせよ階 層線形モデルを用いるにせよ,あるいはダラス市で用いら れた二段階最小二乗モデルにせよ,推定された教師の効果 (寄与)に対して,付加価値モデルの背後にある様々な仮 定からの乖離に対する感度分析を行う必要があるでしょ う。モデルに関係なく,直接評価することが困難な重要な 仮定がいくつか付加価値モデルには含まれています。 教師の説明責任について考えるとき,生徒の学習に対す る学校と環境の寄与分から,教師の真の有効性を紐解いて やる方法を見つけなければなりません。これは,実際問題 として非常に困難なことであると私は考えています。また, 同じくらい重要な論点として,付加価値モデルによる分析 結果の利用が強く制限されるべき状況を特徴付けなけれ ばなりません。さらに,まだ十分にフォローされていない 重要な観点として,教師の有効性の近似的な測度としての 193 第Ⅳ部 特別公開研究 米国における教育測定 教員の効果(寄与)の推定値に対して,何らかの外的妥当 化を行う必要があるということを挙げておきたいと思い ます。ある学区において付加価値モデルによる分析を行う とき,それと並行して教員評価に対する非統計的なアプロ ーチ(例えば外部の調査者による観察や校長からの報告な ど)を開発し,ヒューマニスティックな評価と純粋な統計 的評価との間の相関関係に着目するのです。 非統計的なアプローチも,評価にバイアスがかかったり 多くの不確実性を孕んだりといった,様々な課題を抱えて います。しかし,そうしたアプローチからは統計的手法で は得られない証拠(エビデンス)が得られるのです。いく つかの研究によると,統計的方法による教員評価と非統計 的方法によるアプローチの相関は中程度となっています。 教師の評価の測度 付加価値モデルによる分析によって問題ありとされた 教師について,どのような種類の観察やデータが集められ なければならないのでしょうか?可能性の一つは,「教授 の枠組」と呼ばれる構造化されたアプローチを用いた教室 での観察や,あるいは非常に優れた教師による観察という ことになるでしょう。ここでは,私たちはある種の順位付 けやスクリーニングについて話をしています。しかし,恐 らくは教授に対する態度や生徒について抱いている信念, あるいは彼らの経験といった教師の性質に目を向ける診 断的なテストでさえ,どのような種類の支援を彼らが要求 するのか診断を始める前に,適切な教師の構図を得るため に利用することができるのです。 ここから得られる示唆は,誤差に晒されやすい測度が複数 ある場合には,それらの中の一つを使うのではなく,何ら かの合理的な方法でそれらを一つにまとめることで,より よい説明責任の指標が得られるということです。 教師の報酬と給与の格差 この時点での結論として,付加価値モデルによる分析は, 生徒の成績に基づいた教師の報酬や給与の格差に関する 一つ付け加えておきますと,現在私はいくつかのプロジ 意思決定の唯一の測度として用いられることがあっては ェクトに参加しており,そこでは様々な仮定からの逸脱に なりません。そのような評価は,教師のポートフォリオや 対する教員効果の推定値の感度に着目しています。ある研 十分に統制されたパイロット調査における観察のような 究では,欠損値の構造に関する仮定を変えることで教員の 測度と共に考慮することができるものなのです。 効果がどのように変化するのかを調べています。別の研究 ご清聴ありがとうございました。 では,分析の基礎となる生徒のテスト得点の要約方法を変 えたときに,教員効果の推定値がどのような影響を受ける のかということを調査しています。 教師の評価と支援 生徒の成績向上に十分なレベルで寄与していない教員 9. 質疑応答 Q1:教員たちに対して教授方法や教育実践に関する質問 紙調査を実施していると思いますが,生徒の成績に影響を 与える教育の実践とはどのようなものなのか,お聞かせ頂 を見つけるために,付加価値モデルによるアプローチを利 ければと思います。 用できるということに対しては同意を得られるのではな A1:今現在,教師の教育実践と生徒の成績向上を結び付 いかと思います。しかし,付加価値分析を信用するにして けようとする研究はそれほど多くはありません。そのよう も,こうした分析で教師にどんな問題があるのかというと な研究はまだ始まったばかりなのです。しかし, (質問紙) ころまで,私たちは情報を得られるのでしょうか?教育学 調査を通じた研究は数多く行なわれてきました。これは言 的なスタイルが問題なのか,教室の管理が問題なのか,あ い方を変えれば,私たちが教師に送った質問紙では,教師 るいはまったく別の何かが問題なのでしょうか?このよ 自身の教授スタイルとその取り組み方について記述して うな付加的な情報が得られないのであれば,付加価値モデ もらい,その結果から,私たちは教師の実践の個人差と生 ルを導入する以前よりも状況が改善されたとは言いがた 徒の成績の個人差を関連付けようとしているのです。 いでしょう。このような情報は,問題が何なのかを適切に さしあたり,こうした研究には問題点が二つあります。 診断するために,教室内で必ず収集されなければなりませ まず一点目は,教師(自身)は自分の教授スタイルを報告 ん。そうすることで,必要な専門的能力開発やその他の支 するのに必ずしも最適なレポーターであるとはいえない, 援を教師は得ることができるのです。教室の現実状況を無 ということです。二点目は,私自身このような質問紙調査 視して統計的な解析にのみ頼るのは,データの誤用なので を行なってきましたが,質問紙の内容が冗長すぎず,かつ す。 正確な情報を得られるような調査を計画することが非常 194 講演2 付加価値モデル:生徒の学力向上と,学校および教師の評価 に困難であるということです。例えば,いかにも教師ぶっ 学業歴にどれほどの付加価値を与えたのかを調べました。 た一方通行的アプローチ(とにかく生徒に教えるというア 学校と教室の環境について補正を行ったあとに私たちが プローチ)と双方向的なアプローチのどちらを好むかを質 得た結論は,教師の教育実践と付加価値の測度との間にそ 問するとしましょう。すると,「もしあなたが双方向的な れほど強い関係はないというものでした。 アプローチを好むのならば,もう一方のアプローチも併用 このような結果が得られた理由はたくさんありますが, しますか?もし両者のアプローチを併用するならば,どの その一つは私たちが教師の教育実践の良い測度を得られ くらいの頻度と順序でそれらを用いますか?また,教授活 なかったということでしょう。教師の実践と学校や教室の 動においては例外なく両者のアプローチを用いますか?」 環境との間にはおそらく交絡が起こっていて,環境要因に といった質問を次々とする必要があります。教授法に関す 対して補正を行おうとすると,実際には教師の教育実践に るたった一つの側面について,最終的には2,3ページの紙 関連する効果の一部をも同時に取り去ってしまっている 面を費やしてしまうかもしれません。もちろん,教授法の のです。これは,興味のある要因の寄与を分離するために 側面は他にもたくさんあるのです。こうした質問をしてい 関連のない要因に関して調整を行うと,その補正の結果と くためには,質問紙の構造が非常に複雑になってしまうの して関心下の要因の寄与を過小評価してしまうことにな です。まあしかし,それでも何百という教室に足を運ぶよ るということです。このような事態は,全ての要因が互い りは安上がりではありますが。教室に足を運んで観察を行 に相関しているときに発生します。この種の研究を困難な うにしても,観察に費やせる時間は1時間や2時間といった ものとする要因には,現実的な問題と統計学的な問題の両 非常に短いものとなるでしょう。そのような状況では,統 者があるのです。 計学的な見地から不確実性が拭い去れません。教師の実践 観察研究と無作為化実験研究の対比に関連して話を続 活動を文書化することは非常に困難な作業なのです。つい けますと,教師の効果を分離しようとすることは,不可能 最近になって,教師の実践活動と付加価値分析とを関連付 ではないにしても常に極めて困難であると私は考えてい けようとする研究者が出てきました(それが新しいアイデ ます。教育プログラムの評価について考えるなら,生徒や アだからという理由です)。ですから,そうした方向の研 教室や学校を異なる教育プログラムに無作為に割り付け 究はまだそれほど多く行われてはいません。このような困 ること,および異なる教育プログラムの相対的な効果につ 難はあるものの,この領域は今後ますます重要性が高まる いて,無作為配置の研究による分析に基づいて因果推論を 研究分野となると私は考えています。 行うことが,より現実的(に可能)であります。しかし, 少 し 話 を 広 げ ま し ょ う 。 2 年 前 , 私 た ち は ETS で そのような統制された研究デザインにあっても,現実世界 Advanced Placementテスト(AP)の生徒のパフォーマン では個人の生徒レベルで無作為化を行うことはできませ スに関する研究を行いました。APとは,高校生が大学レ んので,どうしても問題が発生してしまいます(無作為化 ベルのコースを履修して修了試験に合格すれば単位がも できるのはせいぜい教室のレベルまでです)。そのため, らえるというものです。その場合,大学入学後に入門コー 非常に大規模な研究を実施しないと,教育プログラムの差 スの履修を免除されたり,あるいは飛び級して3年間で学 について統計的に信頼性の高い推定値を得ることはでき 部課程を卒業できるような特典があります。APは非常に ません。そうした研究を実施するには,アメリカでは少な 有名なプログラムなのですが,生徒のAPの成績に関連す くとも数百万ドルもの研究資金が必要になってしまいま る教師の教育実践を同定することができるのか,というこ す。統制された条件下で教育プログラムの評価を行うこと とが私たちの課した問題でした。 ができるかどうか定かではありませんが,アメリカの行政 この研究は生物と歴史の二科目について行われ,APを はこうした無作為化実験を(行うよう)強力に押し進めて 担当する教師の全国調査のようなものを企画していまし います。この点についてさらに多くのことを学びたければ, た。教師の実践を実際的な方法で記録しようとしていたら, What Works Clearinghouse(http://www.w-w-c.org)の 調査の遂行に大きな支障が出ていたことでしょう。生徒が Webサイトを訪れることをお勧めします。このサイトは, 一定レベルの成績を収めたときだけではなく付加価値の 教育の様々な分野におけるあらゆる種類の無作為化実験 測度にも目をやると,つまり生徒の前年度の成績も考慮に 研究に関するアーカイブとなっています。これは,医学に 入れると,教師の教育実践の個人差と付加価値モデルにお おける英国ベースの無作為化実験研究のアーカイブを模 ける個人差を関連付けようとして,私たちは教師が生徒の 範として構築されたものです。 195 第Ⅳ部 特別公開研究 米国における教育測定 Q2:Sandersの層化モデル(スライド35)において,ある います。つまり,年度tの学年kにおけるテスト得点と,年 年度”t”の効果は,その後の年度”t+1”の効果と同じ尺度上 度t+1の学年k+1におけるテスト得点は互いに垂直等化さ で比較することができるのでしょうか?もしそうだとし れている(直接比較可能)ということになります。こうす たら,その比較のためにどれくらいのテストが利用できる ることで,私たちはテスト得点を同一の尺度上で比較する のでしょうか? ことができるのですから,生徒の成長の解釈を行いやすく ybue tttt kkkk なります。先ほどの発表で議論していた単一尺度である Sander’s Layered Model (1) k t y ytk 11 k t b u btk 11 utk k t NAEPの話題においては,水平等化と違って垂直等化では k t e utk 11 そこに課される仮定が問題となります。 垂直等化はデータの解釈を単純に分かりやすいものと etk 11 してくれるのですが,例えば数学のようなテストを複数年 where b kt ytk ybue tttt kkkk y kt btk = student score in grade k, year t 度に渡って垂直等化すると,年度によってテスト内容のプ = district means core in grade k, year t ロフィールが異なるという問題を抱えます。このことは, u kt utk e = contributions of the teacher in grade k, year t etk = unexplained variation in student score in grade k, year t kt Robert Lissitzが編集した本の中で述べられています。ミ シガン州のBill Schmidt他による論文では,年度ごとに数 35 学テスト内容のプロフィール分析を行い,第3学年から第8 学年にかけて数学の内容が変化していくことを示しまし スライド35(再掲) た。そして,この内容の変遷を踏まえた上で,垂直等化さ れた数学尺度上のテスト得点は何を意味するのかという A2:今回お話したSandersモデルの応用では,各生徒に 問いを提起しました。私は教科領域の専門家ではありませ ついて第3学年から第7学年までの期間で5つの教科に渡る んので彼らの議論の全てを安易に受け入れることはでき 縦断データを解析しています。つまり,ある生徒について ないのですが,この議論は実にもっともらしいと思うので 大体25のデータポイントが得られるわけです(5年×5教 す。その彼らの議論では,垂直等化によって得られる結果 科)。教員の効果は一連のモデルに基づいており,年度と (尺度の性質)とは,年度間で最大限に共通する次元を一 科目について継続されていきます。これらは全てある単一 つ取り出すことであり,それは特定の学年に固有の数学の のコーホートについてのデータです。私たちは,あるコー 領域内容よりも,発展的な数学能力と関連しています。そ ホートを追跡していくのだということを思い出してくだ うでなければ,一次元の尺度として数学能力を捉えること さい。テネシー州の事例では,あるコーホートに対する一 はできないでしょう。この議論が正しいとすると,彼らの 連の付加価値モデルは,一度に3つのコーホートの分析に 主張では,垂直等化された尺度は教師の教育実践に最も敏 用いられています。ある特定の教員効果の推定値は3つの 感なデータのほとんどを過小評価することになります。教 コーホートについての平均に基づいており,合理的な安定 師はその年度に特有の教科内容を教えようとするからで 性が確保されているといえます。その他の研究の中には, あり,垂直等化された尺度は教師の教育実践に関連する情 コーホートがそれほど大きくないときには,教師の効果の 報を,そのほとんどとまでは言わなくても,少なくともそ 分散が厄介なほど大きくなってしまうことがあると示し の一部を捨ててしまうことになるからです。彼らは,垂直 たものもあります。 等化されたデータを付加価値モデルに投入しても,教師の 有効性という観点からは私たちの求めるものを与えては Q3:標準テストによって,年度間の縦断的な変化を比較 することは可能でしょうか? くれないと主張しているのです。 Sandersの層化モデルでは,生徒のテスト得点が垂直等 A3:この場合,事態は複雑なものになります。「標準化」 化されていることは要求されません。実際,何の変換も加 というのは,テストが全ての生徒に対して公平な条件下で えられていない生のデータの方が都合がよいのです。私は 実施される,という意味です。標準化テストでは,年度間 Sandersといろいろな話をしましたが,私の知る限りでは, の垂直等化を行うことは想定されておらず,年度間の近似 彼は垂直等化されたデータと生のデータの両方を用いて 的な線形性のみが要求されます。しかしながら,テスト出 付加価値分析を行い,その結果を比較して両者の差を見る 版社が提供している標準テストの多くは垂直等化されて ということは一度も行っていません。これは非常に興味深 196 講演2 い研究になると思いますが,まだ手がつけられていません。 付加価値モデル:生徒の学力向上と,学校および教師の評価 れた州に勧告を行う委員会にも出席していました。この投 資は非常に真剣なものであり,付加価値の他にも教育的に Q4:The Tennessee Value-Added Assessment Systemか 生産的な意味をもつことになると私は考えています。なぜ らどのような結論が得られたのでしょうか? なら,各州は生徒が学校や学区を移動しても,彼らを追跡 A4:私はTVAASの研究に携わったことはありません。 することができるからです。生徒の記録データの輸送はよ Sandersのモデルは,テネシー州の法律で用いることにな り効率的に,より正確に行われることになるでしょう。ま っていました。Sandersのモデルは州の教育法の中に組み た,必ずしもそれほど洗練されていないその他の教育分析 込まれ,各学区はデータを提供することが義務付けられま も,より手軽に行うことができるようになるでしょう。私 した。しかしながら,興味深いことに各学区にはデータや の考えでは,こうしたデータシステムの構築に対するプレ 結果を利用することは義務として求められませんでした。 ッシャーは,付加価値モデルが各州の説明責任システムの Sandersによると, テネシー州の約1/3の学区が付加価値モ 一端となるかどうかにかかわりなく,生産的な結果をもた デルの分析結果を用いて教師の専門的能力開発の評価や らすと思います。 学校分析を行ったようです。残りの2/3の学区では,分析 結果を手にしながらも,全く利用しなかったようです。 Q7:日本では,「良い教師」の定義をデータに基づいて 求めることは難しいです。そのための十分なデータベース Q5:各州は,個々の教師の付加価値の推定値を得られる がないからなのですが,日本では,例えば生徒たちとの人 のでしょうか?もしそうなら,教師はそれに対して不満を 間関係を良好に保つことができるといった情緒的な側面 表明したりはしないのでしょうか? が,(教師の)評価に大きな影響力をもっています。この A5:当初,彼らは不満を述べていましたが今はそうでも ような教師の情緒的な側面はどのように評価されます ありません。というのは,分析結果が職務管理の評価とし か? て利用されていないからです。各学区の中では専門的能力 A7:アメリカでは,その手のことを行う方法は20,000通 開発やその他の目的のために分析結果が利用されますが, りにも及ぶ方法があり,その一つ一つがアメリカ全土の学 賃金の査定や就職活動のための評価には用いられていま 区に対応します。従って,一般化することは不可能です。 せん。 この分析に関しては,私たちは多くのことを見失っている と思います。特に,私たちはテスト得点という観点から教 Q6:(Henry Braun:質問)日本では,学校レベルでの縦 師(のパフォーマンス)を判断していますが,この方法で 断的なデータベースがありますか? は州が採用するテストの質に多大な負荷(ウェイト)が掛 (司会者:回答)そのようなデータベースはありません。 かることになります(そうしたテストの性質には,時とし (Henry Braun:コメント)アメリカでは,一部は連邦法 て根拠がないこともあります)。別の観点からは,テスト の影響で,多くの州では生徒の成長を縦断的に追跡するこ 得点は,今テストされている教科についてでさえ,生徒が とのできる複雑なデータシステムを構築しようとしてい 学んでいる全てのことを私たちに伝えてくれるわけでは ます。現在そのような余裕のある州は相対的に少ないので ありません(テストされていない教科については言うまで すが,ほとんどの州で3年から5年の内にそのようなシステ もありませんが)。教育の一般的な性質という観点からは, ムが実装されることでしょう。このことが意味するのは, 数量的なアプローチでは十分適切に捉えられていない問 原則的に,各州は付加価値モデルによる分析を,あれこれ 題が多くあると私は考えています。そうした問題点は何ら と理由があって行うことができるようになる,ということ かの情報を含んでいるので,完全に無視してしまうのでは です。データシステムの構造と全てのメカニズムが適切に なく,付加価値分析による測度をもってそうした問題点を 配備されるでしょうから,付加価値モデルによる分析はよ 適切な場所に位置付ける努力が必要です。しかしながら, り現実味を帯びたものとなっていくでしょう。実際,連邦 私たちは付加価値分析を評価のための第一の基礎とする 政府は14近くの州に対して5,500万ドルをつぎ込み,その わけにはいきません。それでは,テストに比重が掛かりす ようなデータシステムを構築するための支援を行ってい ぎてしまうからです。アメリカでは,テストに基づいた説 ます。連邦政府や州政府は,これらのシステムに何百万ド 明責任および能力基準の発想というものが相当強調され ルという予算を投資しているのです。私はいくつかの選ば てきました。しかし,歴史を振り返ってみると,非常に教 197 第Ⅳ部 特別公開研究 米国における教育測定 養のある人間でも時として信じられないような行いをし てきました。そういうところから,教育というものはマス ターするべき教科という枠組を超えた存在であるべきな のです。教育とは価値観や人間性について提供されるべき であり,そうした側面はここでは全く話題に上っていませ ん。世界経済のプレッシャーと競争の間に均衡を保とうと する努力の中で,教育の焦点は能力(学力)に過度に傾倒 してしまっています。その一方で,少なくともアメリカで は,民主主義のために市民をどのように教育するかという 広汎な問題意識が,私たちの視点からしばしば失われてし まっているのです。現実問題は,テストに基づいて非常に 視野の狭い説明責任へ過度に依存してしまうことからく るプレッシャーであると,私は考えています。 以上 198 講演2 Value-added modeling: Using student progress to evaluate schools and teachers 講演2 Value-added modeling: Using student progress to evaluate schools and teachers Henry Braun Educational Testing Service Princeton NJ USA Abstract The quantitative evaluation of schools or teachers based on an analysis of the test score gains of their students is an exciting prospect that has gained many adherents in recent years. Such evaluations employ a class of statistical procedures called value-added models (VAMs). These models require data that tracks individual students’ academic growth over several years and different subjects in order to estimate the contributions that schools and teachers make to that growth. Despite the enthusiasm among many policy-makers, over the years technical reviews of VAMs have revealed a number of serious concerns. Indeed, the implementation of such models and the utilization of the results raise a host of complex issues: practical, technical and even philosophical. In this talk, I will present some of the more common models, discuss some of the methodological concerns and review current research. What is VAM? classrooms to a particular school. This issue is becoming increasingly important in the compare the aggregate gains across time, either at the United States. It has to do with trying to introduce new classroom level, teacher level, or school level. Some kinds of accountability into our education system. believe that VAM can be used to enable the comparison Accountability means that we want to evaluate different of schools or teachers according to their effectiveness. levels in our education system; for example, whether What I want to discuss this afternoon is the statistical, schools or teachers are carrying out their role in helping practical, and even philosophical issues involved in children to learn. using test scores at the student level to make judgments And of course, accountability is fundamental to every profession; be it medicine or law. The idea is to about schoolteachers. In education, until recently, accountability has largely been very weak, and there has been a big movement in One important aspect to keep in mind when using the the United States—and some other countries as well—to term value-added is that we are talking about the strengthen accountability and, in particular, to introduce contribution of the educational system, school teachers a quantitative component of accountability based on test or schools to students’ growth, which is not the same as scores. This is what I want to discuss today. students’ growth itself. Although we use student growth as the raw material, we make statistical adjustments in One of the more interesting developments in this area is order to obtain estimates of value-added. Therefore, we value-added modeling (VAM). The idea is to consider have to dissociate the ideas of student growth, which is growth and achievement measured at the individual an empirical observation, and value-added, which is a student level; that is, to track individual student growth statistical or causal inference, although they are strongly as measured by test scores over successive grades. The related from the point of view of statistical analysis. yearly gains of these students can then be aggregated to a specific classroom or a teacher, even across 199 第Ⅳ部 特別公開研究 米国における教育測定 To begin with, let's look at this picture (slide2). Here, require improvement; we can even give awards or we have two schools, A and B. While the horizontal sanctions; VAM could also be used with regard to the axis presents students’ test scores of the previous year, provisions of the No Child Left Behind Act, which the vertical axis presents their current year test scores. focuses on school accountability; it can be employed at We see that the students’ average score in school A is 2 the teacher level within a district to identify teachers points higher than the overall average of all schools, who may need further professional development. We whereas the students’ average score in school B is 1.5 could use it as part of their performance appraisals to points below the overall average, and this is observed all increase their salaries, to promote them, or to dismiss along the test score scale. them, if they are repeatedly found to be ineffective in This is, of course, an idealization. So, here, we can see that in school B, on an contributing to students’ learning. average, students’ growth falls 1.5 points below average, whereas school A students are 2 points above. However, Adequate Yearly Progress (AYP) if we look at the distribution of the students’ scores, the If you can recall, under the No Child Left Behind Act, students of school B are all high, whereas those of the Federal Education Law of 2002, schools must make school A are all low. In terms of current status, the adequate yearly progress (AYP). AYP means that each students of school A will not look as good as those of year, the percentage of students meeting the proficiency school B. So, on that basis we would say that the standards must increase until all the students are performance of school B is better than school A, and yet, proficient by 2014. There are many criticisms of this school A is doing a better job in terms of adding growth. law, and particularly, of the AYP regulations. So, there are two potentially different pictures for comparing the schools, based on student status in the First, there are questions regarding the quality of the current year versus student growth from the previous tests used by the states. Second, the above-mentioned year to the current year. unrealistic goal throws light on the ways in which the states set proficiency standards. The fact that we are judging schools in a state based on one criterion—the Current Year percentage of students above this proficiency standard— A and that we are making comparisons in a single grade on a yearly basis means that we are comparing the +2 A performance of one cohort of students to another, so that +2 the performances of the school and the teacher are -1.5 B -1.5 B confounded with differences between the cohorts. If in the following year, a school enrolls a weaker cohort, Prior year test score 2 then even though the school’s performance is better, the results are worse. slide2 So, you're confounding the performance of the system with the differences in cohorts over time. This makes the issue of AYP very Two ways VAM may be used for accountability problematic from the technical point of view. VAM can be used in different ways for accountability. We can use it to focus on schools, either in a whole state Here is an example of how two different states can or a district within a state. In fact, if we can isolate the establish their AYP regulations over time (slide5). State contribution of a school to student growth, as measured B has a straight line from about 30% to 100% in 2014. by test scores, then we might identify those schools that State A has a step-like linear line—flat, linear, and a 200 講演2 Value-added modeling: Using student progress to evaluate schools and teachers steep rise in 2009, which then becomes somewhat flat proficient will be from 45% to 100% in about 10 years. from 2009 to 2014. The states have a certain degree of Though this regulation may lead states to take steps that freedom in terms of the way in which they progress to make them appear to meet the standards, it is achieve the goal of 100% proficiency. unproductive from a truly educational point of view. I will say a little about that in a minute. % Meeting Proficiency Standard NAEP and state standards comparison 100 NAEP and State Standards Comparison State A 80 State B Figure 5.9. G4 2000 Math: NAEP Equivalents to the State Standards of Proficient vs. Proportions at or above State Standards of Proficient 60 300 40 Mapped Scale Score 280 20 Year 5 2002 2006 2008 2010 2012 2014 260 240 220 200 180 160 140 0.0 slide5 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Weighted proportion at or above the standard Mapped score NAEP proficient level 7 School Focus Here is the historical data from 1998 to 2001 on the percentage of students meeting the proficiency standards slide7 in different states (slide6). In this picture from the previous presentation (slide7), Adapted from Linn et al (2002). Educational Researcher, 31, 3-16. 100 Percent Meeting Standard 80 explains the proficiency scores in the previous slide— TX 70 Texas with 85% and 90% and Massachusetts, about 25%. MD MD/OR 60 CA CA MA MA But the problem is that all the states are supposed to OR OR MD MD/OR 50 we can see the difference in standards set by states. This TX TX TX 90 CA CA become 100% proficient in less than 10 years. 40 30 MA MA School accountability and NCLB 20 From the technical point of view, the fact that we are Year 10 using a single criterion for school accountability is 0 1998 1999 2000 2001 6 slide6 disadvantageous for schools with students entering at low levels, especially rural schools or those in poor urban areas. As a result, the students entering at a low You can see that this percentage is largely constant. MA level will be unable to meet the proficiency is Massachusetts; TX is Texas, which is going up a little. requirements, which operate at the school level, not the You may know the reason for this from my previous district, level. And schools with students entering at presentation (“Mapping state standards onto a common higher levels, usually those with higher socioeconomic scale”). This is adapted from an article by Robert Linn, status, are at an advantage because they already meet the who, I believe, is one of the most productive scientists standards. Schools with poor students fail to meet the working on these policy issues; He argues that the fact standards. Moreover, because of the typical differences since the states have a very flat performance, it is in resources available, even within the same state or impossible that the growth in California in percent district, they have less capacity for making improvement. 201 第Ⅳ部 特別公開研究 米国における教育測定 This policy will lead to many negative, unintended the school is doing than the students’ level at the end of consequences. For example, schools with students the year, which is a function of their whole school entering at low levels and those with low capacity will history, their history before they went to school, as well encounter difficulties in attracting teachers. Why would as their family background. In many ways, it is fairer to teachers want to go to a school that has been labeled a the high poverty schools because yearly growth turns failing sufficient out to be less strongly related to socioeconomic status resources? So, the schools that are already handicapped and other student and neighborhood characteristics, so will be lag further behind. that even high-poverty schools can show improvement institution that cannot supply and low-poverty schools can show no improvement. So, Secondly, it also means that in many schools, the we think of this as a fairer basis for making school-to- teachers focus on those students who are just below the school comparisons. proficiency level, and try to get them to increase their proficiency, thus ignoring other students who are well So, just to emphasize the difference, the vertical lines above and below the average. This is an educationally represent the comparisons under the current AYP suboptimal allocation of resources. regulations in each grade (slide11). We are looking at the performance of the school for children in Grade 3 in Finally, in every state, some schools and teachers this academic year, then those in Grade 3 in this engage in cheating to improve their students’ scores. academic year, another cohort, and Grade 3 children in Thus, it is the Federal law that’s causing massive this academic year, and so on. So, we are comparing dislocation at the state level and in individual schools different cohorts on a fixed grade. and classrooms. NCLB Improvement by Grade of Successive Cohorts Accountability and cohorts As mentioned earlier, another problem from the point of 2005-06 view of measurement is that the schools’ evaluation 2004-05 depends on the comparison of the status of last year’s cohort with this year’s cohort. confounding between school change or 2002-03 school GRADE effectiveness and the differences between the cohorts, which we typically can't control. Tracking growth of each cohort 2003-04 So, we have this 3 4 5 6 This can be 11 particularly problematic in small schools, or schools with highly transient populations due to student mobility. slide11 So, we get a lot of irrelevant variance, which affects the students’ and school’s status. Whereas with VAM, we are taking one cohort and following it over time across the grades, so the diagonal VAM and accountability lines track individual cohorts as they move over time In this context, people have become very excited about and across different grades. the idea of VAM because the value-added modeling bases school evaluation on students’ growth in each School accountability, VAM, and NCLB grade. We see this as an improvement because the Now, the states are beginning to use value-added students’ growth—the change in test scores from last modeling to either replace or augment their current year to this year—will be more strongly related to what accountability systems. 202 California and Kentucky are 講演2 Value-added modeling: Using student progress to evaluate schools and teachers examples, but what's important is the fact that the First, the VAM estimates, that is, the estimates of Federal government has begun to acknowledge that they schools or teachers’ contributions can be affected by need to rethink their AYP, and perhaps, to incorporate many factors that are irrelevant to what we are trying to some kind of student growth into the Federal regulations. measure. For example, we have small sample volatility. The Secretary of Education in the Federal Department If the school has a very small cohort, then the sampling has just appointed a working group to look at different variations can be very problematic. Following cohorts ideas about incorporating value-added ideas into the new across grades will often depend on the vertical scale legislation, which will be implemented around 2007. properties of the testing battery over time, which itself While states are beginning to undertake value-added on has some problems. When we deal with longitudinal their own, what will really count is whether the Federal data, some data is often missing—scores of some government will accommodate value-added in its students on a given test may be missing in a given year accountability system either because they were absent, sick, or sometimes they leave the system. How we deal with missing data can Incorporating VAM into school accountability very strongly influence the estimates of VAM. Systems: Some Possibilities When states begin to bring in accountability systems VAM is not a Panacea (2) that involve VAM, there are a number of policy Now it's certainly true that the VAM analysis can give decisions to be made. I am not going to discuss them in us a better picture of student learning in different detail. schools. But we can, for example, think about fixed Students’ growth and status provide growth targets; we can ask states to meet certain growth complementary descriptions—a very important phrase— targets each year, or we can even have growth targets of what is happening with respect to students’ learning, that become more and more demanding each year. We but these descriptions are used for purposes of can certainly track the growth of each cohort, and I think accountability, and it is implicitly assumed that they are this will become most popular partly because the accurate indicators of school effectiveness. Both VAM Federal Government is trying to somehow combine and students’ status are statistical descriptions. But when growth targets with status, that is, to develop systems we want to use them for accountability, we are making that involve growth toward the target, so that each year, inferences about school effectiveness, which has to deal you have a new cohort, and you want it to progress with what we’ll call a causal inference; that is, that the toward a target, say 100% proficiency. This involves a school is the causal agent of growth. combination of growth and status, rather than status VAM is not a Panacea (3) alone or growth alone. Description is simply an empirical observation, but VAM is not a Panacea (1) Although VAM is very attractive school effectiveness is an inference about causality. In for all the the next slide, we can see that make attributions of abovementioned reasons, it’s not a panacea. “Panacea” school effectiveness is equivalent to making causal is an interesting Greek word that means a cure for inferences on the basis of statistical descriptions. This is everything. UNfortunately, nothing in the real world is very dangerous when we get the data from an really ever a panacea. observational study rather than a randomized experiment. Most of the talk will be elucidating why VAM is so attractive and why it has to be treated cautiously. VAM is not a Panacea (4) I think it was obvious that the statistical description of a school in terms of its students’ current level is a very 203 第Ⅳ部 特別公開研究 米国における教育測定 poor basis for judging the effectiveness of the school. the Federal government, that are taking the lead. Many The argument against using value-added measures as a states are implementing, or planning to implement basis for judging schools is more subtle and we will now systems for evaluating teachers on the basis of a value- discuss it over the next few slides. Nevertheless, it is an added analysis. In fact, there is an early history to this. important issue that must be considered before we The State of Tennessee took the lead in 1993, by accept value-added measures as a replacement for, or introducing a value-added model. even in addition to, students’ status, because school difference is that in Tennessee and later in Dallas, these results can be influenced by many factors that are models were not used for accountability, but simply to outside the school’s control. The resources that are identify teachers and schools that were in need of extra made available to the school can vary, at least in the resources, so they could be targeted for improvement not United States, within a district and certainly across accountability. districts within a state. However, the This can be related to the characteristics of the student population as well as the States and districts are using VAM family and the community around the school. The Some states are beginning to experiment with VAM; statistical adjustments of VAM cannot fully eliminate others are actually incorporating it into their own the selection bias caused by the nonrandom pairing of legislation. students and schools. teachers at the extremes of the distribution. Teachers Typically, they are trying to identify who obtain high positive value-added measures may be These problems are similar to those that we find in rewarded or used as master teachers; similarly, those at trying from the low end with negative value-added measures are epidemiological studies or demographic surveys. In this identified for some sort of professional development. context, we have to try to separate the observation that This has been the case in Tennessee (Sanders et al) since the students in this school are growing faster than those 1993 as well as in Dallas (Webster & Mendro) with a of another school and ask why is this happening? different model since 1992. to make scientific inferences Further, is it a function of the school’s context or the school’s practices? The accountability argument The logic of VAM focuses on schools’ practices, but the problem is how do I want to come back to the intuitive appeal of this idea we separate the two in a setting where we don’t have of VAM, and I'm trying to frame it in one question: If random pairings of the practice in the context? good teaching is critical to students’ learning, then why can't we use students’ learning or its absence to tell us VAM and teacher effectiveness something about the quality of teaching? This question Let me now focus on the teacher level rather than the has very intuitive answers. We do believe that good school level. The central value-added question for teachers are better than bad teachers, and if that’s the policy makers about teachers is what is the contribution case, why can't we use this test data from the students to of each teacher to the progress of the students in his or make inferences in the other direction. Unfortunately, her class? this is not that simple when analyzed from the technical point of view. Teacher quality Interestingly, the No Child Left Behind Act does address VAM claims the issue of teacher quality, but not in terms of teacher One of the problems is that the proponents of VAM qualifications or the productivity of the teacher with make very strong claims. They claim that by using these respect to student learning. Here it’s the states, rather more sophisticated statistical methods, it is possible to 204 講演2 Value-added modeling: Using student progress to evaluate schools and teachers objectively isolate the contribution of each teacher to Teacher D doesn’t look so happy with –3, and teacher E students’ learning, or to actually determine the value- is very unhappy with –5. added. Further, there are real differences among Unpacking the VAM Claim (3) teachers, with about 1/3 of the teachers in a typical district being statistically significant from the average, that is, either substantially better or substantially worse than the average teacher. In fact, students, especially poor students or minority students, really benefit from having very good teachers. So, the advantage is not just Class Effects Grades 3 4 5 6 Student Test Scores Studentteacher links that we can identify these particularly good teachers, but A B C D +6 +2 0 -3 E VAM -5 it is important that we do because they can make a real difference in students’ learning trajectories. However, Teacher Focus 25 these points are not fully substantiated. slide25 We now have the convergence of a real political need to hold schools and teachers accountable and this very Unpacking the VAM claim (2) sophisticated statistical methodology, whose developers So, the proponents are saying that these numbers tell us claim that they can deliver what the politicians want. something about the relative effectiveness of the This is a very powerful combination, and those of us in different teachers. But what the VAM engine is really the measurement community who are expressing some doing is giving us an estimate of the average gain in a skepticism about this are fighting against a very particular class in a particular year after adjusting for the powerful tide. experiences of the same students in other classes in previous and subsequent years as well as the difference Unpacking the VAM claim (1) from the average gain in all classes in that year. We haven’t lost yet, but we haven’t won either. Let's look at the problem and undertake a very careful Unpacking the VAM claim (3) analysis, but at the simple level of what's behind this When we examine the statistical model, we look at the claim of the value-added model. Let's think of a very fact that a set of students were in the same class in a simple situation where we have data from, let's say, over given year and in different classes in other years. How four grades (slide25). We have student test scores and much do these different patterns account for differences the links between students and teachers; thus, in each in average growth over time? What we really end up grade, we know the teacher for each student, and their with is a set of measures of value-added. These value- test scores. Suppose we could measure this over a added measures do not actually apply to the teachers period of four grades, and we take this very complicated directly, but rather to the class. (I am representing the database and feed it into the VAM engine—this black class by the box around the teacher.) The class box here—and out of this engine come value-added comprises not just the teacher but other students and the estimates for, let's say, these five teachers, A, B, C, D, interactions among the students themselves, as well as and E. the interactions between the students and the teacher. We see that teacher A has a value-added estimate of +6; teacher B, +2; and teacher C is at the average 0 because, remember, this is a comparative Unpacking the VAM claim (4) analysis. (We always compare teachers to one another.) When we look at it this way, then we see that there are two very important steps that we have to take based on 205 第Ⅳ部 特別公開研究 米国における教育測定 the observations of students’ growth to make a causal group gets the drug and the control group gets a placebo. inference about the effectiveness of the teachers. As the With randomization, each patient has an equal chance of first step, we have to interpret the class effect as the being in either group, so we don’t have to worry about causal contribution of being in that class to students’ the initial differences between the two groups. gains, and the second step is to attribute all, or almost all, Therefore, if we find a difference in the results, we are of that causal contribution of the class to the actions of in a good position to attribute it to the difference the teacher in class. We have to deal with these two between the drug and the placebo rather than to the steps logically and empirically before we can make the innate differences among the groups. This interpretation transition from the statistical description to the causal is stronger as long as we have a sufficiently large group inference that’s at the heart of the accountability issue. of people and, of course, the randomization has been properly carried out. Unpacking the VAM claim (5)-Examining step1 Let's look at step one. The question from a scientific Randomization (2) point of view is: Under what circumstances can we In the United States, teachers are not randomly assigned unequivocally interpret the result of the statistical to schools, and students are certainly not randomly analysis as the causal effect? The answer is that we are assigned to teachers. in the best situation if we've conducted a large, well- randomization in the school settings, we can't be assured designed randomized experiment. that the observed results are caused by the treatment (i.e. Since we can't rely on the class or the teacher). In fact, they might be related to Unpacking the VAM claim (6) some degree to the initial differences in students and the This is because if there are systematic differences class as a whole. among the classes with respect to the characteristics of the students and the interactions among these students, Randomization (3) and if these differences are related to the score gains, This means is that if we want to make causal attributions, which are inputs to the value-added measures, then the no statistical model, no matter how complicated, and no class effect estimates produced by the VAM engine will method of analysis, however sophisticated, can fully not be accurate measures of the contributions of those compensate classes to students’ scores. Thus, the fact that we don’t randomization. have a randomized experiment means that we have developers of the various VAM models that they can potential confounding of the real differences between objectively isolate teachers’ effectiveness will not stand classes in their causal contributions and the differences up to scientific scrutiny. It might be approximately true, in the classes themselves independent of the events in but it needs to be examined very carefully rather than the class. being accepted as a fact. Randomization: the gold standard (1) Unpacking the VAM claim (7) –Examining step2 Let's just take a quick detour and talk about Even if we are able to accept the possibility of making randomization and its importance in causal inference. In approximate causal inferences in terms of the class the experimental world, we often like to refer to effect, we still need to proceed to the second step, which randomization as a sort of golden standard for inference, is attributing that casual effect at the classroom level to and this actually stems from the medical world. For this individual teacher in that class. The question that example in a drug trial, if we divide a representative we have to ask is under what circumstances can we group of people randomly into two groups, the treatment attribute all, or almost all, of the purpose of the class to 206 for the fact that we don’t have This also means the claim of the 講演2 the teachers’ pedagogy itself? Value-added modeling: Using student progress to evaluate schools and teachers Nobody knows the answer to this yet. gender; and their structures as models. The number of levels—one level or multilevel—the kinds of regression assumptions they make, and how they treat missing data Unpacking the VAM claim (8) are also important. Thus, these models can differ on one What we can say is that teachers probably bear a or more of these dimensions, and when we cross all substantial degree of responsibility for their students’ these dimensions, we have a very large number of learning. potential models only a few of which are really being But the degree of responsibility and effectiveness will vary both with the school and the studied at present. community environment, the mix of the students in the classroom, and the number of unexpected events; for example, a personal crisis of one student may disrupt the whole class. Sanders’ layered model (1) ybue tttt kkkk Sander’s Layered Model (1) Should we blame the teacher for this? ytk There are other realities in school settings that are not accommodated in this VAM. ytk 11 btk utk btk 11 utk etk utk 11 etk 11 where b kt I think it’s important at this point to say that despite the ytk ybue tttt kkkk y kt very strong scientific arguments against accepting these btk = student score in grade k, year t u kt = district means core in grade k, year t utk e kt statistical descriptions as unbiased estimates of causal k t e = contributions of the teacher in grade k, year t = unexplained variation in student score in grade k, year t contributions, they can still be useful in the context of other statistical and non-statistical descriptions of 35 teacher performance. Therefore, saying that we can’t treat the value added estimates as having unambiguous slide35 meaning, is not to say that they are useless. I now want to step back a little and ask what can we argue in terms Let me just give you a flavor of one of these models— of the quality of these statistical estimates if we Sanders’ model, which is being used in Tennessee and recognize that they are not necessarily accurate in a number of other states (slide35). I’m going to show measures of casual contributions? a very simplified version, but it may give you an idea of what’s involved. The first equation in the model Models for Value-added Analysis describes a student’s test scores in a given grade k in a If we accept the possibility that these value-added given year t ( yt ) as the sum of two components—a models can be interesting and useful, then it’s worthwhile to pay a little more attention to their statistical properties. There are a number of value-added models that have been studied, and some are also being used. They can differ along a number of different k k district mean score ( bt ) and the contribution made by k the teacher to that student in grade k and year t ( ut ); dimensions such as the following: the kinds of data the deviation that is allocated or attributed on a structures they require; the number of cohorts they need statistical basis to the teacher relative to the district to conduct their analysis; the number of years of test average. We also have an error term ( et ). During the scores for these cohorts; the number of subjects—math, k reading, science, that is, how many subjects they will next year, t increases by one and so does the grade. We use—and whether or not they use student characteristics have the district average for the next grade k+1 and year such as students’ socioeconomic status, and race, and t+1. Now the important thing is that the deflection or 207 第Ⅳ部 特別公開研究 米国における教育測定 the deviation due to that teacher carries over to the next specialized software. They were able to do these year. So, if the teacher’s made an improvement in calculations in a finite amount of time. Their software is students’ growth, it carries over to the next year. The very efficient for breaking down these very large question is whether or not this is a reasonable complex covariance structures in order to produce the assumption. We then have the contribution of the best linear unbiased predictors, which are basically the teacher for the next year plus another error term. We maximum likelihood estimate equations for these very can build this up over successive years; thus, we have large sets of mixed model equations. Sanders’ layered model because we layer the regression Sanders’ layered model (4) models from one year on to the next. One of the critical assumptions that make the Sanders’ Sanders’ layered model (2) layered model so interesting is the persistence of the So equations (1) and (2) are treated as a mixed model teacher’s effect into the next year. Another assumption and the “b” coefficients for the district averages are is that he does not introduce student characteristics like treated as fixed effects. The “u” coefficients, which are many other models do. His claim is that because he is the teacher deviations or class deviations, are treated as using this multivariate analysis—with many subjects random effects. Thus, this is a classic linear mixed and longitudinal data over many grades—he doesn’t model. The difference is that we don’t have a simple set need to introduce student characteristics because, in of two or three equations. We will often have equations effect, each student is acting as her own block. His for subsequent years up to five years. And we’ll also argument is that if a student was on a very fast trajectory have equations for up to five other subjects. Thus, the of growth and when he/she goes to a particular teacher’s basic model will have, for example, up to 25 linear class next year, what we are looking for is whether that equations for a given analysis. But this is not the most teacher helps deflect this growth even higher or lower. complex part. No student puts the teacher at a disadvantage, Sanders’ claims, since whether the student was slow or fast in Sanders’ layered model (3) growth is not crtical. One of the critical assumptions here is that the teacher’s growth in that year matched that of the previous year. effect persists into the successive years. This is analagous to Another problem is the covariance structure. If we go back to The question is whether the classic agricultural randomized block designs. slide 35, these error terms here are not uncorrelated. In fact, they are very strongly correlated. We now have to Sanders also claims that this use of multivariate model the covariance structure among the error terms longitudinal data to take advantage of the information in with covariances—the the covariance structures reduces the impact of data covariances across students in the same class within a that’s not missing at random. That is, when students year, the covariances within students across the years, have missing data, it may be possible that poor students and the covariances within students and years across are more likely to not take the test. In this case, you’ll subjects. This creates very complex covariance have what’s called not missing at random, which can structures and to do the necessary computations, even introduce a selection bias of a different kind into the for a medium-sized school district, say with a couple of estimates. thousand students, can often involve solving two or massive covariance structure buffers the estimates three hundred thousand equations. And in fact, William against departures from missing at random. However, Sanders—who his claim that he can isolate the teacher’s contribution to three different statistician—and 208 was his kinds quite a of famous colleagues agricultural developed very And Sanders’ claims that the use of this student learnign, which is one way of saying that he can 講演2 Value-added modeling: Using student progress to evaluate schools and teachers extract the causal contribution of the teacher, requires that there are probably measurable differences between still more than such robustness. teachers in their “pedagogical efficacy.” Valued-added models of one sort or another could be used to These two claims that, by using the multivariate data, we efficiently identify teachers who should be observed can eliminate the need to use student characteristics and more closely to determine if they need specific forms of that the results are robust to departures from the missing professional development. That is, we can use VAM as data, are at least plausible. I’ll discuss some research a kind of screening. Based on this statistical analysis, that we’ve done to look at these assumptions, and argue we can identify a group of teachers who may need that his third claim, which allows us to make causal professional development, but then we need to follow up inferences, is less plausible because it goes beyond with observations to make sure that the statistical statistical analysis to the analysis of a causal pathway analysis hasn’t led us astray because it hasn’t taken into without any information. Thus, the first two claims are account contextual issues that are not built into the more reasonable at least from a statistical standpoint; the database. third, we believe, is not. Now, there are some cautions. One of them concerns For those who are interested in this issue of missing data, the Tennessee Value-Added Assessment System let me mention that the classic reference is a book by (TVAAS), specifically: Layered models are probably so Rod Little and Donald Rubin on missing data that talks simple that we need to make them a little more about the role of missing data in statistical analysis, and sophisticated because, for example, the fact that the particularly, in the analysis of observational studies. teacher parameters persist may not in fact reflect the There is another very good book by Paul Rosenbaum on reality that over time, there has probably been a decay in observational studies. It also talks in detail about the the teacher contribution. Secondly, the extreme VAM relationship between missing data and confounded rankings where the teachers seemed to very high up on estimates. the positive side or very low down on the negative side are very unstable. The volatility in these rankings turns Due Diligence out to be very high because of the ratio of variance My conclusion is that if we’re going to use these value- components within and between teachers. added models for high stakes—that is, for consequential reasons such as teacher evaluation and salary—then we Another point here is that teachers with different grades must make sure we know how they work, and should not be compared because growth along the scale understand their limitations. In fact, we need to know at different grades may follow different average much more before we can proceed to use such trajectories, and if we don’t take that into account, we approaches for high stakes. We must carry out what could be disadvantaging or advantaging teachers in might be called “due diligence”. Due diligence is really different grades. Therefore, we should probably only a business term. Let’s say, you’re going to buy a compare teachers in the same grade. In fact, even in the business worth $10 million. You do due diligence: You same grade, teachers shouldn’t be compared if they are will read about it, talk to customers, and make sure that teaching very different groups of students that are never you are buying what you think you’re buying. mixed. What do we already know? Research Agenda So what do we already know? Well, we know some There is a fairly broad research agenda in my paper that good things. Based on many empirical studies, we know appeared in the volume on value-added measures for 209 第Ⅳ部 特別公開研究 米国における教育測定 evaluating teachers that just came out this year. I think is a better accountability indicator than to use only one we need to clarify what we mean by teacher of them. effectiveness and also be clear when we are talking about a statistical description and when we are talking I’ll just add that I’m currently involved in a couple of about a causal attribution. From the statistical point of projects in which we’re really focusing on the sensitivity view, we also need to investigate the sensitivity of the of the estimated teacher effects to various departures estimated teacher effects to departures from the from assumptions. In one study, we’re looking at how assumptions underlying all these value-added models, the effects change as we move from the assumption of whether we’re using Sanders’ model, a hierarchical missing at random to various departures from the linear model, or a two-stage least squares model that’s missing random; in another study, we’re looking at how used in Dallas. Irrespective of the model, there are some these estimated teacher effects change when we look at very critical assumptions that are hard to evaluate different ways of summarizing student test scores as a directly. basis for the analysis. If we’re talking about teacher accountability, we also Teacher evaluation and assistance have to find ways of disentangling true teacher I think that we now agree that one of the value-added effectiveness from school and context contributions to approaches can be useful in identifying many teachers students’ learning, and this is something that, I think, is who are, perhaps, not performing at acceptable levels in actually very difficult. And probably just as important, terms of promoting student gains. However, even if we we have to characterize those settings where the use of are willing to trust the value-added analysis, can it tell us the results of value-added models should be strongly what the problem with the teacher is? discouraged. I think another important point that is not pedagogical style, is it class management, or is it being followed much, as far as I know, is to find some something entirely different? Unless we can get this external validation of estimated teacher effects as additional information, we are really not much better off. approximate measures of teacher effectiveness. That is, This information should be gathered in the classroom in we could undertake some studies, where we conduct this order to properly diagnose what the problems are, and value added analysis, say in a school district, and at the the teachers can then be provided with the needed same time develop other nonstatistical approaches to professional development or other forms of assistance. teacher example, observations by But to rely purely on statistical analysis without external examiners, reports by principals, and so on— understanding the classroom context is, we think, a and then look at the relationship between these misuse of test data. evaluation—for Is it their nonstatistical, more humanistic evaluations and this purely statistical evaluation and see the extent of their Teacher evaluation measures correlation. So what are the kinds of observations or kinds of data should be collected for teachers that are identified These humanistic evaluations have their own problems. byVAM analysis? Certainly, one possibility is classroom They can be biased and involve a lot of uncertainty, and observations using some sort of structured approach so on; but they have a different evidence base. In fact, employing something called “Framework for Teaching”, I’ve been able to find two or three such studies in which or observations made by outstanding teachers. Here, we the correlations are modest. This suggests that when we are talking about a kind of a triage, or a screening have multiple fallible measures (fallible means subject approach. But perhaps, even diagnostic tests that look at to error), then combining them in some reasonable way teachers’ dispositions, that is, their attitudes toward 210 講演2 Value-added modeling: Using student progress to evaluate schools and teachers teaching, their beliefs about students, their experiences, three pages just on that one little aspect of teaching, and and so on can be used to get a proper picture of teachers there are several other aspects. before we begin to make a diagnosis about what kind of complicated to do that. But it’s still cheaper than trying assistance they’ll require. to visit hundreds of classrooms. It becomes very Even when you’re making these observations, you have really very short Teacher rewards and salary differentiation segments of one or two hours, so you have statistical Our conclusion at this point is that the value–added uncertainty there, as well. The problem of documenting analysis should not be used as the sole measure for teacher practices is very difficult. There has been some making decisions about teacher rewards or salary research, and only recently, researchers have tried to differentiation based on student performance, but it relate teacher practices to value-added analysis because could be considered in conjunction with other measures, it is a new idea. Thus, not much has been achieved in such as teachers’ portfolios and other observations in a that direction. Despite all these difficulties, I think that well-controlled pilot study. it will be an area of increasingly important research. I can expand a little. Thank you very much. Two years ago, I and my colleagues finished a study at ETS where we looked at students’ performances on the Advanced Placement, a Questions & Answers program where high school students take college level Q1: I think you are conducting questionnaires on courses and get credits if they do well enough. When teachers about their teaching methods or practices. they go to college, they can either skip the introductory Could you tell us your insights on what kind of teachers’ first year courses, or they can even skip the first year and practices will affect students’ performances? finish college in three rather than four years. This is a A1: Right now, there have not been many studies that quite popular program, and the question was whether we try to relate teacher practices to student improvement. could identify teacher practices that were associated with Such research is, in some ways, just beginning. But the better performance of students on these exams. there have been a number of studies that have been We studied biology and history—two different kinds of conducted through surveys. In other words, we send out subjects—and we tried to do a sort of a national survey survey questionnaires that teachers fill out about their of these teachers. We would have had a lot of trouble style and approach, and we then try to relate the coming up with the survey if we tried to document differences in teacher practices to differences in student teacher practices in a practical way. When we tried to outcomes. relate the differences in teacher practices to those in There are two problems right now. First, teachers are VAM, not just when the students had made a certain not always the best reporters of their own style; second, I, level of score but when we looked at the value–added having conducted one of these surveys myself, know measures—that is, when we take account of students’ how hard it is to formulate a survey that’s not too long previous performance—we looked at how much that and obtains accurate information. For example, we can teacher seemed to add to the students’ academic history. ask teachers whether they prefer a didactic approach— After we took account of the context of the school and that is, instructing students—more questioning, or a the classroom, we didn’t find very strong relationships more interactive approach. But then, you have to ask, between teacher practices and these measures. “If you prefer the interactive approach, do you also use This could be due to many reasons. One, maybe that we the other one, and if you use both, how often do you use didn’t get a very good measure of teacher practices; them and in what order, and do you use them all the there may be a confounding between teacher practices time?” So by the time you finish, you can have two or and the context so when you adjust for the context you 211 第Ⅳ部 特別公開研究 米国における教育測定 are, in fact, removing some of the effects of teacher subjects. You have approximately 25 data points for practices. That is, when you adjust for the factors that each student and five subjects by five years. The teacher are not of interest in order to isolate the contribution of effects are based on a set of models and then continued the relevant factor, then your adjustments can result in over time and many subjects; all these represent the data an underestimation of the contribution of this factor of for a single cohort. Remember from the first picture that since all the factors are correlated. we are following one cohort over time. Maybe, you are In the being very conservative. There are both substantive and application, for example in Tennessee, a whole set of statistical issues that make these kinds of studies very models for one cohort is used for three cohorts at a time. difficult. The estimate for a particular teacher is based on the But to continue on this issue of observational versus average over three cohorts, which is a reasonable randomized studies, I think that trying to isolate these amount of stability over time. teacher effects will always be very difficult, if not shown that when the cohorts are not that big, you still impossible. We have a better chance if we are talking get an uncomfortably large statistical variance for about program evaluation, where it’s more feasible to do teacher effects. Some analyses have randomized allocations of students, classes, or schools to different programs, and to make causal inferences about Q3: Do standardized tests make it possible to compare the relative effectiveness of different programs based on annual longitudinal changes? this analysis of the randomized study. But even there, A3: This leads to some very complicated issues. there are problems because typically, in the real world, “Standardized” simply means that it is administratively we cannot randomize at the student level; at most, we fair to all the students. These kinds of models do not can randomize at the classroom level. So, we need very actually require a vertical linking from one year to the large studies in order to have sufficient degree of next. freedom to get statistically reliable estimates of program linearity between years. However, in practice, most of differences, which cost millions of dollars, at least in our standardized test batteries produced by test United States. So, it’s not clear whether we’ll be able to publishers are vertically linked. So y t undertake many such randomized program evaluations, All they require is a sort of an approximate k 1 1 refers to the although the current administration in the United States scores that are obtained in year “t” and grade “k”, and is pushing very hard on these randomized studies. If you year “t+1” and grade “k+1” have already been vertically want to learn more you should visit the website of “What linked. This makes the interpretation of student growth Works Clearinghouse (http://www.w-w-c.org/),” which easier because we’re looking on the same scale. Just as I is an archive of all kinds of randomized studies in was arguing in the last lecture about the growth in the various areas of education. This is modeled after the National Assessment of Educational Progress (NAEP), concurrent collaboration in medicine, which is a British- where we had a single scale, the problem is that vertical based archive of randomized studies in medicine. linking, unlike horizontal equating, can be very problematic in terms of the kinds of assumptions. Q2: In Sanders’ layered model (slide 35), is the effect To continue, the problem with vertical linking, even for year “t” comparable to the effect for the subsequent though it simplifies the presentation of data, is that when year (“t+1”) on the same scale? If this is possible, how you vertically link over many tests are available for that comparison? mathematics, the yearly content profile in the test will A2: In the current application of Sanders’ model, he change; this has been mentioned in the book edited by uses five years of data on each student from grades three Robert Lissitz. There is a paper by Bill Schmidt and through seven in a particular subject, and up to five others at Michigan State in which they conduct an 212 several years, like in 講演2 Value-added modeling: Using student progress to evaluate schools and teachers analysis of the content profile in mathematics over time interestingly, the districts are not required to use it; this and show that the content changes across Grade 3 is again part of the local control. Sanders’ told me that through Grade 8. They then ask, given this shift in nearly one-third of the districts in Tennessee use the content over time, what is represented by the scores on results of VAM for evaluating teachers’ professional the vertical scale constructed through this linking development and for school analysis; two-thirds don’t procedure? I’m not a subject-matter expert so I can’t use it at all although they get the results. say that I fully accept their argument, although I think that it’s very plausible. They argue that the consequence Q5: Can a state get estimated value of each individual of this vertical linking is to pull out that dimension teacher? If so, aren’t teachers complaining about it? which is most common across years, and which A5: They complained at the beginning, but they don’t probably deals more with the developed ability in do so now because it’s not used in their administrative mathematics and less with the content that’s unique at evaluation. It’s only used in the district for professional that particular grade level,; if it is unique at that grade development and other purposes. level, it probably won’t be captured by one dimension determine their salary or whether they get a job. It’s not used to across years. If this argument is correct, their claim is that the vertical scale is downweighting much of the data Q6 (Henry Braun): Do you have these kinds of that’s most sensitive to teachers’ practices because the longitudinal databases at the school level In Japan? teachers are trying to teach the content that’s unique to Answer: We don’t have such databases. that year, and the vertical scale is throwing out at least Henry Braun: In the U.S., partly because of the some, if not most, of the information, relevant to what’s federal law, many states are building complex data sensitive to teachers’ practices. They are arguing that systems to be able to track students’ growth, so that even the vertical linking data, if we use that as the input to the though right now, relatively few states will have that value–added analysis, is probably not giving us what we capacity, most states will have it within about three or want in terms of teacher effectiveness. five years. This means that, in principle, they can be It should be mentioned that a model such as Sanders’ undertake this kind of value-added analysis for one model doesn’t require vertical linking. In fact, it would reason or another.I It’s going to become more and more do better if the scores were more or less the raw data feasible because the data structures and all mechanisms from the individual test that had not been transformed by will be in place; in fact, the federal government just vertical linking. I have had many conversations with awarded about $55 million to nearly 14 states to help Sanders’, and as far as I know, he has never tried to use build such data systems. his model in parallel, once with the vertical linking data governments are investing millions of dollars to build that he uses in his application and once with the raw data these systems. before vertical linking to see the differences. I think that recommending the selected states. It’s a very serious will be a very interesting study, but it hasn’t been investment, which, I think, will have educationally undertaken. productive implications apart from value-additions The Federal and State I was on the panel that was because it means that states will now be able to track Q4: What kind of results did you get from TVAAS students as they go from one school to another or one (The Tennessee Value-Added Assessment System)? district to another. A4: I have not done work on the TVAAS. Sanders’ efficiently and accurately. model is used in Tennessee as a matter of law. It’s built analyses, that are not necessarily so sophisticated, can be into their State Education Law that districts must bring done more easily. I think that this pressure will actually the data and must submit it for analysis. have productive consequences, irrespective of whether However, Records can be transferred more In fact, other kinds of 213 第Ⅳ部 特別公開研究 米国における教育測定 or not VAM becomes part of the states’ accountability system. Q7: In Japan, “a good teacher” is hardly defined based on data since we do not have an established database, but emotional aspects such as being good at human relationships with students have a greater influence on the evaluation. How do you assess these aspects of teachers? A7: In the United States, there are 20,000 different ways of doing it, one for every school district in the country. So, there is no generalization. We often lose sight of many things in this analysis; in particular, we make judgments about teachers in terms of the test scores, which places an enormous burden on the quality of tests used by the states, which is sometimes not justified. The other point is that test scores don’t tell us everything about what the students learn, even in those subjects that are being tested, let alone the other subjects. I think that in terms of the general quality of education, there are many problems that are not well treated by this quantitative approach, and the struggle is to take value– added measures and put them in their proper place but not ignore them entirely because they contain some information. However, we are not to make it the principal basis for evaluation, as it gives tests too much credit. And I would argue saying that in the United States, we have laid considerable emphasis on this testbased accountability and the idea of proficiency; yet, if we look at history, we know that very well educated people have sometimes done terrible things, and that education has to be more than just a subject that can be mastered. Education should be provided about values and humanity, and none of that appears here. So, in our struggle with this balance between the pressure of the global economy and competition, the focus is very narrowly targeted on competencies, while the broader issue of how we educate citizens for democracy that’s often lost -- at least in our country. I think the real problem is the pressure due to over reliance on this very narrow test-based accountability. (end) 214
© Copyright 2024 Paperzz