Поиск по сайту
Авторизация
Логин:
Пароль:
Забыли свой пароль?
Рейтинг@Mail.ru
Подписка на рассылку...

Модуль подписки в настоящее время недоступен.

Проблемы, связанные с использованием тестов студентов для оценки учителей в США

Проблемы, связанные с использованием студенческих тестов  для оценки учителей

Каждый класс должен иметь хорошо образованного, профессионального преподавателя, и школьные системы должны набирать, подготавливать и сохранить учителей, которые имеют право выполнять работу. Тем не менее, на практике, американские государственные школы как правило, делают плохую работу по систематической разработке и оценке учителей.

Многие политики в последнее время пришел к выводу, что эта неудача может быть исправлена путем расчета улучшения показателей учащихся на стандартизированных тестах по математике и чтению, а затем в значительной степени опираясь на эти расчеты, чтобы оценить, вознаграждение или удалить преподавателей этих испытанных студентов.

Хотя есть веские причины для беспокойства по поводу существующей системы оценки учителей, есть также веские причины для беспокойства о том, что требования оценки эффективности учителей в основном за счет тестирования студентов по баллам приведет к улучшению успеваемости учащихся. Если новые законы или политика образования конкретно требуют, чтобы преподаватели будут уволены, если их студентов по результатам тестов не поднимаются на определенную величину, что то больше учителей вполне могут быть сокращены, чем это происходит сейчас. Но нет убедительных доказательств того что для указания этого, что уходящие учителя фактически были бы самыми слабыми учителями, или что уходящие учителя будут заменены на более эффективные. Существует также мало доказательств для утверждения, что учителя будут более мотивированы, чтобы улучшить обучение студента, если учителя оцениваются или денежно вознаграждены за высокий балл тестируемых студентов.

Обзор технических данных приводит нас к выводу, что, хотя и стандартизированные результаты тестов студентов являются одной частью информации для руководителей учебных заведений, чтобы судить о эффективности учителей, такие оценки должны быть лишь частью общей комплексной оценки. В некоторых штатах в настоящее время рассматривают планы, которые бы дать столько, сколько 50% от веса в оценке учителя и компенсационных решений по существующим оценкам испытаний базовых навыков в математике и чтении. На основании данных, мы считаем это неразумно. Любая оценка будет обязательно включать балансировку многих факторов, которые обеспечивают более точное представление о том, что учителя на самом деле делают в классе, и как это способствует обучению студентов.

Данные об использовании тестов для оценки учителей

Последние статистические успехи позволили взглянуть на прирост успеваемости учащихся после корректировки некоторых школьников и студентов характеристик. Эти подходы, которые измеряют рост с помощью "моделирования на добавленную стоимость" (VAM) являются более справедливые сравнения учителей, чем суждения, основанные на результаты тестов своих учеников в одной точке во времени или сравнения студенческих когорт, с участием различных студентов в двух точках одновременно. Методы VAM также способствовали более сильным анализу школьной успеваемости, программных воздействий, а также обоснованность методов оценки, чем было возможно ранее.

Тем не менее, существует широкое согласие среди статистиков, психометрии и экономистов, которые проверяют студента оценки сами по себе не являются достаточно надежные и достоверные показатели эффективности учителей, которые будут использоваться в высоких ставках кадровых решений, даже когда самые сложные статистические приложения, такие как используется добавленная стоимость моделирования.

По целому ряду причин, анализ результатов VAM привели исследователей к сомнениям в том, что методология может точно определить более и менее эффективных учителей. Оценки VAM оказались неустойчивыми по статистическим моделям, годам и классам, которые учат учителя. Одно исследование показало, что в пяти крупных городских районах, среди учителей, которые были ранжированы в топ 20% эффективности в течение первого года, менее трети были в этой верхней группе в следующем году, а еще одна треть переехала вниз к нижним 40%. Другой обнаружил, что рейтинги эффективности учителей в течение одного года может предсказать только от 4% до 16% от изменения таких оценок в следующем году. Таким образом, учитель, который оказывается очень неэффективным в течение одного года может иметь резко различный результат в следующем году. Те же самые драматические колебания были найдены для учителей, ранжированных на дне в течение первого года анализа. Это идет вразрез с представлениями большинства людей, что истинное качество педагога, вероятно, изменится очень мало в течение долгого времени, и поднимает вопрос о том, что измеряется в значительной степени "эффект преподавателя" или эффект широкого спектра других факторов.

Исследование предназначен для проверки этого вопроса используются методы VAM назначить эффекты для учителей после учета других факторов, но применяется модель назад, чтобы увидеть, если были получены достоверные результаты. Удивительно, но было установлено, что пятый класс учителя студентов были хорошими предсказателями их результаты тестов четвертого класса. Поскольку позже учитель пятого класса студента не может повлияли на производительность четвертого класса этого студента, этот любопытный результат может означать только то, что результаты VAM основаны на отличных от фактической эффективности учителей факторов.

Нестабильность VAM может возникнуть в результате различий в характеристиках студентов, назначенных к конкретным учителям в конкретном году, от небольших образцов студентов (сделано еще меньше представителя в школах, обслуживающих малообеспеченных студентов высокими темпами мобильности студентов), от других влияний на обучение студентов и внутри и вне школы, а также по результатам испытаний, которые плохо выстроенных с преподавателями учебного плана, как ожидается, чтобы покрыть, или что не измерить весь спектр достижений студентов в классе.

По этим и другим причинам, научного сообщества и предостерегает от сильной зависимости от результатов тестирования, даже если вами используются изощренные методы  для решения проблемы, такие как оплата, оценка, или владение. Например, Совет по тестированию и оценке Национального исследовательского Совета Национальной Академии наук заявил, ... Оценки VAM эффективности учителя не должны использоваться, чтобы принимать оперативные решения, поскольку такие оценки являются слишком нестабильны, чтобы считать справедливым или надежным.

Обзор исследований VAM от политики Информационного Центра Educational Testing Service пришли к выводу, результаты VAM не должны служить в качестве единственного или главного основания для принятия решения о том, вытекающие учителей. Есть много подводных камней, чтобы сделать причинные атрибуции эффективности учителей на основе типов данных, доступных из типичных школьных округов. Мы до сих пор не хватает достаточного понимания того, насколько серьезно различные технические проблемы угрожают обоснованность таких интерпретаций.

И исследователи RAND Corporation сообщили, что, оценки от VAM моделирования достижения часто будет слишком неточны, чтобы поддержать некоторые из желаемых выводов ... и что исследовательская база в настоящее время недостаточно для поддержки использования VAM для высоких лимитах решений, касающихся отдельных учителей или школ.

Факторы влияющие на критерий оценки студента,  приписываемые отдельным учителям

Ряд факторов было установлено, что сильное влияние на прирост знаний студентов, в стороне от учителей, которым их оценки будут приложены. К ним относятся влияния других педагогов-преподавателей обоих предыдущих студентов и, в средних школах, в настоящее время преподаватели других предметов-а также воспитателей или учебных специалистов, которые были обнаружены часто имеют очень большие влияния на прирост достижений. Эти факторы также включают в себя школьные условия, такие как качество учебных материалов, специализирование или репетиторство основных направлений, размер класса, а также от других факторов, которые влияют на обучение. Школы, которые приняли выдергивания, обучение команды, или практика, блок планирования будет только неаккуратно быть в состоянии изолировать отдельные учителя "эффекты" для оценки, оплаты труда, или в дисциплинарных целях.

Тестируемый студент получает балл, который также сильно зависит от посещаемости школы и различных вышедших из школы опыта обучения на дому, со сверстниками, в музеях и библиотеках, в летних программах, как в он-лайн, так и в обществе. Хорошо образованные и благосклонные родители могут помочь своим детям в выполнении домашних заданий и обеспечить широкий спектр других преимуществ для них. Другие дети имеют родителей, которые, по разным причинам, не в состоянии поддерживать свои знания в учебе. Тестируемый студент получает балл, который также влияют на семейные ресурсы, здоровье учащихся, семейные мобильности, а также влиянием соседства сверстников и одноклассников, которые могут быть относительно более выгодном положении или неблагоприятном положении.

Оценки добавленной стоимости учителей в общинах с низким уровнем дохода может быть дополнительно искажен потерей обучения летом своих студентов опыт между временем они испытываются в весенний период и времени, когда они возвращаются в школу осенью. Исследования показывают, что летние прибыли и убытки весьма существенны. Резюме исследования приходят к выводу, что в то время как студенты в целом теряют в среднем около одного месяца в чтении достижения в течение лета, студенты с более низкими доходами теряют значительно больше, и студенты со средним уровнем дохода может фактически получить при чтении знания в течение лета, создавая расширяющийся разрыв достижение , Действительно, исследователи обнаружили, что три четверти школ, которые определены как в нижних 20% всех школ, на основе баллов студентов в течение учебного года, не были бы так идентифицированы, если различия в обучении вне школы были приняты во внимание , Аналогичные выводы применимы к нижней 5% всех школ.

По этим и другим причинам, даже когда методы используются для корректировки статистически для студенческих демографических факторов и школьных различий, учителя были найдены получить более низкие «эффективность» оценки, когда они учат новых английских учеников, студентов специального образования и студентов с низким уровнем дохода, чем когда они учат более богатых и образовательно благополучных студентов. Неслучайное распределение студентов в классах и школах-и широкого разнообразия опыта, накопленного в домашних условиях и в школе-означает, что учителя не могут быть точно судить друг против друга на своих учеников, студентов тестов, даже тогда, когда предпринимаются усилия для контроля студента характеристики в статистических моделях.

Признавая технические и практические ограничения того, что результаты тестов могут точно отражать, мы приходим к выводу, что изменения в результаты тестов должны быть использованы только в качестве скромной части более широкого набора доказательств о практике учителей.

Потенциальные последствия ненадлежащего использования оценки учителей на основе тестирования

Помимо опасений по поводу статистической методологии, другие практические и политические соображения взвешивать против сильной зависимости от тестирования студентов баллов для оценки учителей. Исследования показывают, что чрезмерная концентрация на основных математике и чтению оценки может привести к сужению и чрезмерно упрощает учебный план только предметов и форматов, которые проверены, уменьшая внимание к науке, истории, искусства, гражданственности и иностранного языка, а а также для написания, исследования и более сложные решения проблем задач.

Привязав оценки учителей и санкции к результатам тестов оценка может препятствовать учителей из желающих работать в школах с наиболее нуждающихся студентов, в то время как большой, непредсказуемый изменение в результатах и ​​их предполагаемой несправедливости может подорвать моральный дух учителей. Исследования показали, что учитель потертость и деморализация были связаны с усилиями отчетности на основе тестирования, особенно в высоких нужны школы.

Индивидуальные награды учителя на основе сравнительных результатов тестирования студент может также создать препоны для учителей сотрудничества. Лучшие школы являются совместные учреждения, в которых работают преподаватели разных классах и оценка уровня границ к общей цели воспитания всех детей до их максимального потенциала. Школа будет более эффективным, если его преподаватели более осведомлены о всех студентов и может координировать усилия для удовлетворения потребностей студентов.

Некоторые другие подходы, с меньшей зависимостью от тестов, было установлено, улучшить практику ", выявляя различия в учителей учителей эффективности. Они используют протоколы систематических наблюдений с хорошо развитыми, научно обоснованных критериев для изучения преподавания, в том числе наблюдений или видеозаписей школьной практики, учителя интервью, а также артефакты, такие как планы уроков, задания и образцы студенческих работ. Довольно часто эти подходы включают несколько способов смотреть на обучения студентов с течением времени по отношению к инструкции учителя.

Оценка со стороны компетентных руководителей и коллег, использующих такие подходы, должны составлять основу системы оценки учителя, с дополнительной роли многочисленных мер прибыли обучения студентов, которые, в случае необходимости, может включать в себя результаты тестов. В некоторых районах нашли способы выявления, улучшения, и по мере необходимости, увольнять учителей с использованием стратегий как помощь сверстников и оценки, которые предлагают интенсивные наставничества и обзорные панели. Эти и другие подходы должны быть в центре внимания экспериментирования государств и районов.

Принятие недопустимый системы оценки учителя и привязать к поощрений и санкций, вероятно, приведет к неточным кадровых решений и деморализовать учителей, в результате чего талантливых учителей, чтобы избежать высоких потребностей студентов и школ, либо оставить профессию полностью и препятствовани- потенциально эффективных учителей от ввода его. Законодатели не следует санкционировать подход на основе тестирования для оценки учителей, которая является недоказанной и может нанести вред не только учителей, но и детей, которых они инструктируют.

Введение

Каждый класс должен иметь хорошо образованный, профессиональный преподаватель. Для того чтобы это произошло, школьные системы должны набирать, подготовки и удержания преподавателей, которые имеют право выполнять работу. После того, как в классе, учителя должны быть оценены на регулярной основе в справедливой и систематической основе. Эффективные преподаватели должны быть сохранены, а те, с излечимых недостатками следует руководствоваться и обучение дальше. Неэффективные учителей, которые не улучшают должны быть удалены.

На практике, американские государственные школы как правило, делают плохую работу по систематической разработки и оценки учителей. Школьные округа часто не в рамках усилий по повышению эффективности работы менее эффективных учителей, а если это невозможно, удалять их. Принципалы обычно имеют слишком широкий диапазон контроля (часто контролирующий как минимум 30 учителей), и слишком мало времени и подготовки, сделать адекватную работу по оценке и поддержке учителей. Многие руководители сами не готовы оценить учителей они контролируют. Требования соблюдением надлежащей правовой процедуры в области государственного права и союзных договоров иногда настолько громоздки, что прекращение неэффективных учителей может быть довольно трудно, за исключением самых крайних случаев. Кроме того, некоторые критики считают, что типичные системы компенсации учителя предоставить учителям недостаточные стимулы для повышения их эффективности.

В ответ на эти предполагаемые неудачи нынешней политики учителей, администрация Обамы призывает государства в большей степени использовать результаты испытаний студентов, чтобы определить учителя зарплаты и стажем работы. Некоторые сторонники этого подхода ожидают предоставление основанных на результатах финансового вознаграждения, чтобы побудить учителей работать больше, и тем самым повысить их эффективность в деле повышения успеваемости учащихся. Другие ожидают, что видимая объективность тестов на основе показателей эффективности учителей позволит оперативное удаление неэффективных учителей из профессии и будет поощрять менее эффективные учителей уйти в отставку, если их зарплата застаивается. Некоторые считают, что перспектива повышения заработной платы для лучшей производительности будет привлекать более эффективных учителей к профессии и что гибкая шкала заработной платы, основанные частично на основе тестирования мер эффективности, позволит сократить истощение более квалифицированных учителей, чья приверженность к обучению будет укрепить перспективой больших финансовых наград за успех.

Поощрения от администрации и давления со стороны сторонников уже привели некоторые государства принять законы, которые требуют большей зависимости от тестирования студентов баллов в оценке, дисциплины и компенсации учителей. Другие государства рассматривают такую ​​возможность.

Выводы и Рекомендации

Используется с осторожностью, моделирование на добавленную стоимость может добавить полезную информацию для всестороннего анализа успеваемости студентов и могут помочь поддержать более сильные выводы о влияний учителей, школ и программ по росту числа студентов.

Мы начали с того отметив, что некоторые сторонники использования тестов студент оценки для оценки учителей считают, что делать это будет легче уволить неэффективных учителей. Тем не менее, из-за широкого согласия техническими экспертами, что тестовые студент оценки сами по себе не является достаточно надежным и действительным показателем эффективности учителей, любой школьный округ, что основывает увольнение учителя на результаты тестов своих учеников, скорее всего, столкнется с перспективой drawn- вне и дорогостоящий арбитраж и / или судебные процессы, в которых эксперты будут вызваны для дачи показаний, что делает район вряд ли преобладать. Проблема, что сторонники надеялись решить останется, и, возможно, может быть усилено.

Там просто нет быстрого доступа к выявлению и устранению неэффективных учителей. Это, безусловно, должно быть сделано, но такие действия вряд ли будут успешными, если они основаны на чрезмерной зависимости от тестирования студентов баллов, чьи недостатки могут так легко обеспечить основу для успешных вызовов каких-либо действий персонала. Районы, стремящиеся удалить неэффективные учителя должны инвестировать время и ресурсы в комплексном подходе к оценке, которая включает конкретные шаги по улучшению работы учителей на основе профессиональных стандартов учебной практики и недвусмысленной доказательств об увольнении, если не произойдет улучшения.

Некоторые политики, признавая неспособность справедливо определить эффективные или неэффективные учителей путем тестов своих учеников, предположили, что низкие результаты тестов (или оценки добавленной стоимости) должен быть "спусковым крючком", что требует дальнейшего изучения. Хотя такой подход, кажется, позволяет для нескольких средств оценки, на самом деле 100% от веса в триггера результаты тестов. Таким образом, все стимулы к искажению инструкции будут сохранены, чтобы избежать идентификации с помощью триггера, а также другие средства оценки будут входить в систему только после того, как будет слишком поздно, чтобы избежать этих искажений.

В то время как те, кто оценивает учителя могли взять тестовые баллы студента с течением времени во внимание, что они должны быть полностью осведомлены об их ограничениях, и такие оценки должны быть только один элемент среди многих рассматривается в профилях учителей. В некоторых штатах в настоящее время рассматривают планы, которые бы дать столько, сколько 50% от веса в оценке учителя и компенсационных решений, оценки существующих тестов низкого качества базовых навыков в математике и чтении. Основываясь на доказательствах, мы рассмотрели выше, мы считаем это неразумно. Если качество, охват и разработка стандартизированных тестов было улучшение, некоторые проблемы будут решены, но серьезные проблемы атрибуции и неслучайной присвоением студентов, а также практические проблемы, описанные выше, будут по-прежнему выступают за серьезные лимиты на использование тестов для оценки учителей.

Хотя некоторые сторонники утверждают, что по общему признанию, несовершенные меры с добавленной стоимостью являются предпочтительными для существующих громоздких мер по выявлению, ликвидацию или увольнение неэффективных учителей, этот аргумент создает ложную дихотомию. Это подразумевает, что существует только два варианта оценки учителей-безрезультатный существующую систему или глубоко порочную систему на основе тестирования.

Тем не менее, есть много альтернатив, которые должны быть предметом экспериментов. Департамент образования должен активно поощрять государства экспериментировать с различными подходами, которые отличаются в том, как они оценивают учителя практики и изучать вклад учителей к обучению студентов. Эти эксперименты должны все быть в полной мере оценены.

Там нет идеального способа оценки учителей. Тем не менее, прогресс был достигнут за последние два десятилетия в области разработки, основанные на стандартах оценки педагогической практики, и исследования показали, что использование таких оценок некоторых районов не только обеспечил более полезные свидетельства о педагогической практике, но также было связано при этом прибыли успеваемости учащихся и помогает учителям улучшить свою практику и effectiveness.61 Структурированные оценки деятельности учителей, как те, которые предлагаются Национальным советом по профессиональным стандартам преподавания и начало системы оценки учителя в Коннектикуте и Калифорнии были также найдены предсказать эффективность учителя на меры с добавленной стоимостью и для поддержки учителей.62

Эти системы для наблюдения в классе практики учителей основаны на профессиональных стандартах обучения основана на проведении исследований по преподаванию и обучению. Они используют протоколы систематических наблюдений с хорошо развитыми, научно обоснованных критериев для изучения преподавания, в том числе наблюдений или видеозаписей школьной практики, учителя интервью, а также артефакты, такие как планы уроков, задания и образцы студенческих работ. Довольно часто эти подходы включают несколько способов смотреть на обучения студентов с течением времени по отношению к инструкции учителя.

Оценка со стороны компетентных руководителей и коллег, использующих такие подходы, должны составлять основу системы оценки учителя, с дополнительной роли многочисленных мер прибыли обучения студента, который, в случае необходимости, должны включать в себя результаты тестов. Учитывая важность коллективных усилий учителей в целях улучшения общего успеваемости учащихся в школе, дополнительный компонент документирования практики и результаты должны быть сосредоточены на эффективности участия учителей в командах и вклад, который они делают в школу в масштабах улучшения, через работу в учебной программе развития, практики совместного использования и материалов, обучение сверстников и взаимное наблюдение и коллегиальным работа со студентами.

В некоторых районах, помощь со стороны сверстников и обзор программ, использующих оценки на основе стандартов, которые включают доказательства обучения студентов, при поддержке опытных учителей, которые могут предложить интенсивную помощь, а также панелей администраторов и преподавателей, которые осуществляют надзор кадровых решений, добились успеха в тренерской учителей, выявления учителей для вмешательства, предоставляя им помощь, и эффективно консультировать из тех, кто не improve.63 в других странах, комплексные системы были разработаны для изучения работы учителей в согласии со свидетельствами о результатах для целей принятия решений персоналом и compensation.64

Учитывая ряд мер, в настоящее время для оценки учителей, а также необходимость в проведении исследований об их эффективной реализации и последствий, законодательные органы должны избегать навязывания санкционированных решения сложной проблемы определения более и менее эффективных учителей. Школьные округа должна быть предоставлена ​​свобода экспериментировать, и профессиональные организации должны взять на себя большую ответственность за разработку стандартов оценки, что районы могут использовать. Такая работа, которая должна выполняться профессиональными специалистами, не должны быть Вытеснено политическими институтами, действующими без доказательств. Правило следуют любой реформатор государственных школ должно быть: "Во-первых, не навреди".

Как и в любой профессии, которая требует практики и судебных решений, точности и совершенства в оценке учителя, не удастся никогда. Эксперты могут счесть полезным принять критерий студенческой оценки информации, учитывать в своих оценках преподавателей, при условии, такая информация встраивается в более комплексный подход. Что сейчас необходимо - это комплексная система, которая дает учителям рекомендации и замечания, поддерживающее лидерство, и условия работы, чтобы улучшить свои показатели, и это позволяет школах, чтобы удалить назойливого учителя, неспособные без искажения всю учебную программу путем введения порочной системы стандартизированной количественной оценки качества учителем.

Использованные источники

 

1. Dee and Jacob 2009, p. 36.

2. Rothstein, Jacobsen, and Wilder 2008, pp. 93-96.

3. Jauhar 2008; Rothstein, Jacobsen, and Wilder 2008, pp. 83-93.

4. Darling-Hammond 2010.

5. Baldi et al. 2007.

6. For a further discussion, see Ravitch 2010, Chapter 6.

7. Rubin, Stuart, and Zanutto 2004, p. 113

8. McCaffrey et al. 2004, p. 96.

9. McCaffrey et al. 2003, p. xx.

10. Braun 2005, p. 17.

11. BOTA 2009.

12. Braun, Chudowsky, and Koenig, 2010, p. vii.

13. Some policy makers seek to minimize these realities by citing teachers or schools who achieve exceptional results with disadvantaged students. Even where these accounts are true, they only demonstrate that more effective teachers and schools achieve better results, on average, with disadvantaged students than less effective teachers and schools achieve; they do not demonstrate that more effective teachers and schools achieve average results for disadvantaged students that are typical for advantaged students.

14. In rare cases, more complex controls are added to account for the influence of peers (i.e., the proportion of other students in a class who have similar characteristics) or the competence of the school’s principal and other leadership.

15. This taxonomy is suggested by Braun, Chudowsky, and Koenig 2010, pp. 3ff.

16. Rothstein 2010; Newton et al. forthcoming; Lockwood et al. 2007; Sass 2008.

17. Krueger 2003; Mosteller 1995; Glass et al. 1982.

18. For example, studies have found the effects of one-on-one or small group tutoring, generally conducted in pull-out sessions or after school by someone other than the classroom teacher, can be quite substantial. A meta-analysis (Cohen, Kulik, and Kulik 1982) of 52 tutoring studies reported that tutored students outperformed their classroom controls by a substantial average effect size of .40. Bloom (1984) noted that the average tutored student registered large gains of about 2 standard deviations above the average of a control class.

19. Newton et al., forthcoming.

20. Newton et al., forthcoming.

21. McCaffrey et al. (2004, p. 67) likewise conclude that “student characteristics are likely to confound estimated teacher effects when schools serve distinctly different populations.”

22. Poor measurement of the lowest achieving students has been exacerbated under NCLB by the policy of requiring alignment of tests to grade-level standards. If tests are too difficult, or if they are not aligned to the content students are actually learning, then they will not reflect actual learning gains.

23. Newton et al., forthcoming; Sass 2008; Schochet and Chiang 2010; Koedel and Betts 2007.

24. Rothstein 2010.

25. Schochet and Chiang 2010.

26. Sass 2008; Lockwood et al. 2007; Newton et al., forthcoming.

27. Newton et al., forthcoming; Rothstein 2010.

28. Braun 2005.

29. Sass 2008, citing Koedel and Betts 2007; McCaffrey et al. 2009. For similar findings, see Newton et al., forthcoming.

30. McCaffrey et al. 2009.

31. Diamond and Cooper 2007.

32. Koretz 2008b, p. 39.

33. See endnote 19, above, for citations to research on the impact of tutoring.

34. Downey, von Hippel, and Hughes 2008.

35. Heller, Downey, and von Hippel, forthcoming.

36. Alexander, Entwisle, and Olson 2007.

37. Cooper et al. 1996.

38. Although fall-to-spring testing ameliorates the vertical scaling problems, it does not eliminate them. Just as many topics are not taught continuously from one grade to another, so are many topics not taught continuously from fall to spring. During the course of a year, students are expected to acquire new knowledge and skills, some of which build on those from the beginning of the year, and some of which do not.

39. To get timely results, Colorado administers its standardized testing in March. Florida gave its writing test last year in mid-February and its reading, mathematics, and science tests in mid-March. Illinois did its accountability testing this year at the beginning of March. Texas has scheduled its testing to begin next year on March 1. Advocates of evaluating teachers by students’ fall-to-spring growth have not explained how, within reasonable budgetary constraints, all spring testing can be moved close to the end of the school year.

40. This formulation of the distinction has been suggested by Koretz 2008a.

41. McMurrer 2007; McMurrer 2008.

42. GAO 2009, p. 19.

43. For a discussion of curriculum sampling in tests, see Koretz 2008a, especially Chapter 2.

44. Medina 2010.

45. This argument has recently been developed in Hemphill and Nauer et al. 2010.

46. Hirsch 2006; Hirsch and Pondiscio 2010.

47. For discussion of these practices, see Ravitch 2003.

48. There is a well-known decline in relative test scores for low-income and minority students that begins at or just after the fourth grade, when more complex inferential skills and deeper background knowledge begin to play a somewhat larger, though still small role in standardized tests. Children who are enabled to do well by drilling the mechanics of decoding and simple, literal interpretation often do more poorly on tests in middle school and high school because they have neither the background knowledge nor the interpretive skills for the tasks they later confront. As the grade levels increase, gaming the exams by test prep becomes harder, though not impossible, if instruction begins to provide solid background knowledge in content areas and inferential skills. This is why accounts of large gains from test prep drill mostly concern elementary schools.

49. Lee 2006.

50. An example of a “constructed response” item might be a math problem for which a student must provide the correct answer and demonstrate the procedures for solving, without being given alternative correct and incorrect answers from which to choose. An example of an “open-ended response” might be a short essay for which there is no single correct answer, but in which the student must demonstrate insight, creativity, or reasoning ability.

51. Although less so than state standardized tests, even NAEP suffers from an excessive focus on “content-neutral” procedural skills, so the faster growth of state test scores relative to NAEP scores may understate the score inflation that has taken place. For further discussion of the attempt to make NAEP content-neutral, see Ravitch 2003.

52. Bryk and Schneider 2002; Neal 2009, pp. 160-162.

53. Jackson and Bruegmann 2009.

54. Goddard, Goddard, and Tschannen-Moran 2007.

55. Incentives could also operate in the opposite direction. Fifth grade teachers being evaluated by their students’ test scores might have a greater interest in pressing fourth grade teachers to better prepare their students for fifth grade. There is no way, however, to adjust statistically for a teacher’s ability to pressure other instructors in estimating the teacher’s effectiveness in raising her own students’ test scores.

56. See, for example, Lazear 1989.

57. Anh 2009.

58. Feng, Figlio, and Sass 2010; Finnigan and Gross 2007.

59. Rothstein, Jacobsen, and Wilder 2008, 189-190.

60. Rothstein, Jacobsen, and Wilder 2008, 50.

61. Milanowski, Kimball, and White 2004.

62. See for example, Bond et al. 2000; Cavaluzzo 2004; Goldhaber and Anthony 2004; Smith et al. 2005; Vandevoort, Amrein-Beardsley, and Berliner 2004; Wilson and Hallam 2006.

63. Darling-Hammond 2009; Van Lier 2008.

64. Denver’s Pro-comp system, Arizona’s Career Ladder, and the Teacher Advancement Program are illustrative. See for example, Solomon et al. 2007; Packard and Dereshiwsky 1991.

65. Eva L. Baker, Paul E. Barton, Linda Darling-Hammond, Edward Haertel, Helen F. Ladd, Robert L. Linn, Diane Ravitch, Richard Rothstein, Richard J. Shavelson, and Lorrie A. Shepard. Problems with the Use of Student Test Scores to Evaluate Teachers