Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие по диагностике ИР.doc
Скачиваний:
19
Добавлен:
26.11.2018
Размер:
899.58 Кб
Скачать

2. Профессиональная ответственность диагноста при разработке и проведении тестирования в школе

2.1 Критерии оценки качества тестов.

При разработке тестовых заданий и отборе для психодиагностического обследования готовых тестов необходимо руководствоваться основными критериями эффективность диагностических методик Умение разрабатывать эффективные тесты, проводить психодиагностическое обследование и строить на основе его коррекционно-развивающие занятия требует практики. К тому же знание профессионально-этических принципов психодиагноста не свидетельствует еще об их действенном применении на практике. Поэтому необходима отработка навыка профессионала-психодиагноста с высоким уровнем ответственности за разработку и проведение психодиагностического обследования.

Научно обоснованный тест - это метод, соответствующий установленным стандартам надежности и валидности. В требованиях проверки теста на надежность и валидность реализуется важная идея методологического характера, выдвинутая довольно давно, еще Р.Бэконом - к истинному знанию ведет лишь истинный метод. Таким образом, качество педагогической информации оказывается зависимым от качества используемого для этого инструментария.

Традиционно выделяются два основных критерия качества тестов. Первый из них связан с понятием точности измерений и известен, главным образом, в виде понятия надежности теста.

Надежность тестов. Существует несколько практических способов определения надежности теста. Самый безупречный со статистической точки зрения метод определения надежности - это коррелирование двух параллельных тестов, созданных для измерения одного и того же свойства. Однако этот метод применяется чрезвычайно редко либо по причине обычного отсутствия параллельных тестов, либо несоответствия имеющихся вариантов строгим требованиям параллельности. Введенное в последние годы компьютерное предъявление заданий с изменяющимися в случайном порядке значениями аргумента вновь возродило интерес к созданию параллельных тестов с оценкой их надежности посредством коррелирования. Чем выше коэффициент корреляции между двумя такими тестами, тем выше надежность теста.

Наиболее понятный и простой способ определения надежности теста - это двукратное, по меньшей мере, использование одного и того же теста в той же самой группе учащихся. Результаты двух испытаний ( если они не анонимные ) коррелируются. На основании проведения данного теста получают оценку так называемой ретестовой надежности. По показателю ретестовой надежности судят, насколько стабильны результаты тестирования по времени. Но здесь следует отметить, что промежуток между двумя тестированиями должен быть не слишком большим и не слишком маленьким и кроме того, оценка ретестовой надежности имеет смысл только тогда, когда предполагается, что степень усвоения учебного материала стабильна во времени ( 2, 14, 15).

Метод повторного тестирования имеет достоинства и недостатки. Достоинства заключаются в сравнительной простоте его использования, ясности основных посылок, лежащих в определении надежности, простоте расчетов. К недостаткам можно отнести неопределенность в выборе временного интервала между первым и вторым опросами. Этот интервал может колебаться от нескольких минут до нескольких дней, месяцев и даже лет.

Результаты применения метода повторного тестирования с последующим коррелированием можно и нужно контролировать следующими методами.

Первый метод контроля - это визуальный осмотр данных двух измерений с целью определения того, изменились ли результаты во втором испытании или нет. Если явного изменения нет, то данные проверяются статистическими методами. Для этого надо рассчитать средние арифметические результаты M1 и M2 , проверить статистическую значимость их различий. Если M1 достоверно отличается от M2 , то несмотря на высокую корреляцию, говорить здесь можно не только о воспроизводимости результатов, сколько о воспроизведении порядка, в котором распределены учащиеся. Еще один метод контроля - расчет дисперсий тестовых баллов первого и второго опросов и проверка достоверности их различий. Этот метод наиболее распространен из-за того, что он позволяет оценить надежность теста при однократном тестировании.

Рассмотренные выше методы оценки надежности теста применимы только к гомогенным тестам. Проблема оценки надежности заметно осложняется в гетерогенных тестах, состоящих из ряда гомогенных тестов. Осложнение вызвано главным образом некоррелируемостью (или слабой коррелируемостью) гомогенных тестов между собой. Соответственно ответы учеников на задания одного гомогенного теста, как правило, редко коррелируют с ответами на задания другого. Отсутствие же корреляции снижает надежность теста в целом.

Основа всех известных методов построения тестов ( шкал) заключается в том, что если все задания теста измеряют один и тот же признак, то для фиксированного их числа чем больше корреляция между ними, тем более надежен тест.

Надежность - необходимый, но не достаточный критерий качества теста. Другим необходимым критерием служит валидность.

Валидность тестов. Как отмечает А. Анастази (2), валидность теста это поня­тие, которое указывает что измеряет тест и насколько хорошо он это делает.

В этом случае возникает вопрос: как мы узнаем, что тест измеряет то, для чего он предназначен?

Валидность любого используемого теста можно попытаться оценить с позиций нормативного типа мышления, при котором любой результат должен быть соотнесен с нормой, и, уже исходя из нее оцениваться как хороший или плохой. Если нет нормы, то трудно сказать, что означает, например, полученный испытуемым в каком-либо тесте балл 35 - хорошо это или плохо? Если же известно, что нормой является 25 баллов, то картина ясна.

Тест может быть валидным, если помимо прочих требований средние результаты соответствуют большей части учащихся школы, а сами данные распределяются по нормальному закону. Если это условие не выполняется, то тест считается не валидным с точки зрения соответствия стандартам распределения. Именно отсюда проистекает стремление создателей теста добиваться нормальности распределения за счет варьирования числа легких и трудных заданий.

Если в тесте нет достаточного числа легких и трудных заданий, то возникает вопрос его сбалансированности по трудности, суть которой кратко можно свести к тому, что обычно в тесте должно быть побольше заданий средней трудности и несколько меньше откровенно легких или трудных заданий.

Трудность заданий влияет на надежность и валидность. Если тест очень трудный, то учащиеся чаще вынуждены догадываться - какой ответ правильный. И чем чаще они прибегают к догадке, тем больше распределение результатов теста приближается к случайному распределению. Поэтому пригодность теста для оценки всей массы учащихся будет тем ниже, чем труднее тест. Такое же влияние на надежность - но по другой причине - оказывает легкий тест, в котором учащиеся, наооборот, догадываются мало, их ответы устойчивы, но почти нет различий между испытуемыми.

Валидность теста существенно снижается из-за снижения его различающей способности. Если 10 человек в группе получают «отлично», такая оценка не позволяет различать, кто из 10 лучше, а кто несколько хуже знает предмет. Различающая способность теста тем выше, чем меньше одинаковых оценок учащиеся по нему получают.

Валидность теста связана, помимо прочего, с понятиями «гомогенный и гетерогенный тест». Если тест создан с целью проверки знаний по одной учебной дисциплине и все вопросы теста связаны именно с ней, то такой тест считается гомогенным, а значит и валидным для этой частной цели. Например, тест по алгебре, не содержащий заданий по другим разделам математики, можно назвать гомогенным. Но гомогенность - понятие относительное, потому что в курс алгебры входит много разделов - многочлены, линейные уравнения, неравенства и т.д. Поэтому в более чистом виде гомогенный тест представляет собой тест для изучения знаний по какому-либо частному разделу программы.

Для комплексной оценки знаний учащихся может быть составлен тест, состоящий из вопросов по нескольким дисциплинам. Это пример гетерогенного теста, который состоит из группы гомогенных тестов. Соответственно такой тест является валидным именно для комплексной оценки. Он не пригоден, в силу избыточности, для оценки знаний по отдельной дисциплине. В таких случаях гетерогенный тест разделяется и используется только та его часть (шкала), которая непосредственно отвечает поставленной цели.

Валидность теста зависит и от так называемой длины теста. Под длиной теста понимается количество заданий, входящих в тест. Существуют тесты очень короткие, состоящие из 7-15 заданий, и очень длинные, состоящие из более чем 500 заданий.

Если тест очень длинный, то ухудшается мотивация и внимание у испытуемых, а это снижает надежность и валидность. Практика показывает, что если тестирование занимает более полутора часов, то при этом возникают организационные проблемы, испытуемые с неохотой соглашаются отвечать на вопросы теста. С другой стороны, с точки зрения теории, чем тест длиннее, тем он надежнее. Возникающее противоречие между теорией и практикой решается компромиссом, в ту или другую сторону, в зависимости от конкретного случая.

Если теоретически надежность теста возрастает с увеличением количества заданий, то практически длину теста следует определить опытным путем, с учетом коэффициента валидности и ряда факторов, таких как время, организационные возможности, стоимость и др. В общем случае, чем длиннее тест, тем больше условий для снижения мотивации испытуемых, усталости и других причин психологического характера.

Валидность теста зависит еще и от расположения заданий в тесте. Существует практика расположения заданий :

  1. По степени возрастания трудности. Такое расположение характерно в основном для гомогенных тестов. Для гетерогенных тестов сохранение этого принципа выражается в так называемой «спиральной» форме расположения заданий. Например, если имеется гетерогенный тест по психологии, состоящий из заданий по общей психологии, возрастной и педагогической психологии, то первые три вопроса следует составить самые легкие по этим дисциплинам, следующие труднее, но опять по одному по каждой дисциплине и т.д.

  2. В случайном порядке. Этот способ расположения широко применяется в психологических тестах. Исключение обычно делается для первого и последнего вопросов, которые могут отбираться специально, из соображений большей понятности, удобства, интереса и т.д.

  3. В специальном порядке, в соответствии с какой-либо теорией, соображениями переноса навыков, концетрации внимания и др.

  4. В порядке, сочетающем специальный и случайный подбор.

Обычно это делается в гетерогенных тестах. Например, в тесте вопросы 15, 25, 35, 45, 55 и т.д. из одной шкалы, а скажем вопросы - 30, 40, 50 ,60, 70 и т.д. - из другой. В психологических тестах на эти номера вопросы каждой шкалы рассыпаются в случайном порядке, в педагогических - в порядке возрастания трудности. Такое построение гетерогенного теста удобно для запоминания шкал и для обработки результатов.

Методы валидизации тестов. Существует несколько подходов к валидизации тестов, различающиеся в зависимости от используемых критериев. В педагогической практике наибольшее распространение в последние годы получили такие тесты, валидность которых не требуется доказывать эмпирически: в таких тестах критерием их пригодности является само содержание теста, одобренное опытными преподавателями - экспертами. При этом у преподавателя должна быть уверенность в том, что:

-вопросы теста находятся в соответствии с программой;

-вопросы теста охватывают не один какой-либо раздел, а всю программу курса;

-высока вероятность того, что учащийся, успешно ответивший на вопросы теста, знает предмет в соответствии с полученной оценкой.

Если в результате статистической проверки выявляется, что ответы на вопросы теста вполне обоснованно позволяют судить о знаниях учащихся, то считается, что тест содержит валидные вопросы; он валиден по содержанию. Требование валидности по содержанию предъявляется к каждому вопросу теста, мерой валидности является коэффициент корреляции ответов по вопросу с критерием. При создании теста в качестве критерия обычно берутся оценки, выставляемые учащимся группой преподавателей -экспертов без тестов. Результаты учащихся по вопросам теста и по оценкам экспертов коррелируются. Высокая согласованность оценок по тесту у экспертов указывает и на высокую валидность.

Другой способ валидизации тестов утвердился в психологической науке. Суть его заключается в том, что для объяснения каких-либо психологических характеристик или свойств личности создается концептуальная модель, которая затем с помощью тестов либо подтверждается, либо опровергается, полностью или частично. В случае подтверждения тест считается валидным (пригодным) для исследования того, что он задуман измерять в соответствии с моделью.

Еще один метод валидизации тестов является основным в работе по профотбору и профориентации. Испытуемым обычно дается набор тестов - так называемая батарея и по результатам тестирования делается прогноз о вероятной успешности того или иного абитуриента. Если прогноз подтверждается, то это означает, что применявшиеся тесты имеют прогностическую ценность, то есть они валидны для отбора. Мерой валидности каждого теста служит коэффициент корреляции с критерием. В качестве критерия валидности могут выступать различные показатели.

Оценка качества тестов. Тест как инструмент исследования может в зависимости от различных условий и факторов показывать различную надежность. Отсюда следует, что нет единой и раз навсегда установленной надежности и валидности теста. В каждом отдельном исследовании рекомендуется проверять качество теста и лишь на этой основе делать выводы о достоверности данных.

К показателям надежности, как и валидности, предъявляются определенные требования.

Совсем мало тестов, имеющих валидность выше 0.80; с другой стороны, в практике широко применяются тесты, имеющие низкую валидность. Повышение надежности отнюдь не обязательно приводит к повышению валидности. По А. Анастази (2) валидность оп­ределяется репрезентативностью теста относительно измеряе­мой области поведения.

Тест может иметь отличную надежность и в то же время быть совсем неудовлетворительным по валидности. Интерпретировать это обстоятельство можно примерно так: тест представляет собой довольно точный инструмент, но этот инструмент не годится для изучения того, что им пытаются измерить. С другой стороны, если тест валидный, то одно это уже предполагает достаточную надежность теста, так как он не может быть валидным, не будучи надежным.

Так же, как нет единой, раз навсегда установленной надежности теста, так нет и единой валидности теста. В научных публикациях наряду с информацией о коэффициенте валидности теста, необходимо сообщать о способе его валидизации.

Итак, профессиональную ответственность за тесты, отвечающие критериям эффективности, несут авторы разрабатываемых диагностических методик. Не меньшая ответственность ложится на тех, кто проводит тестирование в системе образования.