Система оценки качества тестов и опросников

Тесты и опросники должны удовлетворять определенным требованиям. В пятидесятые годы была опубликована первая книга Американской психологической ассоциации, содержавшая Стандарты для тестирования в образовании и психологии (1954). В 1950 Гулликсен опубликовал книгу по теории тестов. В результате переработки классической теории тестов он сформулировал повышенные требования к «хорошим» тестовым методам. Последняя ревизия «Стандартов» была осуществлена в 1985 г. Стандарты значительно пополнили перечень критериев для оценки тестов, практики тестирования и эффективности применения. Ожидалось, что в ревизии 1985 г. будет присутствовать современная теория тестов. Но этого не произошло. В числе критиков (Hambleton,1986) оказались удивленные психометристы: новые «Стандарты» были только что подготовлены, и можно было ожидать, что в этой ревизии будут представлены ориентиры, задаваемые современной теорией тестов.
«Стандарты» в ревизии 1985 г. содержали классические разделы надежности, измерения погрешностей (в классической теоретической ориентации), нормы, шкалы и требования к руководству по проведению тестов. Обновление по отношению к предшествующему опыту выразилось в дифференциации части «Стандартов» для различных практических сфер деятельности. Профессиональные сферы деятельности оказались настолько отличными друг от друга, что стало правомерным введение разных «Стандартов». Возможно также, что руководили этим разделением сами представители профессиональных сфер. «Стандарты» с небольшими различиями были приведены для клинической, педагогической психологии и психологии управления.
«Стандарты» 1974 г. использовались в Нидерландах для разработки системы оценки тестов и опросников. Эти стандарты были переведены на язык характеристик теста, наличие или отсутствие которых можно было оценивать. Имелось пять категорий, каждая из которых включала определенный круг вопросов. Качество ответа на каждый вопрос могло быть хорошим, удовлетворительным и неудовлетворительным. Анализ системы по категориям позволил каждую из них квалифицировать как хорошую, удовлетворительную и неудовлетворительную. Вот эти категории:

1. Цели конструирования теста. Данная категория охватывает вопросы, связанные с применением теста, теоретическими источниками конструкта и релевантностью содержания теста. Эта категория должна включать положение об основном предназначении теста.

2. Структура теста, качество его материалов и руководства. Данная категория связана с системой подсчета, эффективностью теста и его материалов (брошюра к тесту, ключи, время тестирования), со стандартизацией, четкостью инструкции и интерпретацией результатов.

3. Нормы. Эта категория связана с качеством норм. Представительны ли нормы для данной популяции? Нормы, полученные на представительных выборках, используются для интерпретации показателей. В классическом варианте тестов репрезентативность норм опирается на довольно широкие, общие группы. Новые «Стандарты» (1985) более прагматичны и рекомендуют получение норм для специфических групп.

4. Надежность. Эта категория требует наличия результатов исследования с помощью параллельных тестов (Гулликсеновское определение надежности), внутренней согласованности, тест-ретестовой надежности, сравнения экспертных оценок. Подчеркивается чувствительность коэффициентов к разнообразию выборок.

5. Валидность. Эта категория ориентирована на корреляции показателей теста и конструктную валидность. В отношении последней допускается, что конструкт является элементом номологической сетки, так что его внешняя и внутренняя структура эксплицируемы и, следовательно, поддаются эмпирической проверке.

Как отмечалось выше, каждая категория включает определенный набор вопросов, в соответствии с которыми система квалифицирует эту категорию как «хорошую, удовлетворительную и неудовлетворительную». Систему оценки можно продемонстрировать лишь на примере использования ее в конкретном тесте. Результаты исследования теста должны быть доступными.

В следующем разделе в качестве примера использования такой системы приводится разработка новой голландской версии WISC-R (Векслеровской шкалы интеллекта для детей).

Оценка качества WISC-R
Ниже приводится оценка WISC-R по пяти приведенным выше категориям. Этот тест используется часто. В 1981 г.в Нидерландах группа голландских и фламандских психологов приступила к новой адаптации теста. Руководство к нему было опубликовано в 1986/1991 гг. Оценка тестов обсуждается в голландском руководстве — «Документация по тестам и исследованиям тестов» (Evers, Van Vliet-Mulder, Ter Laak, 1992). Адаптация WISC-R обеспокоила практических психологов отчасти более высокими нормами. Новые показатели привели к распределению детей по школам разного уровня сложности обучения.
Оценки, приведенные ниже, согласуются с оценками «Документации» (1992). Результаты одинаковые. С помощью приводимых ниже примеров нам хотелось бы продемонстрировать применение системы и высказать некоторые предложения по ее использованию.
Категория 1: теоретическая основа векслеровской шкалы интеллекта для детей. Авторы руководства опирались на публикации Векслера, представляя теоретическое обоснование теста. И тест, и его направленность настолько хорошо известны, что нет необходимости описывать ни цели его использования, ни историю создания. Вдобавок тест разрабатывался для удовлетворения практической потребности в простом тесте, пригодном для широкого применения. Однако в 1955 г. Векслер высказал некоторые дополнительные соображения относительно применения теста. Согласно его наблюдениям интеллект обнаруживает себя в нескольких различных формах поведения. В достижениях по тестам интеллекта играют роль как интеллектуальные, так и неинтеллектуальные факторы (например, произвольный контроль и эмоциональная уравновешенность). Векслер работал клиническим психологом в большом госпитале Белльвью в Нью-Йорке и был убежден, что личностные характеристики (мотивация, эмоциональность, любознательность, депрессивность и т.д.) влияют на показатель IQ. Он предпочел не ограничивать измерение интеллекта одним его важным аспектом, например, абстрактным мышлением. По мнению Векслера, интеллект предполагает наличие нескольких различных факторов, находящихся в иерархических отношениях. Интеллект рассматривается как способность наиболее высокого порядка. Интеллект проявляется в целенаправленном действии. По словам Векслера, в операциональном плане интеллект определяется как совокупная или глобальная способность индивида целенаправленно действовать, мыслить рационально и справляться с проблемами в собственном окружении. Исходя из этого, Векслер отбирал задачи, которые коррелируют с проявлениями интеллекта, например, со школьными достижениями и профессиональным образованием. Он задался вопросом, какие интеллектуальные и неинтеллектуальные виды способностей приводят к этим достижениям. Задачи должны быть разными, привлекать легкостью подсчета ответов и надежностью оценки. Были добавлены «хорошие» (правильные) ответы, и полученные показатели позволили создать картину сильных и слабых сторон личности. Самое первое (по времени возникновения) разделение общего показателя IQ касалось показателя вербального интеллекта и показателя «интеллекта действия» (невербального интеллекта). Их корреляция составляла около 0,70. Конечно, независимых ортогональных факторов не существует и их невозможно интерпретировать как таковые. Второй часто используемой классификацией являются факторы, предложенные Кауфманом: вербальные способности, перцептивная организация, сосредоточенность и общий интеллект (см. Kaufman, 1976). В пятой главе мы останавливались на недостатках интерпретации профилей. В данной голландской версии WISC—R на первой странице нет результатов субтестов, на основе которых строится графический профиль. Это сделано для предотвращения интерпретации сильных и слабых сторон интеллекта. Субтесты не обладают факторной валидностью. У Векслера интеллект толкуется как глобальная способность. Общий показатель признается хорошим индикатором интеллекта. По этому показателю можно предсказать адаптацию в ограниченном, но важном круге ситуаций — школьном и профессиональном образовании, на работе. Составление профиля не поощряется, но и не возбраняется. Разработка теоретической основы теста включает три вопроса. Четко определен вопрос о назначении теста. Тест используется для прогноза, и конструкт его более или менее разработан. Однако он включен в номологическую сеть не настолько четко, чтобы можно было эту сеть валидизироватъ. Подтверждена релевантность содержания теста. Поражает, что многие задания заимствованы из шкалы Бине-Симона. Голландская и фламандская редакции особое значение придают конструктной валидности. Однако тест будет неизбежно использоваться и для прогноза. В целом тест можно оценить на «хорошо».
Категория 2: качество материалов и руководства. В упомянутых ревизиях тестов были тщательно проверены все задания. Система подсчета отличается достаточной ясностью. Стимульные материалы хорошие. Таблицы норм для голландской и фламандской выборок являются общими. Проведение теста занимает значительное время. Несмотря на справедливость некоторой критики, категория должна быть квалифицирована как соответствующая оценке хорошо.
Категория 3: нормы. Нормы получены на выборке от 6 до 16 лет с возрастным интервалом в один год. Выборка репрезентативна. В каждую возрастную группу входит около ста семидесяти мальчиков и девочек. Имеются нормы для общего показателя IQ и отдельно для показателей вербального интеллекта и невербального интеллекта. Данные собраны в 1981 г. Ответы по девяти вопросам этой категории приводят в результате к оценке теста хорошо.
Категория 4: надежность. Внутренняя согласованность определялась с помощью различных методов. В большинстве случаев использовался коэффициент альфа Кронбаха. Вдобавок использовалась (2 (лямбда). Все коэффициенты высокие. Один субтест является тестом на скорость, для него вычислен коэффициент ретестовой надежности. Ни одно из значений не опускается ниже 0,85. Результаты оценки внутренней согласованности хорошие. Поражает, что почти ни одно руководство к тесту не дает необходимых показателей. Наннелли и Бернштейн (1994, стр. 264—265) являются исключением, и они сформулировали следующее эмпирическое правило. При коэффициенте 0,70 надежность признается умеренной, для исследований требуется коэффициент надежности 0,80, а для целей отбора едва достаточным минимумом надежности считается 0,90. Поразительно, что в характеристиках теста отсутствуют коэффициенты стабильности. Хотя можно понять, что повторный сбор данных — большая работа, необходимо иметь соответствующие коэффициенты ретестовой надежности. Выводы здесь опираются на семь вопросов, и существует компромисс между хорошей внутренней согласованностью и недостаточной стабильностью, поэтому оценку теста по этой категории можно определить как «удовлетворительную».
Категория 5: валидность. Названные ревизии теста сделали упор на конструктной валидности. Векслер не разработал номологическую сеть полностью, но с течением времени при анализе заданий интеллектуальных тестов накапливался соответствующий опыт. В редакциях теста использовались разные факторно-аналитические модели. Результаты анализа немного отличались, и авторы рекомендовали факторы Кауфмана. Это представляется разумным, потому что многие практики используют эти факторы. Конструктная валидность проанализирована в соответствии с принятыми правилами. Отсутствуют коэффициенты прогностической валидности. Имеются корреляции с другими интеллектуальными тестами. Эти коэффициенты приведены в новом разделе по валидности, но могут рассматриваться как данные по конструктной валидности. Как незначимые приводятся корреляции теста с чтением и арифметикой на первой и второй ступенях обучения. Квалификация теста по сумме тринадцати вопросов может быть только неудовлетворительной, поскольку первоначально тест использовался как прогностический. Требуется немного времени, чтобы получить соответствующие коэффициенты прогностической валидности. Тогда может быть дана другая квалификация.
Как упоминалось выше относительно коэффициентов надежности, в нескольких (немногочисленных) руководствах используются эмпирические правила ранжирования коэффициента прогностической корреляции. Можно было бы остановиться на том, что целью является достижение значимых корреляций. Однако у исследователя обычно более высокие запросы. Он стремится объяснить большую часть дисперсии. Что это такое — «большая» часть? Наннелли и Бернштейн (1994, стр. 99—100) замечают, что эмпирически найденные корреляции редко бывают выше, чем 0,30—0,40. В какой-то степени это разочаровывает, но авторы находят некоторое утешение в сравнении с достижениями других наук: Например, тест способности к школьному обучению не менее прогностичен для ступеней колледжа, чем метеорологический прогноз погоды на ближайшие десять дней.
Этот раздел посвящен системе оценки тестов. Категории и пункты такой оценки соответствуют «Стандартам» 1974 г. Данная система привлекалась для работы с голландским вариантом WISC-R. Результаты применения этой системы согласуются с оценкой теста по голландской системе «Документации тестов и исследований тестов» (Evers, et al.1992, 539—562).

Источник:

Лаак Я. Психодиагностика: проблемы содержания и методы. М. : Институт практической психологии; Воронеж: МОДЭК, 1996. - 384 с. (с. 319-326)