Критерии добротности теста

Общие предпосылки тестирования выражаются в критериях добротности, качества теста. Для того чтобы тесты соответствовали своему назначению, адекватно выявляли и достаточно точно измеряли определенные качества, были применимы к различным (до известных пределов) людям и группам, они должны отвечать таким критериям, как объективность, валидность, надежность, репрезентативность, адаптированность, научность.

Объективность означает, что результаты тестирования должны быть интерсубъективны, т.е. независимы от того, кто проводит тест. Если данный тест проводят другие люди, то они должны получить такие же результаты.

Валидность (англ. valid - действительный, пригодный, имеющий силу) - это пригодность теста для измерения именно того качества, на оценку которого он направлен. Валидность теста дает ответ на вопрос «Что измеряет тест, соответствует ли он той цели, для которой применяется?». Так, например, если тест используется для оценки уровня знаний человека в области управления персоналом, то он должен измерять именно эти знания, а не, скажем, общую эрудицию или знания в области психологии или экономики. Валидность определяется посредством корреляции результатов тестирования с проявлением данного качества на практике. Валидность конкретных тестов может проверяться с помощью использования других, практически доказавших свою добротность методик. Мерой валидности служит коэффициент корреляции теста.

Надежность отражает степень точности и постоянства, с которой измеряется качество личности, и характеризует свободу от погрешностей процедуры тестирования. Точность проявляется в уровне совпадения результатов данного теста с показателями других тестов, используемых для этой же цели, постоянство - в устойчивости, стабильности результатов при повторной оценке той же группы тестируемых. Служащее проверке надежности повторное тестирование обычно проводится через две недели. При коэффициенте корреляции свыше 0,75 надежность теста считается вполне приемлемой. Проведение повторного тестирования через значительно более продолжительный срок может характеризовать уже не столько надежность теста, сколько изменение выявленных ранее свойств личности.

Надежность и валидность теста взаимосвязаны. Надежность лишь тогда имеет смысл, если тест обладает достаточной валидностью – в противном случае будет измеряться какое-то другое, не соответствующее целям тестирования свойство личности. В то же время если тест не обладает надежностью, неточно и нестабильно измеряет выясняемое качество, то его валидность ставится под сомнение. В целом она может быть либо равна (в идеальном случае), либо меньше надежности.

Репрезентативность (соответствие нормам тестирования) - это свойство выборочной совокупности людей, т.е. группы или ряда групп, на основе анализе качеств которых разработан тест (например, студентов, выпускников МГУ, общий уровень социальной компетентности которых определяется), представлять генеральную совокупность всех лиц, обладающих подобными типологическими характеристиками (в данном случае всех студентов страны или даже мира - в зависимости от конкретного содержания теста).

Тест репрезентативен тогда, когда использованная при его разработке выборка обоснована и присущие ей характеристики достаточно равномерно распределены в генеральной совокупности. Репрезентативность позволяет классифицировать результаты тестирования (например, выделять высокий, средний и низкий уровни социальной компетентности). Если тест нерепрезентативен, то предлагаемые им оценки выраженности свойств будут неприменимы за пределами выборки (в данном случае за пределами студентов МГУ, т.е. применительно к учащимся других вузов).

Репрезентативность отражается в норме теста, представляющей собой "средний уровень развития большой совокупности людей, похожих на данного испытуемого по ряду социально-демографических характеристик". Иными словами, норма теста - это средний уровень распределения выявляемых с его помощью характеристик в большой группе людей (генеральной совокупности), на применимость в которой претендует тест. В большинстве случаев тестовые нормы определяются с помощью усреднения результатов тестирования большой выборки людей одного пола и примерно одинакового возраста и дифференциации полученных результатов по важнейшим показателям. Нормы тестов могут изменяться в результате динамики развития самого человека и смены условий его жизнедеятельности. Так, например, нормы интеллектуального развития людей в начале нынешнего столетия были значительно ниже, чем в его конце.

С репрезентативностью теста связана его адаптированность. Если репрезентативность характеризует равномерность распределения исследуемых качеств и усредненность оценок тестирования, учитывающих показатели во всей «большой», генеральной совокупности, то адаптированность означает учет национальных (в там числе социальных) и региональных особенностей при использовании тестов, их критическое переосмысление в свете этих особенностей. При использовании тестов, разработанных в иной социально-культурной среде, в проверке и переоценке нуждаются нормы, валидность и надежность тестов и даже их применимость в целом.

Проблема адаптированности тестов особенно остро встала в последние годы в связи с широким заимствованием западных тестовых методик и попытками их прямого (без внесения необходимых корректив) использования. Так, например, некоторые отечественные авторы пытаются подтвердить вывод о деградации трудового сознания россиян в постсоветский период с помощью довольно типичного английского теста на трудовую этику. Этот тест, в частности, предусматривает следующие вопросы: «Пользуетесь ли вы служебной оргтехникой (например, ксероксом. – В.П.) в рабочее время для личных нужд?»; «Всегда ли вы приходите на работу точно вовремя?» и т.п. По условиям теста ответы типа «Я, конечно, опаздываю, но совсем редко» положительными не считаются.

Неадаптированное, без внесения существенных поправок, использование подобных тестов в современных российских условиях явно неправомерно, хотя бы уже потому, что в России условия труда, его оплаты, традиции трудового сознания очень во многом отличны от западных. Например, в Великобритании на ксерокопирование в личных целях работникам выдастся определенная сумма денег, учитывающая стоимость копирования и проезд до места выполнения работы, а также выделяется дополнительно время, присоединяемое к обеденному перерыву. В современной же России не только не существует всего этого, но и заработная плата сотрудников нередко едва превышает статистический уровень бедности. К тому же в последнее десятилетие массовым явлением стало неполучение зарплаты в течение нескольких или даже многих месяцев. И невзирая на это, люди продолжают работать! С точки зрения западных норм трудовой этики подобные ситуации просто немыслимы.

Научность - это обоснованность теста фундаментальными исследованиями, его концептуальная осмысленность. Хотя этот критерий добротности теста выделяется не всегда, обычно он так или иначе подразумевается. Некоторые, в первую очередь довольно простые тесты создаются без особого научно-теоретического осмысления на основе гипотез или предположений о коррелятивных связях между свойством личности и его индикаторами, а также эмпирической проверки такой связи. Однако серьезные профессиональные и другие тесты используют для своего обоснования научные выводы и конструкции. Особенно необходимо научное обоснование при обращении к батарее тестов - серии испытаний, призванных оценить комплекс качеств человека, свидетельствующий о его профессиональной пригодности и ожидаемых трудовых успехах. Батареи тестов широко применяются при отборе персонала.

Источник:

Пугачев В. П. Тесты, деловые игры, тренинги в управлении персоналом: учеб. для студентов вузов. - М. : Аспект Пресс, 2003. - 285с. (с. 20-23)