- •Москва "наука" 1993
- •Глава первая
- •1. Становление основных подходов к измерению установок (1920-е - 1930-е годы)
- •3. Психологическая ориентация: ф.Олпорт, л.Л.Терстоун, р.Ликерт
- •4. Традиция Гутмана-Лазарсфельда
- •2. Надежность и валидность эмпирическх моделей
- •3. Множественные индикаторы в оценке качества измерения
- •1. Концептуализация и косвенное измерение
- •2. Взаимозависимость концептуализации и измерения:
- •1. Обобщение моделей структурных уравнений с латентной переменной и "общеизвестные истины" измерения
- •2. Г£гяао-методология и процедуры автоматического поиска моделей
- •4. Реалистская стратегия измерения
- •Вместо заключения: о радикальной критике "количественных" процедур в социологии 1
- •Литература
4. Традиция Гутмана-Лазарсфельда
в измерении установки и формирование концепции
качественного измерения
В 1940-е годы перед социологами открылась новая область широкомасштабных количественных исследований установок - военные заказы, финансировавшиеся преимущественно правительством. Возник новый тип коллективного междисциплинарного исследовательского проекта. Эмпирические данные были ближе к "реальному миру", чем к лабораторному эксперименту или вторичному анализу официальной статистики, и представляли собой источник новых ; фактов, __ допускавших более широкие обобщения при проверке социологических теорий (см.: [109. Р. 131-185]). Кроме того, представители академической науки, перешедшие на время войны в правительственные организации, получили возможность более прямых и тесных контактов друг с другом и с пришедшими из сферы бизнеса полстерами, уже до войны проводившими национальные опросы общественного мнения (в том числе с такими значительными фигурами, как Э.Роупер и Дж.Гэллап). И это сотрудничество было полезным для разработки новых подходов по всем проблемам эмпирической социологии - от выборки до измерения и интерпретации. Хотя военный опыт и не привел к возникновению каких-либо принципиально новых теоретических подходов, он дал существенные инновации и в области методов, инструментария и планирования исследований, и в становлении новых форм профессиональной организации и коммуникации в эмпирической социологии.
Одной из важнейших новаций в области измерения в этот период стали шкалы Л.Гутмана. Гутмановские шкалы достаточно трудоемки в конструировании, однако их очевидное для современников преимущество заключалось в том, что такая шкала, после соответствующего перетестирования, могла быть сокращена до 5-6 пунктов и, следовательно, была идеально приспособлена к объему анкет, а кроме того, позволяла упорядочить индивидов на одномерном континууме или, по меньшей мере, добиться хорошей аппроксимации такого упорядочения. Идеальная модель шкалограммного анализа предполагает "одномерность" пунктов, т.е. их независимость от любых других латентных переменных, кроме интересующего исследователя одно-мерного континуума. Это допущение само по себе нуждается в проверке, критерием и результатом которой и является шкала. Теоретически обосновать это допущение едва ли возможно, так как трудно предположить существование набора столь специфических и изолированных вопросов, которые были бы обращены лишь к одной установке - "мишени". Однако на практике в некоторых, не столь уж малочисленных, случаях можно найти множество пунктов, связь которых с интересующим исследователя теоретическим конструктом значительно выше, чем с другими конструктами. Более надежным и экономным способом нахождения "шкалируемых установочных областей" был бы аналитический подход к измерению, позволяющий построить теоретическую модель измерения, допущения которой
27
будут проверены до сбора данных и конструирования шкалы (иногда, скажем, просто через вторичный анализ уже имеющихся результатов), а условия, при которых "возмущениями" одномерности можно пренебречь, будут специфицированы заранее (более детальное обсуждение этой проблемы требует анализа формальных аспектов шкалирования установок). Однако в 40-е годы, да и значительно позднее, аналитический подход к измерению еще не сформировался, и Л.Гутману пришлось идти путем эмпирического (и стихийного) выявления областей, пригодных для шкалограммного анализа.
Кумулятивная ранговая шкала Гутмана имеет некоторое сходство со шкалами социальной дистанции Богардуса. Однако Богардус присваивал ранги различным пунктам априорно (позднее, под влиянием работ Терстоуна, он применил экспертную процедуру для определения числа градаций шкалы), а Гутман устанавливал шкальные значения частично на основании их явного содержания, частично - по результатам эмпирических наблюдений, отбирая образующие шкалу вопросы.
Для совершенной гутмановской шкалы - и при совпадении логики ответов всех респондентов с логикой, заложенной в шкалу исследователем, - знание положения (ранга) индивида на шкале позволяет однозначно воссоздать паттерн его ответов, а общий паттерн ответов выглядит как параллелограмм.
Порядок пунктов в совершенной шкале определяется их "популярностью" среди респондентов.
Возможность построить удовлетворительную шкалу в разработанной Гутманом процедуре сильно зависела от двух условий: семантической близости формулировок вопросов при возможности манипулирования перегруппировкой категорий ответов. Этот выбор "точек сечения", в результате которого пункт "скорее хорошо" (или "скорее доволен") мог попасть как в позитивную, так и в негативную часть континуума, был достаточно спорен, если не имел под собой очевидного содержательного основания. Для облегчения работы по построению шкалограммы использовалась специальная "шкалограммная доска", которая имела углубления в 100 горизонтальных рядах для индивидов и 100 вертикальных колонок для категорий ответа. Распределение металлических дробинок в лунках доски соответствовало ответам респондентов, а возможность манипулирования - положением респондента и "точками сечения" (т.е. перегруппировкой категорий ответа) - позволяла обнаружить шкальный паттерн с минимальным числом "ошибок". В целом шкалограммная техника имела несомненные преимущества экономии времени и усилий [222. Р.91-121].
В рамках шкалограммного анализа был разработан еще один методический подход, целью которого было получение устойчивого разбиения выборки массового опроса на "сторонников" и "противников" определенного мнения. Практика опросов общественного мнения показывала, что доля респондентов на позитивном и негативном полюсе установочного континуума менялась даже при незначительном изменении словесной формулировки вопроса. Необходимо
28
было найти способ выделения "полярных" групп, не зависящий от изменений словесной формулировки. Общая идея предложенного Гутманом подхода восходила еще к шкалам Олпорта-Хартмана и, более непосредственно, к статье Дэниела Катца (ученика Ф.Олпор-та), опубликованной в 1944 г. [154]. Из этих работ было известно, что более крайним позициям на континууме политических мнений соответствует большая интенсивность, сила убеждений, чем среднему диапазону.
Гутман и Сачмэн для каждого содержательного вопроса шкалы включали в вопросник еще один, направленный на измерение интенсивности. Например: "Насколько сильно Вы это ощущаете?", "В какой мере Вы с этим согласны?" (с 3-5 вариантами ответа). Строя совместные распределения ответов типа "содержательный вопрос -вопрос об интенсивности", они получали U-образные или J-образные кривые, отражавшие возрастание интенсивности на полюсах содержательных ответов, т.е. позитивных/негативных реакций на определенное содержание. Разные совокупности вопросов, т.е. по-разному сформулированные и с разным способом дихотомизации, давали приблизительно одинаковые кривые. Самая низкорасположенная точка кривой определяла "нулевую точку" или "область безразличия". Респонденты, оказывавшиеся с одной стороны "области .безразличия", рассматривались как настроенные благожелательно, л с другой - неблагожелательно (что и позволяло получить устойчивую оценку доли "сторонников" и "противников" определенного мнения) . Так как использование такой процедуры в многотемном масштабном опросе затруднительно, сотрудники армейского Исследовательского сектора считали, что она может оказаться полезной для отбора 2-3 вопросов по каждой конкретной проблеме. Однако эта процедура оценки доли "сторонников" и "противников" имела существенный недостаток, так как была чувствительна лишь к общим, а не специфическим установкам. "Какова ценность утверждения о том, что определенная доля населения "за" обязательный призыв или сокращение расходов, если не ясно, какое специфическое содержание и при каких условиях подразумевается под "призывом" или "сокращением" [109. Р.193]. Поэтому возможности шкалограммного анализа оказались не слишком привлекательны для полстеров-прак-тиков. Вместе с тем, они представляли интерес для сторонников количественного подхода внутри академической науки. Как отмечает Дж.Конверс, количество статей в ведущих научных журналах, посвященных применению и модификации шкал Л.Гутмана, в первое послевоенное десятилетие было достаточно велико. Большая часть этих работ выполнялась на студенческих и других малых группах, но в некоторых статьях и двух книгах (Э.Кэмпбелл, Дж.Гурин, У.Миллер, 1954; С.Стауффер, 1955) речь идет о крупномасштабных исследованиях.
Гутмановские процедуры использовались не только для шкалирования установок, но и для физиологических симптомов невроза, уровней информированности, "коллективных" шкал группового поведения.
29
В то же послевоенное десятилетие появились работы, критически оценивающие применимость гутмановской процедуры шкалирования в измерении при проведении массовых опросов. Л.Фестингер указывал на негативное влияние монотонного повторения сходных по смыслу вопросов на качество ответов респондента. Было показано, Что несколько пунктов, отобранных для упрощения процедуры из более длинной шкалы, могут давать иное ранжирование респондентов [130]. Л.Гутман и сам осознавал ограничения, присущие его методу, - невозможность прямого переноса шкал с одной популяции на другую (или в новую ситуацию) и невозможность построения кумулятивных шкал в очень многих интересных для исследователей случаях.
В силу всех этих ограничений гутмановский подход не получил широкого распространения в эмпирической социологии и практике опросов общественного мнения.
В конце войны П.Лазарсфельд, позднее других включившийся в работу Исследовательского сектора, развил основные положения латентно-структурного анализа. Лазарсфельдовская модель впервые была опубликована в том же четвертом томе серии "Американский солдат", вышедшем в 1950 г. [222]. Лазарсфельд стремился использовать идеологию факторного анализа (выведение латентных переменных-черт из эмпирического распределения манифестных переменных, т.е. ответов на совокупность вопросов) таким образом, чтобы этот подход мог применяться при низких уровнях измерения наблюдаемых переменных. Общая идеология метода достаточно известна, поэтому мы можем опустить ее изложение. Отметим лишь, что латентно-структурный анализ был очень существенным шагом в теории шкалирования, но из-за вычислительных сложностей довольно долго оставался вне сферы активного применения8. В конкретных социологических исследованиях по-прежнему использовались прямые вопросы или (значительно реже) гутмановские или ликертов-ские шкалы.
К 1930-м - 1940-м годам относится возникновение еще одной важной для социологического измерения традиции, более общей, чем измерение установок. Речь идет об общем подходе к измерению субъективных переменных, начало которому положили предвоенные работы П.Лазарсфельда.
Интерес П.Лазарсфельда к измерению латентных, опосредующих психологических переменных восходит к раннему периоду его профессиональной деятельности. Защитив в 1925 г. диссертацию по прикладной математике в Венском университете, Лазарсфельд сочетал преподавание в гимназии с исследовательской работой в Психологическом институте Венского университета под руководством Шарлотты Бюлер, изучавшей фазы жизненного цикла. К этому времени относится его работа о занятости молодежи.
В ранних статьях американского периода Лазарсфельд, активно включившийся в широкомасштабные исследования рынка и массо-
30
вые опросы, часто обращается к анализу мотивов поведения, внут-ренних переменных, определяющих поведение потребителя, исполь-зуя теоретические концепции "глубинной психологии" - фрейдов-скую репрессию, адлеровский "комплекс неполноценности", юнгов-скую интроверсию/экстраверсию. Этот интерес к анализу мотивов человеческого поведения, соединенный с интересом к квантификации (оба эти интереса имели "венские" корни), породили уникальный талант к сочетанию качественного и количественного подходов, углубленной психологической интерпретации и аналитических ме- тодов (см., в частности: [162]).
Лазарсфельда особенно интересовала проблема валидности субъективного измерения. В 30-е годы, когда влияние бихевиоризма было весьма ощутимо даже в прикладной социологии и психологии, любые субъективные, интроспективные измерения требовали очень серьезного обоснования. Попытки интроспективного измерения "мотивов" часто подвергались нападкам сторонников "объективного" измерения наблюдаемых поведенческих актов, а попытки выяснить "что люди думают (о том), что они думают" расценивались как едва ли не отступление от научных норм. Лазарсфельд стремился доказать, что измерение субъективных переменных возможно и целесообразно, что люди способны объяснять мотивы своего поведения и мотивы предпочтений, если возможные смысловые оси такого объяснения отчетливо идентифицированы исследователем заранее.
Рассматривая проблему сравнимости субъективных измерений, Лазарсфельд высказывает очень оригинальную трактовку проблемы общности/идентичности показателей (статья "Искусство спрашивать: "Почему ?", 1935 г. [161]): для того, чтобы обеспечить идентичность интерпретации респондентами вопроса, нужно стремиться не к жесткой фиксации словесной формулировки ("стандартному стимулу"), а к более свободному способу коммуникации интервьюера и респондента, обеспечивающей удовлетворительное понимание и единство личностного смысла вопроса для респондентов. Проблему поиска идентичных показателей в сравнительных исследованиях нельзя считать решенной и сегодня, но сама постановка ее Лазарсфельдом чрезвычайно интересна. В 30-е - 40-е годы идея гибкой формулировки вопросов, позволяющей фиксировать определенный личностный смысл, не могла приобрести популярность среди ученых, проводивших широкомасштабные опросы общественного мнения и уделявших основное внимание полной стандартизации процедур, но она дала толчок к дальнейшей разработке методов фокусированного интервьюирования.
Эта идея повлияла на разработку ПЛазарсфельдом классификационных схем для тематического анализа "сырых" ответов, получаемых при личной беседе или через открытые вопросы. Четыре правила классификации, изложенные в [161 ] и позднее, в 1951 г., воспроизведенные в [167], гласят:
А. Общие категории кодирования должны быть разделены на специфические категории ("артикуляция").
31
Б. Эти категории должны быть исчерпывающими и взаимоисключающими ("логическая правильность").
В Кодирование должно выделять некоторую органическую структуру, схватывая логику ситуации или исследуемого процесса.
Г. Оно должно отражать собственную точку зрения респондента или его субъективное определение ситуации.
К этому же периоду (вторая половина 30-х годов) относятся первые попытки применения аналитических типологий для классификации данных из монографических "анализов случая" с последующим созданием новых переменных, а также использования четы-рехклеточных таблиц сопряженности для анализа категориальных переменных. Основная схема причинного анализа, детально разработанная Лазарсфельдом в более поздних работах и основанная на создании новых качественных переменных через типологическую редукцию и на проверке их статистической связи с помощью четы-рехклеточных таблиц, была впервые использована в проведенном ПЛазарсфельдом и С.Стауффером исследовании американской семьи в период депрессии (1937 г.). Сама идея построения четырех-клеточных таблиц принадлежала С.Стауфферу (LaParsfeld oral history interview // Oral History Collection / Butler Library Columbia University. P.145, цит. по: [109. P.139-140])9.
В предвоенные годы ПЛазарсфельд и его сотрудники вели обширную работу по систематизации существующих и конструированию новых индексов. В книге "Радио и печатная страница" [164] обсуждаются самые разные индексы - индекс "стандарта чтения" (Лазар-сфельд), три индекса установок по отношению к радио (Сэйр), конструирование индексов из монографических "анализов случая" (Лазарсфельд и Робинсон), шкала рейтинга популярных песен и другие. Например, сводный индекс "стандарта чтения" был сконструирован Лазарсфельдом как операциональный эквивалент неизмеряемой переменной "читательская способность". Лазарсфельд дихо-томизировал четыре переменные - образование, экономический статус, количество чтения (количество читаемых журналов) и уровень чтения (чтение книг в течение последнего месяца) - и суммировал знаки " +" этих переменных, получая шкалу со значениями от О до 4. Эта процедура была, безусловно, весьма огрубленной и никак не учитывала явно существующие причинные отношения между переменными. Однако нельзя не оценить усилия, предпринятые для квантификации и косвенного измерения существенных переменных теории.
В 1939 г. Лазарсфельд еще раз обращается к проблеме идентичных индикаторов (статья "Взаимозаменяемость в измерении экономических влияний" [163]). Речь здесь идет о том, что переменная " экономический статус" может быть измерена разными способа-
32
ми, с помощью разных показателей - наличие собственного дома или автомобиля, род занятий, уровень доходов и т.п. При этом каждый этих показателей будет давать, в определенных пределах, одинаковый паттерн связей с другими "психологическими" пе-ременными. В подтверждение этого тезиса Лазарсфельд приводит некоторые опросные данные (относительная стабильность числа голосующих за республиканцев среди "высоких" по экономическому статусу групп, выделенных с использованием различных индикаторов). Хотя Лазасфельд и оговаривает, что нужны дальнейшие проверки взаимозаменяемости переменных, здесь уже прослеживается важнейший источник теоретической модели латентно-структурного анализа. Это - представление о вероятностных отношениях манифестных индикаторов и лежащих в их основе неизмеряемых латентных осей.
Как отмечает Дж.Конверс, ПЛазарсфельд и его сотрудники, публиковавшиеся в "Journal of APPlied Psychology", постоянно ощущали недостаток данных и показателей и обращались к самым разным источникам - опросам книжных клубов, данным опросов общественного мнения, проводившихся фирмами Дж.Гэллапа и Э.Роупера, к оценкам размеров аудитории газет и журналов и панелям студентов-радиослушателей. "Можно образно представить себе Лазарсфельда и его группу как компанию предприимчивых старьевщиков, ищущих данные всех форм и размеров и приносящих их в свой оффис в коробках, корзинах, ящиках и кувшинах, чтобы потом подвергнуть их анализу" [109. Р.142].
Мотивом здесь было убеждение в возможности найти теоретические рамки для любых данных и с помощью простых статистических и концептуальных процедур (прежде всего, связывающих показатель с косвенно измеряемой теоретической переменной) внести смысл в хаос эмпирии. Дж.Конверс, остроумно перефразируя популярную песню, говорит: "Когда у Лазарсфельда не было под рукой тех
данных, которые он любил, он любил те данные, которые были под рукой" [109. Р.142 ]. Эти усилия были продуктивны, так как откры- вали перед социологией новые перспективы косвенного измерения, пробуждая обоснованный оптимизм сторонников квантификации в социальных науках. И в то же время они подталкивали социологов к атеоретическому способу измерения, когда значения показателей вкупе с элементарными статистическими процедурами становились "волшебной машинкой", с помощью которой давалась апостериорная интерпретация полученной " простой структуры" эмпирических по- казателей с помощью ad hoc изобретаемых понятий.
Однако сам Лазарсфельд не ограничивался моделью косвенного измерения с помощью доступных и относительно прямо измеряемых
показателей типа данных переписи и социальной статистики. Он упорно стремился к обоснованию прав субъективного измерения в
социальных науках, считая, что субъективные, но имеющие смыс-
33
ловое отношение к теоретически существенному конструкту, пока- затели предпочтительнее любых самых объективных "коррелятов",
3 И.Ф.Девятко
которые связаны с этим конструктом лишь очень опосредованным образом.
Это сочетание интереса к косвенному и многоиндикаторному измерению с предпочтением субъективных индикаторов промежуточных переменных на первый взгляд кажется парадоксальным (зачем обращаться к интроспекциям и самоотчетам, если "все во всем" и можно найти пусть очень косвенный, но "объективный" показатель типа доходов, расходов и бюджета времени?). По сути же влияние психологии (и в том числе "симптомологии" психоанализа) предопределило чуткость Лазарсфельда к проблемам "понимающей" интерпретации и обусловило уникальность его таланта, о чем говорилось выше. Дж.Конверс отмечает, что для американской профессиональной карьеры Лазарсфельда как социолога, его интерес к психологии оказался значительно более влиятельной частью "венского наследства", чем даже его социалистические убеждения [109. Р. 143].
Анализ ранних работ Лазарсфельда позволяет понять суть и основное содержание выдвинутой им позднее, в начале 50-х годов, концепции качественного измерения (наиболее ясно изложенной в работах [32; 167]). Фактически идея качественного измерения лишь подытоживает те взгляды, которые П.Лазарсфельд развивал в предвоенные и военные годы, и тот опыт, который он получил в работе над "Американским солдатом".
Заинтересованность ПЛазарсфельда в качественном измерении была связана, с одной стороны, с преобладанием в рассматриваемый период проблемно-ориентированных, "заказных" конкретных социологических исследований, в которых постановка проблемы и возможности получения определенного типа эмпирических данных были первичны по отношению к теоретической концептуализации и построению модели измерения. С другой стороны, методические проблемы агрегирования, использования множественных индикаторов и оценки качества измерения были еще недостаточно разработаны. П.Лазарсфельд формулировал эту проблему, как проблему несоответствия между постулируемой из теоретических соображений метрикой теоретического конструкта и метрикой доступного индикатора. В качестве общей он рассматривал следующую тактику качественного измерения: сегментация сложного теоретического понятия и уточнение (спецификация) отдельных его аспектов; нахождение индикаторов, соответствующих выделенным аспектам; построение сводного показателя, суммирующего значения отдельных индикаторов, исходя из содержательных теоретических соображений10. В работе 1951 г. П.Лазарсфельд подчеркивал, что измерение в общественных науках может проводиться самыми разными средствами, "которые менее точны, чем строго количественное измерение, но тем не менее много лучше беспомощного индивидуального
34
суждения". И далее:"... существует прямая логическая линия движения от качественной классификации к самым строгим формам измерения через промежуточное использование систематических оценок, ранговых шкал, многомерных классификаций, типологий и количественных индексов" [167. Р.155]. Представления ПЛазарсфельда о качественном измерении и предложенные им конкретные эвристические приемы построения типологий и задания пространства признаков сыграли важную роль в решении многих теоретико-методологических и прикладных проблем социологии (см. также: [8 ]) и расширили существовавшие представления о возможностях внефи-зического измерения.
5. Формальные модели шкалирования установок и классификации шкал
Описывая историю становления различных подходов к измерению установок в эмпирической социологии, мы не рассматривали сколь-нибудь детально формальные модели шкалирования установочных переменных (хотя и останавливались на некоторых особенностях процедуры). В принципе, анализу этих формальных моделей и проблемам конструирования шкал посвящено очень большое количество работ зарубежных и отечественных исследователей (отметим, в частности, [21; 26; 30; 49; 63; 76; 98; ПО; 210; 237]). Задача данного раздела заключается в том, чтобы на основе существующих работ дать некоторое общее представление о связи конкретных процедур с логикой и формальными основаниями различных моделей шкалирования, обобщить различные классификации шкал и указать, какое место в этих классификациях занимают описанные нами подходы к шкалированию11.
При всем многообразии существующих теоретических подходов к определению понятия "установка" в социологии и социальной психологии практически общепринятым является выделение трех компонентов (аспектов) аттитюдов - когнитивного, аффективного и поведенческого (конативного). Трем компонентам социальной установки соответствуют три класса явлений - 1) осознание объекта установки, связанное с наличием определенной информации о нем; 2) реальное, предполагаемое или предпочитаемое поведение по отношению к объекту; 3) эмоционально-аффективная оценка, выявление чувства симпатии или антипатии по отношению к объекту установки.
Исходя из некоторого недетализированного представления о наличии структурного взаимодействия между перечисленными 35
компонентами, рассмотрим общие подходы к измерению когнитивных, аффективных и поведенческих переменных социальной установки.
Рассматривая понятие "переменная" как конструкт, отражающий некоторое качество (свойство), в разной мере присущее всем членам наблюдаемой совокупности, определим здесь измерение как систематическое приписывание чисел совокупности наблюдений, отражающее положение каждого члена совокупности на континууме переменного качества. Для наших целей шкалу можно определить как множество элементов. Каждый элемент шкалы состоит из трех компонентов - а) эмпирическое событие-"стимул"; б) действительное число; в) правило, или совокупность правил, связывающих событие с числом. Такое определение восходит к общему определению измерения, данному С.Стивенсом [47. С. 19-20; 218. Р.19-24]12. Получаемая в результате приписывания чисел объектам числовая система становится моделью эмпирической системы. При конструировании шкалы исследователь специфицирует переменную-свойство, в терминах которой могут быть описаны события из множества наблюдаемых событий. Далее он формулирует правила "отображения", разметки, согласно которым события могут различаться по их положению на оси переменной, и, наконец, представляет числами эти различия событий. В результате исследователь может считать измеренной с помощью шкалы переменную-свойство в той мере, в какой она проявляется в конкретной совокупности наблюдений. Как будет показано далее, общность правил отображения и числовой системы определяет возможность переноса шкалы за пределы исходной совокупности наблюдений.
Определим понятие "инструмент измерения" как совокупность средств, с помощью которых эмпирические события отображаются в числовую систему. Т.е. инструмент измерения - это вся совокупность операций разметки, с помощью которых конструируется шкала. Так, если значение переменной оценивается через усреднение оценок экспертов, то инструмент измерения может быть описан как совокупность повторяющихся оценочных суждений.
Вслед за Г.Апшоу, введем в качестве первой характеристики инструмента измерения требование функционального единства. Функциональное единство инструмента измерения - это степень согласованности, консистентности различных операций разметки в определении шкального значения конкретного стимула [237. Р.65 ]. В понятии функционального единства подразумевается существование какой-то статистической зависимости между операциями, характер которой, однако, будет меняться в соответствии с теоретическими представлениями о природе измеряемой переменной13. В области измерения установок составляющие инструмент операции могут быть воплощены как в субъектах-судьях, так и в пунктах (воп-
36
росах) шкалы. Соответственно требование функционального единства будет определяться через взаимоотношение судей либо пунктов. Помимо функционального единства выделяют еще две характеристики измерительного инструмента - надежность и валидность. Однако так как эти две характеристики качества измерения являются предметом рассмотрения в следующей главе книги, здесь мы не будем на них останавливаться.
Рассмотрим вкратце проблему обобщения шкальных значений. Постольку, поскольку исследователь заинтересован в представлении отдельных эмпирических событий в абстрактной модели интересующей его области, он склонен считать каждое индивидуальное событие выборкой из универсума наблюдений, любой член которого может заменить текущее наблюдение. Различные переменные, представляющие аспекты данного универсума наблюдений и влияющие на результат измерения, - это то, что Л.Гутман обозначил как "фасеты", грани отдельного гипотетического универсума, по отношению к совокупности которых реальные наблюдения должны рассматриваться как выборка [138 ]. Собственно измерению, таким образом, предшествует спецификация его объекта с точки зрения интересующих исследователя аспектов ("фасет"). Эта спецификация объекта (предметной сферы) зависит от предполагаемой генерализации численных приписываний. Исследователь, таким образом, должен заранее определить желаемый способ генерализации шкальных значений измеряемой переменной и обеспечить условия для генерализации при планировании исследования. Так как любой универсум наблюдений заведомо многогранен и для некоторых "фасет", видимо, нельзя задать конечное множество условий, то принимаемое допущение о случайном характере выборки из гипотетического универсума едва ли может быть строго обосновано. Здесь для наших целей достаточно будет считать выборку наблюдений случайной, если элементы этой выборки могут рассматриваться как репликации друг друга. Для любой модели шкалирования обязательна какая-то форма требования случайного воспроизведения, так как без этого невозможно обобщение "численного приписывания". В сущности, обобщение здесь выступает как форма предсказания. Т.е. исследователь полагает, что сделанное конкретное наблюдение может быть воспроизведено при наблюдении любой другой выборки из универсума наблюдений, определенного на стадии спецификации. В случае неадекватного описания универсума наблюдении обобщение окажется необоснованным.
Наконец, определим, что подразумевается под моделью шкалирования. Модель шкалирования определяет способ выведения баллов, уровень полученного измерения (тип шкалы) и выбор способов оценки функционального единства полученного инструмента измерения (ср. [26. С.129]).
Г.Апшоу, основываясь на трехкомпонентной теории установок и классификации шкал по Торгерсону [235. Р.45-48 ], ввел классификацию шкал установок [237. Р.69-72 ]. Так как эта классификация очень удобна при обсуждении различных подходов к шкалированию
37
установок, мы дадим ее краткое описание. Первое различение шкал проводится по типу установочных переменных. При этом переменная, как уже говорилось, это свойство, по которому упорядочивается совокупности наблюдений. Так как связанные с установкой явления могут быть когнитивными, поведенческими и аффективными, то выделяется три общих типа шкал - когнитивные, поведенческие и аффективные шкалы. Каждому из этих общих типов шкал соответствует тип базисного наблюдения, на котором основано построение шкалы. Внутри общих типов шкал конкретные типы (классы) выделяются в зависимости от того, как обозначен класс наблюдений, которым собственно и приписываются численные значения. В самом общем случае численные значения могут приписываться субъектам установки, возможным содержаниям установки, либо различным объектам установки (см. также [213. Р. 122-123 ]. Получаемая классификация шкал установки схематически изображена в табл. 1.1.
Когнитивные шкалы. Когнитивная переменная относится к знанию (или информации) субъекта об объекте установки. Базисным наблюдением для конструирования когнитивной шкалы является выражение субъектом мнения о характеристиках объекта установки. Это мнение может быть подвергнуто верификации по правилам, которые, однако, могут быть различны для разных людей (прямая проверка, религиозное откровение или что-либо еще). В любом случае мнение может быть оценено как верное или ошибочное. Можно привести следующие примеры когнитивных установочных переменных: субъективно воспринимаемая степень выраженности у объекта установки какой-либо черты, дифференциальная значимость различных черт объекта, уверенность, с которой субъекты приписывают черты объекту. Так как любое мнение имеет три компонента - разделяющий его субъект, содержание мнения и объект, к которому оно относится, - то при измерении когнитивной переменной шкальные значения могут приписываться наблюдениям, соответствующим каждому из этих трех компонентов. Приведем примеры получающихся типов шкал14, давая описание измеряемой переменной:
Когнитивно-субъектная - степень, в которой типичный американец, швед, немец воспринимает французов как жизне- радостных.
Когнитивно-содержательная - степень, в которой типичный американец воспринимает французов как жизнерадостных, расчет- ливых, предприимчивых и т.д.
Когнитивно-объектная - степень, в которой типичный амери- канец воспринимает французов, англичан, немцев как жизне- радостных.
Поведенческие шкалы. Поведенческий аспект установки относится к действиям, которые личность совершает, защищает или поддерживает. Фактически речь идет о принятии решений и выборе
38
Таблица 1.1 Классификация шкал установки (по Г.Апшоу)
Класс наблюдений, для которого устанавливаются численные значения |
Общие типы шкал |
||
Когнитивные |
Поведенческие |
Аффективные |
Субъекты |
I |
IV |
VII |
|
Когнитивно-субъектные шкалы |
Поведенческо-субьектные шкалы |
Аффективно-субъектные шкалы |
Содержание |
II |
V |
— |
|
Когнитивно-содержательные шкалы |
Шкалы содержания поведения |
|
Объекты |
III |
VI |
VIII |
|
Когнитивно-объектные шкалы |
Поведенческо-объектные шкалы |
Аффективно-объектные шкалы |
способа действий в проблемных ситуациях, связанных с объектом установки. Разумеется, поведенческая готовность тесно связана с когнитивным и аффективным аспектами установки. Более того, поведенческие переменные установки могут выступать предикторами когнитивных и аффективных переменных. Однако разделение этих переменных и, соответственно, шкал полезно не только с аналитической точки зрения, так как возможно рассогласование компонентов установки (например, "феномен Лапьера"). Поведенческая установочная переменная связана с готовностью человека совершать действие, соглашаться с его свершением или поддерживать его. Базисным наблюдением для построения шкалы является принятие или отвержение субъектом действия, направленного на объект. По классу наблюдений, получающих численные значения по шкале, можно выделить следующие типы поведенческих шкал - поведенче-ско-субъектные, шкалы содержания поведения и поведенческо-объ-ектные шкалы. Приведем примеры:
IV. Поведенческо-субъектные шкалы - насколько типичный бе- лый профессионал, независимый предприниматель, наемный рабо- чий-китаец считает приемлемым вступление в брак с черным аме- риканцем.
V. Шкалы содержания поведения - насколько типичный атеист считает приемлемым наказывать торговлю наркотиками смертной казнью, высылкой из страны, пожизненным заключением и т.д.
VI. Поведенческо-объектные шкалы - степень, в которой типич- ный американский студент колледжа считает возможным вступление в брак с француженкой, негритянкой, японкой.
39
Аффективные шкалы. Аффективный (или эмоционально-оценочный) компонент установки обычно выражается через степень предпочтительности или благожелательности к объекту установки. "Фермер и игрок в гольф могут в одинаковой мере ожидать дождя в определенный день, но это общее мнение может вызывать у них противоположные чувства" [237. Р.72]. Т.е. игрок в гольф может иметь неблагожелательную установку по отношению к дождю, а фермер - благожелательную. Базисным наблюдением для конструирования аффективной шкалы является проявление субъектом по отношению к объекту установки ориентации "за - против". Эмпирическими событиями, которым приписываются числа, могут выступать субъекты либо объекты установки. Соответственно результатом будут аффективно-субъектные либо аффективно-объектные шкалы. Так как аффект логически может быть определен как унитарное понятие, для аффективных переменных нельзя построить шкалу содержания установок, т.е. для одномерной шкалы аффективной установочной переменной принимается предположение, что один человек испытывает одну, и только одну степень аффекта по отношению к объекту установки (хотя он при этом может приписывать единичному объекту любое количество черт или принимать любое количество способов действий по отношению к одному объекту). На первый взгляд, логика этого рассуждения может быть подвергнута критике с точки зрения понятия "амбивалентного аффекта" ("двойственного отношения" в обыденном языке). Однако для того, чтобы определить амбивалентную эмоциональную оценку как переменную, необходимо либо принять, что один респондент имеет несколько "точек расположения" на шкале, либо трактовать объект установки как имеющий несколько стимульных значений. В принципе эта задача при некоторых условиях разрешима для многомерного шкалирования. Однако наш анализ общих моделей для измерения установочных переменных связан с более ранней традицией измерения установок в социологии. Поэтому здесь речь будет идти об измерении унивалентного аффекта. Таким образом, вслед за Г.Ап-шоу, мы будем говорить лишь о двух классах аффективных шкал, примеры которых приведены ниже:
VII. Аффективно-субъектные шкалы - степень, в которой подросткам, пенсионерам, армейским офицерам нравятся фильмы о Рэмбо.
VIII. Аффективно-объектные шкалы - насколько типичному бе- лому жителю американского маленького города нравятся Дж.Буш, С.Хусейн, М.Горбачеъ и т.д.
Теперь мы можем перейти к рассмотрению общих моделей, используемых при измерении установочных переменных, и анализу сложившихся преимущественно в 30-е - 40-е годы подходов к измерению установок (описанных в предыдущем параграфе) с точки зрения этих общих моделей. Для каждой из общих моделей будет рассмотрена природа ее базисных данных, правила приписывания
40
численных значений эмпирическим событиям и требования функционального единства, а также возможность использования модели для только что описанных восьми классов шкал установок.
Как уже отмечалось, эмпирический " субстрат" для конструирования различных шкал установок практически одинаков. Респондент сообщает исследователю, что он думает, чувствует относительно какого-то объекта или как он собирается поступать по отношению к нему. Различие заключается в том, что исследователь определяет как базисное эмпирическое событие, которое должно быть отражено в числовой системе с отношениями. При этом особую сложность представляют субъектные шкалы, так как задача здесь заключается в том, чтобы получаемая шкала могла служить надежным основанием для межиндивидуальных сравнений, быть нечувствительной к таким источникам вариации, как индивидуальные речевые привычки или стандарты оценивания. Именно для построения аффективно-субъектных шкал и были предназначены модели Гутмана, Терстоуна и Ликерта15.
Существенным для дальнейшего изложения является еще одно различение - между прямым и косвенным (непрямым) шкалированием, введенное Г.Экманом, Л.Сьобергом и Т.Кюннапасом [60 ]. Различие между названными двумя подходами, в сущности, заключается в принятии или отвержении предположения о способности респондента или испытуемого давать прямые численные оценки на более высоком, чем номинальный, уровне измерения. При использовании моделей прямого шкалирования в измерении установок задача респондента состоит в том, чтобы численно оценить, какая из множества альтернатив наилучшим образом отражает его установку. Прямое конструирование номинальной шкалы обычно рассматривается как безусловно обоснованная процедура. Другие же модели прямого шкалирования в измерении установок нередко вызывали споры о наличии у респондентов способностей к кванти-фикации.
Прямое ординальное шкалирование
Этой модели соответствует ситуация, когда задачей респондента является ранговое упорядочение совокупности стимулов по некоторому свойству. Формальной моделью этой ситуации является коэффициент конкордации М.Кендэлла. Коэффициент Кендэлла позволяет оценить согласованность рангов. Он равен 1 при полном согласии респондентов и 0 при полном несогласии [10. С.116-123].
Примером реконструирования шкалы при конкордантной модели может служить ранжирование 10 респондентами 8 способов действия по применимости к конкретной ситуации. Результатом будет шкала "содержания поведения" (behavioral-content). Предполагаемая этой моделью шкальная гипотеза - консистентность суждений 10 респондентов. В случае ее неотвержения полученное ранжирование может
41
быть обобщено для всей популяции, выборкой из которой являются 10 респондентов. Коэффициент конкордантности является здесь средством оценки степени согласованности ранжировок. Если каждый респондент давал бы идентичные данные, то общее ранжирование могло бы быть обобщено до универсума наблюдений.
Если согласованность ранговых данных, по гипотезе представляющих случайные репликации, неабсолютна, то исследователь должен предположить либо наличие ошибок респондентов (неправильно понятая инструкция, намеренное искажение, утомление и т.д.), либо неучет других важных аспектов, либо ошибочность своей теоретической концепции, т.е. отсутствие в универсуме наблюдений единичной одномерной ординальной шкалы данной переменной.
Трудно установить единый критерий для выбора интерпретации неполной конкордантности. В любом случае здесь должна учитываться численная величина полученного коэффициента. Низкие значения скорее свидетельствуют об ошибочности шкальной гипотезы, чем о влиянии ошибок респондентов. Умеренные - о неадекватной "разметке" релевантных признаков универсума наблюдений [237. Р. 75].
Если исследователь склонен принять предположение о наличии "ошибок ответа", то он либо исключит ошибающихся респондентов (если сможет их идентифицировать), либо воспользуется усредненными оценками для получения ранга каждого стимула и обобщит полученное ранжирование на универсум наблюдений.
Прямое интервальное шкалирование: категориальные шкалы
Эта процедура является очень типичной для измерения установок и позволяет получить категориальную шкалу. Процедурой шкалирования в этом случае является метод равнокажущихся интервалов. Оценочные суждения осуществляются как приписывание чисел объектам через отнесение к категориям, границы которых равнораспо-ложены по отношению к количеству определенного свойства (переменной). Модель поведения респондента, предполагаемая этой процедурой, заключается в следующем: респондент принимает решение, что стимул имеет больше данного свойства, чем нижняя граница категории, и меньше, чем верхняя граница. В модели прямого шкалирования категориальную шкалу должен сконструировать сам респондент. Начало шкалы соотносится со стимулом (возможно, гипотетическим), который должен быть отнесен к категории 0. Единица шкалы обозначает то количество шкалируемого свойства, которое определяет ширину категории ответа. Еще одним предположением модели прямого шкалирования является инвариантность параметров шкалы при повторении (для новой выборки респондентов или тех же респондентов): численные значения для каждого стимула могут быть усреднены.
Чтобы совокупность чисел могла рассматриваться как численные значения свойства на интервальной шкале, они должны быть инва-
42
риантны в пределах линейного преобразования формы у = а + bх, где коэффициент Ъ отражает различие в единицах шкалы, а коэффициент а - различие в начале отсчета. Если результаты репликаций удовлетворяют этому требованию, то усредненные числовые значения стимулов образуют новую шкалу, начальная точка и единица которой являются усреднением значений этих параметров по всем индивидуальным репликациям (при простом усреднении компоненты-репликации будут взвешиваться в прямом соответствии с их дисперсиями: больший "вес" получат те репликации, в которых границы категорий уже и, соответственно, единицы измерения меньше, а дисперсии шкальных значений стимулов - больше). Содержательная интерпретация единицы и начальной точки шкалы потребовала бы введения предположения об их инвариантности при воспроизведениях и введения более сильных ограничений, чем соответствующие интервальному уровню измерения.
Рассматривая повторные процедуры вынесения суждений как измерительный инструмент [237. Р.65], т.е. средство, с помощью которого множество стимулов отображается на числовую систем' степень согласованности между различными операциями, составля- ющими в совокупности этот инструмент, можно определить как функциональное единство инструмента. В модели прямого интер- вального шкалирования требование функционального единства предполагает линейные отношения между всеми парами предполагаемых повторений. При выполнении этого требования несистематический разброс в численных значениях, который не относится к линейному отношению, может рассматриваться как устанавливающий перцептивную ошибку респондента либо по отношению к положению отдельного стимула, либо по отношению к численным значениям границ категорий. При предположении, что такие несистематические ошибки будут взаимоуничтожаться при усреднении, оценкой истинного значения будет усреднение численных оценок респондентов по каждому стимулу. Однако наличие линейной связи между парами репликаций, необходимое для выполнения требования функционального единства, недостаточно для доказательства того, что полученная шкала обладает инвариантностью интервального типа шкал. Оно лишь доказывает сходство категориальных суждений респондентов. Интервальный же уровень измерения требует еще и постоянства единицы шкал. Так как последняя проблема возникает и при использовании закона категориального суждения, мы обратимся к ее детальному анализу ниже.
Допущение о равенстве различительных дисперсий, делающее возможным их использование в качестве единиц измерения на психофизической шкале, явилось предметом концептуальной критики со стороны С.Стивенса, предложившего альтернативную парадигму прямого шкалирования отношений в психофизике [48 ]. Работы С.Стивенса и его последователей показали, что для прототетических психологических континуумов прямое шкалирование отношений является обоснованной и дающей согласованные результаты процедурой (что было подтверждено экспериментами с кросс-модальной
43
валидацией и сменой стимульного контекста). В основании прямого шкалирования лежит модель прямой оценки субъектом величины стимула. Хотя кросс-модальная валидация неприменима к не имеющим физической измеримости стимулам, Стивенсу удалось получить некоторые непрямые доказательства существования степенного закона для ряда социальных переменных, измеряющих аффективный компонент установки (см.: [48]). Однако методы прямого конструирования шкал отношений, резко изменившие облик психофизики в 40-е - 50-е годы, не оказали заметного воздействия на складывавшиеся в социологии подходы к измерению установок. В 60-е годы появились немногочисленные, но крайне интересные работы в этой области, обзор которых можно найти в [140].
Косвенное интервальное шкалирование и шкалы, основанные на законе категориального суждения
Общая форма закона категориального суждения была описана У.Торгерсоном [235 ]. Исходным для развития процедур шкалирования, основанных на этом законе, был метод последовательных интервалов, предложенный в 1937 г. М.Сэффиром [207]. Различные процедуры для получения шкальных оценок и границ категорий описаны М.Сэффиром, А.Эдвардсом и другими16.
При конструировании шкал, основанных на законе категориального суждения, перед респондентом ставится задача отнесения объекта в наиболее подходящую категорию на континууме предпочита-емости.
В отличие от модели прямого шкалирования, предположение о способности респондента устанавливать равноотстоящие категории здесь не вводится, но шкальный порядок категорий должен быть известен и явно задан наименованиями категорий. Границы между категориями ответа рассматриваются как стандартные стимулы: как и в законе сравнительного суждения, величина процесса различения, вызываемого каждым стимулом и каждой границей категории, предполагается нормально распределенной. Выводя закон категориального суждения, Торгерсон фактически предполагает, что процедура вынесения категориального суждения здесь основана на неявном парном сравнении "стимул - граница категории".
Закон категориального суждения может быть представлен следующим образом:
(1.1)
где Si - среднее гипотетического распределения перцептивного процесса для стимула i ;
Сj - среднее гипотетического распределения перцептивного процесса для j-ой категориальной границы;
44
Pij - нормированное отклонение, соответствующее наблюдаемой
доле суждений " i > j”;
σi и σj - различительные дисперсии стимула i и границы
категории j;
rij - коэффициент корреляции между границей категории j и
стимулом i .
Очевидно, что закон категориального суждения аналогичен закону сравнительного суждения, однако второй из сравниваемых стимулов здесь заменен на границу категории. Поэтому для решения основного уравнения вводится аналогичная совокупность допущений. Среди обсуждаемых Торгерсоном допущений, нужных для нахождения решений, содержатся следующие три:
Различительные дисперсии всех стимулов равны.
Различительные дисперсии всех категориальных границ равны.
Все коэффициенты корреляции между стимулами и границами категорий равны.
При принятии этих допущений, закон категориального суждения может быть приведен к:
(1.2)
Особая совокупность допущений используется при применении предложенного М.Сэффиром метода последовательных интервалов: различительные дисперсии всех границ категорий принимаются равными, а корреляция между положением на шкале любого стимула и любой границей категории равна нулю [237. Р.87 ]. Тогда уравнение принимает вид:
(1.3)
Третья из анализируемых Торгерсоном возможностей решения аналогична второй: различительные дисперсии всех стимулов равны, а корреляции между стимулами и границами категорий равны нулю (процедура подробно описана в [21. Р.257-261 ]). Тогда закон категориального суждения принимает вид:
(1.4)
При анализе данных согласно закону категориального суждения строится матрица Р, элемент которой рij - частота помещения
стимула i ниже границы категории j . Так, стимул, помещенный в категорию 2, содержит меньшее количество предполагаемого качества, чем граница между категориями 2 и 3, граница между категориями 3 и 4 и так далее. Матрица P получается при представлении всех р.. в единицах единичного нормального отклонения (табл. 1.2).
45
Таблица 1.2а. Матрица Р. Накопленные частоты суждений "стимул / меньше границы категории f
Стимулы |
Границы категорий |
||||||
|
1 |
2 |
3 |
… |
j |
… |
n |
1 |
P11 |
Р 12 |
Р13 |
… |
Р1j |
… |
1.00 |
2 |
P21 |
P22 |
P23 |
… |
P2j |
… |
1 00 |
3 |
P31 |
P 32 |
P 33 |
…. |
Р 3j |
… |
1.00 |
i |
P i1 |
P i2 |
P i3 |
…. |
P ij |
… |
1.00 |
m |
P m1 |
P m2 |
P m3 |
….. |
Р mj |
… |
1 00 |
Таблица 1.26. Матрица P. Единичные нормальные отклонения, соответствующие Р..
Стимулы |
Границы категорий |
||||||
|
1 |
2 |
3 |
… |
j |
… |
n |
1 |
Z11 |
Z 12 |
Z 13 |
… |
Z1j |
… |
1.00 |
2 |
Z21 |
Z22 |
Z23 |
… |
Z2j |
… |
1 00 |
3 |
Z31 |
Z 32 |
Z 33 |
…. |
Z 3j |
… |
1.00 |
i |
Z i1 |
Z i2 |
Z i3 |
…. |
Z ij |
… |
1.00 |
m |
Zm1 m1 |
Z m2 |
Z m3 |
….. |
Z mj |
… |
1 00 |
Каждая z ij предполагается выраженной в единицах, зависящих от
используемой формы закона категориального суждения. Для уравнения (1.2) различные единицы предполагаются равными, а для уравнений (1.3) и (1.4) равными предполагаются единицы для каждого ряда и каждого столбца соответственно. Описание вычислительных процедур для получения шкальных оценок стимулов и границ категорий дано Торгерсоном [235], Эдвард-сом [125] и др.
Эдварде и Терстоун предложили вычислять разницу между подсчитанными из параметров модели долями рц и наблюдаемыми
долями [21. С.258]. Эта процедура может рассматриваться как критерий функционального единства шкалы. Гилфорд предложил использовать хи-квадрат Мостеллера для оценки статистической значимости величины расхождений [237. Р.89]. Однако Торгерсон отметил, что для любого из стимулов доля случаев, когда он будет оцениваться как больший, чем какая-то из границ категории, не будет независимой от доли случаев, когда он будет оценен как больший, чем любая другая граница категории. Появляющаяся в результате зависимость противоречит предположениям, лежащим в основе теста хи-квадрат.
46
Отрицательный результат проверки внутренней согласованности свидетельствует о необоснованности по крайней мере одного из сделанных допущений. В этом случае можно либо попытаться использовать новую совокупность предположений, либо отвергнуть гипотезу об одномерности и обратиться к процедурам многомерного шкалирования.
Существуют некоторые эмпирические доказательства инвариантности шкальных значений, полученных на одной выборке. П.Джо-унс [153 ] предлагал двум выборкам респондентов (из одной совокупности) оценивать один и тот же набор стимулов по 6- и 9-балльной шкале соответственно. Полученные шкалы, относившиеся к классу "аффективно-объектных", оказались линейно связаны. Более того, различительная дисперсия стимулов, оцененная для двух групп, оказалась одинаковой. Кроме того, были найдены доказательства инвариантности измеренной широты категорий.
Основным критическим аргументом, относящимся к категориальным шкалам и методам, основанным на законе категориального суждения, является указание на влияние специфических черт "судейской группы" на выносимые суждения. В исследованиях Э.Хинкли, П.Ферпосона и других (см.: [21. С.262-264]) доказывалось отсутствие влияния установок судей на результирующую шкалу. Однако и эти исследования были подвергнуты критике за специфическую процедуру исключения "легкомысленных" судей. В любом случае, оценивая шкалы, основанные на атрибутировании стимула к категории, нельзя забывать об известных из психосемантики и психофизики закономерностях, в частности о зависимости " экстремальности" оценок от субъективной значимости стимулов. Этих недостатков в значительной мере лишен метод парных сравнений, однако он труднее в применении. В целом накопленные доказательства свидетельствуют о том, что прямое интервальное шкалирование и, соответственно, метод равнокажущихся интервалов не дают интервальной шкалы, позволяя говорить лишь об ординальном уровне, тогда как методы, основанные на законе категориального суждения, имеют некоторые преимущества. Это, во-первых, возможность проверки шкальных гипотез, т.е. принимаемой совокупности допущений, и, во-вторых, линейная связь шкальных значений, полученных по этой модели, со значениями, полученными в соответствии с законом сравнительного суждения. Таким образом, модели, основанные на законе категориального суждения, могут обеспечивать интервальный уровень измерения17.
Описанные нами прямые и косвенные процедуры построения шкал непосредственно предназначены для измерения объектов и содержания установок. Однако основной интерес для нас представляют шкалы, измеряющие различия между субъектами установок, т.е. - между людьми, придерживающимися определенных мнений, имеющих определенные "готовности к действию" и аффективные ориентации. Именно к этому типу шкал установок относятся шкалы Терстоуна, Ликерта, Гутмана, история возникновения которых опи-
47
сана в первом разделе данной главы. Поэтому мы вкратце рассмотрим особенности этих шкал с точки зрения лежащих в их основе моделей измерения установок.
С данной точки зрения, шкала Терстоуна представляет собой двухшаговую процедуру построения аффективно-субъектной шкалы. В принципе она может применяться и для построения когнитивно-субъектной и поведенческо-субъектной шкал. Первый шаг этой процедуры соответствует модели прямого интервального шкалирования (см. выше) - каждое суждение получает значение на "аффективном" континууме в зависимости от эмоционального отношения к объекту установки. На втором шаге суждения шкалы предъявляются выборке респондентов, чье аффективное отношение к объекту установки должно быть измерено. Респондент соглашается либо не соглашается с отдельными суждениями. Окончательный балл респондента - это усредненное значение (средняя или медиана) баллов всех одобренных им суждений. В результате респонденты оказываются размещенными на той же шкале "за - против", что и предъявлявшиеся им суждения. Т.е. субъектам "присваиваются значения так, как если бы они были объектами в когнитивно-объектной шкале" [237. Р.91 ].
При конструировании терстоуновской шкалы установок важно соблюсти ряд требований, которые были сформулированы преимущественно самим Терстоуном [233]. В исходном наборе суждений должны быть представлены суждения, соответствующие всем градациям предполагаемого аффективного отношения, а аффективная "нагрузка" суждений должна быть достаточно очевидной. Терстоун также считал существенным, чтобы суждения выражали эмоциональное переживание, а не некоторый факт, отношение к которому может определяться чем-то, помимо установок респондента ("В США преобладают представители христианских конфессий"). Для окончательного отбора суждений в шкалу Терстоун использовал следующие критерии: 1) совокупность суждений должна "покрывать" весь предполагаемый континуум аффективного отношения, будучи достаточно равномерно распределена по нему; 2) отобранные суждения не должны быть двусмысленными и неясными, т.е. разброс суждений судей должен быть невелик (в качестве объективного критерия использовался межквартильный размах оценок, который для суждений в оригинальной шкале установок по отношению к церкви в среднем был равен 1,75; 3) должны быть исключены все иррелевантные суждения. При этом объективный критерий ирреле-вантности включал в себя процедуру определения индекса сходства для всех пар суждений, основанного на наблюденной совместной вероятности одобрения пары суждений. Релевантными считались те суждения, которые имеют высокий индекс сходства для близких по шкальному значению суждений, и низкий - для "далеких". Ирреле-вантными оказывались суждения, имевшие противоположный паттерн отношений. На рис.1 схематически показаны паттерны разброса индексов сходства для вымышленных релевантного и иррелевантного суждений (конкретные примеры приведены в книге Л.Л.Терстоуна
48
Рис. 1. Разброс индексов сходства для релевантных и иррелевантных суждений шкалы Терстоуна.
и Э.Чейва [233. Р.45-55]). Очевидно, что для применения критерия иррелевантности нужна еще одна выборка, т.е. группа респондентов, не участвовавших в "судейской" процедуре. Критерий иррелевантности сравнительно редко применялся при конструировании шкал такого типа. Не вполне ясно, насколько этот критерий, явно нацеленный на исключение суждений, "загрязненных" другими коннотациями, помимо собственно аффективной оценки объекта, важен для измерения установок. Однако заслуживает внимания аргумент Г.Апшоу: систематическое исключение суждений по такому критерию иррелевантности может ввести систематическое выборочное смещение в отбор из гипотетического универсума недвусмысленно эмоционально-положительных ("за") и эмоционально-отрицательных ("против") суждений [237. Р.93].
Как уже говорилось выше, терстоуновская модель категориальной шкалы не дает интервального уровня измерения. Вероятно, Терстоун в 30-е годы был очень близок к формулировке закона категориального суждения и соответствующей модели шкалирования, однако описанные нами ранее (см. раздел 3 данной главы) обстоятельства привели к отказу от дальнейшей работы в этом направлении.
Что же касается требования функционального единства, то в данном случае оно подразумевает линейную связь категориальных суждений любой пары судей. Многочисленные исследования, связанные с возможностью переноса шкальных значений, полученных на "судейской" выборке, на более широкие совокупности, подтвердили, что это требование удовлетворяется [21. С.262-264; 237. Р.94].
Как уже говорилось выше, данная процедура построения шкалы может применяться и для создания когнитивно-субъектных и пове-денческо-субъектных шкал установок. Полученные шкалы будут отражать соответственно степень готовности приписывать характеристики объекту установки или склонность предпринимать определенные действия по отношению к нему.
49
Предложенный Р.Ликертом метод суммарных рангов, позволяющий получать аффективно-субъектные шкалы, как уже отмечалось, в отличие от терстоуновской процедуры не требует проведения отдельной экспертной процедуры, хотя также предполагает составление исходного "банка" суждений, касающихся объекта установки.
Так как первоначальный вариант метода описан нами ранее, остановимся лишь на общих чертах его применения. Исключение "несогласованных" суждений осуществляется по результатам применения исходного полного списка в группе респондентов, которая используется здесь как некий аналог "выборки стандартизации". Для отбора применяются критерии, типичные для психометрического "анализа пунктов", - корреляция с суммарным баллом и выявление вопросов, статистически значимо различающих респондентов "высокой" и "низкой" групп (отобранных по суммарному баллу).
При измерении аффективного компонента установки респонденты обычно получают инструкцию выбрать для каждого суждения одну из пяти категорий ответа: от "совершенно согласен" до "совершенно не согласен". Веса категорий отражают интенсивность согласия с суждением, выражающим благоприятную установку, или несогласия с суждением, отражающим неблагоприятную установку. Т.е. вес "5" может быть приписан категории, выражающей максимальное согласие с "за"-суждением, а вес "О" - категории, выражающей максимальное несогласие с этим суждением. В результате каждый респондент получит балл, соответствующий сумме численных значений своих ответов.
Особые и требующие специальных предосторожностей черты ликертовской процедуры являются побочным следствием ее простоты и экономичности. Во-первых, предполагается, что баллы, получаемые респондентами на основании согласия или несогласия с суждениями, представительны по отношению к гипотетической популяции всех благоприятных и неблагоприятных суждений. Однако ликертов-ская процедура не содержит никаких специальных средств, обеспечивающих репрезентативный отбор суждений из этой популяции. Так, здесь нет никакой "судейской" оценки, позволяющей, как в терстоуновской процедуре, оценить "аффективную нагрузку" и двусмысленность вопросов шкалы. Во-вторых, пункты, отобранные в результате анализа внутренней согласованности, это те, на которые респонденты исходной выборки реагировали согласованно. Т.е. отбор пунктов ведет к повышению функционального единства окончательного инструмента. Однако степень функционального единства зависит от сходства, гомогенности критериев, которые используют респонденты, входящие в конкретную выборку, при принятии или отвержении суждений. Функциональное единство, обеспечиваемое данной процедурой "анализа пунктов", предполагает, что респонденты пользуются качественно одним и тем же критерием принятия решения, отличающим респондентов друг от друга лишь по степени. Т.е. вопрос о том, сохраняется ли функциональное единство инструмента при переносе на другую выборку респондентов, оказывается связанным с общностью используемого респондентами критерия принятия или отвержения суждений (ср. [241. Р.116]). В-третьих, баллы, приписываемые категориям реакции в модели Ликерта, отражают интенсивность согласия-несогласия с суждением. Но если предположить, что каждое суждение имеет собственную "аффективную нагрузку" по отношению к объекту установки, то можно
50
предположить существование функции "весов" суждений и "весов" категорий ответа (возможно, неаддитивной), которая задавала бы точное значение аффективной ориентации каждого респондента по отношению к объекту установки. Однако в ликертовской процедуре пункты суждения принимаются равными по предполагаемой "эффективности". Т.е. сама процедура оказывается основанной на предположении, что "эффективность" одинакова для всех суждений в данной совокупности. Это допущение является необходимым, так как в противном случае интерпретация результатов становится неопределенной. Предположим, что одно из суждений выражэет крайнюю благожелательность по отношению к объекту установки, а другое -скорее нейтральное отношение. Чтобы суммирование по этим двум пунктам поддавалось осмысленной интерпретации, вес, приписываемый категории "совершенно согласен" для "нейтрального" суждения, должен был бы совпадать приблизительно с серединой ряда значений, присваиваемых категориям ответа по первому, "аффективному" суждению. Однако модель Ликерта не предполагает какой-либо оценки суждений, помимо оценки их обобщенной благожелательности - неблагожелательности по отношению к объекту установки. Г.Апшоу, критикуя эту модель, ссылается на данные Л.Ферпо-сона, показавшего, что процедура "анализа пунктов", применяемая при конструировании шкалы Ликерта, ведет к исключению суждений, которые не выражают крайние полюса эмоциональной оценки объекта установки. Фергюсон исследовании 1941 г. предъявлял уже прошедшие отбор суждения ликертовской шкалы судейской группе, члены которой ранжировали их по степени подразумеваемого аффекта (т.е. аналогично процедуре Терстоуна). Для четырех из пяти объектов установки суждения ликертовской шкалы сгруппировались у полюсов континуума "за" - "против" [129].
Сам Г.Апшоу продемонстрировал зависимость "выживания" суждений при отборе от их экстремальности следующим образом: исходная совокупность суждений была получена от репрезентативной выборки респондентов, которых просили описать позиции, соответствующие крайним градациям шкалы "за - против". Из описаний и был составлен список из 18 суждений. Семнадцать из этих суждений при использовании на других выборках из той же популяции оказались дискриминативными для высоких и низких баллов на 5-процентном уровне.
Как справедливо указывает Б.Грин, математическая модель, подразумеваемая техникой присвоения баллов респонденту по методу Ликерта, - это модель единого общего фактора [21. С.265-267]. Внутренняя корреляция пунктов - результат действия единого общего фактора. При фиксированном уровне этого фактора (аффективного компонента установки) пункты окажутся независимыми. Это, по сути, та же модель, с которой работают факторный и латентно-структурный анализ. Идеальная линейная корреляция между общим баллом и латентным общим фактором достигается, когда "длина" списка суждений стремится к бесконечности. Самым прямым способом верификации модели общего фактора является, видимо, фак-
4* 51
торный анализ пунктов шкалы18. Основные источники по проблеме "взвешивания" пунктов перечислены в статье Б.Грина [21 ], однако мы здесь не будем останавливаться на их анализе, так как они принадлежат преимущественно к психометрической традиции и не оказали заметного влияния на конструирование ликертовских шкал в социологии. В случае следования ликертовской технике присвоения баллов может быть получен ординальный уровень измерения. По мнению Б.Грина, шкала ликертовского типа имеет метрику в том смысле, что для данной совокупности пунктов можно получить распределение баллов в генеральной совокупности. Различие между баллами будет отражать пропорции людей, имеющих соответствующие оценки [21. С.267].
Шкалограммный анализ Гутмана, как уже говорилось при описании истории его разработки (см. раздел 4), применялся к измерению когнитивно-, поведенческо- и аффективно-субъектных переменных. Результирующая шкала является ординальной. Основания шкалограммного анализа изложены Гутманом в работе [222. Р.60-90 ]. Конструирование шкалы начинается со спецификации "универсума признаков" ("universe of attributes" по Гутману). Спецификация заключается в отборе тех манифестаций когнитивной, аффективной или поведенческой переменной, которые можно считать основными, решающими при предполагаемом обобщении шкальных значений. Если пункты шкалы можно считать случайной выборкой из популяции пунктов, воплощающих самые существенные аспекты универсума признаков, а респонденты представляют собой случайную выборку из известной совокупности, то реакция выборки респондентов по отношению к выборке пунктов может быть обобщена для обеих совокупностей. Если, как и в случае с ликертовской шкалой, предположить, что каждый индивидуум имеет внутренний критерий, в соответствии с которым он принимает или отвергает какое-то суждение (выражающее мнение, предполагаемый способ действия или эмоциональную оценку), то совокупность респондентов и совокупность суждений могут быть совместно логически упорядочены на шкале Гутмана тогда, когда все респонденты используют одно критериальное качество (количественно варьирующее), принимая решение согласиться или не согласиться с каждым пунктом опросника. Г.Апшоу приводит пример с вопросом о целесообразности вмешательства американских вооруженных сил в конфликт на азиатском континенте. Респондент может оценивать этот вопрос с точки зрения последствий этого для геополитической позиции США. Другой же респондент, выбирая между "да" и "нет", может оценивать суждение с точки зрения принесения человеческих жертв ради политических целей. Когда же оба респондента руководствуются одним и тем же свойством суждения, они могут отличаться с точки зрения "нагруженное™" данного суждения этим качеством, которая требуется, чтобы каждый из них согласился с суждением.
52
Модель шкалограммного анализа предполагает, что суждения выражены в форме, которая логически позволяет определить вероятность принятия суждения как монотонно возрастающую или монотонно убывающую функцию шкальной позиции респондента. Т. е. речь идет о шкалировании монотонных признаков в терминологии К.Кумбса (Терстоун говорил в этой связи о шкалах возрастающей вероятности, которым противостоят шкалы максимальной вероятности [233 ]; Стауффер - о кумулятивных шкалах, отличающихся от дифференциальных [222. Р. 3-45]). Как уже отмечалось, сама идея шкалирования кумулятивных признаков явно присутствовала уже в шкалах социальной дистанции Боргадуса. Однако формальный метод шкалирования был разработан впервые Гутманом. Согласно модели шкалограммного анализа, признаки-пункты могут быть расположены вдоль континуума переменного качества.
Исходным и самым простым случаем для модели является дихотомический признак-пункт (высказывания, имеющие несколько категорий ответа, можно рассматривать как совокупность нескольких высказываний-категорий). Упорядочение пунктов на кумулятивной шкале таково, что респондент, позитивно прореагировавший на некий пункт, будет также позитивно реагировать на все пункты, имеющие более низкий ранг. Соответственно респонденты располагаются в зависимости от ранга избранных ими пунктов. Проиллюстрируем это с помощью гипотетической гутмановской шкалы для шести респондентов и пяти пунктов-суждений, которая изображена на рис.2.
Возрастание переменной = свойства »-
R1 I1 R2 I2 R3 I3 R4 I4 R5 I5
Рис.2. Гипотетическая шкала Гутмана для 5 пунктов и 6 респондентов.
Пять дихотомических пунктов (т.е. суждений с двумя возможными категориями ответа) обозначены точками /j , /2 ... 1$. Шесть респондентов, соответственно, представлены точками ri , R2 ... R,. Расположение каждой точки соответствует количеству переменной-свойства (эмоциональной установки, соматоневротической симптоматики и т.д.). Количество шкалируемого свойства, соответствующее локализации данного пункта /„, - это граница между двумя категориями ответа по данному пункту. Таким образом, положительный ответ определяет некоторую область с одной стороны шкального расположения пункта, а отрицательный - область с другой стороны. Локализация респондента зависит от той величины переменной-свойства, которая соответствует его критерию принятия решения о согласии или несогласии с суждением. Образно говоря, критерий "резонирует" на некоторое минимальное или максимальное пороговое значение вербализуемой в вопросе установки. Так, в ситуации, изображенной на рис.2, респондент будет соглашаться с любым пунктом-суждением, имеющим меньшее количество заданного свойства, чем его требует его критерий, и отвергать остальные. Следова-53
абсолютной
(совершенной) гутмановской школы
предполагает наличие
взаимосвязи между пунктами-суждениями
шкалы. Условная вероятность
события "респондент согласится с
пунктом Im
", если он
Таблица 1.3. Шкалограммная матрица, иллюстрирующая паттерн ответов для гипотетической шкалы на рис.2
Возрастание переменной-свойства
Пункты и респонденты представлены соответственно столбцами и строками шкалограммной матрицы. Пункты расположены от максимальной до минимальной степени выраженности свойства. Респонденты расположены сверху вниз по убыванию рангового порядка критерия. Знаки "+" соответствуют согласию респондента с пунктом-суждением, знаки "—" - несогласию. Очевидно, что популярность пункта является обратной функцией его положения на шкале. Положение респондента на шкале зависит от частоты положительных ответов для данного набора пунктов-суждений. На практике приближение к идеальной шкалограмме, представленной таблицей 1.3, может быть достигнуто упорядочением пунктов по их популярности (частоте положительной реакции) и упорядочением респондентов по частоте позитивных реакций для шкал, близких к абсолютной. Для шкал, близких к абсолютной, число положительных ответов может быть использовано как балл респондента, так как обычно оно хорошо коррелирует с результатами применения более сложных методов присуждения баллов [21. С.272 ]. В общем же случае при неабсолютной шкале респондент получает балл того шкального типа, который ближе всего к его паттерну ответов. Различные вычислительные процедуры включают перестановку строк и столбцов, комбинирование категорий ответа и, иногда, "переворачивание" направления шкалы для некоторых пунктов-суждений. Целью здесь является максимальное приближение к паттерну ответов, соответствующему шкальной гипотезе.
Сопоставление шкальной гипотезы и случайной гипотезы о независимости пунктов имеет следующее обоснование. Существование
5 4
согласился с пунктом, имеющим более высокое положение по шкале, например / , равна единице. Для реальных данных, из-за ошибок измерения и/или неполного соответствия модели, рассчитанные значения этой условной вероятности будут меньше единицы. Возможна и ситуация, когда не выполняется предположение об одномерности, и респонденты реагируют на суждения шкалы, исходя из каких-то других свойств (критериев). (Самый яркий пример приведен в работе [241. Р. 109-114], содержащей достаточно типичную критику гутмановского подхода и понятия "ошибки": некто может ответить отрицательно на все вопросы шкалы социальной дистанции, но вместе с тем - дать позитивный ответ на вопрос: "Согласны ли Вы, чтобы Ваша дочь вышла замуж за негра?", не потому, что он "ошибся", а потому, что он равно не выносит негров и собственную дочь.) В любом случае, если считать, что пункты и респонденты не могут быть упорядочены на единой шкале, нужно принять альтернативную гипотезу о том, что пункты - статистически независимы и совместное принятие любых двух пунктов может быть приписано случаю. Т.е. условная вероятность принятия пункта Im при принятии пункта Im+1 равна просто вероятности принятия Im.
Согласно шкальной гипотезе, для дихотомических пунктов наибольшее возможное число наблюденных паттернов ответа будет на единицу больше числа пунктов. Согласно гипотезе о независимости, максимальное число паттернов ответа для п дихотомических пунктов будет 2". В общем, следуя шкальной гипотезе, можно ожидать, что знание числа пунктов, на которые данный респондент дал позитивный ответ, позволит полностью предсказать паттерн его ответов. Это следствие шкальной гипотезы обозначается понятием "воспроизводимость". Как уже говорилось, получение абсолютной гутмановской шкалы на реальных данных маловероятно. Поэтому на практике балл присуждается посредством приписывания индивида к шкальному типу (входящему в паттерны ответов идеальной шкалы) таким образом, чтобы ошибка воспроизводимости была минимальной. Т.е. шкальный тип - это группа респондентов, дающая паттерны ответов, предсказываемые идеальной шкалой. Скажем, для опросника из четырех пунктов имеет место следующая ситуация: + + + +; - + + +; - - + +; ---+; ----. Нешкальный паттерн + - - - может быть отнесен к шкальному типу - - - - с одной ошибкой (по шкальной гипотезе один позитивный ответ предполагает паттерн - - - + , однако при отнесении в этот шкальный тип ошибок воспроизводимости было бы две). Общей мерой соответствия шкальной модели данным служит коэффициент воспроизводимости (ReP), равный:
ReP = 1 —
число ошибок воспроизводимости /общее число ответов
55
В качестве основного критерия для определения приемлемости набора пунктов как шкалы Гутман предложил использовать величину коэффициента воспроизводимости не ниже 0.90. Т.е. ответы, классифицированные как "ошибка", должны составить не более десяти процентов наблюдений. Однако этот критерий сам по себе недостаточен, так как еще сам Гутман показал, что коэффициент воспроизводимости для небольшого набора пунктов, которые статистически независимы, может быть очень высоким [222. Р.277-311]. Поэтому если пункты дихотомические, их должно быть не меньше десяти. Кроме того, манипулируя матрицей ответов при конструировании шкалы, исследователь в определенном смысле увеличивает шансы шкальной гипотезы. Поэтому возникает необходимость в дополнительных критериях: значительный разброс в маргиналах пунктов, минимизация ошибки для каждой категории ответа, не слишком высокая частота нешкальных паттернов ответа. Учитывая неоднозначность этих критериев, некоторые авторы предложили собственные алгоритмы "осторожного" конструирования шкалы. Так Г.Апшоу предлагает следующую процедуру определения того, формирует ли конкретная совокупность данных гутмановскую шкалу [237. Р.104-105]: наряду с реальной шкалограммой, где минимизированы ошибки воспроизводимости и известна популярность каждого пункта, построить гипотетическую матрицу данных, основываясь на гипотезе независимости пунктов (для определения ответов гипотетических респондентов предлагается пользоваться таблицей двузначных случайных чисел). Далее по тем же правилам, что и для реальных данных, осуществить необходимые перестановки в гипотетической матрице, чтобы минимизировать ошибки воспроизводимости. После этого следует сравнить оценки гутмановских шкал для реальных и гипотетических данных. Для этого реальные и гипотетические респонденты разбиваются на категории в зависимости от числа ошибок (респонденты с одной, двумя ошибками и т.д.). К получаемой таблице сопряженности можно применить тест хи-квад-рат, чтобы проверить случайную гипотезу для совокупности реальных данных. Однако, строго говоря, эта процедура позволяет проверить лишь конкурирующую гипотезу о том, что между пунктами нет никакой систематической взаимосвязи, тогда как гутмановская гипотеза утверждает, что эта взаимосвязь почти абсолютна. Поэтому строгое и однозначное решение этой процедурой не гарантируется.
Фактически критерии подтверждения шкальной гипотезы, следующей из модели Гутмана, это критерии функционального единства, основанные на внутренней согласованности реальных данных. Как уже говорилось, эти критерии никак не связаны с правилами приписывания баллов. Чаще всего респонденты получают баллы, соответствующие числу положительных ответов для "своего" шкального типа, что отражает их положение на ординальной шкале латентного свойства-переменной. Сходным образом пункты (точнее, границы между категориями ответа) получают баллы в зависимости от их ранга в шкалограммной матрице. Сам Гутман предложил аналитическую процедуру присвоения баллов, основанную на критерии
максимальной дисперсии баллов. По мнению Б.Грина [21. С.276-277 ], метод максимальной дисперсии баллов не играет большой роли в шкалограммном анализе, однако получаемые несколько ортогональных систем баллов (главные компоненты) могут представлять интерес с формально-математической точки зрения. Гутман показал, что для абсолютной шкалы - если оценки различных систем баллов появляются как функции первоначальных шкальных баллов - первая главная компонента является монотонной функцией шкальных баллов и, таким образом, может быть использована как метрика системы.
Вторую главную компоненту, имеющую одну точку перегиба, Гутман отождествлял с также {/-образной функцией интенсивности установки (см. с.29), хотя основания для этого отождествления не вполне ясны.
Модель Гутмана равно применима к аффективно-, когнитивно- и поведенческо-субъектным шкалам, единственное различие между которыми будет заключаться в содержании вопросов.
В данном разделе, как уже говорилось, мы не стремились дать полный обзор существующих моделей шкалирования. Кроме того, детальный анализ классических моделей измерения установок содержится в ряде работ, в том числе упоминавшихся нами (см. также: [111; 112; 117]). Однако нам необходимо остановиться на некоторых особенностях классического подхода к шкалированию установок и его позднейших модификаций, которые особенно существенны для понимания той критики, которой подвергся этот подход и его "общепринятые истины" в результате появления причинных моделей измерения (и ошибки измерения), к рассмотрению которых мы перейдем в последующих главах.
Прежде всего, " классический" подход к шкалированию уделяет лишь незначительное внимание содержательной разработке понятия ошибки измерения. Точнее, этот подход довольствуется статистическими понятиями ошибки и истинного значения, унаследованными от традиционной психометрии, т.е. от родительской дисциплины. Безусловно, сама психометрическая парадигма шкалирования не остается неизменной. В последние десятилетия большую популярность (но не практическое значение) приобрели стохастические и эксплораторные модели шкалирования. В стохастических моделях (одно- и многомерных) наличие ошибки измерения явно постули-рется в противовес детерминистским моделям. Кроме того, модель шкалирования в этом случае обычно используется не как техника, а как критерий оценки валидности, лежащей в ее основании модели измерения [112. Р.32]. В последнем случае оценки параметров модели, полу-ченные при вычислениях меры соответствия модели данным, могут быть использованы как числовые значения объектов на шкале, т.е. измерение оказывается дополнительным "подарком валидной модели" [219. Р.8]. Под эксплораторными шкальными моделями понимаются модели, полученные в результате применения специальных процедур для выявления внутренней структуры данных. Строго говоря, эксплораторными (т.е. "исследующими", "раз-
56
57
ведочными") являются не модели, а эти процедуры анализа данных, позволяющие для данного набора показателей (индикаторов будущей шкалы) выяснить, есть ли у него структура и может ли эта структура быть представлена в виде одно- или многомерной шкалы. (Позднее мы еще вернемся к идеологии эксплораторного анализа данных и поиска моделей измерения.)
Кроме того, для "ранних" процедур шкалирования была характерна еще одна особенность. Процедуры приписывания баллов субъектам или суждениям не были основаны на каких-то явных эмпирически наблюдаемых отношениях доминантности/эквивалентности между объектами оценивания. Следовательно, для таких шкал оказывались неприменимы постулаты репрезентационной теории измерения, так как отношения числовых значений шкалы не соответствовали каким-то наблюдаемым отношениям в эмпирической системе. Т.е., приписывание числовых значений не отражало (не репрезентировало) отношения между эмпирическими объектами. Как мы уже говорили, обсуждая шкалы категориальных оценок (например, шкалы Терстоуна и Ликерта), приписывание чисел здесь в значительной мере произвольно. На этом основании построена часто применяемая классификация шкал, разделяющая их по типу измерения [117]. Шкалы оценок основаны на индексном измерении, когда числовое приписывание осуществляется более или менее произвольно. Шкальные процедуры, в которых приписывание числовых значений объектам соотнесено с эмпирически наблюдаемыми отношениями между объектами, называют репрезентсщионными. Однако даже стохастические эксплораторные модели шкалирования, разработанные в рамках психометрического подхода, отчасти основываются на тех же принимаемых произвольным решением (by fiat) предположениях, что и ранние шкалы установок. Эти предположения не подвергаются проверке сами по себе, как некоторые содержательные гипотезы о "механизмах" реального мира, порождающих социологические данные. Они представляют собой своеобразную "обратную проекцию" в реальность ряда нерефлексируемых особенностей сложившегося на более ранних этапах развития психометрики "образа человека". Чтобы проиллюстрировать сказанное, мы вкратце остановимся лишь на одном характерном примере. Стохастическая одномерная модель шкалирования, разработанная Р.Моккеном [182 ], основана на отношениях доминантности между объектами из различных множеств и может использоваться для построения шкал установок (в последнем случае два множества объектов - это субъекты и высказывания, как и в случае с только что рассмотренной шкальной моделью Гутмана). Модель позволяет получить ординальное упорядочение субъектов и высказываний (пунктов) шкалы. Из нее также можно вывести ряд ограничений на возможные ответы и, соответственно, проверить соответствие модели данным. В модели вводится понятие трудности высказывания (пункта), содержательная интерпретация которого предполагает существование некоторого порогового значения латент- ной установки, позволяющего респонденту положительно ответить на шкальный вопрос или согласиться с высказыванием. Очевидно,
58
трудность высказывания в этой модели совершенно аналогична по смыслу трудности вопроса в общей теории тестов и восходит к представлению о трудности теста в тестировании способностей. Функция, показывающая вероятность положительной реакции на данное высказывание в зависимости от значения латентной установки, называется графиком данного высказывания (либо характеристической кривой вопроса, как в общей теории тестов). Модель налагает ограничения на графики высказываний-пунктов. В частности, вероятность положительного ответа должна монотонно возрастать с ростом значения латентной установки, графики отдельных пунктов (вопросов, высказываний) шкалы не должны пересекаться (трудность пункта должна определяться однозначно) и т.п. В случае, когда ошибка измерения отсутствует или ею можно пренебречь, кумулятивная стохастическая модель одномерной шкалы превращается в детерминистскую, т.е. в идеальную модель, предполагаемую шкалограммным анализом по Гутману. Достоинством стохастической модели 'Р.Моккена является возможность вывести из самой модели некоторые ограничения на данные, позволяющие проверить модель. Т.е. решение о "шкалируемости" данной совокупности высказываний или вопросов здесь, в отличие от гутмановской модели, уже не основано на достаточно произвольных оценках процента допустимых "ошибок", а приписывание балла индивиду не является результатом грубой аппроксимации к "шкальному типу". (Пример построения и использования стохастической кумулятивной шкалы политических установок, наряду с подробным описанием шкальной модели, можно найти в [219].) Однако и в этой стохастической эксплораторной модели присутствуют те принимаемые без проверки (хотя, возможно, в ряде случаев верные) предположения классической психометрики. Это, во-первых, требование локальной независимости высказываний (пунктов) шкалы и, во-вторых, модель латентной черты (установки, способности), являющейся причиной ответов или реакций опрошенных. Локальная стохастическая независимость предполагает, что позитивный ответ данного респондента на некий вопрос шкалы статистически независим от ответов, данных на другие вопросы. Обоснованность и даже необходимость этого ограничения очевидна, когда речь идет, скажем, о совокупности арифметических задач, предназначенных для измерения одной и только одной способности. Однако, зная о различных типах систематической ошибки измерения, характерной для личностных и установочных шкал (позиционная тактика ответов, артефакты "социальной желательности" и др., о чем будет подробнее говориться в главе II), реалистично ли предполагать, например, что человек, согласившийся с утверждением о несущественности его личного участия в выборах, согласится с тем, что ему не следует голосовать, с той же вероятностью, что и другой человек, не согласившийся с первым утверждением [219. Р.12]? .
Что же касается предположения о латентном континууме свойства-установки, являющейся причиной явных ответов-индикаторов, то оно восходит к идеям Ф.Гальтона и Ч.Спирмена и отражает попу-
59
лярные в начале века представления о едином конституциональном факторе, определяющем многообразие поведенческих проявлений. В главе III, рассматривая различные модели измерения, мы убедимся, что латентная черта (свойство, фактор) далеко не всегда являются причиной своих индикаторов. Сейчас же отметим, что модель латентной черты чрезвычайно удобна для исследования соотношений генотипа и фенотипических проявлений организма в биологии или при изучении некоторых специальных способностей, имеющих высокую степень наследственной обусловленности. Однако применимость модели одномерного континуума латентного свойства в шкалировании установок требует куда более веских обоснований, помимо соображений удобства.
Глава вторая
ПРОБЛЕМА КАЧЕСТВА ИЗМЕРЕНИЯ В СОЦИОЛОГИИ: ОТ КОНСТРУКТА К ИНДИКАТОРУ И ОБРАТНО
1. Надежность, валидность и ошибка измерения: кризис классической теории тестов
Ключевые понятия оценки качества измерения - надежность и валидность - пришли в социологию из классической теории тестов и психометрики одновременно с появлением первых шкал установок. В нашу задачу не входит исчерпывающий анализ концепций надежности и валидности в теории тестов1, поэтому мы лишь кратко рассмотрим некоторые базисные предпосылки, допущения и результаты "классического подхода". Это позволит нам понять причины, определившие недостаточность этого подхода для оценки социологического измерения и вызвавшие возникновение новых представлений и методов оценки качества измерения в социальных науках.
Общее теоретическое определение надежности в психометрике связано с понятием устойчивости процедуры относительно объектов измерения [36. С.74-75 ]. В общем виде надежность относится к тому, "в какой мере измерения повторяемы - для одних и тех же индивидов при использовании различных мер одного и того же свойства или для различных лиц при использовании одной меры свойства" [191. Р. 172 ]. Если используемая мера, скажем, удовлетворенности браком, надежна, то при использовании разных конкретных индикантов (графических шкал, вербальных самоотчетов и т.д.) на одной и той же группе исследователь будет получать идентичные результаты. И, с другой стороны, повторные замеры будут давать тот же уровень удовлетворенности браком. Надежность-устойчивость (ретестовая, диахроническая надежность) характеризует точность измерения при проведении повторных тестирований. Надежность-согласованность (одномоментная надежность) связана с внутренней согласованностью инструмента, т.е. теста или батареи тестов [36. С.68-69]. Соответственно ненадежная мера (инструмент измерения) при измерении какого-то свойства у данной группы лиц будет давать неповторяющиеся или несогласованные результаты. Надежность измерительной процедуры, таким образом, находится в обратной связи с количеством случайных ошибок в процессе измерения. Случайные ошибки при повторном выполнении тестовых заданий могут быть и результатом неконтролируемых изменений условий тестирования, и следствием "моментальных" изменений в состоянии самого испытуемого. Итак, ретестовая надежность говорит о репрезентативности результатов теста для различных случаев его применения [2. С. 104 ]. Применимость ретестовой надежности как оценки качества измерения ограничена содержательными соображениями, теоретически-
61
ми представлениями об исследуемом свойстве (отсутствие эффектов "памяти", "научения", ограничение временными интервалами предполагаемой стабильности исследуемого свойства). Поэтому даже в психологическом тестировании повторное тестирование применяется прежде всего для оценки надежности элементарных психомоторных и сенсорных тестов [2. С.106]. Надежность-согласованность имеет другую содержательную природу и оценивается обычно через коррелирование либо взаимозаменяемых форм теста, либо частей одного теста.
Валидностъ измерения в самом общем смысле характеризует соответствие измерения его цели [131. Р.226; 191. Р.75]. Иначе говоря, валидность процедуры (инструмента) измерения состоит в однозначности и правильности получаемых результатов относительно измеряемого свойства объектов, т.е. относительно предмета измерения [36. С.74 ]. Надежность является необходимым, но не достаточным условием валидности, что и зафиксировано в основном психометрическом соотношении: валидность теста не может превышать надежность. Уже на интуитивном уровне очевидно, что надежный инструмент может измерять нечто другое вместо подразумеваемого конструкта (например, не температуру, а давление, или не интеллект, а особенности "познавательного стиля"). Классическая теория тестов признает принципиальное различие надежности и валидности, однако не дает средств для независимой оценки валидности и, фактически, сводит ее лишь к критериальной оценке (отсюда "надежность теста - это, собственно, его валидность по отношению к параллельному тесту" [172. Р.63]).
Нужно отметить, что самостоятельное осмысление проблем качества измерения в социологии долго тормозилось сравнительно меньшим к ним интересом. Собственно специально-методические исследования проблем валидности показателей вплоть до середины 60-х -70-х годов не были распространены в американской эмпирической социологии. Единственным исключением, достаточно серьезным по масштабам и результатам, было так называемое Денверское исследование валидности. Это исследование, проведенное денверским филиалом Национального центра исследований общественного мнения (NORC), было одним из трех основных проектов Комитета по измерению мнений, установок и потребительских нужд, созданного С.Стауффером в 1947 г. [104 ]. В исследовании, проведенном в 1949г., сопоставлялись данные ответов респондентов на фактографические вопросы с данными официальной местной статистики (регистрация и голосование, взносы в местную казну, наличие водительских прав и читательского билета библиотеки и т.п.). Сопоставляя данные официальной статистики, принимаемые за истинное значение, с ответами респондентов, исследователи обнаружили, что данные самоотчетов часто существенно от них отклонялись. Величина расхождений составляла от нескольких процентов до почти 50%, в зависимости от содержания вопроса. Изучалось также влияние интервьюера. Данные этого исследования критериальной валидности пред-
ставляют значительный интерес и сейчас (см., в частности: [199]). И все же, оценивая роль критериально-ориентированного подхода в валидизации данных, полученных в массовых опросах, следует помнить об ограничениях, присущих этому подходу: объективный критерий, используемый как "эталон", нередко нуждается в столь же строгой оценке своих измерительных качеств. Здесь нам представляется вполне справедливой точка зрения Дж.Конверс: "(Действительно) Проводящие опросы исследователи редко выходят за пределы самоотчетов. Исследования валидности не только дорогостоящи, но и чрезвычайно сложны. Существует возможность сравнивать "субъективные" самоотчеты с "объективными" данными официальных документов, но большая часть документов, к которым обращаются для валидизации обследований, также построена на самоотчетах и, следовательно, обычно уязвима для тех же самых ошибок измерения и смещений, что и сами обследования. В некоторых ситуациях информация, полученная в социологических опросах, может оказаться лучше официальных данных: выборки часто точнее, чем переписи, и современная машинная обработка данных может успешнее устранять ошибки, чем системы "бумага-и-карандаш", до сих пор доминирующие в официальных записях" [109. Р.415].
Интерес к качеству измерения стал ведущей ориентацией в том "возрождении" проблематики измерения в социологии, которое произошло в середине шестидесятых годов, после приблизительно пятнадцатилетнего периода снижения популярности работ в данной области [177. Р.1].
Недостаточность классической теории тестов была осознана в социологии в конце 60-х - начале 70-х годов. Не отрицая полезности традиционного подхода к оценке надежности и валидности эмпирических измерений, содержащих случайную ошибку, специалисты по социологическому измерению (Дж.Борнстед, Х.Блейлок, Г.Костнер, Р.Зеллер, Р.Алтаузер и др.) показали принципиальную недостаточность и ограниченность психометрического подхода к оценке качества социологического измерения.
Для того чтобы убедиться в обоснованности этой оценки, рассмотрим некоторые основные положения психометрического подхода. Так как измеряемое (наблюденное) значение (X) из-за погрешности измерения (e) не равно истинному (Т) , то можно записать:
X = Т + е. (2.1)
Далее обычно делаются некоторые предположения об ошибке измерения [172. Р.36]:
отрицательные и положительные величины ошибок взаимопо-гашаются, т.е.
E(e) =0
2) истинные баллы и ошибки не скоррелированы:
ρ (t,e)= 0;
62
63
3) корреляция между значением ошибок по одному измерению и истинным значением по другому равна нулю:
р (e1, t2) = 0;
4) корреляция ошибок различных измерений равна нулю Р (e1, е2) = 0.
Из этих предположений следует: Е(Х) = Е(Т).
Отсюда:
Так как ковариация истинных баллов и ошибок (по определению) равна нулю, т.е.
то из формулы
следует:
Отсюда следует определение надежности как доли дисперсии истинного компонента измерения от общей дисперсии теста:
т.е. корреляция параллельных тестов (пунктов) равна дисперсии истинного компонента, деленной на дисперсию измеренных значений. Формула (2.5) позволяет выразить дисперсию истинного балла через наблюдаемые величины:
(2.6)
т.е. через произведение дисперсии измеренных значений и корреляции параллельных форм. Подстановка этого выражения в формулу (2.4) дает:
(2.7)
Надежность =
Если вся дисперсия измеренных баллов связана с ошибкой измерения (по определению случайной), то надежность равна 0. Если бы никакие ошибки не влияли на измерение, то надежность теста была бы равна 1.
Так как из формулы (2.4) на практике нельзя произвести оценку надежности (дисперсия истинных баллов неизвестна), то для оценки надежности вводится представление о параллельных (собственно параллельных или тау-эквивалентных) формах теста. Для нас достаточно рассмотреть случай параллельных тестовых измерений, для которых вводится предположение о равенстве истинных компонентов и дисперсий ошибочных компонентов, что можно выразить следующим образом:
X = T и X = T +e
где
= и T=T
64
дисперсий измеренных баллов; 3) равенство корреляций параллельных форм с другими переменными; 4) равенство попарных интеркорреляций нескольких параллельных форм. Из всей совокупности Предполагается, что параллельные формы имеют ряд важных свойств: 1) равенство средних измеряемых значений; 2) равенство
Т.е. оценка надежности - это корреляция параллельных форм.
В классической теории тестов валидность определяется как корреляция измерения X и измерения Y [172. Р.61 Г]2;
(2.8)
Валидность =
Если X и Y - параллельны в вышеуказанном смысле, то:
Х-Т
.
= о
Y=T
(2.9)
Отсюда очевидно концептуальное тождество критериальной валидности и надежности 3. Однако, отмечают, Р.3еллер и Э.Карминес, "... по определению
к лассическая теория тестов применима тогда и только тогда, когда ошибка измерения является полностью случайной. Попросту говоря, в классической теории тестов предполагается, что вся ошибка измерения случайна" [242. Р. 11]. Конечно, в социологическом опросе или даже в исследовании, использующем агрегированные данные переписи, существует много источников случайной, несистематической ошибки измерения. Например, ошибки кодирования или простого подсчета могут носить случайный характер. Если респондент с равной вероятностью (при повторном опросе) выбирает одну из соседних категорий ответа, ошибка измерения также может носить несистематический характер. Однако как только эта ошибка теряет случайный характер, "это уже не проблема надежности, а скорее проблема валидности" [225. Р.13]. Как только ошибка измерения становится неслучайной, часть вариации в индикаторах оказывается связанной с каким-то иным конструктом, отличным от того, который исследователь стремится измерить. Т.е. систематический компонент дисперсии надежного индикатора может относиться только к теоретически специфицированному конструкту, что обеспечит валидность индикатора. Невалидная же, но надежная мера, может полностью или частично относиться к другой переменной, а не к той, для измерения которой она была сконструирована. Следует отметить, что введенное в психометрике в 50-х годах понятие конструктной валидности (см., например: [18]) также было сфокусировано на отношениях эмпирических показателей к теоретическим конструктам, однако процедуры оценки конструктной валидности не могли быть разработаны в рамках традиционного подхода. Для оценки конструктной валидности предлагалось использовать экспертные оценки, содержательные соображения, внешние критерии4.0днако систематическая разработка представлений о конструктной (или концептуальной) валидности и процедур ее оценки стала возможна лишь в результате возникновения в американской социологии моделирующего подхода к измерению и широкой трактовки измерения как "теоретически-нагруженного" процесса, связывающего концепты теории с эмпирическими индикаторами (вторая половина 60-х -70-е годы). Анализу этих новых подходов к измерению, причинных моделей и "вспомогательных теорий измерения" посвящена третья глава этой книги. Здесь же нам важно зафиксировать, что инновации в концептуализации надежности и валидности, как и появление новых методов оценивания качества социологического измерения, были вызваны, прежде всего, той трактовкой измерения, которая первоначально была предложена в работах Х.Блейлока5 .
Конкретные причины, вызвавшие неудовлетворенность социологов, занимавшихся проблемами измерения, механическим переносом традиционной психометрической "парадигмы" оценки качества измерения, очень отчетливо сформулированы в книге Р.Зеллера и Э.Карминеса [242. Р. 11-12]. Во-первых, предположение о случайной природе всей ошибки измерения, приемлемое в психологическом эксперименте, чаще всего необоснованно, когда речь идет о выборочном обследовании, опросе и т.п. Измерение, основанное на таком типе данных, обычно включает и случайный, и неслучайный ошибочный компонент. Характерными примерами являются эффекты "памяти", социальной желательности, установки на позитивный или негативный ответы. В более широком смысле здесь можно говорить о неэквивалентности экспериментального и статистического контроля (применительно к обоснованности научного вывода в неэкспериментальных исследованиях эта проблема была впервые сформулирована в [212], см. также: [168]). Еще более существенным является то обстоятельство, что систематическая ошибка измерения имеет место и тогда, когда "совокупность индикантов измеряет не только подразумеваемый теоретический концепт или даже репрезентирует совершенно иной концепт" [242. Р.11]. По определению такого рода ошибки не обладают, по крайней мере, некоторыми из статистических свойств, приписываемых собственно случайной ошибке измерения. Т.е. имеет место как минимум одно из следующих обстоятельств:
Р.Зеллер и Э.Карминес приводят пример утвердительной и отрицательной тактик ответа со стороны респондента. В этом случае сформулированные в одном "направлении" пункты, даже если они никак не связаны сами по себе, оказываются скоррелированными. И уже нельзя говорить о равенстве нулю корреляции между ошибками измерения по отдельным пунктам-индикантам.
Вторым недостатком классической теории тестов является, с точки зрения этих авторов, отсутствие адекватной концептуализации валидности и отношений между валидностью и надежностью, т.е. то, о чем уже говорилось выше. Вслед за Дж.Борнстедом, Р.Зеллер и Э.Карминес утверждают, что простое знание того, что валидность измерения (как корреляция с другой переменной) не может быть выше квадратного корня его надежности, не решает никаких проблем. Это соотношение, как отметил Дж.Борнстед [95. Р.97 ], не дает никакого прямого знания о валидности как о степени соответствия индикаторов предполагаемой цели измерения. Более того, сама оценка валидности оказывается "побочным продуктом" оценки надежности [242. Р. 12].
Осознание двух названных принципиальных ограничений, присущих психометрическому подходу к оценке качества измерения в социологии (игнорирования систематической ошибки и неудовлетворительной теоретической дифференциации надежности и валидности), привело к возникновению новых идей и ориентации. В после-
67
д ующих двух разделах мы проанализируем два близких подхода к валидности и надежности измерения, очень характерных, на наш взгляд, для происходивших в 60-е - 70-е годы изменений.