- •Кафедра моэвм Проф. Д.Т.Н .Геппенер в.В. «анализ и интерпретация данных»
- •1. Введение в анализ данных
- •1.1.Проблема обработки данных
- •1.2. Матрица данных
- •1.3. Гипотеза компактности и скрытых факторов
- •1.4. Структура матрицы данных и задачи обработки
- •1.5. Матрица объект – объект и признак – признак, расстояние и близость
- •1.6. Измерение признаков
- •1.7. Основные типы шкал
- •2. Классификация данных.
- •2.1. Постановка задачи
- •1. Линейные
- •2. Нелинейные решающие функции
- •2.2. Статистические методы классификации
- •2.2.1. Постановка задачи классификации как статистической задачи при известных вероятностных распределениях.
- •2.2.2. Построение классификации для нормального распределения.
- •2.2.3.Числовые примеры
- •2.2.4. Оценка качества классификации
- •2.2.5. Классификация на основе оценки апостериорной вероятности
- •2.2.6. Классификация двух нормальных распределений с неравными матрицами ковариации
- •2.2.7. Классификация нормально распределенных векторов при неизвестных параметрах распределения
- •2.2.8. Задача статистической классификации для количества классов больше 2
- •2.2.9. Линейная дискриминантная функция Фишера
- •3. Обучаемые классификаторы. Детерминистский подход.
- •3.1. Общие свойства линейных дискриминантных функций в детерминистской постановке.
- •3.2. Персептронный алгоритм получения линейных решающих правил
- •3.3. Правила поиска решения, основанные на минимизации градиента функции качества
- •3.3.1. Формальный вывод персептронного алгоритма
- •4. Кластерный анализ
- •4.1. Постановка задачи группировки данных
- •4.2 Пример
- •4.3. Критерии качества разбиения на классы
- •4.4. Основные типы кластерных процедур. Основные задачи кластерного анализа
- •4.4.1. Построение последовательной процедуры итеративной оптимизации
- •4.4.4. Иерархические процедуры группировки
- •4.4.4.1. Агломеративная процедура
- •4.5. Статистические модели группировки
- •4.6. Алгоритм автоматической классификации на основе использования кластер-анализа
- •5. Методы снижения размерности
- •5.1. Методы отбора признаков по заданному критерию
- •5.2. Метод главных компонент
- •6. Факторный анализ
- •6.1. Модель факторного анализа
- •6.2. Структура факторных уравнений
- •6.3 Неоднозначность факторного решения
- •6.4. Метод главных факторов
- •6.5. Метод центроидных факторов
- •7. Многомерное шкалирование
- •7.1. Дистанционная модель для различий
- •7.2. Модель Торгерсона
- •7.2.1.Поворот
- •7.2.2 Объективные повороты
- •7.2.3.Ручные повороты
- •7.2.4.Размерность
- •7.2.5.Интерпретация
- •7.3. Выводы
- •8. Литература
1.7. Основные типы шкал
Тип шкалы определяется типом преобразований, с помощью которых одна числовая система, соответствующая данной эмпирической системе, переводится в другую числовую систему, также соответствующую данной эмпирической системе.
К числу преобразований, характеризующих основные типы шкал, относятся: тождественное, подобия, сдвига, линейное, монотонное и взаимнооднозначное. Чем меньше множество числовых систем, в которые гомоморфно отображается данная эмпирическая система, тем мощнее шкала, в которой она измеряется, по набору допустимых операций над ее числовыми значениями.
Наименее мощным типом шкалы является номинальная шкала. Очевидно, что эмпирическая система с отношением эквивалентности измерима в номинальной шкале. Измерение признака в номинальной шкале состоит в разбиении объектов на классы эквивалентности, где объектам одного класса соответствует одно число. В номинальной шкале значения числовой системы UZ определены с точностью до взаимно - однозначного преобразования (x), где x- исходное числовое значение. Это означает, что k различным значениям xij{1,…k} компоненты i признака Xj можно поставить в соответствие k произвольных различных значений ( xij ){(1),(2),…(k)}.
Более мощной является порядковая шкала. Можно доказать, что эмпирическая система с отношением линейного порядка измерима в порядковой шкале. Числовые системы, в которые гомоморфно отображается эмпирическая система с отношением линейного порядка, должны сохранять порядок на множестве объектов, соответствующий их ранжированию. В порядковой шкале значения числовой системы определены с точностью до монотонных преобразований.
Следующая шкала уже относится к количественному типу - шкала интервалов. В такой шкале значения числовой системы измеряются с точностью до линейного преобразования вида (x)=x+ > 0. В шкале интервалов сохраняется отношение разности численных значений. Действительно, пусть объектам a1, a2, a3, a4 в некоторой числовой системе соответствуют значения f(a1)= x11, f(a2)= x21, f(a3)= x31, f(a4)= x41 ,то есть измерен признак X1=(x11, x21, x31, x41)Т . Пусть в другой числовой системе измерен признак (X1) == (x11x21x31x41)Т . Тогда получим
Примером измерения в шкале интервалов является значение температуры по шкалам Цель-
сия, Кельвина, Фаренгейта.
Следующая количественная шкала - шкала отношений. В такой шкале значения числовой системы измеряются с точностью до преобразования подобия вида x = x, > 0. В такой шкале сохраняются отношения численных значений. Действительно, пусть объектам a1 и a2 соответствуют значения f(a1) =x11 и f(a2) =x21 в одной числовой системе и значения f(a1) и f(a2)в другой числовой системе, то есть значениям признака X1= (x11,x21)Т соответствуют значения признака Ф(X1) = (x11),x21))Т . Тогда получим
Измерениями в шкале отношений являются измерения веса, длины и прочих именованных величин, характеризующихся масштабом.
Наиболее мощной является абсолютная шкала. В ней значения числовой системы определяются с точностью до тождественного преобразования x)= x. Результаты измерения в абсолютной шкале определяются однозначно, например, число стульев, количество рабочих. Любое преобразование, кроме тождественного, исказит эти измерения и приведет к неправильным данным.