- •Основы статистического анализа
- •1 Основные задачи статистического анализа
- •1.1 Выборочный метод
- •1.2 Основные задачи статистического анализа
- •Задача 1
- •Пример 1
- •2 Первичная статистическая обработка результатов наблюдений
- •2.1 Графическое представление данных
- •2.2 Числовые характеристики вариационного ряда
- •2.3 Интервальные оценки (доверительные интервалы)
- •2.4 Определение достаточного объема выборки
- •3 Сравнение двух выборок.
- •4. Статистическая оценка расхождения между выборочными частотами.
- •5. Сравнение долей
- •6. Исследование зависимостей
- •6.1. Постановка задачи
- •6.2. Линейная зависимость
- •6.4. Множественная линейная зависимость
6.4. Множественная линейная зависимость
Начнем с примера. Пусть наблюдается выборка :
, где возрастает, рост.
(*)-средний рост для заданного возраста. Имеем модель . Можно усложнить модель, если рассматривать и другие факторы. По аналогии с рассмотренной моделью можно построить линейную регрессионную модель , где вес, возраст. Сложность в том, что эта модель не будет "хорошо" описывать реальные данные, т.е. будет сильный разброс относительно подгоночной прямой, т.к. не учтены в модели другие факторы, влияющие на вес (рост, полнота). Рассмотрим более точную модель: , где вес, возраст, рост, объем талии.
Сформулируем задачи множественной регрессии:
1) Для заданной системы данных построить многомерную линейную модель;
2) Оценить степень тесности связи между и входящими переменными ТТ, тем самым будет оценена пригодность модели;
3) Отбросить из модели несущественные переменные (упрощение модели);
4) Оценить тесноту "очищенных" связей, т.е. оценить "чистое" влияние на Y одного выделенного фактора ТТ.
1. Для построения линии наилучшей подгонки используется специальный метод, реализованный на ЭВМ.
2. Для оценки тесноты связи используют коэффициент множественной корреляции; существуют на ЭВМ программы для вычисления множественного коэффициента корреляции R (ТТ). При R ТТ 1 связь более тесная, поэтому необходимо найти такое ТТ, что при ТТ можно говорить о наличии сильной связи между Y и (ТТ).
Известно, что статистика ТТ имеет t-распределение Стьюдента с степенями свободы, поэтому для заданных P (доверительной вероятности) или ТТ (вероятности ошибки) и по таблицам распределения находится ТТ и тогда если ТТ ,то значим и связь сильная.
Итак, имеем следующую процедуру:
1. По программе для ЭВМ вычислить .
2. По заданным P (ТТ) и по таблице распределения найти ТТ(P,n-k-1).
3. Если ТТ, то множественный коэффициент корреляции значим ТТ связь достоверная, т.е. набор входных переменных (ТТ) достоверно описывает выходную переменную .
Если не значим, то возможны следующие варианты:
1) Список входных переменных ТТ является неполным;
2)выбраны не те входные переменные.