Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Teoria_veroyatnostey.doc
Скачиваний:
4
Добавлен:
18.09.2019
Размер:
3.6 Mб
Скачать

13. Кореляційний аналіз даних.

Распишем 2-мерную дискретную случайную величину.

Если результат СЭ описывается двумя случайными величинами X и Y, то принято говорить о 2-мерной СВ или о системе СВ (Х0Y). Ее интерпретируют как случайную точку с координатами (X; Y) по плоскости хОу или как случайный радиус-вектор такой точки.

Совместной функцией распределения системы (Х, Y) называют функцию F(x; y) двух переменных, определяемую равенством: F(x; y) = P{(X < x)*(Y < y)}.

Геометрически F(x; y) представляет собой вероятность попадания случайной точки (х; у) в бесконечный квадрат с вершиной (х; у), лежащий левее и ниже ее. Пусть ДСВ Х и Y принимают значения х1, х2, … и у1, у2, … соответственно. Тогда совместный закон распределения можно задавать матрицей (Рij), элементы которой рij=P{(X = xi)(Y = yj)}, удовлетворяют очевидному условию: .

Суммируя вероятности рij по строкам, получим ряд распределения СВ Х, а суммируя их по столбцам – СВ Y.

Пусть т1 и т2 – математические ожидания, 1 и 2 – средние квадратичные отклонения случайных величин Х и Y соответственно.

Коэффициентом корреляции системы (X; Y)называют число:

Свойства коэффициента корреляции:

  1. –1  r  1;

  2. если X и Y – независимы, то r = 0;

  3. если Y = aX + b, где a и b - неслучайны, то r = 1 (знак “+” соответствует а > 0, знак “–” соответствует а < 0).

Распишем 2- мерную непрерывную случайную величину.

Совместная функция распределения F(x, y) =P{(X < x)(Y < y)} 2-мерной СВ (X, Y), обладает следующими свойствами:

  1. F(-, -) = F(-, y)=F(x, -)=0; F(+, +)=1;

  2. F(x, +) = F1(x) – функция распределения СВ Х;

  3. F(+, y) = F2(y) – функция распределения СВ Y.

  4. F(x, y) – неубывающая функция по каждому из аргументов.

В случае, если Х и Y непрерывные СВ, совместный закон распределения можно задавать совместной плотностью f(x,y) системы (Х, Y):

Две СВ Х и Y называются независимыми если f1(x/y) = f1(x) или f2(y/х) = f2(y).

Если Х и Y независимы, то совместная плотность системы (X, Y) равна произведению плотностей Х и Y: f(x,y) = f1(x)* f2(y).

Корреляционным моментом двух СВ Х и Y называют величину: K=M(XY) – M(X)M(Y).

Если Х и Y – непрерывны и f(x,y) – их совместная плотность, то:

Коэффициентом корреляции двух СВ Х и Y называют безразмерную величину r:

14. Регрессионный анализ данных.

Условное среднее - среднее арифметическое наблюдавшихся значений величины Y, соответствующих X=x. Функция изменения условного среднего от независимой переменной X называется уравнением регрессии. Уравнения регрессии строятся для зависимых переменных. Эти переменные входят в левую часть уравнения. Независимые переменные входят в правую часть уравнения и позволяют предсказывать зависимую переменную.

Предсказанные значения зависимой переменной – значения , вычисленные по уравнению регрессии с оцененными коэффициентами регрессии. Остатки – разности между наблюдаемыми и предсказанными значениями зависимой переменной: . Сумма квадратов остатков - сумма вида Сумма квадратов зависимой переменной, скорректированная на среднее Сумма квадратов предсказанной зависимой переменной, скорректированная на среднее Известно, что для суммы квадратов указанных величин, выполняется равенство: .

Коэффициент детерминации и скорректированный коэффициент детерминации

, , где - число наблюдений, - число параметров модели (число независимых переменных плюс 1, так как обычно в модель включается свободный член).

Наибольшее применение получили уравнения регрессии, отражающие взаимосвязь одной зависимой переменной с одной (парная регрессия) или несколькими (множественная регрессия) независимыми переменными.

Чаще всего используют следующие парные и множественные зависимости:

; (парная и множественная линейная регрессия);

; (парная и множественная параболич. р.);

; (парная и множественная гиперболич. регрессия);

; (парная и множественная степенная регрессия)

; ; (парная и множествен. показательн р.)

Обычно стараются использовать линейные зависимости или зависимости приводимые к линейным путем преобразования переменных. Параметры уравнения регрессии подбираются методом наименьших квадратов, который обеспечивает минимальную сумму квадратов отклонений фактических величин Y от вычисленных по уравнению регрессии для заданных значений независимых переменных.

Для линейной регрессии парного типа коэффициенты и находятся из решения системы уравнений: =>

В общем виде функция множественной регрессии имеет вид , где - функция остатков с нулевым средним и неизвестной дисперсией, определяющая случайное отклонение зависимой переменной от уравнения регрессии. Предполагается, что величины не коррелированы в разных опытах. Часто считают, что остатки нормально распределены.

Регрессионный анализ данных предполагает, что выбирается наиболее оптимальный вид функции регрессии из набора (1)-(5), оцениваются коэффициенты функции регрессии и строятся для них доверительные интервалы, проверяется гипотеза о значимости регрессии, оценивается степень адекватности модели и т.д.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]