- •2. Теореми додавання та множення ймовірностей.
- •3. Формула повної ймовірності. Формула Байєса.
- •4. Послідовності випробувань. Повторюванні експерименти. Схема Бернуллі. Локальна і інтегральна теореми Муавра-Лапласа. Поліноміальна схема.
- •5. Випадкові величини (вв). Дискретні та неперервні вв.
- •6. Функція розподілу ймовірностей. Непереривні випадкові величини.
- •7. Числові характеристики вв. Математичне сподівання та дисперсія.
- •8. Нормальний, рівномірний та показниковий (експоненціальний) закони
- •9. Генеральна сукупність, вибірка, основні способи організації вибірки. Емпірична функція розподілу. Полігони і гістограми.
- •10. Статистичне оцінювання параметрів. Ґрунтовна, незміщена, ефективна
- •11. Критерії узгодження: Пірсона та Колмогорова. Методи моментів,
- •12. Перевірка статистичних гіпотез.
- •13. Кореляційний аналіз даних.
- •14. Регрессионный анализ данных.
- •15. Часові ряди.
13. Кореляційний аналіз даних.
Распишем 2-мерную дискретную случайную величину.
Если результат СЭ описывается двумя случайными величинами X и Y, то принято говорить о 2-мерной СВ или о системе СВ (Х0Y). Ее интерпретируют как случайную точку с координатами (X; Y) по плоскости хОу или как случайный радиус-вектор такой точки.
Совместной функцией распределения системы (Х, Y) называют функцию F(x; y) двух переменных, определяемую равенством: F(x; y) = P{(X < x)*(Y < y)}.
Геометрически F(x; y) представляет собой вероятность попадания случайной точки (х; у) в бесконечный квадрат с вершиной (х; у), лежащий левее и ниже ее. Пусть ДСВ Х и Y принимают значения х1, х2, … и у1, у2, … соответственно. Тогда совместный закон распределения можно задавать матрицей (Рij), элементы которой рij=P{(X = xi)(Y = yj)}, удовлетворяют очевидному условию: .
Суммируя вероятности рij по строкам, получим ряд распределения СВ Х, а суммируя их по столбцам – СВ Y.
Пусть т1 и т2 – математические ожидания, 1 и 2 – средние квадратичные отклонения случайных величин Х и Y соответственно.
Коэффициентом корреляции системы (X; Y)называют число:
Свойства коэффициента корреляции:
–1 r 1;
если X и Y – независимы, то r = 0;
если Y = aX + b, где a и b - неслучайны, то r = 1 (знак “+” соответствует а > 0, знак “–” соответствует а < 0).
Распишем 2- мерную непрерывную случайную величину.
Совместная функция распределения F(x, y) =P{(X < x)(Y < y)} 2-мерной СВ (X, Y), обладает следующими свойствами:
F(-, -) = F(-, y)=F(x, -)=0; F(+, +)=1;
F(x, +) = F1(x) – функция распределения СВ Х;
F(+, y) = F2(y) – функция распределения СВ Y.
F(x, y) – неубывающая функция по каждому из аргументов.
В случае, если Х и Y непрерывные СВ, совместный закон распределения можно задавать совместной плотностью f(x,y) системы (Х, Y):
Две СВ Х и Y называются независимыми если f1(x/y) = f1(x) или f2(y/х) = f2(y).
Если Х и Y независимы, то совместная плотность системы (X, Y) равна произведению плотностей Х и Y: f(x,y) = f1(x)* f2(y).
Корреляционным моментом двух СВ Х и Y называют величину: K=M(XY) – M(X)M(Y).
Если Х и Y – непрерывны и f(x,y) – их совместная плотность, то:
Коэффициентом корреляции двух СВ Х и Y называют безразмерную величину r:
14. Регрессионный анализ данных.
Условное среднее - среднее арифметическое наблюдавшихся значений величины Y, соответствующих X=x. Функция изменения условного среднего от независимой переменной X называется уравнением регрессии. Уравнения регрессии строятся для зависимых переменных. Эти переменные входят в левую часть уравнения. Независимые переменные входят в правую часть уравнения и позволяют предсказывать зависимую переменную.
Предсказанные значения зависимой переменной – значения , вычисленные по уравнению регрессии с оцененными коэффициентами регрессии. Остатки – разности между наблюдаемыми и предсказанными значениями зависимой переменной: . Сумма квадратов остатков - сумма вида Сумма квадратов зависимой переменной, скорректированная на среднее Сумма квадратов предсказанной зависимой переменной, скорректированная на среднее Известно, что для суммы квадратов указанных величин, выполняется равенство: .
Коэффициент детерминации и скорректированный коэффициент детерминации
, , где - число наблюдений, - число параметров модели (число независимых переменных плюс 1, так как обычно в модель включается свободный член).
Наибольшее применение получили уравнения регрессии, отражающие взаимосвязь одной зависимой переменной с одной (парная регрессия) или несколькими (множественная регрессия) независимыми переменными.
Чаще всего используют следующие парные и множественные зависимости:
; (парная и множественная линейная регрессия);
; (парная и множественная параболич. р.);
; (парная и множественная гиперболич. регрессия);
; (парная и множественная степенная регрессия)
; ; (парная и множествен. показательн р.)
Обычно стараются использовать линейные зависимости или зависимости приводимые к линейным путем преобразования переменных. Параметры уравнения регрессии подбираются методом наименьших квадратов, который обеспечивает минимальную сумму квадратов отклонений фактических величин Y от вычисленных по уравнению регрессии для заданных значений независимых переменных.
Для линейной регрессии парного типа коэффициенты и находятся из решения системы уравнений: =>
В общем виде функция множественной регрессии имеет вид , где - функция остатков с нулевым средним и неизвестной дисперсией, определяющая случайное отклонение зависимой переменной от уравнения регрессии. Предполагается, что величины не коррелированы в разных опытах. Часто считают, что остатки нормально распределены.
Регрессионный анализ данных предполагает, что выбирается наиболее оптимальный вид функции регрессии из набора (1)-(5), оцениваются коэффициенты функции регрессии и строятся для них доверительные интервалы, проверяется гипотеза о значимости регрессии, оценивается степень адекватности модели и т.д.