ПР2_Заболотников_9373
.pdfМИНОБРНАУКИ РОССИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ «ЛЭТИ» ИМ. В.И. УЛЬЯНОВА (ЛЕНИНА) Кафедра алгоритмической математики
ОТЧЕТ по практической работе №2
по дисциплине «Статистический анализ» Тема: Обработка выборочных данных. Нахождение точечных оценок
параметров распределения
Студент гр. 9373 |
|
Заболотников М.Е. |
|
Преподаватель |
|
|
Сучков А.И. |
Санкт-Петербург
2021
Цель работы.
Получение практических навыков нахождения точечных статистических
оценок параметров распределения.
Основные теоретические положения.
Для выполнения данной работы, помимо разобранного теоретического
материала (см. работу 1), использовались следующие понятия и формулы:
1.Ложный нуль – срединное значение вариационного ряда распределения (если вариант чётное количество, из двух срединных выбирается то, у которого абсолютная частота больше).
2.Условные варианты – варианты, вычисленные по формуле:
|
|
− |
|
= |
|
|
(1) |
|
|
||
|
|
|
|
|
|
|
где – условная варианта, – соответствующая исходная варианта, – ложный нуль и – длина интервала.
3. Условный эмпирический момент порядка – величина, которая находится по формуле:
|
|
|
|
|
|
|
|
|
|
− |
|
|
|
|
|
|
|
|
||
|
= ∑ ( |
|
|
) |
|
(2) |
|
|
|||||
|
|
|
|
|
|
|
|
=1 |
|
|
|
||
|
|
|
|
|
||
где – относительная частота соответствующей |
условной варианты, – |
|||||
|
|
|
|
|
|
|
количество вариант, а выражение в скобках – уже знакомая нам условная варианта.
4.Центральный эмпирический момент порядка – величина, которая
находится по следующей формуле:
|
= ∑( − ̅) |
(3) |
||
|
|
|
в |
|
|
=1 |
|
|
|
где ̅ – выборочное среднее, |
– варианта ряда, |
– соответствующая |
||
в |
|
|
|
|
относительная частота.
2
Нехитрыми преобразованиями можно получить, что центральный эмпирический момент первого порядка равен нулю. Приведём готовые формулы по вычислению центральных моментов порядков 2, 3 и 4:
|
|
|
= |
( |
|
− 2) 2 |
(4) |
|||||
|
|
2 |
|
|
2 |
|
|
1 |
|
|
|
|
|
3 |
= ( |
|
− 3 |
+ 2 3) 3 |
(5) |
||||||
|
3 |
|
|
|
2 |
1 |
|
|
1 |
|
||
= |
( − 4 |
|
+ 6 2 |
− 3 4) 4 |
(6) |
|||||||
4 |
|
|
|
3 |
1 |
|
|
|
2 |
1 |
1 |
|
5. Выборочное среднее – величина, которая высчитывается по формуле:
|
1 |
|
|
|
̅= |
∑ |
(7) |
||
|
||||
в |
|
|
|
=1
6. Выборочная дисперсия – величина, которая считается о формуле:
|
1 |
|
|
|
|
|
= |
∑( |
− |
)2 |
(8) |
||
|
||||||
|
|
|
в |
|
|
=1
Если считать выборочные среднее и дисперсию через условные варианты,
то имеют место следующие два равенства:
|
̅= ̅ |
в |
+ |
|
|
(9) |
|||
|
в |
|
̅̅̅ |
|
|
|
|
||
2 |
|
2 |
|
|
2 |
|
|
||
|
( |
2 |
− (̅ |
) |
(10) |
||||
= |
= |
|
) |
||||||
|
|
|
|
|
|
в |
|
|
|
где ̅в – выборочное среднее условных вариант, – условная выборочная
дисперсия и ̅̅̅2 – среднее квадратов условных величин.
7.Исправленная выборочная дисперсия – величина, которая считается
по формуле:
= |
|
|
(11) |
− 1 |
8.Исправленное СКО (среднее квадратичное отклонение) – величина,
равная квадратному корню из исправленной дисперсии:
|
|
|
|
|
(12) |
|
= √ |
||||
|
|
|
|||
9. |
Выборочное СКО – величина, равная корню второй степени из |
||||
выборочной дисперсии: |
|
||||
|
|
|
(13) |
||
|
в = √ |
3
10. |
Коэффициент асимметрии – величина, которая вычисляется по |
|||
формуле: |
|
|
|
|
|
|
= |
3 |
(14) |
|
3 |
|||
|
|
|
|
|
|
|
|
в |
|
11.Коэффициент асимметрии – величина, которая считается по
следующей формуле:
|
= |
4 |
− 3 |
(15) |
|
4 |
|||||
|
|
|
|
||
|
|
в |
|
|
12. Мода интервального ряда – некоторое значение, содержащееся в модальном интервале. Модальный интервал – интервал, имеющий наибольшую частоту. Мода интервального ряда считается по формуле:
|
|
|
|
|
|
|
|
|
|
− |
|
|
|
|
|
|
|
|
|
= (0) |
|
|
|
|
|
|
−1 |
|
|
|
|
|
|||
|
|
+ |
|
|
|
|
|
|
|
0 |
|
|
|
|
|
(16) |
|
|
( |
|
− |
|
|
) + ( |
|
− |
|
|
|||||||
|
|
0 |
|
|
|
|
|
|
) |
||||||||
|
|
|
|
|
|
−1 |
|
|
|
+1 |
|
|
|||||
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
0 |
|
|
где (0) |
– левая граница модального интервала, |
|
|
– относительная частота |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
модального интервала, |
|
−1 |
|
– относительная |
частота интервала, |
||||||||||||
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
предшествующего модальному (если модальный интервал первый, то она равна нулю), и 0+1 – относительная частота интервала после модального (если модальный интервал последний, то она равна нулю).
13.Медиана интервального ряда – некоторое значение, содержащееся
вмедианном интервале. Медианный интервал – первый интервал, накопленная
относительная частота которого больше либо равна 12. Медианный интервал находится по формуле:
|
|
= |
(0) |
+ |
|
(0.5 |
− |
|
) |
(17) |
|||
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
−1 |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где (0) – левая граница медианного интервала, |
|
|
– относительная частота |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
медианного |
интервала и |
|
– |
накопленная |
относительная |
частота (если |
|||||||
|
|
−1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
медианный интервал первый, то она равна нулю). |
|
|
|
|
|||||||||
14. |
Коэффициент |
вариации |
|
– |
величина, равная |
отношению |
|||||||
выборочного СКО к выборочному среднему: |
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
= |
в |
|
(18) |
||||
̅ |
|||||||
|
|
|
|
|
|||
|
|
|
|
в |
|
||
или, если в процентах: |
|
|
|
|
|
|
|
= |
в |
|
∙ 100% |
(19) |
|||
̅ |
|||||||
|
|
|
|
|
|||
|
в |
|
|
|
|
Постановка задачи.
Для заданных выборочных данных вычислить с использованием метода моментов и условных вариант точечные статистические оценки математического ожидания, дисперсии, среднеквадратичного отклонения,
асимметрии, эксцесса, моды, медианы и коэффициента вариации исследуемой случайной величины. Полученные результаты содержательно проинтерпретировать
Исходные данные – интервальный ряд, сформированный в работе 1.
Полный код программы представлен в приложении А.
Выполнение работы.
Для интервального ряда были найдены середины интервалов, а также накопленные частоты. Результаты представлены на рис. 1:
Рисунок 1
В первой строчке располагаются порядковые номера интервалов (их всего
9). На второй строчке представлены непосредственно середины интервалов. На последних двух строчках расположились накопленные абсолютные и накопленные относительные частоты (третья и четвёртая строчки соответственно).
Теперь представим найденные середины интервалов как новые варианты и по формуле (1) найдём условные варианты. Результаты представлены на рис. 2:
5
Рисунок 2 – Условные варианты Условные варианты расположены на третьей строчке. Если значения
вариационного ряда отстоят друг от друга на одинаковом расстоянии (как в нашем случае – разность между любыми двумя соседними вариантами равна длине интервала), то условные варианты выражаются целыми числами. Так и получилось.
По условным вариантам были вычислены условные (по формуле (2)) и
центральные (по формулам (4), (5) и (6)) эмпирические моменты (см. рис. 3). На первой строчке расположены порядки эмпирических моментов: в данной работе вычислялись эмпирические моменты с первого о четвёртый. На второй строчке
– условные эмпирические моменты и на третьей – центральные. Как видно из рис. 3, условный и центральный моменты первого порядка равны нулю (для условного момента сработала погрешность, поэтому значение получилось очень близко к нулю).
Рисунок 3 – Эмпирические моменты После этого были определены выборочное среднее и выборочная
дисперсия (см. рис. 4). Данные величины были вычислены обычным способом –
SEL_AVR и SEL_DISP – (по формулам (7) и (8)) и через условные варианты –
SEL_AVR_1 и SEL_DISP_1 – (по формулам (9) и (10)). Из рис. 4 видно, что результаты совпадают:
6
Рисунок 4 – Выборочные среднее и дисперсия Ещё одно важное замечание: значение выборочной дисперсии оказалось
равно центральному эмпирическому моменту второго порядка – это свойство центрального эмпирического момента. Это означает, что наши действия и расчёты верны.
Затем были вычислены исправленные дисперсия (по формуле (11)) и
среднее квадратичное отклонение (здесь и далее – СКО) – по формуле (12).
Результаты представлены на рис. 5:
Рисунок 5 – Исправленные дисперсия и СКО Далее, по формуле (13), было определено стандартное СКО (см. рис. 6).
Рисунок 6 – Стандартное СКО Если мы сравним оценки исправленных дисперсии и СКО с их
смещёнными оценками, то увидим, что исправленные значения несколько больше, чем смещённые оценки (см. табл. 1):
Таблица 1 – Сравнение оценок дисперсии и СКО
SEL_DISP |
COR_SEL_DISP |
SKO |
COR_SKO |
|
|
|
|
1600.3 |
1800.3 |
40.0033 |
42.4299 |
|
|
|
|
Также бы ла проведена статистическая оценка коэффициентов асимметрии и эксцесса (по формулам (14) и (15) соответственно). Результаты приведены на рис. 7:
Рисунок 7 – Коэффициенты асимметрии и эксцесса
7
Оба значения оказались положительными. Положительное значение коэффициента асимметрии говорит о том, что справа от значения моды график распределения будет более вытянутым по оси абсцисс, чем слева. А
положительное значение коэффициента эксцесса показывает, что пик графика будет более острым.
Мода и медиана для заданного распределения (интервального ряда)
вычислялись по формулам (16) и (17) соответственно. Результаты представлены на рис. 8:
Рисунок 8 – Мода и медиана интервального ряда Как видно из рис. 8, значения моды и медианы содержатся в третьем
интервале. Оно и понятно, ведь именно третий интервал имеет наибольшую частоту ( = 52 и ≈ 0.4685) и он первый, чья накопленная относительная частота больше 12: 2 = 0.1712, а уже 3 = 0.6396.
И в конце, по формуле (19), был вычислен коэффициент вариации (см. рис.
9):
Рисунок 9 – Коэффициент вариации Значение коэффициента вариации получилось больше 33%. Это говорит
нам о том, что наша изначальная совокупность крайне неоднородна. Это легко объяснить тем, что минимальное значение было равно 20, максимальное – 295, а
среднее – 99.8986.
Выводы.
В ходе данной работы было выполнено достаточно много действий.
Исходя и полученных результатов, можно сделать заключение, что наша выборка оказалась неоднородной. Также мы убедились, что график нашего распределения имеет острый пик и вытянутый вправо: об этом нам сказали
8
коэффициенты эксцесса и асимметрии. Были посчитаны первые четыре условных эмпирических и центральных эмпирических момента. Судя по тому,
что значения второго центрального эмпирического момента и выборочной дисперсии совпали, мы сделали вывод, что расчёты оказались верны и свойства центрального эмпирического момента не нарушены.
9
ПРИЛОЖЕНИЕ А
ПРОГРАММНЫЙ КОД (ЯЗЫК ПРОГРАММИРОВАНИЯ – MATLAB)
%% Вторая работа. 1 пункт
GAP_MIDS_ROW = randi(1, 3, amount_of_gaps); GAP_MIDS_ROW(2, 1) = GAPS_ROW(3, 1);
for i = 1 : amount_of_gaps GAP_MIDS_ROW(1, i) = GAP_MIDS(i); if(i > 1)
GAP_MIDS_ROW(2, i) = GAP_MIDS_ROW(2, i - 1) + GAPS_ROW(3,
i);
end;
GAP_MIDS_ROW(3, i) = ACCUM_FREQS(i);
end;
%% 2 пункт
h = gap_length;
COND_VERS = randi(1, 4, amount_of_gaps); n = amount_of_gaps;
MID_INDEX = (1 + n) / 2;
MID_VERSION = GAP_MIDS_ROW(1, MID_INDEX); for i = 1 : amount_of_gaps
COND_VERS(1, i) = GAP_MIDS_ROW(1, i);
COND_VERS(2, i) = (GAP_MIDS_ROW(1, i) - MID_VERSION) / h; COND_VERS(3, i) = GAP_MIDS_ROW(2, i);
COND_VERS(4, i) = GAP_MIDS_ROW(3, i);
end;
%% 3 пункт moment_levels = 4;
EMP_MOMENTS = randi(1, 2, moment_levels); for i = 1 : moment_levels
EMP_MOMENTS(1, i) = 0; for j = 1 : n
CViD = COND_VERS(2, j) ^ i;
EMP_MOMENTS(1, i) = EMP_MOMENTS(1, i) + CViD * GAPS_ROW(3,
j) / N; end;
end;
EMP_MOMENTS(2, 1) = 0;
EMP_MOMENTS(2, 2) = (EMP_MOMENTS(1, 2) - (EMP_MOMENTS(1, 1) ^ 2)) * h * h;
EMP_MOMENTS(2, 3) = (EMP_MOMENTS(1, 3) - 3 * EMP_MOMENTS(1, 2) * EMP_MOMENTS(1, 1) + 2 * (EMP_MOMENTS(1, 1) ^ 3)) * (h ^ 3); EMP_MOMENTS(2, 4) = (EMP_MOMENTS(1, 4) - 4 * EMP_MOMENTS(1, 3) * EMP_MOMENTS(1, 1) + 6 * EMP_MOMENTS(1, 2) * (EMP_MOMENTS(1, 1) ^ 2) - 3 * (EMP_MOMENTS(1, 1) ^ 4)) * (h ^ 4);
%% 4 пункт % Поиск выборочного среднего
SEL_AVR = 0; for i = 1 : n
SEL_AVR = SEL_AVR + GAP_MIDS_ROW(1, i) * GAPS_ROW(3, i);
end;
SEL_AVR = SEL_AVR / N;
10