8860
.pdf-1 |
1 |
5 |
4 |
1 |
|
11 |
0 |
|
1 |
15 |
10 |
8 |
34 |
1 |
|
|
3 |
12 |
15 |
30 |
2 |
|
|
|
1 |
6 |
7 |
nx |
10 |
14 |
23 |
24 |
29 |
n=100 |
U 2 10 1 14 0 23 1 24 2 29 0,48 100
|
|
|
|
3 |
8 2 10 1 11 0 34 1 30 2 7 |
|
|||||||
V |
0,11; |
||||||||||||
|
|
|
|
|
|
|
|
|
100 |
|
|
|
|
|
|
|
|
|
4 |
10 1 14 0 23 1 24 4 29 |
|
|
|||||
U 2 |
1,94 ; |
||||||||||||
|
|
100 |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
9 8 4 10 1 11 0 34 1 30 4 7 |
|
|||||||||
V 2 |
1,81; |
||||||||||||
|
|
100 |
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
U V 1001 ( 3) ( 2) 7 ( 3) ( 1) 1 ( 2) ( 2) 2 ( 2) ( 1) 7( 1) ( 2) 1 ( 1) 1 1 1 1 12 1 2 15 2 1 1 2 2 6) 1,4 ;
|
|
|
|
|
|
|
|
u |
1,94 0,2304 1,308 ; V |
|
|
|
|||
|
1,81 0,012 1,34 ; |
||||||
rв |
1,4 0,48 ( 0,11) |
0,84 ; |
|
|
|
||
|
|
|
|
||||
|
|
1,308 1,34 |
|
|
|
|
x Uh1 C1 0,48 10 25 29,8;
yVh2 C2 0,11 2 136 135,78;
x u h1 1,308 10 13,08 ; y v h2 1,34 2 2,68 ;
yx 0,17x 130,71; xy 4,1y 526,9.
Пример 6. Результаты исследования спроса на товар представлены в таб-
лице:
120-160 |
160-180 |
180-200 |
200-220 |
220-280 |
|
|
|
|
|
5 |
10 |
14 |
12 |
9 |
Выдвинуть гипотезу о виде распределения и проверить ее на уровне зна-
51
чимости =0,01.
I. Выдвижение гипотезы.
Для указания вида эмпирического распределения построим гистограмму
120 |
160 |
180 200 |
220 |
|
280 |
|
|
||||||
|
|
|
По виду гистограммы можно сделать предположение о нормальном рас- |
||||||||||
пределении генеральной совокупности. |
|
|
|
|
|
||||||||
|
|
|
II. Проверим выдвинутую гипотезу о нормальном распределении, исполь- |
||||||||||
зуя критерий согласия Пирсона. |
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|||
1. Вычисляем хв , в . |
В качестве вариант возьмем среднее арифметическое |
||||||||||||
концов интервалов: |
|
|
|
|
|
|
|
|
|||||
|
|
|
140 5 170 10 190 14 210 12 250 9 |
|
|
|
|||||||
|
xв |
196,6; |
|||||||||||
|
|
|
|
||||||||||
|
|
|
|
|
|
50 |
|
|
|
|
|
|
|
в 32,1. |
|
|
|
|
|
|
|
|
|||||
2. Найдем интервалы (Zi; Zi+1): |
Zi |
xi 196,6 |
; |
Zi 1 |
xi 1 196,6 |
. |
|||||||
|
|||||||||||||
|
|
|
|||||||||||
|
|
|
|
|
|
|
32,1 |
|
32,1 |
|
Левый конец первого интервала примем равным – , а правый конец последнего интервала + . Результаты представлены в табл. 5
3. Найдем теоретические вероятности Рi и теоретические частоты n'i . Pi=Ф(Zi+1) –Ф(Zi), где Ф(Z) – интегральная функция Лапласа.
n'i n Pi 50 Pi (см.табл.5).
Таблица 5
52
i |
Граница интервалов |
Ф(Zi) |
Ф(Zi+1) |
Pi= Ф(Zi+1)- |
n' 50 P |
||||
|
|
|
|
|
|
|
-Ф(Zi) |
i |
i |
|
xi |
xi+1 |
Zi |
Zi+1 |
|
|
|||
|
|
|
|
|
|||||
|
|
|
|
|
|
||||
1 |
120 |
160 |
- |
-1,14 |
-0,5 |
-0,3729 |
0,1271 |
|
6,36 |
2 |
160 |
180 |
-1,14 |
-0,52 |
-0,3729 |
-0,1985 |
0,1744 |
|
8,72 |
3 |
180 |
200 |
-0,52 |
0,11 |
-0,1985 |
0,0438 |
0,2423 |
|
12,12 |
4 |
200 |
220 |
0,11 |
0,73 |
0,0438 |
0,2673 |
0,2235 |
|
11,18 |
5 |
220 |
280 |
0,73 |
+ |
0,2673 |
0,5 |
0,2327 |
|
11,64 |
4. Сравним эмпирические и теоретические частоты. Для этого: |
|
|
|
||||||||
а) вычислим наблюдаемое значение критерия Пирсона. |
|
|
|
||||||||
|
2 |
k (n |
i |
n' |
i |
)2 |
|
|
|
|
|
|
|
|
. Вычисления представлены в табл. 6. |
|
|
|
|||||
набл |
|
n'i |
|
|
|
|
|||||
|
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 6 |
|
i |
ni |
|
|
|
n i |
ni ni |
ni ni 2 |
ni ni 2 ni |
||
|
1 |
5 |
|
|
|
6,36 |
-1,36 |
1,8496 |
|
0,291 |
|
|
2 |
10 |
|
|
|
8,72 |
1,28 |
1,6384 |
|
0,188 |
|
|
3 |
114 |
|
12,12 |
1,88 |
3,5344 |
|
0,292 |
|||
|
4 |
12 |
|
|
11,18 |
0,82 |
0,6724 |
|
0,060 |
||
|
5 |
9 |
|
|
11,64 |
-2,64 |
6,9696 |
|
0,599 |
||
|
|
50 |
|
|
|
50 |
|
|
2 |
|
1,43 |
|
|
|
|
|
|
|
|
|
набл |
|
|
б) найдем число степеней свободы R=S-3=5-3=2. |
|
|
|
По таблице критических точек распределения 2, по уровню значимости
=0,01 и числу степеней свободы R=2 находим критическую точку кр2 ( ; R) :
кр2 (0,01;2) 9,2
Сравниваем набл2 c кр2 ( ; R) . набл2 1,43 кр2 9,2. Следовательно,
нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Вывод: расхождение между эмпирическими и теоретическими частотами незначимо (случайно).
Задания для раздела 2.
53
Задание 1.
Рассмотрим проведение аудита данных из текстового файла сотовые опе-
реторы.txt и готовый сценарий audit.ded. В этом файле представлена статисти-
ка опроса клиентов телекоммуникационных компаний, полученная в ходе ис-
следования возможности смены одного сотового оператора другим в зависимо-
сти от оценки критериев предлагаемых ими услуг. Фрагмент множества данных файла сотовые опереторы.txt представлен в таблице.
Таблица. Фрагмент набора данных сотовые операторы.txt
Пол |
ВУЗ |
Место жительства |
сотовые операторы |
сколько лет клиент |
кол-во звонков в день |
кол-во мин в день |
оплаты в месяц (в руб.) |
пользуюсь SMS |
критерия стоимость |
оценка критерия качество |
на смена оператора |
|
м |
ННГУ |
обл. |
МТС |
более |
более |
более |
300 |
да |
3 |
4 |
нет |
|
3 лет |
10 |
30 |
||||||||||
|
|
|
|
|
|
|
|
|
||||
м |
ННГУ |
НН |
Билайн |
более |
6-10 |
10-30 |
200 |
нет |
4 |
4 |
да |
|
3 лет |
||||||||||||
м |
ННГА- |
НН |
Теле2 |
более |
более |
10-30 |
350 |
да |
|
|
нет |
|
|
СУ |
|
|
3 лет |
10 |
|
|
|
|
|
|
|
м |
ННГУ |
НН |
Билайн |
1-3 |
6-10 |
10-30 |
200 |
нет |
4 |
|
нет |
|
года |
|
|||||||||||
м |
НГТУ |
НН |
НСС |
до 1 |
1-5 |
10-30 |
600 |
да |
4 |
3 |
нет |
|
года |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
м |
НГГУ |
обл. |
Билайн |
до го- |
6-10 |
до 10 |
300 |
да |
3 |
4 |
нет |
|
да |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
ж |
ННГУ |
НН |
МТС |
|
более |
10-30 |
100 |
да |
4 |
4 |
да |
|
|
10 |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
ж |
ННГАСУ |
НН |
МТС |
1-3 го- |
6-10 |
10-30 |
200 |
да |
2 |
4 |
нет |
|
да |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
ж |
ННГУ |
обл. |
Теле2 |
1-3 го- |
более |
более |
300 |
да |
4 |
4 |
нет |
|
да |
10 |
30 |
||||||||||
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
При проведении аудита нужно ответить на следующие вопросы:
есть ли в данных дубликаты, противоречия, пропуски, аномалии?
какова доля неполных и некорректных записей в общем объеме?
какие поля представляют интерес для анализа?
интегральная оценка качества данных.
Шаг 1 – изучение статистики
54
Рис. 21. Статистика по набору данных сотовые опереторы.txt
В двух столбцах (рис. 21) присутствуют пропущенные значения. Это зна-
чит, что необходимой операцией будет работа с пропусками.
Шаг 2 – дубликаты и противоречия
Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации непонятно, какое результирующее значение верно. Противоречивые данные исключаются.
Дубликаты – это записи с одинаковыми входными и выходными данны-
ми. Такие данные приводят к избыточности, поэтому дублирующая информа-
ция исключается.
Для автоматизации процесса поиска дубликатов и противоречий предна-
значен специальный обработчик Дубликаты и противоречия. Он находится в группе узлов Очистка данных мастера обработки.
Настройка параметров обработчика заключается в указании назначения полей. Суть обработки состоит в том, что определяются входные и выходные поля. Алгоритм ищет во всем наборе записи, для которых одинаковым входным
55
полям соответствуют одинаковые (дубликаты) или разные (противоречия) вы-
ходные поля. На основании этой информации создаются два дополнительных логических поля – Дубликат и Противоречие, принимающие значения истина или ложь, и дополнительные числовые поля Группа дубликатов и Группа про-
тиворечий, в которые записываются номер группы дубликатов и группы про-
тиворечий, содержащих данную запись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми (null).
В нашем случае целесообразно искать дубликаты в записях со всеми столбцами. Это будут входы (рис. 22). Противоречия разумнее искать по вы-
ходному полю Возможна смена оператора, т.е. если встретятся два полностью одинаковых по характеристикам телефонных звонков клиента, а поле Возмож-
на смена оператора у них будет различаться, то это сигнал о вероятной ошибке в данных.
Рис. 22. Назначения полей в обработчике Дубликаты и противоречия При использовании обработчика Дубликаты и противоречия возможно
отображение результатов обработки с помощью одноименного визуализатора
Дубликаты и противоречия (рис. 23).
56
Рис. 23. Визуализатор «Дубликаты и противоречия» В нашем случае было найдено 27 противоречий и 22 группы дубликатов с
общим числом 46 записей. Примем решение удалить противоречия, а от каждой группы дубликатов оставить одну запись.
Наиболее простой способ сделать это состоит в следующем.
1. Удалить противоречия, используя обработчик Фильтрация с условием «Про-
тиворечие=ложь».
2. Отфильтровать все дубликаты и сгруппировать их по измерениям Дубликат
и Группа дубликатов, остальные поля будут фактами с функцией агрегации
первый. В результате мы получим по 1 записи для каждой группы дубликатов. 3. К отфильтрованному набору данных, не содержащему дубликатов при по-
мощи объединения (обработчик Слияние) добавить набор данных, полученный на шаге 2.
Фрагмент сценария, осуществляющего эти действия, приведен на рис. 24.
Рис. 24. Устранение противоречий и дубликатов
Шаг 3 – восстановление пропусков
Пропуски содержат 2 поля, причем доля пропусков составляет 13,7%. В
этих условиях предпочтительнее выбрать их восстановление.
57
Для автоматизации этого процесса предназначен специальный мно-
гофункциональный обработчик Парциальная обработка. Он также находится в группе узлов Очистка данных мастера обработки.
Парциальная обработка служит для восстановления пропущенных дан-
ных, редактирования аномальных значений и сглаживания данных.
Рис. 25. Задание вариантов обработки пропусков Параметры восстановления задаются на первом шаге Мастера. Для каж-
дого поля на выбор предлагается три варианта обработки пропусков (рис. 25). В
нашем примере все поля с пропусками относятся к типу неупорядоченных.
Остальные два шага Мастера пропустим, т.к. они относятся к очистке и сгла-
живанию временных рядов.
После выполнения обработчика в таблице можно убедиться, что значения вос-
становлены (рис. 26).
58
Рис. 26. Восстановленные значения Алгоритм подставил наиболее вероятное значение (строится плотность
распределения вероятностей, и отсутствующие данные заменяются значением,
соответствующим ее максимуму).
Шаг 4 – выявление аномалий
Анализ визуализатора Статистика (минимальные и максимальные значе-
ния полей) позволил сделать вывод об отсутствии аномальных выбросов в дан-
ных файла сотовые операторы.txt.
Перед выявлением аномалий полезно также изучить распределение дан-
ных (гистограмму), и те поля, в которых оно нормальное, проанализировать на выбросы методом «сигм»: любые значения ряда, отличающиеся от среднего больше чем на три среднеквадратических отклонения, являются потенциаль-
ными аномалиями.
Потенциальные аномалии можно обнаружить и на графике, для чего ис-
пользуют визуализатор Диаграмма (для аномальных точек используют один цвет, например, красный цвет, для не аномальных – белый).
Шаг 5 – фильтрация
Фильтрация в очистке и предобработке используется для получения очи-
щенной выборки после принятия решений о судьбе «грязных» записей и для вспомогательных действий.
В рассматриваемом примере фильтрация использовалась для исключения дубликатов и противоречий (см. сценарий на рис. 2.17).
Шаг 6 – совокупная оценка качества
Всего записей: до очистки – 607, после очистки – 557, удалено 8,24%.
59
Выводы: в целом качество данных можно признать очень хорошим; проблемы,
возникшие с пропущенными и аномальными данными, были решены стандарт-
ными методами.
Задание 2. Требуется разработать систему аналитической отчетности в
Deductor на основе созданного ранее хранилища данных ВОДА. Все требуемые отчеты должны быть вынесены на Панель отчетов.
1.Постройте отчет–диаграмму «Динамика показателя содержания ХПК
(химическое потребление кислорода) в реке Ока», используя все име-
ющиеся данные.
Рис. 27. Временной ряд загрязнителя ХПК
2.Постройте отчет–гистограмму распределения показателя «ХПК» в реке Беленькая за последние 5 месяцев от имеющихся данных. Назовите от-
чет «Гистограмма показателя ХПК»
Рис. 28. Гистограмма показателя ХПК
3. Постройте куб (и кросс-диаграмму) по двум измерениям Створ и
Название загрязнителя, в ячейках которого указаны средние значения
60