Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8860

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
1.97 Mб
Скачать

-1

1

5

4

1

 

11

0

 

1

15

10

8

34

1

 

 

3

12

15

30

2

 

 

 

1

6

7

nx

10

14

23

24

29

n=100

U 2 10 1 14 0 23 1 24 2 29 0,48 100

 

 

 

 

3

8 2 10 1 11 0 34 1 30 2 7

 

V

0,11;

 

 

 

 

 

 

 

 

 

100

 

 

 

 

 

 

 

 

4

10 1 14 0 23 1 24 4 29

 

 

U 2

1,94 ;

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9 8 4 10 1 11 0 34 1 30 4 7

 

V 2

1,81;

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

U V 1001 ( 3) ( 2) 7 ( 3) ( 1) 1 ( 2) ( 2) 2 ( 2) ( 1) 7( 1) ( 2) 1 ( 1) 1 1 1 1 12 1 2 15 2 1 1 2 2 6) 1,4 ;

 

 

 

 

 

 

 

u

1,94 0,2304 1,308 ; V

 

 

 

 

1,81 0,012 1,34 ;

rв

1,4 0,48 ( 0,11)

0,84 ;

 

 

 

 

 

 

 

 

 

1,308 1,34

 

 

 

 

x Uh1 C1 0,48 10 25 29,8;

yVh2 C2 0,11 2 136 135,78;

x u h1 1,308 10 13,08 ; y v h2 1,34 2 2,68 ;

yx 0,17x 130,71; xy 4,1y 526,9.

Пример 6. Результаты исследования спроса на товар представлены в таб-

лице:

120-160

160-180

180-200

200-220

220-280

 

 

 

 

 

5

10

14

12

9

Выдвинуть гипотезу о виде распределения и проверить ее на уровне зна-

51

чимости =0,01.

I. Выдвижение гипотезы.

Для указания вида эмпирического распределения построим гистограмму

120

160

180 200

220

 

280

 

 

 

 

 

По виду гистограммы можно сделать предположение о нормальном рас-

пределении генеральной совокупности.

 

 

 

 

 

 

 

 

II. Проверим выдвинутую гипотезу о нормальном распределении, исполь-

зуя критерий согласия Пирсона.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Вычисляем хв , в .

В качестве вариант возьмем среднее арифметическое

концов интервалов:

 

 

 

 

 

 

 

 

 

 

 

140 5 170 10 190 14 210 12 250 9

 

 

 

 

xв

196,6;

 

 

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

в 32,1.

 

 

 

 

 

 

 

 

2. Найдем интервалы (Zi; Zi+1):

Zi

xi 196,6

;

Zi 1

xi 1 196,6

.

 

 

 

 

 

 

 

 

 

 

 

32,1

 

32,1

 

Левый конец первого интервала примем равным – , а правый конец последнего интервала + . Результаты представлены в табл. 5

3. Найдем теоретические вероятности Рi и теоретические частоты n'i . Pi=Ф(Zi+1) –Ф(Zi), где Ф(Z) – интегральная функция Лапласа.

n'i n Pi 50 Pi (см.табл.5).

Таблица 5

52

i

Граница интервалов

Ф(Zi)

Ф(Zi+1)

Pi= Ф(Zi+1)-

n' 50 P

 

 

 

 

 

 

 

-Ф(Zi)

i

i

 

xi

xi+1

Zi

Zi+1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

120

160

-

-1,14

-0,5

-0,3729

0,1271

 

6,36

2

160

180

-1,14

-0,52

-0,3729

-0,1985

0,1744

 

8,72

3

180

200

-0,52

0,11

-0,1985

0,0438

0,2423

 

12,12

4

200

220

0,11

0,73

0,0438

0,2673

0,2235

 

11,18

5

220

280

0,73

+

0,2673

0,5

0,2327

 

11,64

4. Сравним эмпирические и теоретические частоты. Для этого:

 

 

 

а) вычислим наблюдаемое значение критерия Пирсона.

 

 

 

 

2

k (n

i

n'

i

)2

 

 

 

 

 

 

 

 

. Вычисления представлены в табл. 6.

 

 

 

набл

 

n'i

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 6

 

i

ni

 

 

 

n i

ni ni

ni ni 2

ni ni 2 ni

 

1

5

 

 

 

6,36

-1,36

1,8496

 

0,291

 

2

10

 

 

 

8,72

1,28

1,6384

 

0,188

 

3

114

 

12,12

1,88

3,5344

 

0,292

 

4

12

 

 

11,18

0,82

0,6724

 

0,060

 

5

9

 

 

11,64

-2,64

6,9696

 

0,599

 

 

50

 

 

 

50

 

 

2

 

1,43

 

 

 

 

 

 

 

 

 

набл

 

б) найдем число степеней свободы R=S-3=5-3=2.

 

 

 

По таблице критических точек распределения 2, по уровню значимости

=0,01 и числу степеней свободы R=2 находим критическую точку кр2 ( ; R) :

кр2 (0,01;2) 9,2

Сравниваем набл2 c кр2 ( ; R) . набл2 1,43 кр2 9,2. Следовательно,

нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Вывод: расхождение между эмпирическими и теоретическими частотами незначимо (случайно).

Задания для раздела 2.

53

Задание 1.

Рассмотрим проведение аудита данных из текстового файла сотовые опе-

реторы.txt и готовый сценарий audit.ded. В этом файле представлена статисти-

ка опроса клиентов телекоммуникационных компаний, полученная в ходе ис-

следования возможности смены одного сотового оператора другим в зависимо-

сти от оценки критериев предлагаемых ими услуг. Фрагмент множества данных файла сотовые опереторы.txt представлен в таблице.

Таблица. Фрагмент набора данных сотовые операторы.txt

Пол

ВУЗ

Место жительства

сотовые операторы

сколько лет клиент

кол-во звонков в день

кол-во мин в день

оплаты в месяц (в руб.)

пользуюсь SMS

критерия стоимость

оценка критерия качество

на смена оператора

м

ННГУ

обл.

МТС

более

более

более

300

да

3

4

нет

3 лет

10

30

 

 

 

 

 

 

 

 

 

м

ННГУ

НН

Билайн

более

6-10

10-30

200

нет

4

4

да

3 лет

м

ННГА-

НН

Теле2

более

более

10-30

350

да

 

 

нет

 

СУ

 

 

3 лет

10

 

 

 

 

 

 

м

ННГУ

НН

Билайн

1-3

6-10

10-30

200

нет

4

 

нет

года

 

м

НГТУ

НН

НСС

до 1

1-5

10-30

600

да

4

3

нет

года

 

 

 

 

 

 

 

 

 

 

 

м

НГГУ

обл.

Билайн

до го-

6-10

до 10

300

да

3

4

нет

да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГУ

НН

МТС

 

более

10-30

100

да

4

4

да

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГАСУ

НН

МТС

1-3 го-

6-10

10-30

200

да

2

4

нет

да

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ж

ННГУ

обл.

Теле2

1-3 го-

более

более

300

да

4

4

нет

да

10

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При проведении аудита нужно ответить на следующие вопросы:

есть ли в данных дубликаты, противоречия, пропуски, аномалии?

какова доля неполных и некорректных записей в общем объеме?

какие поля представляют интерес для анализа?

интегральная оценка качества данных.

Шаг 1 – изучение статистики

54

Рис. 21. Статистика по набору данных сотовые опереторы.txt

В двух столбцах (рис. 21) присутствуют пропущенные значения. Это зна-

чит, что необходимой операцией будет работа с пропусками.

Шаг 2 – дубликаты и противоречия

Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации непонятно, какое результирующее значение верно. Противоречивые данные исключаются.

Дубликаты – это записи с одинаковыми входными и выходными данны-

ми. Такие данные приводят к избыточности, поэтому дублирующая информа-

ция исключается.

Для автоматизации процесса поиска дубликатов и противоречий предна-

значен специальный обработчик Дубликаты и противоречия. Он находится в группе узлов Очистка данных мастера обработки.

Настройка параметров обработчика заключается в указании назначения полей. Суть обработки состоит в том, что определяются входные и выходные поля. Алгоритм ищет во всем наборе записи, для которых одинаковым входным

55

полям соответствуют одинаковые (дубликаты) или разные (противоречия) вы-

ходные поля. На основании этой информации создаются два дополнительных логических поля – Дубликат и Противоречие, принимающие значения истина или ложь, и дополнительные числовые поля Группа дубликатов и Группа про-

тиворечий, в которые записываются номер группы дубликатов и группы про-

тиворечий, содержащих данную запись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми (null).

В нашем случае целесообразно искать дубликаты в записях со всеми столбцами. Это будут входы (рис. 22). Противоречия разумнее искать по вы-

ходному полю Возможна смена оператора, т.е. если встретятся два полностью одинаковых по характеристикам телефонных звонков клиента, а поле Возмож-

на смена оператора у них будет различаться, то это сигнал о вероятной ошибке в данных.

Рис. 22. Назначения полей в обработчике Дубликаты и противоречия При использовании обработчика Дубликаты и противоречия возможно

отображение результатов обработки с помощью одноименного визуализатора

Дубликаты и противоречия (рис. 23).

56

Рис. 23. Визуализатор «Дубликаты и противоречия» В нашем случае было найдено 27 противоречий и 22 группы дубликатов с

общим числом 46 записей. Примем решение удалить противоречия, а от каждой группы дубликатов оставить одну запись.

Наиболее простой способ сделать это состоит в следующем.

1. Удалить противоречия, используя обработчик Фильтрация с условием «Про-

тиворечие=ложь».

2. Отфильтровать все дубликаты и сгруппировать их по измерениям Дубликат

и Группа дубликатов, остальные поля будут фактами с функцией агрегации

первый. В результате мы получим по 1 записи для каждой группы дубликатов. 3. К отфильтрованному набору данных, не содержащему дубликатов при по-

мощи объединения (обработчик Слияние) добавить набор данных, полученный на шаге 2.

Фрагмент сценария, осуществляющего эти действия, приведен на рис. 24.

Рис. 24. Устранение противоречий и дубликатов

Шаг 3 – восстановление пропусков

Пропуски содержат 2 поля, причем доля пропусков составляет 13,7%. В

этих условиях предпочтительнее выбрать их восстановление.

57

Для автоматизации этого процесса предназначен специальный мно-

гофункциональный обработчик Парциальная обработка. Он также находится в группе узлов Очистка данных мастера обработки.

Парциальная обработка служит для восстановления пропущенных дан-

ных, редактирования аномальных значений и сглаживания данных.

Рис. 25. Задание вариантов обработки пропусков Параметры восстановления задаются на первом шаге Мастера. Для каж-

дого поля на выбор предлагается три варианта обработки пропусков (рис. 25). В

нашем примере все поля с пропусками относятся к типу неупорядоченных.

Остальные два шага Мастера пропустим, т.к. они относятся к очистке и сгла-

живанию временных рядов.

После выполнения обработчика в таблице можно убедиться, что значения вос-

становлены (рис. 26).

58

Рис. 26. Восстановленные значения Алгоритм подставил наиболее вероятное значение (строится плотность

распределения вероятностей, и отсутствующие данные заменяются значением,

соответствующим ее максимуму).

Шаг 4 – выявление аномалий

Анализ визуализатора Статистика (минимальные и максимальные значе-

ния полей) позволил сделать вывод об отсутствии аномальных выбросов в дан-

ных файла сотовые операторы.txt.

Перед выявлением аномалий полезно также изучить распределение дан-

ных (гистограмму), и те поля, в которых оно нормальное, проанализировать на выбросы методом «сигм»: любые значения ряда, отличающиеся от среднего больше чем на три среднеквадратических отклонения, являются потенциаль-

ными аномалиями.

Потенциальные аномалии можно обнаружить и на графике, для чего ис-

пользуют визуализатор Диаграмма (для аномальных точек используют один цвет, например, красный цвет, для не аномальных – белый).

Шаг 5 – фильтрация

Фильтрация в очистке и предобработке используется для получения очи-

щенной выборки после принятия решений о судьбе «грязных» записей и для вспомогательных действий.

В рассматриваемом примере фильтрация использовалась для исключения дубликатов и противоречий (см. сценарий на рис. 2.17).

Шаг 6 – совокупная оценка качества

Всего записей: до очистки – 607, после очистки – 557, удалено 8,24%.

59

Выводы: в целом качество данных можно признать очень хорошим; проблемы,

возникшие с пропущенными и аномальными данными, были решены стандарт-

ными методами.

Задание 2. Требуется разработать систему аналитической отчетности в

Deductor на основе созданного ранее хранилища данных ВОДА. Все требуемые отчеты должны быть вынесены на Панель отчетов.

1.Постройте отчет–диаграмму «Динамика показателя содержания ХПК

(химическое потребление кислорода) в реке Ока», используя все име-

ющиеся данные.

Рис. 27. Временной ряд загрязнителя ХПК

2.Постройте отчет–гистограмму распределения показателя «ХПК» в реке Беленькая за последние 5 месяцев от имеющихся данных. Назовите от-

чет «Гистограмма показателя ХПК»

Рис. 28. Гистограмма показателя ХПК

3. Постройте куб (и кросс-диаграмму) по двум измерениям Створ и

Название загрязнителя, в ячейках которого указаны средние значения

60

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]