Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Архитектурно-Строительный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

8860

.pdf

Скачиваний:

Добавлен:

25.11.2023

Размер:

1.97 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 116 7 8 9 10 11 > Следующая >>>

-1	1	5	4	1		11
0		1	15	10	8	34
1			3	12	15	30
2				1	6	7
nx	10	14	23	24	29	n=100

U 2 10 1 14 0 23 1 24 2 29 0,48 100

		3		8 2 10 1 11 0 34 1 30 2 7
	V	3		8 2 10 1 11 0 34 1 30 2 7		0,11;
				100
			4	10 1 14 0 23 1 24 4 29
U 2			4	10 1 14 0 23 1 24 4 29	1,94 ;
U 2				100	1,94 ;
				100
			9 8 4 10 1 11 0 34 1 30 4 7
V 2			9 8 4 10 1 11 0 34 1 30 4 7			1,81;
V 2				100		1,81;
				100

U V 1001 ( 3) ( 2) 7 ( 3) ( 1) 1 ( 2) ( 2) 2 ( 2) ( 1) 7( 1) ( 2) 1 ( 1) 1 1 1 1 12 1 2 15 2 1 1 2 2 6) 1,4 ;



u		1,94 0,2304 1,308 ; V
u		1,94 0,2304 1,308 ; V		1,81 0,012 1,34 ;
rв	1,4 0,48 ( 0,11)		0,84 ;
rв			0,84 ;
		1,308 1,34

x Uh1 C1 0,48 10 25 29,8;

yVh2 C2 0,11 2 136 135,78;

x u h1 1,308 10 13,08 ; y v h2 1,34 2 2,68 ;

yx 0,17x 130,71; xy 4,1y 526,9.

Пример 6. Результаты исследования спроса на товар представлены в таб-

лице:

120-160	160-180	180-200	200-220	220-280

5	10	14	12	9

Выдвинуть гипотезу о виде распределения и проверить ее на уровне зна-

чимости =0,01.

I. Выдвижение гипотезы.

Для указания вида эмпирического распределения построим гистограмму

120

160

180 200

220

280

По виду гистограммы можно сделать предположение о нормальном рас-

пределении генеральной совокупности.

II. Проверим выдвинутую гипотезу о нормальном распределении, исполь-

зуя критерий согласия Пирсона.

1. Вычисляем хв , в .

В качестве вариант возьмем среднее арифметическое

концов интервалов:

140 5 170 10 190 14 210 12 250 9

xв

196,6;

в 32,1.

2. Найдем интервалы (Zi; Zi+1):

xi 196,6

;

Zi 1

xi 1 196,6

32,1

Левый конец первого интервала примем равным – , а правый конец последнего интервала + . Результаты представлены в табл. 5

3. Найдем теоретические вероятности Рi и теоретические частоты n'i . Pi=Ф(Zi+1) –Ф(Zi), где Ф(Z) – интегральная функция Лапласа.

n'i n Pi 50 Pi (см.табл.5).

Таблица 5

i	Граница интервалов				Ф(Zi)	Ф(Zi+1)	Pi= Ф(Zi+1)-	n' 50 P
							-Ф(Zi)	i	i
	xi	xi+1	Zi	Zi+1				i	i


1	120	160	-	-1,14	-0,5	-0,3729	0,1271		6,36
2	160	180	-1,14	-0,52	-0,3729	-0,1985	0,1744		8,72
3	180	200	-0,52	0,11	-0,1985	0,0438	0,2423		12,12
4	200	220	0,11	0,73	0,0438	0,2673	0,2235		11,18
5	220	280	0,73	+	0,2673	0,5	0,2327		11,64

4. Сравним эмпирические и теоретические частоты. Для этого:
а) вычислим наблюдаемое значение критерия Пирсона.
	2	k (n	i	n'	i	)2
	2		i		i	. Вычисления представлены в табл. 6.
	набл			n'i		. Вычисления представлены в табл. 6.
		i 1		n'i
											Таблица 6
	i	ni				n i	ni ni	ni ni 2	ni ni 2 ni
	1	5				6,36	-1,36	1,8496		0,291
	2	10				8,72	1,28	1,6384		0,188
	3	114			12,12		1,88	3,5344		0,292
	4	12			11,18		0,82	0,6724		0,060
	5	9			11,64		-2,64	6,9696		0,599
		50				50			2		1,43
									набл
б) найдем число степеней свободы R=S-3=5-3=2.

По таблице критических точек распределения 2, по уровню значимости

=0,01 и числу степеней свободы R=2 находим критическую точку кр2 ( ; R) :

кр2 (0,01;2) 9,2

Сравниваем набл2 c кр2 ( ; R) . набл2 1,43 кр2 9,2. Следовательно,

нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. Вывод: расхождение между эмпирическими и теоретическими частотами незначимо (случайно).

Задания для раздела 2.

Задание 1.

Рассмотрим проведение аудита данных из текстового файла сотовые опе-

реторы.txt и готовый сценарий audit.ded. В этом файле представлена статисти-

ка опроса клиентов телекоммуникационных компаний, полученная в ходе ис-

следования возможности смены одного сотового оператора другим в зависимо-

сти от оценки критериев предлагаемых ими услуг. Фрагмент множества данных файла сотовые опереторы.txt представлен в таблице.

Таблица. Фрагмент набора данных сотовые операторы.txt

Пол

ВУЗ

Место жительства

сотовые операторы

сколько лет клиент

кол-во звонков в день

кол-во мин в день

оплаты в месяц (в руб.)

пользуюсь SMS

критерия стоимость

оценка критерия качество

на смена оператора

ННГУ

обл.

МТС

более

300

да

нет

3 лет

ННГУ

НН

Билайн

более

6-10

10-30

200

нет

да

3 лет

ННГА-

НН

Теле2

более

10-30

350

да

нет

СУ

3 лет

ННГУ

НН

Билайн

1-3

6-10

10-30

200

нет

года

НГТУ

НН

НСС

до 1

1-5

10-30

600

да

нет

года

НГГУ

обл.

Билайн

до го-

6-10

до 10

300

да

нет

да

ННГУ

НН

МТС

более

10-30

100

да

ННГАСУ

НН

МТС

1-3 го-

6-10

10-30

200

да

нет

да

ННГУ

обл.

Теле2

1-3 го-

более

300

да

нет

да

При проведении аудита нужно ответить на следующие вопросы:

есть ли в данных дубликаты, противоречия, пропуски, аномалии?

какова доля неполных и некорректных записей в общем объеме?

какие поля представляют интерес для анализа?

интегральная оценка качества данных.

Шаг 1 – изучение статистики

Рис. 21. Статистика по набору данных сотовые опереторы.txt

В двух столбцах (рис. 21) присутствуют пропущенные значения. Это зна-

чит, что необходимой операцией будет работа с пропусками.

Шаг 2 – дубликаты и противоречия

Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации непонятно, какое результирующее значение верно. Противоречивые данные исключаются.

Дубликаты – это записи с одинаковыми входными и выходными данны-

ми. Такие данные приводят к избыточности, поэтому дублирующая информа-

ция исключается.

Для автоматизации процесса поиска дубликатов и противоречий предна-

значен специальный обработчик Дубликаты и противоречия. Он находится в группе узлов Очистка данных мастера обработки.

Настройка параметров обработчика заключается в указании назначения полей. Суть обработки состоит в том, что определяются входные и выходные поля. Алгоритм ищет во всем наборе записи, для которых одинаковым входным

полям соответствуют одинаковые (дубликаты) или разные (противоречия) вы-

ходные поля. На основании этой информации создаются два дополнительных логических поля – Дубликат и Противоречие, принимающие значения истина или ложь, и дополнительные числовые поля Группа дубликатов и Группа про-

тиворечий, в которые записываются номер группы дубликатов и группы про-

тиворечий, содержащих данную запись. Если запись не является дубликатом или противоречием, то соответствующие поля будут пустыми (null).

В нашем случае целесообразно искать дубликаты в записях со всеми столбцами. Это будут входы (рис. 22). Противоречия разумнее искать по вы-

ходному полю Возможна смена оператора, т.е. если встретятся два полностью одинаковых по характеристикам телефонных звонков клиента, а поле Возмож-

на смена оператора у них будет различаться, то это сигнал о вероятной ошибке в данных.

Рис. 22. Назначения полей в обработчике Дубликаты и противоречия При использовании обработчика Дубликаты и противоречия возможно

отображение результатов обработки с помощью одноименного визуализатора

Дубликаты и противоречия (рис. 23).

Рис. 23. Визуализатор «Дубликаты и противоречия» В нашем случае было найдено 27 противоречий и 22 группы дубликатов с

общим числом 46 записей. Примем решение удалить противоречия, а от каждой группы дубликатов оставить одну запись.

Наиболее простой способ сделать это состоит в следующем.

1. Удалить противоречия, используя обработчик Фильтрация с условием «Про-

тиворечие=ложь».

2. Отфильтровать все дубликаты и сгруппировать их по измерениям Дубликат

и Группа дубликатов, остальные поля будут фактами с функцией агрегации

первый. В результате мы получим по 1 записи для каждой группы дубликатов. 3. К отфильтрованному набору данных, не содержащему дубликатов при по-

мощи объединения (обработчик Слияние) добавить набор данных, полученный на шаге 2.

Фрагмент сценария, осуществляющего эти действия, приведен на рис. 24.

Рис. 24. Устранение противоречий и дубликатов

Шаг 3 – восстановление пропусков

Пропуски содержат 2 поля, причем доля пропусков составляет 13,7%. В

этих условиях предпочтительнее выбрать их восстановление.

Для автоматизации этого процесса предназначен специальный мно-

гофункциональный обработчик Парциальная обработка. Он также находится в группе узлов Очистка данных мастера обработки.

Парциальная обработка служит для восстановления пропущенных дан-

ных, редактирования аномальных значений и сглаживания данных.

Рис. 25. Задание вариантов обработки пропусков Параметры восстановления задаются на первом шаге Мастера. Для каж-

дого поля на выбор предлагается три варианта обработки пропусков (рис. 25). В

нашем примере все поля с пропусками относятся к типу неупорядоченных.

Остальные два шага Мастера пропустим, т.к. они относятся к очистке и сгла-

живанию временных рядов.

После выполнения обработчика в таблице можно убедиться, что значения вос-

становлены (рис. 26).

Рис. 26. Восстановленные значения Алгоритм подставил наиболее вероятное значение (строится плотность

распределения вероятностей, и отсутствующие данные заменяются значением,

соответствующим ее максимуму).

Шаг 4 – выявление аномалий

Анализ визуализатора Статистика (минимальные и максимальные значе-

ния полей) позволил сделать вывод об отсутствии аномальных выбросов в дан-

ных файла сотовые операторы.txt.

Перед выявлением аномалий полезно также изучить распределение дан-

ных (гистограмму), и те поля, в которых оно нормальное, проанализировать на выбросы методом «сигм»: любые значения ряда, отличающиеся от среднего больше чем на три среднеквадратических отклонения, являются потенциаль-

ными аномалиями.

Потенциальные аномалии можно обнаружить и на графике, для чего ис-

пользуют визуализатор Диаграмма (для аномальных точек используют один цвет, например, красный цвет, для не аномальных – белый).

Шаг 5 – фильтрация

Фильтрация в очистке и предобработке используется для получения очи-

щенной выборки после принятия решений о судьбе «грязных» записей и для вспомогательных действий.

В рассматриваемом примере фильтрация использовалась для исключения дубликатов и противоречий (см. сценарий на рис. 2.17).

Шаг 6 – совокупная оценка качества

Всего записей: до очистки – 607, после очистки – 557, удалено 8,24%.

Выводы: в целом качество данных можно признать очень хорошим; проблемы,

возникшие с пропущенными и аномальными данными, были решены стандарт-

ными методами.

Задание 2. Требуется разработать систему аналитической отчетности в

Deductor на основе созданного ранее хранилища данных ВОДА. Все требуемые отчеты должны быть вынесены на Панель отчетов.

1.Постройте отчет–диаграмму «Динамика показателя содержания ХПК

(химическое потребление кислорода) в реке Ока», используя все име-

ющиеся данные.

Рис. 27. Временной ряд загрязнителя ХПК

2.Постройте отчет–гистограмму распределения показателя «ХПК» в реке Беленькая за последние 5 месяцев от имеющихся данных. Назовите от-

чет «Гистограмма показателя ХПК»

Рис. 28. Гистограмма показателя ХПК

3. Постройте куб (и кросс-диаграмму) по двум измерениям Створ и

Название загрязнителя, в ячейках которого указаны средние значения

<<< < Предыдущая 1 2 3 4 56 / 116 7 8 9 10 11 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.11.20231.97 Mб08856.pdf
#
25.11.20231.97 Mб08857.pdf
#
25.11.20231.97 Mб08858.pdf
#
25.11.20231.97 Mб08859.pdf
#
21.11.2023159.46 Кб0886.pdf
#
25.11.20231.97 Mб08860.pdf
#
25.11.20231.97 Mб18861.pdf
#
25.11.20231.97 Mб08862.pdf
#
25.11.20231.97 Mб08863.pdf
#
25.11.20231.97 Mб08864.pdf
#
25.11.20231.97 Mб08865.pdf