Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8860

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
1.97 Mб
Скачать

Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

Прокопенко Н.Ю.

АНАЛИЗ ДАННЫХ

Учебно-методическое пособие по подготовке к лекциям, практическим занятиям

(включая рекомендации по организации самостоятельной работы)

для обучающихся по дисциплине «Анализ данных» по направлению подготовки 09.03.04 Программная инженерия

профиль 09.03.04 Разработка программно-информационных систем

Нижний Новгород

2018

УДК

Прокопенко Н.Ю. / Анализ данных [Электронный ресурс]: учеб.-метод. пос. / Н.Ю. Прокопенко; Нижегор. гос. архитектур. - строит. ун-т – Н. Новгород: ННГАСУ, 2018. – 101 с.– 1 электрон. опт. диск (CD-RW).

В настоящем учебно-методическом пособии по дисциплине «Анализ данных» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебно-методического пособия – это помощь в усвоении лекций и в подготовке к практическим занятиям.

Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Анализ данных» по направлению подготовки 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программноинформационных систем.

Учебно-методическое пособие ориентировано на обучение в соответствии с календарным учебным графиком и учебным планом по основной профессиональной образовательной программе направления 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программно-информационных систем, утверждённым решением учёного совета ННГАСУ от 02.03.2018 г. (протокол № 3).

© Н.Ю. Прокопенко, 2018 © ННГАСУ, 2018

2

Оглавление

1.Общие положения……………………………………………………………..…4

1.1Цели изучения дисциплины и результаты обучения………………….…..4

1.2Содержание дисциплины……………………………………………………4

1.3Порядок освоения материала……………………………………………..…5

2.Методические указания по подготовке к лекциям…………………………..…6

2.1Общие рекомендации по работе на лекциях………………………………..6

2.2Общие рекомендации при работе с конспектом лекций…………………...6

2.3Краткое содержание лекций…………………………………………………7

2.3.1. Раздел 1. Предмет и методы статистического анализа данных..……….7 2.3.2. Раздел 2. Предмет и методы интеллектуального анализа данных………

Предварительный разведочный анализ данных ……………………………...17

2.3.3. Раздел 3. Применение современных методов обработки данных ……...

для решения прикладных задач ……………….……………………………….35

2.4Контрольные вопросы………………………………………………………38

3.Методические указания по подготовке к практическим занятиям…………..41

3.1Общие рекомендации по подготовке к практическим занятиям…………41

3.2Примеры задач для практических занятий…………………………...……78

4.Методические указания по организации самостоятельной работы……….....81

4.1Общие рекомендации для самостоятельной работы………………………81

4.2Темы для самостоятельного изучения……………………………………...81

4.3.Темы расчетно-графических работ………………………………………...82

4.4.Учебно-методическое обеспечение самостоятельной работы…………...82

4.5Задания для самостоятельной работы……………………...……………....83

3

1. Общие положения

1.1 Цели изучения дисциплины и результаты обучения

Основными целями освоения учебной дисциплины «Анализ данных» яв-

ляются формирование теоретических и практических компетенций в области целостного представления, понимания места и роли, а также применения мето-

дов статистического и интеллектуального анализа данных, а также обучение студентов современным программным средствам, в которых реализованы мо-

дули, осуществляющие решение задач анализа данных.

В процессе освоения дисциплины студент должен Знать:

системный подход к решению задач обработки и анализа данных, основ-

ные понятия и определения статистики и эконометрики, информационные си-

стемы и пакеты статистических программ, их возможности для решения при-

кладных управленческих и бизнесзадач.

Уметь:

выполнять оценку пригодности данных для анализа, профайлинг данных,

самостоятельно провести необходимую работу с данными, определить тип за-

дачи (классификация, кластеризация, прогнозирование, поиск зависимостей и т.п.), решить ее адекватно выбранным методом.

Владеть:

практическими приёмами и методами реализации различных стратегий об-

работки данных и объяснения полученных результатов, навыками работы с конкретной АП Deductor.

1.2 Содержание дисциплины

Материал дисциплины сгруппирован по следующим разделам:

1. Предмет и методы статистического анализа данных.

Сферы применения анализа данных. Этапы анализа данных. Методы ста-

тистической обработки данных. Подготовка данных для анализа. Методы полу-

4

чения выборок. Группировка данных. Ряды распределения. Использование группировок и классификаций в практике статистики. Анализ группировок.

Показатели описательной статистики. Причинно-следственные отношения со-

циально-экономических явлений. Основные этапы статистического изучения взаимосвязи и взаимозависимости. Признак определения связи явлений, виды связей: прямые и обратные, прямолинейные и криволинейные, однофакторные и многофакторные, функциональные и корреляционные. Задачи и предпосылки применения корреляционно-регрессивного анализа. Основные условия исполь-

зования и порядок. Оценка существенности связи по коэффициентам. Понятие и классификация рядов динамики. Виды динамических рядов.

2. Предмет и методы интеллектуального анализа данных. Предварительный разведочный анализ данных.

Подготовка данных для анализа: выявление пропусков, дубликатов, противо-

речий, аномалий; восстановление пропущенных значений; редактирование аномальных значений; представление их в виде, пригодном для дальнейшего анализа.

Многомерное представление данных On-line Analytical Processing (OLAP).

Визуализация данных и манипуляция с данными на основе графического изоб-

ражения (диаграммы, гистограммы, OLAP-кубы).

Основы анализа многомерных данных. Классификация. Базовые сведения.

Постановка задачи. Типы классов. Проверка гипотез. Обучение и проверка.

Классификация «с учителем». Классификация «без учителя». Основы логисти-

ческой регрессии. Интерпретация логистической регрессии. Простой байесов-

ский классификатор.

Анализ и прогнозирование временных рядов. Цели и задачи анализа вре-

менных рядов. Модели временных рядов. Анализ и прогнозирование времен-

ных рядов и автоматизация процедуры получения прогноза по временным ря-

дам.

3. Применение современных методов обработки данных для решения при-

5

кладных задач.

Роль и место анализа в процессе принятия решения. Решение бизнес задач из области анализа обеспечения ресурсами, из области логистики.

Виды ансамблей моделей. Методы комбинирования результатов. Алгорит-

мы формирования моделей. Оценка эффективности и сравнение моделей. По-

строение ансамблей моделей в АП Deductor. Процедуры бэггинга и бустинга.

Оценка эффективности и сравнение моделей.

1.3 Порядок освоения материала

Материал дисциплины изучается в соответствии с порядком, определён-

ным в следующей таблице: Таблица 1

Порядок освоения дисциплины

Раздел дисциплины

№№ предшествую-

 

 

щих разделов

 

 

 

1

Предмет и методы статистического анализа дан-

-

 

ных.

 

 

 

 

2

Предмет и методы интеллектуального анализа

1

 

данных. Предварительный разведочный анализ

 

 

данных.

 

 

 

 

3

Применение современных методов обработки дан-

1,2

 

ных для решения прикладных задач.

 

 

 

 

2. Методические указания по подготовке к лекциям

2.1 Общие рекомендации по работе на лекциях

Лекция является главным звеном дидактического цикла обучения. Ее цель

– формирование основы для последующего усвоения учебного материала. В

ходе лекции преподаватель в устной форме, а также с помощью презентаций передает обучаемым знания по основным, фундаментальным вопросам изучае-

мой дисциплины.

Назначение лекции состоит в том, чтобы доходчиво изложить основные положения изучаемой дисциплины, ориентировать на наиболее важные вопро-

сы учебной дисциплины и оказать помощь в овладении необходимых знаний и

6

применения их на практике.

Личное общение на лекции преподавателя со студентами предоставляет большие возможности для реализации образовательных и воспитательных це-

лей.

При подготовке к лекционным занятиям студенты должны ознакомиться с презентаций, предлагаемой преподавателем, отметить непонятные термины и положения, подготовить вопросы с целью уточнения правильности понимания.

Рекомендуется приходить на лекцию подготовленным, так как в этом случае лекция может быть проведена в интерактивном режиме, что способствует по-

вышению эффективности лекционных занятий.

2.2Общие рекомендации при работе с конспектом лекций

Входе лекционных занятий необходимо вести конспектирование учебного материала. Конспект помогает внимательно слушать, лучше запоминать в про-

цессе осмысленного записывания, обеспечивает наличие опорных материалов при подготовке к семинару, зачету, экзамену.

Полезно оставить в рабочих конспектах поля, на которых делать пометки из рекомендованной литературы, дополняющие материал прослушанной лек-

ции, а также подчеркивающие особую важность тех или иных теоретических положений.

В случае неясности по тем или иным вопросам необходимо задавать пре-

подавателю уточняющие вопросы. Следует ясно понимать, что отсутствие во-

просов без обсуждения означает в большинстве случаев неусвоенность матери-

ала дисциплины.

2.3 Краткое содержание лекций.

2.3.1. Предмет и методы статистического анализа данных

Проведение анализа данных связано с изучением свойств различных со-

вокупностей однотипных объектов (людей, предприятий, товаров и т.п.). При

7

этом каждый объект, входящий в состав совокупности, характеризуется неко-

торым числом – величиной изучаемого признака X. Для обозначения таких со-

вокупностей вводится понятие генеральной совокупности.

Под генеральной совокупностью понимается вся совокупность однотип-

ных объектов, которые изучаются в данном исследовании.

Пример генеральной совокупности – данные о доходах всех жителей ка-

кой-либо страны; о результатах голосования населения по какому-либо вопросу и т.д.

Однако на практике в большинстве случаев мы имеем дело только с ча-

стью возможных наблюдений, взятых из генеральной совокупности.

Выборка (выборочная совокупность) – это совокупность случайно ото-

бранных объектов, составляющих лишь часть генеральной совокупности.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности.

В зависимости от способов отбора объектов из генеральной совокупности различают несколько типов выборок. Их типы, определения, свойства, примеры использования рекомендуется изучить самостоятельно.

Пусть из генеральной совокупности извлечена выборка, причем х1

k

 

наблюдалось n1 раз, x2 – n2 раз,..., хk – nk раз и ni

n – объем выборки.

i 1

 

Наблюдаемые значения хi называют вариантами, а последовательность вариант,

записанных в возрастающем порядке – вариационным рядом. Числа наблюде-

ний (ni) называют частотами, а их отношения к объему выборки nni wi – отно-

сительными частотами.

Статистическим распределением выборки называют перечень вариант xi

и соответствующих им частот ni или относительных частот wi (причем сумма всех частот равна объему выборки, а сумма всех относительных частот равна

1).

8

xi

 

x1

 

x2

 

….

 

xk

ni

 

n1

 

n2

 

….

 

nk

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

x1

 

x2

 

….

 

xk

 

 

 

 

wi

 

w1

 

w2

 

….

 

wk

 

 

 

 

 

 

 

 

 

Вариационный ряд, заданный в таком виде, называют дискретным. Геометри-

ческой характеристикой дискретного вариационного ряда является полигон ча-

стот.

Полигоном частот называют ломаную, отрезки которой соединяют точки

1,n1), (х2,n2), …, (хk,nk), где хi – варианты выборки, а ni – соответствующие им частоты.

Статистическое распределение можно задать также в виде последова-

тельности интервалов и соответствующих им частот. Для непрерывно распре-

деленного признака весь интервал, в котором заключены все наблюдаемые зна-

чения признака, разбивают на ряд частичных интервалов длины h и находят ni

сумму частот вариант попавших в i-й интервал. Такое распределение называют

интервальным вариационным рядом.

Геометрической характеристикой интервального вариационного ряда яв-

ляется гистограмма частот.

Гистограммой частот называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длины h,

а высоты равны отношению nhi .

Статистические оценки параметров распределения

Пусть требуется изучить количественный признак генеральной совокуп-

ности. Располагая лишь выборочными значениями признака, можно оценить, а

не определить точно, значения параметров; эти оценки будут случайными и меняться от выборки к выборке. Поэтому важно не только знать оценки пара-

метров, определенные на основе выборочных данных, но и понимать меры их надежности.

9

Цель любого оценивания – получить как можно более точное значение неизвестной характеристики генеральной совокупности по данным выборочно-

го наблюдения.

Статистической оценкой неизвестного параметра теоретического рас-

пределения называют функцию от наблюдаемых случайных величин.

В зависимости от способа выражения оценки делятся на точечные оцен-

ки, выражаемые одним числом, и интервальные оценки, определяющие число-

вой интервал, внутри которого может находиться оцениваемый параметр гене-

ральной совокупности.

Генеральная совокупность характеризуется двумя сторонами:

1) видом распределения (например, равномерное, нормальное, Пуассонов-

ское и т.д.); 2) параметрами распределения (например, математическое ожидание, среднее квадратическое отклонение и т.п.).

Всвязи с этим существует два класса оценок: оценки вида распределения

иоценки параметров распределения.

Оценка * должна быть несмещенной, эффективной, состоятельной.

Определения несмещенной, эффективной, состоятельной оценок рекомендуется

изучить самостоятельно.

Несмещенной, состоятельной и эффективной оценкой генеральной сред-

ней (математического ожидания признака X генеральной совокупности) явля-

 

 

 

 

 

 

 

 

ется выборочная средняя хв

– среднее арифметическое значений признака в

выборке:

 

 

 

 

 

 

x1 x2

xк

 

 

 

xв

,

(1)

 

 

n

 

 

 

 

 

 

 

где n – объем выборки, xi – значение признака в выборке. Если результаты вы-

борки представлены в виде дискретного распределения:

xi

x1

x2

….

xk

ni

n1

n2

….

nk

 

 

 

 

 

то

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]