Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8879

.pdf
Скачиваний:
5
Добавлен:
25.11.2023
Размер:
1.99 Mб
Скачать

деленный, Телефон – имеется, Состояние квартиры – отличное, то на выходе опре-

деляем класс Дешевая квартира.

Построение нейросетевой модели прогнозирования стоимости недвижи-

мости

В результате изучения предметной области должна быть разработана модель прогнозирования, составляющими которой должны быть:

набор входных переменных;

метод формирования входных признаков x;

метод формирования обучающего правила y;

архитектура нейронной сети;

метод обучения нейронной сети;

анализ адекватности и точности построенного прогноза.

Работа нейронной сети аналогична работе эксперта, который может оценить стоимость объекта недвижимости только на основе его свойств (признаков). Объек-

ты недвижимости описываются определенным набором стандартных признаков,

рассматриваемых экспертом и формирующих цену, и поэтому оценка недвижимости хорошо формализуется для решения методами регрессии, в том числе нейросетевы-

ми. На вход сети подаются значения признаков определенного объекта недвижимо-

сти, а на выходе формируется оценка его стоимости. С получением входных данных обычно проблем не возникает, поскольку исчерпывающую информацию о рынке недвижимости можно получить с помощью различных агентств. Желаемый выход также хорошо определен – цена. Кроме того, имеется богатый опыт в виде преды-

дущих продаж для обучения нейронной сети.

Для решения задачи будем использовать те же атрибуты объектов недвижи-

мости, что и в примере нейросетевой классификации объектов недвижимости. Ар-

хитектура многослойного персептрона будет отличаться только тем что, выходной слой теперь имеет один нейрон, где будем получать прогнозируемое значение цены

(рис. 60).

91

Рис. 60. Граф нейросети для решения задачи прогнозирования Качество построенной нейронной сети подтверждает диаграмма рассеяния,

подтверждающая хорошие прогностические результаты построенной нейросетевой модели (рис. 61).

Рис. 61. Диаграмма рассеяния Диаграмма рассеяния служит для наглядной оценки качества построенной

модели с помощью результатов сравнения непрерывных значений выходного поля и непрерывных значений того же поля, но рассчитанных моделью. На диаграмме рассеяния отображаются выходные значения для каждого из примеров обучающей

92

выборки, координаты которых по оси Х – это значение выхода на обучающей выборке (эталон), а по оси Y – значение выхода, рассчитанное обученной моделью на том же примере. Прямая диагональная линия представляет собой ориентир

(линию идеальных значений). Чем ближе точка к этой линии, тем меньше ошибка модели. Также на диаграмме рассеяния отображаются две пунктирные линии – верхняя и нижняя границы доверительного интервала. Ширина доверительного интервала определяется допустимой ошибкой, которая вводится в поле "Ошибка".

Если ошибка модели (величина в столбце <Имя_поля>_ERR) меньше допустимой,

то точка попадает в доверительный интервал. С помощью доверительного интервала можно оценить, в каких точках отклонение рассчитанного моделью выхода от эталона является недопустимым и в дальнейшем исследовать эти записи детальней.

Рис. 62. Оценка качества построенной модели нейросетевого прогнозирования

93

4. Методические указания по организации самостоятельной работы

4.1 Общие рекомендации для самостоятельной работы

Самостоятельная работа студентов является основным способом овладения учебным материалом в свободное от обязательных учебных занятий время.

Целями самостоятельной работы студентов являются:

- систематизация и закрепление полученных теоретических знаний и практиче-

ских умений студентов;

-углубление и расширение теоретических знаний;

-формирование умений использовать нормативную, правовую, справочную до-

кументацию и специальную литературу;

-развитие познавательных способностей и активности студентов:

-формирования самостоятельности мышления, способностей к саморазвитию,

самосовершенствованию и самореализации.

Запланированная в учебном плане самостоятельная работа студента рассматри-

вается как связанная либо с конкретной темой изучаемой дисциплины, либо с под-

готовкой к курсовой, дипломной работе, а также к защите ВКР. В данном разделе рассматривается только самостоятельная работа первого вида.

Самостоятельная работа выполняется в два этапа: планирование и реализация.

Планирование самостоятельной работы включает:

-уяснение задания на самостоятельную работу;

-подбор рекомендованной литературы;

-составление плана работы, в котором определяются основные пункты пред-

стоящей подготовки.

Составление плана дисциплинирует и повышает организованность в работе.

На втором этапе реализуется составленный план. Реализация включает в себя:

-изучение рекомендованной литературы;

-составление плана (конспекта) по изучаемому материалу (вопросу);

-взаимное обсуждение материала.

Необходимо помнить, что на лекции обычно рассматривается не весь материал.

94

Оставшийся восполняется в процессе самостоятельной работы. В связи с этим рабо-

та с рекомендованной литературой обязательна.

Работа с литературой и иными источниками информации включает в себя две группы приемов: техническую, имеющую библиографическую направленность, и

содержательную. Первая группа – уяснение потребностей в литературе; получение литературы; просмотр литературы на уровне общей, первичной оценки; анализ надежности публикаций как источника информации, их относимости и степени по-

лезности. Вторая – подробное изучение и извлечение необходимой информации.

Для поиска необходимой литературы можно использовать следующие способы:

-поиск через систематический каталог в библиотеке;

-просмотр специальных периодических изданий;

-использование материалов, размещенных в сети Интернет.

Для того, чтобы не возникало трудностей понимания текстов учебника, моно-

графий, научных статей, следует учитывать, что учебник и учебное пособие предна-

значены для студентов и магистрантов, а монографии и статьи ориентированы на исследователя. Монографии дают обширное описание проблемы, содержат в себе справочную информацию и отражают полемику по тем или иным дискуссионным вопросам. Статья в журнале кратко излагает позицию автора или его конкретные достижении в исследовании какой-либо научной проблемы.

В процессе взаимного обсуждения материала закрепляются знания, а также приобретается практика в изложении и разъяснении полученных знаний, развивает-

ся речь.

При необходимости студенту следует обращаться за консультацией к препода-

вателю.

Составление записей или конспектов позволяет составить сжатое представле-

ние по изучаемым вопросам. Записи имеют первостепенное значение для самостоя-

тельной работы студентов. Они помогают понять построение изучаемого материала,

выделить основные положения, проследить их логику.

Ведение записей способствует превращению чтения в активный процесс. У

95

студента, систематически ведущего записи, создается свой индивидуальный фонд подсобных материалов для быстрого повторения прочитанного. Особенно важны и полезны записи тогда, когда в них находят отражение мысли, возникшие при само-

стоятельной работе.

Можно рекомендовать следующие основные формы записи: план, конспект, те-

зисы, презентация.

План – это схема прочитанного материала, краткий (или подробный) перечень вопросов, отражающих структуру и последовательность материала. Подробно со-

ставленный план вполне заменяет конспект.

Конспект – это систематизированное, логичное изложение материала источни-

ка. Объем конспекта не должен превышать 10 страниц. Шрифт Times New Roman,

кегль 14, интервал 1,5. Список литературы должен состоять из 5-8 источников, по возможности следует использовать последние издания учебных пособий и исследо-

ваний.

Тезисы – это последовательность ключевых положений из некоторой темы без доказательств или с неполными доказательствами. По объему тезисы занимают одну страницу формата А4 или одну – две страницы в ученической тетради. В конце те-

зисов студент должен сделать собственные выводы.

Презентации по предложенной теме составляются в программе Power Point или

Impress. Количество слайдов должно быть не менее 15 и не превышать 20 слайдов.

Кроме текста на слайдах можно создавать схемы и таблицы. Шрифт должен быть читаемым, например, шрифт черного цвета на светлом фоне или светлый шрифт на темном фоне. Также шрифт не должен быть слишком мелким. В слайдах указыва-

ются только основные тезисы, понятия и нормы.

4.2Темы для самостоятельного изучения

1.Технологии анализа данных. Data Mining, Visual Mining, Text Mining.

2.Типы многомерных OLAP-систем. Задачи и содержание оперативного

(OLAP) анализа.

96

3.Data Mining: Data Mining: задача кластеризации. Методы кластерного анализа.

4.Data Mining: Искусственные нейронные сети для решения задач прогно-

зирования.

5.Data Mining: логистическая регрессия.

6.Data Mining: задача кластеризации. Карты Кохонена.

7.Современные методы анализа данных. Обнаружение логических зако-

номерностей в данных.

8. Оперативная аналитическая обработка данных. OLAP-технологии. При-

меры применения.

9.Интеллектуальный анализ данных средствами MS SQL Server.

10.Современные пакеты прикладных программ анализа, включаю-

щие методы Data Mining.

11.Интеллектуальные анализ данных и прогнозирование в

«1С:Предприятии».

4.3Учебно-методическое обеспечение самостоятельной работы

1.Барсегян А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP/ А.А. Барсегян. – СПб.: БХВ-Петербург, 2007. – 284 с.

2.Паклин Н. Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям

/Н.Б.Паклин, В.И. Орешков – СПб.: Питер, 2010. – 704 с.

3.Практикум по анализу данных на компьютере / И.А. Кацко, Н.Б. Паклин /под ред. Г.В. Гореловой – М.: КолосС, 2009. – 278 с.

4.Data Mining – добыча данных/ BaseGroup Labs. Режим доступа - http://www.basegroup.ru/library/methodology/data_mining/

4.4. Задания для самостоятельной работы.

Раздел 1.

Задание 1.

97

Файлы e070_produce.txt и e070_sales.txt содержат соответственно, справочник цен на товары (Цена поставки) и чеки продаж за определенный период времени

(Дата продажи, Товар, Код, Количество, Сумма, Скидка).

Дополнительно известны следующие бизнес-правила:

1.Розничная цена=(Сумма+Скидка)/Количество.

2.Постоянным покупателям предоставляются следующие скидки: 2%, 3%, 5%,

10%, 20%.

Скидка в %= (скидка/(Сумма+Скидка))∙100%

Требуется:

I. Провести аудит данных и сложный профайлинг данных, написав соответ-

ствующий сценарий в Deductor.

II. Заполнить предлагаемую форму отчета: 1. Аудит данных

Табл. 1. Сводная оценка качества данных (файл e070_produce)

 

 

Тип данных

Вид дан-

 

Пропуски

Аномалии

Дубликаты

Поле

ных

 

 

 

 

Кол-

 

Кол-

Дей-

 

 

Действия

 

 

во

во

ствия

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сокращения: I – целый, S – строковый, F – вещественный, Д – дискретный,

Н – непрерывный

 

 

 

 

 

 

 

 

 

 

 

 

 

Диапазон изменения цен

 

 

 

 

 

 

Всего записей: до очистки –

 

, после очистки –

 

, удалено % –

 

 

 

 

 

 

 

 

 

 

Табл. 2. Сводная оценка качества данных (файл e070_sales)

Поле

1

2

Тип данных

Вид данных

 

Пропуски

Аномалии

 

 

 

 

 

во

 

 

 

 

 

 

Кол-

Действия

Кол-во

Действия

 

 

 

 

 

 

 

 

 

 

 

98

3

4

5

Сокращения: I – целый, S – строковый, F – вещественный, D/V – дата/время, Д – дискретный, Н – непрерывный.

 

 

 

Дубликаты

Противоречия

Поле

 

 

 

 

 

 

Кол-во групп и

Действия

Кол-

Действия

 

 

 

 

 

записей

 

во

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Всего записей: до очистки –

 

, после очистки –

 

, удалено %

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ваш комментарий и совокупная оценка качества данных:

2. Сложный профайлинг данных

Табл. 3. Сводная оценка профайлинга данных

Подозрение на ошибку

Выявлено

В % от всех че-

случаев

ков

 

 

 

 

 

 

1

Розничная цена меньше цены по-

 

 

ставщика

 

 

 

 

 

 

 

 

 

2

Аномальное количество товара

 

 

 

 

 

 

3

Аномальная скидка

 

 

 

 

 

 

4

Ошибка в цене поставки

 

 

 

 

 

 

Ваш комментарий и выводы:

99

Раздел 2.

Требуется разработать систему аналитической отчетности в Deductor. Система отчетности строится на основе данных, выгруженных из хранилища данных Фар-

мация (процесс Продажи)

Все требуемые отчеты должны быть вынесены на Панель отчетов.

Задание 1. Диаграммы и гистограммы.

1. Постройте отчет – гистограмму распределения средних цен всех товаров, ко-

торые продавались за последние 5 месяцев от имеющихся данных. Назовите отчет

«Гистограмма средних цен».

2. Постройте временной ряд продаж по месяцам, используя все имеющиеся данные ( по оси ОУ откладывается сумма продаж).

Задание 2. OLAP-кубы

1.Построить куб по трем измерениям (отдел, месяц года, товарная группа), в

ячейках которого отображается сумма и объем (количество проданных единиц продукции) продаж за все периоды, имеющиеся в ХД.

2.То же, что в п.1, но за последние три месяца от имеющихся данных.

3.Сформировать многомерный отчет и график загруженности торговых точек по дням недели.

4.10 самых продаваемых товаров.

5.10 самых продаваемых товаров по пятницам

6.5 самых популярных товаров в товарной группе «Местные анестетики»

7.Товары, дающие 80% объема продаж в летние месяцы.

8.5 товаров, пользующихся наибольшим спросом по понедельникам до 12 часов дня.

Задание 3.

1.Построить куб по трем измерениям (торговая точка, месяц года, товарная группа), в ячейках которого отображается сумма и объем (количество продан-

ных единиц продукции) продаж за все периоды, имеющиеся в ХД. Какая тор-

100

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]