Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие 3000142

.doc
Скачиваний:
3
Добавлен:
30.04.2022
Размер:
533.5 Кб
Скачать

Структура связей процессов управления типовыми образовательными проектами

Кроме того, имеются взаимосвязи групп процессов различных фаз проекта. Например, закрытие одной фазы может являться входом для инициации следующей фазы (пример: завершение фазы проектирования требует одобрения заказчиком проектной документации, которая необходима для начала реализации).

Воронежский государственный технический университет

УДК 004.8

А.А. Пак, Ю.Н. Ламонова

СТАТИСТИЧЕСКИЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ. ТРЕБОВАНИЯ К СТАТИСТИЧЕСКИМ ОЦЕНКАМ

Большинство практических задач, которые решает статистика, состоит в оценивании некоторого количественного признака генеральной совокупности. Предположим, что исследователю удалось установить, какому именно закону распределения подчиняется изучаемый количественный признак. В этом случае необходимо оценить параметры, которыми определяется предполагаемое распределение. Например, если удалось установить, что количественный признак подчиняется показательному закону распределения вероятностей, тогда необходимо оценить параметр λ, которым определяется данное распределение.

Предположим, что имеются данные выборки, например, значения количественного признака х1, х2, …, хn, полученные в результате n наблюдений. Будем рассматривать х1, х2, …, хn как независимые случайные величины Х12 ,…,Х n.

Статистическая оценка неизвестного параметра теоретического распределения – это функция от наблюдаемых случайных величин. Таким образом, определить статистическую оценку неизвестного параметра теоретического распределения значит определить функцию от наблюдаемых случайных величин Х1, Х2, …, Хn, которая дает приближенное значение оцениваемого параметра. Для того, чтобы статистические оценки можно было бы принять за оценки параметров, необходимо и достаточно, чтобы оценки удовлетворяли трем статистическим свойствам: несмещенности, состоятельности и эффективности.

Воронежский государственный технический университет

УДК 004.8

А.А. Пак, Ю.Н. Платонова, И.С. Малышева

ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ

Точечная оценка параметра – это, которая характеризуется одним конкретным числом (например, математическим ожиданием, дисперсией, средним квадратичным отклонением и т. д.). Точечные оценки параметров генеральной совокупности могут быть приняты в качестве ориентировочных, первоначальных результатов обработки выборочных данных, Их основной недостаток заключается в том, что неизвестно, с какой точностью оценивается параметр. Если для выборок большого объема точность обычно бывает достаточной (при условии несмещенности, эффективности и состоятельности оценок). То для выборок небольшого объема вопрос точности оценок становится очень важным, По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.

Интервальные оценки позволяют построить с заданной вероятностью интервал, в котором находится оцениваемый параметр генеральной совокупности, Таким образом, интервальные оценки характеризуются двумя числами – концами интервала.

Надежность или доверительная вероятность оценки – это вероятность γ, близкое к единице (например, 0,95;0,99;0,999).

Доверительный интервал – это интервал, который покрывает оцениваемый параметр с заданной надежностью γ.

Воронежский государственный технический университет

УДК 004.8

Е.Д. Федорков, А.А. Пак, М.В. Ришко

УСЛОВНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ КОМПОНЕНТ СИСТЕМЫ ДИСКРЕТНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН

Для случайных событий A и B справедливо следующее утверждение: если события A и B зависимы, то условная вероятность события B отличается от его безусловной вероятности.

Условная вероятность события B при условии, что событие A уже наступило, определяется по формуле:

(1)

Данное утверждение справедливо и для случайных величин.

Для характеристики зависимости между составляющими двумерной случайной величины необходимо ввести понятие условного распределения.

Пусть (X,Y) — это дискретная двумерная случайная величина, возможные значения компонент которой соответственно равны и .

Предположим, что в результате испытания случайная величина Х приняла значение Х = , а случайная величина Y при этом приняла одно из своих возможных значений . Обозначим через p( ) условную вероятность, того, что Y примет, например, значение при условии, что Х = . Причем условная вероятность p( ) не будет равна безусловной вероятности p( ).

В общем случае условные вероятности компонент системы двух случайных величин обозначим следующим образом: p( ) или p( ), где , .

Условное распределение компоненты Y при Х = это совокупность условных вероятностей p( ),p( ),…,

p( ), рассчитанных при условии, что событие Х = , уже наступило (причем имеет одинаковое значение при всех зна-чениях компоненты Y).

Условное распределение компоненты X при Y = это совокупность условных вероятностей p( ),p( ),…, p( ), рассчитанных при условии, что событие Y = , уже наступило (причем имеет одинаковое значение при всех зна-чениях компоненты X).

Если известен закон распределения двумерной дискретной случайной величины (X,Y), то с помощью формулы [1], можно рассчитать условные законы распределения компонент X и Y.

Условные законы распределения составляющей Х рассчитываются по формуле:

,

где , .

Условные законы распределения составляющей Y рас-считываются по формуле:

.

Сумма вероятностей условного распределения равна единице т.е. при фиксированном :

,

или при фиксированном :

.

Воронежский государственный технический университет

УДК 004.8

А.А. Пак, В.В. Ряскова

УСЛОВНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ КОМПОНЕНТ СИСТЕМЫ НЕПРЕРЫВНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН. УСЛОВНОЕ МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ

Пусть задана (X, Y) — непрерывная двумерная случайная величина. Условная дифференциальная функция компоненты Х при заданном значении Y = y — это отношение дифференциальной функции , системы к дифференциальной функции ƒ (y) компоненты Y:

.

Условная дифференциальная функция отличается от безусловной дифференциальной функции тем, что характеризует распределение компоненты X при условии, что компонента Y приняла значение Y = y, а функция характеризует распределение компоненты Х независимо от возможных значений компоненты Y.

Условная дифференциальная функция компоненты Y при заданном значении X = x — это отношение дифференциальной функции системы к дифференциальной функции компоненты Х:

Пусть дифференциальная функция , системы двух случайных величин известна. Тогда условные дифференциальные функции составляющих могут быть рассчитаны по формулам: , .

Данные формулы можно записать в следующем виде:

,

Следовательно, результатом произведения закона распределения одной из компонент системы на условный закон распределения другой компоненты является закон распределения системы случайных величин.

Условное математическое ожидание дискретной случайной величины Y при Х = x — это произведение возможных значений Y на их условные вероятности:

.

Математическое ожидание непрерывной случайной величины: ,

где — условная дифференциальная функция случайной величины Y при Х = x.

Условное математическое ожидание дискретной случайной величины X при Y = y — это произведение возможных значений Х на их условные вероятности:

Математическое ожидание непрерывной случайной величины Х при Y=y:

,

где — условная дифференциальная функция случайной величины Х при Y =y.

Воронежский государственный технический университет

УДК 004.8

М.А. Солохина, А.С. Левченко, А.С. Кольцов

хранение конфигурационных данных в подсистемЕ Internet-рассылок в рамках системы ДИСТАНЦИОННОГО ОБУЧЕНИЯ

Подсистема Internet-рассылок может быть настроена со специальными подтверждениями, именем и электронным адресом администратора, и некоторыми другими опциями. Использование жестко заданных в программе значений этих опций является плохим подходом, так как при возникновении у администратора необходимости изменить некоторую опцию (например, свой адрес электронной почты), ему придется вносить соответствующие изменения в исходный код, компилировать весь проект заново и загружать новый модуль. Это серьезная проблема, особенно если администратор сайта не является программистом. Поэтому все установки будут храниться в виде внешнего файла.

Все установки обычно хранятся в базе данных или в текстовом файле. Если выбрать базу данных, то потребуется завести целую таблицу для хранения всего лишь нескольких установок. Можно бы хранить все установки либо в одной строке (со многими столбцами), либо по одной установке в каждой строке. Такое решение оказывается весьма простым, однако оно означает неэффективное использование ресурсов базы данных. Хорошим решением является использование XML-файла, который обладает вполне подходящим форматом для хранения установок приложения. В .NET Framework также предусмотрены классы, позволяющие считывать и записывать все установки и представлять их в виде свойств класса.

Файл AppSettings.xml используется для хранения строки соединения с базой данных, всех установок приложения за исключением касающихся внешнего представления приложения.

XML-файл установок может выглядеть следующим образом:

<?xml version="1.0" encoding="utf-8"?>

<AppSettings>

<SenderName>ВГТУ КИТП</SenderName>

<SenderEmail>admin@kitp.vorstu.ru</SenderEmail>

<NewsSubject>Новости по теме: #ListName#</NewsSubject>

<Signature>Успехов в учебе!</Signature>

</AppSettings>

Еще одним преимуществом использования XML-файла является возможность его десериализации, т.е. реализация процесса создания нового объекта, состояние которого определяется данными, хранящимися в этом файле.

Воронежский государственный технический университет

УДК 004.8

А.С. Левченко, А.С. Кольцов, С.К. Мазур

РАЗРАБОТКА ВЕРТИКАЛЬНОГО ПОРТАЛА ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ СПЕЦИАЛИСТОВ ИГРОВОЙ ИНДУСТРИИ

К настоящему времени в сети Internet накопилось большое количество информационных единиц по тематике разработки игр, требующей электронной сортировки и упорядоченности. Целью работы является разработка методов и средств исследования парадигматических отношений тезаурусов в порталах, содержащих информацию о разработке компьютерных игр.

Актуальность и вместе с тем новизна проекта определяются тем, что наряду с существенной простотой используемых технологических решений, проектом реализуется возможность регулирования и видоизменения семиотических и лингвистических характеристик и латентных переменных в единой среде при едином депозитарии с помощью метода нечетких множеств при отсутствии аналогичных систем и стандартных решений.

На основании проведенных аналитических обзоров и апробаций была выбрана для проектирования ИС была выбрана связка из веб-сервера Apache и СУБД MySQL, позволяющая выполнить содержащееся в техническом задании условие кроссплатформенности итогового продукта. Также принимался во внимание тот фактор, что система разграничения прав доступа для упрощения процесса администрирования и увеличения гибкости информационной инкапсулирована в структуру данных самой системы и является неотъемлемой её частью. Языком программирования является унифицированная среда разработки Web-приложений PHP.

Портал состоит из ядра системы – электронной информации непосредственно находящейся в базе данных, а так же окружения ядра – интернет-ссылок на различные порталы и сайты по тематике.

Реализация проекта выстраивалась в рамках полного менеджмента проектирования по методу конвергенции-дивергенции, что является обязательным условием обеспечения полного жизненного цикла системы.

Исходя из требований ПЖЦ, были разработаны и реализованы инструкции всем уровням пользователей (гость, администратор), а также подготовлена и выпущена отчетная документация по проекту. В целях обеспечения ПЖЦ как документация, так и используемые в проекте программные средства проверялись на соответствие качеству стандартам ISO 12207, ISO 9000, ISO 9126:1991. При этом основное внимание уделялось сертификационной проверке качества разработанных в проекте программных приложений и дирекционной подсистеме – настраиваемой виртуальной библиотеке под каждого пользователя.

Таким образом, выполненный проект удовлетворяет всем требованиям технического задания, технических условий эксплуатации и технических требований к изделию.

Воронежский государственный технический университет

УДК 004.8

А.С. Левченко, А.С. Кольцов, Е.С. Стенькин

РАЗРАБОТКА ЭКСПЕРИМЕНТАЛЬНОЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ, ИСПОЛЬЗУЮЩЕЙ МЕТОДЫ ВЫЧИСЛИТЕЛЬНОЙ ЛИНГВИСТИКИ И МАШИННОГО ОБУЧЕНИЯ

При современных тенденциях развития информационных технологий и экспоненциального роста количества документов, область информационного поиска является крайне актуальной.

В настоящем проекте разработана экспериментальная информационно-поисковая система, целью которой является возможность исследования различных алгоритмов информационного поиска с возможным приложением методов вычислительной лингвистики и машинного обучения.

В ходе дипломного проектирования был составлен анализ современного состояния области информационного поиска для задач поиска текстовой информации. Было проанализировано более 80 различных статей международных журналов и конференций.

Наиболее широко используемой теоретико-множественной моделью является модель на основе булевой алгебры. К ее достоинствам относится простота реализации и высокая скорость обработки. К недостаткам – сложность составления запросов, неотсортированный вывод, большое количество документов в выводе.

Вероятностная модель основана на правиле Байеса. Основной процедурой этой модели является вычисление релевантности документа при запросе P(D|Q). Модель основывается на предположении, что термы в документе и запросе являются независимыми. Достоинством этой модели является ранжирование документов. Основным недостатком – необходимость чрезмерного упрощения связей между термами. Основное развитие эта модель получила в конце 80х, начале 90х годов.

Наиболее широко используемой моделью является векторная модель. Она основана на представлении документа и запроса векторами в пространстве термов. Каждый терм является отдельной размерностью. Релевантность оценивается как расстояние между векторами документа и запроса. Модель предполагает разную значимость для каждого терма: для вычисления веса терма используется модель TF-IDF, в которой вес равен произведению частоты терма в документе на обратную частоту терма в коллекции(корпусе) документов. Обычно применяется вариация этой модели, которая учитывает различные нюансы, например такие как, сглаживание частоты терма, нормализация длины документа. Программная реализация проекта осуществлена на языке Common Lisp. Для взаимодействия с пользователем используется web-интерфейс. Для его реализации используется http сервер Apache, интерфейсный модуль mod_lisp, механизмы пользовательского интерфейса реализованы с помощью библиотеки(framework) UCW. Такой выбор языка обусловлен высокой абстракцией языка, единообразным синтаксисом, большой гибкостью. Одной из фундаментальных концепций языка является то, что и код, и данные представляются в виде списков. Кроме того, язык Lisp поддерживает различные парадигмы программирования, что позволяет создавать гибкий код. Для хранения данных системы используется СУБД Berkeley DB. Эта СУБД является встраиваемой и используется в качестве хранилища в различных реляционных СУБД, например MySQL. Выбор Berkeley DB обусловлен тем, что:

  • Структуры данных системы не вписываются в табличную модель;

  • Для работы системы требуются простые операции с хранилищем данных, для которых язык SQL избыточен.

  • Основными сущностями информационно-поисковой системы являются документы и индексы.

Индексирование документа создает представление документа в виде обратного файла – массива, индексами которого являются термы, и в котором хранятся позиции вхождения этого терма в документ. При индексировании производится парсинг (разбор) документа в его промежуточное представление – документ-вектор. Для оптимизации памяти используются частичные индексы – индексы некоторого подмножества документов, которые потом соединяются в большой индекс.

Особенностями процедур парсинга и индексирования является высокая чувствительность к скорости и важность способа реализации задачи токенизации.

Такая организация индекса позволяет упрощать поиск и ранжирование документов с использованием модели TF-IDF.

Обработка пользовательских запросов (Лист 6) в системе реализована следующим образом. Сначала запрос преобразуется в термы, после этого из индекса выбираются соответствующие записи и логически объединяются в один список. После этого документы сортируются в зависимости от степени релевантности документа. Ранжирование производится по TF-IDF. Результат может быть выдан пользователю.

Другой возможностью является лингвистическое ранжирование документов. Входными данными этой процедуры является отсортированный список документов с отсечением тех, которые обладают чрезвычайно низкой оценкой релевантностью. Модуль лингвистической обработки производит более глубокий анализ текстов. В настоящей системе реализованы алгоритмы лемматизации и снятия лексико-семантической омонимии. Рассматриваемая задача решается с помощью классификаторов. Кроме того, в системе предусмотрено уточнение и расширение пользовательских запросов. Основной способ реализации данного компонента включает в себя обратную связь с пользователем.

Воронежский государственный технический университет

УДК 004.8

М.А. Солохина, А.С. Левченко, А.С. Кольцов

библиотека классов доступа к базе данных подсистемЫ Internet-рассылок в рамках системы ДИСТАНЦИОННОГО ОБУЧЕНИЯ

Код, который осуществляет работу с базами данных, логически и физически подразделяется на несколько различных классов. Все эти классы будут откомпилированы в библиотеку классов с именем NewsMailerDB. Остальная часть кода — классы кода поддержки приложения — будет помещена в отдельный модуль. На наш взгляд это является наилучшим подходом, так как, если возникает необходимость внести какие-либо изменения в работу базы данных или требуется установить новую версию СУБД, для этого будет нужно внести изменения и повторно откомпилировать только бизнес-модуль. Это лучше, чем компилировать все вместе (бизнес-классы и класс поддержки) в единый модуль, поскольку можно использовать бизнес-модуль самостоятельно, например, в клиентской части приложения Windows.

Модуль доступа к базе данных содержит в себе три класса.

Класс ListsDB предоставляет все функциональные возможности, необходимые как для выполнения манипуляций над уже существующими списками рассылки, так и для создания новых. Метод GetLists() возвращает набор данных, в котором находится все содержимое таблицы, хранящей доступные списки и их свойства. Этот метод возвращает единственный список, который задается идентификатором, передаваемым методу в качестве параметра. С помощью метода Delete() можно удалить запись с идентификатором, передаваемым этому методу в качестве параметра. Почти так же работают методы Add() и Update() за исключением того, что параметры могут содержать еще и данные, которые должны быть модифицированы или добавлены.

Класс SubscribersDB предназначается для доступа к таблицам «Subscribers» и «UsersData». Он обладает структурой, аналогичной структуре класса ListsDB.

Этот класс является несколько более сложным, чем класс ListsDB, поскольку ему приходится иметь дело с двумя таблицами и управлять отношениями между ними. Функция GetSubscribers() возвращает всех подписчиков того списка, идентификатор которого передан ему в качестве параметра.

Методы Add(), Delete() и Update() позволяют вставлять, удалять и модифицировать подписку пользователей в новые списки. Они выполняют эту работу несколько по-другому, чем соответствующие методы класса ListsDB. Функция Delete() сначала удаляет подписчика из указанного списка, а затем производит проверку, включен ли данный пользователь в какие-либо другие списки. Если нет, то информация о пользователе удаляется из таблицы usersData. Функция Add() не только добавляет подписчика в указанный список, но и проверяет, не совпадает ли переданный ей адрес электронной почты с каким-либо адресом, уже имеющимся в таблице UsersData. Если нет, то делается предположение, что это новый пользователь, и он добавляется в таблицу.

Далее приведены две перезагрузки метода GetUserID(), которые предназначаются для внутреннего использования методами Delete() и Add(). Первый вариант принимает в качестве параметра идентификатор подписчика и возвращает идентификатор пользователя, привязанный к данной подписке; этот метод используется внутри метода Delete (). Вторая перезагрузка принимает в качестве параметра строку адреса электронной почты и возвращает идентификатор пользователя, привязанный к данному адресу, если таковой существует; этот метод используется внутри метода Add ().

Класс NewsHistoryDB является самым простым из всех реализуемых классов. Он состоит из четырех методов и параметризованного конструктора.

Воронежский государственный технический университет

УДК 004.8

А.С. Левченко, А.С. Кольцов, Д.В. Логачев

РАЗРАБОТКА КОРПОРАТИВНОГО ПОРТАЛА ЦЕНТРА НОВЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

Проект разработан для поддержки документооборота Центра новых информационных технологий. Корпоративный портал позволяет проводить систематизацию документов, предоставляет инструменты для совместной работы пользователей.

Приоритетным направлением в создании портала явилось использование технологий семантической сети, позволяющих обеспечить более высокий уровень персонализации, повысить качество обработки запросов пользователей, эффективнее интегрировать информацию из разнородных источников. В традици­онных порталах, построенных из связанных страниц сво­бодного текста, информация организована по­средством структурированных за­писей, поддерживает нисходящее проектирование и централизован­ное сопровождение. В семантических порталах информация полуструктурирована и расширяема, допускает восходящее развитие и децентра­лизованные обновления. Согласно принципам Семантической Сети, процесс создания электронных документов разбивается на две части: создание собственно документа, содержащего некоторые термины, и создание его онтологии. Онтологии позволяют эффективнее систематизировать данные на корпоративном портале для индексации и удобного поиска. Они содержат словари предметных областей вместе с семантическими связями между понятиями и логическими правилами вывода.