Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие 800633

.pdf
Скачиваний:
11
Добавлен:
01.05.2022
Размер:
10.3 Mб
Скачать

Средняя ошибка (Mean error) вычисляется усреднением ошибок на каждом шаге, однако из-за того, что ошибки могут быть как положительными, так и отрицательными, и могут аннулировать друг друга, эта мера не является хорошим индикатором качества прогноза.

Средняя абсолютная ошибка (Mean absolute error) вычисляется как среднее абсолютных ошибок. Чем больше она стремится к нулю, тем более точен прогноз.

Средняя абсолютная относительная ошибка (Mean abs. perc.error) отражает наиболее важное значение. В данном случае ошибка составила 0.26%, что говорит о хорошем прогнозе.

Литература

1.Коровин Е.Н., Сергеева М.А., Стародубцева Л.В. Методы обработки биомедицинской информации. Курск, 2017. 152 с.

2.Коровин В. Н., Снастина А. А. Прогностические модели развития детских заболеваний на основе метода экспоненциального сглаживания // Управление в биомедицинских, социальных и экономических системах: межвузовский сборник научных трудов. Воронеж: ВГТУ, 2016. С. 35-40.

3.Коровин В. Н., Фролов М. В., Чернов А. В., Чернов В. А. Оценка динамики и прогнозирование развития гинекологических заболеваний в территориально распределенной системе региона // Системный анализ и управление в биомедицинских системах. 2012. Т. 11. № 4. С. 1062-1066.

4.Информация и принципы управления в биомедицинских системах / Е.Н. Коровин, О.В. Родионов, Л.В. Стародубцева, В.Н. Коровин. Курск, 2017. 120 с.

5.Коровин Е.Н., Родионов О.В., Сапожникова Н.Г. Анализ заболеваемости в регионе на основе медицинского мониторинга // Системный анализ и управление в биомедицинских системах. 2002. Т.1. № 4. С. 357.

6.Коровин В.Н., Коровин Е.Н., Родионов О.В. Оценка уровня заболеваемости детей в территориально распределенной системе региона на основе многомерного статистического анализа медицинских данных // Системный анализ

иуправление в биомедицинских системах. 2011. Т. 10. № 1. С. 181-184.

7.Методы анализа заболеваемости в территориально распределенном регионе и интеллектуальной поддержки рационального управления в системе стоматологической помощи: монография / Е.Н. Коровин, В.А. Кунин, О.В. Родионов, А.В. Сущенко, В.Н. Фролов. Воронеж: ВГТУ. 2003.112 с.

Воронежский государственный технический университет

161

УДК 681.3

Е.И. Новикова, В.Ю. Калиничев

РАЗРАБОТКА «ДЕРЕВА РЕШЕНИЙ», ОРИЕНТИРОВАННОГО НА ДИАГНОСТИКУ ИНФЕКЦИОННЫХ ЖЕЛУДОЧНО-КИШЕЧНЫХ

ЗАБОЛЕВАНИЙ

В статье рассматривается применение метода деревьев решений для диагностики инфекционных желудочно-кишечных заболеваний

Ключевые слова: инфекционные желудочно-кишечные заболевания, деревья решений

Деревья решений - метод моделирования, который сочетает мощный аналитический аппарат генерации решений с простотой использования технологии и интуитивно понятными конечными результатами.

Они представляют собой последовательные иерархические структуры, состоящие из узлов, которые содержат правила, т.е. логические конструкции вида «если – то». Конечными узлами дерева являются «листья», соответствующие найденным решениям и объединяющие некоторое количество объектов классифицируемой выборки.

Очень часто алгоритмы построения деревьев решений дают сложные деревья, которые имеют много узлов и ветвей. Такие деревья очень трудно понять, а ценность правила, справедливого скажем для 1-3 объектов, крайне низка и в целях анализа данных практически непригодно. Гораздо предпочтительнее иметь дерево, состоящее из малого количества узлов, не вполне идеально классифицирующее обучающую выборку, но обладающее способностью столь же хорошо прогнозировать результат для тестовой выборки.

Для решения вышеописанной проблемы часто применяется так называемое «отсечение ветвей», которое происходит снизу вверх, двигаясь с листьев дерева, отмечая узлы как листья, либо заменяя их поддеревом. Если под точностью дерева решений понимается отношение правильно классифицированных объектов, то нужно отсечь или заменить поддеревом те ветви, которые не приведут к возрастанию ошибки.

Для построения «дерева решений», которое ориентировано на диагностику инфекционных желудочно кишечных заболеваний по набору входных признаков, использовалась программа Deductor и алгоритм С4.5.

162

Изменяя количество узлов, и с помощью действия «что-если» нашли самый достоверный результат по тестовой выборке. Так было построено 4 дерева решений, результаты тестирования которых, представлены в табл. 1. Тестовая выборка состояла из 16 пациентов

 

 

 

 

 

Таблица 1

 

 

Тестирование деревьев

 

 

 

 

 

 

 

 

 

 

 

Дерево ре-

Дерево реше-

Дерево реше-

Дерево реше-

Диагноз

шений с 20

ний с отсече-

ний с 25 уз-

ний с 30 узла-

 

 

 

узлами

нием

лами

ми

 

 

 

 

 

 

 

 

Дизентерия

 

0

1

1

1

 

Дизентерия

 

0

1

1

1

 

Дизентерия

 

1

0

1

1

 

Дизентерия

 

1

1

1

1

 

Другая патология

1

0

0

1

 

Другая патология

1

1

0

0

 

Другая патология

1

0

1

0

 

Другая патология

1

1

0

1

 

Сальмонеллез

1

1

1

1

 

Сальмонеллез

1

0

1

1

 

Сальмонеллез

1

0

1

1

 

Сальмонеллез

1

0

1

1

 

Эшерихиоз

 

1

1

0

1

 

Эшерихиоз

 

1

1

1

1

 

Эшерихиоз

 

0

1

1

1

 

Эшерихиоз

 

0

1

1

0

 

Количество

верно

12

11

12

13

 

распознанных

 

 

 

 

 

 

 

 

 

 

 

 

 

Процент

верно

75%

68%

75%

81,25%

 

распознанных

 

 

 

 

 

 

 

 

 

 

 

 

 

Из табл. 1 видно, что самый достоверный результат у нас получился в 4 случае в дереве решений с 30 узлами. Количество верно распознанных диагнозов – 13, что составляет 81,25%. Дерево решений представлено на рисунке. Оценить качество логистической регрессии как классификатора можно на основе таблицы сопряженности, представленной в табл. 2.

163

Таблица 2

Таблица сопряженности

Фактически

 

 

Классифицировано

 

 

Дизентерия

Другаяпатология

Сальмонеллез

Эшерихиоз

Итого

Дизентерия

19

0

 

0

0

19

Другая патология

3

9

 

0

0

12

Сальмонеллез

0

1

 

16

0

17

Эшерихиоз

0

0

 

1

14

15

Итого

22

10

 

17

14

63

Из табл. 2 видно, что все случаи диагноза дизентерии классифицированы верно, а также в эту группу было ошибочно отнесено 3 случая другой патологи. В другой патологии 9 было распознано верно, но так же в эту группу было отнесен 1 случай заболевания сальмонеллез. Диагноз сальмонеллез верно классифицировано 16 , ошибочно попал 1 случай диагноза эшерихиоз. Заболевание эшерихиоз диагностировано верно во всех случаях. Таким образом, верно было классифицировано при обучении 92,3% случаев заболеваний.

Дерево решений по классификации почечных заболеваний

164

В табл. 3 приведены наиболее значимые признаки и процентная зависимость выходного поля от входных факторов.

Всего было сформулировано 13 правил. Для отнесения пациентов к диагнозу дизентерия было сгенерировано 3 правила, с поддержкой и достоверностью: 6,35 – 50; 4,76 – 66,67; 5,25 – 50. Наиболее значимыми признаками оказались: лимфоциты ниже нормы, СОЭ выше нормы, общий уровень белка ниже нормы, отсутствие аппетита.

Для диагностики эшерихиоза было сформировано 3 правила, с поддержкой и достоверностью: два правила с 6,35 – 100 и одно с 3,17 – 100. Наиболее важными признаками также оказались лимфоциты ниже нормы, СОЭ выше нормы, общий уровень белка ниже нормы, лейкоциты выше нормы, присутствие белка в моче.

 

Таблица 3

Значимость атрибутов

 

 

 

 

 

Атрибут

Значимость, %

СОЭ Выше нормы

25,389

 

Лимфоциты ниже нормы

19,985

 

Присутствие белка в анализе мочи

16,119

 

Лейкоциты выше нормы

12,435

 

Общий уровень белка ниже нормы

9,583

 

Отсутствие аппетита

8,990

 

Эритроциты выше нормы

4,720

 

Гемоглобин выше нормы

2,779

 

Повышение температуры

1,51

 

Для другой патологии было сгенерировано 4 правила, с поддержкой и достоверностью: 6,35 – 50; 3,17 – 50; 4,76-100 и 6,35 - 75. Наиболее важные признаки: лимфоциты ниже нормы, СОЭ выше нормы, присутствие белка в анализе мочи, лейкоциты выше нормы, эритроциты выше нормы, общий уровень белка ниже нормы, гемоглобин выше нормы.

Для диагноза сальмонеллез было сгенерировано 3 правила, с поддержкой и достоверностью: 7,94 – 80; 6,35 – 100; 3,17 – 100. Наиболее значимые признаки: лимфоциты ниже нормы, СОЭ выше нормы, присутствие белка в анализе мочи, лейкоциты выше нормы, эритроциты выше нормы, общий уровень белка ниже нормы, гемоглобин выше нормы.

165

Литература

1.Новикова Е.И. Анализ и разработка нейросетевых моделей оценки осложнений инфаркта миокарда / Е.И. Новикова, О.В. Родионов // Системный анализ и управление в биомедицинских системах. Москва, 2011. Т. 10. № 1. С 96-99.

2.Новикова Е.И. Разработка моделей и алгоритма, обеспечивающих повышение эффективности процесса дифференциальной диагностики острого панкреатита / Новикова Е.И., Штырлина Д.П., Панченко И.В. // Системный анализ и управление в биомедицинских системах. 2014. Т. 13. № 4. С. 933-937.

3.Новикова Е.И. Разработка нейросетевой модели диагностики заболеваний позвоночника / Новикова Е.И., Пазий Т.Н. // Системный анализ и управление в биомедицинских системах. 2013. Т. 12. № 4. С. 947-950.

4.Новикова Е.И. Оценка состояния больных с опухолями матки и яичников на основе кластерного и дискриминантного анализа / Новикова Е.И., Родионов О.В., Фролов М.В. // Системный анализ и управление в биомедицин-

ских системах. 2006. Т. 5. № 2. С. 364-366.

5.Новикова Е.И. Анализ, алгоритмизация и управление процессом диагностики гинекологических заболеваний на основе многовариантного моделирования / Новикова Е.И. автореферат диссертации на соискание ученой степени кандидата технических наук // Воронежский государственный технический университет. Воронеж, 2006.

6.Новикова Е.И. Анализ, алгоритмизация и управление процессом диагностики гинекологических заболеваний на основе многовариантного моделирования / Новикова Е.И. диссертация на соискание ученой степени кандидата технических наук // Воронеж, 2006

7.Новикова Е.И. Разработка решающих правил для прогнозирования диагноза опухолей матки и яичников / Новикова Е.И., Родионов О.В., Фролов М.В. // Вестник Воронежского государственного технического университета. 2006. Т. 2. № 7. С. 27-29.

8.Новикова Е.И. Разработка логической модели на основе методов распознавания образов и добычи данных для диагностики внутреннего эндометриоза, миомы матки и опухолей яичников / Новикова Е.И., Родионов О.В. // Вестник Воронежского государственного технического университета. 2008. Т.

4.№ 12. С. 108-111.

9.Новикова Е.И. Нейросетевая классификация инфекционных желудоч- но-кишечных заболеваний / Е.И. Новикова, В.Ю. Калиничев // Системный анализ и управление в биомедицинских системах. – 2016. Т. 15. № 3. С. 448-451.

Воронежский государственный технический университет

166

УДК 681.3

Е.Н. Коровин, И.С. Ракитин

ОПРЕДЕЛЕНИЕ ЗНАЧИМОСТИ СИМПТОМОВ ДЛЯ ДИАГНОСТИРОВАНИЯ ГИПЕРТОНИЧЕСКОЙ БОЛЕЗНИ

НА ОСНОВЕ МЕТОДА АПРИОРНОГО РАНЖИРОВАНИЯ

В статье представлен анализ симптомов, проявляющихся у пациентов с гипертонической болезнью различной степени тяжести

Ключевые слова: гипертоническая болезнь, стадия, симптомы

Известны способы экспериментального отсеивания факторов, предусматривающие проведение серии опытов и выбор значимых факторов по результатам этих опытов. Однако, учитывая, что даже небольшое сокращение числа фактороввесьма значительно сокращает объем последующей экспериментальной работы,для отсеивания факторов необходимо также использовать априорную информацию: литературные данные, результаты опроса специалистов и т. п. На основе априорной информации производят априорное ранжирование факторов, которое позволяет выделить наиболее значимые факторы и отсеять факторы, оказывающиенесущественное влияние. На стадии предварительного изучения объекта или процесса возможно проведение априорного ранжирования, заключающегося в объективной оценке данных, полученного в результате опроса экспертов или из исследований, опубликованных в литературе. Такой анализ позволяет наиболее обоснованно исключить некоторые факторы из дальнейшего рассмотрения.

Обычно априорное ранжирование факторов проводят в следующей последовательности. На основании литературных данных составляют список факторов, влияющих на исследуемый параметр, и устанавливают область определения каждого из факторов. Затем предлагают экспертам, работающим в данной области, расположить факторы в ряд по степени их влияния. При этом каждый эксперт может дополнить список, если он, по его мнению, не является полным иливысказать мнение об изменении интервалов варьирования. При подборе экспертов необходимо стремиться к наличию среди них представителей возможнобольшего числа научных школ. При сборе мнений каждому из экспертов предлагается заполнить анкету, в которой перечислены факторы, их

167

размерность и предполагаемые интервалы варьирования. Заполняя анкету, специалист определяет место факторов в ранжированном ряду.

Вклад каждого фактора оценивается по величине ранга-места, которое отводится экспертом данному фактору при ранжировании всех факторов с учётом их предполагаемого влияния. Фактору, которому приписывается ведущая роль, отводится первое место, остальные располагаются в порядке убывания степени их влияния на выбранный параметр. Если трудно определить превалирующее влияние какого-то фактора над другим, то им присваиваются одинаковые ранги, являющиеся средним арифметическим из предполагаемой их суммы рангов. Результаты опроса специалистов представляют в виде матрицы рангов.

Для того, чтобы определить, какие симптомы гипертонической болезни наиболее важны для правильного определения диагноза и стадии заболевания, мною были привлечены 5 врачей-терапевтов и 3 кардиолога в качестве экспертов. Им было предложено проранжировать 14 симптомов и результатов исследований таким образом, чтобы ранг самого значимого признака был равен «1», а самого значительного большим числом. Для проведения ранжирования каждому эксперту была предоставлена анкета. Далее произведена обработка данных анкет.

Результаты опроса экспертов записаны в матрицу рангов. Матрица рангов представлена в табл. 1.

Таблица 1 Матрица рангов для симптомов и результатов исследований пациентов, с по-

дозрением на гипертоническую болезнь

 

 

№ признака

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

 

3

4

5

6

7

8

9

10

11

12

13

14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

1

2

 

6

4

4

5

7

1

2

3

8

1

3

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

II

2

1

 

7

11

8

10

9

3

4

5

12

3

6

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

эксперта

III

1

2

 

11

10

9

13

12

3

4

8

14

5

6

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

IV

2

1

 

7

5

5

6

6

2

3

4

8

3

4

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

V

3

2

 

9

8

6

6

7

1

4

4

10

4

5

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

VI

3

2

 

11

8

7

9

10

1

6

5

12

1

4

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

VII

5

5

 

8

6

6

6

7

2

3

3

9

1

4

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

VIII

1

2

 

4

9

8

10

12

4

3

6

11

5

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

168

Ранжирование производилось по признакам, представленным в табл. 2.

 

 

 

Таблица 2

 

Признаки заболевания гипертонической болезнью

 

 

 

 

Признак

Признак

пр.

 

пр.

 

1

Повышенное артериальное давление

2

Постоянное повышение артериального

на момент обращения к специалисту

давления выше 140/90

 

 

 

 

3

Слабость

4

Головная боль

 

 

 

 

5

Боль в сердце

6

Головокружение

 

 

 

 

7

Одышка

8

Гипертрофия левого желудочка сердца

 

 

 

 

9

Атеросклероз сосудов

10

Ишемическая болезнь сердца

 

 

 

 

11

Плохой сон

12

Изменение сосудов глазного дна

 

 

 

 

13

Перенесение пациентом инфаркта

14

Перенесение пациентом инсульта

 

 

 

 

В связи с тем, что эксперты использовали одинаковые ранги для различных признаков (считали, что данные признаки равнозначны), необходимо привести матрицу к нормальному виду. Матрица, приведенная к нормальному виду, представлена в табл. 3.

Далее, по формуле (2) рассчитана сумма квадратов разности. Сумма квадратов разности представлена на формуле (1).

S(d 2 ) = n

di2

(1)

i=1

 

 

S(d 2 ) =12419

(2)

По данным матрицы рангов производится оценка согласования экспертов с помощью коэффициента конкордации (формула 3). Результат расчета коэффициента показан на формуле (4).

W =

 

 

 

S(d 2 )

(3)

 

1

 

m

 

 

 

 

×m2 ×(n3 1) m×Tj

 

 

12

 

 

j=1

 

где S(d2) – сумма квадратов разности.

 

 

 

 

 

W = 0,86

(4)

169

Таблица 3

Нормализованная матрица рангов

 

 

№ признака

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

 

3

4

5

6

7

8

9

10

11

12

13

14

ti

Tj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

2

4,5

 

12

9,5

9,5

11

13

2

4,5

7

14

2

7

7

3+2+

5

 

 

3+2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

II

2

1

 

9

13

10

12

11

3,5

5

6

14

3,5

7,5

7,5

2+2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

III

1

2

 

11

10

9

13

12

3

4

8

14

5

6

7

-

-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2+2+

 

 

IV

2,5

1

 

13

9,5

9,5

11,5

11,5

2,5

4,5

7

14

4,5

7

7

3+2+

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

V

3

2

 

13

12

9,5

9,5

11

1

5

5

14

5

7,5

7,5

3+2+

3

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

эксперта№

VI

4

3

 

13

10

9

11

12

1,5

8

7

14

1,5

5,5

5.5

2+2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

VIII

1

2

 

4,5

11

10

12

14

4,5

3

7

12

6

8,5

8,5

2+2

1

 

VII

7,5

7,5

 

13

10

10

10

12

2

3,5

3,5

14

1

5,5

5,5

2+2+

3,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2+3

 

 

 

23

23

 

88,5

85

76,5

90

96,5

20

37,5

50,5

110

28,5

54,5

55,5

 

 

 

Знач

2

3

 

11

10

9

12

13

1

5

6

14

4

7

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

di

-37

-37

 

28,5

25

16,5

30

36,5

-40

-22,5

-9,5

50

-31.5

-5.5

-4.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

di2

1369

1369

 

812,3

625

272,3

900

1332,3

1600

506,3

90,3

2500

992,3

30,3

20,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценка значимости коэффициента конкордации W производится по Х2 – критерию Пирсона по формуле (5). Расчетное значение представлено на формуле (6).

X рассч2 = m ×(n 1) ×W

(5)

X расч2 = 89,44

(6)

Табличное значение Х2 – критерия Пирсона определяется по числу f. Число fрассчитывается по формуле (7). Результат представлен на формуле (8).

f

=n 1

(7)

f

=n 1 =13

(8)

170