Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2023ВКР750301ИСАКОВ

.pdf
Скачиваний:
26
Добавлен:
04.09.2023
Размер:
3.37 Mб
Скачать

Таблица 2 – Сводные характеристики построенных SVR моделей

Способ

 

 

 

 

Точность модели

 

 

 

 

 

 

 

прогнозирования

N пациентов /

 

 

Формула или

 

 

, N входных

 

 

N приемов

 

 

 

гиперпараметры

параметров

 

Без

С

 

 

 

 

 

 

пищи

 

 

 

модели

(кроме

 

 

микробиома

микробиомом

 

 

 

 

 

 

 

 

 

 

 

 

микробиома)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Регрессия

76

/

3887

R = 0,56 (p-

R = 0,53 (p-

 

опорных

тренировочна

value = 6,66e-

value = 1,21e-

 

векторов (BG60),

я выборка

 

75)

65)

 

168 клинических

20

/

956

R2 = 0,34

R2 = 0,18

 

параметров

тестовая

 

MAE = 0,55

MAE = 0,60

 

 

выборка

 

 

 

 

 

 

 

 

 

 

 

 

Регрессия

76

/

3887

R = 0,57 (p-

R = 0,51 (p-

 

опорных

тренировочна

value = 6,38e-

value = 3,34e-

 

векторов

я выборка

 

78)

60)

make_pipeline(Stand

(BG120),

20

/

956

R2 = 0,23

R2 = 0,13

ardScaler(),

168 клинических

тестовая

 

MAE = 0,49

MAE = 0,53

LinearSVR(C=1,0,

параметров

выборка

 

 

 

dual=False,

 

 

 

 

 

 

 

 

Регрессия

76

/

3887

R = 0,66 (p-

R = 0,61 (p-

epsilon=0,

опорных

тренировочна

value = 2,71e-

value = 1,50e-

fit_intercept=True,

векторов

я выборка

 

112)

90)

intercept_scaling=1.

(BGMax),

20

/

956

R2 = 0,41

R2 = 0,26

0,

168 клинических

тестовая

 

MAE = 0,49

MAE = 0,53

loss='squared_epsilo

параметров

выборка

 

 

 

n_insensitive',

 

 

 

 

 

 

 

max_iter=1000,

Регрессия

76

/

3887

R = 0,73 (p-

R = 0,70 (p-

опорных

тренировочна

value = 3,17e-

value = 2,38e-

random_state=0,

векторов

я выборка

 

152)

130)

tol=1e-05,

(AUC120),

20

/

956

R2 = 0,50

R2 = 0,41

verbose=0))

168 клинических

тестовая

 

MAE = 0,36

MAE = 0,41

 

параметров

выборка

 

 

 

 

 

 

 

 

 

 

 

 

Регрессия

76

/

3887

R = 0,66 (p-

R = 0,67 (p-

 

опорных

тренировочна

value = 1,31e-

value = 3,56e-

 

векторов

я выборка

 

114)

116)

 

(iAUC120),

20

/

956

R2 = 0,45

R2 = 0,44

 

168 клинических

тестовая

 

MAE = 0,35

MAE = 0,35

 

параметров

выборка

 

 

 

 

 

 

 

 

 

 

 

 

Небольшую статистически значимую разницу в пользу наличия данных микробиоты удалось выявить в прогнозировании iAUC120: c данными микробиоты коэффициент корреляции составил R = 0,67 без данных микробиоты показатель снизился до R = 0,66. В прочих случаях добавление

91

бактериальных признаков было связано с ростом необъяснимой дисперсии и падением значения корреляции.

Недостаточно высокую аккуратность прогноза, предположительно,

можно объяснить упущением в методологии. Количество записей приемов пищи может сильно отличаться между пациентками и тем самым вносит дисбаланс в данные. Получившаяся модель будет лучше соответствовать тому пациенту, чьих приемов пищи было больше, например, пятьдесят в неделю.

При этом мода приходится на двадцать один прием пищи, что соответствует приблизительно трем или четырем приемам пищи в день.

На рисунке 36 приведены уровни значимости, рассчитанные методом взаимной информации (MI – Mutual Information).

Рисунок 36 – Уровень значимости 10% наиболее значимых переменных модели предсказания инкрементальной площади под гликемической кривой спустя 2 часа после приема пищи

Ряд бактерий, внесших наибольший вклад: [k__Bacteria; p__Firmicutes; c__Clostridia; o__Clostridiales; f__Ruminococcaceae; g__Faecalibacterium; s__prausnitzii.53].

Результаты проведенного этапа исследования говорят о наличии некоторого слабого влияния наличия микробиоты на качество прогнозирования и требуют быть пересмотренными с использованием иных

92

методов отбора признаков и иного архетипа моделей регрессии. Такими методами были выбраны значения Шепли и модель категориального градиентного бустинга деревьев решений. В отличие от показателя информативности Шеннона, аддитивные значения чисел Шепли дают представление о том, в каком направлении та или иная переменная оказала влияние на целевую переменную, а модель категориального бустинга позволит включить большее число признаков и строк за счет данных опроса,

т.к. поддерживает работу с категориальными данными, работает с пропущенными значениями и, в целом, демонстрирует лучшие показатели в клинических исследованиях [72].

3.4.2 Метод категориального градиентного бустинга

Вопрос об ограничении максимального числа записей на одного пациента во входных данных модели подразумевает некоторую процедура выбора этих записей. Было предложено отбирать те записи, в которых целевой показатель принимает значения близкие к среднему усеченному для человека.

Пациенты, у которых число записей было меньше критического значения,

удалялись из эксперимента.

Во входные переменные были добавлены категориальные данные опроса о том, как часто люди употребляют те или иные категории продуктов,

например. Частота употребления в неделю оценивалась по шкале от 1 до 3, где

1 – редко, 2 – умеренно, 3 – часто. Примеры категорий продуктов: алкоголь,

выпечка, кофе, молочные необезжиренные продукты, мясо, овощи, рыба и т.д.

В опрос вошли и некоторые другие категориальные переменные: курение,

прием контрацептивов, число абортов. Наиболее репрезентативные варианты полученных моделей (с добавлением бактериальных признаков и без них) и

показатели их точности представлены в таблице 3.

93

Таблица 3 – Сводные характеристики построенных СatBoost моделей

Способ

 

 

 

 

Точность модели

 

 

 

 

 

 

 

прогнозирования

N пациентов /

 

 

Формула или

 

 

, N входных

 

 

N приемов

 

 

 

гиперпараметры

параметров

 

Без

С

 

 

 

 

 

 

пищи

 

 

 

модели

(кроме

 

 

микробиома

микробиомом

 

 

 

 

 

 

 

 

 

 

 

 

микробиома)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Категориальный

57

/

1197

R = 0,68 (p-

R = 0,65 (p-

 

градиентный

тренировочна

value = 0,0)

value = 0,0)

 

бустинг (BG60),

я выборка

 

R2 = 0,46

R2 = 0,43

 

192 клинических

20

/

420

MAE = 0,51

MAE = 0,53

 

параметров

тестовая

 

 

 

 

 

выборка

 

 

 

 

 

 

 

 

 

 

 

 

Категориальный

57

/

1197

R = 0,46 (p-

R = 0,49 (p-

 

градиентный

тренировочна

value = 0,0)

value = 0,0)

 

бустинг (BG120),

я выборка

 

R2 = 0,2

R2 = 0,24

 

192 клинических

20

/

420

MAE = 0,53

MAE = 0,53

 

параметров

тестовая

 

 

 

CatBoostRegressor(i

 

выборка

 

 

 

 

 

 

 

terations: 1000,

 

 

 

 

 

 

 

Категориальный

57

/

1197

R = 0,71 (p-

R = 0,68 (p-

depth: 6,

градиентный

тренировочна

value = 0,0)

value = 0,0)

learning_rate: 0,04,

бустинг

я выборка

 

R2 = 0,49

R2 = 0,46

 

l2_leaf_reg: 3,

(BGMax),

20

/

420

MAE = 0,49

MAE = 0,51

loss_function:

192 клинических

тестовая

 

 

 

 

 

 

‘RMSE’,

параметров

выборка

 

 

 

 

 

 

random_seed: 34,

 

 

 

 

 

 

 

Категориальный

57

/

1197

R = 0,77 (p-

R = 0,78 (p-

verbose: None)

градиентный

тренировочна

value = 0,0)

value = 0,0)

 

бустинг

я выборка

 

R2 = 0,59

R2 = 0,6

 

(AUC120),

20

/

420

MAE = 0,36

MAE = 0,36

 

192 клинических

тестовая

 

 

 

 

параметров

выборка

 

 

 

 

 

 

 

 

 

 

 

 

Категориальный

57

/

1197

R = 0,67 (p-

R = 0,66 (p-

 

градиентный

тренировочна

value = 0,0)

value = 0,0)

 

бустинг

я выборка

 

R2 = 0,45

R2 = 0,42

 

(iAUC120),

20

/

420

MAE = 0,34

MAE = 0,35

 

192 клинических

тестовая

 

 

 

 

параметров

выборка

 

 

 

 

 

 

 

 

 

 

 

 

Заметный рост всех метрик точности в сравнении с моделью SVR можно отметить в случае прогнозирования величины площади под кривой гликемии

AUC120 : R = 0,77 против R = 0,73 без микробиома и R = 0,78 против R = 0,70

с добавлением бактериальных признаков.

94

На рисунке 37 представлены признаки, оказавшие больше всего влияния на модель прогнозирования площади под кривой ППГО.

Рисунок 37 – Уровень значимости 25 наиболее значимых переменных для прогнозирования площади под кривой ППГО

Наибольший вклад внес ряд бактерий: [k__Bacteria; p__Bacteroidetes; c__Bacteroidia; o__Bacteroidales; f__Porphyromonadaceae; g__Parabacteroides; s__distasonis.11]. При этом уменьшение их представленности в образце связано с более высокими значениями AUC120 и худшим контролем гликемии.

Менее значимым оказался вклад признаков: [k__Bacteria; p__Firmicutes; c__Clostridia; o__Clostridiales; f__Ruminococcaceae; g__Faecalibacterium; s__prausnitzii.53], [k__Bacteria; p__Firmicutes; c__Clostridia; o__Clostridiales; f__Clostridiaceae; g__SMB53; s__.3] и [k__Bacteria; p__Actinobacteria; c__Coriobacteriia; o__Coriobacteriales; f__Coriobacteriaceae; g__Slackia; s__.5].

Уменьшение представленности этих бактериальных признаков соответствовало более низким значениям AUC120 и, следовательно, лучшему контролю гликемии.

Некоторый рост точности наблюдается и в случае прогнозирования

BG120, впрочем, абсолютные показатели остаются довольно низкими.

95

3.4.3 Метод экстремального градиентного бустинга

Методов бустинга много, для сравнения эффективности выбранного приведем результаты представленные нами на конференции

«Фундаментальная и клиническая диабетология в 21 веке: от теории к практике» (см. таблицу 4) [64].

Таблица 4 – Сводные характеристики построенных XGBoost моделей

Способ

 

 

 

 

Точность модели

 

 

 

 

 

 

 

прогнозирования

N пациентов /

 

 

Формула или

 

 

, N входных

 

 

N приемов

 

 

 

гиперпараметры

параметров

 

Без

С

 

 

 

 

 

 

пищи

 

 

 

модели

(кроме

 

 

микробиома

микробиомом

 

 

 

 

 

 

 

 

 

 

 

 

микробиома)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Экстремальный

76

/

3887

R = 0,67 (p-

R = 0,68 (p-

 

градиентный

тренировочна

value = 0,0)

value = 0,0)

 

бустинг (BG60),

я выборка

 

R2 = 0,423

R2 = 0,523

 

192 клинических

20

/

956

MAE = 0,519

MAE = 0,421

 

параметров

тестовая

 

 

 

 

 

выборка

 

 

 

XGBoost(iterations:

 

 

 

 

 

 

 

 

Экстремальный

76

/

3887

R = 0,70 (p-

R = 0,72 (p-

1000, depth: 6,

градиентный

тренировочна

value = 0,0)

value = 0,0)

learning_rate: 0,04,

бустинг

я выборка

 

R2 = 0,443

R2 = 0,480

l2_leaf_reg: 3,

(BGMax),

20

/

956

MAE = 0,497

MAE = 0,484

loss_function:

192 клинических

тестовая

 

 

 

‘RMSE’,

параметров

выборка

 

 

 

random_seed: 34,

 

 

 

 

 

 

 

verbose: None)

Экстремальный

76

/

3887

R = 0,67 (p-

R = 0,66 (p-

градиентный

тренировочна

value = 0,0)

value = 0,0)

 

бустинг

я выборка

 

R2 = 0,436

R2 = 0,417

 

(iAUC120),

20

/

956

MAE = 0,318

MAE = 0,323

 

192 клинических

тестовая

 

 

 

 

параметров

выборка

 

 

 

 

 

 

 

 

 

 

 

 

Прогнозирование BGMax с добавлением фич микробиома показало наилучший результат алгоритмом XGBoost: R = 0,72 против R = 0,68. С другой стороны, точность CatBoost была выше без фич микробиома: R = 0,71 против

R = 0,70.

Прогнозирование BG60 моделью CatBoost без микробиома вышло немного точнее: R = 0,68 против R = 0,67. При этом XGBoost

96

продемонстрировал рост при добавлении параметров микробиома кишечника:

R = 0,68 против R = 0,65.

Существенной разницы в оценке показателей iAUC120 с добавлением фич микробиома и без не наблюдается.

На рисунке 38 представлены отобранные по числам Шепли 20 наиболее значимых признаков, вошедших в обучение лучшей модели оценки пикового УСК после еды.

Рисунок 38 – Уровень значимости 20 наиболее значимых переменных для прогнозирования пикового значения уровня сахара в крови моделью с включением данных микробиома

Можно заметить, что модели экстремального градиентного и категориального бустинга выбрали для обучения близкие по значению параметры приема пищи и при этом совершенно по-разному отобрали бактериальные признаки. Вероятно, это можно объяснить тем, что модели по-разному работают с нулевыми и пропущенными значениями. Кроме того,

примечателен тот факт, что в результате тюнинга гиперпараметров алгоритмами кросс-валидации были выбраны практические идентичные параметры.

97

3.5 Выводы

В ходе выполнения третьей главы были представлены результаты разработанного нами программного комплекса для персонализированного мониторинга больных сахарным диабетом. Разработанное мобильное приложение позволяет вести электронные записи, характеризующие режим питания, физических нагрузок и сна. Также приложение позволяет собирать статистическую информацию и предоставлять развернутые Excel отчеты в медицинский исследовательский центр.

Разработанные модели машинного обучения работают в комплексе с другими немедикаментозными сахароснижающими средствами, такими как регулярные занятия спортом, здоровое питание и диета. Методами машинного обучения удалось достичь приемлемых результатов на поприще прогнозирования метрик постпрандиального гликемического ответа, таких как абсолютные значения уровня сахара в крови через час, два и инкрементальная площадь под кривой гликемии за аналогичный промежуток времени. Наиболее удачные результаты удалось достичь методами экстремального градиентного бустинга при прогнозировании максимального УСК после приема пищи (R = 0,72). Отметим, что ощутимый прирост всех метрик оценки качества регрессии наблюдался при добавлении в модель ряда бактериальных признаков. Наилучшие результаты оценки площади под кривой гликемии показала модель категориального градиентного бустинга

(R = 0,78). Метод опорных векторов с одной стороны показал сравнительно худшие результаты по всем показателям, с другой стороны коэффициент корреляции Пирсона при оценке всех метрик был стабильнее и не опускался ниже 0,5. В целом вклад фич микробиома кишечника стал очевиден, впрочем,

процедура получения бактериальных признаков долгая и дорогая, поэтому на текущий момент интегрировать его использование на постоянной основе не представляется возможным.

98

4 СПЕЦИАЛЬНЫЕ ВОПРОСЫ ОБЕСПЕЧЕНИЯ БЕЗОПАСНОСТИ

Целью данной работы является разработка мобильного программного обеспечения для персонализированного мониторинга больных СД.

Узкопрофильной группой пациентов являются беременные с ГСД.

Приложение должно быть доступно на двух главных платформах: iOS и Android с выходом в сеть Интернет (см. таблицу 5).

Таблица 5 – Классификация программного средства

Программное обеспечение

Приложение для удаленного мониторинга

Функция ПО

Электронный дневник с функцией

прогнозирования и консультирования.

 

Прикладная область информационной

Предназначена для персонального

использования в условиях повседневной

системы

жизни.

 

 

Средний, по сравнению с подобными ПО.

Масштаб ПО

Возможно расширение возможностей за

 

счет подключаемой носимой электроники.

 

Форматированный файл распределенных

Представление данных

таблиц MS Excel. Присутствует

 

пользовательский интерфейс.

Критичность ПО

Экономично и удобно для

индивидуального применения.

 

Класс пользователя

Низкий (пользователь может не иметь

предыдущего опыта обращения с ПО).

 

Требуемые рабочие характеристики

Любое устройство, поддерживающее iOS

15 и новее, а также Android 12 и новее.

 

Стабильность ПО

Контролируемый периодический выпуск

обновлений программного обеспечения.

 

 

Сильная защита от несанкционированного

Требования защиты

доступа к файлам программы и данным

 

пользователя.

Требования надежности

Высокая степень готовности продукта,

высокая отказоустойчивость.

 

 

ОЗУ не меньше 2 Гб, флэш-память не

Требования к вычислительным ресурсам

менее 5 Гб, частота процессора не менее

 

2.1 МГц, количество ядер не меньше 6.

 

Готовый некоммерческий продукт,

Готовность программного продукта

запатентован ФГБУ НМИЦ им. В.А.

 

Алмазова

 

У каждого пользователя своя копия ПС,

Использование программных данных

серверные запросы параллельны для всех

 

пользователей.

Исходный язык

Swift / Java

 

 

99

В его основные задачи входит предоставление пользователю инструментов для ведения электронного дневника самоконтроля, а именно:

ведение данных о приемах пищи, уровне сахара на момент приема пищи и через 60 мин после, отслеживание физической активности и продолжительности сна. Исследовательским ядром работы является экспериментальная интеграция методов машинного обучения для целей предупреждения выраженных превышений референсных значений уровня сахара в крови и формирования автоматических диетических рекомендаций. В

этой главе дается описание условий применения разрабатываемого ПО.

4.1 Общая характеристика условий применения

Разрабатываемое приложение отдельно от используемого устройства не представляет интереса для оценки вредных психофизических воздействий,

поэтому мы будем говорить о мобильном телефоне как о главном объекте исследования специальных вопросов безопасности жизнедеятельности и кибербезопасности. Условия эксплуатации устройства во многом зависят от производителя, страны регистрации правообладателя и могут варьироваться на старте продаж за границей. Так, для устройств фирмы Apple применимы следующие международные стандарты безопасности:

1.IEC 60950-1;

2.IEC 62368-1.

А также их локальные адаптации:

1.UL 60950-1 (США);

2.CSA 60950-01 (Канада);

3.EN60950-1 (Европа);

4.AS/NZS 60950:1 (Австралия и Новая Зеландия).

В России и некоторых странах СНГ стандарту IEC 60950-1

соответствует ГОСТ IEC 60950-1-2014.

100