Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практикум по медицинской статистике_2012.docx
Скачиваний:
83
Добавлен:
10.11.2019
Размер:
2.38 Mб
Скачать

3. Исследование гемограмм пациентов. 26

Исходная таблица данных содержится в формате MS Excel. 26

27

Таблица содержит информацию о 150 пациентах. 27

Четыре столбца содержат значения показателей их гемограмм – количество эритроцитов (в 1012 /л), тромбоцитов (109 л), лейкоцитов (109 /л), гемоглобин (г/л). 27

При попытке открытия файла в системе STATISTICA (через меню Файл / Открыть) программа предложит нам на выбор несколько вариантов. Выберем второй пункт. 27

Далее необходимо выбрать номер листа в таблице Excel, который содержит нужную нам информацию. Выберем Лист1 и нажмём OK. 27

Далее Вам необходимо: 27

указать диапазон значений во внешнем файле данных, который будет импортирован, 27

решить, надо ли импортировать имена наблюдений и переменных, сохранить (или нет) формат ячеек из исходной таблицы. 27

27

Поставим галочки во все поля и нажмём OK. Теперь в программе STATISTICA открыта таблица. Сохраним её под именем Гемограмма.sta. 27

Введём дополнительную информацию о переменных. 27

Для этого выберем в меню пункт Данные / Все спецификации переменных. 27

28

В появившемся диалоге Редактор спецификаций переменных можно: указать длинные имена, изменить типы данных, коды пропущенных данных, добавить новые переменные или удалить старые, и т. д… 28

Диаграмма рассеяния 29

Построим диаграмму рассеяния для переменной Тромбоциты. 29

Из медицинской практики известно, что увеличение числа тромбоцитов в крови может привести к тромбозу. 29

Для выявления больных со слишком большим уровнем тромбоцитов в крови, построим диаграмму рассеяния переменных Номер пациента и Тромбоциты. 29

30

Врач определяет критический уровень количества тромбоцитов в крови для проведения операции. Пусть это значение равно 250. 30

Проведём горизонтальную прямую, соответствующую данному значению. 30

Это можно сделать двумя способами. 30

Способ 1. 30

Выберем из раскрывающегося списка пункт Параметры графика. В появившемся окне перейдём на закладку Ось: Дополнительные риски. 30

Выберем ОсьЛевая Х, укажем Положение= 250, поставим галочку в окне Сетка. 30

Можно также настроить тип и толщину линии. Для внесения изменений нажмём на кнопку Сетка. 31

В итоге на диаграмме рассеяния отобразится прямая Тромбоциты = 250. 31

Способ 2. 31

Воспользуемся панелью Графические инструменты. 31

Выберем рисование стрелки, и проведём соответствующую прямую на графике. Как и раньше, можно настраивать опции построенного объекта. 31

31

Теперь выделим пациентов, количество тромбоцитов в крови которых превышает данный уровень. Для этого воспользуемся средством Кисть. 32

Средство Кисть 32

Средство Кисть является очень удобным для визуального анализа данных. 32

Нажмём на кнопку 2M Закрашивание на панели инструментов. 32

Выделим точки, соответствующие наблюдениям, лежащим выше прямой Тромбоциты= 250. 32

32

Если мы теперь откроем таблицу Редактор данных графика, то отмеченные наблюдения будут выделены красным цветом. 32

Диаграмма Вороного 33

Построим диаграмму Вороного по переменным Гемоглобин и Тромбоциты. 33

33

На диаграмме Вороного значения двух переменных X и Y изображаются, как на диаграмме рассеяния, а затем пространство между отдельными точками данных делится границами, окружающими каждую точку данных, на области по следующему принципу: каждая точка области находится ближе к заключенной внутри точке данных, чем к любой другой соседней точке данных. 33

! Выполните пример практического использования диаграммы Вороного. 33

Предположим, что на анализ поступил новый больной. 33

Для назначения лечения было бы полезно знать, какая гемограмма ему наиболее близка. Это можно сделать с помощью диаграммы Вороного. 33

Пусть в поступившей гемограмме указано значения: Тромбоциты = 220 и Гемоглобин = 105. Проведите на графике соответствующие прямые; точка пересечения прямых будет соответствовать новому пациенту. 33

Выявите наблюдение, которое является «хозяином» области, в которое попадает данное наблюдение. 33

Описательный (дескриптивный) анализ гемограмм 34

Вычислим описательные статистики для переменных, содержащих информацию о гемограммах. 34

Запуск модуля Основные статистики и таблицы. 34

34

Выберем пункт Описательные статистики. Нажмём OK. 34

Выбор переменных 34

35

На вкладке Дополнительно укажем интересующие нас статистики. 35

Нажав OK, получим таблицу с описательными статистиками. 35

Описательные статистики по группам 35

Достаточно часто возникает необходимость вычислить описательные статистики отдельно по каждой группе наблюдений. 35

Например, вычислим средние значения показателей гемограммы отдельно для каждой группы пациентов, а также для мужчин и для женщин. 35

В диалоге Основные статистики и таблицы выберем пункт Группировкаиоднофакторный ДА. 36

В окне Внутригрупповые статистикии корреляции перейдём на вкладку Списки таблиц. 36

36

Выберем группирующие переменные. 36

36

Выберем зависимые переменные. 36

37

Нажмём на кнопку OK в диалоге Внутригрупповые статистики и таблицы. 37

В рабочей книге STATISTICA появится таблица, содержащая таблицу средних по группам. 37

Анализ выбросов 37

Выбросами являются резко выделяющиеся наблюдения, например, пациенты с избыточным числом тромбоцитов. 37

Выявление выбросов осуществляется посредством построения двумерных диаграмм размаха. 37

Построим диаграмму размаха по переменной Тромбоциты. 37

Выберем в меню пункт Графики / 2M Графики / Диаграммы размаха. 37

В появившемся окне перейдём на вкладку Дополнительно. 37

38

Укажем переменные. 38

38

Пока что мы не будем указывать группирующую переменную. 38

Отметим, что на вкладке Дополнительно окна 2M Диаграмма размаха Вы можем настроить опции для выявления наблюдений – выбросов (например, можно указать Коэффициент выбросов). 38

Нажмём OK в диалоге 2M Диаграмма размаха. 38

На диаграмме размаха отмечены четыре выброса – три «слишком больших» значения и одно «слишком маленькое». 39

Визуально анализируя диаграмму размаха, Вы можете получить представление об изменчивости переменной. 39

Определим, какие именно наблюдения являются выбросами. Один из способов нам уже известен – можно построить диаграмму рассеяния для переменных Номер наблюдения и Тромбоциты и при помощи средства Кисть выделить нужные наблюдения. 39

Опишем другой способ. Расположим наблюдения по убыванию переменной Тромбоциты. 39

Для этого выберем из меню пункт Данные / Сортировка. 39

В появившемся окне укажем параметры Ключа 1. 39

После нажатия на кнопку OK наблюдения в исходной таблице данных будут расположены в порядке убывания переменной Тромбоциты. 40

Теперь мы можем определить, какие наблюдения являются выбросами – это будут первые три и последнее наблюдение в таблице. Например, «нестандартный» уровень тромбоцитов в крови выявлен у пациентов номер 71, 87, 79 и 97. 40

Теперь вновь вызовем диалог 2M Диаграмма размаха и зададим в окне Переменные в качестве группирующей переменной переменную Пол. 40

40

Отметим, что наблюдения – выбросы, отмеченные на этой диаграмме, отличаются от наблюдений - выбросов на диаграмме, построенной без разбиения на группы. 40

Например, значение Тромбоциты=300, являющее выбросом для наблюдений, рассмотренных вместе, оказывается «нормальным» при рассмотрении только группы женщин. Есть и примеры обратного: значение Тромбоциты = 73 оказывается выбросом для группы мужчин, но при рассмотрении всех наблюдений оно оказывается «нормальным». 41

Корреляционный анализ 41

Вычислим корреляции между переменными Var4 – Var7. 41

Корреляции Пирсона 41

Запустим модуль Основные статистики и таблицы. В появившемся окне выберем пункт Парные и частные корреляции. 41

41

Нажмём на кнопку Квадратная матрица и укажем переменные. 41

42

После нажатия на кнопку OK в диалоге Парные и Частные корреляции в рабочую книгу добавится таблица с коэффициентами корреляции между указанными переменными. Итак, почти все переменные попарно зависимы; исключение составляет пара Эритроциты – Тромбоциты. 42

Корреляции Спирмена и Кендалла 42

Запустим модуль Непараметрическая статистика. Выберем пункт Корреляции Спирмена, тау Кендалла, гамма. 42

В появившемся диалоге Ранговые корреляции перейдём на вкладку Дополнительно. 42

42

Зададим переменные. 43

43

Нажмём на кнопку Спирмена R в диалоге Ранговая корреляция. Теперь вернёмся в окно Ранговая корреляция и нажмём на кнопку Тау Кендалла. 43

Обратите внимание: коэффициент корреляции Спирмена между переменными Эритроциты и Тромбоциты оказался статистически значимым, в то время как коэффициенты корреляции Кендалла – нет. Это объясняется тем, что коэффициент корреляции Спирмена сильнее реагирует на несогласие ранжировок. 43

В заключении визуально проанализируем зависимость между переменными. 43

С этой целью построим Матричный график. 43

Нажмём на кнопку Матричный график в диалоге Ранговые корреляции. 43

44

! Другой способ построения подобного графика можно выбрать из меню пункт Графика/Матричные графики. 44

Исследование эффективности лечения: введение новой переменной 44

Введем новую переменную, характеризующую эффективность лечения. 44

В качестве меры эффективности лечения выберем величину 44

, 44

где -состояние пациента до лечения (девятая переменная в таблице), - состояние пациента после лечения (десятая переменная в таблице). 44

Эта величина обладает следующими свойствами: 44

1) Чем ближе значение к 1, тем эффективнее лечение. В крайнем случае, когда пациент поступил в предсмертном состоянии (10), а после лечения оказался абсолютно здоров (100), значение величины равно 0.9. 44

2) Чем ближе значение к -1, тем менее эффективно лечение. В крайнем случае, когда пациент поступил абсолютно здоровым (100), а послелечения оказался в предсмертном состоянии (10), то значение величины равно -0.9. 44

3) Значение = 0 означает, что состояние пациента не изменилось. 45

Добавим в таблицу новую переменную, назовём её Эффективностью, укажем формат отображения, зададим формулу для её вычисления. 45

45

В итоге в таблице появится новый столбец. 45

Цель дальнейшего исследования 45

Целью исследования, которого мы сейчас проведём, является получение ответов на следующие вопросы: 45

1) Какой метод лечения более эффективен? 45

2) Есть ли существенное различие состояний пациентов до и после лечения? 45

Проверка гипотезы о нормальности для переменной Эффективность 45

Для ответа на поставленные вопросы можно использовать T-критерий переменной Эффективность. Этот критерий требует нормальность распределения переменной, поэтому перед использованием проверим гипотезу о нормальности. 45

Сначала проверим визуальными методами. 45

Построим гистограмму по переменной Эффективность. Для этого выберем из меню пункт Графика / Гистограммы. 46

На вкладке Дополнительно укажем: Распределение = Нормальное, количество категорий – 7 (приблизительное значение двоичного логарифма от 150, то есть от количества наблюдений), выберем переменную – Эффективность. 46

46

47

Гипотеза о нормальности кажется очень неправдоподобной (особенно «плохо» выглядят крайние столбцы). 47

Тот же вывод следует сделать по нормальному вероятностному графику. 47

Если наблюдаемые значения (откладываемые по оси X) были бы распределены нормально, то все значения на графике должны были попасть на прямую линию. Однако этого не наблюдается. 47

Теперь вычислим некоторые описательным статистики для переменной Эффективность. 48

На вкладке Дополнительно диалога Описательные статистики поставим галочки в полях Асимметрия, стандартная ошибка асимметрии, Эксцесс, Стандартная ошибка эксцесса. Нажмём OK. 48

Судя по значению Асимметрии, распределение переменной Эффективность можно считать нормальным (0 «почти что» содержится в интервале Ассиметрия ± Стандартная ошибка Асимметрии). 48

Но судя по значению Эксцесса, гипотезу о нормальности следует отклонить. Как правило, если найдена хотя бы одна существенная «нестыковка», гипотезу смело отклоняют, в то время как соответствие даже всем известным критериям ещё не влечёт справедливость гипотезы. 48

В заключении обратимся к модулю Подгонка распределения. 48

Выберем пункт Нормальное в левом столбце, нажмём OK. В появившемся окне укажем в качестве переменную (Эффективность). 48

49

Нажмём OK. 49

Обратите внимание: значение p = 0,00031, то есть значительно меньше 5%. Это значит, что гипотезу о нормальности следует отклонить. 49

Итак, окончательный вывод: Распределение переменной Эффективность существенно отличается от нормального распределения. 49

Сравнение выборок 49

И первый, и второй вопросы, поставленные в пункте Цели исследования относятся к задаче сравнения выборок. Будем отвечать на вопросы в порядке их постановки. 49

1) Какой метод лечения более эффективен? 49

С точки зрения прикладной статистики, задача сводится к сравнению значений переменной Эффективность по группам I и II (сравнение независимых выборок). 49

Как мы уже выяснили, распределение отличается от нормального, поэтому мы воспользуемся методами непараметрической статистики. 49

Запустим модуль Непараметрическая статистика. Выберем пункт Сравнение двух независимых групп. 49

Укажем переменные. 50

50

Обратите внимание: коды для группирующей переменной (I и II) автоматически появятся в соответствующих окошках. 50

Нажмём на кнопку U-критерий Манна – Уитни. 50

Обратите внимание на p-уровень: 0,63. Гипотезу о равенстве функций распределения отклонить нельзя. Поэтому выявить явное преимущества одного из методов не удалось. 51

Неявное преимущество можно обнаружить на основе сравнения диаграмм размаха по переменной Эффективность. 51

Если мы хотим сравнить вполне разумно рассмотрение категоризованных диаграмм размаха. 51

Для этого выберем в меню пункт Графики / категоризованные графики / Диаграмма размаха. Укажем переменные для этого графика 51

51

На вкладке Дополнительно уменьшим количество Y-категорий до 4. 51

Нажмём OK. 52

53

2) Есть ли существенное различие состояний пациентов до и после лечения? 53

Это уже задача сравнения парных повторных наблюдений. 53

Как и при ответе на первый вопрос, мы воспользуемся непараметрическими методами. 53

Запустим модуль Непараметрическая статистика. Выберем пункт сравнениеДвух зависимых переменных. 53

Укажем переменные. 53

53

Нажмём на кнопку Критерий знаков. 54

Вернёмся в диалог Сравнение двух переменных и нажмём на кнопку Критерий Вилкоксона. 54

Интерпретация результатов: гипотезу об однородности следует отвергнуть и принять альтернативу доминирования. Так как среднее значение состояния до лечения больше среднего значения состояния после лечения, то следует признать, что лечение существенно улучшает состояние пациентов. 54

Источник: http://www.statsoft.ru/statportal/tabID__50/MId__449/ModeID__0/PageID__344/ 54

DesktopDefault.aspx 54