Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Зайцев_книга2[1].doc
Скачиваний:
649
Добавлен:
15.03.2015
Размер:
8.87 Mб
Скачать
  1. Оценка различий показателей заболеваемости

Одной из самых распространенных задач статистики является оценка различий показателей. Эта оценка обычно является обязательным элементом завершающего этапа любого статистического исследования. Но именно на этом этапе статистического анализа допускается больше всего методических ошибок. Ошибок, которые нередко сводят «на нет» результаты большого, длительного труда. В этой связи, представляется чрезвычайно важным разобраться в природе статистических ошибок, источниках их возникновения.

Предпосылки возникновения некорректного понимания природы статистических ошибок нередко прослеживаются уже на первых этапах статистического исследования, при планировании и сборе данных. В основе этого - некорректное понимание природы статистических ошибок. В частности, результатом статистических ошибок подразумевают ошибочную регистрацию данных, ошибочную сводку и группировку результатов наблюдений, ошибок счета, ошибок записей результатов и т.п.. Следует отметить, что такого рода ошибки, называемые систематическими или механическими ошибками, не являются предметом статистического оценивания. Предсказать их суммарную величину, рассчитать их отклонение от действительных значений искомых величин и т.п. статистика не может. Избавиться от систематических ошибок, и повысить тем самым объективность статистических данных, можно только путем организации тщательного статистического наблюдения.

Следует отметить, что среди перечисленных вариантов систематических ошибок единственным исключением являются ошибки измерения, обусловленные техническими параметрами устройств, с помощью которых производится регистрация данных, или обусловленных особенностями объекта измерения. Считается, что эти ошибки (погрешности измерения) оставаясь в каждом конкретном случае случайными, в массе наблюдений подчиняются определенному закону статистического распределения, как правило, нормальному Гауссову распределения. Исходя из параметров этого распределения, и вычисляются ошибки измерения. На их основе определяются доверительные интервалы результатов измерения, и , в итоге, даются оценки существенности различий результатов нескольких серий измерений или их отличий от общепринятых стандартов.

Что касается статистической оценки достоверности, то математическая статистика, в принципе, может рассматривать только два варианта формулировки этой задачи:

  1. Соответствуют ли параметры выборочной группы наблюдений параметрам генеральной совокупности. Т.е. достоверно ли отражают результаты наблюдения выборочной группы ситуацию в генеральной совокупности?

  2. Относятся ли две группы наблюдений к одной совокупности или нет. Соответственно, различия в результатах наблюдений по этим группам носят случайный (если они из одной генеральной совокупности) или неслучайный характер (если они относятся к разным генеральным совокупностям)?

Нетрудно заметить, что и в первом случае и во втором имеется в виду отношение к генеральной совокупности. Генеральная совокупность – вся возможная совокупность однородных объектов, обладающих одним и тем же комплексом учетных признаков. Генеральная совокупность может представлять собой реальную группу (совокупность) статистического наблюдения, либо совокупность без четко обозначенных границ всех мыслимых единиц наблюдения, обладающих одинаковым комплексом учетных признаков. Реальные или виртуальные размеры генеральной совокупности определяются целью статистического исследования. Например: при оценке эффективности гипотензивного препарата, с формальной точки зрения, генеральной совокупностью будут все люди, нуждающиеся в приме этого препарата. Понятно, что размеры группы всех этих людей неизвестны и поэтому генеральная совокупность здесь носит условный характер. С другой стороны, при углубленной оценке обращаемости к врачу-кардиологу за год требуется анализ таких характеристик (учетных признаков) пациентов, которые в стандартных статистических учетно-отчетных формах не регистрируются. Для этого можно использовать выборочный метод, построенный на тщательном анализе записей в 2-3-х десятках амбулаторных карт пациентов, обращавшихся к кардиологу. Здесь генеральной совокупностью будут все лица, обратившиеся к кардиологу за год. Выборочной совокупностью – выборочная группа обращений (например, каждая 10 амбулаторная карта из всех карт)

Причин использования выборочного метода, даже тогда, когда реальные границы генеральной совокупности известны, достаточно много. Чаще всего они обусловлены высокой трудоемкостью исследования, стремлением избежать больших материальных затрат, невозможностью сплошного исследования при разрушающих методах контроля и т.п. Например: контроль качества вакцины или сыворотки, как правило, требует вскрытия флаконов, ампул и т.п. упаковки, гарантирующей сохранность препарата. Понятно, что сплошной контроль здесь не имеет практического смысла.

Формирование выборочной совокупности требует жесткого соблюдения определенных правил, благодаря чему обеспечивается главное свойство выборочной совокупности – случайность появления в её составе той или иной единицы наблюдения. Правильность отбора гарантирует статистическую репрезентативность (представительность) выборки.

Выделяют репрезентативность количественную и качественную (структурную). Количественная репрезентативность определяется числом наблюдений, гарантирующим получение статистически достоверных данных. В общем, здесь действует основной постулат теории вероятности закон больших чисел - "чем больше наблюдений- тем результаты достоверней" или "чем больше число наблюдений, тем больше значения характеристик выборки приближаются к соответствующим характеристикам генеральной совокупности".

Это обстоятельство существенно для случайных ошибок. Число положительных случайных ошибок почти всегда равно числу отрицательных. Чем больше проведено наблюдений, тем ближе к нулю разность между теми и другими случайными ошибками. Систематические ошибки наблюдения, которые могут возникать как при сборе, так и при сводке информации, искажают результат наблюдения в одном направлении и не могут быть устранены увеличением объема выборки.

Величина ошибки репрезентативности зависит так же и от изменчивости изучаемого признака. Если бы все единицы совокупности были одинаковы, то результаты, полученные на одной единице наблюдения, можно было бы распространить на все остальные. Однако реально всегда имеется како-то разброс значений. И чем он больше, тем больше статистическая ошибка. Именно поэтому при анализе статистических данных необходимы характеристики изменчивости (разброса) значений, составляющих ряды распределений.

Качественная репрезентативность - обозначает структурное соответствие выборочной и генеральной совокупностей. Например: если в составе генеральной совокупности 50% - лица мужского пола, то и в выборочной группе их должно быть 50%.

В силу закона больших чисел выборка будет качественно репрезентативной, только в том случае, если ее осуществить случайно. Проводить отбор случайно, значит обеспечить выполнение условия, что каждый объект выборки отбирается случайно из генеральной совокупности. При соблюдении этого условия можно определенно утверждать, что объекты выборки правильно представляют генеральную совокупность.

Случайность, гарантирующая качественную (структурную) репрезентативность статистических исследований, достигается выполнением ряда условий формирования выборочных групп (совокупностей):

  1. каждый член генеральной совокупности должен иметь равную вероятность попасть в выборку. Например: если отбор историй болезней проводить по заглавным буквам фамилий больных, то вероятность попасть в выборку для разных фамилий будет разная, т.к. частота встречаемости различных букв алфавита в началах фамилий разная;

  2. отбор единиц наблюдения из генеральной совокупности необходимо проводить независимо от изучаемого признака. Если отбор проводится целенаправленно, то и при этом необходимо соблюдать условия независимости распределения изучаемого признака. Например, при изучении взаимосвязи курения и здоровья человека можно поступить двояко. Во первых, целенаправленно сформировать группы обследуемых в зависимости от их отношения к курению (не курят, курят мало, курят много и т.п.) В этом случае независимо должны формироваться показатели здоровья в этих группах. Во вторых, можно целенаправленно сформировать группы здоровья. Например: здоровые, редко болеющие острыми заболеваниями, хронические больные и т.п. В этом случае независимо должны формироваться показатели отношения к курению в этих группах. Например: не курят, курят мало, много и т.п. В первом случае доказательством связи курения и здоровья будут разные уровни показателей здоровья в различных по отношению к курению группах. Во втором – различная распространенность курения в различных группах здоровья.

  3. отбор должен проводиться из однородных групп. Например: показатели физического развития мужчин и женщин существенно отличаются друг от друга, поэтому для оценки физического развития необходимо брать либо однополые группы, либо группы с одинаковым соотношением полов.

Соблюдение условий, гарантирующих максимальную близость выборочной и генеральной совокупностей, обеспечивается специальными способами отбора. В зависимости от способа формирования различают следующие выборки:

  1. Выборки, не требующие разделения генеральной совокупности на части (собственно случайная повторная или бесповторная выборка);

  2. Выборки, требующие разбиения генеральной совокупности на части (механическая, типическая или типологическая выборки, когортная, парно-сопряженная выборки).

Собственно случайная выборка формируется случайным отбором - наудачу. В основе случайного отбора - перемешивание. Например: выбор шара в спортлото после перемешивания всех шаров, выбор выигрышных номеров лотереи, случайный выбор карточек больных для исследования и т.п. Иногда используют случайные числа, получаемые из таблиц случайных чисел или с помощью генераторов случайных чисел. Согласно этим числам из заранее пронумерованного массива генеральной совокупности выбираются единицы наблюдения с номерами, соответствующими выпавшим случайным числам.

При составлении случайной выборки после того, как объект отобран, и все необходимые данные о нем зарегистрированы, можно поступать двояко: объект можно вернуть или не вернуть в генеральную совокупность. В соответствии с этим выборку называют повторной (объект возвращается в генеральную совокупность), или бесповторной (объект не возвращается в генеральную совокупность). Отбор с возвращением (повторный отбор) гарантирует большую независимость выборки, однако этот вид отбора труден в организационном плане. Вместе с тем, разность погрешностей бесповторного и повторного отбора, тем меньше, чем больше объем генеральной совокупности. На практике, объем генеральной совокупности неизвестен или гипотетически достаточно велик. В предельном случае генеральная совокупность бесконечно велика. Поэтому в большинстве статистических исследований разница между повторной и бесповторной выборками практически отсутствует и априорно принимается условие, что выборка повторная.

При неизвестной величине генеральной совокупности величину повторной выборки, гарантирующую репрезентативные результаты, если результат отражается показателем в виде относительной величины, определяют по формуле: , где p - величина показателя изучаемого признака, q=(100-p), t - доверительный коэффициент, показывающий какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки (обычно берется t=2, что обеспечивает 95% вероятность безошибочного прогноза). - предельная ошибка показателя.

Например: одним из показателей, характеризующих здоровье рабочих промышленных предприятий, является процент не болевших в течение года работников. Предположим, что для промышленной отрасли, к которой относится обследуемое предприятие, этот показатель равен 25%. Предельная ошибка, которую можно допустить, чтобы разброс значений показателя не превышал разумные границы, 5%. Т.е. показатель может принимать значения 25% ±5%, или от 20% до 30%. Допуская t = 2, получаем 300 рабочих. В том случае, если показатель - средняя величина, то число наблюдений можно установить по формуле:

, где показатель вариабельности признака (среднеквадратическое отклонение), который можно получить из предыдущих исследований, либо на основании пробных (пилотажных) исследований.

При бесповторном отборе и при условии известной генеральной совокупности для определения необходимого размера случайной выборки в случае использования относительных величин :.

Для средних величин - используется формула: , где N- численность генеральной совокупности. Исходя из условий приведенного выше примера и принимая численность генеральной совокупности N=500 рабочих, получаем: рабочих.

Нетрудно заметить, – необходимая численность выборки при бесповторном отборе меньше, чем при повторном. (Соответственно 188 и 300 рабочих)

Рисунок 120. Зависимость числа наблюдений от величины допустимой ошибки выборочного исследования (при =10)

В целом, число наблюдений, необходимое для получения репрезентативных данных, изменяется обратно пропорционально квадрату допустимой ошибки.

Механическая выборка, - выборка, когда из обследуемой совокупности единицы наблюдения отбираются механически. Например: отбор каждого пятого или каждого десятого рабочего по карточкам отдела кадров предприятия или по амбулаторным картам поликлиники МСЧ. При этом надо помнить, что обращаемость в поликлинику взрослого населения может зависеть от состояния здоровья (здоровые почти не обращаются). В результате чего, в поликлинике амбулаторные карты имеются, как правило, только на больных. Кроме того, большая часть амбулаторных карт может находиться на руках у пациентов.

Типическая, типологическая или районированная выборка предполагает разбивку генеральной совокупности на ряд качественно однородных групп. Например: при изучении заболеваемости студентов вуза для углубленного обследования на каждом курсе выбираются типичные по своему составу студенческие группы. Часто этот способ отбора комбинируется с другими способами. Например: территория города делится в зависимости от степени загрязнения на типичные районы, в этих районах путем случайного отбора формируются группы наблюдения.

Когортный отбор - относится к целенаправленным отборам, при этом способе из генеральной совокупности отбираются лица, объединенные моментом появления какого либо признака, играющего существенное роль в исследовании (год рождения, начало болезни и т.п.).

Следует отметить, что в отличие от других областей медицины выборочные исследования распространенности заболеваний не получили широкого распространения, хотя о необходимости таких исследований отечественные статистики говорили еще в 20 годы прошлого ХХ столетия. (Паевский В.В., Сичинский М.В., Смулевич Я.М., Богословский С.М., Мерков А.М. и др.). Более того, теоретические предпосылки выборочного метода были проверены в ходе специальных исследований. Так В.С.Быховский и соавт., в 1928 году сделали параллельную обработку 132,8 тысяч карт с данными о заболеваниях сплошным методом и методом механического отбора каждой пятой карты. Анализ результатов этой обработки показал высокую репрезентативность данных выборочного исследования заболеваемости. Однако вплоть до сегодняшнего дня отсутствуют единые методические подходы проведения в широкой практике выборочных санитарно-статистических исследований.

В частности, нет четких критериев для определения объёма выборки. Например, В.В.Паевский в опубликованной в 1928 году работе указывал, что при размере генеральной совокупности 50 тыс. человек и выше для выборки необходимо брать не менее 25 тыс. единиц наблюдения! А при больших объемах, по мнению автора, можно ограничиваться 10% выборкой. В настоящее время при социологических опросах населения России численностью более 147 млн. человек объем выборки обычно составляет около 2 тыс. человек. Если опираться на рекомендации В.В.Паевского, эта выборка должна бы составлять 14,7 млн. человек. Справедливости ради следует отметить, что в настоящее время рекомендуемые объемы выборки для изучения общей заболеваемости значительно ниже, однако они представляются во многом спорными и остаются значительно выше принятых при исследованиях в других областях знаний.

Тщательное использование классических приемов выборки из генеральной совокупности, само по себе не гарантирует репрезентативность результатов. Помимо глубокого понимание предмета изучения и требуется тщательный учет множества обстоятельств, способных повлиять на результативность статистического наблюдения. Особенно существенную проблему представляют малые выборки, которые на практике чаще всего и встречаются. Необходимость особенно четкой организации малых по численности наблюдений объясняется и тем, что возможность «потом поправить» (отбросить сомнительные, «выскакивающие» варианты, перегруппировать их и т.п.) в таких исследованиях весьма ограничена. Ограничено здесь и обычно проявляющееся при достаточно большом числе наблюдений взаимное погашение случайных, непредвиденных факторов.

Решить проблему малых групп позволяет соблюдение ряда ключевых правил, заведомо обеспечивающих минимальную вероятность получения нерепрезентативных данных. Один из метод наблюдения, опирающийся на такие правила называется метод копий пары. А выборка, полученная таким путем, называется парно-сопряженная выборка.

Метод копии-пары предусматривает формирование собственно 2-х групп: группы наблюдения и контрольной группы. Эти группы уравновешиваются структурно по основным признакам, способным оказывать существенное влияние на результат. Не уравновешенным остается главный фактор, действие которого изучается. Например: при изучении токсичности какого-либо вещества, берутся две группы подопытных животных. Эти группы генетически однородны (по возможности), животные в них одного возраста, пола, они одинаково содержатся и т.д. Отличаются только тем, что опытная группа подвергается воздействию изучаемого фактора (токсического вещества), а контрольная группа - нет. Этот способ формирования выборки позволяет обходиться малым числом наблюдений. Однако в практике тех исследований, которые проводятся среди людей, простой подбор копий-пар трудно осуществим.

Необходимость стандартизации решения проблем малых выборок, тщательной детализации и учета множества факторов, сопутствующих статистическому наблюдению, породило возникновения специального направления в медицинской статистике «Доказательная медицина». Несмотря на то, что в основе обоснования необходимости существования и развития этого направления прослеживается просто слабое знание основ статистического наблюдения, в ряде случаев знакомство с принципами Доказательной медицины может быть весьма полезным.

Р.А.Фишер (1950) дал знаменитое толкование проведения исследователя, которое в определенной степени иллюстрирует принципы Доказательной медицины, обычно не рассматриваемые в рамках традиционных методик статистического исследования. В качестве примера он рассмотрел гипотетический случай, когда некой английский леди было предложено провести оценки, что было раньше налито в чашку, – чай или молоко? По мнению Фишера, такое исследование должно строиться с соблюдением следующих правил. (Цит. по Э.Ллойду и У.Ледерману, 1989):

  • повторяемость (дублируемость). Нельзя делать каких-либо выводов о верной или ошибочной идентификации порядка смешивания молока и чая по одной единственной чашке;

  • чувствительность. Р.Фишер отмечал, что пока число чашек не превысит некий минимум, никаких разумных выводов делать нельзя, поскольку выборка слишком мала;

  • сбалансированность. Леди должна была попробовать равное число чашек с молоком, добавленным в чай, и с чаем добавленным в молоко, чтобы в её суждениях не возникло смещения;

  • рандомизация (случайность). Относится к тому, в каком порядке следует поставлять чашки на дегустацию. Рандомизация есть на самом деле необходимое условие для того, что бы стало возможным использование статистического анализа;

  • однородность. Изложенные выше соображения нельзя распространять слишком далеко. Утверждаемое различие может вызываться разностью температур (чай может остыть), эффектом настаивания чая, усталостью леди, ее насыщение чаем и т.п.

При известной генеральной совокупности можно попытаться целенаправленно сформировать выборочную группу путем уравновешивания факторов, которые явно исказят результат статистического анализа. Например: при углубленном обследовании работников предприятия удалось провести полное обследование только 187 рабочих. Одним из самых существенных факторов, оказывающим влияние на результат этого обследования, могло быть не соответствие возрастно-половой структуры обследованной группы (выборочная совокупность) возрастно-половой структуре всего состава работников предприятия (генеральная совокупность).

Для того, чтобы поверить указанное соответствие следует выполнить следующие действия.

1). Получить таблицу фактического распределения работников предприятия по возрасту и полу (генеральная совокупность).

Таблица 105.

Распределение работников обследованного предприятия по возрасту и полу (в % от числа всех работающих).

Пол

Возраст (лет)

до 20

20-29

40 и ст.

Итого

Мужской

5,9

9,9

9,9

25,7

Женский

10,9

11,9

51,5

74,3

Оба пола

16,8

21,8

61,4

100,0

2). Составить таблицу распределения обследованных работников по возрасту и полу (выборочная совокупность).

Таблица 106.

Распределение выборочной группы по возрасту и полу

(в % от численности выборки).

Пол

Возраст (лет)

до 20

20-29

40 и ст.

Итого

Мужской

4,4

11,0

6,6

22,0

Женский

13,2

16,5

48,4

78,0

Оба пола

17,6

27,5

54,9

100,0

3).Проверить с помощью критерия Пирсона Х2 распределение показателей структуры выборочной группы и показателей структуры генеральной совокупности.

4).В данном случае различия возрастно-половой структуры генеральной и выборочной совокупностей можно признать не существенными. (Р=0,123).

Обратить внимание: в данном случае речь идет только о соответствии (или не соответствии) показателей структуры распределения. Не путать с оценкой соответствия распределения!

Аналогичным образом можно проверить соответствие структуры выборочной и генеральной совокупностей и по другим параметрам (стаж работы, производственные вредности и т.д.). В случае необходимости, можно скорректировать состав выборочной группы, то есть добавить несколько единиц наблюдения с заведомо заданными, нужными характеристиками или, наоборот, отбросить.

Следует отметить, что требования к чистоте эксперимента, с точки зрения его статистической репрезентативности и, соответственно, правомерность тех или иных выводов, могут иметь в каждом конкретном случае свои особенности.

В частности, когда из-за большой трудоёмкости и высокой стоимость получения информации о состоянии здоровья тех или иных контингентов путем специально организуемого сбора информации предпринимаются попытки использовать более доступные данные из официальных источников. Такого рода попытки почти всегда приводят исследователей к существенным просчетам. Наиболее грубые просчеты возникают при использовании данных о заболеваемости по обращаемости (общей заболеваемости, инфекционной заболеваемости, травматизме, и т.п.), полученных из официальных источников.

Ошибки здесь чаще всего возникают по двум причинам:

1. Наличие механических, систематических ошибок в массиве данных. Эти ошибки обычно возникают из-за неполной регистрации наблюдений по причине плохо налаженной работы соответствующих управленческих и организационных структур, из-за желания приукрасить истинное положение вещей и т.д.;

2. Перенос данных, полученных сплошным наблюдением, но на ограниченной территории (в пределах небольшого населенного пункта, городского или сельского района и т.п.), на более обширные территории и контингенты населения.

Неправомерность использования таких неполных данных объясняется методологией выборочного метода. Выборочным способом, как известно, получают характеристики генеральной совокупности в пределах ошибок, которые возникают при перенесении результатов изучения выборки на всю генеральную совокупность. Статистическая оценка достоверности различий базируется на вычислении этих ошибок, называемых ошибками репрезентативности. Ошибки репрезентативности по своей природе не тождественны систематическим (механическим) ошибкам. Систематические ошибки наблюдения, в отличии ошибок репрезентативности, искажают результат наблюдения в одном направлении. Поэтому распространять методологию выборочного метода для анализа совокупности, заведомо содержащей систематические ошибки, недопустимо. Систематические ошибки, как правило, не могут быть устранены увеличением объема выборки. Таким образом, попытки оправдать использование неполных данных их большой численностью не состоятельны.

Проведение сплошного исследования ограниченной совокупности с целью последующего переноса данных на большую (генеральную) совокупность требует специальной организации несплошного исследования с соблюдением всех методических требований, которые предъявляются к выборочным исследованиям (См. когортный метод, монографический и др. методы несплошного исследования). В любом случае при использовании данных официальной статистики необходимо иметь в виду реальное положение дел на местах с регистрацией всех случаев заболеваемости, особенно если имеется в виду заболеваемость по обращаемости. Здесь большое значение имеет учет таких местных особенностей, как доступность медицинской помощи (радиус обслуживания медучреждений, наличие врачей-специалистов), близость крупных мегаполисов с развитой сетью специализированных медучреждений и т.п.

Вторая группа ошибок связана с неправомерным применением методик оценок различий, которые даются без учета особенностей тех или иных показателей заболеваемости и соответствующих этим особенностям методик статистического анализа.

Учитывая наибольшую распространенность работ, посвященных такому виду заболеваемости, как заболеваемость с временной утратой трудоспособности, основные приемы статистической оценки различий показателей заболеваемости рассмотрим на этих показателях. При соблюдении остальных общеизвестных требований к выборкам, описываемые методики оценки показателей временной утраты трудоспособности можно перенести на оценки различий показатели большинства других видов заболеваемости.

Известно, что для определения степени достоверности результатов выборочного исследования с помощью параметрических методов необходимо для относительных величин и для средних вычислять их средние ошибки (m). Наиболее просто вычислять такие ошибки в случае, если показатели отражают так называемое альтернативное распределение.