Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Биометрия_пособие2

.pdf
Скачиваний:
42
Добавлен:
18.03.2016
Размер:
2.79 Mб
Скачать

лен (в нашем примере это возведение в квадрат), необходимо уточнение зависимой и независимых переменных фиксированной нелинейной регрессионной модели. Оно производится на следующем шаге при помощи кнопки Variables диалогового окна Model Definition (Уточнение модели) и выбора зависимых и независимых переменных (рис. 2.39).

Рис. 2.40. Диалоговые окна для уточнения модели регрессии и выбора зависимых и независимых переменных для расчета уравнения ПР = a1 + a2Cl + a3Cl2

Уравнение зависимости плотности ручейников (ПР) от содержания хлоридов (Cl) оказалось следующее: ПР = 10,1 + 0,01 Cl + 0,02Cl2. Это уравнение объясняет 99,8% (R2 = 0,998) вариации зависимой переменной (рис. 2.41).

Рис. 2.41. Результаты регрессионного анализа модели:

ПР = a1 + a2Cl + a3Cl2

При прогнозировании плотности ручейников от содержания

71

хлоридов (например 100 мг/л) в воде реки Белой в районе города Стерлитамака получаем значение 11,1 экз/м2 (рис. 2.42), что значительно ниже исходных данных плотности ручейников на изученных участках, а это свидетельствует, что с повышением содержания хлоридов в воде реки Белой в районе города Стерлитамака снижается плотность личинок ручейников.

Рис. 2.43. Прогноз плотности ручейников в зависимости от содержания хлоридов в воде р. Белой в районе города Стерлитамака

Различные дополнительные полученные результаты и графическое изображение полученных результатов (описание см. выше) можно просмотреть в окне Residual analysis 2.44.

Рис. 2.44. Окно Residual analysis

Пользуясь окнами, представленными на рисунке 2.38 можно выбрать и проанализировать различные типы преобразования переменных. Но при поиске лучшей регрессионной модели следует руководствоваться следующими наиболее общими

72

требованиями:

-регрессионная модель должна объяснять не менее 80% вариации зависимой переменной, т.е. R2 0.8.

-стандартная ошибка оценки зависимой переменной по уравнению должна составлять не более 5% среднего значения зависимой переменной;

-коэффициенты уравнения регрессии и его свободный член должны быть значимы на 5%-ом уровне.

-остатки от регрессии должны быть без заметной автокорреляции (r<0,30), нормально распределены и без систематической составляющей.

Глоссарий

Асимметрия – одна из характеристик формы распределения. У скошенного вправо распределения значения группируются слева от среднего и образуют длинный хвост справа от него. Так называемый коэффициент асимметрии положителен для скошенных вправо распределений, равен нулю для симметричных, отрицателен для скошенных влево. Распределения величин, ограниченных слева, как правило, скошены вправо (таков, например, годовой доход). Для выявления асимметрии полезно использовать гистограммы, ящичковые диаграммы и графики на нормальной вероятностной бумаге. Чтобы симметризовать данные, их подвергают подходящему преобразованию, например, данные с положительной асимметрией часто логарифмируют.

Вариационный ряд - выборка, упорядоченная по возрастанию значений.

Выборка – это группа статистических единиц, отобранная из большей группы, генеральной совокупности. Изучая выборку, мы надеемся сделать разумные заключения о генеральной совокупности.

Генеральная совокупность – это (как правило, лишь во-

ображаемое) полное собрание объектов (людей, животных, растений или вещей), являющееся источником данных. Она представляет все множество статистических единиц (группу интересующих нас предметов). Приведенный пассаж нельзя,

73

конечно, считать сколько-нибудь полноценным определением. Информацию о генеральной совокупности мы получаем, изучая выборки из нее; из каждой совокупности можно сделать много разных выборок. По выборке мы получаем информацию об интересующих нас параметрах совокупности. Например, выборочное среднее дает информацию о среднем всей совокупности. Важно, чтобы перед формированием выборки исследователь тщательно и полно определил генеральную совокупность, а также способ извлечения выборки. Выборка должна быть репрезентативной.

Гистограмма – это способ графического представления распределения числовых (непрерывных) данных, часто используемый в разведочном анализе данных для иллюстрации основных характеристик распределения. Диапазон возможных значений переменной делится на отрезки, задающие разбиение выборки на классы, или группы. Каждой группе на гистограмме соответствует прямоугольник, длина которого равна диапазону значений в заданной группе, а площадь пропорциональна числу наблюдений в этой группе. Примечание. Гистограмма годится только для числовых переменных. Как правило, она используется для больших множеств данных (>100 наблюдений), когда не хотят строить диаграммы ствол-лист. Гистограммы помогают выявить необычные наблюдения (выбросы) и пропуски в множестве данных.

Девиата - величина σ2 (взвешенная дисперсия), варианса (средний квадрат).

Дисперсионный анализ - совокупность моделей и методов, применяемых для анализа зависимости непрерывного отклика от дискретных факторов.

Доверительный интервал – это отрезок, с большой ве-

роятностью содержащий этот параметр. Эта фраза без дальнейших уточнений бессмысленна. Поскольку границы доверительного интервала оцениваются по выборке, естественна его частотная интерпретация: если много раз брать из генеральной совокупности независимые выборки и по каждой из них оценивать доверительный интервал, то определенная доля этих интервалов «накроет» значение параметра. Доверительный интервал строят так, чтобы доля накрывающих интервалов равнялась доверительному уровню; не путать с уровнем значимо-

74

сти критерия – вещи близкие, но не тождественные. Стандартные значения доверительных уровней: 95%, 90%, 99% и, реже, 99.9%. Ширина доверительного интервала характеризует степень нашего незнания: слишком широкий доверительный интервал может служить указанием на то, что следует собрать больше данных.

Доверительные интервалы дают больше информации о параметре, чем простая точечная оценка, поскольку отграничивают сразу целую совокупность допустимых значений.

Доверительный уровень. Вероятность того, что неизвестное значение параметра будет накрыто доверительным интервалом. Как правило, задается величиной 1 - α, где в качестве α берут один из стандартных уровней значимости 0.1, 0.05

или 0.01.

Например, для α = 0.05 доверительный уровень равен 1- 0.05 = 0.95. Часто выражается в процентах, так что последнее значение – это 95% доверительный уровень.

Значимый результат. Как правило, некоторый статистический показатель называют значимым, когда гипотеза о том, что он равен нулю, не принимается. Так, говорят о значимом коэффициенте корреляции, значимом коэффициенте регрессии и т.п.

Когда гипотезу о том, что значение коэффициента равно некоторому значению, не принимают, также говорят о значимом отличии коэффициента от этого значения.

Корреляция. Когда говорят, что две случайные переменные коррелированны, имеют в виду, как правило, что они друг с другом как-то связаны. Стандартной мерой связи переменных является коэффициент корреляции. Следует, однако, помнить, что он измеряет лишь силу линейной связи и лишь в случае, когда обе переменные числовые.

Коэффициент корреляции – это число, заключенное между -1 и +1, которое измеряет силу линейной связи двух случайных переменных. Положительное значение коэффициента корреляции означает, что с ростом одной из переменных другая также растет, с убыванием одной из них убывает и другая. Отрицательное значение означает, что с ростом одной из переменных другая убывает, с убыванием одной из них другая растет. Коэффициент корреляции, равный нулю, означает, что

75

между нашими переменными отсутствует линейная связь. Обратите внимание: даже если коэффициент корреляции

равен 1 по абсолютной величине и, следовательно, наши переменные функционально связаны (линейно), ничего нельзя сказать о причинно-следственной связи между ними. В статистической практике в ходу два коэффициента корреляции: для числовых переменных используется коэффициент корреляции Пирсона, для ранговых – коэффициент корреляции Спирмена. Предложенный Кендаллом коэффициент ранговой корреляции почему-то почти не употребляется.

Коэффициент регрессии - коэффициент при независимой переменной в уравнении регрессии.

Кривая регрессии. Для двух случайных величин регрессия X на Y (часто говорят также Y по X) – это функция y = f(x), дающая для каждого возможного значения x случайной величины X условное математическое ожидание Y. Графическое представление этой функции и называется кривой регрессии. Если функция f линейна, f(x) = a*x+b, то кривая регрессии Y по X представляет собой прямую, а регрессию называют простой линейной. В этом случае, коэффициент линейной регрессии Y по X – это коэффициент a перед x (угловой коэффициент, наклон) в уравнении линии регрессии.

Примечание: Для оценки коэффициентов линейной регрессии по выборке, состоящей из n пар наблюдений показателей X и Y, используют, как правило, метод наименьших квадратов.

Критерий независимости хи-квадрат (Пирсона) предна-

значен для проверки гипотезы о независимости двух признаков, задающих строки и столбцы таблицы сопряженности. Статистика этого критерия Σ = (oij – eij)2 / eij, где сумма берется по всем клеткам таблицы сопряженности. Она совпадает со статистикой критерия согласия хи-квадрат, специфика состоит лишь в способе вычисления ожидаемых встречаемостей: eij=ricj/N, где ri – сумма встречаемостей в i-й строке, cj – сумма встречаемостей в j-м столбце.

Критерий однородности хи-квадрат. Предположим, что наша генеральная совокупность разбита на подсовокупности значениями признака А, а каждая из них, в свою очередь, – на под-подсовокупности значениями признака В. Если распреде-

76

ления под-подсовокупностей не зависят от объемлющей подсовокупности, то говорят о независимости признаков A и B, а также о гипотезе однородности.

Пример: Предположим, что мы даем школьникам контрольную по биологии. Одна из гипотез однородности состоит в предположении об одинаковых результатах мальчиков и девочек. Конечно, фактически имеется в виду проверка гипотезы о независимости признаков, стандартным критерием для которой является критерий хи-квадрат Пирсона.

Критерий согласия хи-квадрат используется для провер-

ки гипотезы о совпадении эмпирического и теоретического (постулируемого) распределений дискретных случайных величин. Критерий основывается на сравнении наблюденных и ожидаемых (теоретических) встречаемостей. Статистика критерия равна сумме квадратов разностей между наблюденными и ожидаемыми встречаемостями, деленных на ожидаемые встречаемости: Σ = (oi – ei)2 / ei, где oi – наблюденная встречаемость i-й градации, а ei – ее ожидаемая встречаемость. Обратите внимание: значение статистики зависит от объема выборки.

Критерий Стьюдента - статистический критерий, в котором, в предположении нулевой гипотезы, используемая статистика соответствует t-распределению (распределению Стьюдента).

Критерий Фишера - критерий, статистика которого подчиняется F-распределению, если нулевая гипотеза верна.

Критерий хи-квадрат - критерий, статистика которого подчиняется распределению χ2.

Круговая диаграмма – это один из способов визуализации дискретных данных. Представляет собой круг, разделенный на сегменты, каждый из которых соответствует определенной категории. Площадь каждого сегмента пропорциональна числу наблюдений в этой категории. Является аналогом гистограммы.

Медиана – это точка, по обе стороны которой располагается одинаковое количество элементов выборки. Если объем выборки нечетен и равен 2n+1, то медиана равна элементу вариационного ряда с номером 2n. Если объем выборки четен и равен 2n, то медиана лежит между элементами вариационного ряда с номерами n и n+1; как правило, в таких случаях медиа-

77

ной считают среднее арифметическое этих двух значений. Медиана распределения – это точка m, определяемая аналогичным условием: вероятность того, что случайная величина примет значение, не превосходящее m, равна 1/2. Другими словами, медиана – это квантиль уровня p=0.5.

Множественная регрессия – это регрессионная модель,

согласно которой моделируемое значение переменной Y выражается как функция одной или нескольких предсказывающих переменных (X). Чаще всего встречается множественная линейная регрессия – линейная регрессионная модель с более чем одной переменной.

Мода - точка, где плотность вероятности непрерывной случайной величины достигает максимума. Иногда используют для характеристики дискретных распределений вероятностей.

Примечания:

1.Мода выборки – это значение, встречающееся чаще всего. Таких мод может быть несколько, если несколько значений встречаются одинаково часто. Однако, в подобных случаях мода не является разумной оценкой центральной тенденции.

2.Мода является робастной характеристикой центральной тенденции унимодального распределения.

Наблюдение - источник имеющихся данных. Практически во всех статистических пакетах задается строкой значений переменных. Наблюдение состоит из значений переменных, измеренных у одной и той же экспериментальной единицы. Скажем, возраст, температура и давление пациента составляют наблюдение. Значение одной переменной называют измерением.

Наблюденные встречаемости. В задачах с таблицами сопряженности наблюденные встречаемости – те, которые оценены по нашей выборке. При вычислении критерия хиквадрат термин наблюденная встречаемость используется для описания фактических данных таблицы сопряженности. Наблюденные встречаемости сравнивают с ожидаемыми, и их значимое различие говорит о том, что модель, выраженная ожидаемыми встречаемости, не полностью объясняет данные.

Нелинейная регрессия. В нелинейной регрессии предполагается, что зависимость отклика от предикторов не является линейной функцией предикторов.

78

Объем выборки - количество элементов в выборке.

Ошибка выборки, выборочная ошибка - часть ошибки оценивания, обусловленная только тем фактом, что объем выборки меньше, чем объем генеральной совокупности.

Параметр – это величина, обычно неизвестная и, следовательно, подлежащая оценке, которая представляет определенную характеристику генеральной совокупности. Например, математическое ожидание распределения – это параметр, характеризующий центральную тенденцию. Параметр совокупности имеет фиксированное значение. По имеющейся у нас выборке мы можем посчитать значение статистики, используемой для оценки параметра. Например, среднее выборки дает информацию о среднем генеральной совокупности, из которой была сделана эта выборка. Поскольку выборка случайна, это значение также случайно. Параметры часто обозначают греческими буквами (например, σ), а соответствующие статистики – латинскими (например, s).

Планирование экспериментов. Целая наука, цель кото-

рой – получить наиболее надежные выводы наиболее дешевым (во всех смыслах этого слова) способом.

Разброс - обобщенное название характеристик изменчивости распределения. Типичными мерами разброса являются дисперсия, стандартное отклонение, размах и интерквартильная широта.

Размах - разность между наибольшим и наименьшим наблюденным значением количественного показателя.

Ранг - номер наблюдения в вариационном ряде. Обратите внимание: когда вместо исходных величин мы переходим к их рангам, мы, тем не менее, пользуемся интервальной, а не ранговой шкалой. Пример. В выборке 11, 23, 32, 39, 55 наблюдению 11 соответствует ранг 1, наблюдению 23 - ранг 2 и т.д. Ранги оказываются полезными для построения непараметрических ранговых критериев. Ранговая корреляция Спирмена или Кендалла – другие полезные применения рангов.

Рандомизация - процесс перемешивания, в результате которого множество объектов располагается в случайном порядке. Термин употребляется, как правило, в связи с планированием экспериментов.

Регрессионный анализ - совокупность идей и методов,

79

используемых при построении уравнений, связывающих непрерывный отклик с одним или несколькими непрерывными предикторами. Наиболее разработанными являются, конечно, методы построения линейных уравнений. «Вариантами» являются методы, предназначенные для множественных откликов и/или дискретных предикторов.

Серия. В рядах наблюдений качественного показателя – повторение одного и того же значения признака называется “серией”. В рядах наблюдений количественного показателя - последовательный набор значений, которые монотонно возрастают или монотонно убывают, называют «растущей» или «падающей» серией, соответственно. Конечно, рассматривают и серии равных.

Среднее. Термин «среднее» обычно используется, когда говорят о параметре генеральной совокупности, когда же имеют в виду статистику, т.е. результат вычислений по выборочным данным, добавляют соответствующий эпитет, например, среднее арифметическое.

Стандартная ошибка. Стандартное отклонение статистики, в частности, выборочного распределения оценки. Как правило, употребляется в выражениях типа «стандартная ошибка среднего» (которая равна стандартному отклонению, деленному на корень квадратный из объема выборки).

Статистика – это функция элементов выборки. Дает информацию о неизвестных значениях параметров генеральной совокупности. Например, среднее выборки является, как правило, оценкой среднего совокупности, из которой была взята выборка. Из генеральной совокупности можно сделать много разных выборок, причем значение статистики в общем случае будет меняться от выборки к выборке; другими словами, выборка является случайной, а значит, случайной величиной является и статистика. Например, выборочные средние для разных выборок из одной и той же совокупности могут различаться между собой. Статистики обычно обозначают латинскими буквами (например, m и s), а оцениваемые ими параметры – греческими, (например, μ и σ).

Статистический вывод - искусство использовать информацию, содержащуюся в выборке, для умозаключений о свойствах генеральной совокупности, из которой сделана эта вы-

80