4. Достоверность и адекватность статистической модели.Коэф. Корреляции
Математические модели, полученные на основе статистических данных, называются статистическими моделями. При этом данные могут быть получены экспериментальным или не экспериментальным путем. К последнему случаю относится управленческая информация, предоставляемая вышестоящим инстанциям нижестоящими подразделениям. В этом случае эвристическая и структурная идентификации выполнена заранее и описана в соответствующих инструкциях, руководящих методических материалах, стандартах и других документах. Поэтому табличные модели, формируемые в министерствах и ведомствах, как правило, иерархичны по системе показателей. Поэтому вопрос о структурных моделях взаимозависимостей факторов в управленческой и технологической информации не возникает. Вместе с тем, гораздо труднее эвристически и структурно определены табличные модели в экономических, а тем более в экологических исследованиях. Отсутствие каких-то нормативов для составления табличных моделей приводит к различным ситуациям недостаточной полноты исходной статистической информации.
Случайность ныне признана жизненным атрибутом любого явления или процесса. Регрессии - это односторонняя стохастическая зависимость по прошлым данным, выраженная с помощью алгебраической функции. В регрессионном анализе исследуется форма связи, а в корреляционном анализе - сила стохастической связи. Дисперсионный анализ занимается определением разброса данных при одинаковом значении причины. Если структура регрессионной модели подобрана (что достигается применением формул устойчивых законов), то необходимость в дисперсионном и корреляционном анализах отпадает. При этом сила связей определяется на основе исследования готовой статистической модели.
Статистическое моделирование - это процесс разработки моделей, которые отображают статистические закономерности описываемого объекта, явления (тенденции развития, взаимосвязи, степень воздействия и т.д.). Общей специфической чертой этих моделей (в отличие от детерминированных) является учет случайных возмущений (отклонений). Причем при использовании устойчивых законов необходимость в случайности самих математических формул отпадает.
Сходимость - это свойство приближаемости теоретической линии регрессии к выходным результатам объекта исследования. Критерием оценки сходимости является время поиска параметров модели, или общее число шагов поиска по всем сеансам. Поиск прекращается после того, как сходимость модели по значениям её параметров прекращается, что можно оценить уменьшением остатков. Если остатки после нескольких циклов поиска начинают колебаться около одного и того же значения, то поиск прекращается. Далее по конечным остаткам оценивается адекватность модели процессу функционирования объекта исследования.
При применении метода наименьших квадратов (МНК) к оценке адекватности готовой модели к функционированию объекта исследования (а промежуточные значения показателей МНК - к оценке сходимости) будем считать, что стратегия, выбирающая наиболее эффективную проверку, всегда оптимальна. Далее приведены расчетные показатели анализа адекватности выходных результатов готовой математической модели и объекта исследования.
У изучаемого показателя образуется два статистических множества числовых данных:
ŷ - фактические значения показателя, принятые по данным измерений из таблиц, приведенных в отчетах, книгах и полученные из других источников информации (прошлая информация, не экспериментальные данные) или же полученные самим исследователем (экспериментальные и не экспериментальные данные);
у - расчетные значения показателя, полученные по вычислениям с использованием готового статистического уравнения (причем расчетные значения показателя, полученные в ходе случайного поиска значений параметров модели, не учитываются).
При этом принимается допущение, что фактические значения являются первичными, а расчетные (по статистической модели) значения становятся вторичными, зависящими от фактических исходных данных. Эта иерархия позволяет считать расчетные значения показателя в виде непостоянной информации, которая может быть уточнена в ходе последующего уточнения табличной модели, усложнения структуры статистической модели дополнением новыми составляющими и др.
Фактические данные предполагаются достоверными и достаточно полными для описания того или иного изучаемого явления или процесса (проблема полноты данных до сих пор не решена в экологии и экономике, но она лучше обоснована в технике и технологии).
Относительно фактических статистических данных можно определить множество математических уравнений. Это происходит при существующей методологии аппроксимации. В итоге происходит простая параметрическая идентификация уравнения любой конструкции, чаще всего лишенной содержательного смысла как по элементам структуры, так и по параметрам модели. Причем, как бы изощренными ни казалось само математическое изложение, аппроксимация оперирует только линейными или линеаризуемыми моделями.
Предлагаемая методология идентификации предполагает, что конструкция моделей заранее определяется, причем исходя из эвристического содержания явления или процесса, самим исследователем. Наилучшими конструкциями становятся устойчивые законы.
Относительная погрешность между этими двумя указанными множествами значений показателя принимается за меру добротности (адекватности фактическим значениям) готовой статистической модели. Для расчета остатков применяется формула
εi= ŷi-yi,i=1,n
где ŷi выходной результат (факгические значения показателя), yi -выходной результат математической модели (теоретические значения статистического показателя), і - номер наблюдения (произвольный или ранжированный), п - общее число наблюдений.
Каждое измерение в природоустроительных, природохозяйственных, инженерно-экологических, социально-экономических и других исследованиях, связанных с природными и социальными объектами исследования, имеет содержательный смысл, поэтому нельзя исключать из статистической выборки любое фактическое значение показателя (еще раз напомним, что принимается допущение о достоверности с той или иной вероятностью исходных статистических данных, представленных для статистического моделирования в виде табличной модели).
Абсолютная погрешность получается вычитанием расчетных значений у из фактических значений показателя ŷ. Она называется также (для удобства) остатком, поэтому остаток є вычисляется по формуле
ε = ŷ -у.
Относительная погрешность D готовой статистической модели вычисляется по соотношению
Д = 100*ε/ ŷ.
Максимальная относительная погрешность ∆max будет показывать достоверность статистической модели, описывающей количественные исходные данные по одному фактору из табличной модели. Для этого значение ∆max в таблицах результатов моделирования будет подчеркиваться, а доверительная вероятность найденной статистической формулы, построенной на основе устойчивых законов и их фрагментов, будет определяться по выражению
D = 100-| ∆max |.
Коэффициент корреляции - это показатель, оценивающий тесноту ли-
нейной связи между признаками. Он может принимать значения от -1 до +1.
Знак "-" означает, что связь обратная, "+" - прямая. Чем ближе коэффициент к |1|, тем теснее линейная связь. При величине коэффициента корреляции (по
Дворецкому) менее 0,3 связь оценивается как слабая, от 0,31 до 0,5 - умеренная, от 0,51 до 0,7 - значительная, от 0,71 до 0,9 - тесная, 0,91 и выше - очень тесная. Для практических целей Дворецкий рекомендует использовать значительные, тесные и очень тесные связи.