Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебники 60227.doc
Скачиваний:
14
Добавлен:
01.05.2022
Размер:
3.16 Mб
Скачать

2.8. Статистические методы оценки закона распределения ущерба от реализации угрозы безопасности информации

Ущерб от реализации угрозы безопасности информации определяется содержанием деструктивного действия, выполняемого в ходе реализации угрозы относительно защищаемой информации. Ущерб так же имеет количественную оценку, значение, которое в данном случае является случайной величиной [2, 61, 63].

Единичные значения ущерба не представляют особого интереса для процесса оценки и управления рисками безопасности СТИС, так как не определяют закономерностей функционирования или параметров. Однако за период существования любой СТИС неизбежно происходят реализации, или попытки реализаций угроз безопасности информации, что неизбежно приводит к нанесению ущербов различного уровня в количественном значении. В течение всего жизненного цикла СТИС формируется и видоизменяется статистика ущерба. Статистика любого количественного значения определённым образом отображает процессы, происходящие в исследуемой системе. В контексте данной тематики статистика значений ущерба от реализаций угроз безопасности информации, отображает процесс возникновения ущерба различной тяжести [71, 73, 77].

Вероятность возникновения ущерба, исходя из понятийного аппарата (п.1.1), описывается с помощью закона распределения. Следовательно, для оценки рисков безопасности СТИС, необходимо определить вероятность возникновения ущерба определенного уровня. Причем, оценка рисков производится для конкретной системы, следовательно, должна основываться на статистике значений ущербов, которая отражает реальные процессы и их параметры [1, 63, 71].

Задача анализа и оценки рисков сводится к следующим этапам:

  • определение закона распределения значений ущерба;

  • определение неизвестных параметров закона распределения;

  • расчет и оценка основных характеристик.

Данные задачи эффективно решаются с помощью математической статистики, путём проверки статистических гипотез о соответствии распределения экспериментальных данных определённому закону распределения [1, 10, 39].

Математической статистикой называется наука, занимающаяся методами обработки опытных данных, полученных в результате наблюдений над случайными явлениями. Любой такой результат можно представить как совокупность значений, принятых в результате опытов случайной одномерной или многомерной величиной.

В контексте тематики данной работы опытными или экспериментальными данными является множество значений ущербов, нанесённых СТИС в результате реализаций угроз [1, 39, 74, 83].

Генеральной совокупностью опыта называется множество объектов, из которых производится выборка. Каждый из объектов задает фиксированное значение случайной величины Количество N входящих в генеральную совокупность объектов называют объемом генеральной совокупности. Она может состоять из бесчисленного множества объектов [1, 9].

Выборка - множество случайно отобранных объектов (значений) из генеральной совокупности. Объемом выборки называется число входящих в нее объектов. К выборке предъявляется требование, чтобы она адекватно представляла генеральную совокупность, т.е. была репрезентативной (представительной). В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно, т.е. каждый из объектов генеральной совокупности имеет одинаковую вероятность попасть в выборку. Очевидно, что можно осуществить в одинаковых условиях выборок объема и получить различные совокупности значений случайной величины [1,9,39].

Для процесса оценки и анализа рисков безопасности СТИС весьма важна проблема формирования выборки, так как в различных системах разброс значений ущербов и объём генеральной совокупности может быть разбросан на достаточно большом интервале значений. Например, для исследуемого жизненного цикла одной СТИС может наблюдаться несколько случаев реализации угроз с нанесением относительно большого ущерба, а для жизненного цикла другой СТИС может быть огромное количество реализаций угроз, с нанесением мизерного ущерба. Для эффективной оценки рисков обеих систем необходимо найти баланс формирования выборки экспериментальных данных, на основе которой и будет производиться дальнейшая оценка[1,10,39,43].

Пусть для генеральной совокупности опыта случайная величина имеет функцию распределения , тогда каждую из выборок можно рассматривать, как реализацию - мерной случайной величины , где составляющая есть значение величины в - м опыте. Очевидно, что все составляющие будут иметь одинаковый закон распределения . Так как компоненты независимы, то функция распределения - мерной случайной величины определяется формулой (2.89) [1,16].

. (2.89)

Вариационным рядом называется выборка , полученная в результате расположения значений исходной выборки в порядке возрастания. Значения называются вариантами.

Одной из первых задач, подлежащей решению в процессе оценки рисков безопасности СТИС определение закона распределения ущерба в результате реализации угрозы, случайной величины – значение ущерба.

Эмпирическая функция распределения случайной величины равна частоте того, что примет значение меньшее, чем аргумент функции , и определяется формулой (2.90) [39,43,74,83].

. (2.90)

При эмпирическая функция распределения сходится по вероятности к теоретической функции распределения . Основные свойства функции .

1. .

2. неубывающая ступенчатая функция.

3. , для .

4. , для .

Эмпирическая функция распределения является наилучшей оценкой закона распределения (несмещенной, состоятельной, эффективной). Недостаток функции заключается в ее невысокой наглядности. Визуально сложно определить закон распределения случайной величины [1,10,43].

Статистический ряд распределения вероятностей определяется по исходной выборке объемом , если анализируемая случайная величина является дискретной с известным множеством значений , то данные необходимые для анализа целесообразно представить в следующем виде (табл. 2.8) [9,10,16].

Таблица 2.8

Данные для анализа дискретной случайной величины

Здесь - частота появления - го значения, - число значений в выборке.

Свойства статистического ряда распределения вероятностей:

1.

2.

Интервальный статистический ряд вероятностей строится по исходной выборке, если анализируемая случайная величина является непрерывной, и данные необходимые для анализа непрерывной СВ целесообразно представить в следующем виде (табл. 2.9) [9,10,16].

Таблица 2.9

Данные для анализа непрерывной случайной величины

Здесь – номер интервала; - число непересекающихся и примыкающих друг к другу интервалов, на которые разбивается диапазон значений (2.10).

. (2.91)

округляется до целого значения, и желательно, что бы без остатка делилось на M.

- левая и правая границы - го интервала , причём ,

- длина - го интервала,

- количество чисел в выборке, попадающих в - й интервал,

- частота попадания в - й интервал,

- статистическая плотность вероятности в - м интервале[1,9.10,16].

При построении интервального статистического ряда вероятностей используют следующие методы разбиения диапазона значений на интервалы[1,10,71,74].

1. Равноинтервальный, т.е. все интервалы одинаковой длины

, (2.92)

. (2.93)

2. Равновероятностный, т.е. границы интервалов выбирают так, чтобы в каждом интервале было одинаковое число выборочных значений (необходимо, чтобы без остатка делилось на )

, (2.94)

. (2.95)

Гистограмма - статистический аналог графика плотности вероятности случайной величины, и она строится по интервальному статистическому ряду. Гистограмма представляет собой совокупность прямоугольников, построенных, как на основаниях, на интервалах статистического ряда с высотой равной статистической плотности вероятности в соответствующем интервале (рис. 2.12) [1,9,10].

Рис. 2.12. Гистограмма плотности вероятности случайной величины

В процессе выявления закона распределения ущерба от реализации угроз безопасности информации для СТИС, уже на начальном этапе происходит коллизия. Это происходит из-за невозможности и отсутствия чётких критериев определения по выборке вида распределения, а именно является ли случайная величина непрерывной или дискретной. Для решения данной проблемы существуют несколько подходов[74,83].

1. Исходя из специфики исследуемой СТИС определить является ли распределение ущерба дискретным или непрерывным.

2. Осуществлять формирование выборки с учётом дальнейшей возможности проверки гипотез, как о непрерывном, так и о дискретном законе распределения ущерба.

Идентифицировав сам закон распределения ущерба от реализации угроз безопасности СТИС, можно произвести оценку происходящего в системе процесса. Однако это будет качественная оценка, которая позволит оценить и проанализировать характер происходящего процесса и его обобщённые черты, но ни как не позволит произвести количественную оценку. Для возможности проведения количественной оценки ущерба от реализации угроз, т.е. возможность оценки вероятности возникновения ущерба от его тяжести необходимо оценить параметры закона распределения[10,39,43].

Статистической оценкой параметра распределения называется приближенное значение параметра, вычисленное по результатам эксперимента (по выборке). Статистические оценки делятся на точечные и интервальные.

Точечной называется оценка, определяемая одним числом. Точечная оценка параметра случайной величины в общем случае равна:

, (2.96)

где - значения выборки.

Очевидно, что оценка - это случайная величина, так как она является функцией от -мерной случайной величины , где - значение величины в - м опыте, и значения будут изменяться от выборки к выборке случайным образом[1,9,10,16]. К оценкам предъявляется ряд требований:

1. Оценка называется состоятельной, если при увеличении объема выборки она сходится по вероятности к значению параметра :

. (2.97)

Состоятельность - это минимальное требование к оценкам.

2. Оценка называется несмещенной, если ее математическое ожидание точно равно параметру для любого объема выборки:

. (2.98)

Несмещенная оценка является состоятельной, если

. (2.99)

3. Несмещенная оценка является эффективной, если ее дисперсия минимальна по отношению к дисперсии любой другой оценки этого параметра:

. (2.100)

Оценка математического ожидания. На основании теоремы Чебышева в качестве состоятельной оценки математического ожидания может быть использовано среднее арифметическое значений выборки , называемое выборочным средним:

. (2.101)

Определим числовые характеристики оценки :

, (2.102)

.(2.103)

Оценка (2.98) является эффективной, т.е. ее дисперсия минимальна, если величина распределена по нормальному закону[1,9,10,16].

Состоятельная оценка начального момента - го порядка определяется по формуле:

. (2.104)

В качестве состоятельной оценки дисперсии может быть использовано среднее арифметическое квадратов отклонений значений выборки от выборочного среднего:

. (2.105)

Определим математическое ожидание оценки . Так как дисперсия не зависит от того, где выбрать начало координат, выберем его в точке , т.е. перейдем к центрированным величинам:

. (2.106)

Ковариация , так как опыты, а следовательно, и - значение величины в - м опыте - независимы. Таким образом, величина является смещенной оценкой дисперсии, а несмещенная состоятельная оценка дисперсии равна:

. (2.107)

Дисперсия величины равна:

. (2.108)

Для нормального закона распределения величины формула (2.97) примет вид:

, (2.109)

для равномерного закона распределения –

. (2.110)

Состоятельная несмещенная оценка среднеквадратического отклонения определяется по формуле:

. (2.111)

Состоятельная оценка центрального момента -го порядка равна:

. (2.112)

На основании теоремы Бернулли несмещенная состоятельная и эффективная оценка вероятности случайного события в схеме независимых опытов равна частоте этого события[1,9,10,16]:

, (2.113)

где - число опытов, в которых произошло событие , а - число проведенных опытов.

Числовые характеристики оценки вероятности равны:

, (2.114)

. (2.115)

Оценив стандартные характеристики закона распределения ущерба, такие как центральные и начальные моменты, коэффициенты асимметрии и эксцесса, мы можем исследовать качественное поведение данного закона, а следовательно и СВ, значение ущерба от реализации угроз безопасности СТИС. Такая качественная оценка весьма полезна при использовании аппарата нечетких множеств.

Для вычисления оценок параметров распределения чаще всего применяются методы моментов и максимального правдоподобия[1,9,71,74,83].

Пусть имеется выборка независимых значений случайной величины с известным законом распределения и неизвестными параметрами . Необходимо вычислить оценки параметров . Последовательность вычислений состоит из следующих этапов:

1. Вычислить значения начальных и центральных теоретических моментов по формулам:

, (2.116)

. (2.117)

2. Определить соответствующих выборочных начальных и центральных моментов по формулам:

, (2.118)

. (2.119)

3. Составить и решить относительно неизвестных параметров систему из уравнений, в которых теоретические моменты приравниваются к выборочным моментам. Каждое уравнение имеет вид или . Найденные корни являются оценками неизвестных параметров. Часть уравнений может содержать начальные моменты, а оставшаяся часть - центральные[1,9,10,74,83].

Согласно методу максимального правдоподобия оценки получаются из условия максимума по параметрам положительной функции правдоподобия .

Если случайная величина непрерывна, а значения независимы, то функция правдоподобия равна:

. (2.120)

Если случайная величина дискретна и принимает независимые значения с вероятностями , то функция правдоподобия равна:

. (2.121)

Система уравнений согласно этому методу может записываться в двух видах.

1. , . (2.122)

2. , . (2.123)

Найденные корни выбранной системы уравнений являются оценками неизвестных параметров [1,10,16,83].

Выбор метода вычисления параметров закона распределения ущерба от реализации угроз информационной безопасности СТИС обуславливается несколькими факторами:

  • специфические особенности законов распределения;

  • простота и возможность нахождения дифференциалов функции распределения;

  • простота и возможность нахождения центральных и начальных моментов.

Оценки числовых характеристик законов распределения проводятся на основе статистики экспериментальных данных. Различные выборки экспериментальных данных, на основе которых происходит процесс оценки и анализа рисков, могут давать различные результаты. Для отбора корректных оценок необходим эффективный механизм, который нам и предоставляет математическая статистика в виде интервальных оценок[71,74,83].

Пусть для параметра получена из опыта несмещенная оценка . Оценим возможную ошибку, возникающую при замене параметра его оценкой . Возьмем достаточно большую вероятность , такую, что событие с вероятностью можно считать практически достоверным, и найдем такое значение , для которого:

. (2.124)

Тогда диапазон практически возможных значений ошибки, возникающей при замене на , будет ; большие по абсолютной величине ошибки будут появляться только с малой вероятностью . Равенство означает, что с вероятностью неизвестное значение параметра попадает в интервал:

. (2.125)

Доверительным называется интервал , в который с заданной вероятностью (надежностью) попадают значения параметра . Вероятность выбирается близкой к 1: 0,9; 0,95; 0,975; 0,99.

Очевидно, что для построения доверительного интервала должен быть известен закон распределения величины . Затруднение состоит в том, что закон распределения оценки зависит от закона распределения величины и, следовательно, от его неизвестных параметров (в частности и от самого параметра ). Для решения этой проблемы воспользуемся тем, что величина представляет собой, как правило, сумму независимых одинаково распределенных случайных величин и, согласно центральной предельной теореме, при достаточно большом ( > 20…50) ее закон распределения можно считать нормальным[9,10,43,74].

Интервал для математического ожидания случайной величины с неизвестным законом распределения имеет вид:

, (2.126)

где - значение аргумента функции Лапласа, т.е. .

Если случайная величина распределена по нормальному закону с параметрами и , то величина определяемая формулой (2.127) распределена по закону Стьюдента с степенью свободы.

. (2.127)

Распределение Стьюдента с степенями свободы имеет следующую плотность распределения:

, (2.128)

где - гамма функция.

Доверительный интервал с надежностью для математического ожидания имеет вид:

, (2.129)

где - значение, взятое из таблицы распределения Стьюдента (рис. 2.13) [9,10,16].

Рис. 2.13. Доверительный интервал для дисперсии

Интервал для дисперсии случайной величины с неизвестным законом распределения имеет вид:

, (2.130)

где - значение аргумента функции Лапласа, т.е. . Если случайная величина распределена по нормальному закону с параметрами и , то величина вычисляется по формуле (2.131) распределена по закону с степенью свободы.

. (2.131)

Доверительный интервал с надежностью для дисперсии имеет вид:

, (2.132)

где - значения, взятые из таблицы .

Формулы (2.125) и (2.129) можно использовать при любом объеме выборки , так как эти интервалы построены на основе знания точных законов распределения величин, связывающих и . Кроме этого, если случайная величина распределена по нормальному закону и ее дисперсия известна, то точный интервал для математического ожидания при любом объеме выборки определяют по формуле (2.125), заменив в ней оценку средне квадратичного отклонения его точным значением [1,9,10,16].

Доверительный интервал для вероятности. Интервал для вероятности события в схеме независимых опытов Бернулли имеет вид:

, (2.133)

где - частота появления события в опытах,

– число опытов, в которых произошло событие ,

– число проведенных опытов,

- значение аргумента функции Лапласа, т.е. .

Осуществляя оценку и анализ рисков безопасности СТИС на начальных этапах, производится вычисление параметров для различных законов распределения ущерба. В результате получаем множество эмпирических законов распределения. Возникает задача проверки и нахождения максимально правдоподобной функции распределения ущерба. Для этого можно прибегнуть к механизму проверки статистических гипотез[43,71,74,83].

Статистической гипотезой называется всякое непротиворечивое множество утверждений относительно свойств распределения случайной величины. Любое из утверждений называется альтернативой гипотезы. Простейшей гипотезой является двухальтернативная: . В этом случае альтернативу называют нулевой гипотезой, а - конкурирующей гипотезой[43,83].

Критерием называется случайная величина , где - значения выборки, которая позволяет принять или отклонить нулевую гипотезу . Значения критерия, при которых гипотеза отвергается, образуют критическую область проверяемой гипотезы, а значения критерия, при которых гипотезу принимают, область принятия гипотезы (область допустимых значений). Критические точки отделяют критическую область от области принятия гипотезы[1].

Ошибка первого рода состоит в том, что будет отклонена гипотеза , если она верна ("пропуск цели"). Вероятность совершить ошибку первого рода обозначается а и называется уровнем значимости. Наиболее часто на практике принимают, что или .

Ошибка второго рода заключается в том, что гипотеза принимается, если она неверна ("ложное срабатывание"). Вероятность ошибки этого рода обозначается . Вероятность не допустить ошибку второго рода называют мощностью критерия. Для нахождения мощности критерия необходимо знать плотность вероятности критерия при альтернативной гипотезе. Простые критерии с заданным уровнем значимости контролируют лишь ошибки первого рода и не учитывают мощность критерия [10,16].

Проверка гипотезы о равенстве вероятностей. Пусть произведено две серии опытов, состоящих соответственно из и опытов. В каждом из них регистрировалось появление одного и того же события . В первой серии событие появилось в опытах, во второй - в опытах, причем частота события в первой серии получилась больше, чем во второй:

. (2.134)

Разность между двумя частотами получилась равной:

. (2.135)

Значимо или не значимо это расхождение? Указывает ли оно на то, что в первой серии опытов событие действительно вероятнее, чем во второй, или расхождение между частотами надо считать случайным? Выдвинем двухальтернативную гипотезу , где - различия в вероятностях не существует, т.е. обе серии опытов произведены в одинаковых условиях, а расхождение объясняется случайными причинами, - различие в вероятностях существует, т.е. обе серии опытов произведены не в одинаковых условиях[1,9,10,16].

В данном случае нуль-гипотеза состоит в том, что обе серии опытов однородны и что вероятность появления события в них одна и та же, приближенно равная частоте, которая получится, если обе серии смешать в одну:

. (2.136)

При достаточно больших и каждая из случайных величин и распределена практически нормально, с одним и тем же математическим ожиданием . Что касается дисперсий и в первой и во второй сериях, то они различны и соответственно равны:

, (2.137)

, (2.138)

, (2.139)

. (2.140)

В качестве критерия будем использовать случайную величину (2.136), которая также имеет приближенно нормальное распределение с математическим ожиданием и дисперсией

, (2.141)

откуда

. (2.142)

Определим критическую точку для заданного уровня значимости из уравнения:

, (2.143)

. (2.144)

Если значение, вычисленное по формуле (2.139), больше, чем критическое значение, т.е. , то гипотеза отклоняется, в противном случае нет оснований ее отклонить[1,9,10,16,74].

На одном из последних этапов оценки рисков безопасности СТИС используются критерии согласия. Критериями согласия называются критерии, используемые для проверки гипотез о предполагаемом законе распределения[1,16].

Критерий согласия Пирсона - это один из наиболее часто применяемых критериев. Алгоритм проверки состоит из следующих этапов.

1.Построить интервальный статистический ряд и гистограмму.

2.По виду гистограммы выдвинуть гипотезу - величина распределена по такому-то закону , и гипотезу - величина не распределена по такому-то закону , где - плотность и функция гипотетического закона распределения.

3. Используя метод моментов или максимального правдоподобия, определить оценки неизвестных параметров гипотетического закона распределения.

4. Вычислить значение критерия по формуле

, (2.145)

где теоретическая вероятность попадания случайной величины в - й интервал при условии, что гипотеза верна (2.144).

. (2.146)

При расчете и в качестве крайних границ первого и последнего интервалов , следует использовать теоретические границы гипотетического закона распределения. Например, для нормального закона , . После вычисления всех вероятностей проверить, выполняется ли контрольное соотношение:

. (2.147)

Величина распределена по закону, который называется распределением . Данное распределение не зависит от закон распределения величины , а зависит от параметра , который называется числом степеней свободы:

, (2.148)

где - гамма-функция.

Так как аналитическое выражение плотности распределения является довольно сложным, то в практике используют таблицу значений рассчитанных из уравнения , для различных значений .

Рис. 2.14. Критерий для заданного уровня значимости

1.Из таблицы распределения выбирается значение , где - заданный уровень значимости ( или ), а - число степеней свободы, которое определяется по следующей формуле (рис. 2.14):

. (2.149)

Здесь - число неизвестных параметров гипотетического закона распределения.

2. Если значение, больше, чем критическое значение, т.е. , то гипотеза отклоняется, в противном случае нет оснований ее отклонить[1,16,39,43].

Критерий согласия Колмогорова имеет алгоритм проверки, состоящий из следующих этапов.

1.Построить вариационный ряд и график эмпирической функции распределения .

2. По виду графика выдвинуть гипотезы , , где - функция гипотетического закона распределения.

3. Используя метод моментов или максимального правдоподобия определить оценки неизвестных параметров гипотетического закона распределения.

4. Рассчитать 10...20 значений функции и построить ее график в одной системе координат с функцией .

5. По графику определить максимальное по модулю отклонение между функциями и :

. (2.150)

6. Вычислить значение критерия Колмогорова

. (2.151)

Величина распределена по закону Колмогорова, который не зависит от закона распределения величины .

. (2.152)

Так как аналитическое выражение функции распределения является довольно сложным, то в практике используют таблицу значений , рассчитанных из уравнения (рис. 2.15).

7. Из таблицы распределения Колмогорова выбрать критическое значение , , - заданный уровень значимости ( или ).

8. Если то нулевая гипотеза отклоняется, в противном случае нет оснований ее отклонить[1,16,39,43].

Рис. 2.15. Критерий Колмогорова для заданного уровня значимости

Достоинствами критерия Колмогорова по сравнению с критерием : являются возможность его применения при очень маленьких объемах выборки ( ), более высокая "чувствительность", а следовательно, меньшая трудоемкость вычислений. Недостатком является то, что эмпирическая функция распределения должна быть построена по несгруппированным выборочным данным, что затруднительно при больших объемах выборки. Кроме этого, следует отметить, что критерий Колмогорова можно применять только в случае, когда гипотетическое распределение полностью известно заранее из каких-либо теоретических соображений, т.е. когда известен не только вид функции распределения , но и все входящие в нее параметры . Такой случай сравнительно редко встречается на практике. Обычно из теоретических соображений известен только общий вид функции , а входящие в нее числовые параметры определяются по данному статистическому материалу. При применении критерия это обстоятельство учитывается соответствующим уменьшением числа степеней свободы распределения . Критерий. Колмогорова такого согласования не предусматривает. Если все же применять этот критерий в тех случаях, когда параметры теоретического распределения определяются по статистическим данным, критерий дает заведомо заниженные значения ; поэтому мы в ряде случаев рискуем принять как правдоподобную гипотезу, которая в действительности плохо согласуется с опытными данными[39,43,73,74].

Из выше изложенной информации следует, что существуют эффективные и работоспособные, математически обоснованные методы оценки рисков безопасности СТИС. Процесс оценки риска использует в своей основе методы математической статистики, таких как, формирование выборки экспериментальных данных, методы оценки неизвестных параметров законов распределения ущерба, проверка статистических гипотез и использование критериев согласия с заданным уровнем значимости, которые просто и эффективно реализуются в программные алгоритмы рискоанализа для СТИС.

На сегодняшний день рассматриваются методы выявления и оценки параметров закона распределения ущерба от реализации угрозы безопасности информации в различных социотехнических системах. Однако проблемы оценки и управления рисками безопасности информации, наиболее важны и актуальны в системах сотовой связи, платёжных системах с банковскими картами и компьютерных системах.

Не смотря на то, что все данные системы являются социотехническими системами, они имеют специфические особенности, которые необходимо учитывать при разработке и программной реализации алгоритмов рискоанализа [2,22].

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]