- •В.В. Нешитой
- •Введение
- •1. Основные понятия теории вероятностей и математической статистики
- •1.1. Случайные события. Испытания. Относительная частота и вероятность
- •1.2. Виды случайных событий
- •1.3. Определения вероятности
- •1.4. Основные формулы комбинаторики
- •1.5. Теорема сложения вероятностей (несовместных событий)
- •1.6. Теорема умножения вероятностей (независимых событий)
- •1.7. Закон распределения дискретной случайной величины
- •1.8. Числовые характеристики дискретной случайной величины
- •1.8.1. Математическое ожидание
- •1.8.2. Свойства математического ожидания
- •1.8.3. Дисперсия дискретной случайной величины
- •1.8.4. Свойства дисперсии
- •1.8.5. Среднее квадратическое отклонение
- •1.8.6. Одинаково распределенные взаимно независимые случайные величины
- •1.8.7. Моменты (начальные, центральные) дискретной случайной величины
- •1.10.2. Плотность распределения
- •1.11. Числовые характеристики непрерывных случайных величин
- •1.12. Примеры непрерывных распределений
- •1.12.1. Нормальный закон
- •1.12.2. Показательный закон
- •1.12.3. Закон Вейбулла
- •1.13. Элементы математической статистики
- •1.13.1. Генеральная и выборочная совокупности. Вариационный ряд. Характеристики вариационного ряда
- •1.13.2. Статистическое распределение выборки. Полигон. Гистограмма. Эмпирическая функция распределения
- •1.13.3. Статистические оценки параметров. Точность оценки, доверительная вероятность (надежность)
- •1.13.4. Метод моментов для точечной оценки параметров распределения
- •1.13.5. Метод наибольшего правдоподобия
- •2. Вероятностная модель текста и ее исследование
- •2.1. Понятие математического ожидания случайной функции, нового события и кривой роста новых событий
- •2.2. Математическое ожидание случайной функции и кривая роста новых событий. Связь с законами распределения вероятностей разных и новых событий
- •2.3. Установление статистической структуры выборки по кривой роста новых событий
- •2.4. Восстановление кривой роста новых событий по статистической структуре выборки
- •2.5. Построение систем кривых роста и непрерывных распределений новых событий
- •Построение систем кривых роста и непрерывных распределений новых событий
- •3. Обобщенные распределения. Системы непрерывных распределений
- •3.1. Методы построения обобщенных распределений
- •3.2. Построение системы непрерывных распределений методом обобщения
- •3.3. Классификация обобщенных распределений
- •Распределения группы а
- •Распределения группы б
- •Группа симметричных распределений
- •3.4. Распределения функций случайного аргумента
- •3.5. Три основные и три дополнительные системы непрерывных распределений в.Нешитого
- •3.6. Обобщение систем непрерывных распределений
- •3.6.1. Обобщение систем непрерывных распределений по первому варианту
- •Обобщение систем непрерывных распределений по первому варианту на базе четырехпараметрической плотности p(t)
- •3.6.2. Обобщение систем непрерывных распределений по второму варианту
- •Обобщение систем непрерывных распределений по второму варианту на базе четырехпараметрической плотности p(t)
- •4. Оценивание параметров обобщенных распределений. Критерии для классификации кривых. Центральная предельная теорема
- •4.1. Метод наименьших квадратов
- •Значение функции распределения f(tc)
- •4.2. Метод наибольшего правдоподобия
- •4.3. Классический метод моментов
- •4.3.3. Симметричные распределения Ic–iiIc типов
- •4.3.4. Критерии для классификации распределений по методу моментов
- •4.4. Универсальный метод моментов
- •4.4.1. Расширение трех систем непрерывных распределений
- •4.4.2. Законы распределения суммы независимых случайных величин
- •4.4.3. Центральная предельная теорема для трех систем непрерывных распределений
- •4.4.4. Законы распределения среднего выборочного
- •4.5. Устойчивый метод
- •5. Выравнивание и прогнозирование статистических распределений
- •5.1. Выбор системы непрерывных распределений для выравнивания статистических распределений
- •5.2. Вычисление выравнивающей кривой распределения по статистическим данным
- •5.2.1. Выравнивание по классическому методу моментов
- •5.2.2. Выравнивание по универсальному методу моментов
- •5.2.3. Выравнивание по устойчивому методу
- •Показатели статистического распределения (snr2v08a)
- •Распределение 3-го типа с параметрами
- •5.2.5. Выравнивающее распределение среднего выборочного
- •5.3. Прогнозирование распределений
- •5.3.1. Первая система непрерывных распределений
- •5.3.2. Вторая система непрерывных распределений
- •Распределение населения страны по среднедушевому совокупному доходу, в % к итогу (Расчет по данным обследования 90 тыс. Семейных бюджетов)
- •5.3.3. Показатели стабильности и качества выборки
- •5.4. Ранговые распределения
- •5.4.1. Форма представления ранговых распределений
- •5.4.2 Универсальный закон рассеяния публикаций
- •5.5.3. Универсальный закон старения публикаций
- •5.4.4. Ранговые распределения лексических единиц
- •6. Временные (динамические) ряды
- •6.1. Методы выделения тренда
- •6.2. Построение кривых роста для выравнивания временных рядов
- •6.2.1. Построение кривых роста с заданными свойствами
- •6.2.2. Метод обобщения
- •6.2.3. Кривые роста на базе обобщенных распределений
- •6.3. Оценивание параметров кривых роста
- •6.3.1. Уравнение прямой
- •6.3.2. Экспонента
- •6.3.3. Обобщенная кривая роста
- •6.4. Прогнозирование временных рядов
- •6.4.1. Параметрический метод прогнозирования
- •6.4.2. Непараметрический метод прогнозирования
- •Заключение
- •Приложения Приложение 1
- •Приложение 2
- •Приложение 5 Основные сведения о программах
- •Литература
- •Содержание
- •Математико-статистические
- •Методы анализа
- •В библиотечно-информационной
- •Деятельности
5.5.3. Универсальный закон старения публикаций
Закон старения публикаций заключается в том, что число ссылок на публикации в зависимости от их года издания вначале резко растет, затем убывает с увеличением срока давности издания. Максимальное число ссылок приходится на публикации одно-двухлетней давности.
Для описания этого закона предлагалось множество математических моделей, но задача так и не была решена (по той же причине, что и в случае закона рассеяния публикаций, т.е. из-за отсутствия подходящего универсального распределения).
Исследования автора показали, что распределение числа ссылок на публикации в зависимости от года их издания хорошо описывается первой системой непрерывных распределений, в частности, обобщенной плотностью p(x) [16], где x – год издания. Если за начало отсчета принять текущий год (x = 0), то для предыдущего года будем иметь x = -1 и т.д. Обобщенная плотность распределения p(x) обладает тем свойством, что значения случайной величины X могут быть как положительными, так и отрицательными.
Таким образом, наиболее общим законом старения публикаций является первая система непрерывных распределений, заданная тремя обобщенными плотностями (4.4.17). Обобщенные плотности позволяют наиболее точно описывать статистические распределения, вычислять накопленную долю ссылок на публикации по любому заданному интервалу времени их издания, вычислять координаты трех характерных точек, как и в случае закона рассеяния, а также вычислять другие показатели, интересующие исследователя.
Абсциссы трех характерных точек для плотности p(x) задаются формулами (в случае распределений I–V типов)
(5.4.18)
(5.4.19)
где величина n рассчитывается по прежней формуле (5.4.8).
5.4.4. Ранговые распределения лексических единиц
В случае однородной совокупности лексических единиц (слов, словосочетаний, терминов, дескрипторов) их ранговые распределения хорошо описываются третьей системой непрерывных распределений [16], которая задана тремя обобщенными плотностями (4.4.19). Для вычисления типа выравнивающей кривой и оценок ее параметров статистическое распределение необходимо привести к форме плотности p(t) либо p(x) и воспользоваться соответствующей компьютерной программой.
Характерные точки кривых распределения могут быть использованы как естественные границы различных зон лексических единиц (служебных слов, общеупотребительной лексики, отраслевой, межотраслевой).
В итоге можно сделать вывод, что обобщенные распределения являются универсальными законами распределения не только теории вероятностей и математической статистики, но и информатики, математической лингвистики, экономики и других областей знания. При использовании обобщенных распределений исчезают ранее существовавшие барьеры на пути к новому знанию. Например, для нахождения наилучшей аппроксимирующей кривой не требуется выдвигать гипотезы о виде закона распределения. Система непрерывных распределений выбирается в зависимости от свойств случайной величины, а тип распределения и оценки параметров вычисляются по статистическому распределению. При этом вычисленная кривая распределения является наилучшей (разумеется, для принятого метода оценивания параметров). В случае однородности статистической совокупности оба метода – универсальный метод моментов и устойчивый метод – дают очень близкие значения оценок параметров аппроксимирующего распределения. Наиболее точные оценки параметров получаются в случае симметричного или близкого к нему статистического распределения, приведенного к форме плотности p(x).
Универсальные законы старения и рассеяния публикаций, а также ранговые распределения лексических единиц, заданные соответственно плотностями p(x), p(t), p(y), являются фундаментальными закономерностями информатики, математической лингвистики и библиотековедения.