Добавил:
natribu.org Все что нашел в интернете скидываю сюда Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Точно Не проект 2 / Проект 2

.docx
Скачиваний:
0
Добавлен:
01.02.2024
Размер:
893.95 Кб
Скачать

Представление результатов обработки документа 1 “Искусственный интеллект” [1]

Таблица №1 Фрагмент таблицы терминов

Номер

logN

logF

Термин

Частота

Fc

Fcnorm, %

1

0,000

2,901

функция

797

797

1,778

2

0,301

2,895

правило

786

1583

3,532

3

0,477

2,894

список

784

2367

5,282

4

0,602

2,887

значение

772

3139

7,004

5

0,698

2,854

система

715

3854

8,600

6

0,778

2,783

вершина

607

4461

9,955

7

0,845

2,775

поиск

596

5057

11,285

8

0,903

2,748

рисунок

561

5618

12,537

9

0,954

2,709

знание

512

6130

13,679

..

….......

….......

….......

…..

…..

….......

1110

3,045

0,477

банк

3

44811

100

Рис 1. Закон Ципфа.

Рис 2. Закон Ципфа-Мандельброта. Линейная линия тренда.

Рис 3. Кумулятивная частота.

Рис 4. Нормализованная частота.

Рис 5. Облако тегов.

Представление результатов обработки документа 2 “Цифровая экономика: проблемы и перспективы” [2]

Таблица №2 Фрагмент таблицы терминов

Номер

logN

logF

Термин

Частота

Fc

Fcnorm, %

1

0,000

1,771

экономика

59

59

12,854

2

0,301

1,204

вектор

16

75

16,340

3

0,477

1,146

государство

14

89

19,390

4

0,602

1,114

программа

13

102

22,222

5

0,699

1,114

перспектива

13

115

25,054

6

0,778

1,079

развитие

12

127

27,669

7

0,845

1,079

управление

12

139

30,283

8

0,903

1,000

товар

10

149

32,462

9

0,954

1,000

федерация

10

159

34,641

..

….......

….......

….......

…..

…..

….......

103

2,013

0,301

вызов

2

459

100,000

Рис 6. Закон Ципфа.

Рис 7. Закон Ципфа-Мандельброта. Линейная линия тренда.

Рис 8. Кумулятивная частота.

Рис 9. Нормализованная частота.

Рис 10. Облако тегов.

Представление результатов обработки документа 3 “Терминология безопасности: кибербезопасность, информационная безопасность” [3]

Таблица №3 Фрагмент таблицы терминов

Номер

logN

logF

Термин

Частота

Fc

Fcnorm, %

1

0,000

1,519

безопасность

33

33

7,221

2

0,301

1,505

термин

32

65

14,223

3

0,477

1,380

кибербезопасность

24

89

19,475

4

0,602

1,255

понятие

18

107

23,414

5

0,699

1,255

определение

18

125

27,352

6

0,778

1,204

информация

16

141

30,853

7

0,845

1,114

объект

13

154

33,698

8

0,903

1,079

кибератака

12

166

36,324

9

0,954

1,041

защищенность

11

177

38,731

..

….......

….......

….......

…..

…..

….......

101

2,004

0,301

сфера

2

457

100,000

Рис 11. Закон Ципфа.

Рис 12. Закон Ципфа-Мандельброта. Линейная линия тренда.

Рис 13. Кумулятивная частота.

Рис 14. Нормализованная частота.

Рис 15. Облако тегов.

Вывод из графиков документов

График 1. Закон Ципфа.

На этих графиках видно, как частота слов убывает с увеличением номера слова, что соответствует описанию закона Ципфа. Первые по списку слова имеют наивысшую частоту, и далее частота убывает экспоненциально, что типично для больших текстов.

Закон Ципфа утверждает, что частота появления слова в тексте обратно пропорциональна его позиции в рейтинге частотности слов. Это означает, что небольшое количество слов составляет большую часть текста, в то время как большинство слов встречаются редко.

График 2. Закон Ципфа-Мандельброта. Линейная линия тренда.

На этих графиках, представляющем Закон Ципфа-Мандельброта, мы можем видеть, что распределение частоты слов не является строго экспоненциальным, как это было бы в случае классического закона Ципфа. Вместо этого, оно ближе к степенной зависимости, где некоторые слова могут иметь частоту, отличную от четко экспоненциальной. И это отражает более реалистическую картину использования слов в текстах.

Линейная линия тренда на графиках используется для аппроксимации общей тенденции в данных. Например, она представляет собой линию, которая показывает общее убывание частоты слов с увеличением их позиции в рейтинге частотности. Эта линия помогает нам определить, насколько данные приближаются к степенной зависимости, характерной для Закона Ципфа-Мандельброта.

Исследование Закона Ципфа-Мандельброта и аппроксимация линейной линии тренда помогают лучше понять, как слова распределены в текстах, и могут быть полезными для анализа текстовых данных, выявления ключевых слов и исследования структуры языка.

График 3. Кумулятивная частота.

Закон Ципфа предполагает, что в тексте существует небольшое количество слов, которые встречаются очень часто, и большое количество слов, которые встречаются редко. Поэтому кумулятивная частота на графиках увеличивается быстро в начале, когда наиболее часто встречающиеся слова добавляются к накопленной частоте. Этот начальный быстрый рост кумулятивной частоты характеризует экспоненциальное убывание частоты слов.

Но другой стороны, когда в тексте больше уникальных слов с более низкой частотой, график кумулятивной частоты может стать менее крутым и ближе к линейному. Это происходит потому, что множество редких слов постепенно добавляется к накопленной частоте, и они не вносят такого большого вклада, как частые слова.

Таким образом, если график кумулятивной частоты стремится к экспоненциальному виду на начальных этапах и к линейному на более поздних этапах, это указывает на соблюдение закона Ципфа. Это явление отражает характер распределения частоты слов в тексте, где наиболее частые слова доминируют в начале, а менее частые слова добавляются по мере продвижения в тексте.

График 4. Нормализованная частота.

Графики нормализованной частоты представляет собой отношение частоты каждого слова к общему числу слов в тексте. В результате они позволяют учесть разные длины текстов и сравнивать их независимо от общего объема слов.

В основном наблюдение за этими графиками заключается в том, что график нормализованной частоты отражает, какие слова в тексте наиболее "важны" или "популярны" среди всех слов. Слова с наибольшей нормализованной частотой имеют большее влияние на структуру текста. Это помогает в выявлении ключевых слов или фраз, которые характеризуют содержание текста.

Источники:

  1. Бондарев В. Н., Аде Ф. Г. Искусственный интеллект //Севастополь: Изд-во СевНТУ. – 2002. – С. 615.

Ссылка на документ (researchgate.net)

  1. Павлова И. В., Моисеев В. О. Цифровая экономика: проблемы и перспективы //Вектор экономики. – 2019. – №. 11. – С. 63-63.

Ссылка на документ (vectoreconomy.ru)

  1. Алпеев А. С. Терминология безопасности: кибербезопасность, информационная безопасность //Вопросы кибербезопасности. – 2014. – №. 5 (8). – С. 39-42.

Ссылка на документ (cyberleninka.ru)

Соседние файлы в папке Точно Не проект 2