Добавил:

mihail1000 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Воронежский государственный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Учебное пособие 3000259.doc

Скачиваний:

Добавлен:

30.04.2022

Размер:

1.27 Mб

Скачать

☆

<<< < Предыдущая 28 29 30 31 32 33 34 35 36 37 38 3940 / 5540 41 42 43 44 45 46 47 48 49 50 51 52 > Следующая >>>

5.3.1. Файлы с плотным индексом, или индексно-прямые файлы

В этих файлах основная область содержит последовательность записей одинаковой длины, расположенных в произвольном порядке, а индексные записи состоят из двух полей: значение ключа, номер записи. Значение ключа – это значение первичного ключа, а номер записи – это порядковый номер записи в основной области, которая имеет данное значение первичного ключа.

Если индексные файлы строятся для первичных ключей, однозначно определяющих запись, то в них не может быть двух записей, имеющих одинаковые значения первичного ключа. В индексных файлах с плотным индексом для каждой записи в основной области существует одна запись из индексной области. Все записи в индексной области упорядочены по значению ключа, поэтому можно применить более эффективные способы поиска в упорядоченном пространстве.

Длина доступа к произвольной записи оценивается не в абсолютных значениях, а в количестве обращений к устройству внешней памяти, которым обычно является диск. Обращение к диску является наиболее длительной операцией по сравнению со всеми обработками в оперативной памяти.

Наиболее эффективным алгоритмом поиска на упорядоченном массиве является логарифмический или бинарный поиск. При этом все пространство поиска разбивается пополам, и так как оно строго упорядочено, то определяется сначала, не является ли элемент искомым, а если нет, то в какой половине его надо искать. На следующем шаге выбранную половину вновь делят пополам и проводят аналогичные сравнения пока не обнаружат искомый элемент. Максимальное количество шагов поиска определяется двоичным логарифмом от общего числа элементов в искомом пространстве поиска:

Т_n = log₂N,

где N – число элементов.

Однако в нашем случае является существенным только число обращений к диску при поиске записи по заданному значению первичного ключа. Поиск происходит в индексной области, где применяется двоичный алгоритм поиска индексной записи, а потом путем прямой адресации мы обращаемся к основной области уже по конкретному номеру записи. Для того, чтобы оценить максимальное время доступа, нам необходимо определить количество обращений к диску для поиска произвольной записи.

На диске записи файлов хранятся в блоках. Размер блока определяется физическими особенностями дискового контроллера и операционной системой. В одном блоке может размещаться несколько записей. Поэтому надо определить количество индексных блоков, которое потребуется для размещения всех индексных записей, а потому максимальное число обращений к диску будет равно двоичному логарифму от заданного числа блоков плюс единица. После поиска номера записи в индексной области необходимо еще обратиться к основной области файла (отсюда появляется 1). Формула вычисления количества обращений к диску следующая:

T_n = log₂N_бл_._инд_. + 1.

Рассмотрим пример, позволяющий сравнить количество обращений к диску при последовательном просмотре и при организации плотного индекса.

Пусть имеются следующие исходные данные:

длина записи файла (LF) – 128байт;

длина первичного ключа (LK) – 12 байт;

количество записей в файле (KZ) – 100 000;

размер блока (LB) – 1024 байта.

Рассчитаем размер индексной записи. Для представления целого числа в пределах 100 000 потребуется 3 байта. Если считать, что допустима только четная адресация, то надо отвести 4 байта для хранения номера записи, тогда длина индексной записи будет равна сумме размера ключа и ссылки на номер записи, то есть:

LI = LK + 4 = 12 + 4 = 16 байт.

Определим количество индексных блоков, которое потребуется для обеспечения ссылок на заданное количество записей. Для этого сначала определим, сколько индексных записей может храниться в одном блоке:

KIZB = LB/LI = 1024 / 16 =64 индексных записи в одном блоке.

Теперь определим необходимое количество индексных блоков:

KIB = KZ / KIZB = 100 000 / 64 = 1563 блока.

Результат округлен в большую сторону, потому что пространство выделяется целыми блоками, и последний блок будет заполнен не полностью.

Максимальное количество обращений к диску при поиске произвольной записи:

Т_поиска = log₂KIB + 1 = log₂1563 + 1 = 11 + 1 = 12 обращений к диску.

Логарифм в вычислениях также округлен.

Следовательно, для поиска произвольной записи по первичному ключу при организации плотного индекса потребуется не более 12 обращений к диску.

При отсутствии индексного пространства для поиска нужной записи необходимо просмотреть все блоки, в которых хранится файл, временем просмотра записей внутри блока пренебрегаем, так как этот процесс происходит в оперативной памяти.

Количество блоков, которое необходимо для хранения 100 000 записей, определяют по следующей формуле:

KBO = KZ / (LB / LZ) = 100 000 / (1024/128) = 12500 блоков.

Выигрыш при использовании файла с плотным индексом очевиден (12 или 12500 обращений к диску).

Рассмотрим, как осуществляются операции добавления и удаления новых записей.

При операции добавления осуществляется запись в конец основной области. В индексной области необходимо произвести занесение информации в конкретное место, чтобы не нарушать упорядоченности. Поэтому вся индексная область файла разбивается на блоки и при начальном заполнении в каждом блоке остается свободная область (область расширения) (рис 5.3).

После определения блока, в который должен быть занесен индекс, этот блок копируется в оперативную память, там он модифицируется путем вставки в нужное место новой записи и измененный записывается обратно на диск.

Определим максимальное количество обращений к диску, которое требуется при добавлении записи, - это количество обращений, необходимое для поиска записи плюс одно обращение для занесения измененного индексного блока и плюс одно обращение для занесения записи в основную область.

Т_{добавления} = log₂N + 1 + 1 + 1.

Ссылка на

Ключ номер записи

			01-30-01		5
	Блок 1		02-40-02		2
			05-40-00		4
			Свободная область				Индексная
			06-40-00		1		область
	Блок 2		06-50-01		6
			07-35-00		3
			Свободная область
1		06-40-00		Васильев
2		02-40-02		Лукина
3		07-35-00		Сидоров		Основная
4		05-40-00		Попова		область
5		01-30-01		Архипова
6		06-50-01		Павлов

Рис. 5.3. Пример организации файла с плотным индексом

В процессе добавления новых записей область расширения постоянно уменьшается. Когда исчезнет свободная область, возникает переполнение индексной области. В этом случае возможны два решения: либо перестроить заново индексную область, либо организовать область переполнения для индексной области, в которой будут храниться не поместившиеся в основную область записи. Однако первый способ потребует дополнительного времени на перестройку индексной области, а второй увеличит время на доступ к произвольной записи и потребует организации дополнительных ссылок в блоках на область переполнения. Поэтому при проектировании физической базы данных важно заранее как можно точнее определить объемы хранимой информации, спрогнозировать ее рост и предусмотреть соответствующее расширение области хранения.

При удалении записи возникает следующая последовательность действий: запись в основной области помечается как удаленная (отсутствующая), в индексной области соответствующий индекс уничтожается физически, то есть записи, следующие за удаленной записью, перемещаются на ее место и блок, в котором хранился данный индекс, заново записывается на диск. При этом количество обращений к диску для этой операции такое же, как и при добавлении новой записи.

<<< < Предыдущая 28 29 30 31 32 33 34 35 36 37 38 3940 / 5540 41 42 43 44 45 46 47 48 49 50 51 52 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
30.04.20221.24 Mб6Учебное пособие 3000254.doc
#
30.04.20221.25 Mб9Учебное пособие 3000255.doc
#
30.04.20221.25 Mб5Учебное пособие 3000256.doc
#
30.04.20221.26 Mб38Учебное пособие 3000257.doc
#
30.04.20221.26 Mб5Учебное пособие 3000258.doc
#
30.04.20221.27 Mб27Учебное пособие 3000259.doc
#
30.04.2022172.03 Кб5Учебное пособие 300026.doc
#
30.04.20221.29 Mб12Учебное пособие 3000260.doc
#
30.04.20221.3 Mб9Учебное пособие 3000261.doc
#
30.04.20221.31 Mб5Учебное пособие 3000262.doc
#
30.04.20221.31 Mб6Учебное пособие 3000263.doc