Алгоритмы сортировки.

Многофазная сортировка.

Этот тип сортировки относится к так называемым 'сортировкам слиянием'. Слиянием называется процесс объединения нескольких упорядоченных серий в одну.

Пример для 3-х серий, слияемых на 4-ю:

   3 7 9      3 7 9        3 7 9          7 9             7 9 
 { 2 4 6  1 { 2 4 6  1 2 { 4 6    1 2 3 { 4 6   1 2 3 4 { 6  
   1 5 8      5 8          5 8            5 8             5 8
   
              7 9                7 9                 9
  1 2 3 4 5 { 6    1 2 3 4 5 6 { 8     1 2 3 5 6 7 { 8   1 2 3 4 5 6 7 8 9 {
              8

     Таким образом, каждая операция слияния серий требует n пересылок элементов, где n - общее число элементов серий.

     Пусть у нас имеется N лент: N - 1 входная и одна пустая. Мы будем слиять элементы со входных лент на выходную, пока какая-либо из них не опустеет. Затем она станет входной.

     Пример сортировки с шестью лентами, содержащими всего 65 серий. Серии обозначены буквами f_i, в таблице - количество элементов.

Тип	f1	f2	f3	f4	f5	f6
	16 8 4 2 1 0	15 7 3 1 0 1	14 6 2 0 1 0	12 4 0 2 1 0	8 0 4 2 1 0	8 4 2 1 0

     В каждый момент времени слияние происходит на пустую ленту с остальных, поэтому число требующихся проходов приблизительно равно log_N n. В данном примере распределение начальных серий побрано искусственно. Для идеальной сортировки исходные числа серий должны быть суммами n - 1 , n - 2 , ... , 1 последовательных чисел Фибоначчи порядка n - 2.

     Число Фибоначчи порядка p определяются следующим образом:
f_i+1^(p) = f_i^(p) + f_i-1^(p) + ... + f_i-p^(p) для i >=p,
f_p^(p) = 1,
f_i^(p) = 0 для 0 <= i < p.
     Очевидно, обычные числа Фибоначчи имеют порядок 1.

     Поэтому предположим существование фиктивных серий, таких что сумма фиктивных с реальными дает идеальное число.

     Сначала все данные располагаются на одной ленте. Лента читается и отрезки распределяются по другим лентам, имеющимся в системе. после того, как созданы начальные отрезки, они сливаются, как описано выше. Один из методов, который можно использовать для создания начальных отрезков, состоит в чтении порции записей в память, их сортировке и записи результата на ленту. Выбор с замещением позволяет нам получать более длинные отрезки. Этот алгоритм работает с буфером, располагающимся в оперативной памяти. Сначала мы заполняем буфер. Затем повторяем следующие шаги до тех пор, пока не будут исчерпаны входные данные:

Выбрать запись с наименьшим ключом, т.е. с ключом, значение которого >= значения ключа последней прочитанной записи.
Если все "старые" ключи меньше последнего ключа, то мы достигли конца отрезка. Выбираем запись с наименьшим ключом в качестве первого элемента следующего отрезка.
Записываем выбранную запись.
Заменяем выбранную и записанную запись на новую из входного файла.

На следующей таблице выбор с замещением иллюстрируются для совсем маленького файла.

Начало файла - справа. Чтобы упростить пример, считается, что в буфер помещается всего лишь 2 записи. Конечно, в реальных задачах в буфер помещаются тысячи записей. Мы загружаем буфер на шаге В и записываем в выходной файл запись с наименьшим номером >= 6 на шаге D. Ею оказалась запись с ключом 7. Теперь мы заменяем ее на новую запись из входного файла - с ключом 4. Процесс продолжается до шага F, где мы оказывается, что последний записанный ключ равен 8 и все ключи меньше 8. В этот момент мы заканчиваем формирование текущего отрезка и начинаем формирование следующего.


Шаг	Вход	Буфер	Выход
A	5-3-4-8-6-7
B	5-3-4-8	6-7
C	5-3-4	8-7	6
D	5-3	8-4	7-6
E	5	3-4	8-7-6
F		5-4	3 \| 8-7-6
G		5	4-3 \| 8-7-6
H			5-4-3 \| 8-7-6

Обратите внимание мы храним записи в буфере до тех пор, пока не наступит время записать их в выходной файл. Если вход случаен, средняя длина отрезков равна примерно удвоенной длине буфера. Однако, если данные хоть как-то упорядочены, отрезки могут быть очень длинными. Вот почему этот метод, вообще говоря, более эффективен промежуточных, частичных сортировок.

Прочитав из входного файла очередную запись, мы ищем наименьший ключ, который >= последнего считанного. При этом мы, конечно, можем просто сканировать записи в буфере. Однако, если таких записей тысячи, время поиска может оказаться недопустимо большим. Если на этом этапе использовать двоичные деревья, нам понадобится всего лишь lg n сравнений.

Реализация.

В реализации внешней сортировки на ANSI-C функция makeRuns вызывает readRec для чтения очередной записи. В функции readRec используется выбор с замещением (с двоичными деревьями) для получения нужной записи, а makeRuns распределяет записи согласно ряду Фибоначчи. Если количество отрезков оказывается вне последовательности Фибоначчи, в начало каждого файла добавляются пустые отрезки. Затем вызывается функция mergeSort, которая производит многофазное слияние отрезков.

Вверх по странице, к оглавлению и навигации.