排序算法
维基百科,自由的百科全书
在計算機科學與數學中,一個排序算法是一種能將一串資料依照特定排序方式的一種算法。最常用到的排序方式是數值順序以及字典順序。有效的排序算法在一些算法(例如搜尋算法與合併算法)中是重要的,如此這些算法才能得到正確解答。排序算法也用在處理文字資料以及產生人類可讀的輸出結果。基本上,排序算法的輸出必須遵守下列兩個原則:
- 輸出結果為遞增序列 (遞增是針對所需的排序順序而言)
- 輸出結果是原輸入的一種排列、或是重組
雖然排序算法是一個簡單的問題,但是從計算機科學發展以來,已經有大量的研究在此問題上。舉例而言,氣泡排序在1956年就已經被研究。雖然大部分人認為這是一個已經被解決的問題,有用的新算法仍在不斷的被發明。(例子:圖書館排序在2004年被發表)
目录 |
[编辑] 分類
在计算机科学所使用的排序算法通常被分類為:
- 計算的複雜度(最差、平均、和最好表現),依據串列(list)的大小(n)。一般而言,好的表現是O(n log n),且壞的行為是Ω(n2)。對於一個排序理想的表現是O(n)。僅使用一個抽象關鍵比較運算的排序算法總平均上總是至少需要Ω(n log n)。
- 記憶體使用量(以及其他電腦資源的使用)
- 穩定度:穩定排序算法會依照相等的關鍵(換言之就是值)維持紀錄的相對次序。也就是一個排序算法是穩定的,就是當有兩個有相等關鍵的紀錄R和S,且在原本的串列中R出現在S之前,在排序過的串列中R也將會是在S之前。
- 一般的方法:插入、交換、選擇、合併等等。交換排序包含冒泡排序(bubble sort)和快速排序(quicksort)。選擇排序包含shaker排序和堆排序(heapsort)。
當相等的元素是無法分辨的,比如像是整數,穩定度並不是一個問題。然而,假設以下的數對將要以他們的第一個數字來排序。
(4, 1) (3, 1) (3, 7) (5, 6)
在這個狀況下,有可能產生兩種不同的結果,一個是依照相等的鍵值維持相對的次序,而另外一個則沒有:
(3, 1) (3, 7) (4, 1) (5, 6) (維持次序) (3, 7) (3, 1) (4, 1) (5, 6) (次序被改變)
不穩定排序算法可能會在相等的鍵值中改變紀錄的相對次序,但是穩定排序算法從來不會如此。不穩定排序算法可以被特別地實作為穩定。作這件事情的一個方式是人工擴充鍵值的比較,如此在其他方面相同鍵值的兩個物件間之比較,就會被決定使用在原先資料次序中的條目,當作一個同分決賽。然而,要記住這種次序通常牽涉到額外的空間負擔。
[编辑] 排列算法列表
在這個表格中,n是要被排序的紀錄數量以及k是不同鍵值的數量。
[编辑] 穩定的
- 冒泡排序(bubble sort) — O(n2)
- 鸡尾酒排序 (Cocktail sort, 雙向的冒泡排序) — O(n2)
- 插入排序 (insertion sort)— O(n2)
- 桶排序 (bucket sort)— O(n); 需要 O(k) 額外空間
- 计数排序 (counting sort) — O(n+k); 需要 O(n+k) 額外空間
- 合併排序 (merge sort)— O(n log n); 需要 O(n) 額外空間
- 原地合併排序 — O(n2)
- 二叉排序树排序 (Binary tree sort) — O(n log n)期望时间; O(n2)最坏时间; 需要 O(n) 額外空間
- 鸽巢排序 (Pigeonhole sort) — O(n+k); 需要 O(k) 額外空間
- 基數排序 (radix sort)— O(n·k); 需要 O(n) 額外空間
- Gnome sort — O(n2)
- Library sort — O(n log n) with high probability, 需要 (1+ε)n 額外空間
[编辑] 不穩定
- 選擇排序 (selection sort)— O(n2)
- 希爾排序 (shell sort)— O(n log n) 如果使用最佳的現在版本
- Comb sort — O(n log n)
- 堆排序 (heapsort)— O(n log n)
- Smoothsort — O(n log n)
- 快速排序 (quicksort)— O(n log n) 期望時間, O(n2) 最壞情況; 對於大的、亂數串列一般相信是最快的已知排序
- Introsort — O(n log n)
- Patience sorting — O(n log n + k) 最坏情況時間,需要 額外的 O(n + k) 空間,也需要找到最長的遞增子序列(longest increasing subsequence)
[编辑] 不實用的排序算法
- Bogo排序 — O(n × n!) 期望時間,無窮的最壞情況。
- Stupid sort — O(n3); 遞迴版本需要 O(n2) 額外記憶體
- Bead sort — O(n) or O(√n), 但需要特別的硬體
- Pancake sorting — O(n), 但需要特別的硬體
[编辑] 排序的算法
排序的算法有很多,对空间的要求及其时间效率也不尽相同。下面列出了一些常见的排序算法。这里面插入排序和冒泡排序又被称作简单排序,他们对空间的要求不高,但是时间效率却不稳定;而后面三种排序相对于简单排序对空间的要求稍高一点,但时间效率却能稳定在很高的水平。基数排序是针对关键字在一个较小范围内的排序算法。
[编辑] 插入排序
插入排序是这样实现的:
- 首先新建一个空列表,用于保存已排序的有序数列(我们称之为"有序列表")。
- 从原数列中取出一个数,将其插入"有序列表"中,使其仍旧保持有序状态。
- 重复2号步骤,直至原数列为空。
插入排序的平均时间复杂度为平方级的,效率不高,但是容易实现。 它借助了"逐步扩大成果"的思想,使有序列表的长度逐渐增加,直至其长度等于原列表的长度。
[编辑] 冒泡排序
冒泡排序是这样实现的:
- 首先将所有待排序的数字放入工作列表中。
- 从列表的第一个数字到倒数第二个数字,逐个检查:若某一位上的数字大于他的下一位,则将它与它的下一位交换。
- 重复2号步骤(倒数的数字加1。例如:第一次到倒数第二个数字,第二次到倒数第三个数字,依此类推...),直至再也不能交换。
冒泡排序的平均时间复杂度与插入排序相同,也是平方级的,但也是非常容易实现的算法。
[编辑] 选择排序
选择排序是这样实现的:
- 设数组内存放了n个待排数字,数组下标从1开始,到n结束。
- i=1
- 从数组的第i个元素开始到第n个元素,寻找最小的元素。(具体过程为:先设arr[i]为最小,逐一比较,若遇到比之小的则交换)
- 将上一步找到的最小元素和第i位元素交换。
- 如果i=n-1算法结束,否则回到第3步
选择排序的平均时间复杂度也是O(n2)的。
[编辑] 快速排序
现在开始,我们要接触高效排序算法了。实践证明,快速排序是所有排序算法中最高效的一种。它采用了分治的思想:先保证列表的前半部分都小于后半部分,然后分别对前半部分和后半部分排序,这样整个列表就有序了。这是一种先进的思想,也是它高效的原因。因为在排序算法中,算法的高效与否与列表中数字间的比较次数有直接的关系,而"保证列表的前半部分都小于后半部分"就使得前半部分的任何一个数从此以后都不再跟后半部分的数进行比较了,大大减少了数字间不必要的比较。但查找数据得另当别论了。
[编辑] 堆排序
堆排序与前面的算法都不同,它是这样的:
- 首先新建一个空列表,作用与插入排序中的"有序列表"相同。
- 找到数列中最大的数字,将其加在"有序列表"的末尾,并将其从原数列中删除。
- 重复2号步骤,直至原数列为空。
堆排序的平均时间复杂度为nlogn,效率高(因为有堆这种数据结构以及它奇妙的特征,使得"找到数列中最大的数字"这样的操作只需要O(1)的时间复杂度,维护需要logn的时间复杂度),但是实现相对复杂(可以说是这里7种算法中比较难实现的)。
看起来似乎堆排序与插入排序有些相像,但他们其实是本质不同的算法。至少,他们的时间复杂度差了一个数量级,一个是平方级的,一个是对数级的。
[编辑] 外部排序
外部排序指的是大文件的排序,即待排序的记录存储在外存储器上,待排序的文件无法一次装入内存,需要在内存和外部存储器之间进行多次数据交换,以达到排序整个文件的目的。外部排序最常用的算法是多路归并排序,即将原文件分解成多个能够一次性装人内存的部分,分别把每一部分调入内存完成排序。然后,对已经排序的子文件进行归并排序。 外排序包括两个步骤。①把要排序的文件中的一组记录读入内存储器的排序区,对读入的记录按上面讲到的内部排序法进行排序,排序之后输出到外存储器。重复这一过程,每次一组,直到原文件所有记录被处理完毕。②将上一步分组排好序的记录两组两组地合并排序。在内存容量允许的条件下,每组中包含的记录越大越好,这样可减少合并的次数。 算法可通过B树实现。
[编辑] 平均时间复杂度
- 插入排序 O(n2)
- 冒泡排序 O(n2)
- 选择排序 O(n2)
- 快速排序 O(n log n)
- 堆排序 O(n log n)
- 归并排序 O(n log n)
- 基数排序 O(n)
- 希尔排序 O(n1.25)
[编辑] 实际测试结果
OS: winxp, Compiler: vc8, CPU:Intel T7200, Memory: 2G 不同数组长度下调用6种排序1000次所需时间(秒) length shell quick merge insert select bubble 100 0.0141 0.359 1.875 0.204 0.313 0.421 1000 0.218 0.578 2.204 1.672 2.265 4 5000 1.484 3.25 14.14 41.392 63.656 101.703 10000 3.1 7.8 23.5 253.1 165.6 415.7 50000 21.8 40.6 121.9 411.88 6353.1 11648.5 100000 53.1 89 228.1 16465.7 25381.2 44250 结论: 数组长度不大的情况下不宜使用归并排序,其它排序差别不大。 数组长度很大的情况下Shell最快,Quick其次,冒泡最慢。
|
|
||
|---|---|---|
| 理論 | 計算複雜性理論 | 大O符號 | 全序關係 | 列表 | 穩定性 | 比較排序 | |
| 交換排序法 | 冒泡排序 | 鸡尾酒排序 | 奇偶排序 | Comb sort | Gnome sort | 快速排序 | |
| 選擇排序法 | 选择排序 | 堆排序 | |
| 插入排序法 | 插入排序 | 希尔排序 | Tree sort | Library sort | Patience sorting | |
| 归并排序法 | 归并排序 | Strand sort | |
| 非比較排序法 | 基数排序 | 桶排序 | 计数排序 | 鸽巢排序 | Burstsort | Bead sort | |
| 其他 | 拓扑排序 | 排序網絡 | Bitonic sorter | Batcher odd-even mergesort | Pancake sorting | |
| 低效排序法 | Bogosort | Stooge sort | |

