齊夫定律

**齐夫定律**
	概率质量函數; 横纵坐标均为对数比例下，齐夫定律的概率质量函数的图像，其中N = 10。横坐标是指数k 。（注意，函数仅在k为整数时有定义，图上的连线不代表函数连续。）
	累積分布函數; 横纵坐标均为对数比例下，齐夫定律的累计分布函数的图像，其中N = 10。横坐标是指数k 。（注意，函数仅在k为整数时有定义，图上的连线不代表函数连续。）
参数	（实数）; （正整数）
值域
概率质量函数
累積分布函數
期望值
眾數
熵
矩生成函数
特徵函数

齐夫定律（英語：Zipf's law，IPA/ˈzɪf/）是由哈佛大學的語言學家喬治·金斯利·齊夫（英语：George Kingsley Zipf）于1949年发表的实验定律。它可以表述为：在自然语言的語料庫裡，一个单词出现的频率与它在频率表里的排名成反比。所以，频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与冪定律概率分布有关的事物的参考。

例子[编辑]

最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率，按照从最常见到非常见排列，第二常见的频率是最常见频率的出现次数的½，第三常见的频率是最常见的频率的1/3，第n常见的频率是最常见频率出现次数的1/n。然而，这并不精确，因为所有的项必须出现一个整数次数，一个单词不可能出现2.5次。

在布朗语料库（英语：Brown Corpus）中，“the”、“of”、“and”是出現頻率最前的三個單詞，其出現的頻數分別為69971次、36411次、28852次，大約佔整個語料庫100萬個單詞中的7%、3.6%、2.9%，其比例約為6：3：2。大約佔整個語料庫的7%（100万单词中出现69971次）。满足齐夫定律中的描述。仅仅前135個字彙就佔了Brown語料庫的一半。

齐夫定律是一个实验定律，而非理论定律，可以在很多非语言学排名中被观察到，例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察，坐标分别为排名和频率的对数（log）。比如，“the”用上述表述可以描述为x = log(1), y = log（69971）的点。如果所有的点接近一条直线，那么它就遵循齐夫定律。

遵循该定律的现象[编辑]

英文单词或中文汉字的出现频率：不仅适用于语料全体，也适用于单独的一篇文章
网页访问频率
城镇人口与城镇等级的关系
收入前3%的人的收入
地震震级
固体破碎时的碎片大小

參見[编辑]

延伸閱讀[编辑]

主要:

George K. Zipf（1949）Human Behavior and the Principle of Least Effort. Addison-Wesley.
George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin.（see citations at http://citeseer.ist.psu.edu/context/64879/0）

次要:

Lada Adamic. Zipf, Power-laws, and Pareto - a ranking tutorial. http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html（页面存档备份，存于互联网档案馆）
Alexander Gelbukh and Grigori Sidorov (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language" （页面存档备份，存于互联网档案馆）. Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag: 332–335.
Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720（4）
Gabaix, Xavier. Zipf's Law for Cities: An Explanation (PDF). Quarterly Journal of Economics. August 1999, 114 (3): 739–67 [2014-02-05]. ISSN 0033-5533. doi:10.1162/003355399556133. （原始内容存档 (PDF)于2021-02-24）.
Axtell, Robert L; Zipf distribution of US firm sizes （页面存档备份，存于互联网档案馆）, Science, 293, 5536, 1818, 2001, American Association for the Advancement of Science

外部連結[编辑]

Steven, Strogatz. Guest Column: Math and the City. The New York Times. 2009-05-29 [2009-05-29]. （原始内容存档于2015-09-27）. —An article on Zipf's law applied to city populations
Seeing Around Corners (Artificial societies turn up Zipf's law) （页面存档备份，存于互联网档案馆）
PlanetMath article on Zipf's law（页面存档备份，存于互联网档案馆）
Distributions de type "fractal parabolique" dans la Nature (French, with English summary)（页面存档备份，存于互联网档案馆）
An analysis of income distribution （页面存档备份，存于互联网档案馆）
Zipf List of French words
Zipf list for English, French, Spanish, Italian, Swedish, Icelandic, Latin, Portuguese and Finnish from Gutenberg Project and online calculator to rank words in texts
Citations and the Zipf–Mandelbrot's law （页面存档备份，存于互联网档案馆）
Zipf's Law for U.S. Cities （页面存档备份，存于互联网档案馆） by Fiona Maclachlan, Wolfram Demonstrations Project.
埃里克·韦斯坦因. Zipf's Law. MathWorld.
Zipf's Law examples and modelling (1985)
Complex systems: Unzipping Zipf's law (2011) （页面存档备份，存于互联网档案馆）
Benford’s law, Zipf’s law, and the Pareto distribution （页面存档备份，存于互联网档案馆） by Terence Tao.

概率质量函數横纵坐标均为对数比例下，齐夫定律的概率质量函数的图像，其中N = 10。横坐标是指数k 。（注意，函数仅在k为整数时有定义，图上的连线不代表函数连续。）
累積分布函數横纵坐标均为对数比例下，齐夫定律的累计分布函数的图像，其中N = 10。横坐标是指数k 。（注意，函数仅在k为整数时有定义，图上的连线不代表函数连续。）
参数	$s>0\,$ （实数） $N\in \{1,2,3\ldots \}$ （正整数）
值域	$k\in \{1,2,\ldots ,N\}$
概率质量函数	${\frac {1/k^{s}}{H_{N,s}}}$
累積分布函數	${\frac {H_{k,s}}{H_{N,s}}}$
期望值	${\frac {H_{N,s-1}}{H_{N,s}}}$
眾數	$1\,$
熵	${\frac {s}{H_{N,s}}}\sum _{k=1}^{N}{\frac {\ln(k)}{k^{s}}}+\ln(H_{N,s})$
矩生成函数	${\frac {1}{H_{N,s}}}\sum _{n=1}^{N}{\frac {e^{nt}}{n^{s}}}$
特徵函数	${\frac {1}{H_{N,s}}}\sum _{n=1}^{N}{\frac {e^{int}}{n^{s}}}$