齊夫定律
维基百科,自由的百科全书
| 機率 mass 函數 Zipf PMF for N = 10 on a log-log scale. The horizontal axis is the index k . (Note that the function is only defined at integer values of k. The connecting lines do not indicate continuity.) |
|
| 累積分布函數 Zipf CMF for N = 10. The horizontal axis is the index k . (Note that the function is only defined at integer values of k. The connecting lines do not indicate continuity.) |
|
| 參數 | (real) (integer) |
|---|---|
| 值域 | ![]() |
| 概率密度函数 | ![]() |
| 累積分布函數 | ![]() |
| 标记 | {{{notation}}} |
| 期望值 | ![]() |
| 中位數 | |
| 眾數 | ![]() |
| 方差 | |
| 偏態 | |
| 峰態 | |
| 熵值 | ![]() |
| 動差生成函數 | ![]() |
| 特徵函數 | ![]() |
齐夫定律(Zipf's law)可以表述为:在自然语言的語料庫裡,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distributions有关的事物的参考。
目录 |
理论 [编辑]
这个“定律”是哈佛大學的語言學家George Kingsley Zipf(IPA[zɪf])1949年发表的。
比如,在 Brown 語料庫中,“the”是最常见的单词,它在这个語料庫中出现了大约7%(100万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词“of”占了整个語料庫中的3.5%(36411次),之后的是“and”(28852次)。仅仅135個字彙就占了Brown 語料庫的一半。
齐夫定律是一个实验定律,而非理论定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。 齐夫定律很容易用点阵图观察,坐标为log(排名)和log(频率)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。
最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。然而,在一个广域范围内并且做出适当的近似,许多自然现象都符合齐夫定律。
| 本所說「许多自然现象都符合齐夫定律」没有列出任何参考或来源。(2012年5月14日) |
參見 [编辑]
阅读更多 [编辑]
- George K. Zipf, Human Behaviour and the Principle of Least-Effort, Addison-Wesley, Cambridge MA, 1949
- W. Li, "Random texts exhibit Zipf's-law-like word frequency distribution", IEEE Transactions on Information Theory, 38(6), pp.1842-1845, 1992.
- Alexander Gelbukh, Grigori Sidorov. "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, 2001-02-18 ~ 02-24 Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, ISBN 3-540-41687-0, Springer-Verlag, pp. 332–335.
- Damian H. Zanette. Zipf's law and the creation of musical context. Online preprint at http://xxx.arxiv.org/abs/cs.CL/0406015
- Kali R. The city as a giant component: a random graph approach to Zipf's law. Applied Economics Letters, 2003-09-15, vol. 10, iss. 11, pp. 717-720(4)
外部連結 [编辑]
- Comprehensive bibliography of Zipf's law
- Zipf Law, Zipf Distribution: An Introduction
- Zipf, Power-laws, and Pareto - a ranking tutorial
- Seeing Around Corners (Artificial societies turn up Zipf's law)
- PlanetMath article on Zipf's law
- Benford's Law and Zipf's Law, An Introduction at cut-the-knot
- Distributions de type “fractal parabolique” dans la Nature (French, with English summary)
- An analysis of income distribution
- Zipf List of French words
- Citations and the Zipf-Mandelbrot's law
- Use of Hermetic Word Frequency Counter to Illustrate Zipf's Law
(
(






