跳转到内容

N50、L50和相关统计学

维基百科,自由的百科全书

计算生物学中,N50和L50是Contigs(重叠群)或脚手架长度的统计值。N50的计算方式类似于平均值或中位数,但是对长Contigs的权重更大。这种方法广泛运用于序列组装中,特别是在参考组装草稿内的Contigs长度中。这种度量常被用来描述基因组装配(有时还有其他装配)的“完整性”。但它的本质是告诉你一些关于Contigs长度分布的信息。[1]

定义

[编辑]

N50

[编辑]

N50根据连续性定义装配质量。按照序列长度的顺序排列你的集合中的所有Contigs。首先是最长的Contigs,然后是第二长的Contigs,最后是最短的Contigs。然后,从一开始累加所有Contigs的长度,这样您就可以得到最长的Contigs+第二长的Contigs+第三长的Contigs,以此类推,直到达到占总装配长度50%的数字,即为N50。N50可以近似的看作分布质量一半的点:比N50长的所有Contigs的碱基数于比N50短的所有Contigs的碱基数在数值上是接近的。 [1]

L50

[编辑]

L50定义为,在给定一组Contigs的情况下,长度总和占基因组大小一半的最小Contigs数。

  1. ^ 1.0 1.1 Videvall, Elin. What’s N50?. The Molecular Ecologist. 2017-03-29 [2022-09-28]. (原始内容存档于2022-10-20) (美国英语).