当代美国英语语料库

维基百科,自由的百科全书

当代美国英语语料库(英語:Corpus of Contemporary American English,简称COCA)是一个十亿词的当代美国英语语料库[1] 。它由楊百翰大學(BYU)语料库语言学退休教授马克·戴维斯创建。[2][3]

内容[编辑]

截至2021年11月,当代美国英语语料库 (COCA)由10亿个单词组成。[1][2][4]语料库的数据还在不断更新:截至2009年已包含超过3.85亿个单词;[5]截至2010年已增长到4亿个单词;[6]到2019年3月[7]已增长到5.6亿个单词。[7]

截至2021年11月,当代美国英语语料库由485,202篇文本组成。[4]根据语料库网站,[4]当前语料库(2021年11月)由包含1990-2019每年24-25百万个单词的文本组成。

对于语料库中包含的每一年(1990-2019),语料库都被平均分为六个语域/流派:电视/电影、口语、小说、杂志、报纸和学术(见COCA网站的文本和语域页面)。除了这六个语料库外,COCA(截至 2021年11月)还包含来自博客的 125,496,215 个单词和来自网站的129,899,426个单词,使其成为真正由当代英语组成的语料库(参见 COCA 的文本和注册页面)。[4]

文本来自各种来源:

  • 口语:(8500 万字)来自近 150 个不同电视和广播节目的无脚本对话记录。
  • 小说:(8100 万字)短篇小说和戏剧、1990 年至今书籍的第一章和电影剧本。
  • 热门杂志:(8600 万字)近 100 种不同的杂志,涵盖新闻、健康、家居和园艺、女性、金融、宗教和体育等多个领域。
  • 报纸:(8100 万字)来自美国各地的十份报纸,文本来自报纸的不同版块,例如地方新闻、舆论、体育和金融版块。
  • 学术期刊:(8100 万字)近 100 种不同的同行评审期刊。这些被选中以涵盖国会图书馆分类系统的整个范围。

可用性[编辑]

已注册用户可在当代美国英语语料库免费搜索。

查询[编辑]

  • 其网站界面与 BYU-BNC 界面相同,包含 1 亿词的英国国家语料库、1 亿词的时代杂志语料库和 4 亿词的美国历史英语 (COHA) 语料库,从1810 年代至 2000 年代(请参阅下面的链接)
  • 按单词、短语、替代词、子字符串、词性、引理、同义词(见下文)和自定义列表(见下文)查询
  • 语料库由CLAWS标记,与用于 BNC 和 Time 语料库的词性标记器相同
  • 图表列表(每个类型或年份中所有匹配形式的总数,1990 年至今,以及子类型)和表格列表(每个类型或年份中每个匹配形式的频率)
  • 完整并置搜索(节点词左右最多十个词)
  • 可重新排序的索引,在搜索词的左侧和右侧显示最常见的词/字符串
  • 流派或时间段之间的比较(例如小说或学术中“chair”的搭配,报纸或学术中带有“break the [N]”的名词,主要出现在体育杂志中的形容词,或 2005-2010 年比 2010 年更常见的动词之前)
  • 一步比较相关词的搭配,以研究词之间的语义或文化差异(例如比较“small”、“little”、“tiny”、“minuscule”或“lilliputian”或“Democrats”和“Republicans”,或“men”和“women”,或“rob”与“steal”)
  • 用户可以将来自 60,000 个词条词库的语义信息直接作为查询语法的一部分(例如:“beautiful”同义词的频率和分布,出现在小说而非学术中的“strong”的同义词,“clean”+名词的同义词(“clean the floor”,“washed the dishes”))
  • 用户还可以创建自己的自定义单词列表,然后将它们重新用作后续查询的一部分(例如与特定语义类别(衣服、食物、情感)或用户定义的词性相关的列表)
  • 请注意,由于版权限制,语料库只能通过 Web 界面使用。

相关资料[编辑]

全球网络英语语料库页面存档备份,存于互联网档案馆)(GloWbE;发音为“globe”)包含来自20个不同国家的约19亿个文本单词。这使得它大约是国际英语语料库等其他语料库的100倍,而且它允许在那些其它地方不能使用的多种类型进行搜索。除了在线查询,你还可以从语料库下载全部数据。

它的独特之处在于它允许人们对不同的英语变体进行比较。 GloWbE 与许多其他英语语料库相关。 [8]

同时参照[编辑]

  • 美国国家语料库
  • 英国国家语料库
  • 英语银行
  • 布朗语料库

参考[编辑]

  1. ^ 1.0 1.1 Milana, Prior. A Comparative Corpus Study on Intensifier Usage across Registers in American English (学位论文). 2021. 
  2. ^ 2.0 2.1 Mark Davies, Professor of (Corpus) Linguistics, Brigham Young University (BYU). www.mark-davies.org. [November 9, 2021]. (原始内容存档于2022-04-18). 
  3. ^ Kauhanen, Henri. The Corpus of Contemporary American English: Background and history. VARIENG. March 21, 2011 [October 13, 2011]. (原始内容存档于2012-01-12). 
  4. ^ 4.0 4.1 4.2 4.3 Homepage. corpus of Contemporary American English. [April 24, 2022]. (原始内容存档于2023-06-15). 
  5. ^ Davies, Mark. The 385+ million word Corpus of Contemporary American English (1990–2008+): Design, architecture, and linguistic insights. International Journal of Corpus Linguistics. January 1, 2009, 14 (2): 159–190 [2023-05-21]. ISSN 1384-6655. doi:10.1075/ijcl.14.2.02dav. (原始内容存档于2023-05-21) (英语). 
  6. ^ Davies, Mark. The Corpus of Contemporary American English as the first reliable monitor corpus of English. Literary and Linguistic Computing. December 1, 2010, 25 (4): 447–464. ISSN 0268-1145. doi:10.1093/llc/fqq018. 
  7. ^ 7.0 7.1 Davies, Mark; Kim, Jong Bok. The advantages and challenges of "big data": Insights from the 14 billion word iWeb corpus. Linguistic Research. March 1, 2019, 36 (1): 1–34 [2023-05-21]. ISSN 1229-1374. S2CID 133013527. doi:10.17250/khisli.36.1.201903.001可免费查阅. (原始内容存档于2023-05-21) (英语). 
  8. ^ Corpus of Web-Based Global English. www.english-corpora.org. [December 18, 2019]. (原始内容存档于2022-04-02). 

延伸阅读[编辑]

  • Anderson, Wendy; Corbett, John. Exploring English with Online Corpora. Palgrave Macmillan. 2009: 205. ISBN 978-0-230-55140-4. 
  • Bennett, Gena R. Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. 2010: 144. ISBN 978-0-472-03385-0. 
  • Davies, Mark. The advantage of using relational databases for large corpora: Speed, advanced queries, and unlimited annotation. International Journal of Corpus Linguistics (John Benjamins Publishing Company). 2005, 10 (3): 307–334(28). doi:10.1075/ijcl.10.3.02dav. 
  • Davies, Mark. More than a peephole: Using large and diverse online corpora. International Journal of Corpus Linguistics. 2010, 15 (3): 405–411. doi:10.1075/ijcl.15.3.13dav. 
  • Lindquist, Hans. Corpus Linguistics and the Description of English. Edinburgh University Press. 2009. ISBN 978-0-7486-2615-1. 

外部链接[编辑]