语料库
语料库一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。
語料庫列表
多語
英文
- Collin's Cobuild Project - 成果:Collin's當代英語辭典、及當代英語文法。
- Corpus of Political Speeches (页面存档备份,存于互联网档案馆), provided by Hong Kong Baptist University Library (页面存档备份,存于互联网档案馆)
中文
- 中央研究院平衡語料庫 (页面存档备份,存于互联网档案馆)
- LIVAC漢語共時語料庫 (页面存档备份,存于互联网档案馆)
- 北京大學語料庫
- 兰开斯特大学汉语平衡语料库 (页面存档备份,存于互联网档案馆)
- 兰开斯特-洛杉矶汉语口语语料库
- 語料庫語言學在線 (页面存档备份,存于互联网档案馆)
- 香港浸會大學 (页面存档备份,存于互联网档案馆) - 政治人物演講語料庫 (页面存档备份,存于互联网档案馆)
- 北京森林工作室汉语句义结构标注语料库[永久失效連結]
外部連結
- Free, web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese (页面存档备份,存于互联网档案馆)
- 开放式目录计划中和Computational Linguistics相关的内容
- ACL SIGLEX Resource Links: Text Corpora
- The Leipzig Glossing Rules (页面存档备份,存于互联网档案馆): Conventions for interlinear morpheme-by-morpheme glosses
- Developing Linguistic Corpora: a Guide to Good Practice Archive.is的存檔,存档日期2012-12-22
- An interface for querying automatically-constructed virtual corpora[失效連結].
- TEP: Tehran English-Persian Parallel Corpus.
- [1] Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
- TS Corpus - A Turkish Corpus freely available for academic research. (页面存档备份,存于互联网档案馆)
- Turkish National Corpus - A general-purpose corpus for contemporary Turkish (页面存档备份,存于互联网档案馆)
- Free web-based English corpus to download (3 billion words) (页面存档备份,存于互联网档案馆)
|