互联网语言学：修订间差异

删除的内容添加的内容

行内

2017年3月16日 (四) 20:26的版本

互联网语言学（英語：Internet linguistics）是语言学下属的一个分支，由英国语言学家大卫·克里斯托所提出。该学科研究因互联网和其他的一些新媒体（诸如短信）等产生的影响从而导致的新型的语言风格和语言结构。^[1]^[2] 人机交互（HCI）引发了人们对于电脑辅助沟通（CMC）和互联网辅助沟通（IMC）的探讨。通过探索网络界面及其可使用性，人们了解到了语言学对此研究的建设性作用。通过学习互联网上的新兴语言，人们可以拓宽对团体的概念，改善翻译质量和网络体验。因此，互联网语言学将能够使得语言学家和用户同时受益。^[3]

互联网语言学的研究可分为以下四个大方向：社会语言学，教育，语言风格以及应用。在技术的发展下，这几个方向又发展出几个子分支。随着互联网使用人数增多，互联网未来的语言学也充满了可能性。新的CMC方式持续出现，人们也将改变自己的说话方式来适应这些变化。^[4]互联网本身亦将鼓励用户积极使用新兴的语言，并在其基础上大胆创新。^[5]

主要方向

大卫·克里斯托已经为未来的研究确立了四个主要的研究方向，分别为社会语言学方向，教育方向，语言风格方向，以及应用方向。这四个方向相互交织并互相影响。

社会语言学方向

这个方向主要研究的是社会如何看待网络语言。互联网的发展已经在人与人之间的沟通上做出了重大的变革。它改变了人们交流的方式，并提供了新的、对社会造成深远影响的平台。这其中短信，电子邮件，群聊，虚拟世界以及互联网本身等，都对此贡献巨大。

这些新的传播媒体已经引发了人们对于语言使用上的担忧。据克里斯托在2005年的研究, 这些担忧并非空穴来风或是前无古人。每当技术取得重大突破，并且因此影响到语言的时候（比如15世纪的印刷术，19世纪电话的发明，以及20世纪无线电在民间的推广）这种对于语言使用的担忧就会出现。

对个人而言，像短信或是邮箱客户端（Push Mail）一类的CMC沟通方式已经极大地改善了即时通讯。^[2] iPhone和黑莓手机等都是例子。

在学校中教师和学生常常也会使用校方的邮箱相互联络。课堂讨论也经常在线论坛中进行。比方说，在南洋理工大学，学生使用校方的平台edveNTUre进行讨论，在线测验，观看教师准备的实时在线课程等。在2008年，iTunes U与大学合作，将Apple音乐服务移植到一个特别的商店。在该商店观看在线学术课程以及获取学术材料免费。目前已经与在18个国家超过600家学术机构有了合作，其中包括牛津大学，剑桥大学以及耶鲁大学。^[6]

在全世界许多教育工作者们都开始寻找新思路来和学生更好地交流时，这种学术社交网络和社交媒体开始逐渐吃香。纽约大学的学生们时常通过Skype与客座演讲嘉宾互动，和提供即时通讯的图书馆工作人员联系，从校外获取学校图书馆相关资源。^[7] 师生开始使用新的CMC平台，这些都会关系到语言的使用。

在专业的水准上来看，公司普遍都会将电脑或笔记本与互联网连接（通过有线或无线的网络连接），并分配给员工独立的电子邮件账户。这极大程度上帮助了公司内部（员工之间）和外部（公司或组织之外的团体）的交流。诸如智能手机之类的移动端的交流方式亦参与到了全世界的协作当中。

总体来看，这些因互联网而生的新兴CMC系统已经改变了人们使用语言的方式。语言越来越非正规，因此人们对其恶化的恐惧越来越大。然而，如同David Crystal指出的那样，从积极的角度看来这也反映了语言的创造性。^[2]

主题

互联网的社会语言学也可以依照五个相互交织的主题分类进行研究。^[8]

多语制：探讨不同语言在互联网上的流行度，以及其现状。
语言变化：从语言学的角度来讲，语言变化受其物理层面传播的方式（如：打字）以及变换的社会经济优先度（如：全球化）的影响。语言变化探寻语言，尤其是网络语言，随着时间而产生的变化。
会话分析：探讨在互联网上的社交互动以及交流行为的样式的变化。
文体发散：涉及到研究网络语言以及其有关的语言学形式在现实生活中的应用问题。语言在发展变化的时候，会话分析和文体发散都会和语言风格方向的研究互相交集。
参见以下：语言风格方向
元语言和民俗语言学：观察语言的形式与变化在互联网上是如何被标出并讨论的。（如：网络语言的冲击使得英文中单引号和大小写等不再被规范使用，或者中文中标点符号被空格所代替等。）

教育方向

互联网语言学的教育方向则探讨了互联网在形式语言的使用上造成的冲击。对于标准语的使用在这里则尤为受到关注，因为这也影响到了语言教育的层面。互联网的快速崛起已经为互联网平台带来了其独有的语言学特征。这些包括但不限于，非正式书面语言的加剧使用，书面语风格的前后不统一，以及在互联网和短信中出现的新的简写方式。这种首字母缩略字的出现主要是出于实用的目的—— 为了减少在这些平台上沟通交流时花费的时间还有精力。此外，技术层面的限制也给这些沟通带来不便。常见的简写有LOL（英文意为laughing out loud，大笑），OMG(英文意为oh my god，表示感叹）以及GTG（英文意为got to go，我得走了）。^[9]中文中类似的有886（拜拜了，拟声）。

在“对于互联网对于语言教育的影响”的相关研究中，互联网语言学的教育方向有着广泛的应用。这是一个至关重要的方向，因为其涉及到了对于下一代的教育。在互联网上出现的非正式语言需要考虑到其合适的使用时机。社会上出现了一些对于非正式语的不当用法的担忧，尤其是在学术及其他正式场合上，比如在学术报告中使用“那家伙”（guy）等。教育工作者们也注意到了一些频繁的拼写或者语法错误。 ^[10]

埃莉诺·约翰逊等语言学家认为，那些使用广泛的语言错误与互联网的使用有着密不可分的联系。教育工作者也同样从学生的作业中看到一些新种类的拼写和语法错误。然而，人们没有科学的证据来证实这种关联性。^[11]虽然人们有理由怀疑，互联网的使用对学生的学术写作及正式的书面语言的使用造成了一定的影响，但是其严重性则毫无疑问被这种新形式的平台扩大化了。Naomi S. Baron（2008）在其著作Always On中称，学生的写作几乎不受到IMC（互联网辅助沟通，比如网络聊天，短信，电子邮件等）的影响。^[12]最近的一项由英国发展心理学杂志上发表的研究显示，经常发短信的学生（指通过使用手机短信的功能发送消息）显示出更广泛的词汇量，这可能会对他们的阅读技巧产生积极的影响。^[13]

尽管互联网的使用导致了在学术和形式语言使用方面不适当的风格，但需要注意的是，互联网的使用可能不会妨碍语言教育，反而有助于它。互联网已经在多方面证明了它可以增强语言的学习，特别是在第二语言或语言教育方面所具有的潜在的优势。通过互联网进行的语言教育与互联网语言学的关系主要通过沟通交流的方式显现出来（电子邮件的使用，在线交流平台，即时通讯，博客等）。 ^[14]通过一些特殊的技巧，比如以争论及说服的方式，IMC使得语言学习者和说母语的人之间的交流更加频繁，提供了更多的语言错误修正的帮助，以及更好的学习机会。

语言风格方向

该方向探讨了互联网及其衍生的技术如何鼓励语言，尤其是文学作品上的创新。^[2]它将互联网视作新语言现象发展的媒介。这种新的语言形式是一项有趣的研究，因为它是口语和书面语的一种融合的形式。比方说，传统的书写方式，较之于互联网上字体的颜色、大小不一的动态形式，要更为静态一些。^[15]然而，这种新的语言模式也同时存在一些在自然语言中并不存在的元素，比如在电子邮件或论坛中“框架”的概念。在回复电子邮件的时候，人们基本上会使用发件人的电子邮件内容作为他们自己的回复的框架结构，也可以选择回复一部分而略去其他的。在在线论坛中，用户可以发起一个新的主题，而其他人无论身在何处都能够通过互联网对这个主题提出自己的看法。这种现象在书写语言中通常是见不到的。^[15]

进一步的研究显示，互联网及其相关技术在不断创造着新的语句的表达方式，并且这些新的形式不仅仅在书面语上有所体现，人们也同样在口语表达中观察到了这些变化带来的影响。^[2]人们最常从下列几个CMC通讯方式中观测到网络语言的交流风格，因为这些通讯方式经常试图逾越技术上的限制（比如通讯滞留），并重新建立那些无法用书面语清晰表达的社交线索。^[8]

移动电话

移动电话（又称“手机”）拥有一些超过其本身通讯功能的用途。比如卫报举办的短信大赛。^[2]因为手机短信有160个字符的限制，用户开始竭尽其所能地发挥自己语言上的创意来攻克这一难关。推特是一个类似的有字数限制的新技术发明，其限制为140个字符。人们对此曾有过争论，用户发表的的推特究竟是因为“懒”，还是说这是是充满创意的碎片化沟通方式。虽然争论仍在继续，但毫无疑问的是，推特推动了语言学，发展出了新的网语，并将沟通带上了一个全新的维度。^[16]

手机也创造了一个新的文体：手机小说。一个典型的手机小说通常包含几个能够快速下载的章节。这些小说通常都很“质朴”，因为它们没有像传统的小说作品那样的编辑的过程。它们像短信那样用短句子写成。^[17]通过电子邮件或一些在线平台，这类小说的作者同样也可以从读者那里获得反馈。和传统的小说写作不同，读者的想法有时会被融入到故事当中，或者作者也会按照读者的需求或者是作品人气（一般按照下载量来测算）等考虑改变故事剧情。^[18] 虽然手机小说很受欢迎，但是也有人批评该类型小说“缺乏词汇量”并且及语法不通。^[19]

博客

博客被认为是新型的写日记方式，并且从语言学的角度来看，博客中所使用的语言处于“其最‘赤裸’的形式”，^[2]因为博客在没有经过正式的编辑过程便公开发表。这使得博客在其他绝大多数经过编辑等标准化处理程序的书写语言中鹤立鸡群。^[20] 大卫·克里斯托称，博客是“书面语言革命的新起点”。^[2]博客广受欢迎，因而其已经发展出了超越书写博客的形式，^[21]出现了图片博客（英语：Photoblog），视频博客，以及音频博客。这种互动式博客的发展带来了新的语言学的传统以及风格，并在未来会持续发展。^[20]

虚拟世界

虚拟世界的讨论包括了用户如何将自然语言的交流带入这些新媒介的相关观点。网络语言已经在文字聊天室，以及计算机模拟的世界中，发展出了数字社区之中的黑话，如Pwn以及菜鸟等。表情符号则体现了用户如何适应受限的、“毫无表情”的网络交流环境并表达情绪。^[22]

诸如角色扮演类的游戏（RPG）以及虚拟世界等非常具有互动性，强调速度、简洁以及同步性。于是，CMC便变得更加充满活力、变化多端、不拘形式且开放自由。日常对话中经常出现复杂的序列以及互换的结构。一些常见的CMC方式有字母全大写（“EMPHASIS”），用星号将一个词包裹起来等对于符号的使用（“*stress*”），以及创造性地使用标点符号（“???!?!?!?”）。^[8]标点符号也同时被用在会话上，比如星号被用作会话修复（英语：Conversation analysis#Repair），以及箭头符号被用来指代、引用等。^[23]^[24]除了对这些新语言形式作出的贡献之外，虚拟世界也被用来教授语言。虚拟世界语言学习（英语：Virtual world language learning）为学生模拟了真实的生活环境，允许他们发挥自己的创意来提高语言的姿势水平。对于年轻的语言学习者而言，虚拟世界也是个非常好的工具，因为他们已经认为这些地方是“再正当不过的学习和玩的地方”。^[25]

电子邮件

在语言风格方向下的一个最为流行的互联网相关的技术是电子邮件。电子邮件在很多方面都拓宽了语言的风格。一份研究电子邮件的语言学的报告指出，电子邮件是口语与书面语言形式、语法、文风的混合。^[26]得益于其便捷、速度以及即时性，电子邮件正快速取代传统的信件。^[27]它常常被认为是不正式的，因为人们觉得它是临时的，很容易被删除。然而，当这个通信平台逐渐成熟的时候，电子邮件却不再被用作在亲朋好友之间发送一些不正式的信息。相反地，电子邮件被越来越多地用作商务上的合作。求职者也常常用电子邮件给他们潜在的招聘者投简历。这种向正式语迁移的过程使得电子邮件成为了介乎于正式语和非正式语之间的一种文体。^[20]

虽然说，曾有人责备学生因为电子邮件的缘故，书面语写得很不整经，大卫·克里斯托辩称，电子邮件“对于语言教育绝不是一种威胁”，因为电子邮件的排版更加有表达性，语言学习者可以在语言上做出自己的选择。此外，年青一代也可以用电子邮件来提高自己的写作及沟通方面的技巧，因为他们需要花精力透过这种电子的传播方式来慢慢地推敲自己的想法。

即时通讯

和其他形式的在线通讯方式一样，即时通讯也发展出了自己的缩写、简写的方式。然而，即时通讯和电子邮件、群聊有所不同，因为它使得沟通的参与者可以与对方进行实时的联系，同时保证了对话的私密性。^[28]即时通讯的使用为参与者之间增添了一丝亲密感，而这份增长的亲密感则带来了更多的随意性。同时，即时通讯的文体风格也更加多变，因为参与者的年龄跨度会很大。比方说，一个孙女和她奶奶利用即时通讯进行联络。和参与者喜好大体一致的群聊不同的是，这里对于语言协调上的要求很少。^[20]

应用方向

应用方向从沟通能力的角度来审视互联网的语言学上的开发——包括好的方面与不好的方面。^[1]互联网提供了一个多语言的平台。虽说英语依旧是互联网的主要语言，互联网上其他语言的使用者也在不断地增加。^[8]（对于语言、国籍、地理位置的详细的数据，参见全球互联网使用率）当更多的不同语言的社区加入到互联网之中时，这种多语言的环境也持续增加其多样性。因而少数族裔与濒危语言使用者能够在互联网上使自己的语言重新焕发生机，并增加语言的存在感。语言档案编制以及语言复兴则是互联网为这类语言提供的机会的两个例子。^[1]

语言档案编制

首先，互联网有助于语言档案编制。例如音频、视频等数字化的存档方式不仅仅有助于语言档案编制，也同时有助于语言通过互联网在全球进行传播。^[29]如韦氏词典（2003）等将濒危语言公开的行为使得全球对语言档案编制产生了兴趣。

语言复兴

第二，互联网有助于语言复兴。多年来，数字环境已经发展出了不同的复杂的方式来实现虚拟接触。从电子邮件、聊天软件到即时通讯，这些虚拟环境已为联络的双方建起了跨越空间的桥梁。此外，年青一代认为很“酷”的数字技术会吸引他们，并因此维持他们对于母语的兴趣，以及对母语的使用。^[1]

开发互联网

互联网也同时会被恐怖主义、互联网诈骗、恋童等活动所利用。最近，因为容易匿名的缘故，通过电子邮件和IRC等使用互联网进行的犯罪变得更加频繁。^[30]这些不法分子的阴谋带来了安保工作上的担忧。从司法的角度来讲，互联网还有很大的可能性尚未能够探索。虽说利用内容控制软件进行关键词过滤很有效，但几乎没有以语言学为出发点对此进行的研究。另一方面，语义网则被用作个人数据保护（英语：Information privacy）来试图避免诈骗行为。^[31]

互联网语言学的尺度

这一小节所讨论的尺度问题包含了将网络语料库以及语言的鉴别与正规化的问题。互联网语言学对日常生活的冲击将从网络语言风格的传播与影响、互联网上的语言变化趋势以及谈话的方面进行分析。

网络语料库

互联网是一个用来存储数据以及资源的巨大存储库。语言学家与语言技术专家越来越多地转而利用网络来寻求语言方面的数据。^[4]语料库（Corpora）第一次在计算语言学领域被提起，是在1989年温哥华的ACL会议上。因为理论不完整的缘故，它当时在有关领域引起了极大的争议。刊物“Using Large Corpora”（中文为《大语料库的使用》）的出版为斗争画上了句号，^[32]并且使得计算语言学与语料库的关系得到了广泛的认可。^[4]

为了确认网络是不是一个语料库，人们通常会使用麦克恩利（McEnery）与威尔森（Wilson）给出的定义（1996年，第22页）。^[33]

原则上来讲，任何多于一个字符的集合都可以被称作一个语料库……但是在现代语言学背景下，“语料库”一词常常暗示了这一简单定义所不具备的东西。这些包括如下四个方面：样本与代表性、有限的大小、可供机读的形式、一个标准的参照。
— Tony McEnery and Andrew Wilson， Corpus Linguistics

曼宁（Manning）和舒策（Schütze）（1999年，第20页）提出了与网络语料库更接近的一个定义^[34]：

在统计性的NLP（自然语言处理）中，人们通常在没有关注到其如何形成的情况下，将某个关注领域中所得到的特定量的数据视作语料库。在这种情况下，更多的训练数据比任何对于平衡性的研究更加有益，而人们应该利用所有可获取的文字（作为训练数据）。
— Christopher Manning and Hinrich Schütze， Foundations of Statistical Language Processing

主题

网络语料库的发展可能性被广泛地讨论着。2002年的EU Meaning计划中，人们对利用网络作为数据来源对字词进行消歧义（也就是多义词的辨析）的进展进行了讨论。^[35]这假设了在一定的讨论范围之内，一个单词通常只有一个理解方式。而这里所说的“讨论范围”一般可以利用互联网来进行确认。人们在Word Expert Web利用互联网科技进一步探索了这种手动添加注释的方式。

在语言模型的领域，网络被用在解决数据稀疏的问题。人们收集字典的统计数据，并利用这些数据来解决介词后缀的问题，^[36]而同时网络中的文档数据则被用于维持语料库的平衡。^[37]

在信息采集方面，网络轨道被整合成社区的TREC（文本信息检索）评估的一部分。用于此目的的网络样本大约累计有100GB左右，主要由.gov这一顶级域名中的文档所构成。^[38]

参见

参考资料

^ ^1.0 ^1.1 ^1.2 ^1.3 Language Development via The Internet. ScienceDaily. February 28, 2005.
^ ^2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 ^2.6 ^2.7 Crystal, David. The Scope of Internet Linguistics (PDF). paper presented at the American Association for the Advancement of Science meeting. 2005.
^ Martín del Pozo, Maria Angeles. Linguistics and web usability; Research Paper. No Solo Usabilidad (Not Just Usability). May 8, 2005, 4 [2014-02-15]. ISSN 1886-8592.
^ ^4.0 ^4.1 ^4.2 Kilgarriff, Adam; Grefenstette, Gregory. Introduction to the Special Issue on the Web as Corpus (PDF). Computational Linguistics (MIT Press). September 2003, 29 (3): 333–347. doi:10.1162/089120103322711569.
^ Cunliffe, Daniel; Herring, Susan C. Introduction to Minority Languages, Multimedia and the Web. New Review of Hypermedia and Multimedia (Informa world). December 2005, 11 (2): 131–137 [2010-11-12]. doi:10.1080/13614560512331392186.
^ Cohen, Peter. iPhone Takes on the BlackBerry. PC World. 7 March 2008 [2010-10-31].
^ Cohen, Peter. Universities Use Social Media to Connect. The New York Times. 30 March 2010 [2010-10-31].
^ ^8.0 ^8.1 ^8.2 ^8.3 Thurlow, Crispin. The Internet and Language. Mesthrie, R.; Asher, R. (编). Concise Encyclopedia of Sociolinguistics (PDF). London: Pergamon. 2001: 287–289 [2010-11-09]. ISBN 0-08-043726-5.
^ Nazaryan, Ani; Gridchin, Aleksandr. The Influence of Internet on Language and "Email Stress" (PDF). Law and Politics. 2006, 4 (1): 23–27 [2010-10-19].
^ Hayslett, Chandra M. No LOL Matter: Cyber lingo shows up in academia. The Seattle Times. 2006-11-26 [2010-11-06].
^ Abrams, Rachel. Experts divided over Internet changes to Language. VOANews. 2010-01-16 [2010-10-19].
^ Naomi, S. Baron. Always On. Oxford University Press. 2008. ISBN 0-19-531305-4.
^ Texting 'improves language skill'. BBC. 2009-02-25 [2010-11-04].
^ Xie, Tim. Globalization and Language Education. Presentation. June 2008 [2010-10-19].
^ ^15.0 ^15.1 Cook, Franklin. Linguists See Internet Lingo as Cultural Catalyst. yourdictionary.com. 2001 [2010-11-08].
^ Clark, Roy Peter. From Telegraph to Twitter: The Language of the Short Form. Poynter Online. 4 September 2009 [2010-10-21].
^ Onishi, Norimitsu. Thumbs Race as Japan’s Best Sellers Go Cellular. The New York Times. 20 January 2008 [2010-11-07].
^ Cell Phones Put to Novel Use. Associated Press. 18 March 2005 [2010-11-08].
^ Galbraith, Patrick W. Cell phone novels come of age. Metropolis Magazine. 2010 [2010-11-08].
^ ^20.0 ^20.1 ^20.2 ^20.3 Crystal, David. Language and the Internet. Cambridge University Press. 2006. ISBN 978-0-521-86859-4.
^ Francisco, San. Success of blogs heralds an even bigger future. The Age (Melbourne). Associated Press. 18 March 2003 [2010-11-10].
^ Cicognani, Anna. On The Linguistic Nature of Cyberspace and Virtual Communities. Virtual Reality (Springer). 1998, 3 (1): 16–24 [2010-11-06]. doi:10.1007/BF01409794.
^ Collister, Lauren B. The discourse deictics ∧ and <-- in a World of Warcraft community. Discourse, Context & Media. 2012-03-01, 1 (1): 9–19. doi:10.1016/j.dcm.2012.05.002. （原始内容存档于21 Feb 2013）.
^ Collister, Lauren Brittany. *-repair in Online Discourse. Journal of Pragmatics. The Language of Space and Time. 2011-02-01, 43 (3): 918–921. doi:10.1016/j.pragma.2010.09.025. （原始内容存档于21 Feb 2014）.
^ Language Teaching Gains Second Life: Virtual Worlds Offer New Methods to Teach Languages (新闻稿). Avatar English. 2007 [2010-11-08].
^ Baron, Naomi S. Letters by phone or speech by other means: the linguistics of email (PDF). Language and Communication (London: Pergamon). 1998, 18 (2): 133–70 [2010-11-08]. doi:10.1016/S0271-5309(98)00005-6.
^ Olsen, Stefanie; Suri, Sabena. Say so long to traditional letter writing. CNET News. 24 August 2007 [2010-11-10].
^ The EDUCAUSE Learning Initiative. 7 Things You Should Know About Instant Messaging (PDF). 7 Things You Should Know About... (EDUCAUASE Learning Initiative). November 2005 [2010-11-10].
^ Johnson, Heidi. Language Documentation and Archiving, or How to Build a Better Corpus (PDF). Austin, Peter K. (编). Language Documentation and Description 2. London: SOAS. 2004: 140–153.
^ British Association for the Advancement of Science. Txt Crimes, Sex Crimes And Murder: The Science Of Forensic Linguistics. ScienceDaily. 8 September 2008 [2010-11-06].
^ Lee, Ryan. Personal Data Protection in the Semantic Web (PhD thesis). Massachusetts Institute of Technology. 2002 [2010-11-06].
^ Church, Kenneth; Mercer, Robert. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics (MIT Press). 1993, 19 (1): 1–24.
^ McEnery, Tony; Wilson, Andrew. Corpus Linguistics (PDF). Edinburgh: Edinburgh University Press. 1996. ISBN 0-7486-0808-7.
^ Manning, Christopher; Schütze, Hinrich. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. 1999. ISBN 0-262-13360-1.
^ Rigau, German; Magnini, Bernardo; Agirre, Eneko; Carroll, John. Meaning: A roadmap to knowledge technologies.. Proceedings of COLING Workshop on A Roadmap for Computational Linguistics. Taipei, Taiwan. 2002.
^ Volk, Martin. Exploiting the WWW as a corpus to resolve PP attachment ambiguities. Proceedings of Corpus Linguistics 2001. Lancaster, England. 2001.
^ Villasenor-Pineda, L.; Montes-y-Gómez, M.; Pérez-Coutino, M.; Vaufreydaz, D. A corpus balancing method for language model construction. Fourth International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2003). Taipei, Taiwan: 393–401. 2003. doi:10.1007/3-540-36456-0_40.
^ Hawking, David; Voorhees, Ellen; Craswell, Nick; Bailey, Peter. Overview of the TREC8 Web track. Proceedings of the Eighth Text Retrieval Conference. Gaithersburg, Maryland. 1999.

[David_Crystal's_Scope-1] 1.0 ^1.1 ^1.2 ^1.3 Language Development via The Internet. ScienceDaily. February 28, 2005.

[The_scope_of_Internet_Linguistics-2] 2.0 ^2.1 ^2.2 ^2.3 ^2.4 ^2.5 ^2.6 ^2.7 Crystal, David. The Scope of Internet Linguistics (PDF). paper presented at the American Association for the Advancement of Science meeting. 2005.

[Linguistics_and_web_usability-3] Martín del Pozo, Maria Angeles. Linguistics and web usability; Research Paper. No Solo Usabilidad (Not Just Usability). May 8, 2005, 4 [2014-02-15]. ISSN 1886-8592.

[the_web_as_corpus-4] 4.0 ^4.1 ^4.2 Kilgarriff, Adam; Grefenstette, Gregory. Introduction to the Special Issue on the Web as Corpus (PDF). Computational Linguistics (MIT Press). September 2003, 29 (3): 333–347. doi:10.1162/089120103322711569.

[Introduction_to_Minority_Languages,_Multimedia_and_the_Web-5] Cunliffe, Daniel; Herring, Susan C. Introduction to Minority Languages, Multimedia and the Web. New Review of Hypermedia and Multimedia (Informa world). December 2005, 11 (2): 131–137 [2010-11-12]. doi:10.1080/13614560512331392186.

[iPhone_takes_on_BlackBerry-6] Cohen, Peter. iPhone Takes on the BlackBerry. PC World. 7 March 2008 [2010-10-31].

[Universities_Use_Social_Media_to_Connect-7] Cohen, Peter. Universities Use Social Media to Connect. The New York Times. 30 March 2010 [2010-10-31].

[Thurlow-8] 8.0 ^8.1 ^8.2 ^8.3 Thurlow, Crispin. The Internet and Language. Mesthrie, R.; Asher, R. (编). Concise Encyclopedia of Sociolinguistics (PDF). London: Pergamon. 2001: 287–289 [2010-11-09]. ISBN 0-08-043726-5.

[The_Influence_of_Internet_on_Language_and_Email_Stress-9] Nazaryan, Ani; Gridchin, Aleksandr. The Influence of Internet on Language and "Email Stress" (PDF). Law and Politics. 2006, 4 (1): 23–27 [2010-10-19].

[No_LOL_Matter:_Cyber_lingo_shows_up_in_academia-10] Hayslett, Chandra M. No LOL Matter: Cyber lingo shows up in academia. The Seattle Times. 2006-11-26 [2010-11-06].

[Experts_divided_over_Internet_changes_to_Language-11] Abrams, Rachel. Experts divided over Internet changes to Language. VOANews. 2010-01-16 [2010-10-19].

[Always_On-12] Naomi, S. Baron. Always On. Oxford University Press. 2008. ISBN 0-19-531305-4.

[Texting_improves_language_skill-13] Texting 'improves language skill'. BBC. 2009-02-25 [2010-11-04].

[Globalization_and_Language_Education-14] Xie, Tim. Globalization and Language Education. Presentation. June 2008 [2010-10-19].

[Linguists_See_Internet_Lingo_as_Cultural_Catalyst-15] 15.0 ^15.1 Cook, Franklin. Linguists See Internet Lingo as Cultural Catalyst. yourdictionary.com. 2001 [2010-11-08].

[From_Telegraph_to_Twitter:_The_Language_of_the_Short_Form-16] Clark, Roy Peter. From Telegraph to Twitter: The Language of the Short Form. Poynter Online. 4 September 2009 [2010-10-21].

[Thumbs_Race_as_Japan’s_Best_Sellers_Go_Cellular-17] Onishi, Norimitsu. Thumbs Race as Japan’s Best Sellers Go Cellular. The New York Times. 20 January 2008 [2010-11-07].

[Cell_Phones_Put_to_Novel_Use-18] Cell Phones Put to Novel Use. Associated Press. 18 March 2005 [2010-11-08].

[Cell_phone_novels_come_of_age-19] Galbraith, Patrick W. Cell phone novels come of age. Metropolis Magazine. 2010 [2010-11-08].

[Language_and_the_Internet-20] 20.0 ^20.1 ^20.2 ^20.3 Crystal, David. Language and the Internet. Cambridge University Press. 2006. ISBN 978-0-521-86859-4.

[Success_of_blogs_heralds_an_even_bigger_future-21] Francisco, San. Success of blogs heralds an even bigger future. The Age (Melbourne). Associated Press. 18 March 2003 [2010-11-10].

[On_The_Linguistic_Nature_of_Cyberspace_and_Virtual_Communities-22] Cicognani, Anna. On The Linguistic Nature of Cyberspace and Virtual Communities. Virtual Reality (Springer). 1998, 3 (1): 16–24 [2010-11-06]. doi:10.1007/BF01409794.

[23] Collister, Lauren B. The discourse deictics ∧ and <-- in a World of Warcraft community. Discourse, Context & Media. 2012-03-01, 1 (1): 9–19. doi:10.1016/j.dcm.2012.05.002. （原始内容存档于21 Feb 2013）.

[24] Collister, Lauren Brittany. *-repair in Online Discourse. Journal of Pragmatics. The Language of Space and Time. 2011-02-01, 43 (3): 918–921. doi:10.1016/j.pragma.2010.09.025. （原始内容存档于21 Feb 2014）.

[Language_Teaching_Gains_Second_Life:_Virtual_Worlds_Offer_New_Methods_to_Teach_Languages-25] Language Teaching Gains Second Life: Virtual Worlds Offer New Methods to Teach Languages (新闻稿). Avatar English. 2007 [2010-11-08].

[baron-26] Baron, Naomi S. Letters by phone or speech by other means: the linguistics of email (PDF). Language and Communication (London: Pergamon). 1998, 18 (2): 133–70 [2010-11-08]. doi:10.1016/S0271-5309(98)00005-6.

[Say_so_long_to_traditional_letter_writing-27] Olsen, Stefanie; Suri, Sabena. Say so long to traditional letter writing. CNET News. 24 August 2007 [2010-11-10].

[7_things_you_should_know_about…Instant_Messaging-28] The EDUCAUSE Learning Initiative. 7 Things You Should Know About Instant Messaging (PDF). 7 Things You Should Know About... (EDUCAUASE Learning Initiative). November 2005 [2010-11-10].

[Johnson-29] Johnson, Heidi. Language Documentation and Archiving, or How to Build a Better Corpus (PDF). Austin, Peter K. (编). Language Documentation and Description 2. London: SOAS. 2004: 140–153.

[BAAS-30] British Association for the Advancement of Science. Txt Crimes, Sex Crimes And Murder: The Science Of Forensic Linguistics. ScienceDaily. 8 September 2008 [2010-11-06].

[Ryan_Lee-31] Lee, Ryan. Personal Data Protection in the Semantic Web (PhD thesis). Massachusetts Institute of Technology. 2002 [2010-11-06].

[computational_linguistics_using_large_corpora-32] Church, Kenneth; Mercer, Robert. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics (MIT Press). 1993, 19 (1): 1–24.

[McEnery000”-33] McEnery, Tony; Wilson, Andrew. Corpus Linguistics (PDF). Edinburgh: Edinburgh University Press. 1996. ISBN 0-7486-0808-7.

[Manning000”-34] Manning, Christopher; Schütze, Hinrich. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. 1999. ISBN 0-262-13360-1.

[rigau000-35] Rigau, German; Magnini, Bernardo; Agirre, Eneko; Carroll, John. Meaning: A roadmap to knowledge technologies.. Proceedings of COLING Workshop on A Roadmap for Computational Linguistics. Taipei, Taiwan. 2002.

[volk000-36] Volk, Martin. Exploiting the WWW as a corpus to resolve PP attachment ambiguities. Proceedings of Corpus Linguistics 2001. Lancaster, England. 2001.

[Villasenor000-37] Villasenor-Pineda, L.; Montes-y-Gómez, M.; Pérez-Coutino, M.; Vaufreydaz, D. A corpus balancing method for language model construction. Fourth International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2003). Taipei, Taiwan: 393–401. 2003. doi:10.1007/3-540-36456-0_40.

[hawking000-38] Hawking, David; Voorhees, Ellen; Craswell, Nick; Bailey, Peter. Overview of the TREC8 Web track. Proceedings of the Eighth Text Retrieval Conference. Gaithersburg, Maryland. 1999.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

@@ 第1行： / 第1行： @@
-{{translating|[[:en:Internet linguistics]]||tpercent=45|time=2017-03-05}}
+{{translating|[[:en:Internet linguistics]]||tpercent=60|time=2017-03-05}}
 {{Otheruses|网络语言|subject=互联网技术所产生的新型语言风格与结构相关的研究|other=互联网上的常见用语以及其文化}}
@@ 第254行： / 第254行： @@
 {{quotation|原则上来讲，任何多于一个字符的集合都可以被称作一个语料库……但是在现代语言学背景下，“语料库”一词常常暗示了这一简单定义所不具备的东西。这些包括如下四个方面：样本与代表性、有限的大小、可供机读的形式、一个标准的参照。| Tony McEnery and Andrew Wilson| Corpus Linguistics}}
-曼宁（Manning）和舒策（Schütze）（1999年，第22页）提出了与网络语料库更接近的一个定义<ref name="Manning000”">{{Cite book
+曼宁（Manning）和舒策（Schütze）（1999年，第20页）提出了与网络语料库更接近的一个定义<ref name="Manning000”">{{Cite book
   | last = Manning
   | first = Christopher
@@ 第266行： / 第266行： @@
 {{quotation|在统计性的NLP（[[自然语言处理]]）中，人们通常在没有关注到其如何形成的情况下，将某个关注领域中所得到的特定量的数据视作语料库。在这种情况下，更多的训练数据比任何对于平衡性的研究更加有益，而人们应该利用所有可获取的文字（作为训练数据）。| Christopher Manning and Hinrich Schütze| Foundations of Statistical Language Processing}}
+====主题====
+网络语料库的发展可能性被广泛地讨论着。2002年的EU Meaning计划中，人们对利用网络作为数据来源对字词进行消歧义（也就是多义词的辨析）的进展进行了讨论。<ref name="rigau000">{{Cite conference
+  | last = Rigau
+  | first = German
+  | last2 = Magnini
+  | first2 = Bernardo
+  | last3 = Agirre
+  | first3 = Eneko
+  | last4 = Carroll
+  | first4 = John
+  | title = Meaning: A roadmap to knowledge technologies.
+  | booktitle = Proceedings of COLING Workshop on A Roadmap for Computational Linguistics
+  | place = Taipei, Taiwan
+  | year = 2002 }}</ref>这假设了在一定的讨论范围之内，一个单词通常只有一个理解方式。而这里所说的“讨论范围”一般可以利用互联网来进行确认。人们在Word Expert Web利用互联网科技进一步探索了这种手动添加注释的方式。
+在[[語言模型|语言模型]]的领域，网络被用在解决数据稀疏的问题。人们收集字典的统计数据，并利用这些数据来解决介词后缀的问题，<ref name="volk000">{{Cite conference
+  | last = Volk
+  | first = Martin
+  | title = Exploiting the WWW as a corpus to resolve PP attachment ambiguities
+  | booktitle = Proceedings of Corpus Linguistics 2001
+  | place = Lancaster, England
+  | year = 2001 }}</ref>而同时网络中的文档数据则被用于维持语料库的平衡。<ref name="Villasenor000">{{Cite conference
+  | last = Villasenor-Pineda
+  | first = L.
+  | last2 = Montes-y-Gómez
+  | first2 = M.
+  | last3 = Pérez-Coutino
+  | first3 = M.
+  | last4 = Vaufreydaz
+  | first4 = D.
+  | title = A corpus balancing method for language model construction
+  | booktitle = Fourth International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2003)
+  | place = Taipei, Taiwan
+  | pages = 393–401
+  | year = 2003|doi=10.1007/3-540-36456-0_40 }}</ref>
+在信息采集方面，网络轨道被整合成社区的TREC（[[文本信息检索]]）评估的一部分。用于此目的的网络样本大约累计有100GB左右，主要由[[.gov]]这一顶级域名中的文档所构成。<ref name="hawking000">{{Cite conference
+  | last = Hawking
+  | first = David
+  | last2 = Voorhees
+  | first2 = Ellen
+  | last3 = Craswell
+  | first3 = Nick
+  | last4 = Bailey
+  | first4 = Peter
+  | title = Overview of the TREC8 Web track
+  | booktitle = Proceedings of the Eighth Text Retrieval Conference
+  | place = Gaithersburg, Maryland
+  | year = 1999 }}</ref>
 == 参见 ==