五笔字型输入法
| 鏈入·檢·編五笔字型输入法 中文輸入法 |
|
|---|---|
五笔98码元的示意图 |
|
| 發明人 | 王永民 |
| 發明年份 | 1983年8月 |
| 類別 | 字型 |
五筆字型輸入法简称五笔,是王永民在1983年8月发明的一种汉字输入法。中文输入法的编码方案很多,但基本依据都是汉字的读音和字形两种属性。五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的形码输入法。五筆字型輸入法主要用于使用简体中文的中国大陆,过去,五笔打字比拼音方便,但随着智能拼音的兴起,五笔已经不具备优势。调查表明,目前,在大学生中,使用五笔的人已经很少了[1]。而且,很多手机没有QWERTY键盘,无法在手机上使用五笔,是五笔的巨大劣势。
目录 |
[编辑] 字根
五笔字根是五笔输入法的基本单元,86版使用130个字根,98版更需要使用245个字根。
[编辑] 五笔中的汉字结构及字型
基本字根在组成汉字时,按照它们之间的位置关系可以分成四类结构。
- 单:基本字根本身就单独成为一个汉字。这种情况包括键名字和成字字根。如:口、木、竹等。
- 散:指构成汉字的基本字根之间可以保持一定的距离。如:汉、湘、结、别、安、意等。
- 连:指一个基本字根连一单笔画。如:“丿”连“目”成为“自”。
- 交:指几个基本字根交叉套迭之后构成的汉字。如“申”是由“日”交“丨”,“夷”由“一”交“弓”交“人”交叉构成。
在五笔中,汉字分为左右型、上下型和杂合型汉字。
[编辑] 取码原理
所以叫作五笔,是指将汉字笔划分为五个区:即:横、竖、撇、捺(同点)、折(同提)五区。把字根或码元按一定规律分布在25个字母键上(即标准的QWER键盘,不包括Z)。取码时最长四码,最短一码。
2006年12月,王永民又在此基础上,研究出用于手机输入的基于6个码元和“右手法则——前四末一”取码法的数字王码[2]
[编辑] 键名字
键名是指各键位左上角的黑体字根,它们是组字频度较高,而形体上又有一定代表性的字根,它们中绝大多数本身就是汉字,只要把它们所在键连击四次就可以了。如∶王∶11 11 11 11 (GGGG)
[编辑] 成字字根
在每个键位上,除了一个键名字根外,还有数量不等的几种其它字根,它们中间的一部分其本身也是一个汉字,我们称之为成字字根。 输入方法:键名代码+首笔代码+次笔代码+末笔代码(如果该字根只有两笔画,则补空格键结束)
[编辑] 单字输入
除键名字和成字字根汉字之外的汉字,如果一个字可以取够四个字根,就全部用字根键入,只有在不足四个字根的情况下,才有必要追加识别码。
[编辑] 末笔字型识别码
当一个字拆不够4个码元时,它的输入编码是:先打完码元,再追加一个“末笔字型识别码”,简称“识别码”。末笔字型识别码由汉字的末笔画代码和字型代码组成。
[编辑] 拆分原则
- 能散不连
- 兼顾直观
- 能连不交
- 取大优先
[编辑] 词组的录入
- 双字词
取第一字的前两位编码和第二字的前两位编码,如“北”(UXN)+“京”(YIU)=“北京”(UXYI)
- 三字词
取第一字的第一位编码,第二位的第一位编码,第三字的前两位编码,如“新”(USRH)+“加”(LKG)+“坡”(FHCY)=“新加坡”(ULFH)
- 四字词
取每一个字的第一位编码,如“自”(THD)+“相”(SHG)+“矛”(CBTR)+“盾”(RFHD)=“自相矛盾”(TSCR)
- 多字词
取一、二、三、末字的第一位编码,如"中"(KHK)+"国"(LGYI)+"共"(AWU)+"产"(UTE)+"党"(IPKQ)="中国共产党"(KLAI)
[编辑] 简码字
指一些较常用字可以用一、二或三字母编码打出,分别称为一、二、三级简码
一级简码包含汉语(尤其是官方语体)最常用字中的25个,为了尽可能全面地安排最常用的汉字,部分一级简码并非是该字全码的首位。
但所有的二级或三级简码均为该字全码的前二或三位
一级简码如下,86版与98版通用
| 编码 | 汉字 |
|---|---|
| G | 一 |
| F | 地 |
| D | 在 |
| S | 要 |
| A | 工 |
| H | 上 |
| J | 是 |
| K | 中 |
| L | 国 |
| M | 同 |
| T | 和 |
| R | 的 |
| E | 有 |
| W | 人 |
| Q | 我 |
| Y | 主 |
| U | 产 |
| I | 不 |
| O | 为 |
| P | 这 |
| N | 民 |
| B | 了 |
| V | 发 |
| C | 以 |
| X | 经 |
[编辑] “Z”键在五笔中的用途
由于五笔字型中,采用了五种笔划,每个字根或码元只取前两划定位它们在键盘上的位置,所以五笔字型汉字编码只用到了5×5=25个字母键。每个字的编码中都没有“Z”。后来大部分五笔输入软件都附与Z键查询功能,又叫作“万能键”或“万能学习键”。初学者可以在对某个字不确定其拆分时,使用“Z”键代替不确定的字根或码元。 也有一些五笔输入法使用“Z”键来实现拼音反查五笔或符号输入功能。 早期DOS系统中Z键可以用在任何位置,然现今大多数五笔输入法中Z键均无法在首位作为不确定的字根代替码.一些输入法中若在首位输入Z则跳出特殊符号选择列表。
[编辑] “L”键在五笔中的用途
与“Z”键的用途为大多数熟知不同,“L”键在五笔编码中也有许多人不太了解的特殊用途:
- 单笔画字
- 编码方案对单笔画字的编码规定为「两个单笔画字母加两个L」,如一(GGLL)、丨(HHLL)、丿(TTLL)、(YYLL)、乙(NNLL)。由于竖、撇、捺构成的字不为大多数人认识,而“一”字有一级简码(G),乙字又不常用(偶尔用到时,一般不记得正确编码的输入者常会用别的输入法代替输入),所以这一编码方案细节常被人忽略。
- 罕用字与常见词组的冲突
- 词组“劳动”与“蔻”字,如果按编码方案,其编码均为(APFC),按照一般的规定,重码时应是以单字优先,可是相比之下,“劳动”是常用词,而“蔻”字几乎不会单独出现,通常总是以词组“豆蔻”的形式出现,所以,为了方便输入以及减少重码,在最终方案中蔻字的编码被强制设为(APFL),但非所有五笔输入法都跟随。
类似地,早期版本的五笔将“靥”字的编码强制设为(DDDL),以避免和更常用的“大”(DDDD)重复.
[编辑] 以旧字型为本
[编辑] 评价
| 赞许观点 | 批评观点 |
|---|---|
| 五笔键码短、输入快,多简码,一个字或一个词组最多只有四个码,适用于简化字。 | 五笔虽然单字的重码率低,但词组的重码率高,因此,五笔普遍不使用大词库,以防止过多重码,但词库太小时,打字反而不方便,因此综合来看,五笔的重码率已经没有优势了。 |
| 五笔练习对分拆汉字的能力是很好的训练,并能锻炼个人的认字能力。例如“尴尬”二字中的“尢”常被误写为“九”,五笔按“尢”拆分可以纠正这种错误观念[2] | 为了减少重码,五笔中有大量的无理码,这不符合汉字的结构和书写规范,因此,并不能锻炼人的认字能力,长期用无理码打字,使人们对汉字有了错误的认识,反而有害。中华人民共和国教育部就是因为这个原因没有在学校强制推广五笔。例如,按规范"力、刀、万、方、乃"等一类字的末笔应为撇,可是86版五笔字型却规定为折;"瓦"的末笔应为中间的点,86版五笔字型却规定为折;"戈、戋、我、咸、成、戊、戌、戎"等一类字的末笔应为右上角的点,86版五笔字型却规定为倒数第二笔撇,凡此等等。[3] |
| 会打五笔的人用字比打拼音更准确。 | 打字准不准确取决于打字者是否细心,没有错别字的拼音输入的文章很多,用五笔时出现的错别字也并不罕见。 |
| 由于有五笔字型口诀,并不难于记忆。 | 五笔字型使用的是字根和码元作为输入时的助记符,86版使用130个字根,98版更需要使用245个字根,记忆量要比拼音或注音输入方法大。不仅如此,五笔字型的字根排布没有规律,远不及其它形码,增加了它的记忆难度。而且,五笔字型一旦有一段时间不用,就会忘记,需要重复学习,增加民众学习负担。 |
[编辑] 版本
五笔字型在发展过程中形成了最常用的两种编码方案,即86版和98版:
- 86版也就是老式的五笔,又称4.5版。使用130个字根,可处理GB 2312汉字集中的6763个汉字。由于习惯问题,它至今仍然是拥有用户群最为巨大的编码方案。编码举例:“那”VFBH
- 98版则是一种改进型的方案,其编码的科学性更强、更易于学习和使用。使用245个码元,可处理中、日、韩大字集中21003个汉字。但二者在编码原则上大同小异。编码举例:“那”NGBH
[编辑] 版本的使用情况
虽然设计者认为,86版的字根设置不如98版科学。但是由于86版较先发布,使用者和输入法程序都比98版多。
- 从学习的角度看,有的人包括设计者在内的认为与98版五笔相比较,86版较难学习,很多笔画多的字没有字根,导致很难拆分;也有的人认为由于86版较先发布,很多人已经掌握了86版的字根排布,很难再接受98版的五笔字根排布。
- 重码问题一直是困扰汉字输入法的一道难题,五笔字型一样会有重码,但两个版本比起来,86版的重码数较98版多,如赢、羸、嬴、蠃(YNKY),微、徽、徵(TMGT)。从使用效果上看,多数忠实于86版的用户来说,使用时间长了,渐渐已经熟悉其重码的部分情况,碰到输入这些重码字的时候会留意选择。
- 从字形上看,86版很多字都没有以简化字的字形出发,而以旧字形编码,造成很多字不按规则输入,形成特例字。98版已经较为改进这一类情况,使得输入此类字的时候能正确区分其左右,上下,外内等因素,但并没有根本解决此问题。
- 折的部分由于向右偏移,造成不顺手、不习惯。
- 86版过分在乎重码字,以规则去区分两个形近字,如(日与曰,未与末),但加入词组后,重码仍无法避免(尤、万、尢)。98版在修改字根排布之后较少出现这类情况。
- 86版设计的时候只适用于简化字,目前只有少数输入法支持五笔输入繁体字,而且繁体字输入在极少字根下十分困难。98版的更新中把一些拆分过量的字根和码元进行了整合,使之更容易支持繁体字。
[编辑] 输入软件
[编辑] 王码五笔输入软件
- 王码五笔型18030推出,是由于部分用户不适应98版,而又有输入更多汉字的需要而出现的。它基本延用86版的编码,而能处理中國国家的强制性标准GB 18030-2000字集的汉字,该字集可以处理27533个汉字。
[编辑] 其它五笔输入软件
在王码五笔出现之后,又出现了许多其它的五笔输入法。由于86版编码的专利开放,它们大多採用86版的编码方式,但也有使用者个人提供98编码的码表。它们在造词等功能上加以改进,也获得了一定的用户群。这其中也有一部分是以五笔编码形式为主的输入平台,它们不仅可以以五笔方式来输入,也可以根据用户的需求安装不同的码表以提供其它编码的输入方式。
[编辑] 评价
- 解决了汉字进入电脑的世界性难题,2008年1月8日,王码公司研发的“大一统五笔字型”获得中国国务院颁发的“国家科学技术发明奖”,成为唯一获此殊荣的汉字输入法。
- 被联合国全面采用,是全世界唯一广泛应用的“汉字编码”输入技术。
- 新华社评价“王码”是“在中国文化史上其意义不亚于活字印刷术的重大发明,中国国家邮政总局发行了“当代毕昇——王永民”的邮票。在中科院院长路甬祥主编的《科学改变人类生活的100个瞬间》一书中,将王永民称为“把中国带入信息时代的人”。