Help:中文维基百科的繁简、地区词处理

维基百科,自由的百科全书
跳转至: 导航搜索
快捷方式
H:AC

中文維基百科繁簡處理中文維基百科的一項自動轉換,目的是以电脑程序適應不同用字模式的差異。

中文維基百科的讀者和編者來自世界各地。他們所需求或貢獻的中文在性質上有許許多多的差異,像是簡化字繁体字的差異、各地区詞彙的差異、方言差異造成的书面語言的差異等等。MediaWiki將這些中文性質集合在一起,稱為「用字模式」。可以說:一種用字模式就是某些中文性質的一個集合。

為了整合讀者和編者多元的資源,也為了促進各方的交流,本百科並不規範讀者或編者要使用何種用字模式,而是嘗試以電腦程式的自動轉換來適應這些差異,讓編者可以以自己的用字習慣提供資料,也讓讀者可以選擇所要的資料的用字遣詞。

因此編輯和閱讀中文維基百科時有特別的事項需要注意。事實上,就連本頁嘗試說明的事項,也有許多模糊之處。

用字模式自動轉換與維基系統本身的原理有關。大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為源碼。維基系統通常會保留完整不變的源碼,不作自動轉換。讀者使用維基系統時,並非直接閱讀源碼,而是由系統將源碼即時自動轉換成合適的形式,例如加上圖片、超連結等等。而中文维基百科的用字模式轉換就是眾多自動轉換程序中的一道。

自動轉換電腦程式的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。

大多數時候(預設情況),維基程序是根據轉換表進行轉換。有的時候,則是根據編者在源碼中指定的方式作自動轉換,包括不轉換或是所謂「手動轉換」

轉換表就是一份列出各種不同用字模式之間,字與字或是詞與詞之間的對應關係的表格。目前只有管理員能編輯轉換表。

所謂「手動轉換」仍然是維基系統在讀者使用時即時作的自動轉換,但是這時程序是根據編者在源碼中指定的方式為優先。

編者可以在編輯存檔後切換至其他用字模式查看情況。

用字模式選擇[编辑]

目前中文百科系统支持中文的zh(中文用字)、zh-hant(正體/繁體用字)、zh-tw(台灣用字)、zh-hk(香港用字)、zh-mo(澳門用字),以及zh-hans(簡體用字)、zh-cn(中國大陸用字)、zh-sg(新加坡用字)、zh-my(馬來西亞用字)九種用字模式。不過,目前中文維基百科只啟用了zh-tw(台灣用字)、zh-hk(香港用字)、zh-mo(澳門用字)、zh-sg(新加坡用字)和zh-cn(中國用字)五種模式,zh(中文用字)、zh-hant(正體/繁體用字)、zh-hans(簡體用字)三種則需要註冊後在參數設置選取小工具才能顯示,zh-my(馬來西亞用字)則已為zh-sg(新加坡用字)所涵蓋而未啟用。要支持更多的用字模式需要修改程序,如果有實際需要請在討論頁中提出。

文章主体正(繁)體/简体选择(按优先级):

  • 所有人都可以把URL(http://zh.wikipedia.org/wiki/条目名称)中的 wiki 改成 zh-xx。对于 http://zh.wikipedia.org/w/index.php 开头的页面,可以在URL最后加上 &variant=zh-xx。其中 xx 可为 hans、hant、cn、tw、hk、mo、sg
  • 已登入的用戶可以在个人參数裡选择不同的中文語言;
  • 对匿名用户,系統根据用户浏览器要求的语言设置。参见此处
  • 如果以上设置都没有,则缺省为zh。

另外,不同的面板(Skin)都增加了到各個用字模式的链接,如現在的Vector面板,鏈接是在文章討論頁連結旁,使用下拉選單選擇的。以前的MonoBook面板链接則是在文章的右上方。链接的名称可以通过MediaWiki:variantname-zh-tw/zh-cnMediaWiki:variantname-zh-tw/zh-tw等修改。

界面的用字模式[编辑]

界面的用字模式是独立于文章内容的用字模式的。除了中文的各種用字模式,还可以选择英文、法文等等语言。界面用字模式在已登入用戶的个人参数里设置。

转换表[编辑]

目前,系统預設的自动转换是根據數個「轉換表」。轉換表就是一份表格,記載各種不同用字模式之間,字與字或是詞與詞之間的對應關係。又叫系统默认转换表。目前只有管理員能編輯定制轉換表,一般人可以向管理員提出申請。

參見:Wikipedia:繁简体转换请求

系统默认转换表[编辑]

系统默认的转换表存在于mediawiki程序中:

参见Wikipedia:简繁一多对应校验表Wikipedia:繁简一多对应校验表

定制转换表[编辑]

管理员可以通过Mediawiki:Conversiontable/zh-hansMediawiki:Conversiontable/zh-hantMediawiki:Conversiontable/zh-cnMediawiki:Conversiontable/zh-twMediawiki:Conversiontable/zh-sg,及Mediawiki:Conversiontable/zh-hk来定制转换表。普通用户可以在Wikipedia:繁简体转换请求里提出修改转换表的建议。定制转换表可以用来修正系统默认转换表里的错误。这些页面可以象其他页面一样编写,但是描述转换关系需依以下格式:

-{
 皇后 => 皇后;
 波斯尼亚 => 波士尼亞;
 萨拉热窝 => 塞拉耶佛 //Sarajevo的翻译;
 ...
 }-

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,注意每条转换关系要以“;”终止。

Conversiontable/zh-cn页面用于向zh-cn的转换,Conversiontable/zh-tw页面用于向zh-tw的转换,等等。

这些页面更新后,其效果并不一定会即时显示出来,因为有些页面可能放在頁面缓存裡。要看即时效果可以用编辑预览功能。

关于-{}-标记[编辑]

例如:“張國榮曾在英國利兹大学學習。”所用的-{}-标记是[[利兹大學|-{zh:利兹;zh-hans:利兹;zh-hk:列斯;zh-tw:里茲}-大学]]

參見本頁「禁止自动转换一段文字的标签」。

-{}-标记现已可完整支持链接、模板、图像的转换。对HTML属性的转换请使用{{lan}}。

源碼一般不做轉換[编辑]

大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為源碼。維基系統通常會保留完整不變的源碼,不會對源碼作自動轉換。

斷詞問題——自動轉換程式常見的問題[编辑]

注意:中文维基百科不保证用字模式自動轉換程式和内容的正确性。用字模式自動轉換並不一定正確,甚至可以說是各種自動轉換中問題最多的。

转换程序使用最简单的“最大匹配法”进行转换。这会导致如下的错误:假设转换表中有一对应关系为

内存 => 記憶體

现对以下句子作转换

人体内存在很多微生物

基于最大匹配,系统会对“内存”进行转换,得到“記憶體”。整个句子将会被错误地转换成

人體記憶體在很多微生物

解决这个问题的根本方法是采用智能的斷詞匹配,将上述句子先拆分为

人体 内 存在 很多 微生物

然后再对每个词单独转换。

在具有這種智能的斷詞系统没有实现之前,要修正上述错误,可以有两种方法:

  1. 手工将涉及斷詞错误的词分开:人体内-{}-存在很多微生物
  2. 将涉及斷詞错误的多个词作为整体加到定制转换表里,如“体内存在 => 體內存在”。(註:目前只有管理員能編輯轉換表,一般人可以向管理員提出申請。)

這就是斷詞的錯誤。閱讀本百科時請多加注意。遇到可疑的部分可以前往編輯頁面去查源碼,或是多多留意不同用字模式之間的轉換關係,以養成自行「反轉換」的能力。

控制自动转换的代碼[编辑]

出于特殊的需要,可以用以下的語法設定不自動转换,或是「手工转换」

設定了所謂「手工轉換」,其實維基系統仍然會在閱讀者使用時根據系统默认转换表作自動轉換,但是這時系統還會根據編者在源碼中指定(增添)的方式作轉換,並且將編者的方式優先排在转换表所列出的方式之前。也就是由編者自行增添轉換方式。


常用的轉換工具語法[编辑]

  • 禁止自動轉換一段文字的標籤
    -{文字}-
    效果:文字
    对于-{}-中的文字为转换规则(比如:“zh:中文”),但又希望保持原样,可以用:
    -{R|文字}-
    效果:文字
  • 禁止自動轉換一段文字整体的標籤
    文-{}-字
    但分隔在-{}-两侧的文字仍作字词轉換
    效果:
    繁體:舊-{}-金山,香港稱-{三藩市}-。
    簡體:旧-{}-金山,香港称-{三藩市}-。
  • 手工轉換一段文字的標籤(局部性自行增添轉換方式標籤):
    -{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字1
  • 全文手工轉換標籤(全面性自行增添轉換方式標籤):
    -{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字1
  • 隐藏式全文手工轉換標籤(全面性自行增添轉換方式標籤):
    -{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字1
  • 全文手工删除轉換標籤(从全局转换表中删除某个规则,在该页面中不再以该规则转换):
    -{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字1
  • 條目標題手工轉換標籤
    -{T|文字}-
    -{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
  • 轉換規則描述標籤(將該規則用人易讀的方式顯示出來):
    -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;台灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;
  • 用字模式名稱標籤(將某種語言的代碼轉換成文字描述):
    -{N|zh-hk}-
    效果:香港
  • 转换到指定语言(有沿溯(fallback)的限制,MediaWiki 1.15新增功能):
    -{zh-hans;zh-hant|文字}-
    效果:文字
    此功能可用于需要避免地区词转换,但允许繁简转换的场合。比如{{Infobox Film}}中的各地片名部分。
  • 全文禁止自動轉換
    __NOCC____NOCONTENTCONVERT__
  • 條目標題禁止自動轉換
    __NOTC__ 或__NOTITLECONVERT__

條目標題[编辑]

有时文章的标题不需要转换,如維基詞典里的单字,或如《计算机世界报》之类的专有名词。在这种情况下,可以在文章中加一__NOTC____NOTITLECONVERT__(注意前后都是两道下划线)来禁止对该文章标题的转换。然而,在中文维基百科,由于可能的简繁不同体问题(如“计算机世界报”和“計算機世界報”),我们不推荐使用这两个标签,而推荐使用下文中的“-{T|}-”转换。

注意:这个标记要放在文章最开始的地方。

此外,MediaWiki软件支持单个用户设置禁止自己浏览时的标题转换,也支持全站禁止标题转换。单个用户要在自己浏览时禁止标题转换,可在Special:参数设置的“用户资料”一栏中勾上“不转换链接标题”选框;某个wiki站点要禁止所有的标题转换(但启用正文转换),可在LocalSettings.php中设置$wgDisableTitleConversion = True;

有时一篇文章的标题裡,可能含有各地區認知不同或翻譯方式差異很大的辭彙,但因為某些理由不適合透過修改转换表來達成自动转换的目的,通常是因為一些常用字。如果贸然修改轉換表,可能會造成更多地方產生錯誤。这种情况下可以有两种方法处理,我们推荐后一种:

  1. 在文章内使用标题转换来指明标题的正确显示:-{T|标题}--{T|zh:中文用字; zh-hans:中國大陸用字; zh-sg:新加坡用字}-
  2. 在文章内使用全文手工转换:-{A|标题}--{A|zh:中文用字; zh-hans:中國大陸用字; zh-sg:新加坡用字}-

實例:美國政治家John Kerry分別有「约翰·克里」、「約翰·凱利」與「約翰·克里」的不同譯名,但如果在轉換表中進行「克里<=>凱利」的互換,那麼歐洲地名[[克里米亞]]與[[克里姆林宮|克里姆林宮]]將會變成「凱利米亞」與「凱利姆林宮」的錯誤情況,為了避免製造更多的混亂,這情況比較適合在约翰·克里的條目中以手工轉換標籤修正標題與內文部份的相關譯名。

注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过重定向将各种用字模式的同一标题指向该文章。如約翰·凱利

全文禁止自動轉換[编辑]

有时通篇文章都需要不转换,例如讨论繁体/简体的文章。在这种情况下,可以在文章中加一 __NOCC____NOCONTENTCONVERT__(注意前后都是两道下划线)来禁止对该文章内容的转换。不过,在中文维基百科,为了便于各地读者阅读,我们不建议禁止除字词转换相关页面以外页面的全文自动转换。

注意:这个标记要放在文章最开始的地方。

自動轉換的能力範圍[编辑]

本百科很多頁面都可進行自動轉換。但是仍有很多例外。例如最近更新頁面Special:Recentchanges這樣的特殊頁面,就有一部分是不轉換的。

參見Wikipedia:什麼是條目

頁面分類[编辑]

目前自動轉換電腦程式的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。因此除非特別指定,否則條目標題或是子分類標題的分類是根據經過自動轉換之後的結果來分類。然而在此的自動轉換也和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。

實例:美國政治人物John Kerry分別有「约翰·克里」、「約翰·克里」與「約翰·凱利」的不同譯名。譯名的關係已加入轉換表,而條目的源碼中並沒有特別指定不轉換,所以閱讀者使用維基系統時,並非直接閱讀源碼,而是由系統將源碼自動轉換成合適的形式。但是在頁面分類中,的自動轉換也和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。

在分類頁Category:美國政治人物之中,如果讀者選擇中國大陸用字新加坡用字模式,將看到约翰·克里的條目歸類在「约」字之下的约翰·克里:

而選擇台灣用字香港用字的讀者則會看到這條目歸類在正體的「約」字之下,然而條目名稱是約翰·凱利:

子分類也是一樣。

軟體問題[编辑]

2006年1月開始出現一個問題,可能與新版本的MediaWiki有關。只要是分類名繁體對簡體,條目或子分類就會從母分類消失,但是條目或子分類頁經過任何編輯之後又會恢復,但系統下一次的链接更新時又會消失。另外,分類是不可使用重定向功能的。

參看:頁面分類

这一问题已在2009年2月修复,但分类仍不可使用重定向功能。

內部連結、URL、重定向與搜索[编辑]

雖然源碼一般不做轉換。只有程序產生出來的頁面有經過轉換。然而讀者收到的頁面上,在維基系統之內的「內部連結」(不是外部連結或普通的URL,參見Help:链接),並不是由源碼決定,是由程序產生出來的頁面決定。也就是說:連結也會受到自動轉換電腦程序影響。

同上例:從2004年3月8日2005年3月26日之前,維基百科上面只有约翰·克里條目,而沒有台灣用字模式的約翰·凱利條目,也沒有將「約翰·凱利」重定向至约翰·克里。這段時間如果在源碼中有[[約翰·凱利]] 這段代碼的話,那麼:
    • 如果有人是用「不轉換」模式來瀏覽的話,那麼可以收到連往「约翰·克里」頁面的「約翰·凱利」(系統會在用字模式自動轉換之後自動加上連到「约翰·克里」的連結)。
    • 如果有人是用「不轉換」模式來瀏覽的話,那麼會收到有待編輯的「約翰·凱利」(因為系統直接連到當時什麼都沒有的「約翰·凱利」)。

用字自動轉換電腦程序的能力範圍不包括維基百科的URL與搜索功能。百科的系統不會對URL之中的漢字(有時是Punycode的代號形式),或是輸入搜索功能的查詢字串作用字轉換。

同一例:這段時間,「約翰·凱利」無論是條目名稱或是其相關的URL(例如 http://zh.wikipedia.org/wiki/約翰·凱利)都是空的。直到2005年3月26日Zhengzhu將「約翰·凱利」重定向至约翰·克里約翰·凱利這個條目,以及相關的URL才有內容。

重定向頁的內容不會受到自動轉換電腦程序影響。

同一例:Zhengzhu所加入的重定向代碼如下:
#REDIRECT [[约翰·克里]]
這並不受自動轉換電腦程序影響。請看http://....title=約翰·凱利&redirect=no&variant=zh-tw

本百科的條目名稱搜索(「進入」)受到自動轉換電腦程序影響。

本百科的條目全文搜索(「搜索」)不會受到自動轉換電腦程序影響。

本百科之外的[[搜索引擎]]如Google可能有自己的自動轉換電腦程序。目前已知搜索時會作簡單的繁簡轉換。當需要建立繁簡重定向頁的時候,建立新條目的方式往往無法奏效。

如何建立繁簡重定向頁[编辑]

登录的用戶可以使用移動頁面功能來建立繁簡重定向頁。比方說,假設現在有個名為「沈阳」的條目,而你想要建立從「瀋陽」到「沈阳」的重定向頁,那麼應該要進行兩次移動:

  1. 將「沈阳」移動到「瀋陽」。
  2. 將「瀋陽」移動到「沈阳」。

其結果將是「沈阳」的條目維持原狀,而「瀋陽」成為指向「沈阳」的重定向頁。

第二次移動看似多餘,但會帶來兩個好處:

  • 對該條目歷來參與者的尊重——未經討論貿然改變一個條目的名稱是不恰當的行為
  • 一旦條目名稱改變,原本指向該條目的連結雖會以重定向的方式指向正確的條目,但長期來說所有重定向連結都應該用直接連結取代。修改所有這些連結會增加維基百科的維護成本(尤其是其他語言的維基百科也有可能透過跨語言連結連向這些頁面),比起此種額外負擔,將條目保持原有名稱會是更有效率的作法。

另一种较简单的办法是,在参数设置中勾选上“不转换链接标题”,这样您就可以直接创建重定向页,而不必经过两次移动了。

編輯一般文章時的注意事項[编辑]

  • 若無正當理由,請勿將文章中的繁體替換成簡體,或將簡體替換成繁體,這種操作屬於繁簡破壞

請注意:若您的瀏覽器安裝了同文堂等繁簡轉換軟件,請在編輯時將其關閉。

  • 避免繁簡混雜、或以繁/簡體打出簡/繁體用詞,文章內容及標題(包括分類標題)必須全簡體或繁體,例如对「中國历史」(正确写法为“中国历史”或「中國歷史」)和「操作系統」(正确写法为「作業系統」或“操作系统”),系統可能无法作出正確的轉換。如果為單純繁簡轉換(如前者),尚可能成功;但若為使用繁體文字打出簡體詞彙(如後者),則轉換通常註定失敗。尤其後者的情況基本上屬於繁簡破壞的一種。因此,除非十分瞭解繁簡差異,否則在編輯極易出現繁簡差異的條目(例如電腦相關的條目)時,請簡體中文使用者不要使用繁體字錄入、繁體中文使用者不要使用簡體字錄入。
  • 在以前許多事物有繁簡體兩個版本的不同文章來介紹。現在需要通過手工將這樣的文章合併起來。具體請参看Wikipedia:繁簡處理

参看[编辑]

幫助文檔
Help:中文维基百科的繁简、地区词处理 讨论页
Help:進階字詞轉換處理 讨论页
Help:繁简处理/技术方案 讨论页
Help:繁简处理/转换原理(介紹轉換表的原理)  
Help:字词转换语法  
字詞轉換處理
Wikipedia:字詞轉換處理(一般性對繁簡體、地區詞的政策)
Wikipedia:繁简处理 讨论页 存档 1 2 3 4 5 6
Wikipedia:地区词处理
Wikipedia:简繁一多对应校验表
Wikipedia:繁简一多对应校验表
相關討論/投票
Wikipedia:繁简体转换请求
Wikipedia:字词转换错误修复请求
Wikipedia:地区词转换候选
已完成的討論/投票
Wikipedia:投票/增加「香港繁體」轉換標籤 討論頁
Wikipedia:馬新簡體標籤顯示民意調查 討論頁
Wikipedia:投票/頁頂自動轉換標籤 討論頁
Wikipedia:關於改革字體、地區詞轉換功能的調查 討論頁
主要相關模板
Template:noteTA 全文字詞轉換,可加入公共轉換組
Template:CGroup 公共轉換組,對同一類題材或同系列的字詞作轉換
Template:地区用词 在條目起首對不同地區的用詞作介紹
Mediawiki 系统转换表
MediaWiki:Conversiontable/zh-cn 讨论页
MediaWiki:Conversiontable/zh-hans 讨论页
MediaWiki:Conversiontable/zh-hant 讨论页
MediaWiki:Conversiontable/zh-hk 讨论页
MediaWiki:Conversiontable/zh-sg 讨论页
MediaWiki:Conversiontable/zh-tw 讨论页