維基百科討論:繁簡處理/檔案5

頁面內容不支援其他語言。
維基百科,自由的百科全書

關於語言代碼的問題

目前我們使用的恐怕是 zh-CN 和 zh-TW,拋開政治問題不談,這兩個代碼並沒有很好的對應簡體中文和繁體中文的概念。確切的說它們對應的是中國大陸中文和台灣中文。顯然我們還有 zh-HK 香港中文,還有新加坡中文(抱歉我不記得其國家和地區代碼了)。顯然我們無力也絕無必要再產生兩種語言變體的版本。

這裡有個重要的提議,我們應該使用 zh-Hans 和 zh-Hant 來表示簡體中文和繁體中文。並固守其本質意義:簡體和繁體只是字體上的差別,從技術上說後者可以無損失的轉換到前者。

這裡有一個台灣人的繁簡轉換的程序,比較好用。線上繁簡網頁與文字轉換及校對區(Big5→GB/上海Mirror) http://artvine.com.tw/images/uu.htm 線上繁簡網頁與文字轉換及校對區(GB→Big5/上海Mirror)http://artvine.com.tw/images/uu2.htm

請參考我的文章:關於zh-Hans/zh-Hant的問題

我們不應該把 zh-TW 和 zh-CN 的差別,特別是語義、語用上的差別(語法層面的差別雖然存在但比較小),等同於簡體和繁體的差別!

除了技術問題之外,簡體和繁體的互相對應和轉換有幾個重大的難點。我們必須考慮這些問題並作出抉擇:

1. 詞彙差異。這已經有太多例子。然而我要說的是,比相同概念用不同詞來表示更頭痛的問題是:用相同的詞表示不同的概念。這在技術詞彙領域尤其頭大!(Todo:舉例)但是顯然此種情況實際上是 zh-TW 和 zh-CN 或者 zh-HK 的差別。如果我們只是要解決 zh-Hans 和 zh-Hant 的問題,則應該刨除或者暫且擱置它。 2. 繁體簡體字混雜所產生的組合的可能是指數級的。 3. 簡體如何反轉成繁體。

. . 13:26 2004年3月17日 . . User:Hax


我來舉個簡單的科技用語差異:

analog 大陸方面譯成模擬(擬),台灣方面譯成類比

simulation 大陸方面譯成仿眞,台灣方面譯成模擬

Briston in Taiwan

外國人名跨語言鏈接的問題

我已經發現謝赫·艾哈邁德·亞辛轉接到英文條目沒有問題,但是從英語回到中文條目就不行了,相同的情況出現在馬德里3·11爆炸案。應該是分隔點「·」導致的鏈接錯誤,如何解決? Cncs Talk 10:50 2004-03-23 UTC

在英文版裡用 ·來代替這個 middle dot. -- 石添小草 14:23 2004年3月28日 (UTC)

好久沒來了,現在情形如何? Dowba 11:29 2004年3月28日 (UTC)

我的一點小意見

我並不覺得繁體簡體之間的問題很大,美式英語和英國本土英語之間的差別其中包括寫法和特定名詞比中華民國和中國之間的差別大很多。在語言習慣和語法字形上面兩岸的中文並沒有很大的交流困難。現在統一用utf其實在同一葉面內的瀏覽已經沒有問題。如果是個別超級聯結有寫法上面的差異那可能就必須讓編撰者注意一下在編撰之前查詢是否有存在詞條,如果已經存在該詞條則不用重新編寫只需要在開頭增加入不同地區的不同稱謂就行了,而且也體現出了文化多樣性。專門編寫繁體或者簡體也許造成太大的精力浪費,不妨就按個人決定,繁體簡體愛用什麽就用什麽。比如上面的那個説明分別用繁體和簡體寫出我覺得就不是很必要,基本都是一樣的,也不可能有人看不懂簡體或者繁體,那麽就照編撰者決定,編者是用簡體那就用簡體,編者用繁體就用繁體。 你們認爲呢?自由建築社 00:22 2004年4月1日 (UTC)

我個人也是認為混合編輯是個好方法,但就我而言,我的經驗是有一些「不大一樣」的簡體字獨立出現時我會看不懂,所以在閱讀方面會是一個障礙,有可能在瀏覽的時候需要一些幫助;另外,關於照編撰者的問題,這也不錯,但是有個很細的問題(我有這樣的經驗):創建條目時會不會不清楚到底這個條目在另外一個版本當中有沒有已經被創建過了呢?這是很麻煩的。所以要靠搜尋來解決,但是我們不確定 Google 的 database 究竟會不會耕著即時更新,這會造成很大的困擾,為什麼要關掉全文檢索的功能呢? Dowba 10:08 2004年4月1日 (UTC)
我想就是可以使用站內的檢索,對於簡體用戶來說,輸入繁體有些不方便,我想對於繁體用戶輸入簡體也是同樣的。而且正如Dowba所說,內部連結的問題不好解決。最好的解決方式就是繁簡體自動轉換--百無一用是書生 (Talk) 11:09 2004年4月1日 (UTC)

中文字收集和開始準備

基本上我已經收集了常用的幾個字了(約1900多個),在這裡:中文繁簡體對照表,我想接下來應該就可以請程式設計師利用這些字進行翻譯。只要稍微解析那些字,個別做成陣列,然後翻譯,最後同時儲存兩個版本,這樣就可以了。

我們是不是可以請 Wikipedia的工作人員來做這些事呢?

從個人工作所得到的經驗看,繁體和簡體從單字上看是沒有太多意義上的差別的,但組合成詞語後就存在一些區別了:比如簡體稱打印機,繁體稱印表機,打印和列印等,我曾一直想嘗試收集這樣的常見差異詞彙,然後用程序直接互翻,難在這個表很難建立起來。

可是我覺得先把字翻譯成可以讓繁簡體用戶都看得懂,這樣一來可以解決90%以上的問題。內地和台灣的詞彙差異問題不嚴重,沒有像 English 和 American 之間的差異那麼大,都還是看得懂的。 Dowba 14:40 2004年4月17日 (UTC)

簡繁翻譯已鬧出不少笑話

現時使用microsoft word的簡繁翻譯已鬧出不少笑話,使用程序互翻是會引起很多問題. 我個人認為除了一些受爭議的項目外,其餘一般的項目無須針對不同地區的中文使用者製作不同版本

偶這裡基本已經解決了

一共,簡繁間有2034個不同的字 但是其中有大約10-20字,不是一一對應,而且有的是一對多,有的是多對一(簡:繁),有的必須要求語境。 例如: 簡體中「著作」,「看着辦」是不同的字,繁體中相同。 乾隆、幹活,繁體中都是一個「乾」字。(這個問題google就沒解決,大家可以試一下,google里有「干隆」皇帝,哈哈。。。。)

「干活」的繁體應是「幹活」吧。不是「乾」字 --Vertex (耶誕快樂) 18:28 2004年12月24日 (UTC)

繁體對簡體一對多的情況略。

這種玩意雖然不多,可是它們就必須加上詞組來判斷。

關於同義詞,我還是那個意見,別管它。否則工作量就相當於編撰現代口語詞典,而不再是簡繁對照了。

ccton

其實這個困饒你們很久的問題偶這裡基本已經解決了。也滿想幫助維基的,但是這裡是GNU,偶也沒考慮好如何提供幫助給你們。 最近會發布一個正式的採用該方案的系統。到時候過去看看,也許有點啟發吧?

ccton

我贊成間繁混顯

我贊成間繁混顯,我的瀏覽器顯示是沒什麼問題的,相信其他朋友的瀏覽器也不會有什麼顯示問題吧,呵呵。

創建者隨意,修改者與創建者相同

在我認為,目前的簡繁共存並不是太大的問題,只要內碼相同,不會在瀏覽器上出現亂碼就行。但我建議,創建者隨意,後來的修改者最好使用與創建者相同的編碼,即,創建者使用簡體後來的修改者也使用簡體。這個建議如何?

這一建議簡直差透了,首先得找到對應編碼的輸入法,這就是一個大問題了!Grid 09:51 2004年5月5日 (UTC)

參數設置及繁簡體皮膚

維基百科英文版的參數設置還有日期格式(Date format),中文版無:

No preference
January 15, 2001
15 January 2001
2001 January 15
2001-01-15

中文版的登記用戶進入參數設置後,可選擇頁面的「皮膚」:標準、懷舊、科隆香水藍。

目前頁面的皮膚只有簡體中文,可否增加繁體中文皮膚讓用戶選擇?

--Jusjih 07:29 2004年5月16日 (UTC)

管理員在翻譯UI用MediaWiki的時候,每個標題都只有一個頁。像MediaWiki:About就只有一個頁,上面寫著"關於"。
不同的皮膚其實都使(目前)用同個MediaWiki:About。不過,這個主意聽起來真的不錯,也許可以給個(情願的)電腦學家發揮。--Menchi (討論頁)Â 02:10 2004年5月20日 (UTC)

我認為繁簡體混用比較好,繁簡中文,其實相當於大小寫英文

中文的繁簡體問題是比較特殊的歷史產生的問題,世界上任何其它語言文字都沒有碰到過類似的問題。但是我認為這個問題並不是什麼致命的問題,無論是在瀏覽或是編輯上,大家除了一些詞彙差異(其實由於中文的特點,這種差異往往不會帶來不可理解),並沒有什麼不便。
如果說有什麼問題,那是發生在搜索上,我認為可以在中文維基的搜索中加入自動繁簡/簡繁轉換搜索的選項
中文中簡繁體的問題,完全可以當成英文中大小寫的問題來對待,並無大礙。
--21st centry fox 12:16 2004年5月16日 (UTC)

簡體繁體條目問題

前面主要是討論到簡繁體字的問題,不過我覺得可以利用轉內碼的方式解決。我這裡有幾個問題,希望能在這裡獲得解決。1.兩岸五地(中港澳台新)對於部分條目的用語,各有互異。有時候台港相同而與中新相異。有時候卻是中港相同而與台新相異。譬如電子計算機的繁體字版,我到底是要利用這個條目來書寫,還是另創「電腦」條目,使用我的習慣用詞來編寫呢?未來簡繁體字合併後,兩岸五地詞彙不同的問題,目前管理員的傾向為何?2.由於簡繁體字問題即將透過技術解決,那目前簡繁體同一條目,不同內容,該如合併為一個條目?3.繼續2的疑問,那是否簡繁體某一版本已經有人寫過,那另一字體是否我就不應該去書寫,以免造成日後整合的困難?希望能聽聽管理員官方的說法。

另外,簡繁體字對於某些政治立場偏激的讀者,恐怕會激起其敵視心裡,是否目前仍以簡體字版用簡體字,繁體字版用繁體字作為整合前的暫時政策,以免造成新加入者的誤會。

刪繁就簡是大勢所趨

眾觀古今中外,莫不如此.既然能有簡單的辦法,何必非要去寫那些繁雜的字體哪.更何況文字只是一種表意符號而已,我想還是應該推行文字簡化比較符合時代潮流.

That would certainly defy the very principle of wikipedia itself.--Johna 00:30 2004年5月29日 (UTC)
文字必須要有表音的功用在內呀,而且這種說法似乎忽略了多元文化的重要。 Dowba 03:21 2004年6月13日 (UTC)
要刪繁就簡的話,你去學漢語拼音,連漢字也不要用好了。看看你還可以撐多久。反正東干語也是這麼用,也用了好幾百年了。不用回來喔。 --石添小草 08:23 2004年6月13日 (UTC)

請參考 「繁簡之爭是無意義的」一文 http://leoboard.cpatch.org/cgi-bin/topic.cgi?forum=23&topic=16&start=84&show=


基本上, 語文這種東西很怪, 人們通常不太願意改變自己已經慣用的事物, 但是從另一方面來看, 不論是使用繁體或簡體, 都可以視為捍衛自己文化的表現, 沒有一方應該受到無理的攻詰, 如同生物演化一般, 語文的歧異性是隨著地理 歷史與政治不斷改變的, 英文是從德文演變而來, 而法文是經過一千多年從英文演變而來, 如今都成了獨立的體系。 繁簡字只有50年的差異, 但是很難說500年後會各自長成啥樣子. 中文的辭彙很早以前就在各地有了不同的衍用, 我請你吃夜宵(宵夜), 或是你口音很道地(地道), 這才只是第一課呢, 我個人贊成交流, 但是不贊成一下子就用包裹表決, 也就是說, 在一致性習慣性中立刻作出取捨, 對各方'編寫者'和'使用者'來說, 都是一項考驗, 像維基中文百科其實是很好的工具, 可以讓來自不同地方的參與者學到不同的想法, 但需要更多的包容, 大家加油!! -- 阿牛 03:18 2004年9月9日 (UTC)

中文繁簡繁體簡體轉換轉碼編碼網頁網站

mozilla chinese simplified traditional converter switcher home page homepage html for Mozilla Firefox

中文繁簡繁體簡體轉換轉碼編碼網頁網站 for Internet Explorer

Reply to the last message

It's not really a good solution since wikipedia should be open to as many people as it can be, and installing some plugins to a browser doesn't give us that.

I second the motion on writing some sort of converter program to display the appropriate language content based on the user's own browser default language setting, since this would allow most of the people on the net to get access to the information they need on wikipedia without going through the troubles on installing additional software.

As for the programming part, I would like to volunteer to help! Not as a professional programmer, I had little experiences on writing in php, perl, pascal and C/C++. I haven't yet checked what mediawiki is made of (yet) and therefore don't know what it is written in. But I have all summer to write! (I just finished my en:HKCEE exams in Hong Kong, and I actually have at least two months of free time!) So, if anyone is already doing a bit of programming, count me in! But if nobody has started, I guess I can do it if I've got to start from scratch! --Johna 16:34 2004年5月28日 (UTC)

Talk between Johna and Mountain

JohnaMountain討論了繁簡互化的問題,下面是他們討論的記錄。

programming requirement and my thought

首先必須明確從整體上看繁簡互化是一個多到多的過程,但其中大部分時一對一的。下面先舉幾個例子說明繁簡轉換的複雜。

就拿「台灣」的「台」字舉例來說,簡體的「台」字對應着繁體「臺」、「檯」和「颱」,如果「台灣」一詞在台灣確實是寫作「台灣」而非「臺灣」的話,那麼簡體的「台」字對應着四個繁體字「台」、「臺」、「檯」和「颱」。另一方面,一個繁體字也可能映射為多個簡體字,具體取決於這個字的含義,比如「乾、乹、亁」這三個字,作「乾坤」的「乾」講時,被簡化為「乾」,但作「乾濕」的「乾」字講時被簡化為「干」字。而「干」字本來在繁體中還有它自己的意思,如「干預」,這樣的話,簡化的「干」字映射為繁體字時也是一對多的,它既可以映射為「乾」字,還可以保持不變為「干」字。

從上面的例子我們可以看到,我們必須整理細分到同一個字的不同含義,才能正確轉換繁簡。同時,還有異體字的問題,比如「乹、亁」三個是「乾」的異體字。

這裡有一個難點,就是讓計算機確定一個字在某個上下文的具體含義,這是非常困難的,但也是高質量繁簡轉換所必須的。我想我們可以建立一個詞典,用最大匹配法匹配出一個詞(這種技術在大陸叫做「分詞」),然後再在詞的基礎上作繁簡轉化。比如簡體的「台」字化為繁體時大概按下面的方式進行:通過分詞確定出「台」字所在的詞,如果是「台州」就轉化為「台州」,如果是「台榭」就轉化為「臺榭」,如果是「梳妝檯」就轉化為「梳妝檯」,如果是「颱風」就轉化為「颱風」,如果是「台灣」就轉化為「台灣」,等等。這個方案不能保證完全正確,但我想足以應付大多數情況。

關於繁簡互化最主要的需求我覺得有以下幾點:

  • 用戶可以在他的Preference中設定究竟要看簡體版本,還是繁體版本。
  • 應該既可以轉化到簡體版本,又可以轉化到繁體版本
  • 必須注意到下述的特殊情況:
    • 在簡體版本中,我們有時必須要引用一個字的繁體,比如在維基詞典中介紹「台」字時說明它是「臺」、「檯」和「颱」三個字的簡化,這時我們必須要使「臺」、「檯」和「颱」三個字不作簡化。
    • 同樣在繁體版本中,我們有時必須要引用一個字的簡體,比如在維基字典中介紹「臺」時,必須說明它的簡體字是「台」。
    • 某些場合中,不論是簡體還是繁體版本,我們很難讓計算機判斷如何正確地繁簡轉換,我們不得不手工指明如何繁簡轉換。
  • 我們更新簡體版本同時也更新了繁體版本,更新繁體版本同時也更新了簡體版本
  • 解決好Wiki文本中的鏈接,比如「颱風」和「颱風」,就對應兩個Wiki的鏈接 http://zh.wikipedia.org/wiki/台风http://zh.wikipedia.org/wiki/颱風
  • 確定繁簡版本是分開存儲還是統一存儲。
  • 解決好條目統計:比如增加了一個關於「颱風」的條目,我們同時可以看到「颱風」和「颱風」兩個版本,但條目計數應該增加1,而不是2。

關於Wiki文本中的鏈接和條目統計我沒有研究過MediaWiki的代碼,所以不好說什麼。但前面幾條我有幾個建議:

  • MySql數據庫中存儲的是繁簡混合的文本,然後可以通過 simplify 轉化為簡體版本,通過 traditionalize 轉化為繁體版本。也就是我的方案中繁簡版本是統一存儲的。
  • 引入新的Markup:針對前面提到的三種特殊情況,我們必須提供手段,表明一個字不作繁簡轉換,我建議採用C語言中常用的手段,加一個反斜線。比如:用「\颱」表明「颱」字不作轉化(不論是簡化還是繁化),用「\台」表明「台」字不作轉化(不論是簡化還是繁化)。我還建議採用兩道反斜線的方法手工指定繁簡轉化,比如「\\台颱風」說明這段文本在簡體版顯示為「颱風」,在繁體版顯示為「颱風」。
  • 顯示時繁簡轉化的任務可以交給Wiki文本的Parser來處理。
  • 編輯Wiki文本時,不作繁簡轉化,直接顯示數據庫里的混合文本。
  • 鏈接的處理好像有些複雜,我還沒有想清楚。

以上是我的一些看法和建議。--Mountain(Talk) 09:06 2004年5月30日 (UTC)

some other talk at Wikipedia talk:中文繁簡體對照表#為什麼要分類及我的一些設想.--Mountain(Talk) 09:22 2004年5月30日 (UTC)

Thanks, looks like there's more work to be done than I previously (and, rather naïvely)expected. I'm not quite sure if I am experienced enough for this... I'll give it a try, anyway.
A question : are we planning on phasing the output and store one version per article, or are we planning on doing the phasing in editing, and keep two versions?
The former one may slow down browsing but will keep the DB small; while the latter will make browsing as fast as it is now but we will need to maintain a larger DB...
--Johna 10:40 2004年5月30日 (UTC)

兩種方案,我現在支持第二套方案了

從存儲上來看,確實如你所說有兩種方案,第一種保存一個混合版本,第二種保存繁簡兩個版本。但第一種不見得會 slow down browsing ,原因是現在的MediaWiki軟件引入了Squid的Cache技術。可第一種方案無法簡單的Caching,它只提供一個存儲版本,但要對應兩個Cached Page。

第二種方案看起來更好一些。第二種方案遇到的主要一個問題是條目命名上的衝突,比如「地球」不論繁簡體都是「地球」,解決的辦法也很簡單就是用「地球/簡」和「地球/繁」這樣的方法來區分。在保存的時候自動將[[地球]]轉化成[[地球/简]]或[[地球/繁]]。同時「地球/簡」和「地球/繁」也成為Cached Page的名字。

第二種方案必須為繁簡用戶各自提供一套界面(UI),因為它在顯示時不作繁簡轉換。

經過這個分析,我現在支持第二套方案了,呵呵。--Mountain(Talk) 13:55 2004年5月30日 (UTC)

或許還要仔細考慮一下。--Mountain(Talk) 13:57 2004年5月30日 (UTC)

I didn't know the cache part,thanks. But I have another question : how do we count our articles now? I believe that we don't have the distinction between trad and simp (in the computer's sense), right? So the number we have now must be more than the articles we have...Are we going to do something about that?
P.S. Perhaps we should talk about this where most of us can easily access, any place we can talk about this instead of our own talk pages? :)
--Johna 16:09 2004年5月30日 (UTC)

Squid Cache的資料

請參考:Wikipedia network ideas。--Mountain(Talk) 02:07 2004年5月31日 (UTC)

我支持第一套方案

如果Cache不能滿足需要的話,就改Cache好了。

第一個方案的優點是明擺着的,而第二個方案在數據庫中增加了冗餘信息,這在數據庫設計中應該儘量避免。

至於繁簡轉換,可以採取機器自動轉換加人工干預的方式。如果機器可以正確轉換不必人工干預,如果不能則應該引入干預機制,還是以台灣為例,可以增加一個符號,例如「[簡體:台灣|繁體:台灣]」這樣的方式,機器根據HTTP_ACCEPT_LANGUAGES自動確定如何對文本進行render。

Would you like some piggies to eat? 07:41 2004年5月31日 (UTC)

On second thought, I'm buying the 1st method now. Just thought that if the cache can take care of the browsing part of the problem I mentioned, then we can deal with the output easily. But since parsing is done in output, how are we going to store problematic words in a single version of an article in a single DB? Convertion with human involvement cannot be done if we only parse at output. Markups above mentioned by Yaohua2000 needs to be introduced. (Personal Note : Don't know why....I just can't set up mediawiki at home with version 1.3.0beta1...got to keep on trying...)--Johna 01:34 2004年6月2日 (UTC)

將來如何實施?

未來繁簡體轉換程序作好以後,如何實施呢?現在的同一條目存在繁簡兩個版本,而且有些內容也不一樣。到時候怎麼轉換呢?是不是需要人工來完成?如果這樣,應該建議大家現在不要創建同一條目的兩個版本,方便將來的轉換工作。--百無一用是書生 (Talk) 08:42 2004年6月3日 (UTC)

同意 --Djyang 20:45 2004年6月4日 (UTC)

同意,現在一條條目有兩個版本,若果要對它們做編輯的話,就要做兩次同樣的事,非常麻煩(也不合理)。一條目一頁面是我們的最終目的,現在創建兩個版本是反其道而行,會增加將來的(及現在的)工作。 --Lorenzarius 09:05 2004年6月13日 (UTC)

那麼速度能快就快吧,這種事情拖了不好的。-- anon

不如現在馬上開始合併條目,每個條目只保留一個版本,繁簡混雜也沒關係,至少比把繁簡分列成兩個完全不同的條目要強得多。 -- Ran 08:36 2004年6月24日 (UTC)

這樣當然好。不知道其他人有什麼意見?--百無一用是書生 (Talk) 08:47 2004年6月24日 (UTC)
唯一的問題就是:不知道繁簡轉換程序什麼時候可以啟用?假如我們現在就把繁簡合併了,等三年後轉換程序才開始使用,恐怕到那時維基百科已經亂得沒法看了。 -- Ran 01:57 2004年6月25日 (UTC)

關於繁體版條目

近來新近網友致力於繁體版條目的建立,使用了其他簡繁字轉換軟體創建了新版面,不過在用詞部分,有時僅是簡體版的轉換,這裡提供臺灣用詞的網路資料,編寫者可參考運用。

1.國立編譯館:包括自然科學、應用科學、外國地名譯名、音樂界等,為目前臺灣學校教科書的標準規範,但部分用詞仍與民間使用有差異,如computer。

2.臺灣外交部世界各國簡介:臺灣官方、媒體對世界各國的用詞。

不同地區用詞的差異

使用中文的不同地區,存在着用詞上的差異,尤其是外國人名、地名等。我們現在主要考慮大陸與台灣地區用戶的差異。但是香港、新加坡等地區在中文使用上的差異也應該考慮到--百無一用是書生 (Talk) 02:56 2004年6月21日 (UTC)

我覺得用詞問題倒不是太大,英美用詞也存在差異,但英語維基通過重定向就很好地解決了,如streetcar、tramway和trolley car都重定向至tram,我覺得如「計算機」、「電腦」;「意大利」、「義大利」等也可以這麼解決,總之只要繁簡問題解決了,其他一切都好辦。-- Ran 09:37 2004年6月23日 (UTC)
同意。補充一點,對於用詞差異,建議在文章裡另外加註(XX地區: YY,OO地區: ZZ)。這樣子做的好處是,在做軟體自動繁簡體轉換時可以少做一些用詞上的轉換,特別是地名人名專有名詞等等的轉換。---Djyang 21:53 2004年6月23日 (UTC)
除了條目用詞上的解決以外(我認同上文利用重定向是很好的解決),內文的用詞差異卻該怎麼辦呢?--MilchFlasche 10:25 2004年7月12日 (UTC)
等將來繁簡轉換程序寫好了再說吧......現在只好靠括號了。 -- Ran 14:29 2004年8月15日 (UTC)

我來提個解決方案

方案如下:

  1. 每個條目只保留一個版本。
  2. 由於繁化簡比簡化繁要直接的多,建議保留繁體版,把現有簡體條目全部轉換/合併為繁體條目。
  3. 簡體用戶編輯維基百科時,網站自動將簡體編輯內容轉換為繁體。
    1. 如轉換有誤(如「制度」轉成了「製度」),可以由繁體用戶自行更改(和改錯字的道理一樣)。
  4. 簡體用戶瀏覽維基百科時,網站自動將繁體條目內容轉換為簡體。
    1. 如轉換有誤(如「乾隆」轉成了「干隆」),則只能通過更改轉換規則來解決。
  5. 繁化簡的轉換規則放在一個完全開放的頁面,採用一目了然的格式,任何人都可以進行更正。規則為從上到下,如:
例外
乾隆、乾坤、康乾
瞭解 了解
義大利 意大利

以上這個表可能很長,可以分成好幾段。簡化繁的轉換規則(只用來轉換簡體用戶對條目的編輯)也可以這樣列出來,當然簡化繁的轉換規則會複雜得多。-- Ran 12:50 2004年6月23日 (UTC)


完全同意,希望繁簡轉換能儘快啟用,以便全球華文人口集思廣益。

基本上伺服器端轉碼功能方面,應該可以參考市面上評價不錯的工具,比方說信使繁簡通等(使用範例可參照時報悅讀網的內文和留言板,繁簡切換鍵位於 logo 下方)。這類工具標榜的功能十分符合華文維基百科的需要。像是採用線上動態轉碼技術,支援資料庫發佈內容的轉換;不但從伺服器發到客戶端的資訊會轉換成簡體,簡體客戶端的資訊發回伺服器時,也會被轉換成繁體再入資料庫;支援中文簡繁一對多的映射、習慣用語的轉換以及用戶定義辭典等。

不過在程式方面,是由 Wikipedia 的工作人員提供支援?或者有購買商業軟體的打算?還是要找功能近似的開放源碼作修改呢?我在 Sourceforge 找到一個程式「紫雲繁簡一點通」,但不知道合不合用…… -- Casil 00:52 2004年7月2日 (UTC)

幾點意見

目前繁(正)體中文以台灣、香港以及海外華人為使用大宗,而簡體中文以中國大陸、新加坡為主流。個人認為兩者差異由小至大可以分為「字」、「詞」、「意」三個層次。從「字」的部分來說,簡體字起初的設計便是針對繁體字的多對一簡化,所以文件處理上理論上由繁轉簡應該可以避免最多錯誤(對雙方來說)。所以Ran的解決方案是技術上最該採行的。但是實際上面臨的卻是廣大的簡體中文使用者與相對少數的繁體使用者,如果要真的這樣實行就要請多數的簡體字使用者包容其中的不便,同時見轉繁的儲存也需要更多繁體使用者的校對,否則便失去了原本的立意。

「詞」的方面,則是兩岸(中文使用大宗,並且是輸出地區)分隔五十年由於政治、經濟、文化等等因素自然形成的差異。個人認為是缺少交流所導致,因為事實上兩岸中文用詞一直在變化,或是可以說一致化,特別是生活用語(也許跟台灣傳播媒體較強勢發達有關)。但是專業用語(資訊、法律、工程、醫學等)的差異卻依然相當大。個人認為這些差異性也許並不完全是字詞翻譯軟體可以涵蓋的。但在大部分的情況下,相同的名詞若有英文原文做參考(如 Printer: 印表機[繁]/打印機[簡]) 會比較簡單,但是只要在內文中放入不同中文地區的用詞,並以最先輸入資料的作者為主要參照,後輸入的名詞redirect到先輸入的,應該是使用者可以接受的方式。

最後談到「意」。目前簡繁體都歸於同一類別(中文)中,個人是樂見的,但是應該包容各地方對於同一中文字詞的多元解釋,因為只有保持自由與開放才能使全球所有的中文使用者更願意使用與加入Wikipedia的團隊中使其內容更充實。對於地域化的名詞,例如省、市。以及近代人物應該尊重該人、事、地的解釋與觀點,以避免不必要的爭議。

此外,目前中文開發是以簡體中文的介面為主,如果無法切換簡繁體,對於繁體使用者來說有些不便,希望管理員看看能不能以簡繁並列或附加的方式來改善(比如「導航條」真的是看不懂,可能附加一個「內容導引」在旁邊?「幫助」在繁體使用的習慣用語是「說明」)。這樣友善的介面我相信可以使得中文維基吸引更多中文使用者的加入!--Lijenhsin 07:06 2004年7月23日 (UTC)

我的一些看法: 我對技術方面一知半解,從大家的討論中可以看出,繁轉簡是比較可行的辦法。但是我不同意用重定向的方式來區別詞語上的不同。最好的方式還是以前討論的,建立一個繁簡對照表,隨時維護,在頁面調入時,從對照表中調入相應的詞彙。

另外,現在的簡體界面管理員不能修改代碼,只能修改文字。如果簡繁體同時顯示,只能在現在的基礎上並列增加繁體文字,這樣顯示很不好看,以前的討論大家也同意這樣。--百無一用是書生 (Talk) 07:22 2004年7月23日 (UTC)

參考意見

偶做的一點嘗試在VicDir商業信息系統,目前跟Google一樣,沒有去做意譯的事,就是字對字的直轉。新華網的論壇具有一些意譯的功能。 其實真正理想的狀態是無論輸入者輸入什麼語言,顯示給閱讀者的總是符合其閱讀習慣的語言。偶打算用AI來對付這個需要。 偶不大同意樓上的軟件不能解決轉換問題的說法。機器雖然笨,可是偶們可以賦予它學習的能力。每一個閱讀者都可以是它的老師,而這樣的老師是數以億計的,恐怕沒有人能有這樣的機會從那麼多人手上學東西。--ccton 17:15 2004年7月26日 (UTC)

根本不該有繁簡體兩種百科全書

我認為根本不該有繁簡體兩種百科全書,一種就夠了。只要有一個中文版,然後根據用戶設定或是地區顯示繁體或是簡體。例如DNS反查是來自北京未登記的用戶,預設顯示簡體;如果DNS反查是來自非漢人的國家,例如德國,也可以預設顯示簡體。但是用戶可以自由更改設定。

我想最快的解決方案是多幾個tag,讓修改文章的人補充內容。例如有人用繁體寫了以下的內容:

雪梨的特產是印表機和速食麵。←我亂寫的,不要相信。

如果有簡體中文的讀者想要修改,可以改成:

<TC>雪梨</TC><SC>悉尼</SC>的特產是<TC>印表機</TC><SC>列印機</SC><TC>速食麵</TC><SC>方便麵</SC>

以後有人從北京或是新加坡查詢,就會看到:

悉尼的特產是列印機和方便麵。

但是港台的用戶還是會看到:

雪梨的特產是印表機和速食麵。

如果有人想調整設定,可以自由選擇要看的版本。

同理,如果一個頁面最早是簡體中文,繁體中文的讀者也可以動手增加內容。因為繁簡兩邊都可以看到內容,比較不會有惡意修改的狀況。當然這裡使用的tag有點囉唆,也許各位可以想出更好的解決方法。

張三是個<TC>逃稅大戶</TC><SC>商人</SC>

這個方法的缺點是浪費人力,不容易修改,而且只能當臨時方案。很多常用的簡單字,例如<TC></TC><SC></SC>,根本不該用這個方法改。這個方法我自己承認真的很爛。

如果一個頁面看的人很少,補充的機會就不大。但是對熱門的頁面,應該很快就可以修改到中港澳台新五地都很容易閱讀的狀態。搞不好很快就有人寫出自動修改的<TC>程式</TC><SC>程序</SC>。我們必須馬上讓大家都滿意,以後才有時間做出更好的解決方案。

至於語氣等更高深的問題,我想爭論下去是無意義的。康有為是廣東人。大家都知道廣東方言跟<TC>國語</TC><SC>普通話</SC>相差很多。請問康有為到北京考試的時候,是不是寫廣東式中文?

答案:當然不是。康有為在家說廣東話,但是在參加科舉考試的時候,用的還是文言文。也許有些人對文言文不以為然,但是當時所有的讀書人都讀四書五經,都讀各種古書,他們寫文章自然也用這種幾千年來知識份子共通的語言。李白寫詩用家鄉話嗎?韓愈寫文章用家鄉話嗎?大家都約束自己用一種大家都可以懂的文體寫作,這就是文言文。

假設有時光機器,能把任何時代的人送到任何一個不同的時代。我把漢朝的司馬遷送到宋朝跟司馬光作伴。司馬光應該很容易懂司馬遷寫的東西,因為宋朝的讀書人一定讀過漢朝文章;除了歷史差異外,司馬遷應該也很容易懂司馬光。道理很簡單,司馬光寫的東西司馬遷應該懂大部分,剩下的地方司馬光可以改。

這就是中文的優點。

在古代,書寫的文體是文言文。大家都可以看懂。我們不可能用文言文寫百科全書,但是可以從官話為基礎,演變出共通的白話文。不管原來說什麼方言,住在什麼地方,藉由閱讀別人寫的文章,總有一天中國人又可以發展出互通的文體。香港式的中文懂的人比較少,但是總可以修改成大家都可以接受的通用白話文。

不管怎樣,根本不該有繁簡體兩種百科全書。以前的中國人說話再怎麼南腔北調,文字還是相通的。今天中國人口語都已經勉強相通了,怎麼還能容忍文字不相通呢?

-- Toytoy 03:31 2004年8月4日 (UTC)

我想只維持一個中文版本的維基百科已經是共識了:-)現在所謂的繁簡問題實際上只是技術上如何去做到繁簡轉換的問題。 --Lorenzarius 05:38 2004年8月4日 (UTC)
先有一個標準,然後用技術實現;還是先去用技術實現,等差不多了,再制定一個標準?--zy26 07:25 2004年8月4日 (UTC)
嗯,an interesting idea. 我喜歡你的例子. ^_*
謝謝您的俏注意! --Menchi (討論頁)Â 08:10 2004年8月4日 (UTC)