維基百科討論:中文繁簡體對照表
注意:此網頁已不再維護。有關不同詞語的轉換錯誤,請到Wikipedia:繁簡體轉換請求進行討論。其他討論請到Wikipedia talk:繁簡處理。
哇,現在演化成這個樣子了
[編輯]哇,現在演化成這個樣子需要分類了,難得我已經收集了基礎用字約 1953 個了,該怎麼辦呢?我先貼上去好了。
在台灣是沒有人懂漢語拼音的
[編輯]- err... 有些字重複了。另外,事實上在台灣是沒有人懂漢語拼音的,似乎用漢語拼音的方式來分類,會造成某些想找對照的人摸不着頭腦。或許該找另一個方式來分類會比較好。 --Rickz 07:10 2004年4月11日 (UTC)
用不着分類呀
[編輯]- 可是,依繁簡轉換程式來看,用不着分類呀,重點是把對應關係找出來,然後將使用者 POST 出去的資料轉換,這樣就可以了,我舉個例子來說好了。
例子:假設使用者的送出資料之後,儲存使用者送出的資料的變數名稱叫做 $data,那麼這時候為了同時要儲存兩種版本的頁面,要先複製變數,令 $data_2 = $data。 接着,我們使 $data 為簡體版本,$data2 為繁體版本,利用我們蒐集到的繁簡中文對照,將 $data 中的所有可能出現的繁體字轉換為簡體字;likewise,將 $data2 中的所有可能出現的簡體字轉換為繁體字,最後在同時儲存,這樣就可以啦。
但是如果是要另外做資料或文化用途的話,分類當然是必要的啦(不管是怎麼樣的分類),而且相當必要。Dowba 11:55 2004年4月11日 (UTC)
為什麼要分類及我的一些設想
[編輯]首先說說我為什麼要分類:因為我意識到繁簡轉換是一個複雜的問題,雖然大部分繁簡體字之間確實可以一一對映,但也有相當數量的繁簡體字之間不是簡單的一一對映,所以我想作一個細緻的調查。下面先舉幾個例子說明繁簡轉換的複雜。
就拿「台灣」的「台」字舉例來說,簡體的「台」字對應着繁體「臺」、「枱」和「颱」,如果「台灣」一詞在台灣確實是寫作「台灣」而非「臺灣」的話,那麼簡體的「台」字對應着四個繁體字「台」、「臺」、「枱」和「颱」。另一方面,一個繁體字也可能映射為多個簡體字,具體取決於這個字的含義,比如「乾、乹、亁」這三個字,作「乾坤」的「乾」講時,被簡化為「乾」,但作「乾濕」的「乾」字講時被簡化為「干」字。而「干」字本來在繁體中還有它自己的意思,如「干預」,這樣的話,簡化的「干」字映射為繁體字時也是一對多的,它既可以映射為「乾」字,還可以保持不變為「干」字。
從上面的例子我們可以看到,我們必須整理細分到同一個字的不同含義,才能正確轉換繁簡。同時,還有異體字的問題,比如「乹、亁」三個是「乾」的異體字。所有這些,都需要一個細緻的調查。然後,我們還有對每一個字給出它們的unicode編碼和utf-8編碼。
對於我們分類的方案,我覺得是可以討論的。如果不採用漢語拼音,那麼還可以採用部首檢字法。用部首檢字法還有一個好處,就是Unicode編碼本身是採用部首檢字法來給字集排序的。
這裏有一個難點,就是讓計算機確定一個字在某個上下文的具體含義,這是非常困難的,但也是高質量繁簡轉換所必須的。我想我們可以建立一個詞典,用最大匹配法匹配出一個詞(這種技術在大陸叫做「分詞」),然後再在詞的基礎上作繁簡轉化。比如簡體的「台」字化為繁體時大概按下面的方式進行:通過分詞確定出「台」字所在的詞,如果是「台州」就轉化為「台州」,如果是「台榭」就轉化為「臺榭」,如果是「梳妝枱」就轉化為「梳妝枱」,如果是「颱風」就轉化為「颱風」,如果是「台灣」就轉化為「台灣」,等等。這個方案不能保證完全正確,但我想足以應付大多數情況。
我設想期望中的程序(程式)應該具備下述特點:
- 應該可以進行繁->簡和簡->繁的雙重轉換
- 必須注意到這樣的情況:
- 在簡體版本中,我們偶然但必須引用一個字的繁體,比如在維基字典中介紹「台」時,必須說明它是「臺」、「枱」和「颱」的簡化。
- 在繁體版本中,我們偶然但必須引用一個字的簡體,比如在維基字典中介紹「臺」時,必須說明它的簡體字是「台」。
- 針對兩種上面的情況,我們必須提供手段,表明一個字不作繁簡轉換。我建議採用C語言中常用的手段,加一個反斜線。比如:用「\颱」表明「颱」字不作簡化,或者「\台」表明「台」字不作繁化。
- 某些上下文(不論是簡體還是繁體版本)中,我們很難讓計算機判斷出某字的具體含義,我們不得不手工指明如何繁簡轉換。我建議採用兩道反斜線的方法。比如「\\台臺」說明一個字在簡體版用「台」,在繁體版用「臺」。
- 程序(程式)不用PHP寫,而是用C程式語言寫成,然後再在PHP腳本中用dl引入C的庫函數。這樣可以提高繁簡轉換的效率。
- 繁簡轉換需要的詞典放在MediaWiki名空間維護。在伺服器(伺服器)啟動的時候由PHP讀入詞典,然後生成繁簡轉換的運行時環境(Runtime environment),再在此基礎上進行繁簡轉換。
- 詞典更新後,不用重啟伺服器(伺服器),運行時結構可以得到自動更新。
--Mountain(Talk) 20:03 2004年4月11日 (UTC)
- 嗯,這樣一來勢必得花更大的工夫,我們有功力如此深厚的的 program designer 嗎? 61.219.126.137 06:10 2004年4月12日 (UTC) (Dowba)
我覺得應該把詞語作為轉換的單位
[編輯]單個字當然是要轉換的,否則有些人看不懂,台灣的人應該看不大懂簡體中文對吧? 然而,台灣和大陸的許多詞語也都是不一樣的,不是把字轉為簡體(繁體)大家就看得懂。比如,就計算機的某些詞彙 硬盤(硬碟) 打印機(打印機) 程序(程式) 等等,在轉換的同時也應該一併轉換,這樣大家才看得舒暢啊。
關於用字排列的建議
[編輯]目前的用字還沒排序,如果用漢語拼音,臺灣一票人不懂,用注音或通用拼音,大陸、星馬也看不懂。建議可以參考台灣人列表的方式,由於注音為37個,而漢語有26個,因此以注音為底,漢語搭配的方式,應該可以解決排字問題。(用筆畫方式,由於簡繁字體筆畫筆順不同,可能引起更大困惑)
又如果不知道該字發音,讀者將該字剪下,直接貼上瀏覽器的搜尋功能即可。 218.172.203.67 14:35 2004年5月27日 (UTC)封印
還應該把繁簡體相同的漢字和繁簡體不同的漢字區分開來。-- ──★── 2012年5月5日 (六) 12:17 (UTC)