维基百科讨论:繁简处理/档案5

页面内容不支持其他语言。
维基百科,自由的百科全书

关于语言代码的问题

目前我们使用的恐怕是 zh-CN 和 zh-TW,抛开政治问题不谈,这两个代码并没有很好的对应简体中文和繁体中文的概念。确切的说它们对应的是中国大陆中文和台湾中文。显然我们还有 zh-HK 香港中文,还有新加坡中文(抱歉我不记得其国家和地区代码了)。显然我们无力也绝无必要再产生两种语言变体的版本。

这里有个重要的提议,我们应该使用 zh-Hans 和 zh-Hant 来表示简体中文和繁体中文。并固守其本质意义:简体和繁体只是字体上的差别,从技术上说后者可以无损失的转换到前者。

这里有一个台湾人的繁简转换的程序,比较好用。线上繁简网页与文字转换及校对区(Big5→GB/上海Mirror) http://artvine.com.tw/images/uu.htm 线上繁简网页与文字转换及校对区(GB→Big5/上海Mirror)http://artvine.com.tw/images/uu2.htm

请参考我的文章:关于zh-Hans/zh-Hant的问题

我们不应该把 zh-TW 和 zh-CN 的差别,特别是语义、语用上的差别(语法层面的差别虽然存在但比较小),等同于简体和繁体的差别!

除了技术问题之外,简体和繁体的互相对应和转换有几个重大的难点。我们必须考虑这些问题并作出抉择:

1. 词汇差异。这已经有太多例子。然而我要说的是,比相同概念用不同词来表示更头痛的问题是:用相同的词表示不同的概念。这在技术词汇领域尤其头大!(Todo:举例)但是显然此种情况实际上是 zh-TW 和 zh-CN 或者 zh-HK 的差别。如果我们只是要解决 zh-Hans 和 zh-Hant 的问题,则应该刨除或者暂且搁置它。 2. 繁体简体字混杂所产生的组合的可能是指数级的。 3. 简体如何反转成繁体。

. . 13:26 2004年3月17日 . . User:Hax


我来举个简单的科技用语差异:

analog 大陆方面译成模拟(拟),台湾方面译成类比

simulation 大陆方面译成仿真,台湾方面译成模拟

Briston in Taiwan

外国人名跨语言链接的问题

我已经发现谢赫·艾哈迈德·亚辛转接到英文条目没有问题,但是从英语回到中文条目就不行了,相同的情况出现在马德里3·11爆炸案。应该是分隔点“·”导致的链接错误,如何解决? Cncs Talk 10:50 2004-03-23 UTC

在英文版里用 ·来代替这个 middle dot. -- 石添小草 14:23 2004年3月28日 (UTC)

好久没来了,现在情形如何? Dowba 11:29 2004年3月28日 (UTC)

我的一点小意见

我并不觉得繁体简体之间的问题很大,美式英语和英国本土英语之间的差别其中包括写法和特定名词比中华民国和中国之间的差别大很多。在语言习惯和语法字形上面两岸的中文并没有很大的交流困难。现在统一用utf其实在同一叶面内的浏览已经没有问题。如果是个别超级联结有写法上面的差异那可能就必须让编撰者注意一下在编撰之前查询是否有存在词条,如果已经存在该词条则不用重新编写只需要在开头增加入不同地区的不同称谓就行了,而且也体现出了文化多样性。专门编写繁体或者简体也许造成太大的精力浪费,不妨就按个人决定,繁体简体爱用什么就用什么。比如上面的那个说明分别用繁体和简体写出我觉得就不是很必要,基本都是一样的,也不可能有人看不懂简体或者繁体,那么就照编撰者决定,编者是用简体那就用简体,编者用繁体就用繁体。 你们认为呢?自由建筑社 00:22 2004年4月1日 (UTC)

我个人也是认为混合编辑是个好方法,但就我而言,我的经验是有一些“不大一样”的简体字独立出现时我会看不懂,所以在阅读方面会是一个障碍,有可能在浏览的时候需要一些帮助;另外,关于照编撰者的问题,这也不错,但是有个很细的问题(我有这样的经验):创建条目时会不会不清楚到底这个条目在另外一个版本当中有没有已经被创建过了呢?这是很麻烦的。所以要靠搜寻来解决,但是我们不确定 Google 的 database 究竟会不会耕著即时更新,这会造成很大的困扰,为什么要关掉全文检索的功能呢? Dowba 10:08 2004年4月1日 (UTC)
我想就是可以使用站内的检索,对于简体用户来说,输入繁体有些不方便,我想对于繁体用户输入简体也是同样的。而且正如Dowba所说,内部链接的问题不好解决。最好的解决方式就是繁简体自动转换--百无一用是书生 (Talk) 11:09 2004年4月1日 (UTC)

中文字收集和开始准备

基本上我已经收集了常用的几个字了(约1900多个),在这里:中文繁简体对照表,我想接下来应该就可以请程式设计师利用这些字进行翻译。只要稍微解析那些字,个别做成阵列,然后翻译,最后同时储存两个版本,这样就可以了。

我们是不是可以请 Wikipedia的工作人员来做这些事呢?

从个人工作所得到的经验看,繁体和简体从单字上看是没有太多意义上的差别的,但组合成词语后就存在一些区别了:比如简体称打印机,繁体称印表机,打印和列印等,我曾一直想尝试收集这样的常见差异词汇,然后用程序直接互翻,难在这个表很难建立起来。

可是我觉得先把字翻译成可以让繁简体用户都看得懂,这样一来可以解决90%以上的问题。内地和台湾的词汇差异问题不严重,没有像 English 和 American 之间的差异那么大,都还是看得懂的。 Dowba 14:40 2004年4月17日 (UTC)

简繁翻译已闹出不少笑话

现时使用microsoft word的简繁翻译已闹出不少笑话,使用程序互翻是会引起很多问题. 我个人认为除了一些受争议的项目外,其馀一般的项目无须针对不同地区的中文使用者制作不同版本

偶这里基本已经解决了

一共,简繁间有2034个不同的字 但是其中有大约10-20字,不是一一对应,而且有的是一对多,有的是多对一(简:繁),有的必须要求语境。 例如: 简体中“著作”,“看着办”是不同的字,繁体中相同。 乾隆、干活,繁体中都是一个“干”字。(这个问题google就没解决,大家可以试一下,google里有“干隆”皇帝,哈哈。。。。)

“干活”的繁体应是“幹活”吧。不是“乾”字 --Vertex (耶诞快乐) 18:28 2004年12月24日 (UTC)

繁体对简体一对多的情况略。

这种玩意虽然不多,可是它们就必须加上词组来判断。

关于同义词,我还是那个意见,别管它。否则工作量就相当于编撰现代口语词典,而不再是简繁对照了。

ccton

其实这个困饶你们很久的问题偶这里基本已经解决了。也满想帮助维基的,但是这里是GNU,偶也没考虑好如何提供帮助给你们。 最近会发布一个正式的采用该方案的系统。到时候过去看看,也许有点启发吧?

ccton

我赞成间繁混显

我赞成间繁混显,我的浏览器显示是没什么问题的,相信其他朋友的浏览器也不会有什么显示问题吧,呵呵。

创建者随意,修改者与创建者相同

在我认为,目前的简繁共存并不是太大的问题,只要内码相同,不会在浏览器上出现乱码就行。但我建议,创建者随意,后来的修改者最好使用与创建者相同的编码,即,创建者使用简体后来的修改者也使用简体。这个建议如何?

这一建议简直差透了,首先得找到对应编码的输入法,这就是一个大问题了!Grid 09:51 2004年5月5日 (UTC)

参数设置及繁简体皮肤

维基百科英文版的参数设置还有日期格式(Date format),中文版无:

No preference
January 15, 2001
15 January 2001
2001 January 15
2001-01-15

中文版的登记用户进入参数设置后,可选择页面的“皮肤”:标准、怀旧、科隆香水蓝。

目前页面的皮肤只有简体中文,可否增加繁体中文皮肤让用户选择?

--Jusjih 07:29 2004年5月16日 (UTC)

管理员在翻译UI用MediaWiki的时候,每个标题都只有一个页。像MediaWiki:About就只有一个页,上面写著"关于"。
不同的皮肤其实都使(目前)用同个MediaWiki:About。不过,这个主意听起来真的不错,也许可以给个(情愿的)电脑学家发挥。--Menchi (讨论页)Â 02:10 2004年5月20日 (UTC)

我认为繁简体混用比较好,繁简中文,其实相当于大小写英文

中文的繁简体问题是比较特殊的历史产生的问题,世界上任何其它语言文字都没有碰到过类似的问题。但是我认为这个问题并不是什么致命的问题,无论是在浏览或是编辑上,大家除了一些词汇差异(其实由于中文的特点,这种差异往往不会带来不可理解),并没有什么不便。
如果说有什么问题,那是发生在搜索上,我认为可以在中文维基的搜索中加入自动繁简/简繁转换搜索的选项
中文中简繁体的问题,完全可以当成英文中大小写的问题来对待,并无大碍。
--21st centry fox 12:16 2004年5月16日 (UTC)

简体繁体条目问题

前面主要是讨论到简繁体字的问题,不过我觉得可以利用转内码的方式解决。我这里有几个问题,希望能在这里获得解决。1.两岸五地(中港澳台新)对于部分条目的用语,各有互异。有时候台港相同而与中新相异。有时候却是中港相同而与台新相异。譬如电子计算机的繁体字版,我到底是要利用这个条目来书写,还是另创“电脑”条目,使用我的习惯用词来编写呢?未来简繁体字合并后,两岸五地词汇不同的问题,目前管理员的倾向为何?2.由于简繁体字问题即将透过技术解决,那目前简繁体同一条目,不同内容,该如合并为一个条目?3.继续2的疑问,那是否简繁体某一版本已经有人写过,那另一字体是否我就不应该去书写,以免造成日后整合的困难?希望能听听管理员官方的说法。

另外,简繁体字对于某些政治立场偏激的读者,恐怕会激起其敌视心里,是否目前仍以简体字版用简体字,繁体字版用繁体字作为整合前的暂时政策,以免造成新加入者的误会。

删繁就简是大势所趋

众观古今中外,莫不如此.既然能有简单的办法,何必非要去写那些繁杂的字体哪.更何况文字只是一种表意符号而已,我想还是应该推行文字简化比较符合时代潮流.

That would certainly defy the very principle of wikipedia itself.--Johna 00:30 2004年5月29日 (UTC)
文字必须要有表音的功用在内呀,而且这种说法似乎忽略了多元文化的重要。 Dowba 03:21 2004年6月13日 (UTC)
要删繁就简的话,你去学汉语拼音,连汉字也不要用好了。看看你还可以撑多久。反正东干语也是这么用,也用了好几百年了。不用回来喔。 --石添小草 08:23 2004年6月13日 (UTC)

请参考 “繁简之争是无意义的”一文 http://leoboard.cpatch.org/cgi-bin/topic.cgi?forum=23&topic=16&start=84&show=


基本上, 语文这种东西很怪, 人们通常不太愿意改变自己已经惯用的事物, 但是从另一方面来看, 不论是使用繁体或简体, 都可以视为捍卫自己文化的表现, 没有一方应该受到无理的攻诘, 如同生物演化一般, 语文的歧异性是随著地理 历史与政治不断改变的, 英文是从德文演变而来, 而法文是经过一千多年从英文演变而来, 如今都成了独立的体系。 繁简字只有50年的差异, 但是很难说500年后会各自长成啥样子. 中文的辞汇很早以前就在各地有了不同的衍用, 我请你吃夜宵(宵夜), 或是你口音很道地(地道), 这才只是第一课呢, 我个人赞成交流, 但是不赞成一下子就用包裹表决, 也就是说, 在一致性习惯性中立刻作出取舍, 对各方'编写者'和'使用者'来说, 都是一项考验, 像维基中文百科其实是很好的工具, 可以让来自不同地方的参与者学到不同的想法, 但需要更多的包容, 大家加油!! -- 阿牛 03:18 2004年9月9日 (UTC)

中文繁简繁体简体转换转码编码网页网站

mozilla chinese simplified traditional converter switcher home page homepage html for Mozilla Firefox

中文繁简繁体简体转换转码编码网页网站 for Internet Explorer

Reply to the last message

It's not really a good solution since wikipedia should be open to as many people as it can be, and installing some plugins to a browser doesn't give us that.

I second the motion on writing some sort of converter program to display the appropriate language content based on the user's own browser default language setting, since this would allow most of the people on the net to get access to the information they need on wikipedia without going through the troubles on installing additional software.

As for the programming part, I would like to volunteer to help! Not as a professional programmer, I had little experiences on writing in php, perl, pascal and C/C++. I haven't yet checked what mediawiki is made of (yet) and therefore don't know what it is written in. But I have all summer to write! (I just finished my en:HKCEE exams in Hong Kong, and I actually have at least two months of free time!) So, if anyone is already doing a bit of programming, count me in! But if nobody has started, I guess I can do it if I've got to start from scratch! --Johna 16:34 2004年5月28日 (UTC)

Talk between Johna and Mountain

JohnaMountain讨论了繁简互化的问题,下面是他们讨论的记录。

programming requirement and my thought

首先必须明确从整体上看繁简互化是一个多到多的过程,但其中大部分时一对一的。下面先举几个例子说明繁简转换的复杂。

就拿“台湾”的“台”字举例来说,简体的“台”字对应着繁体“台”、“台”和“台”,如果“台湾”一词在台湾确实是写作“台湾”而非“台湾”的话,那么简体的“台”字对应着四个繁体字“台”、“台”、“台”和“台”。另一方面,一个繁体字也可能映射为多个简体字,具体取决于这个字的含义,比如“干、干、干”这三个字,作“乾坤”的“干”讲时,被简化为“干”,但作“干湿”的“干”字讲时被简化为“干”字。而“干”字本来在繁体中还有它自己的意思,如“干预”,这样的话,简化的“干”字映射为繁体字时也是一对多的,它既可以映射为“干”字,还可以保持不变为“干”字。

从上面的例子我们可以看到,我们必须整理细分到同一个字的不同含义,才能正确转换繁简。同时,还有异体字的问题,比如“干、干”三个是“干”的异体字。

这里有一个难点,就是让计算机确定一个字在某个上下文的具体含义,这是非常困难的,但也是高质量繁简转换所必须的。我想我们可以建立一个词典,用最大匹配法匹配出一个词(这种技术在大陆叫做“分词”),然后再在词的基础上作繁简转化。比如简体的“台”字化为繁体时大概按下面的方式进行:通过分词确定出“台”字所在的词,如果是“台州”就转化为“台州”,如果是“台榭”就转化为“台榭”,如果是“梳妆台”就转化为“梳妆台”,如果是“台风”就转化为“台风”,如果是“台湾”就转化为“台湾”,等等。这个方案不能保证完全正确,但我想足以应付大多数情况。

关于繁简互化最主要的需求我觉得有以下几点:

  • 用户可以在他的Preference中设定究竟要看简体版本,还是繁体版本。
  • 应该既可以转化到简体版本,又可以转化到繁体版本
  • 必须注意到下述的特殊情况:
    • 在简体版本中,我们有时必须要引用一个字的繁体,比如在维基词典中介绍“台”字时说明它是“台”、“台”和“台”三个字的简化,这时我们必须要使“台”、“台”和“台”三个字不作简化。
    • 同样在繁体版本中,我们有时必须要引用一个字的简体,比如在维基字典中介绍“台”时,必须说明它的简体字是“台”。
    • 某些场合中,不论是简体还是繁体版本,我们很难让计算机判断如何正确地繁简转换,我们不得不手工指明如何繁简转换。
  • 我们更新简体版本同时也更新了繁体版本,更新繁体版本同时也更新了简体版本
  • 解决好Wiki文本中的链接,比如“台风”和“台风”,就对应两个Wiki的链接 http://zh.wikipedia.org/wiki/台风http://zh.wikipedia.org/wiki/颱風
  • 确定繁简版本是分开存储还是统一存储。
  • 解决好条目统计:比如增加了一个关于“台风”的条目,我们同时可以看到“台风”和“台风”两个版本,但条目计数应该增加1,而不是2。

关于Wiki文本中的链接和条目统计我没有研究过MediaWiki的代码,所以不好说什么。但前面几条我有几个建议:

  • MySql数据库中存储的是繁简混合的文本,然后可以通过 simplify 转化为简体版本,通过 traditionalize 转化为繁体版本。也就是我的方案中繁简版本是统一存储的。
  • 引入新的Markup:针对前面提到的三种特殊情况,我们必须提供手段,表明一个字不作繁简转换,我建议采用C语言中常用的手段,加一个反斜线。比如:用“\台”表明“台”字不作转化(不论是简化还是繁化),用“\台”表明“台”字不作转化(不论是简化还是繁化)。我还建议采用两道反斜线的方法手工指定繁简转化,比如“\\台台风”说明这段文本在简体版显示为“台风”,在繁体版显示为“台风”。
  • 显示时繁简转化的任务可以交给Wiki文本的Parser来处理。
  • 编辑Wiki文本时,不作繁简转化,直接显示数据库里的混合文本。
  • 链接的处理好像有些复杂,我还没有想清楚。

以上是我的一些看法和建议。--Mountain(Talk) 09:06 2004年5月30日 (UTC)

some other talk at Wikipedia talk:中文繁简体对照表#为什么要分类及我的一些设想.--Mountain(Talk) 09:22 2004年5月30日 (UTC)

Thanks, looks like there's more work to be done than I previously (and, rather naïvely)expected. I'm not quite sure if I am experienced enough for this... I'll give it a try, anyway.
A question : are we planning on phasing the output and store one version per article, or are we planning on doing the phasing in editing, and keep two versions?
The former one may slow down browsing but will keep the DB small; while the latter will make browsing as fast as it is now but we will need to maintain a larger DB...
--Johna 10:40 2004年5月30日 (UTC)

两种方案,我现在支持第二套方案了

从存储上来看,确实如你所说有两种方案,第一种保存一个混合版本,第二种保存繁简两个版本。但第一种不见得会 slow down browsing ,原因是现在的MediaWiki软件引入了Squid的Cache技术。可第一种方案无法简单的Caching,它只提供一个存储版本,但要对应两个Cached Page。

第二种方案看起来更好一些。第二种方案遇到的主要一个问题是条目命名上的冲突,比如“地球”不论繁简体都是“地球”,解决的办法也很简单就是用“地球/简”和“地球/繁”这样的方法来区分。在保存的时候自动将[[地球]]转化成[[地球/简]]或[[地球/繁]]。同时“地球/简”和“地球/繁”也成为Cached Page的名字。

第二种方案必须为繁简用户各自提供一套界面(UI),因为它在显示时不作繁简转换。

经过这个分析,我现在支持第二套方案了,呵呵。--Mountain(Talk) 13:55 2004年5月30日 (UTC)

或许还要仔细考虑一下。--Mountain(Talk) 13:57 2004年5月30日 (UTC)

I didn't know the cache part,thanks. But I have another question : how do we count our articles now? I believe that we don't have the distinction between trad and simp (in the computer's sense), right? So the number we have now must be more than the articles we have...Are we going to do something about that?
P.S. Perhaps we should talk about this where most of us can easily access, any place we can talk about this instead of our own talk pages? :)
--Johna 16:09 2004年5月30日 (UTC)

Squid Cache的资料

请参考:Wikipedia network ideas。--Mountain(Talk) 02:07 2004年5月31日 (UTC)

我支持第一套方案

如果Cache不能满足需要的话,就改Cache好了。

第一个方案的优点是明摆着的,而第二个方案在数据库中增加了冗余信息,这在数据库设计中应该尽量避免。

至于繁简转换,可以采取机器自动转换加人工干预的方式。如果机器可以正确转换不必人工干预,如果不能则应该引入干预机制,还是以台湾为例,可以增加一个符号,例如“[简体:台湾|繁体:台湾]”这样的方式,机器根据HTTP_ACCEPT_LANGUAGES自动确定如何对文本进行render。

Would you like some piggies to eat? 07:41 2004年5月31日 (UTC)

On second thought, I'm buying the 1st method now. Just thought that if the cache can take care of the browsing part of the problem I mentioned, then we can deal with the output easily. But since parsing is done in output, how are we going to store problematic words in a single version of an article in a single DB? Convertion with human involvement cannot be done if we only parse at output. Markups above mentioned by Yaohua2000 needs to be introduced. (Personal Note : Don't know why....I just can't set up mediawiki at home with version 1.3.0beta1...got to keep on trying...)--Johna 01:34 2004年6月2日 (UTC)

将来如何实施?

未来繁简体转换程序作好以后,如何实施呢?现在的同一条目存在繁简两个版本,而且有些内容也不一样。到时候怎么转换呢?是不是需要人工来完成?如果这样,应该建议大家现在不要创建同一条目的两个版本,方便将来的转换工作。--百无一用是书生 (Talk) 08:42 2004年6月3日 (UTC)

同意 --Djyang 20:45 2004年6月4日 (UTC)

同意,现在一条条目有两个版本,若果要对它们做编辑的话,就要做两次同样的事,非常麻烦(也不合理)。一条目一页面是我们的最终目的,现在创建两个版本是反其道而行,会增加将来的(及现在的)工作。 --Lorenzarius 09:05 2004年6月13日 (UTC)

那么速度能快就快吧,这种事情拖了不好的。-- anon

不如现在马上开始合并条目,每个条目只保留一个版本,繁简混杂也没关系,至少比把繁简分列成两个完全不同的条目要强得多。 -- Ran 08:36 2004年6月24日 (UTC)

这样当然好。不知道其他人有什么意见?--百无一用是书生 (Talk) 08:47 2004年6月24日 (UTC)
唯一的问题就是:不知道繁简转换程序什么时候可以启用?假如我们现在就把繁简合并了,等三年后转换程序才开始使用,恐怕到那时维基百科已经乱得没法看了。 -- Ran 01:57 2004年6月25日 (UTC)

关于繁体版条目

近来新近网友致力于繁体版条目的建立,使用了其他简繁字转换软体创建了新版面,不过在用词部分,有时仅是简体版的转换,这里提供台湾用词的网路资料,编写者可参考运用。

1.国立编译馆:包括自然科学、应用科学、外国地名译名、音乐界等,为目前台湾学校教科书的标准规范,但部分用词仍与民间使用有差异,如computer。

2.台湾外交部世界各国简介:台湾官方、媒体对世界各国的用词。

不同地区用词的差异

使用中文的不同地区,存在着用词上的差异,尤其是外国人名、地名等。我们现在主要考虑大陆与台湾地区用户的差异。但是香港、新加坡等地区在中文使用上的差异也应该考虑到--百无一用是书生 (Talk) 02:56 2004年6月21日 (UTC)

我觉得用词问题倒不是太大,英美用词也存在差异,但英语维基通过重定向就很好地解决了,如streetcar、tramway和trolley car都重定向至tram,我觉得如“计算机”、“电脑”;“意大利”、“义大利”等也可以这么解决,总之只要繁简问题解决了,其他一切都好办。-- Ran 09:37 2004年6月23日 (UTC)
同意。补充一点,对于用词差异,建议在文章里另外加注(XX地区: YY,OO地区: ZZ)。这样子做的好处是,在做软体自动繁简体转换时可以少做一些用词上的转换,特别是地名人名专有名词等等的转换。---Djyang 21:53 2004年6月23日 (UTC)
除了条目用词上的解决以外(我认同上文利用重定向是很好的解决),内文的用词差异却该怎么办呢?--MilchFlasche 10:25 2004年7月12日 (UTC)
等将来繁简转换程序写好了再说吧......现在只好靠括号了。 -- Ran 14:29 2004年8月15日 (UTC)

我来提个解决方案

方案如下:

  1. 每个条目只保留一个版本。
  2. 由于繁化简比简化繁要直接的多,建议保留繁体版,把现有简体条目全部转换/合并为繁体条目。
  3. 简体用户编辑维基百科时,网站自动将简体编辑内容转换为繁体。
    1. 如转换有误(如“制度”转成了“制度”),可以由繁体用户自行更改(和改错字的道理一样)。
  4. 简体用户浏览维基百科时,网站自动将繁体条目内容转换为简体。
    1. 如转换有误(如“乾隆”转成了“干隆”),则只能通过更改转换规则来解决。
  5. 繁化简的转换规则放在一个完全开放的页面,采用一目了然的格式,任何人都可以进行更正。规则为从上到下,如:
例外
乾隆、乾坤、康乾
了解 了解
义大利 意大利

以上这个表可能很长,可以分成好几段。简化繁的转换规则(只用来转换简体用户对条目的编辑)也可以这样列出来,当然简化繁的转换规则会复杂得多。-- Ran 12:50 2004年6月23日 (UTC)


完全同意,希望繁简转换能尽快启用,以便全球华文人口集思广益。

基本上伺服器端转码功能方面,应该可以参考市面上评价不错的工具,比方说信使繁简通等(使用范例可参照时报悦读网的内文和留言板,繁简切换键位于 logo 下方)。这类工具标榜的功能十分符合华文维基百科的需要。像是采用线上动态转码技术,支援资料库发布内容的转换;不但从伺服器发到客户端的资讯会转换成简体,简体客户端的资讯发回伺服器时,也会被转换成繁体再入资料库;支援中文简繁一对多的映射、习惯用语的转换以及用户定义辞典等。

不过在程式方面,是由 Wikipedia 的工作人员提供支援?或者有购买商业软体的打算?还是要找功能近似的开放源码作修改呢?我在 Sourceforge 找到一个程式“紫云繁简一点通”,但不知道合不合用…… -- Casil 00:52 2004年7月2日 (UTC)

几点意见

目前繁(正)体中文以台湾、香港以及海外华人为使用大宗,而简体中文以中国大陆、新加坡为主流。个人认为两者差异由小至大可以分为“字”、“词”、“意”三个层次。从“字”的部分来说,简体字起初的设计便是针对繁体字的多对一简化,所以文件处理上理论上由繁转简应该可以避免最多错误(对双方来说)。所以Ran的解决方案是技术上最该采行的。但是实际上面临的却是广大的简体中文使用者与相对少数的繁体使用者,如果要真的这样实行就要请多数的简体字使用者包容其中的不便,同时见转繁的储存也需要更多繁体使用者的校对,否则便失去了原本的立意。

“词”的方面,则是两岸(中文使用大宗,并且是输出地区)分隔五十年由于政治、经济、文化等等因素自然形成的差异。个人认为是缺少交流所导致,因为事实上两岸中文用词一直在变化,或是可以说一致化,特别是生活用语(也许跟台湾传播媒体较强势发达有关)。但是专业用语(资讯、法律、工程、医学等)的差异却依然相当大。个人认为这些差异性也许并不完全是字词翻译软体可以涵盖的。但在大部分的情况下,相同的名词若有英文原文做参考(如 Printer: 印表机[繁]/打印机[简]) 会比较简单,但是只要在内文中放入不同中文地区的用词,并以最先输入资料的作者为主要参照,后输入的名词redirect到先输入的,应该是使用者可以接受的方式。

最后谈到“意”。目前简繁体都归于同一类别(中文)中,个人是乐见的,但是应该包容各地方对于同一中文字词的多元解释,因为只有保持自由与开放才能使全球所有的中文使用者更愿意使用与加入Wikipedia的团队中使其内容更充实。对于地域化的名词,例如省、市。以及近代人物应该尊重该人、事、地的解释与观点,以避免不必要的争议。

此外,目前中文开发是以简体中文的介面为主,如果无法切换简繁体,对于繁体使用者来说有些不便,希望管理员看看能不能以简繁并列或附加的方式来改善(比如“导航条”真的是看不懂,可能附加一个“内容导引”在旁边?“帮助”在繁体使用的习惯用语是“说明”)。这样友善的介面我相信可以使得中文维基吸引更多中文使用者的加入!--Lijenhsin 07:06 2004年7月23日 (UTC)

我的一些看法: 我对技术方面一知半解,从大家的讨论中可以看出,繁转简是比较可行的办法。但是我不同意用重定向的方式来区别词语上的不同。最好的方式还是以前讨论的,建立一个繁简对照表,随时维护,在页面调入时,从对照表中调入相应的词汇。

另外,现在的简体界面管理员不能修改代码,只能修改文字。如果简繁体同时显示,只能在现在的基础上并列增加繁体文字,这样显示很不好看,以前的讨论大家也同意这样。--百无一用是书生 (Talk) 07:22 2004年7月23日 (UTC)

参考意见

偶做的一点尝试在VicDir商业信息系统,目前跟Google一样,没有去做意译的事,就是字对字的直转。新华网的论坛具有一些意译的功能。 其实真正理想的状态是无论输入者输入什么语言,显示给阅读者的总是符合其阅读习惯的语言。偶打算用AI来对付这个需要。 偶不大同意楼上的软件不能解决转换问题的说法。机器虽然笨,可是偶们可以赋予它学习的能力。每一个阅读者都可以是它的老师,而这样的老师是数以亿计的,恐怕没有人能有这样的机会从那么多人手上学东西。--ccton 17:15 2004年7月26日 (UTC)

根本不该有繁简体两种百科全书

我认为根本不该有繁简体两种百科全书,一种就够了。只要有一个中文版,然后根据用户设定或是地区显示繁体或是简体。例如DNS反查是来自北京未登记的用户,预设显示简体;如果DNS反查是来自非汉人的国家,例如德国,也可以预设显示简体。但是用户可以自由更改设定。

我想最快的解决方案是多几个tag,让修改文章的人补充内容。例如有人用繁体写了以下的内容:

雪梨的特产是印表机和速食面。←我乱写的,不要相信。

如果有简体中文的读者想要修改,可以改成:

<TC>雪梨</TC><SC>悉尼</SC>的特产是<TC>印表机</TC><SC>列印机</SC><TC>速食面</TC><SC>方便面</SC>

以后有人从北京或是新加坡查询,就会看到:

悉尼的特产是列印机和方便面。

但是港台的用户还是会看到:

雪梨的特产是印表机和速食面。

如果有人想调整设定,可以自由选择要看的版本。

同理,如果一个页面最早是简体中文,繁体中文的读者也可以动手增加内容。因为繁简两边都可以看到内容,比较不会有恶意修改的状况。当然这里使用的tag有点啰唆,也许各位可以想出更好的解决方法。

张三是个<TC>逃税大户</TC><SC>商人</SC>

这个方法的缺点是浪费人力,不容易修改,而且只能当临时方案。很多常用的简单字,例如<TC></TC><SC></SC>,根本不该用这个方法改。这个方法我自己承认真的很烂。

如果一个页面看的人很少,补充的机会就不大。但是对热门的页面,应该很快就可以修改到中港澳台新五地都很容易阅读的状态。搞不好很快就有人写出自动修改的<TC>程式</TC><SC>程序</SC>。我们必须马上让大家都满意,以后才有时间做出更好的解决方案。

至于语气等更高深的问题,我想争论下去是无意义的。康有为是广东人。大家都知道广东方言跟<TC>国语</TC><SC>普通话</SC>相差很多。请问康有为到北京考试的时候,是不是写广东式中文?

答案:当然不是。康有为在家说广东话,但是在参加科举考试的时候,用的还是文言文。也许有些人对文言文不以为然,但是当时所有的读书人都读四书五经,都读各种古书,他们写文章自然也用这种几千年来知识份子共通的语言。李白写诗用家乡话吗?韩愈写文章用家乡话吗?大家都约束自己用一种大家都可以懂的文体写作,这就是文言文。

假设有时光机器,能把任何时代的人送到任何一个不同的时代。我把汉朝的司马迁送到宋朝跟司马光作伴。司马光应该很容易懂司马迁写的东西,因为宋朝的读书人一定读过汉朝文章;除了历史差异外,司马迁应该也很容易懂司马光。道理很简单,司马光写的东西司马迁应该懂大部分,剩下的地方司马光可以改。

这就是中文的优点。

在古代,书写的文体是文言文。大家都可以看懂。我们不可能用文言文写百科全书,但是可以从官话为基础,演变出共通的白话文。不管原来说什么方言,住在什么地方,借由阅读别人写的文章,总有一天中国人又可以发展出互通的文体。香港式的中文懂的人比较少,但是总可以修改成大家都可以接受的通用白话文。

不管怎样,根本不该有繁简体两种百科全书。以前的中国人说话再怎么南腔北调,文字还是相通的。今天中国人口语都已经勉强相通了,怎么还能容忍文字不相通呢?

-- Toytoy 03:31 2004年8月4日 (UTC)

我想只维持一个中文版本的维基百科已经是共识了:-)现在所谓的繁简问题实际上只是技术上如何去做到繁简转换的问题。 --Lorenzarius 05:38 2004年8月4日 (UTC)
先有一个标准,然后用技术实现;还是先去用技术实现,等差不多了,再制定一个标准?--zy26 07:25 2004年8月4日 (UTC)
嗯,an interesting idea. 我喜欢你的例子. ^_*
谢谢您的俏注意! --Menchi (讨论页)Â 08:10 2004年8月4日 (UTC)