Help:特殊字母與符號
| 本页面包含特殊字符。部分操作系统及浏览器须要特殊字母与符号支持。 |
目录 |
概述 [编辑]
在MediaWiki 1.5中,所有的项目都使用了Unicode(UTF-8)字符编码。如果你的操作系统和浏览器不支持Unicode,或者没有安装可以显示某些Unicode字符的字体,你将无法正确浏览、编辑带有这类字符的文章。典型的状况是:把不能显示的字符被显示成内有数字的小方框,编辑框内不能显示的字符被显示成一组组字符代码。本文章的下列章节会给出具体的介绍。
你可在在#显示和#相关字体的下载与安装这2章节找到有关的解决方案。
字符编码系统 [编辑]
到2005年6月底,当这个新的版本开始在维基媒体上使用时,英国、荷兰、丹麦和瑞典的维基百科已经使用了windows-1252编码(他们宣布他们使用的是ISO-8859-1编码,但实际上浏览器把二者识别为同一种,而且Mediawiki并没有限制使用windows-1252的历史)。在数据库中准备升级的wiki文档将始终以windows-1252编码保存,并且在载入时被转换。此后编辑们的更新将作为UTF-8编码储存在数据库内。载入时转换的过程对于用户来说是不可见的。
- Unicode(UTF-8)
- 各字符字节数可变
- 特殊字符,包括中日韩统一表意文字,都可以在网页和编辑框里正常显示。另外可以使用多字符代码,且不会在编辑框里被自动转换。
- ISO 8859-1
- 各字符仅一字节
- 在此字符集中不可用的特殊字符以多字符代码形式储存,它们通常有两到三个等价表示,例如:€,可表示为€,或€,或€。
- 包含最常见的特殊字符,比如é,也可表示为é,但这样没必要。
注意到Special:Export输出时使用UTF-8,无论数据库使用的是哪种编码。
若想了解某维基使用的编码系统,打开浏览器的“察看源代码”,找到类似字符:
<meta http-equiv="Content-type" content="text/html; charset=iso-8859-1" />
或
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
编辑 [编辑]
许多不在标准ASCII表中的字符也许对维基十分重要。有四种方法输入非ASCII字符:
- 使用编辑框下的特殊字符以插入文章。但有可能部分字符无法显示。
- 按住ALT键并从数字键区依次输入三位数输入EASCII字符,但超出EASCII范围的数字会被转换成SOH符号(U+0001)。
- 直接使用特种键盘、输入法,或者字符映射程序。在ISO-8859-1的维基将把字符集以外的字符转换为HTML数字字符实体(见下)。
- 使用HTML命名字符实体引用,比如
à。这对于不同的字符集来说都能非常正确的表达指定字符,即使无法显示。不过可能引起搜索的困难(见下)。 - 使用HTML数字字符引用,比如
¡。这是输入未命名实体Unicode值的唯一办法,比如土耳其字符。代码点128到159在ISO-8859-1和Unicode中都未使用,因此其间的字符引用是错误的,“非法的”,会引起多种问题。
总的来说,西欧语言一般不出现问题。
为了搜索的成功,特殊字符最好不用字符实体引用,否则搜索会出现问题。比如“Odiliënberg”,服务器只会以“Odili”、“euml”或“nberg”进行搜索。这其实是个bug,应该被修正。参见:Help:搜索。
浏览器 [编辑]
有些浏览器会对编辑框裡的文字作一些手脚。最常见的行为就是将文字转换为本地的编码形式。用户将不得不手动转换回来。这也常造成特殊字符变成问号(在某些浏览器变成了音译文字!)。
Mac的Internet Explorer [编辑]
这种常见浏览器使用Mac OS Roman编码系统。它几乎把所有的Unicode字符变成问号,部分ISO-8859-1也不能幸免于难(特别是¤ ¦ ¹ ² ³ ¼ ½ ¾ Ð × Ý Þ ð ý þ 和软连字符)。所以用它浏览维基百科会造成极大的不便。
Netscape 4.x [编辑]
问题与上者类似。
工作区 [编辑]
| 正常浏览器: 数据库和编辑框 |
异常浏览器: 编辑框 |
| œ | œ |
| œ | œ |
| œ | œ |
在英文维基变为UTF-8之后,跨维基机器人就开始替换HTML实体为Unicode字符,但对于有些浏览器来说,不正常的Unicode字符越来越多。工作区就是为此设计,以保证那些浏览器能安全的进行编辑,当然仅当Mediawiki知道哪些浏览器是有问题的。
列在$wgBrowserBlackList(一组正则表达式,匹配User-Agent字符串)的浏览器被提供一个特别的编辑框。十六进制HTML实体有多余的前导0,非ASCII字符在编辑框显示为无前导0的十六进制HTML实体。
当前IE Mac和一些版本的Linux Netscape 4.x浏览器在黑名单之中,不过这能解决一些问题。
显示 [编辑]
浏览器以及设置 [编辑]
各种浏览器对Unicode的支持程度参差不齐。一些浏览器需要通过以下手段开启对Unicode的默认支持。
- Internet Explorer
在Windows下在默认状况下即可正常显示(需要下一章节的字体支持)。
其中一个问题便是,IE对字体的处理是:使用在注册表中的设置,却不对可能显示成问号的字符的字体进行搜索。这就造成IE有时必须使用特定字体。在英文维基有一组这种功能模板:en:template:unicode处理通用Unicode字符,en:polytonic处理多音希腊语,en:IPA处理國際音標。而在Windows象形文字列表中的字符能够不用特殊手段安全使用。<font face="Arial Unicode MS">...</font>可能只在用户有这种字体时才正常显示。
- Konqueror、Safari和Opera
基本上在默认状况下即可正常显示。(需要下一章节的字体支持)
- Mozilla Firefox
在Windows下在默认状况下即可正常显示(需要下一章节的字体支持)。其他平台上可能需要更改设置。点开“工具”菜单,进入“选项”,点击“内容”标签,点击“字体和颜色”中的“高级”按钮,取消允许网页使用指定的字体(allow pages to choose their own fonts)在“字体编码”中选中“Unicode (UTF-32BE)”,确定退出。
世界语 [编辑]
| 在编辑框 | 在数据库和输出 |
| S | S |
| Sx | Ŝ |
| Sxx | Sx |
| Sxxx | Ŝx |
| Sxxxx | Sxx |
| Sxxxxx | Ŝxx |
Mediawiki软件可以设置世界语使用UTF-8编码作为储存和显示编码。但在编辑时,这些文字被转换为容易以标准键盘编辑的格式。
有这种特性的字符有:Ĉ,Ĝ,Ĥ,Ĵ,Ŝ,Ŭ,ĉ,ĝ,ĥ,ĵ,ŝ,ŭ。你可以用特种键盘直接键入这些字符,不过保存后在编辑时你还是会看见Sx。这叫做“x-加帽拼写”(参见:en:Esperanto orthography#The x-system)。如果想输入在这些字符或它们的不发音形式(A,G,H,J,S,U,c,g,h,j,s,u)后的“x”,则应输入显示出来的“x”两倍的“x”。
比如,世界语维基链接到en:Luxury car的跨语言链接,源代码是[[:en:Luxxury car]]。这曾造成跨维基机器人工作的问题。
相关字体的下载与安装 [编辑]
古代字母 [编辑]
- Windows
下载安装下列的任意一种字体:
- Linux
基于Debian的Linux(例如ubuntu和Linux Mint等)可通过Synaptic下载ttf-ancient-fonts的deb包。
楔形文字 [编辑]
要显示苏美尔楔形文字,下载安装下列的任意一种字体:
安装这几种字体后firefox中能正常显示和编辑,不过IE和Chrome仅能正常显示楔形文字音节表,位于辅助多语言平面(SMP)內的U+12000—U+1236E 楔形文字(879個字符)和U+12400—U+12473 楔形文字数字和标点(103個字符)則無法显示。
古埃及圣书体 [编辑]
要显示古埃及圣书体,下载安装下列的字体:
奥斯曼亚文字和Shavian文字 [编辑]
要显示奥斯曼亚文字和Shavian文字,下载安装下列的字体:
古埃及象形文字 [编辑]
比如<hiero>A54</hiero>得到
|
。参见mw:Extension:WikiHiero/Syntax(警告:本頁面含大量图像)。
这与浏览器的编码系统无关,因为这是图像。
当然也可用Unicode来表示它们,不过只有“Aegyptus”支持古埃及象形文字。
盲文 [编辑]
要显示盲文,从下列的链接下载安装字体:
布吉文 [编辑]
要显示布吉文,从下列的链接下载安装字体:
婆罗米系文字 [编辑]
要显示婆罗米系文字,从下列的链接下载安装字体:
- 高棉文:Khmer Unicode Fonts
- 天成文:Devanagari Unicode Fonts
- 孟加拉文:Bengali Unicode Fonts
- 古吉拉特文:Gujarati Unicode Fonts
- 古木基文:Gujarati Unicode Fonts
- 缅文:Myanmar Unicode Fonts
- 奥里亚文:Oriya Unicode Fonts
- 泰卢固文:Telugu Unicode Fonts
- 卡纳达文:Kannada Unicode Fonts
- 僧伽罗文:Sinhala Unicode Fonts
- 马拉雅拉姆文:Malayalam Unicode Fonts
- 泰米尔文:Malayalam Unicode Fonts
- 泰文:Thai Unicode Fonts
- 老挝文:Lao Unicode Fonts
- 藏文:Tibetan Unicode Fonts
满文 [编辑]
要显示满文,下载安装下列的字体:
国际音标 [编辑]
有特殊字符的链接 [编辑]
当用户使用下划链接时,且链接有特殊字符时,结果可能有歧义。
链接 + - < > ⊂ ⊃ 得到 + - < > ⊂ ⊃,也许看起来像± = ≤ ≥ ⊆ ⊇。这样最好单独给出链接。
- A ⊂ B (见子集)
参见 [编辑]
外部链接 [编辑]
- http://www.unicode.org/charts/ Unicode字符表,仅十六进制数,PDF文件显示所有浏览器不能显示的字符(英文)。
- http://www.unicode.org/help/display_problems.html 在大多数平台上启用Unicode的帮助(英文)。
- 0到65535Unicode字符,十进制。
- HTML 4.0 Character Entity References—shows how the named and decimal character references look in one's browser
- FileFormat.Info—details of many Unicode characters, including the named, decimal and hexadecimal character reference, showing how it should look and for each, how it looks in one's browser
- Alan Wood's Unicode resources—comprehensive resource with character test pages for all Unicode ranges, as well as OS-specific Unicode support information and links to fonts and utilities
- CharacterPal—Free Mac OS X Dashboard Widget that displays key combinations for special characters
- A converter that helps one find the right escape sequence to use—helps when one needs to escape ASCII/Unicode characters that are special characters in wiki markup
|
|||||||||||||||||||||||
