类型系统

在计算机科学中，类型系统（英语：type system）用于定义如何将程式语言中的数值和运算式归类为许多不同的型别，如何操作这些型别，这些型别如何互相作用。型别可以确认一个值或者一组值具有特定的意义和目的（虽然某些型别，如抽象型别和函式型别，在程式执行中，可能不表示为值）。型别系统在各种语言之间有非常大的不同，也许，最主要的差异存在于编译时期的语法，以及执行时期的操作实现方式。

编译器可能使用值的静态型别以最佳化所需的储存区，并选取对值运算时的较佳演算法。例如，在许多C编译器中，“浮点数”资料型别是以32 位元表示，与IEEE 754规格一致的单精度浮点数。因此，在数值运算上，C应用了浮点数规范（浮点数加法、乘法等等）。

型别的约束程度以及评估方法，影响了语言的型别。更进一步，程式语言可能就型别多态性部分，对每一个型别都对应了一个极度个别的演算法的运算。型别理论研究型别系统，尽管实际的程式语言型别系统，起源于电脑架构的实际问题、编译器实作，以及语言设计。

基础[编辑]

定型（typing，又称型别指派）赋予一组位元某个意义。型别通常和记忆体中的数值或物件（如变数）相联系。因为在电脑中，任何数值都是以一组位元简单组成的，硬体无法区分记忆体位址、指令码、字元、整数、以及浮点数。型别可以告知程式和程式设计者，应该怎么对待那些位元。

型别系统提供的主要功能有：

安全性

使用型别可允许编译器侦测无意义的，或者是可能无效的代码。例如，可以识出一个无效的运算式"Hello, World" + 3，因为不能对（在平常的直觉中）逐字字串加上一个整数。强型别提供更多的安全性，但它并不能保证绝对安全（详情请见型别安全）。

最佳化

静态型别检查可提供有用的资讯给编译器。例如，如果一个型别指明某个值必须以4的倍数对齐，编译器就有可以使用更有效率的机器指令。

可读性

在更具表现力的型别系统中，若其可以阐明程式设计者的意图的话，型别就可以充当为一种文件形式。例如，时间戳记可以是整数的子型别；但如果程式设计者宣告一个函式为返回一个时间戳记，而不只是一个整数，这个函式就能表现出一部分文件的阐释性。

抽象化（或模组化）

型别允许程式设计者对程式以较高层次的方式思考，而不是烦人的低层次实作。例如，程式设计者可以将字串想成一个值，以此取代仅仅是位元组的阵列。或者型别允许程式设计者表达两个子系统之间的介面。将子系统间互动时的必要定义加以定位，防止子系统间的通讯发生冲突。

程式通常对每一个值关联一个特定的型别（尽管一个型别可以有一个以上的子型别）。其它的实体，如物件、模组、通讯频道、依赖关系，或者纯粹的型别自己，可以和一个型别关联。例如：

资料型别

一个数值的型别

类别

一个物件的型别

种类

一个型别的型别

在每一个程式语言中，都有一个特定的型别系统，保证程式的表现良好，并且排除违规的行为。作用系统对型别系统提供更多细微的控制。

类型[编辑]

$e:int$ ：断言变量e的类型是int。

型别检查[编辑]

型别检查所进行的检验处理以及实行型别的约束，可发生在编译时期（静态检查）或执行时期（动态检查）。静态型别检查是在编译器所进行语义分析中进行的。如果一个语言强制实行型别规则（即通常只允许以不遗失资讯为前提的自动型别转换）就称此处理为强型别，反之称为弱型别。

静态和动态检查[编辑]

如果一个程式语言的型别检查，可在不测试执行时期运算式的等价性的情况下进行，该语言即为静态型别的。一个静态型别的程式语言，是在执行时期和编译时期之间的处理阶段下重视这些区别的。如果程式的独立模组，可进行各自的型别检查（独立编译），而无须所有会在执行时出现的模组的那些资讯，该语言即具有一个编译时期阶段。如果一个程式语言支援执行时期（动态）调度已标记的资料，该语言即为动态型别的。如果一个程式语言破坏了阶段的区别，因而型别检查需要测试执行时期的运算式的等价性，该语言即为依存型别的。^[1]

在动态型别中，经常在执行时期进行型别标记的检查，因为变数所约束的值，可经由执行路径获得不同的标记。在静态型别程式语言中，型别标记使用辨识联合型别表示。

动态型别经常出现于脚本语言和RAD语言中。动态型别在解释型语言中极为普遍，编译语言则偏好无须执行时期标记的静态型别。对于型别和隐式型别语言较完整的列表参见型别和隐式型别语言。

术语推断型别（鸭子类型，duck typing）指的是动态型别在语言中的应用方式，它会“推断”一个数值的型别。

看看型别标记检查是如何运作的，考虑下列假码范例：

var x; //（1）
x := 5; //（2）
x := "hi"; //（3）

在这个范例中，（1）宣告x；（2）将整数值5代给x；（3）将字串值"hi"代给x。在主要的静态系统中，这个代码片断将会违反规则，因为（2）和（3）对 x所约束的型别相矛盾。

相较之下，一个纯粹的动态型别系统允许上述程式的执行，因为型别标记附到数值上（不是变数）。在处理错误语句或运算式的时候，以动态型别实作的语言会捕捉程式的错误，而不是误用错误型别的数值。换句话说，动态型别捕捉在程式执行时的错误。

典型的动态型别实作，会以型别标记维持程式所有数值的“标记”，并在运算任何数值之前检查标记。例如：

var x := 5; //（1）
var y := "hi"; //（2）
var z := x + y; //（3）

在这个程式片断中，（1）将数值5约束给x；（2）将数值"hi"约束给y；以及（3）尝试将x加到y。在动态型别语言中，约束给x的值会是一对（整数, 5），且约束给y的值会是一对（字串, "hi"）。当这个程式尝试执行第3行时，语言对型别标记整数和字串进行检查，如果这两个型别的+（加法）运算尚未定义，就会发出一个错误。

某些静态语言有一个“后门”，在这些程式语言中，能够编写一些不被静态型别所检查的代码。例如，Java和C-风格的语言有“转型”可用。在静态型别的程式语言中，不必然意味著缺乏动态型别机制。例如Java使用静态型别，但某些运算需要支援执行时期的型别测试，这就是动态型别的一种形式。更多静态和动态型别的讨论，请参阅程式语言。

实践中的静态和动态型别检查[编辑]

对静态型别和动态型别两者之间的权衡也是必要的。

静态型别在编译时期时，就能可靠地发现型别错误。因此通常能增进最终程式的可靠性。然而，有多少的型别错误发生，以及有多少比例的错误能被静态型别所捕捉，目前对此仍有争论。静态型别的拥护者认为，当程式通过型别检查时，它才有更高的可靠性。虽然动态型别的拥护者指出，实际流通的软体证明，两者在可靠性上并没有多大差别。可以认为静态型别的价值，在于增进型别系统的强化。强型别语言（如ML和Haskell）的拥护者提出，几乎所有的bug都可以看作是型别错误，如果编写者以足够恰当的方式，或者由编译器推断来宣告一个型别。^[2]

静态型别通常可以编译出速度较快的代码。当编译器清楚知道所要使用的资料型别，就可以产生最佳化过后的机器码。更进一步，静态型别语言中的编译器，可以更轻易地发现较佳捷径。某些动态语言（如Common Lisp）允许任意型别的宣告，以便于最佳化。以上理由使静态型别更为普及。参阅最佳化。

相较之下，动态型别允许编译器和解译器更快速的运作。因为原始码在动态型别语言中，变更为减少进行检查，并减少解析代码。这也可减少编辑－编译－测试－除错的周期。

静态型别语言缺少型别推断（如Java），而需要编写者宣告所要使用的方法或函式的型别。编译器将不允许编写者忽略，这可为程式起附加性说明文件的作用。但静态型别语言也可以无须型别宣告，所以与其说是静态型别的代价，倒不如说是型别宣告的报酬。

静态型别允许建构函式库，它们的使用者不太可能意外的误用。这可作为传达函式库开发者意图的额外机制。

动态型别允许建构一些静态型别系统所做不出来的东西。例如，eval函式，它使得执行任意资料作为代码成为可能（不过其代码的型别仍是静态的）。此外，动态型别容纳过渡代码和原型设计，如允许使用字串代替资料结构。静态型别语言最近的增强（如Haskell 一般化代数资料型别）允许eval函式以型别安全的方式撰写。

动态型别使元程式设计更为强大，且更易于使用。例如C++模板的写法，比起等价的Ruby或Python写法要来的麻烦。更高度的执行时期构成物，如元类别（metaclass）和内观（Introspection），对静态型别语言而言通常更为困难。

强型别和弱型别[编辑]

强型别的基本定义即为，禁止错误型别的参数继续运算。C语言的型别转换即为缺乏强型别的证例；如果编写者用C语言对一个值转换型别，不仅令编译器允许这个代码，而且在执行时期中也同样允许。这使得C代码可更为紧密和快速，不过也使除错变的更为困难。

部分学者使用术语记忆体安全语言（或简称为安全语言）形容禁止未定义运算发生的语言。例如，某个记忆体安全语言将会检查阵列边界。

弱型别意指一个语言可以隐式的转换型别（或直接转型）。看看先前的例子：

var x := 5;
var y := "37";
x + y;

在弱型别语言中编写上述代码，并不清楚将会得到哪一种结果。某些语言如Visual Basic，将会产生可以运作的代码，它将会给出的结果是42：系统将字串"37"转换成数字37，以符合运算上的直觉；其它的语言，像JavaScript将会产生的结果是"537"：系统将数字5转换成字串"5"并把两者串接起来。在Visual Basic和JavaScript中，最终的型别是以那两个运算元为考量的规则所决定。在部分语言中，如AppleScript，某个值最终的型别，只以最左边的运算元的型别所决定。

设计精巧的语言也允许语言显现出弱型别（借由类型推断之类的技术）的特性以方便使用，并且保留了强型别语言所提供的型别检查和保护。例子包括VB.Net、C#以及Java。

运算子多载所带来的简化，像是不以算术运算中的加法来使用“+”，可以减少一些由动态型别所造成的混乱。例如，部分语言使用“.”或“&”来串连字串。

型别系统的安全性[编辑]

程式语言的型别系统的第三种分类方法，就是型别运算和转换的安全性。如果它不允许导致不正确的情况的运算或转换，电脑科学就认为该语言是“型别安全”的。

再次看看这个假码例子：

var x := 5;
var y := "37";
var z := x + y;

在一个如Visual Basic的语言中，例子中的变数z得到的值为42。不管编写者有没有这个意图，该语言定义了明确的结果，且程式不会就此崩溃，或将不明定义的值赋给z。就这方面而言，这样的语言就是型别安全的。

现在来看C的相同例子：

int x = 5;
char y[] = "37";
char* z = x + y;

在这个例子中，z将会指向一个超过y位址5个位元组的记忆体位址，相当于指向y字串的指标之后的两个空字元之处。这个位址的内容尚未定义，且有可能超出记忆体的定址界线，而且就这么引用参考z会引起程式的终止。虽是一个良好型别，但却不是记忆体安全的程式——如果以对型别安全语言而言不该发生为先决条件的话。

多态性和型别[编辑]

术语“多态性”指的是：代码（尤其是函式和类别）对各种型别的值能够动作，或是相同资料结构的不同实体能够控制不同型别的元素。为了提升复用代码的潜在价值，型别系统逐渐允许多态性：在具有多态性的语言中，程式设计者只需要实作如列表或词典的资料结构一次，而不是对使用到它的元素的每一个型别都规划一次。基于这个原因，电脑学家也称使用了一定的多态性的方法为泛型程式设计。型别理论的多态性基础与抽象化、模组化和（偶尔）子型别有相当密切的联系关系。

推断型别[编辑]

推断型别（鸭子类型，Duck typing）最初是由Dave Thomas在Ruby社群中提出的，推断型别用了这个论证法“如果它像什么，而且其它地方也像什么，那么它就是什么。”

在某些程式设计环境中，两个物件可以有相同的型别，即使它们没有什么交集。一个例子是C++中迭代器和指针所拥有的的双重性，两者皆以不甚相同的机制实作并提供一个* 运算。

这个技术之所以常被称作“鸭子型别”，是基于这句格言：“如果它摇摇摆摆的走法很像鸭子，而且它的嘎嘎叫声也像鸭子，那它就是一只鸭子！”

"If it waddles like a duck, and quacks like a duck, it's a duck!"

显示宣告和隐式暗示[编辑]

许多静态型别系统，如C和Java，要求要宣告型别：编写者必须以指定型别明确地关联到每一个变数上。其它的，如Haskell，则进行型别推断：编译器根据编写者如何运用这些变数，以草拟出关于这个变数的型别的结论。例如，给定一个函式f（x,y），它将x和y加起来，编译器可以推断出x和y必须是数字——因为加法仅定义给数字。因此，任何在其它地方以非数值型别（如字串或链表）作为参数来呼叫f的话，将会发出一个错误。

在代码中数值、字串常数以及运算式，经常可以在详细的前后文中暗示型别。例如，一个运算式3.14可暗示浮点数型别；而[1, 2, 3]则可暗示一个整数的链表；通常是一个阵列。

型别的型别[编辑]

型别的型别是一种种类。在型别程式设计中有明确的种类，如Haskell程式语言的型别建构子，在申请比较简单的型别之后，其返回一个简单的型别。例如，型别建构子二选一有这些种类* -> * -> *（*代表种类），而且它的申请二选一字串整数是一个简单的型别。然而，大多数程式语言的型别，是由编写者来暗示或写死，这就并未将种类的概念用作为首选层。

型别可分为几个大类：

原始型别

这是最简单的型别种类，例如：整数和浮点数

整数型别

全部是数字的型别，例如：整数和自然数

浮点数型别

以浮点数表示数字的型别

复合型别

由基本型别组合成的型别，例如：阵列或记录单元。抽象资料型别具有复合型别和界面两种属性，这取决于你提及哪一个。

例如：变数型别

例如：二元函数

全称量化型别

如参数化型别、型别变数

存在量化型别

如模组

精炼型别

识别其它型别的子集的型别

依存型别

取决于执行时期的数值的型别

所有权型别

描述或约束物件导向系统结构的型别

相容性：等价性和子型别[编辑]

对于静态型别语言的型别检查器，必须检验所有运算式的型别，是否与前后文所期望的型别一致。例如指派语句x := e，推断运算式e的型别，必定与宣告或推断的变数型别x一致。这个一致性的概念，就称为相容性，是每一个程式语言所特有的。

很明显，如果e和x的型别相同，就允许指派，然后这是一个有效的运算式。因此在最简单的型别系统中，问题从两个型别是否相容，简化为两个型别是否相等（或等价）。然而不同的语言对于两个型别运算式是否理解为表示了相同型别，有著不同的标准。型别的相等理论的差异相当巨大，两个极端的例子是结构型别系统（Structural type system），任两个以相同结构所描述的值的型别都是等价的，且在标明型别系统（Nominative type system）上，没有两个独特的语法构成的型别运算式表示同一型别，（即型别若要相等，就必须具有相同的“名字”）。

在子型别的语言中，相容关系更加复杂。特别是如果A是B的子型别，那么型别A的值可用于型别B也属意料之中，但反过来就不是这样。如同等价性，对每一个程式语言而言，子型别的关系的定义是不同的，可能存在各种变化。在语言中出现的参数或者特定的多态性，也可能意味著具有对型别的相容性。

争议[编辑]

在强型别、静态型别语言的支持者，和动态型别、自由形式的支持者之间，经常发生争执。前者主张，在编译的时候就可以较早发现错误，而且还可增进执行时期的效能。后者主张，使用更加动态的型别系统，分析程式码更为简单，减少出错机会，才能更加轻松快速的编写程式。^[3]与此相关的是，考虑到在型别推断的程式语言中，通常不需要手动宣告型别，这部分的额外开销也就自动降低了。

参考文献[编辑]

^ Harper, Robert & Benjamin C. Pierce (2005), "Design Considerations for ML-Style Module Systems", in Pierce, Benjamin C., Advanced Topics in Types and Programming Languages, Cambridge, MA: MIT Press, ISBN 0262162288 （页面存档备份，存于互联网档案馆）
^ 存档副本. [2007-03-24]. （原始内容存档于2008-05-12）.
^ Meijer, Erik and Peter Drayton. Static Typing Where Possible, Dynamic Typing When Needed: The End of the Cold War Between Programming Languages (PDF). Microsoft Corporation. （原始内容 (PDF)存档于2007-02-16）.

参阅[编辑]

[1] Harper, Robert & Benjamin C. Pierce (2005), "Design Considerations for ML-Style Module Systems", in Pierce, Benjamin C., Advanced Topics in Types and Programming Languages, Cambridge, MA: MIT Press, ISBN 0262162288 （页面存档备份，存于互联网档案馆）

[2] 存档副本. [2007-03-24]. （原始内容存档于2008-05-12）.

[3] Meijer, Erik and Peter Drayton. Static Typing Where Possible, Dynamic Typing When Needed: The End of the Cold War Between Programming Languages (PDF). Microsoft Corporation. （原始内容 (PDF)存档于2007-02-16）.

[1]

[2]

[3]