Cassandra
| 原作者 | Avinash Lakshman, Prashant Malik |
|---|---|
| 開發者 | Apache软件基金会 |
| 初始版本 | 2008 |
| 穩定版本 | 1.1.1/ 2012年6月4日 |
| 程式語言 | Java |
| 作業系統 | 跨平台 |
| 開發狀態 | Active |
| 類型 | 鍵值存儲 |
| 許可協議 | Apache许可证 2.0 |
| 網站 | http://cassandra.apache.org/ |
Apache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的可扩放性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。
目录 |
历史 [编辑]
Cassandra 的名称来源于希腊神话,是特洛伊的一位悲剧性的女先知的名字,因此项目的Logo是一只放光的眼睛。
这个项目由就职于Facebook的Avinash Lakshman(也是Amazon Dynamo的作者之一)和Prashant Malik在为Facebook的Inbox编写[1]。2008年,Facebook将项目开源,Cassandra在2009年成为了Apache软件基金会的Incubator项目,并在2010年2月走出孵化器,成为正式的基金会项目。
架构 [编辑]
Cassandra使用了Google BigTable的数据模型,与面向行的传统的关系型数据库不同,这是一种面向列的数据库,列被组织成为列族(Column Family),在数据库中增加一列非常方便。对于搜索和一般的结构化数据存储,这个结构足够丰富和有效。
Cassandra的系统架构与Dynamo一脉相承,是基于O(1)DHT的完全P2P架构,与传统的基于分片的数据库集群相比,Cassandra可以几乎无缝地加入或删除节点,非常适于对于节点规模变化比较快的应用场景。
Cassandra的数据会写入多个节点,来保证数据的可靠性,在一致性、可用性和网络分区耐受能力(CAP)的折衷问题上,Cassandra比较灵活,用户在读取时可以指定要求所有副本一致(高一致性)、读到一个副本即可(高可用性)或是通过选举来确认多数副本一致即可(折衷)。这样,Cassandra可以适用于有节点、网络失效,以及多数据中心的场景。
特性 [编辑]
和其他数据库比较,Cassandra有三个突出特点:
- 模式灵活 :使用Cassandra,像文档存储,你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升,特别是在大型部署上。
- 真正的可扩展性 :Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量,可以指向另一台电脑。你不必重启任何进程,改变应用查询,或手动迁移任何数据。
- 多数据中心识别 :你可以调整你的节点布局来避免某一个数据中心起火,一个备用的数据中心将至少有每条记录的完全复制。
一些使Cassandra提高竞争力的其他功能:
- 范围查询 :如果你不喜欢全部的键值查询,则可以设置键的范围来查询。
- 列表数据结构 :在混合模式可以将超级列添加到5维[來源請求]。对于每个用户的索引,这是非常方便的。
- 分布式写操作 :有可以在任何地方任何时间集中读或写任何数据。并且不会有任何单点失败。
与类似系统的比较 [编辑]
Hadoop HBase [编辑]
Hadoop HBase是Apache Hadoop项目的一个子项目,是Google BigTable的一个克隆,与Cassandra一样,它们都使用了BigTable的列族式的数据模型,两者的主要不同在于[2]:
- Cassandra只有一种节点,而HBase有多种不同角色,又架构在Hadoop底层平台之上,部署上Cassandra更简单;
- Cassandra的数据一致性策略是可配置的;
- HBase提供了Cassandra没有的行锁机制,Cassandra要想使用锁需要配合其他系统,如Hadoop Zookeeper;
- HBase提供更好的MapReduce并行计算支持,Cassandra在0.6版本也提供了这个功能;
- Cassandra的读写性能和可扩展性更好,但不擅长区间扫描[3]。
知名用户 [编辑]
- Digg
- Facebook用Cassandra存储Inbox,有人认为Facebook在使用Cassandra的一个不开源的分支
- Twitter公开介绍他们正在向Cassandra迁移[4]。
- 据项目主页Reddit, Rackspace, Cloudkick, Cisco, SimpleGeo, Ooyala, OpenX也在使用Cassandra[5]。
参考文献 [编辑]
- ^ Cassandra - 一个分散的非结构化存储系统(译). Avinash Lakshman,Prashant Malik. 2010-04-21.
- ^ HBase vs Cassandra: 我们迁移系统的原因(译). Dominic Williams. 2010-02-24.
- ^ Yahoo! Cloud Serving Benchmark. Brian F. Cooper. 2010-03-31.
- ^ Cassandra @ Twitter: An Interview with Ryan King. myNoSQL. 2010-02-23.
- ^ Apache Cassandra. Apache软件基金会.
外部连接 [编辑]
|
|||||||||||||||||||||||||
|
||||||||||||||