跳转到内容

维基数据

本页使用了标题或全文手工转换
维基百科,自由的百科全书
维基数据
Wikidata
維基數據首頁截圖
语言多语种
持有者維基媒體基金會
创始人维基媒体社群
网址wikidata.org 編輯維基數據鏈接
商业性质
推出时间2012年10月30日,​13年前​(2012-10-30
內容許可
  • 主、属性、词位和EntitySchema命名空间的所有结构化数据使用CC 0协议;其他命名空间的文字内容使用CC BY-SA 4.0协议
  • 文件均以列于其描述页下的授权协议发布

维基数据(英語:Wikidata)是一个可协同编辑的多语言知识图谱,由维基媒体基金会托管。[2]它是继2006年的维基学院之后,第一个新的维基媒体基金会项目。[3]该项目通过软件Wikibase运行,所有结构化数据以知识共享CC0协议作为开放数据发布,可被维基媒体内外部项目使用。截至2025年初,维基数据拥有超过16.5亿条项目声明。[4]

维基数据与维基共享资源的工作方式类似,为其他维基计划及各语种维基百科中的信息框、列表及跨语言链接等提供统一存放的数据,该项目于2012年10月29日投入试运行,30日正式启用。[5]

概念

[编辑]

维基数据是一个面向文档的数据库,重点围绕“项目”(items)。每个项目都有一个唯一的持久标识符,称为QID——即大写字母Q后接正整数,例如政治话题的QID为Q7163。这使得识别项目不会偏袒任何语言翻译所需的基本信息。[6]

项目的标签不必唯一(例如“Elvis Presley”可对应歌手和专辑两个项目),但标签与描述的组合必须唯一。项目的基本组成部分包括:标识符(QID)、标签、描述和别名,以及若干声明及其属性和值。

声明

[编辑]

声明(statements)是维基数据记录信息的基本方式。形式上,它们采用键-值对,将属性(如“作者”或“出版日期”)与一个或多个实体值(如“阿瑟·柯南·道尔”或“1902年”)配对。例如,非正式的中文陈述“牛奶是白色的”将编码为:在“牛奶”项目下,将属性“颜色”(P462)与值“白色”(Q23444)配对。[7]

声明可以将一个属性映射到多个值。例如,玛丽·居里的“职业”属性可以同时链接到“物理学家”和“化学家”两个值,反映她从事两种职业的事实。可选的“限定符”(qualifiers)可用于细化声明的含义,例如“人口”声明可加上“时间点:2011年”作为限定符。声明的值还可以附上“参考文献”(references),指向支持该声明内容的来源。[8]

2013年2月4日,声明功能正式引入维基数据。属性的可能值最初限于两种数据类型(项目与维基共享资源上的图片),更多数据类型(如坐标和日期)随后加入。第一个新增的类型“字符串”于2013年3月6日部署。[9]

各语种维基百科访问维基数据的功能在2013年3月27日至4月25日之间逐步部署。2015年9月16日,维基数据开始支持所谓“任意访问”(arbitrary access),即从某一维基百科条目中读取与之不直接关联的维基数据项目的声明。例如,在“柏林”条目中读取关于德国维基数据项目的数据,这在以前是不可能的。[10]

属性

[编辑]

属性(properties)的标识符以大写字母P开头,后接正整数(如“颜色”为P462)。每个属性在维基数据上都有自己的页面,可包含标签、描述、别名和声明。属性可定义关于其预期使用的“约束”(constraints),例如“首都”(P36)属性包含“单值约束”,反映一个领土通常只有一个首都的事实。约束被视为测试提醒和提示,而非不可违反的规则。[11]新属性的创建需要经过社群讨论程序。

词位

[编辑]

自2016年起,维基数据支持词位(lexemes)数据,用于存储词典编纂信息。词位的标识符以字母L开头,可包含声明、义项和词形。词位使维基数据能够记录词语的用法、词语与维基数据项目之间的关联、词语翻译,并提供机器可读的词典数据。截至2020年,维基数据上的词位已超过25万,覆盖超过668种语言。[12]

发展历程

[编辑]

该项目最早由德国维基媒体协会启动,其初衷是为维基百科中的条目提供可调用的数据。[13]艾伦人工智能研究所、戈登与贝蒂·摩尔基金会和Google公司向该计划提供了130万欧元的资助。[13]

开发工作最初分为三个阶段:

  1. 集中储存跨语言链接;
  2. 为所有语言维基百科的信息框提供数据;
  3. 利用维基数据中的数据创建及更新条目。

维基数据于2012年10月29日上线,最初仅支持语言链接的集中化。2013年1月14日,匈牙利语维基百科成为第一个启用维基数据跨语言链接的语言版本。到2013年3月6日,所有维基百科均已接入维基数据。[14]2016年,Google宣布关闭Freebase数据库,将其数据迁移至维基数据。[15]

内容

[编辑]

维基数据的內容合集包括人物传记数据、医学数据、数字人文学科数据以及通过WikiCite项目积累的学术文献元数据。[16][17]维基数据还包含了从其他开放项目(如Freebase)导入的数据集。据2020年的一项研究,维基数据上的大量条目是由互联网机器人从其他数据库批量导入的,这有助于打破“数据孤岛”的壁垒。[18]

查询服务

[编辑]

2015年9月,维基媒体基金会发布了维基数据查询服务(Wikidata Query Service),允许用户对维基数据中的内容运行查询。该服务使用SPARQL作为查询语言,以Blazegraph作为图数据库。[19]2021年,德国维基媒体协会发布了查询构建器(Query Builder),提供基于表单的查询界面,使用户无需掌握SPARQL也能查询数据。

2025年10月,维基数据嵌入项目(Wikidata Embedding Project)上线,提供基于向量的语义搜索工具,支持自然语言查询,并通过模型上下文协议(MCP)标准为AI系统提供数据访问能力。该项目是德国维基媒体协会、Jina.AI和DataStax的合作成果。[20]

反响与应用

[编辑]

2014年11月,维基数据因其“规模之大和内在的开放性”获得开放数据研究所英语Open Data Institute(ODI)颁发的开放数据出版奖。[21]2025年,维基数据被数字公共产品联盟认定为“数字公共产品”。[22]

截至2018年底,维基数据的信息已被用于58.4%的英语维基百科条目中。维基数据还被广泛应用于外部工具和商业产品:苹果Siri亚马逊Alexa等虚拟助手均使用维基数据的结构化数据集。[23]

标志

[编辑]

标志上的条形图案为用摩尔斯电码编码的“WIKI”一词。该标志由Arun Ganesh设计,并根据社群的决策选定[24]

参考资料

[编辑]
维基数据宣传片
  1. ^ Wikidata.org Site Info. Alexa Internet. [2018-07-31]. (原始内容存档于2017-09-03). 
  2. ^ Roth, Matthew. The Wikipedia data revolution. Wikimedia Foundation. 2012-03-30 [2026-05-25]. (原始内容存档于2012-08-14). 
  3. ^ Wikidata. (原始内容存档于2012-10-29). 
  4. ^ Wikidata Data Model Statements. Grafana. [2026-05-25]. 
  5. ^ Pintscher, Lydia. wikidata.org is live (with some caveats). wikidata-l (邮件列表). [2026-05-25]. (原始内容存档于2014-06-17). 
  6. ^ Vrandečić, Denny; Pintscher, Lydia; Krötzsch, Markus. Wikidata: The Making of. Companion Proceedings of the ACM Web Conference 2023. 2023-04-30: 615–624. doi:10.1145/3543873.3585579 (英语). 
  7. ^ Help:Statements – Wikidata. [2026-05-25]. (原始内容存档于2019-03-25). 
  8. ^ Help:Sources – Wikidata. [2026-05-25]. (原始内容存档于2019-04-17). 
  9. ^ Pintscher, Lydia. Wikidata/Status updates/2013 03 01. Wikimedia Meta-Wiki. [2026-05-25]. (原始内容存档于2013-04-12). 
  10. ^ Pintscher, Lydia. You can have all the data!. Wikimedia Deutschland. 2013-03-27 [2026-05-25]. (原始内容存档于2013-03-29). 
  11. ^ Help:Property constraints portal – Wikidata. [2026-05-25]. (原始内容存档于2019-06-01). 
  12. ^ Nielsen, Finn. Lexemes in Wikidata: 2020 status. Proceedings of the 7th Workshop on Linked Data in Linguistics. 2020: 82–86 (英语). 
  13. ^ 13.0 13.1 Perez, Sarah. Wikipedia's Next Big Thing: Wikidata, A Machine-Readable, User-Editable Database Funded By Google, Paul Allen And Others. TechCrunch. 2012-03-30 [2026-05-25]. (原始内容存档于2012-10-05). 
  14. ^ Pintscher, Lydia. First steps of Wikidata in the Hungarian Wikipedia. Wikimedia Deutschland. 2013-01-14 [2026-05-25]. (原始内容存档于2015-12-14). 
  15. ^ Freebase. Google Plus. 2014-12-16. (原始内容存档于2019-03-20). 
  16. ^ Chisholm, Andrew; et al. Learning to generate one-sentence biographies from Wikidata. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. 2017: 633–642. arXiv:1702.06235可免费查阅 (英语). 
  17. ^ Turki, Houcemeddine; et al. Wikidata: A large-scale collaborative ontological medical database. Journal of Biomedical Informatics. 2019, 99. doi:10.1016/j.jbi.2019.103292 (英语). 
  18. ^ Andra Waagmeester; Gregory Stupp; Sebastian Burgstaller-Muehlbacher; et al. Wikidata as a knowledge graph for the life sciences. eLife. 2020-03-17, 9. ISSN 2050-084X. PMC 7077981可免费查阅. PMID 32180547. doi:10.7554/ELIFE.52614. Wikidata Q87830400 (英语). 
  19. ^ Wikidata Query Service. [2026-05-25]. (原始内容存档于2016-11-07). 
  20. ^ Brandom, Russell. New project makes Wikipedia data more accessible to AI. TechCrunch. 2025-10-01 [2026-05-25] (英语). 
  21. ^ First ODI Open Data Awards presented by Sirs Tim Berners-Lee and Nigel Shadbolt. (原始内容存档于2016-03-24). 
  22. ^ Wikidata. Digital Public Goods. [2026-05-25] (英语). 
  23. ^ Simonite, Tom. Inside the Alexa-Friendly World of Wikidata. Wired. 2019-02-18. ISSN 1059-1028 (英语). 
  24. ^ Pintscher, Lydia. Und der Gewinner ist.... wikimedia.de. 德国维基媒体协会. 2012 [2020-09-09]. (原始内容存档于2021-01-21). 

外部連結

[编辑]