机读数据
机读数据是指合符可由电脑处理格式的数据。机读数据必须是结构化数据。[1]
在美国,2019年1月14日的OPEN政府数据法案将机读数据定义为“一种格式,该格式可以由计算机轻松处理而无需人工干预,同时确保不丢失语义。”法律指示美国联邦机构以这种方式发布公共数据,[2]确保“该机构的任何公共数据资产都是机读的”。[3]
机读数据可分为两类:标记为人类可读的数据,以便机器也可以读取(例如,微格式,RDFa,HTML),以及主要用于机器处理的数据文件格式(CSV、RDF、XML、JSON)。需注意的是,仅当这些格式其中包含的数据经过正式结构化时,才是机读数据,而从结构不良的电子表格中导出CSV文件则不符合定义。
机读不是可数字访问(英文:digitally accessible)的同义词。可数字访问的文档可能在线上,使人类更易于透过电脑存取,但是如果内容不是机读的,则很难通过电脑编程逻辑来提取,转换和处理其内容。[4]
可扩展标记语言(XML)被设计为可人类和机读的,可扩展样式表语言转换(XSLT)用于改善数据的呈现方式以提高人类可读性。例如,XSLT可用于自动呈现可移植文档格式(PDF)的XML。机读数据可以自动转换以提高可读性,但是通常来说,事实并非如此。
为了实施《政府绩效和结果法案》(GPRA)现代化法案,美国行政管理和预算局(OMB)定义了“机读格式”,如下所示:“格式可以是标准计算机语言(非英语)。由网络浏览器或计算机系统自动读取(例如xml)。传统的文字处理文档和便携式文档格式(PDF)文件很容易被人类读取,但通常机器难以解释。其他格式,例如可扩展标记语言(XML),(JSON)或带有标题栏且可以导出为逗号分隔值(CSV)的电子表格是机读的格式。由于HTML是一种结构化标记语言,可以谨慎地标记文档的某些部分,因此计算机可以收集文档组件来组装目录 (书籍),大纲,文献检索书目等。可以使传统的文字处理文档和其他格式可以机读,但该文档必须包括增强的结构元素。” [5]
参见
[编辑]参考资料
[编辑]- ^ Machine readable. opendatahandbook.org. [2019-07-22]. (原始内容存档于2021-02-05).
- ^ HR4174. stratml.us. [2020-08-05]. (原始内容存档于2019-01-19).
- ^ HR4174. stratml.us. [2020-08-05]. (原始内容存档于2019-01-19).
- ^ A Primer on Machine Readability for Online Documents and Data. Data.gov. 2012-09-24 [2015-02-27]. (原始内容存档于2021-03-20).
- ^ OMB Circular A-11, Part 6 互联网档案馆的存档,存档日期2020-04-22., Preparation, Submission, and Execution of the Budget