信息抽取

本页使用了标题或全文手工转换
维基百科,自由的百科全书

信息抽取Information Extraction,简称IE,又译资讯撷取技术)主要是从大量文字资料中自动抽取特定讯息(Particular Information),以作为资料库存取(Database Access)之用的技术

信息抽取的一个广泛目标是允许对以往非结构化的资料去做计算,具体来说就是要允许逻辑推理能对输入资料逻辑内容可以举一反三。其意义在于决定了例如在网际网路上其非结构化(例:不包含元数据)形式中有用资讯数量的成长。在这方面的技术上是透过转换到关系形式或是经由XML标签的标记来达到更多的可存取性──一个智慧型代理程序,监督一新闻资料馈流,需要资讯撷取技术来转换非结构化资料到某种可推论的方式。

起源[编辑]

资讯检索技术又称为“讯息理解”(Message Understanding英语Message Understanding),其主流研究起源于1987年讯息理解会议英语Message Understanding ConferenceMessage Understanding Conference英语Message Understanding Conference, MUC英语MUC),这个会议主要提倡利用自然语言处理技术,对文字资讯作更深度的剖析,以提高资讯检索认知程度。从1987年第一届会议迄今,MUC英语Message Understanding Conference已经举办过六次会议,每年会中皆会提供文字资料以及标准问题,供与会者以所发展的系统自动抽取讯息,这种竞赛方式对于整个领域的技术提升有很大的助益。

目的[编辑]

信息抽取的基本任务包含了:

自然语言处理范畴,资讯撷取技术是雷同于资讯检索领域的一种类型,它的目的是要以自动化的方式来撷取结构化资讯,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的资料进行分类、判断上下文以及语义化的分析

模板分类[编辑]

资讯撷取技术一般借助事先准备的模板(Template)以撷取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为撷取事实必须对所分析文件有某种程度的剖析理解能力,在各种资讯检索研究课题中,资讯撷取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智慧型检索技术之ㄧ。

判断文句[编辑]

一般资讯撷取技术的做法包括具备文件过滤程式(Text Filter),借此从大量文件过滤出较相关的文字片段,其作法与资讯过滤技术(Information Filtering)较为类似。接著利用剖析程式(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法分析(例如找出动词主词受词),之后再将这些剖析树与原先欲抽取的模板比对,撷取出有关人事地物的事实出来。

语义化分析[编辑]

资讯撷取研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语意标定(Semantic Tagging)、重要名词片语抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语意格框(Semantic Frame)等相关技术,因此开发一个资讯撷取系统必须事先建立很完整的领域知识,包括相关词汇片语、文法规则、语意规则等。

参考资料[编辑]

《图书资讯检索技术》卜小蝶著:文华,台北市,民85