【文档说明】计算机科学与技术学院课件.ppt,共(25)页,105.023 KB,由小橙橙上传
转载请保留链接:https://www.ichengzhen.cn/view-77407.html
以下为本文档部分文字说明:
计算机科学与技术学院课件信息抽取概述含义从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并填入数据库中供用户查询使用的过程。从文本中抽取用户感兴趣的事件、实体和关系被抽取的信息以结构化的形式描述存
储到数据库中为情报分析、检测、比价购物、自动文摘、文本分类等各种应用提供服务信息抽取应用灾害预防部门从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况从病人的医疗记录中抽取出症状、诊断记录和检验结果税务分析不同企业交税记录、发现异常模型和趋势。。。信息
抽取与文本理解信息抽取需要一定程度的理解只关心有限的感兴趣的事实信息不关心文本意义的细微差别不关心作者的写作意图等深层理解问题信息抽取只能算一种浅层的文本理解信息抽取可以看作信息检索的进一步深化信息抽取实例课本P252从新闻中抽取出相关信息信息抽取
与信息检索密切相关但又存在差异功能不同检索:从文档集合中找文档子集抽取:从文本中获取用户感兴趣的事实信息处理技术不同检索:通常利用统计与关键词等技术抽取:借助于自然语言处理技术使用领域不同检索:通常领域无关抽取
:通常领域相关中文信息抽取的特殊性词典、词语切分和词性标注句法与语义分析句法成分的识别与标引、关键字抽取、检索特征集的抽取、索引等句群分析与篇章表示历史与现状20世纪60年代起步LinguisticString纽约大学大规模的英语计算语法从医疗领域的X光报告和出院记录抽取
信息格式RogerSchank耶鲁大学故事理解期望驱动与数据驱动历史与现状(续)20世纪80年代商业应用ATRANS自动处理银行坏账JASPER通过新闻分析公司收入和盈利SCISOR分析公司合并与盈利蓬勃发展
MUC会议MessageUnderstandingConference美国国防高级研究计划委员会资助评测信息抽取系统87-98进行了7次中文信息抽取起步中文起步晚主要研究工作中文命名实体的识别参加MUC
-7评测台湾国立大学新加坡肯特岗数字实验室信息抽取系统的评测召回率准确率F指数召回率和准确率的加权几何平均信息抽取任务(一)命名实体NE最主要的任务命名实体是文本中基本的信息元素,是正确理解文本的基础狭义:指现实世界中具体或抽象的实体如人、组
织、公司、地点等广义:还可以包含时间、数量表达式等确切含义,根据具体应用来确定信息抽取任务(二)模板元素TE模板元素又称为实体的属性通过槽(Slots)描述了命名实体的基本信息为命名实体建立各种属性槽从而更加清楚地描述命
名实体槽Slots名称类别描述符种类信息抽取任务(三)共指CR不同的命名实体表达了相同的含义,这些实体之间的关系就是共指,也称为等价概念共指任务在于抽取关于共指表达的信息包括那些已在命名实体和模板元素任务中作了标记的对于某个命名实体的所有表述抽取方法:基于句法、基于“优先知识
”、基于简单共现、基于统计、基于决策树、基于聚类、基于记忆的学习MBL、基于HNC理论信息抽取任务(四)模板关系TE模板元素之间的各种关系,又称为事实法拉利-舒马赫雇佣关系研究方法基于知识库的方法基于特征的机器学习方法基于kerne
l的方法Bootstrapping方法信息抽取任务(五)场景模板ST又称事件,是指实体发生的事件主要研究点模板的获取手工写模板自动获取主流研究方向研究核心基于抽取事件动词来将其转化为模板。首先抽取事件动词以及其主语动宾形成候选模板,对候选模板排序,然后为事
件动词建立域本体论,最后对其分类信息抽取系统的构建方法知识工程方法基于规则的方法靠手工编制规则使系统能处理特定只是领域的信息抽取问题性能好、易开发缺乏人才、开发过程耗时信息抽取系统的构建方法(续)自动训练方法
通过学习已经标记好的语料获取规则通过学习已经标记好的语料库获取规则,任何对该领域比较熟悉的人都可以根据事先的约定的规范标记语料库。经过训练的系统能够处理没见过的新文本。开发速度快于知识工程需要足够数量的训练数据,才能保证其处理质量通用信息抽取结构Hobbs1993通用体系结
构文本分块预处理过滤预分析分析片段组合语义解释词汇消歧共指消解或篇章处理模板生成BareBones结构Hobbs结构的简化版本由Applet和Israel提出符号化词汇和词法处理句法分析
领域分析信息抽取中的自然语言处理技术命名实体识别句法分析文章分析和推理知识理解信息抽取技术基于规则的抽取技术信息抽取系统模型词法分析命名实体识别部分句法分析场景模板匹配共指分析推理与事件整合隐马尔可夫模型HMMHidde
nMarkovModel一种随机的有限状态自动机容易建立、无需大规模的词典集和规则集,适应性好、抽取精度高马尔可夫模型基于HMM的信息抽取过程Web信息抽取基于自然语言处理方式的信息抽取包装器方式的信息抽取基于本体方式的信息抽取基
于HTML结构的信息抽取基于Web查询的信息抽取