突发事件信息提取研究
摘要 | 第1-7页 |
ABSTRACT | 第7-15页 |
第一章 绪论 | 第15-26页 |
1.1 本文动因 | 第15-17页 |
1.2 研究背景 | 第17-22页 |
1.2.1 关于信息提取 | 第17-20页 |
1.2.2 信息提取与信息检索 | 第20页 |
1.2.3 信息提取的一般过程 | 第20-21页 |
1.2.4 信息提取的处理内容 | 第21-22页 |
1.2.5 信息提取研究的关键内容 | 第22页 |
1.3 本文研究目标 | 第22-23页 |
1.4 研究内容 | 第23-24页 |
1.5 本研究的工作基础 | 第24-25页 |
1.6 研究特色 | 第25页 |
1.7 论文结构 | 第25-26页 |
第二章 信息提取综述 | 第26-52页 |
2.1 一些基本术语 | 第26-27页 |
2.2 信息提取研究的代表性工作 | 第27-40页 |
2.2.1 MUC简介 | 第28-32页 |
2.2.2 ACE简介 | 第32-40页 |
2.3 信息提取的技术 | 第40-48页 |
2.3.1 基于语言分析的信息提取技术 | 第40-41页 |
2.3.2 知识获取技术 | 第41-45页 |
2.3.3 命名实体的识别 | 第45-46页 |
2.3.4 实体间关系的识别 | 第46页 |
2.3.5 指代的解决 | 第46-47页 |
2.3.6 事件识别 | 第47-48页 |
2.4 信息提取的内容研究 | 第48-49页 |
2.5 信息提取的应用系统 | 第49页 |
2.6 英语中进行信息提取的方法小结 | 第49-50页 |
2.7 汉语信息提取研究现状 | 第50页 |
2.8 本文研究定位 | 第50-51页 |
2.9 本章小结 | 第51-52页 |
第三章 突发事件文本特征分析 | 第52-70页 |
3.1 突发事件新闻报道的特征 | 第52-55页 |
3.1.1 形式方面 | 第52-54页 |
3.1.2 内容方面 | 第54-55页 |
3.2 文本中的指代现象 | 第55-58页 |
3.2.1 指代 | 第55页 |
3.2.2 指代的消解 | 第55-56页 |
3.2.3 突发事祥报道中的指代现象 | 第56-58页 |
3.3 文本的词汇语义关系 | 第58-62页 |
3.3.1 文本中的词语语义聚类 | 第59-60页 |
3.3.2 文本中的词汇链 | 第60-61页 |
3.3.3 一点讨论 | 第61-62页 |
3.4 关键词串 | 第62-66页 |
3.4.1 文本中词语串的提取方法 | 第62-65页 |
3.4.2 关键串的计算方法 | 第65-66页 |
3.5 突发事件的时间信息 | 第66-68页 |
3.5.1 时间表达式的类型 | 第66-67页 |
3.5.2 时间信息的识别与规范化 | 第67-68页 |
3.6 本章小结 | 第68-70页 |
第四章 命名实体识别分析 | 第70-94页 |
4.1 引言 | 第70-71页 |
4.2 命名实体识别 | 第71页 |
4.3 资源建设 | 第71-72页 |
4.4 命名实体识别模型 | 第72-76页 |
4.4.1 问题定义 | 第72-73页 |
4.4.2 相关定义 | 第73-74页 |
4.4.3 最大熵原理 | 第74-75页 |
4.4.4 参数估计 | 第75-76页 |
4.5 多特征融合的中文人名识别方法 | 第76-92页 |
4.5.1 识别的对象界定及特点分析 | 第76-77页 |
4.5.2 特征集 | 第77-82页 |
4.5.3 特征选择实验 | 第82-84页 |
4.5.4 潜在人名的提取 | 第84-88页 |
4.5.5 人名识别实验 | 第88-92页 |
4.6 本章小结 | 第92-94页 |
第五章 模式的自动获取 | 第94-111页 |
5.1 引言 | 第94页 |
5.2 模式自动获取的相关工作 | 第94-97页 |
5.2.1 Riloff的工作 | 第94-95页 |
5.2.2 Yangarber的工作 | 第95页 |
5.2.3 Chikashi NOBATA的工作 | 第95-96页 |
5.2.4 Sudo的工作 | 第96-97页 |
5.3 模式及其提取的过程 | 第97-100页 |
5.3.1 突发事件信息表达的特点 | 第97-98页 |
5.3.2 模式的表达 | 第98-99页 |
5.3.3 模式的分类 | 第99页 |
5.3.4 模式获取的方法 | 第99-100页 |
5.4 无指导的模式提取方法 | 第100-103页 |
5.4.1 候选模式的产生算法 | 第100-101页 |
5.4.2 模式的获取方法 | 第101-102页 |
5.4.3 模式的泛化 | 第102-103页 |
5.5 实验及分析 | 第103-110页 |
5.5.1 实验数据和实验步骤 | 第103页 |
5.5.2 评价内容和评价方法 | 第103-105页 |
5.5.3 实验结果及分析 | 第105-108页 |
5.5.4 结论 | 第108-110页 |
5.6 本章小结 | 第110-111页 |
第六章 突发事件的信息提取 | 第111-130页 |
6.1 引言 | 第111-112页 |
6.2 突发事件信息提取的模型 | 第112-113页 |
6.3 问题定义 | 第113-115页 |
6.4 突发事件信息结构的获取 | 第115-123页 |
6.4.1 句子的聚类算法 | 第115-117页 |
6.4.2 句子的特征 | 第117-118页 |
6.4.3 句子的相似度计算 | 第118-120页 |
6.4.4 句子聚类实验 | 第120-123页 |
6.5 特定侧面的信息获取 | 第123-126页 |
6.6 突发事件信息提取实验 | 第126-127页 |
6.6.1 事件的信息提取 | 第126页 |
6.6.2 信息提取实验 | 第126-127页 |
6.7 本章小结 | 第127-130页 |
第七章 信息提取实验系统 | 第130-137页 |
7.1 系统结构 | 第130-131页 |
7.2 工作流程 | 第131-135页 |
7.2.1 数据准备 | 第131-132页 |
7.2.2 信息提取 | 第132-135页 |
7.3 本章小结 | 第135-137页 |
第八章 结束语 | 第137-140页 |
8.1 全文总结 | 第137页 |
8.2 进一步的工作 | 第137-140页 |
参考文献 | 第140-145页 |
附录1 马德里311爆炸案词语串示例 | 第145-148页 |
附录2 海啸词语串示例 | 第148-151页 |
附录3 文本的词汇链 | 第151-154页 |
附录4 海啸救援特定信息 | 第154-156页 |
附录5 马德里311爆炸案伤亡信息示例 | 第156-159页 |
附录6 海啸伤亡信息示例 | 第159-161页 |
附录7 海啸“救援”类部分句子及词汇链 | 第161-166页 |
附录8 西班牙“基本信息”类部分句子及词汇链 | 第166-169页 |
附录9 西班牙各个侧面信息的特征项示例 | 第169-171页 |
附录10 海啸各个侧面信息的特征项示例 | 第171-173页 |
作者在攻读博士学位期间的科研情况 | 第173-175页 |
致谢 | 第175-176页 |