基于CRF的中文微博交通信息事件抽取
摘要 | 第3-4页 |
ABSTRACT | 第4-5页 |
图录 | 第8-9页 |
表录 | 第9-10页 |
第一章 绪论 | 第10-18页 |
1.1 研究背景及意义 | 第10-11页 |
1.2 国内外研究现状 | 第11-14页 |
1.2.1 自然语言处理 | 第12-13页 |
1.2.2 信息抽取 | 第13页 |
1.2.3 基于微博的事件抽取 | 第13-14页 |
1.3 主要研究内容 | 第14-16页 |
1.4 章节安排与论文的主要内容 | 第16-18页 |
第二章 微博预处理模块 | 第18-33页 |
2.1 系统结构概述 | 第18-19页 |
2.2 预处理所需技术分析 | 第19-23页 |
2.2.1 微博抓取 | 第19-20页 |
2.2.2 微博文本特点 | 第20-21页 |
2.2.3 微博话题限定 | 第21-22页 |
2.2.4 中文分词处理 | 第22-23页 |
2.3 预处理解决方案 | 第23-32页 |
2.3.1 微博的抓取 | 第23-27页 |
2.3.2 微博的标准化 | 第27-28页 |
2.3.3 微博话题筛选 | 第28-29页 |
2.3.4 微博文本分词处理 | 第29-32页 |
2.4 本章小结 | 第32-33页 |
第三章 微博事件挖掘模块 | 第33-52页 |
3.1 系统结构概述 | 第33-34页 |
3.2 难点分析与方案选择 | 第34-36页 |
3.3 条件随机场 | 第36-38页 |
3.3.1 条件随机场的由来 | 第36-37页 |
3.3.2 条件随机场定义 | 第37页 |
3.3.3 CRF 处理工具 | 第37-38页 |
3.4 NER 与 EE 的 CRF 训练 | 第38-47页 |
3.4.1 语料库选择 | 第38页 |
3.4.2 手动标注与标注集 | 第38-40页 |
3.4.3 特征模板的确立 | 第40-47页 |
3.4.4 训练结果 | 第47页 |
3.5 NER 与 EE 的 CRF 测试 | 第47-49页 |
3.5.1 运行测试 | 第48页 |
3.5.2 评测体系 | 第48页 |
3.5.3 交叉验证 | 第48页 |
3.5.4 测试结果 | 第48-49页 |
3.6 实验结果分析 | 第49-51页 |
3.6.1 命名实体识别模块结果分析 | 第49-50页 |
3.6.2 事件要素抽取模块结果分析 | 第50页 |
3.6.3 微博标准化模块结果分析 | 第50-51页 |
3.7 本章小结 | 第51-52页 |
第四章 事件展示模块 | 第52-58页 |
4.1 系统构架 | 第52-53页 |
4.2 系统运行 | 第53页 |
4.3 结果展示 | 第53-56页 |
4.3.1 正确的抽取结果 | 第53-54页 |
4.3.2 错误的抽取结果 | 第54-56页 |
4.4 错误分析 | 第56-57页 |
4.5 本章小结 | 第57-58页 |
第五章 总结与展望 | 第58-60页 |
5.1 工作与总结 | 第58-59页 |
5.2 研究展望 | 第59-60页 |
参考文献 | 第60-64页 |
致谢 | 第64-65页 |
攻读硕士学位期间已发表或录用的论文 | 第65-67页 |