基于丰富语言特征的中文社交媒体事件发掘
摘要 | 第3-4页 |
ABSTRACT | 第4页 |
第一章 绪论 | 第9-18页 |
1.1 研究背景及意义 | 第9-11页 |
1.2 国内外研究现状 | 第11-15页 |
1.2.1 微博信息抽取 | 第11-12页 |
1.2.2 自然语言处理 | 第12-13页 |
1.2.3 基于微博的事件发掘 | 第13-15页 |
1.3 本文主要研究内容 | 第15-17页 |
1.4 章节安排与论文的主要内容 | 第17-18页 |
第二章 微博抓取及语言特征标注 | 第18-34页 |
2.1 微博抓取 | 第18-24页 |
2.1.1 爬虫工具Scrapy | 第18-20页 |
2.1.2 新浪微博API | 第20-21页 |
2.1.3 微博文本特点 | 第21-23页 |
2.1.4 微博抓取最终方案 | 第23-24页 |
2.1.5 微博的标准化 | 第24页 |
2.2 语言特征标注 | 第24-33页 |
2.2.1 中文分词 | 第24-26页 |
2.2.2 词性标注 | 第26-27页 |
2.2.3 命名实体识别 | 第27页 |
2.2.4 依存句法关系 | 第27-29页 |
2.2.5 语言处理工具 | 第29-31页 |
2.2.6 人工事件标注 | 第31-33页 |
2.3 本章小结 | 第33-34页 |
第三章 语言特征与事件发掘 | 第34-50页 |
3.1 事件发掘的模型选取 | 第34-35页 |
3.2 条件随机场(CRF) | 第35-40页 |
3.2.1 CRF定义 | 第36-38页 |
3.2.2 CRF优势 | 第38-39页 |
3.2.3 CRF工具 | 第39-40页 |
3.3 评测指标 | 第40-41页 |
3.4 交叉验证 | 第41页 |
3.5 语言特征的选取 | 第41-49页 |
3.5.1 中文分词与事件元素的CRF训练 | 第41-45页 |
3.5.2 词性标注与事件元素的CRF训练 | 第45页 |
3.5.3 命名实体识别与事件元素的CRF训练 | 第45-46页 |
3.5.4 依存句法关系与事件元素的CRF训练 | 第46-47页 |
3.5.5 最优模板选取及实验结果 | 第47-49页 |
3.6 本章小结 | 第49-50页 |
第四章 参数筛选的事件发掘 | 第50-55页 |
4.1 带参数筛选的CRF事件元素发掘 | 第50-52页 |
4.2 参数筛选事件元素结果对比 | 第52-54页 |
4.2.1 概率值 | 第52页 |
4.2.2 概率比值 | 第52-53页 |
4.2.3 概率方差 | 第53-54页 |
4.3 本章小结 | 第54-55页 |
第五章 系统运行情况 | 第55-58页 |
5.1 运行结果 | 第55-56页 |
5.2 错误分析 | 第56-57页 |
5.3 本章小结 | 第57-58页 |
第六章 总结与展望 | 第58-62页 |
6.1 本文工作与总结 | 第58-60页 |
6.2 研究展望 | 第60-62页 |
参考文献 | 第62-66页 |
致谢 | 第66-67页 |
攻读硕士学位期间已发表或录用的论文 | 第67-69页 |