同一新闻事件识别研究

摘要	第5-6页
Abstract	第6页
第1章绪论	第9-14页
1.1 研究背景和意义	第9-10页
1.2 国内外研究现状	第10-12页
1.3 主要研究内容与论文组织结构	第12-13页
1.3.1 主要研究内容	第12-13页
1.3.2 论文组织结构	第13页
1.4 本章小结	第13-14页
第2章相关技术介绍	第14-21页
2.1 网络爬虫介绍	第14-15页
2.2 爬虫搜索策略	第15-17页
2.3 中文分词技术	第17-19页
2.3.1 中文分词技术的特点	第18页
2.3.2 常见中文分词方法	第18-19页
2.4 文本相似度比较	第19页
2.5 本章小结	第19-21页
第3章网络新闻爬取和预处理	第21-31页
3.1 网络新闻的特点分析	第21页
3.2 网络新闻数据爬取	第21-24页
3.3 本文爬虫工作流程	第24-25页
3.4 遇到的主要问题与解决方案	第25-26页
3.5 基于正则表达式的新闻文本预处理	第26-27页
3.5.1 HTML结构特点	第26页
3.5.2 正则表达式	第26-27页
3.6 新闻文本聚类	第27-30页
3.6.1 基于向量空间模型的新闻处理	第27-29页
3.6.2 基于向量空间模型的K-means聚类	第29-30页
3.7 本章小结	第30-31页
第4章同一新闻事件识别	第31-41页
4.1 事件识别定义	第31页
4.2 新闻时间关键词识别	第31-33页
4.3 新闻地点关键词识别	第33-34页
4.4 新闻人物关键词识别	第34-36页
4.5 新闻类别关键词识别	第36页
4.6 新闻文本相对词频计算	第36-37页
4.7 事件重点词筛选及识别步骤	第37-40页
4.8 本章小结	第40-41页
第5章实验数据与结果分析	第41-50页
5.1 实验设计	第41-42页
5.1.1 试验数据来源	第41页
5.1.2 实验环境	第41页
5.1.3 实验步骤	第41-42页
5.2 实验结果及分析	第42-49页
5.2.1 爬虫结果分析	第42-43页
5.2.2 新闻文本预处理	第43-44页
5.2.3 新闻文本聚类	第44-45页
5.2.4 新闻关键词识别	第45-47页
5.2.5 新闻同一事件识别	第47-49页
5.2.6 新闻关注度排名	第49页
5.3 本章小结	第49-50页
第6章总结与展望	第50-52页
6.1 论文工作总结	第50页
6.2 工作展望	第50-52页
参考文献	第52-55页
致谢	第55页