基于大数据的企业舆情热点话题发现与跟踪技术研究

摘要	第7-8页
Abstract	第8页
1 绪论	第13-17页
1.1 课题研究背景	第13页
1.2 国内外研究现状	第13-15页
1.3 课题研究内容	第15页
1.4 论文组织结构	第15-17页
2 相关理论与技术	第17-29页
2.1 网页数据获取技术	第17-19页
2.1.1 基于主题的网络爬虫	第17-18页
2.1.2 基于模板的网页信息抽取	第18-19页
2.2 网页信息预处理技术	第19-22页
2.2.1 中文分词处理	第19-20页
2.2.2 特征选择	第20页
2.2.3 文本模型的构建	第20-22页
2.3 基于Web的文本挖掘技术	第22-23页
2.4 大数据处理技术	第23-28页
2.4.1 大数据处理主要平台介绍	第23-25页
2.4.2 基于Map-reduce的并行计算	第25-27页
2.4.3 基于Spark的内存计算	第27-28页
2.5 本章小结	第28-29页
3 基于Spark的热点话题发现技术及并行化研究	第29-45页
3.1 引言	第29-33页
3.1.1 热点话题发现技术研究	第29-33页
3.1.2 本章主要创新	第33页
3.2 基于局部密度和Single-pass的Kernel k-means算法改进	第33-36页
3.2.1 初始中心点选择	第34-35页
3.2.2 SPKK算法实现	第35-36页
3.3 基于Spark的SPKK算法并行化研究	第36-40页
3.3.1 Spark平台并行化方式	第36-37页
3.3.2 SPKK算法并行化实现	第37-40页
3.4 实验测试与结果分析	第40-43页
3.4.1 SPKK算法性能测试与结果分析	第40-42页
3.4.2 并行化性能测试与结果分析	第42-43页
3.5 本章小结	第43-45页
4 基于Spark的热点话题跟踪技术及并行化研究	第45-57页
4.1 引言	第45-50页
4.1.1 热点话题跟踪技术研究	第45-49页
4.1.2 本章主要工作	第49-50页
4.2 相关算法性能测试与比较	第50-51页
4.2.1 性能评估方法	第50页
4.2.2 实验测试与结果比较	第50-51页
4.3 基于Spark的SVM算法并行化研究	第51-53页
4.3.1 Cascade SVM训练模式	第51-52页
4.3.2 基于三层结构的Cascade SVM训练模式	第52页
4.3.3 改进的Cascade SVM在Spark上的并行化实现	第52-53页
4.4 实验测试与结果分析	第53-54页
4.5 本章小结	第54-57页
5 企业舆情热点话题发现与跟踪设计与实现	第57-73页
5.1 引言	第57页
5.2 企业舆情监测系统总体框架	第57-58页
5.3 热点话题发现与跟踪功能需求分析	第58-59页
5.4 热点话题发现与跟踪功能模块设计与实现	第59-67页
5.4.1 网页采集模块设计与实现	第60-61页
5.4.2 网页信息抽取模板设计与实现	第61-62页
5.4.3 网页信息预处理设计与实现	第62-64页
5.4.4 话题发现设计与实现	第64-66页
5.4.5 话题跟踪设计与实现	第66-67页
5.5 运行结果测试	第67-71页
5.5.1 网页信息抽取	第68-69页
5.5.2 网页信息检索	第69-70页
5.5.3 热点话题发现	第70-71页
5.5.4 热点话题跟踪	第71页
5.6 本章小结	第71-73页
6 总结与展望	第73-75页
6.1 全文工作总结	第73-74页
6.2 下一步工作展望	第74-75页
参考文献	第75-81页
作者攻读学位期间发表的学术论文清单	第81-83页
致谢	第83页