基于爬虫技术的烟草行业网络舆情监控系统的设计与实现

摘要	第3-4页
Abstract	第4-5页
1 绪论	第9-15页
1.1 课题研究背景与意义	第9-10页
1.2 国内外现状分析	第10-13页
1.2.1 国内网络舆情监控系统现状分析	第10-12页
1.2.2 国外网络舆情监控系统现状分析	第12-13页
1.3 本文的主要工作	第13页
1.4 本文结构安排	第13-15页
2 相关理论和技术分析	第15-27页
2.1 网络爬虫	第15-18页
2.1.1 通用网络爬虫	第15-17页
2.1.2 聚焦爬虫	第17-18页
2.2 Python语言	第18-19页
2.3 Scrapy爬虫框架	第19-20页
2.4 动态页面爬取	第20-23页
2.4.1 XPath	第20-21页
2.4.2 Ajax数据爬取	第21-22页
2.4.3 动态渲染页面爬取	第22-23页
2.5 中文分词技术	第23-24页
2.6 Word2Vec工具	第24-25页
2.7 PCA算法	第25页
2.8 SVM模型	第25-26页
2.9 本章小结	第26-27页
3 系统总体设计	第27-37页
3.1 采集对象分析	第27-29页
3.1.1 烟草行业舆情监控重点	第27-28页
3.1.2 舆情数据来源分析	第28-29页
3.2 业务流程	第29-30页
3.3 功能需求分析	第30-33页
3.3.1 舆情采集子系统	第31页
3.3.2 舆情应用子系统	第31-32页
3.3.3 系统管理子系统	第32-33页
3.4 非功能需求分析	第33-34页
3.5 总体架构设计	第34页
3.6 数据库设计	第34-36页
3.7 本章小结	第36-37页
4 系统具体实现	第37-50页
4.1 开发环境	第37页
4.2 舆情采集子系统	第37-42页
4.2.1 舆情信息采集	第37-39页
4.2.2 舆情信息清洗	第39-42页
4.3 舆情应用子系统	第42-48页
4.3.1 舆情信息提取筛选	第42-44页
4.3.2 舆情文本分词处理	第44页
4.3.3 舆情信息正负面识别	第44-47页
4.3.4 舆情数据可视化	第47-48页
4.4 系统管理子系统	第48-49页
4.5 本章小结	第49-50页
5 测试与分析	第50-59页
5.1 系统测试环境	第50-51页
5.2 系统功能测试	第51-56页
5.3 系统性能测试	第56-57页
5.4 测试结果分析	第57-58页
5.5 本章小结	第58-59页
6 总结与展望	第59-61页
参考文献	第61-63页
致谢	第63页