面向舆情的网页敏感度分析系统的设计与实现

摘要	第2-3页
Abstract	第3-4页
第一章引言	第7-14页
1.1 研究背景及意义	第7-8页
1.1.1 研究背景	第7-8页
1.1.2 研究意义	第8页
1.2 舆情分析的研究现状	第8-12页
1.2.1 舆情分析的研究现状	第8-10页
1.2.2 敏感词的研究现状	第10-12页
1.3 本文的主要工作和组织安排	第12-14页
第二章网络爬虫	第14-25页
2.1 网络爬虫的原理	第14-18页
2.1.1 URL的选择	第15-16页
2.1.2 URL去重	第16页
2.1.3 动态网页的爬取	第16-17页
2.1.4 多线程爬取	第17-18页
2.2 正则表达式	第18-19页
2.3 基于WebCollector框架的网络爬虫设计	第19-24页
2.3.1 WebCollector简介	第19页
2.3.2 网络爬虫设计	第19-24页
2.4 本章小结	第24-25页
第三章网页正文提取	第25-34页
3.1 网页结构	第26-27页
3.2 HTML网页解析	第27页
3.3 基于密度的阈值自适应正文抽取算法	第27-33页
3.4 本章小结	第33-34页
第四章基于敏感密度的网页正文敏感度分析	第34-46页
4.1 AC算法	第35-37页
4.2 双数组TRIE树	第37-39页
4.3 基于AC算法的改进多模式匹配算法	第39-42页
4.4 敏感词等级库创建	第42-43页
4.5 网页敏感度分析	第43-45页
4.6 本章小结	第45-46页
第五章系统开发	第46-54页
5.1 系统主体框架	第46页
5.2 系统开发文档	第46-47页
5.3 系统模块设计	第47-52页
5.3.1 数据库管理模块	第47-48页
5.3.2 爬虫模块设计	第48-49页
5.3.3 网页正文提取模块	第49-50页
5.3.4 敏感词检测模块	第50页
5.3.5 敏感度分析模块	第50-51页
5.3.6 数据展示模块	第51-52页
5.4 系统关键技术和创新点	第52-53页
5.5 本章小结	第53-54页
第六章总结与展望	第54-55页
参考文献	第55-57页
在读硕士研究生期间发表论文	第57-58页
致谢	第58-59页