WEB文本爬取和挖掘技术应用与研究
摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第9-15页 |
1.1 研究背景与意义 | 第9-10页 |
1.2 文本爬取技术现状与概述 | 第10-12页 |
1.2.1 国内外研究现状 | 第10-11页 |
1.2.2 文本爬取关键技术概述 | 第11-12页 |
1.3 文本挖掘技术现状与概述 | 第12-13页 |
1.3.1 国内外研究现状 | 第12-13页 |
1.3.2 文本挖掘关键技术雌 | 第13页 |
1.4 本文研究内容安排 | 第13-15页 |
第二章 WEB文本分析系统中的网络爬虫模块设计 | 第15-23页 |
2.1 网络爬虫主题策略介绍 | 第15-16页 |
2.2 网络爬虫的关键技术分析 | 第16-19页 |
2.2.1 网络爬虫的效率分析与多线程 | 第16-17页 |
2.2.2 网络爬虫的URL去重 | 第17-18页 |
2.2.3 网络爬虫的免密码登陆 | 第18-19页 |
2.3 网络爬取文本的正则提取技术 | 第19-20页 |
2.4 网络爬虫实际性能分析与总结 | 第20-23页 |
第三章 WEB文本分析系统中的情感分类模块设计 | 第23-33页 |
3.1 WEB文本的预处理 | 第23-25页 |
3.1.1 中文分词和停用词 | 第23-24页 |
3.1.2 WEB文本特征选择 | 第24-25页 |
3.2 文本常用分类算法研究 | 第25-28页 |
3.2.1 SVM算法 | 第25-26页 |
3.2.2 基于相似度的方法 | 第26-27页 |
3.2.3 基于朴素贝叶斯的方法 | 第27-28页 |
3.3 基于情感词典的文本分类 | 第28-32页 |
3.3.1 情感词典扩展 | 第28-29页 |
3.3.2 朴素贝叶斯辅助分类 | 第29-30页 |
3.3.3 使用领域情感词典的正负极性分类 | 第30-32页 |
3.4 情感分类模块性能分析与总结 | 第32-33页 |
第四章 WEB文本分析系统整体实现 | 第33-45页 |
4.1 系统整体框架 | 第33-34页 |
4.2 爬虫系统的具体实现 | 第34-38页 |
4.2.1 爬虫的爬取程序实现 | 第35页 |
4.2.2 爬虫的网页解析模块实现 | 第35-36页 |
4.2.3 爬虫的存储模块实现 | 第36-37页 |
4.2.4 爬虫的多线程结构实现 | 第37-38页 |
4.3 情感分析系统的具体实现 | 第38-42页 |
4.3.1 情感分析系统贝叶斯分类器实现 | 第38-40页 |
4.3.2 情感分析系统词典扩展实现 | 第40-41页 |
4.3.3 情感分析系统极性分类实现 | 第41-42页 |
4.4 整体系统的性能分析与总结 | 第42-45页 |
第五章 工作总结与展望 | 第45-47页 |
5.1 总结 | 第45-46页 |
5.2 展望 | 第46-47页 |
参考文献 | 第47-49页 |
致谢 | 第49页 |