基于内容的网页采集分类系统的设计与实现

摘要	第5-6页
Abstract	第6页
本论文专用术语注释表	第9-10页
第一章绪论	第10-13页
1.1 课题研究的背景和意义	第10页
1.2 课题研究现状	第10-12页
1.3 本文的主要研究内容	第12页
1.4 本文的组织结构	第12-13页
第二章相关技术介绍	第13-29页
2.1 爬虫技术	第13-16页
2.1.1 爬虫搜索策略	第13-15页
2.1.2 常见的爬虫框架及介绍	第15-16页
2.2 网页正文提取技术	第16-19页
2.3 文本预处理	第19-20页
2.4 文本的表示方法	第20-22页
2.5 文本特征选择方法	第22-24页
2.6 文本分类方法	第24-28页
2.7 本章小结	第28-29页
第三章系统关键技术与算法设计	第29-38页
3.1 网页正文提取技术	第29-31页
3.1.1 算法原理	第29-31页
3.1.2 最优值选取	第31页
3.2 LLDA-SVM 分类器	第31-37页
3.2.1 分类性能评价	第31-33页
3.2.2 相关框架	第33-35页
3.2.3 实验设计及结果分析	第35-37页
3.3 本章小结	第37-38页
第四章系统设计与实现	第38-49页
4.1 系统的需求分析	第38-39页
4.2 系统的总体设计	第39-40页
4.3 系统的开发环境	第40-42页
4.3.1 系统的开发环境配置	第40页
4.3.2 系统数据库设计	第40-42页
4.4 网页采集模块的设计与实现	第42-44页
4.4.1 新闻网页的采集来源	第42页
4.4.2 网页的爬取和更新策略	第42-44页
4.4.3 网页正文提取	第44页
4.5 文本分类模块的设计与实现	第44-47页
4.5.1 文本预处理	第44-46页
4.5.2 主题分类	第46-47页
4.6 结果展示模块	第47-48页
4.7 本章小结	第48-49页
第五章系统的展示与评估	第49-53页
5.1 系统展示	第49-51页
5.1.1 系统运行环境	第49页
5.1.2 系统界面	第49-51页
5.2 系统的性能评估	第51-52页
5.2.1 系统采集性能	第51-52页
5.2.2 系统分类准确率	第52页
5.3 本章小结	第52-53页
第六章总结与展望	第53-54页
6.1 工作总结	第53页
6.2 展望	第53-54页
致谢	第54-55页
参考文献	第55-57页