基于主题和类别的网络新闻采集系统设计与实现

摘要	第5-7页
ABSTRACT	第7-8页
第一章绪论	第9-16页
1.1 研究背景及意义	第9-11页
1.2 国内外研究现状	第11-14页
1.2.1 主题爬虫的国内外研究现状	第11-12页
1.2.2 分类器的国内外研究现状	第12-14页
1.3 主要研究工作和内容	第14-15页
1.4 论文章节安排	第15-16页
第二章相关理论和技术	第16-25页
2.1 Robots协议	第16-17页
2.2 通用网络爬虫的工作原理	第17-20页
2.2.1 网页源代码获取	第18-19页
2.2.2 网页解析	第19页
2.2.3 URL去重	第19-20页
2.3 支持向量机	第20-21页
2.4 主题爬虫搜索策略	第21-22页
2.5 Xpath技术	第22-23页
2.5.1 Xpath简介	第22页
2.5.2 Xpath的使用	第22-23页
2.6 Web信息抽取	第23-24页
2.7 本章小结	第24-25页
第三章系统设计	第25-41页
3.1 系统需求分析	第25-26页
3.2 系统总体设计	第26-28页
3.2.1 系统体系结构	第26-27页
3.2.2 系统工作流程	第27-28页
3.3 系统详细设计	第28-39页
3.3.1 知名新闻网站种子注入模块	第28-29页
3.3.2 网页源代码获取模块	第29-32页
3.3.3 网页解析模块	第32-33页
3.3.4 分类模块	第33-35页
3.3.5 主题过滤模块	第35-36页
3.3.6 网页信息抽取模块	第36-37页
3.3.7 URL去重模块	第37-38页
3.3.8 URL调度模块	第38-39页
3.4 系统数据库设计	第39-40页
3.5 本章小结	第40-41页
第四章系统实现	第41-49页
4.1 界面布局	第41-42页
4.1.1 用户登录界面	第41页
4.1.2 采集界面	第41-42页
4.2 模块及功能实现	第42-47页
4.2.1 切分词处理实现	第43-44页
4.2.2 基于主题的网络新闻采集实现	第44-45页
4.2.3 基于类别的网络新闻采集实现	第45-46页
4.2.4 网络新闻信息抽取模块实现	第46页
4.2.5 数据库连接与存储实现	第46-47页
4.3 本章小结	第47-49页
第五章系统运行与测试	第49-54页
5.1 系统运行	第49页
5.1.1 系统开发环境	第49页
5.1.2 系统运行环境	第49页
5.2 系统测试	第49-53页
5.2.1 系统测试内容	第49-50页
5.2.2 系统功能测试	第50页
5.2.3 系统性能测试	第50-53页
5.3 本章小结	第53-54页
第六章总结与展望	第54-56页
6.1 总结	第54页
6.2 展望	第54-56页
参考文献	第56-58页
致谢	第58页