新闻云采集系统

摘要	第3-4页
ABSTRACT	第4页
第1章绪论	第8-11页
1.1. 系统开发背景	第8页
1.2. 国内外研究技术开发状况	第8-9页
1.3. 系统需要解决的主要问题	第9-10页
1.3.1. 分布式增量网络蜘蛛	第9页
1.3.2. 基于模版分析的采集引擎	第9页
1.3.3. 中文分词引擎	第9页
1.3.4. 全文检索系统	第9页
1.3.5. 新闻自动排版引擎	第9页
1.3.6. 新闻自动导入引擎	第9-10页
1.3.7. 一键采集模块	第10页
1.3.8. 敏感词过滤引擎	第10页
1.4. 本文的主要工作	第10-11页
第2章相关背景	第11-14页
2.1 与本文相关技术	第11-14页
2.1.1 Java	第11页
2.1.2 MySQL	第11页
2.1.3 Linux	第11-12页
2.1.4 Lucene	第12页
2.1.5 HTML 源码 DOM 化以及 XPath 提取	第12页
2.1.6 正则表达式	第12页
2.1.7 中文分词技术	第12-14页
第3章系统总体设计	第14-29页
3.1 网络蜘蛛模块设计	第15-17页
3.1.1 网络蜘蛛总体设计	第15-16页
3.1.2 网络蜘蛛的算法-分布式有限深度网络蜘蛛	第16页
3.1.3 高速缓存的使用	第16-17页
3.2 提取关键词模块设计	第17-22页
3.2.1 提取关键词总体设计	第17页
3.2.2 关键词提取算法	第17-18页
3.2.3 算法示意图	第18-19页
3.2.4 实现代码	第19-22页
3.3 全文检索模块设计	第22-24页
3.3.1 全文检索总体设计	第23页
3.3.2 全文检索模块示意图	第23-24页
3.4 信息采集模块设计	第24页
3.5 导入引擎模块设计	第24-27页
3.5.1 单篇新闻导入	第24-26页
3.5.2 多篇新闻导入	第26页
3.5.3 自动导入	第26-27页
3.6 负载均衡模块设计	第27页
3.7 监控模块设计	第27-29页
第4章云采集系统编辑工作平台	第29-46页
4.1 工作平台	第29-39页
4.1.1 新闻监控分类管理	第29-36页
4.1.1.1 增加、修改新闻监控分类	第30-31页
4.1.1.2 选择网址	第31-33页
4.1.1.3 敏感词设置	第33-35页
4.1.1.4 定时导入设置	第35-36页
4.1.2 可导入列表	第36-38页
4.1.3 被过滤新闻列表	第38页
4.1.4 已导入新闻列表	第38-39页
4.2 新闻分类汇总	第39-40页
4.2.1 热点专题	第39页
4.2.2 报纸	第39-40页
4.3 热词搜索导入	第40-41页
4.3.1 实时热词列表	第40-41页
4.3.2 关键字搜索	第41页
4.4 统计	第41-44页
4.4.1 新闻监控源统计	第41-42页
4.4.2 导入量按频道统计	第42-43页
4.4.3 导入量按用户统计	第43-44页
4.5 其他	第44-46页
4.5.1 提交抓不到的网址	第44页
4.5.2 安装一键抓取	第44页
4.5.3 查看操作日志	第44-46页
第5章实验测试	第46-52页
5.1 网络蜘蛛采集测试	第46-47页
5.2 新闻关键词提取测试	第47页
5.3 新闻采集测试	第47-52页
5.3.1 新华网普通新闻采集测试	第48-49页
5.3.2 新浪网组图新闻采集测试	第49-50页
5.3.3 新华网分页新闻采集测试	第50-52页
第6章结论	第52-53页
参考文献	第53-56页
致谢	第56页