摘要 | 第3-4页 |
ABSTRACT | 第4页 |
第1章 绪论 | 第8-11页 |
1.1. 系统开发背景 | 第8页 |
1.2. 国内外研究技术开发状况 | 第8-9页 |
1.3. 系统需要解决的主要问题 | 第9-10页 |
1.3.1. 分布式增量网络蜘蛛 | 第9页 |
1.3.2. 基于模版分析的采集引擎 | 第9页 |
1.3.3. 中文分词引擎 | 第9页 |
1.3.4. 全文检索系统 | 第9页 |
1.3.5. 新闻自动排版引擎 | 第9页 |
1.3.6. 新闻自动导入引擎 | 第9-10页 |
1.3.7. 一键采集模块 | 第10页 |
1.3.8. 敏感词过滤引擎 | 第10页 |
1.4. 本文的主要工作 | 第10-11页 |
第2章 相关背景 | 第11-14页 |
2.1 与本文相关技术 | 第11-14页 |
2.1.1 Java | 第11页 |
2.1.2 MySQL | 第11页 |
2.1.3 Linux | 第11-12页 |
2.1.4 Lucene | 第12页 |
2.1.5 HTML 源码 DOM 化以及 XPath 提取 | 第12页 |
2.1.6 正则表达式 | 第12页 |
2.1.7 中文分词技术 | 第12-14页 |
第3章 系统总体设计 | 第14-29页 |
3.1 网络蜘蛛模块设计 | 第15-17页 |
3.1.1 网络蜘蛛总体设计 | 第15-16页 |
3.1.2 网络蜘蛛的算法-分布式有限深度网络蜘蛛 | 第16页 |
3.1.3 高速缓存的使用 | 第16-17页 |
3.2 提取关键词模块设计 | 第17-22页 |
3.2.1 提取关键词总体设计 | 第17页 |
3.2.2 关键词提取算法 | 第17-18页 |
3.2.3 算法示意图 | 第18-19页 |
3.2.4 实现代码 | 第19-22页 |
3.3 全文检索模块设计 | 第22-24页 |
3.3.1 全文检索总体设计 | 第23页 |
3.3.2 全文检索模块示意图 | 第23-24页 |
3.4 信息采集模块设计 | 第24页 |
3.5 导入引擎模块设计 | 第24-27页 |
3.5.1 单篇新闻导入 | 第24-26页 |
3.5.2 多篇新闻导入 | 第26页 |
3.5.3 自动导入 | 第26-27页 |
3.6 负载均衡模块设计 | 第27页 |
3.7 监控模块设计 | 第27-29页 |
第4章 云采集系统编辑工作平台 | 第29-46页 |
4.1 工作平台 | 第29-39页 |
4.1.1 新闻监控分类管理 | 第29-36页 |
4.1.1.1 增加、修改新闻监控分类 | 第30-31页 |
4.1.1.2 选择网址 | 第31-33页 |
4.1.1.3 敏感词设置 | 第33-35页 |
4.1.1.4 定时导入设置 | 第35-36页 |
4.1.2 可导入列表 | 第36-38页 |
4.1.3 被过滤新闻列表 | 第38页 |
4.1.4 已导入新闻列表 | 第38-39页 |
4.2 新闻分类汇总 | 第39-40页 |
4.2.1 热点专题 | 第39页 |
4.2.2 报纸 | 第39-40页 |
4.3 热词搜索导入 | 第40-41页 |
4.3.1 实时热词列表 | 第40-41页 |
4.3.2 关键字搜索 | 第41页 |
4.4 统计 | 第41-44页 |
4.4.1 新闻监控源统计 | 第41-42页 |
4.4.2 导入量按频道统计 | 第42-43页 |
4.4.3 导入量按用户统计 | 第43-44页 |
4.5 其他 | 第44-46页 |
4.5.1 提交抓不到的网址 | 第44页 |
4.5.2 安装一键抓取 | 第44页 |
4.5.3 查看操作日志 | 第44-46页 |
第5章 实验测试 | 第46-52页 |
5.1 网络蜘蛛采集测试 | 第46-47页 |
5.2 新闻关键词提取测试 | 第47页 |
5.3 新闻采集测试 | 第47-52页 |
5.3.1 新华网普通新闻采集测试 | 第48-49页 |
5.3.2 新浪网组图新闻采集测试 | 第49-50页 |
5.3.3 新华网分页新闻采集测试 | 第50-52页 |
第6章 结论 | 第52-53页 |
参考文献 | 第53-56页 |
致谢 | 第56页 |