首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

新闻云采集系统

摘要第3-4页
ABSTRACT第4页
第1章 绪论第8-11页
    1.1. 系统开发背景第8页
    1.2. 国内外研究技术开发状况第8-9页
    1.3. 系统需要解决的主要问题第9-10页
        1.3.1. 分布式增量网络蜘蛛第9页
        1.3.2. 基于模版分析的采集引擎第9页
        1.3.3. 中文分词引擎第9页
        1.3.4. 全文检索系统第9页
        1.3.5. 新闻自动排版引擎第9页
        1.3.6. 新闻自动导入引擎第9-10页
        1.3.7. 一键采集模块第10页
        1.3.8. 敏感词过滤引擎第10页
    1.4. 本文的主要工作第10-11页
第2章 相关背景第11-14页
    2.1 与本文相关技术第11-14页
        2.1.1 Java第11页
        2.1.2 MySQL第11页
        2.1.3 Linux第11-12页
        2.1.4 Lucene第12页
        2.1.5 HTML 源码 DOM 化以及 XPath 提取第12页
        2.1.6 正则表达式第12页
        2.1.7 中文分词技术第12-14页
第3章 系统总体设计第14-29页
    3.1 网络蜘蛛模块设计第15-17页
        3.1.1 网络蜘蛛总体设计第15-16页
        3.1.2 网络蜘蛛的算法-分布式有限深度网络蜘蛛第16页
        3.1.3 高速缓存的使用第16-17页
    3.2 提取关键词模块设计第17-22页
        3.2.1 提取关键词总体设计第17页
        3.2.2 关键词提取算法第17-18页
        3.2.3 算法示意图第18-19页
        3.2.4 实现代码第19-22页
    3.3 全文检索模块设计第22-24页
        3.3.1 全文检索总体设计第23页
        3.3.2 全文检索模块示意图第23-24页
    3.4 信息采集模块设计第24页
    3.5 导入引擎模块设计第24-27页
        3.5.1 单篇新闻导入第24-26页
        3.5.2 多篇新闻导入第26页
        3.5.3 自动导入第26-27页
    3.6 负载均衡模块设计第27页
    3.7 监控模块设计第27-29页
第4章 云采集系统编辑工作平台第29-46页
    4.1 工作平台第29-39页
        4.1.1 新闻监控分类管理第29-36页
            4.1.1.1 增加、修改新闻监控分类第30-31页
            4.1.1.2 选择网址第31-33页
            4.1.1.3 敏感词设置第33-35页
            4.1.1.4 定时导入设置第35-36页
        4.1.2 可导入列表第36-38页
        4.1.3 被过滤新闻列表第38页
        4.1.4 已导入新闻列表第38-39页
    4.2 新闻分类汇总第39-40页
        4.2.1 热点专题第39页
        4.2.2 报纸第39-40页
    4.3 热词搜索导入第40-41页
        4.3.1 实时热词列表第40-41页
        4.3.2 关键字搜索第41页
    4.4 统计第41-44页
        4.4.1 新闻监控源统计第41-42页
        4.4.2 导入量按频道统计第42-43页
        4.4.3 导入量按用户统计第43-44页
    4.5 其他第44-46页
        4.5.1 提交抓不到的网址第44页
        4.5.2 安装一键抓取第44页
        4.5.3 查看操作日志第44-46页
第5章 实验测试第46-52页
    5.1 网络蜘蛛采集测试第46-47页
    5.2 新闻关键词提取测试第47页
    5.3 新闻采集测试第47-52页
        5.3.1 新华网普通新闻采集测试第48-49页
        5.3.2 新浪网组图新闻采集测试第49-50页
        5.3.3 新华网分页新闻采集测试第50-52页
第6章 结论第52-53页
参考文献第53-56页
致谢第56页

论文共56页,点击 下载论文
上一篇:基于SOA的办公自动化系统设计与实现
下一篇:“二层五级”机组运行节能分析与优化软件的设计与实现