首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Hadoop的互联网新闻阅读系统的设计与实现

摘要第4-5页
abstract第5页
缩略词第11-12页
第一章 绪论第12-27页
    1.1 研究背景和意义第12-13页
    1.2 国内外发展现状第13-25页
        1.2.1 网页正文提取第13-18页
        1.2.2 网页去重第18-22页
        1.2.3 Hadoop分布式系统第22-25页
    1.3 本文贡献第25-27页
第二章 基于FW-DTSS的新闻网页正文内容提取新方法第27-44页
    2.1 引言第27页
    2.2 基于FW-DTSS的算法第27-37页
        2.2.1 源码预处理第29-32页
        2.2.2 虚词特征提取第32-34页
        2.2.3 正文样本抽取第34-35页
        2.2.4 DOM树结构特征提取第35-36页
        2.2.5 全文正文段抽取第36-37页
        2.2.6 评价标准第37页
    2.3 FW-DTSS的实验与分析第37-43页
        2.3.1 FW-DTSS的交叉实验第37-42页
        2.3.2 FW-DTSS实验的时间复杂度第42-43页
        2.3.3 FW-DTSS的整体表现第43页
    2.4 本章小结第43-44页
第三章 基于FW-BF的网页去重新方法第44-63页
    3.1 引言第44-46页
    3.2 基于FW-BF的算法第46-55页
        3.2.1 网页特征提取第46-47页
        3.2.2 正文样本特征提取第47-48页
        3.2.3 基于虚词抽取正文样本第48-50页
        3.2.4 特征码提取第50-51页
        3.2.5 生成MD5值第51-52页
        3.2.6 生成BloomFilter第52-54页
        3.2.7 相似度定义第54页
        3.2.8 评价标准第54-55页
    3.3 FW-BF实验与分析第55-62页
        3.3.1 FW-BF的交叉实验第56-61页
        3.3.2 FW-BF实验的时间复杂度第61-62页
        3.3.3 FW-BF的整体表现第62页
    3.4 本章小结第62-63页
第四章 基于Hadoop的阅读系统的设计与实现第63-74页
    4.1 基于Hadoop的阅读系统设计第63-69页
        4.1.1 Hadoop平台搭建第63-64页
        4.1.2 URL过滤第64页
        4.1.3 系统功能主题部分设计第64-68页
        4.1.4 MapReduce中新闻提取算法第68-69页
        4.1.5 新闻存储第69页
    4.2 阅读系统的实现第69-73页
        4.2.1 系统概要第69-70页
        4.2.2 功能介绍第70-73页
    4.3 本章小结第73-74页
第五章 总结和展望第74-76页
    5.1 总结第74-75页
    5.2 展望第75-76页
参考文献第76-80页
致谢第80-81页
在学期间的研究成果及发表的学术论文第81页

论文共81页,点击 下载论文
上一篇:不完全信息数据库的相关问题研究
下一篇:Android用户隐私保护技术研究