首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题爬虫搜索策略的设计与实现

摘要第5-6页
ABSTRACT第6-7页
第一章 绪论第11-17页
    1.1 研究背景及意义第11-12页
    1.2 研究现状及发展趋势第12-15页
        1.2.1 搜索引擎第12-13页
        1.2.2 主题爬虫第13-15页
    1.3 论文主要研究内容第15页
    1.4 论文的整体结构第15-17页
第二章 网络爬虫关键技术第17-27页
    2.1 网络爬虫概述第17-19页
        2.1.1 网络爬虫在搜索引擎中的地位第17页
        2.1.2 网络爬虫基本结构和原理第17-19页
    2.2 关键技术第19-27页
        2.2.1 Hadoop第19-22页
        2.2.2 HBase第22-24页
        2.2.3 SimHash第24-27页
第三章 网页抓取优先级评估方案第27-39页
    3.1 网页抓取优先级评估的意义第27-28页
    3.2 网页抓取优先级评估方案概述第28-29页
    3.3 基于网页主题相关度的优先级分析第29-33页
        3.3.1 网页内容的分析第29-30页
        3.3.2 网页结构的分析第30-31页
        3.3.3 网页主题相关度评估第31-33页
    3.4 基于网页链接权威性的优先级分析第33-37页
        3.4.1 链接分析的研究现状第33-34页
        3.4.2 HITS算法的缺点第34页
        3.4.3 HITS算法的优化第34-36页
        3.4.4 HTIS优化算法的实现第36-37页
    3.5 基于网页更新频率的优先级分析第37页
    3.6 总结第37-39页
第四章 主题爬虫搜索策略的设计第39-51页
    4.1 主题爬虫搜索框架第39-40页
        4.1.1 在线处理流程第39-40页
        4.1.2 离线处理流程第40页
    4.2 网页类型判断第40-43页
        4.2.1 判断意义第41页
        4.2.2 判断流程第41-42页
        4.2.3 实验分析第42-43页
    4.3 文本提取第43-45页
        4.3.1 提取意义第43页
        4.3.2 研究现状第43-44页
        4.3.3 正文提取方法第44页
        4.3.4 实验分析第44-45页
    4.4 网页信息持久化第45-48页
        4.4.1 网页信息存储第45页
        4.4.2 更新间隔设定第45-47页
        4.4.3 网页去重第47-48页
    4.5 其他第48-50页
        4.5.1 搜索任务调度第48页
        4.5.2 反作弊第48-50页
    4.6 总结第50-51页
第五章 主题爬虫搜索策略的实现第51-61页
    5.1 数据库的设计第51-53页
        5.1.1 数据库的选择第51-52页
        5.1.2 数据库的架构第52页
        5.1.3 数据表的设计第52-53页
    5.2 搜索任务的设计第53-56页
        5.2.1 初始化Job第54页
        5.2.2 任务调度Job第54-55页
        5.2.3 抓取Job第55页
        5.2.4 其他Job第55-56页
    5.3 实验与分析第56-59页
        5.3.1 实验环境第56页
        5.3.2 数据准备第56页
        5.3.3 性能指标第56页
        5.3.4 实验结果与分析第56-59页
    5.4 总结第59-61页
第六章 总结与展望第61-63页
    6.1 总结第61-62页
    6.2 展望第62-63页
参考文献第63-67页
致谢第67页

论文共67页,点击 下载论文
上一篇:基于聚类的数据挖掘技术在未来网络基站部署策略中的应用
下一篇:基于特征点追踪的实时相机姿态估计