首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向垂直搜索引擎的主题爬虫方法研究

摘要第3-4页
ABSTRACT第4-5页
1 绪论第9-15页
    1.1 研究背景第9页
    1.2 研究目的和意义第9-10页
    1.3 国内外研究现状第10-12页
    1.4 本文主要内容第12-14页
    1.5 本文组织结构第14-15页
2 主题爬虫概述第15-21页
    2.1 搜索引擎概述第15-16页
        2.1.1 通用搜索引擎第15页
        2.1.2 垂直搜索引擎第15-16页
    2.2 通用爬虫第16-18页
        2.2.1 通用爬虫的原理和体系结构第16-17页
        2.2.2 通用爬虫的爬行策略第17-18页
    2.3 主题爬虫第18-20页
        2.3.1 主题爬虫的原理和结构第18-19页
        2.3.2 主题爬虫的爬行策略第19-20页
        2.3.3 主题爬虫与通用爬虫的区别第20页
    2.4 本章小结第20-21页
3 主题爬虫关键技术第21-31页
    3.1 网页预处理相关技术第21-22页
        3.1.1 HTML 网页的规范化第21页
        3.1.2 HTML 网页的内容解析第21-22页
        3.1.3 中文分词、去除停用词第22页
    3.2 主题描述及相关性计算第22-25页
        3.2.1 主题表示第22-23页
        3.2.2 构建主题向量空间第23-24页
        3.2.3 主题特征赋权第24-25页
        3.2.4 主题相关性计算第25页
    3.3 穿越“隧道”相关技术第25-28页
        3.3.1 基于网页分块的灰色隧道穿越第25-27页
        3.3.2 基于隧道技术的黑色隧道穿越第27-28页
    3.4 Web 链接结构特性的影响第28-30页
        3.4.1 PageRank 算法第28-29页
        3.4.2 HITS 算法第29-30页
    3.5 本章小结第30-31页
4 基于主题相关概念和综合价值的主题爬虫第31-55页
    4.1 基于 ODP 的主题相关概念描述第31-37页
        4.1.1 ODP 简介第32-34页
        4.1.2 主题描述的方法及存在的问题第34-35页
        4.1.3 基于 ODP 的主题相关概念描述方法第35-37页
    4.2 基于网页分块和重复上限的隧道穿越第37-44页
        4.2.1 基于网页分块穿越灰色隧道第38-43页
        4.2.2 基于重复上限的隧道技术穿越黑色隧道第43-44页
    4.3 基于 R-HITS 算法考虑链接结构特性第44-47页
        4.3.1 R-HITS 的改进之处第45页
        4.3.2 基于 R-HITS 算法链接结构特性的方法第45-47页
    4.4 基于综合价值的候选链接优先级预测第47-53页
        4.4.1 候选链接的等级划分第49-50页
        4.4.2 基于文字内容与 R-HITS 相结合的预测方法第50-53页
        4.4.3 时间复杂度分析第53页
    4.5 本章小结第53-55页
5 实验与分析第55-65页
    5.1 主题爬虫原型系统第55-56页
    5.2 实验评价指标第56-57页
    5.3 初始数据获取和参数设置第57-58页
        5.3.1 初始数据获取第57页
        5.3.2 参数设置第57-58页
    5.4 实验方案及结果分析第58-64页
        5.4.1 R-HITS 和 HITS 的对比实验第59-61页
        5.4.2 主题描述方法的对比实验第61页
        5.4.3 引入网页分块后的对比实验第61-62页
        5.4.4 加入 R-HITS 算法后的对比实验第62-64页
    5.5 本章小结第64-65页
6 总结与展望第65-67页
致谢第67-69页
参考文献第69-75页
附录第75页
    作者在攻读学位期间发表的论文目录第75页

论文共75页,点击 下载论文
上一篇:不确定环境下的多式联运时间—费用模型优化研究
下一篇:基于LED的高速水下光通信系统的设计与实现