首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

垂直搜索引擎中的主题爬虫技术研究

摘要第4-5页
ABSTRACT第5-6页
目录第7-9页
Contents第9-11页
第一章 绪论第11-17页
    1.1 课题的研究背景第11-12页
    1.2 国内外研究现状第12-15页
        1.2.1 通用搜索引擎发展现状第12-13页
        1.2.2 垂直搜索引擎发展现状第13-15页
    1.3 研究目的及意义第15页
    1.4 论文研究内容第15-16页
    1.5 本文的组织结构第16-17页
第二章 主题爬虫概述第17-27页
    2.1 通用爬虫第17-18页
    2.2 主题爬虫第18-20页
    2.3 主题爬虫的体系结构第20-24页
        2.3.1 网页爬行第20-22页
        2.3.2 页面内容的分析第22页
        2.3.3 相关度评价器第22-24页
        2.3.4 主题表达器第24页
    2.4 主题页面的分布特征第24-27页
        2.4.1 Hub特性和Authority特性第25页
        2.4.2 主题关联特性第25页
        2.4.3 站点主题特性第25-26页
        2.4.4 隧道特性第26-27页
第三章 主题爬行算法的理论基础第27-39页
    3.1 主题爬虫中的“主题”描述第27页
    3.2 常见的主题描述方法第27-28页
    3.3 页面主题相关算法研究第28-32页
        3.3.1 页面内容相关性判定第28-30页
        3.3.2 基于链接结构主题相关性判断第30-32页
    3.4 主题爬行算法研究第32-39页
        3.4.1 Best-First Search(BFS)算法第33-34页
        3.4.2 Fish Search算法第34-36页
        3.4.3 Shark Search算法第36页
        3.4.4 基于Web图的启发式算法第36-39页
第四章 基于关键词动态扩充的主题爬虫第39-50页
    4.1 基于关键词动态扩充的主题爬行算法第39-42页
        4.1.1 基本主题库词典第40页
        4.1.2 基于位置的TF-IDF加权算法第40-41页
        4.1.3 动态扩充主题库算法流程第41-42页
    4.2 基于改进的Shark Search启发式算法设计第42-49页
        4.2.1 URL字符串的主题相关性判断第46-47页
        4.2.2 穿越Web中的隧道第47-49页
    4.3 主题爬虫系统算法流程第49-50页
第五章 实验结果分析第50-53页
    5.1 实验评价指标第50页
    5.2 实验结果第50-53页
结论第53-54页
参考文献第54-57页
攻读学位期间发表的论文第57-59页
致谢第59页

论文共59页,点击 下载论文
上一篇:山东工业职业学院毕业实习管理系统的设计与实现
下一篇:仪表图像检测技术研究与应用