首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于领域的网络爬虫研究与实现

摘要第5-6页
abstract第6-7页
第一章 绪论第10-16页
    1.1 研究背景与意义第10-12页
    1.2 搜索引擎发展现状第12-13页
    1.3 网络爬虫发展现状第13-14页
    1.4 本文工作内容第14页
    1.5 论文结构第14-16页
第二章 基于领域的网络爬虫基础第16-23页
    2.1 搜索引擎基础概述第16-18页
    2.2 网络爬虫基础概述第18-19页
    2.3 领域网络爬虫技术现状第19-21页
    2.4 开源网络爬虫研究现状第21-22页
    2.5 本章小结第22-23页
第三章 基于领域的网络爬虫搜索策略研究第23-33页
    3.1 遍历搜索策略研究第23-24页
    3.2 最佳优先搜索策略——基于链接结构第24-29页
        3.2.1 Page Rank算法研究第25-27页
        3.2.2 HITS算法研究第27-29页
    3.3 最佳优先搜索策略——基于页面内容第29-30页
        3.3.1 Fish-Search算法研究第29页
        3.3.2 Shark-Search算法研究第29-30页
    3.4 领域爬虫搜索策略改进——综合搜索第30-32页
        3.4.1 基于领域的网络爬虫的搜索策略改进第30-31页
        3.4.2 爬虫队列的改进与设计第31-32页
    3.5 本章小结第32-33页
第四章 基于领域的网络爬虫向量空间模型研究第33-48页
    4.1 领域主题爬虫相似度判断模型第33-37页
        4.1.1 文档表示方式VSM模型第33-34页
        4.1.2 特征提取算法研究第34-36页
        4.1.3 TF-IDF算法以及应用第36-37页
    4.2 本体建模与概念权值计算第37-41页
        4.2.1 Protege与OWL第37-39页
        4.2.2 本体模型建立与权值推导第39-41页
    4.3 领域爬虫搜索策略改进——概念权重第41-43页
        4.3.1 VSM引入概念权重第41-43页
    4.4 开源爬虫Heritrix研究与改进第43-47页
        4.4.1 Heritrix源码功能模块分析与改进第44-45页
        4.4.2 Heritrix与Robots第45-46页
        4.4.3 Heritrix的链接分配策略第46-47页
    4.5 本章小结第47-48页
第五章 基于领域的网络爬虫的设计与实现第48-66页
    5.1 网页评价之前的页面预处理第48-50页
        5.1.1 HtmlParser网页解析工具第48页
        5.1.2 IKAnalyzer中文分词工具第48-50页
    5.2 基于领域的网络爬虫架构第50-55页
        5.2.1 基于领域的网络爬虫架构第50-53页
        5.2.2 基于领域的网络爬虫代码流程第53-55页
    5.3 工程设计与类设计第55-58页
    5.4 基于领域的网络爬虫实验运行效果第58-60页
    5.5 基于领域的网络爬虫改进效果测试第60-65页
        5.5.1 Heritrix改进效果对比第60-63页
        5.5.2 基于领域的网络爬虫领域主题效果对比第63-64页
        5.5.3 基于领域的网络爬虫页面评分概览第64-65页
        5.5.4 基于领域的网络爬虫概念权重效果对比第65页
    5.6 本章小结第65-66页
第六章 总结与展望第66-67页
致谢第67-68页
参考文献第68-71页
攻读硕士期间参与的项目与发表论文第71-72页

论文共72页,点击 下载论文
上一篇:基于安全互联的汽车分时租赁系统设计与实现
下一篇:基于WPAN平面天线的关键技术研究