首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向垂直搜索的主题爬虫爬行策略的研究与实现

摘要第4-6页
ABSTRACT第6-7页
目录第8-10页
第一章 绪论第10-16页
    1.1 研究背景及意义第10-11页
    1.2 研究现状及发展趋势第11-14页
        1.2.1 垂直搜索引擎爬虫技术第11-12页
        1.2.2 文本分类算法第12-13页
        1.2.3 垂直搜索引擎的发展第13-14页
    1.3 课题主要研究内容第14页
    1.4 论文的整体结构第14-16页
第二章 通用垂直搜索引擎技术框架第16-22页
    2.1 搜索引擎技术概述第16-20页
        2.1.1 爬虫爬取系统第17-18页
        2.1.2 网页去噪第18-19页
        2.1.3 网页检索第19-20页
    2.2 垂直搜索引擎特点第20-21页
        2.2.1 普通爬取策略第20-21页
        2.2.2 网页重访第21页
        2.2.3 网页分类第21页
    2.3 本章小结第21-22页
第三章 对垂直搜索引擎的爬取策略和页面分类的研究第22-32页
    3.1 网页爬取策略第22-27页
        3.1.1 基于URL结构树的爬取策略第22-24页
        3.1.2 索引网页第24-25页
        3.1.3 索引网页识别第25-26页
        3.1.4 带索引网页的URL树第26-27页
        3.1.5 重访规则第27页
    3.2 网页分类与信息获取第27-28页
        3.2.1 反馈机制的应用第27-28页
        3.2.2 跨领域网页第28页
    3.3 躲避反爬虫防护第28-29页
    3.4 本章小结第29-32页
第四章 垂直搜索引擎设计与实现第32-46页
    4.1 系统总体架构第32-34页
    4.2 系统功能模块设计第34-38页
        4.2.1 爬虫抓取模块的设计第34-36页
        4.2.2 网页解析模块的设计第36-38页
    4.3 垂直搜索引擎的实现第38-45页
        4.3.1 实现环境和工具第38页
        4.3.2 网页去噪与索引网页第38-41页
        4.3.3 网页分类与信息获取第41-43页
        4.3.4 躲避反爬虫策略第43-45页
    4.4 本章小结第45-46页
第五章 总结与展望第46-48页
    5.1 本文工作总结第46页
    5.2 未来工作展望第46-48页
参考文献第48-52页
致谢第52页

论文共52页,点击 下载论文
上一篇:从实在到语法:当代实在论的视域转换
下一篇:业务独立的桌面应用开发框架的设计和实现