首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

面向垂直搜索引擎的聚焦网络爬虫关键技术研究与实现

摘要第5-6页
Abstract第6-7页
第一章 绪论第11-17页
    1.1 概述第11-13页
        1.1.1 Internet的发展第11页
        1.1.2 搜索引擎的发展第11-13页
    1.2 国内外相关技术发展现状第13-15页
        1.2.1 国外研究现状第13-14页
        1.2.2 国内研究现状第14-15页
    1.3 本文研究内容与组织结构第15-17页
第二章 爬虫体系结构研究第17-26页
    2.1 搜索引擎概述第17-20页
        2.1.1 搜索引擎基本原理第17-18页
        2.1.2 通用搜索引擎的局限第18-19页
        2.1.3 垂直搜索引擎概述第19-20页
    2.2 网络爬虫研究第20-25页
        2.2.1 通用爬虫基本原理及结构第20-22页
        2.2.2 聚焦爬虫系统结构第22-23页
        2.2.3 主题页面的分布特性第23-25页
    2.3 本章小结第25-26页
第三章 聚焦网络爬虫关键算法的研究与改进第26-44页
    3.1 主题爬行策略研究与改进第26-32页
        3.1.1 基于网页链接结构的爬行策略第26-28页
        3.1.2 基于网页内容的爬行策略第28-29页
        3.1.3 其它策略第29-30页
        3.1.4 改进的爬行策略第30-32页
    3.2 主题相关度计算方法第32-35页
        3.2.1 基于向量空间模型计算文本相似度第32-33页
        3.2.2 网页主题相关度计算方法第33-34页
        3.2.3 链接主题相关度计算方法第34-35页
    3.3 网页内容的提取第35-39页
        3.3.1 HTML简介第35-36页
        3.3.2 标签树的建立第36-38页
        3.3.3 基于文字/标签密度的网页正文提取方法第38-39页
    3.4 URL链接去重第39-41页
    3.5 中文分词第41-43页
        3.5.1 中文分词算法第41-43页
        3.5.2 jieba分词系统第43页
    3.6 本章小结第43-44页
第四章 基于改进爬行策略的聚焦爬虫系统设计第44-57页
    4.1 聚焦爬虫系统的总体架构第44-47页
        4.1.1 聚焦爬虫系统模块设计第44-45页
        4.1.2 聚焦爬虫系统流程设计第45-47页
    4.2 网页采集模块第47-52页
        4.2.1 HTTP协议简介第47-50页
        4.2.2 判断网页编码第50-51页
        4.2.3 Gzip压缩编码传输第51页
        4.2.4 采集模块流程第51-52页
    4.3 文本相似度计算模块第52-54页
    4.4 线程池工作模块第54-55页
    4.5 本章小结第55-57页
第五章 系统实现及实验分析第57-64页
    5.1 系统的实现第57-59页
        5.1.1 实验环境第57页
        5.1.2 实验过程第57-58页
        5.1.3 相关度阈值的设定第58-59页
    5.2 实验与分析第59-63页
        5.2.1 评价方法第59-60页
        5.2.2 实验分析第60-63页
    5.3 本章小结第63-64页
第六章 结束语第64-65页
    6.1 总结第64页
    6.2 展望第64-65页
参考文献第65-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:基于单幅图像去雾算法的改进与实现
下一篇:LabVIEW及MATLAB对USB工业相机控制与采集的实现