首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于内容和链接的主题爬虫的研究与实现

摘要第10-12页
ABSTRACT第12-13页
第一章 绪论第14-19页
    1.1 研究背景第14-15页
    1.2 研究现状第15-16页
    1.3 研究内容及论文组织结构第16-19页
第二章 网络爬虫研究概述第19-26页
    2.1 搜索引擎第19-22页
        2.1.1 通用搜索引擎第19-21页
        2.1.2 垂直搜索引擎第21-22页
    2.2 通用爬虫第22-24页
        2.2.1 通用爬虫的工作原理及结构第22-23页
        2.2.2 通用爬虫的爬行策略第23-24页
    2.3 主题爬虫第24-25页
        2.3.1 主题爬虫的工作原理及结构第24-25页
        2.3.2 主题爬虫的爬行策略第25页
    2.4 本章小结第25-26页
第三章 主题爬虫关键技术研究第26-36页
    3.1 网页文本信息处理第26-28页
        3.1.1 网页规范化第26页
        3.1.2 网页信息抽取第26-27页
        3.1.3 中文分词第27-28页
    3.2 主题相关性计算第28-30页
        3.2.1 布尔模型第28-29页
        3.2.2 向量空间模型第29-30页
    3.3 关键词提取第30-32页
        3.3.1 基于PAT树的关键词提取方法第30页
        3.3.2 基于TF-IDF的关键词提取方法第30-31页
        3.3.3 基于朴素贝叶斯的关键词提取方法第31-32页
    3.4 Web链接结构特性第32-35页
        3.4.1 PageRank算法第32-34页
        3.4.2 HITS算法第34-35页
    3.5 本章小结第35-36页
第四章 基于内容和链接的主题爬虫的系统设计与实现第36-48页
    4.1 整体方案思想概述第36-37页
    4.2 模型构建模块第37-42页
        4.2.1 模型属性的选取第38-39页
        4.2.2 文本预处理第39-40页
        4.2.3 基于条件互信息下的属性聚类第40-42页
    4.3 网页解析模块第42-44页
    4.4 主题策略模块和URLs调度模块第44-46页
        4.4.1 主题策略模块第45-46页
        4.4.2 URLs调度模块第46页
    4.5 性能优势分析第46-47页
    4.6 本章小结第47-48页
第五章 实验研究与结果分析第48-55页
    5.1 实验环境与数据准备第48-49页
        5.1.1 实验开发环境第48页
        5.1.2 数据准备第48-49页
    5.2 实验评价指标第49-50页
        5.2.1 提取关键词指标第49页
        5.2.2 主题爬虫性能指标第49-50页
    5.3 实验方案及结果分析第50-54页
        5.3.1 改进的朴素贝叶斯算法第50-51页
        5.3.2 主题爬虫第51-54页
    5.4 本章小结第54-55页
第六章 总结与展望第55-58页
    6.1 论文内容总结第55-56页
    6.2 研究展望第56-58页
参考文献第58-62页
致谢第62-63页
攻读硕士期间的研究成果第63-64页
学位论文评阅及答辩情况表第64页

论文共64页,点击 下载论文
上一篇:基于图像处理技术的自动报靶系统研究
下一篇:高速公路养护管理系统研究与分析