首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

矿山设备领域主题爬虫的设计与实现

摘要第6-7页
Abstract第7页
第1章 绪论第11-16页
    1.1 研究背景和意义第11-12页
        1.1.1 研究背景第11-12页
        1.1.2 研究意义第12页
    1.2 搜索引擎的发展趋势第12-13页
    1.3 主题爬虫国内外研究现状第13-14页
    1.4 论文主要研究内容第14-16页
第2章 相关理论与技术第16-30页
    2.1 搜索引擎概述第16-22页
        2.1.1 搜索引擎分类第16-18页
        2.1.2 搜索引擎的结构原理第18-20页
        2.1.3 搜索引擎的工作流程第20-21页
        2.1.4 垂直搜索引擎结构第21-22页
    2.2 通用爬虫和主题爬虫第22-26页
        2.2.1 通用爬虫的工作流程第22-24页
        2.2.2 通用爬虫的组成结构第24页
        2.2.3 主题爬虫的基本原理第24-25页
        2.2.4 主题爬虫的优点第25-26页
    2.3 搜索策略概述第26-29页
        2.3.1 传统的搜索策略第26-27页
        2.3.2 主题搜索策略第27-29页
    2.4 本章小结第29-30页
第3章 主题爬虫关键技术分析与研究第30-45页
    3.1 基于关键词的主题表示第30-31页
    3.2 网页信息提取第31-33页
        3.2.1 HTML 文档特点第31-32页
        3.2.2 页面正文提取第32-33页
        3.2.3 页面链接提取第33页
    3.3 网页预处理第33-37页
        3.3.1 正则表达式第33-34页
        3.3.2 网页去重第34-36页
        3.3.3 网页消噪第36-37页
    3.4 中文分词技术第37-39页
        3.4.1 匹配字符串分词方法第37-38页
        3.4.2 基于理解的分词方法第38页
        3.4.3 基于词频统计的分词方法第38-39页
    3.5 主题相关度判定分析第39-43页
        3.5.1 网页特征选择第39-41页
        3.5.2 TF-IDF 算法第41-42页
        3.5.3 向量空间模型第42-43页
    3.6 URL 价值评价第43-44页
    3.7 本章小结第44-45页
第4章 矿山设备领域主题爬虫总体设计第45-51页
    4.1 系统设计目标第45页
    4.2 系统流程设计第45-47页
    4.3 系统总体结构第47-48页
    4.4 信息抓取设计第48-49页
    4.5 URL 队列设计第49页
    4.6 数据库设计第49-50页
    4.7 本章小结第50-51页
第5章 矿山设备领域主题爬虫实现第51-63页
    5.1 系统开发环境第51页
    5.2 多线程技术第51-52页
    5.3 页面信息提取第52-55页
        5.3.1 页面链接的提取第52-54页
        5.3.2 页面内容的提取第54-55页
    5.4 链接队列的管理第55-57页
    5.5 计算页面相关性第57-58页
    5.6 部分界面演示第58-61页
    5.7 实验结果第61-62页
    5.8 本章小结第62-63页
结论第63-65页
致谢第65-66页
参考文献第66-69页
作者简介第69-70页
攻读硕士学位期间发表的论文和科研成果第70-71页

论文共71页,点击 下载论文
上一篇:基于CC2431的智能小区无线传感器网络节点的设计与实现
下一篇:基于全生命周期的XT物流园区投资风险评价研究