首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向主题的网页资源采集系统的研究与实现

摘要第8-9页
英文摘要第9-10页
1 前言第11-17页
    1.1 课题研究目的和意义第11-12页
    1.2 国内外研究现状第12-15页
    1.3 研究的主要内容第15页
    1.4 本文组织结构第15-17页
2 主题网页信息采集概述第17-25页
    2.1 搜索引擎介绍第17-19页
        2.1.1 搜索引擎的发展第17页
        2.1.2 搜索引擎的分类第17-18页
        2.1.3 搜索引擎体系结构第18-19页
    2.2 通用网络爬虫第19-22页
        2.2.1 网络爬虫的结构第19-20页
        2.2.2 网络爬虫的工作流程第20-21页
        2.2.3 网络爬虫的搜索策略第21-22页
    2.3 主题网页信息采集第22-24页
        2.3.1 主题爬虫结构第22-23页
        2.3.2 主题爬虫的工作流程第23页
        2.3.3 主题爬虫的特性第23-24页
    2.4 本章小结第24-25页
3 主题网页信息采集关键技术研究第25-44页
    3.1 Web信息抽取技术第25-31页
        3.1.1 Web信息抽取方法第25-28页
        3.1.2 HTML网页文档对象模型第28-31页
    3.2 网页主题相关度计算模型第31-35页
        3.2.1 布尔模型第31页
        3.2.2 向量空间模型第31-33页
        3.2.3 概率检索模型第33-35页
    3.3 爬行策略算法研究第35-39页
        3.3.1 基于文字内容的算法第35-36页
        3.3.2 基于链接分析的算法第36-39页
    3.4 采集算法改进研究第39-43页
        3.4.1 主题相关度计算模型及爬行策略优缺点分析第39-40页
        3.4.2 网页主题相关度计算模型的改进第40页
        3.4.3 URL爬行策略优化第40-42页
        3.4.4 双重约束主题采集算法第42-43页
    3.5 本章小结第43-44页
4 系统设计与实现第44-52页
    4.1 大豆主题网页资源采集系统的实现第44-49页
        4.1.1 Web开源软件分析第44页
        4.1.2 Nutch架构及其机制第44-46页
        4.1.3 基于Nutch的采集系统具体实现第46-49页
    4.2 实验测试与分析第49-51页
        4.2.1 性能评价指标第49-50页
        4.2.2 实验比较及分析第50-51页
    4.3 本章小结第51-52页
5 总结与展望第52-54页
    5.1 全文总结第52页
    5.2 研究展望第52-54页
致谢第54-55页
参考文献第55-59页
攻读硕士学位期间发表的学术论文第59页

论文共59页,点击 下载论文
上一篇:会计稳健性、自由现金流与过度投资--以高耗能制造业上市公司为例
下一篇:基于随机森林和QGA-SVR的量化选股研究