首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于切片的Web资源爬虫的设计与优化研究

摘要第3-4页
Abstract第4页
第一章 绪论第7-12页
    1.1 研究背景与意义第7-9页
    1.2 主题爬虫相关研究第9页
    1.3 研究内容与目标第9-10页
        1.3.1 研究目标第10页
        1.3.2 研究内容第10页
    1.4 本文内容结构第10-12页
第二章 网页资源抽取算法概述第12-18页
    2.1 网页分块技术第12-15页
        2.1.1 基于网页标签分布规律的网页分块第12页
        2.1.2 基于网页DOM树结构的网页分块第12-14页
        2.1.3 基于视觉特征的页面分块算法第14-15页
    2.2 网页链接抽取算法第15-16页
        2.2.1 基于网页分块的链接抽取算法第15页
        2.2.2 基于链接属性的链接抽取算法第15-16页
    2.3 网页链接的相关文本抽取算法第16-17页
    2.4 基于扩展DOM树与页面间联系的链接及链接相关文本抽取算法第17-18页
第三章 基于扩展DOM树的网页链接抽取第18-32页
    3.1 爬虫抓取对象的选择第18-20页
    3.2 相关链接以及噪音链接的确定第20-21页
    3.3 基于链接的网页分块第21-28页
        3.3.0 网页预处理工具选择第21-23页
        3.3.1 网页预处理第23-24页
        3.3.2 扩展DOM树第24-28页
    3.4 基于链接特点的噪音链接过滤第28-31页
        3.4.1 基于DOM结构的链接分块第28-29页
        3.4.2 基于分块和链接特点的链接过滤第29-31页
    3.5 本章小结第31-32页
第四章 基于扩展DOM树与网页外部联系的链接相关文本抽取第32-42页
    4.1 基于三个维度的网页链接分析第32-34页
    4.2 链接相关文本分析第34-39页
        4.2.1 过往研究中链接相关文本分析第34-36页
        4.2.2 基于链接类型的链接相关文本分析第36-39页
    4.3 抽取链接相关文本算法第39-41页
    4.4 本章小结第41-42页
第五章 实验验证第42-47页
    5.1 实验方案设计第42-44页
        5.1.1 Web资源抽取算法流程第42-43页
        5.1.2 实验数据准备第43-44页
        5.1.3 实验方案设计第44页
    5.2 噪音过滤算法的结果与分析第44-45页
        5.2.1 实验结果与分析第44-45页
        5.2.2 待改进之处第45页
    5.3 链接相关文本抽取算法的结果与分析第45-46页
        5.3.1 实验结果与分析第45-46页
        5.3.2 待改进之处第46页
    5.4 本章小结第46-47页
第六章 总结与展望第47-48页
    6.1 研究工作总结第47页
    6.2 研究展望第47-48页
参考文献第48-50页
致谢第50页

论文共50页,点击 下载论文
上一篇:小学语文教科书劝诫取向研究--以人教版为例
下一篇:多媒体技术辅助中学田径训练的应用研究--以上饶市A中学为例