首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于决策树的URL分类器算法及主题爬虫平台设计

摘要第4-6页
Abstract第6-7页
第1章 引言第10-16页
    1.1 研究背景第10-11页
    1.2 研究目的和意义第11页
    1.3 国内外研究现状第11-13页
    1.4 本文研究内容第13-14页
    1.5 论文组织结构第14-16页
第2章 主题爬虫关键技术研究第16-27页
    2.1 搜索引擎简介第16-18页
    2.2 主题爬虫原理第18-21页
    2.3 主题爬虫的爬行策略研究第21-26页
        2.3.1 基于网页链接关系的爬行策略第21-24页
        2.3.2 基于网页内容的爬行策略第24-26页
    本章小结第26-27页
第3章 网页文本内容处理技术研究第27-38页
    3.1 网页文本内容预处理第27-31页
        3.1.1 HTML文档结构与解析第27-30页
        3.1.2 网页文本内容的分词处理第30-31页
    3.2 网页文本内容的表示模型第31-33页
        3.2.1 布尔表示模型第32页
        3.2.2 向量空间表示模型第32-33页
    3.3 网页文本内容特征抽取第33-37页
        3.3.1 网页文本内容特征词选择算法第33-36页
        3.3.2 网页文本内容特征词权重计算第36-37页
    本章小结第37-38页
第4章 基于决策树的URL分类器构建第38-46页
    4.1 决策树分类算法研究第38-41页
        4.1.1 决策树模型第38页
        4.1.2 特征选择方法第38-40页
        4.1.3 决策树生成算法第40-41页
    4.2 URL分类器的构建第41-45页
        4.2.1 URL分类特征的选取第41-44页
        4.2.2 URL分类器模型训练第44-45页
    本章小结第45-46页
第5章 主题爬虫系统设计与结果分析第46-57页
    5.1 主题爬虫系统平台搭建第46-49页
        5.1.1 系统的软硬件环境第46-47页
        5.1.2 Scrapy爬虫程序框架第47-48页
        5.1.3 NLTK自然语言处理程序库第48-49页
    5.2 主题爬虫的系统架构第49-53页
        5.2.1 种子URL的选取第50页
        5.2.2 主题特征向量的生成第50-51页
        5.2.3 网页的采集与分析第51-52页
        5.2.4 URL评价器设计第52-53页
    5.3 主题爬虫系统实验结果与分析第53-56页
        5.3.1 性能指标第53-54页
        5.3.2 结果分析第54-56页
    本章小结第56-57页
结论与展望第57-59页
致谢第59-60页
参考文献第60-63页
攻读学位期间获得的学术成果第63页

论文共63页,点击 下载论文
上一篇:基于Redis的高并发抢红包应用的设计与实现
下一篇:基于人脸识别的考生身份验证系统的设计