首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

网络数据采集技术的研究与应用

摘要第5-6页
Abstract第6页
第1章 绪论第9-13页
    1.1 研究背景及意义第9-10页
    1.2 国内外研究现状第10-11页
        1.2.1 国外研究现状第10-11页
        1.2.2 国内研究现状第11页
    1.3 本文研究工作第11-12页
    1.4 论文组织结构第12-13页
第2章 主题网络爬虫关键技术第13-22页
    2.1 主题爬虫原理第13-14页
    2.2 主题爬虫的爬虫策略第14-17页
        2.2.1 基于网页链接关系的爬行策略第15-16页
        2.2.2 基于网页内容的爬行策略第16-17页
    2.3 主题爬虫的关键技术第17-21页
        2.3.1 HTML文档结构解析第17-19页
        2.3.2 分词处理第19-20页
        2.3.3 文本表示模型第20页
        2.3.4 结巴中文分词工具第20-21页
    2.4 本章小结第21-22页
第3章 K-近邻和朴素贝叶斯分类器原理及应用第22-34页
    3.1 文本分类第22-23页
    3.2 k-近邻算法原理第23-24页
    3.3 k-近邻算法分类器的构造与测试第24-29页
        3.3.1 读取文本数据第24-25页
        3.3.2 通过结巴分词和特征词提取创建文本向量第25-26页
        3.3.3 求与主题向量的相似度第26-27页
        3.3.4 k-近邻分类器的构造与测试第27-29页
    3.4 朴素贝叶斯分类原理第29-30页
    3.5 朴素贝叶斯算法主题分类器的构造与测试第30-33页
        3.5.1 构建和优化分类器第31-32页
        3.5.2 朴素贝叶斯分类器的最终测试第32-33页
    3.6 本章小结第33-34页
第4章 主题爬虫系统设计与实现第34-45页
    4.1 主题爬虫系统设计第34-39页
        4.1.1 Scrapy爬虫框架第34-35页
        4.1.2 主题爬虫系统架构设计第35-36页
        4.1.3 主题爬虫系统类图设计第36-39页
    4.2 主题爬虫系统功能实现第39-44页
        4.2.1 初始化URL第40页
        4.2.2 网页采集模块第40-41页
        4.2.3 网页分析模块第41-42页
        4.2.4 爬行控制模块第42-43页
        4.2.5 数据存储模块第43-44页
    4.3 本章小结第44-45页
第5章 实验结果与分析第45-50页
    5.1 实验的软硬件环境第45页
    5.2 数据库表结构创建第45-46页
    5.3 爬取数据结果展示第46页
    5.4 打印日志信息第46-47页
    5.5 不同训练样本的不同分类器准确率分析第47页
    5.6 不同主题爬取情况结果展示与对比第47-49页
    5.7 不同分类器的主题爬虫系统的效率对比与分析第49-50页
第6章 总结与展望第50-52页
    6.1 本文总结第50页
    6.2 后续工作的展望第50-52页
参考文献第52-56页
攻读硕士学位期间发表的论文及其他成果第56-57页
致谢第57页

论文共57页,点击 下载论文
上一篇:高速公路BOT项目最优资金结构研究
下一篇:BOT交通项目扩张期权的定价与交易