首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向检验检疫领域主题爬虫的研究及系统实现

摘要第4-5页
Abstract第5页
第1章 绪论第13-17页
    1.1 课题背景及研究意义第13-14页
    1.2 本文的主要工作第14-15页
    1.3 本文的组织结构第15-16页
    1.4 本章小结第16-17页
第2章 相关工作综述第17-39页
    2.1 主题爬虫概述第17-19页
    2.2 爬虫系统的关键技术第19-28页
        2.2.1 基于协议控制的JavaScript解析第19-23页
        2.2.2 网页去噪第23-24页
        2.2.3 URL指纹和Bloom Filter第24-26页
        2.2.4 SimNash算法第26-28页
    2.3 文本分类器第28-33页
        2.3.1 文本分类的定义第28-29页
        2.3.2 文本特征表达第29-31页
        2.3.3 常用的文本分类器第31-33页
    2.4 底层平台服务第33-38页
        2.4.1 NoSQL数据存储第33-36页
        2.4.2 数据清洗及索引第36-38页
    2.5 本章小结第38-39页
第3章 网页抓取策略第39-45页
    3.1 基于网络拓扑的PageRank算法第39-40页
    3.2 基于网页正文的Shark-Search算法第40-41页
    3.3 基于用户访问行为的抓取策略第41-42页
    3.4 改进Shark-Search算法第42-44页
    3.5 本章小结第44-45页
第4章 网页主题内容分类第45-60页
    4.1 模型概述第45页
    4.2 词向量Word2vec第45-48页
        4.2.1 词向量概述第45-46页
        4.2.2 Word2vec模型第46-47页
        4.2.3 文本预处理及向量化第47-48页
    4.3 基于Attention的层次化LSTM分类网络第48-58页
        4.3.1 人工神经网络第48-49页
        4.3.2 递归神经网络第49-51页
        4.3.3 Attention机制第51-55页
        4.3.4 基于Attention的层次化LSTM网络构建第55-57页
        4.3.5 模型训练过程第57-58页
    4.4 基于置信度的分类策略第58-59页
    4.5 本章小结第59-60页
第5章 实验设计及结果分析第60-69页
    5.1 抓取策略测试实验第60-63页
        5.1.1 性能评价指标第60页
        5.1.2 实验结果及分析第60-63页
    5.2 主题文本分类测试实验第63-68页
        5.2.1 性能评价指标第63-64页
        5.2.2 实验数据集第64页
        5.2.3 实验环境第64页
        5.2.4 多模型对比实验和分析第64-67页
        5.2.5 单个分类器性能分析第67页
        5.2.6 词向量训练实验和分析第67-68页
    5.3 本章小结第68-69页
第6章 系统实现及应用第69-76页
    6.1 系统相关应用第69-75页
        6.1.1 分布式数据采集系统第70-72页
        6.1.2 数据清洗和搜索系统第72-74页
        6.1.3 文本分类Web服务第74-75页
    6.2 本章小结第75-76页
第7章 总结与展望第76-79页
    7.1 全文总结第76-77页
    7.2 未来展望第77-79页
参考文献第79-82页
攻读硕士学位期间主要的研究成果第82-83页
致谢第83页

论文共83页,点击 下载论文
上一篇:面向电大复杂目标的高效电磁算法研究
下一篇:医学图像的分割与三维可视化