首页--工业技术论文--轻工业、手工业论文--食品工业论文--一般性问题论文--基础科学论文--食品安全与卫生论文

基于主题爬虫的食品安全网络舆情分析方法研究与监测系统开发

学位论文数据集第3-4页
摘要第4-6页
ABSTRACT第6-7页
第一章 绪论第14-20页
    1.1 研究背景第14-15页
    1.2 国内外研究现状第15-18页
        1.2.1 主题爬虫的研究现状第15-16页
        1.2.2 聚类方法的研究现状第16-17页
        1.2.3 网络舆情及话题提取的研究现状第17-18页
    1.3 本文的主要研究内容第18-19页
    1.4 论文组织结构第19-20页
第二章 爬虫相关技术第20-32页
    2.1 搜索引擎简介第20-22页
    2.2 通用爬虫技术第22-24页
        2.2.1 通用爬虫简介第22-23页
        2.2.2 通用爬虫的常用搜索策略第23-24页
    2.3 主题爬虫技术第24-28页
        2.3.1 主题爬虫简介第24-25页
        2.3.2 主题爬虫的常用搜索策略第25-28页
    2.4 主题爬虫与通用爬虫的比较第28页
    2.5 文本聚类算法第28-31页
        2.5.1 划分聚类算法第28-29页
        2.5.2 层次聚类算法第29-30页
        2.5.3 密度聚类算法第30页
        2.5.4 single-pass聚类算法第30页
        2.5.5 几种聚类算法的比较第30-31页
    2.6 本章小结第31-32页
第三章 主题爬虫的改进与实现第32-58页
    3.1 主题爬虫系统结构第32-33页
    3.2 爬虫主题的确定第33-34页
    3.3 初始种子的优化改进第34-36页
    3.4 基于文字密度的网页正文提取第36-41页
        3.4.1 机器人协议第36页
        3.4.2 http协议和socket通信第36-37页
        3.4.3 基于文字密度的网页正文提取第37-41页
    3.5 基于向量空间模型的文本相似度计算第41-46页
        3.5.1 中文分词及预处理技术第41-42页
        3.5.2 向量空间模型第42-46页
    3.6 降维度VSM的多参考因素相似度改进算法第46-47页
        3.6.1 VSM的优缺点第46页
        3.6.2 降维的改进向量空间模型第46-47页
        3.6.3 改进VSM的多参考因素相似度计算第47页
    3.7 动态阈值的调整第47-49页
    3.8 URL的优先级排序第49-50页
    3.9 爬虫过程中存在的其他问题第50-53页
        3.9.1 多线程第50-52页
        3.9.2 大规模URL的去重第52页
        3.9.3 大规模URL的存储第52-53页
    3.10 改进后主题爬虫的流程图第53-54页
    3.11 对比实验设计第54-57页
        3.11.1 改进后的主题爬虫与Heritrix爬虫的比较第55页
        3.11.2 准确率和召回率的比较第55-57页
    3.12 本章小结第57-58页
第四章 基于主题爬虫的舆情监测和话题提取第58-68页
    4.1 网络舆情监测概述第58-59页
    4.2 single-pass聚类算法第59-60页
    4.3 聚类算法实验对比第60-61页
    4.4 话题检测和提取第61-64页
        4.4.1 话题提取的过程第61-62页
        4.4.2 single-pass聚类算法改进第62-63页
        4.4.3 single-pass聚类算法实验对比第63-64页
    4.5 热点话题提取过程第64-66页
        4.5.1 改进single-pass聚类算法的话题提取过程第64页
        4.5.2 话题提取实验比较第64-66页
    4.6 本章小结第66-68页
第五章 舆情分析原型系统开发第68-76页
    5.1 舆情分析系统的总体设计第68-69页
        5.1.1 舆情分析系统的系统架构第68-69页
        5.1.2 舆情分析系统的开发环境第69页
    5.2 食品安全舆情分析系统主要功能第69-70页
    5.3 食品安全舆情分析系统展示第70-74页
        5.3.1 主题爬虫界面第70-72页
        5.3.2 舆情分析系统界面第72-74页
    5.4 本章小结第74-76页
第六章 总结与展望第76-78页
    6.1 总结第76页
    6.2 展望第76-78页
参考文献第78-82页
致谢第82-84页
作者和导师简介第84-85页
附件第85-86页

论文共86页,点击 下载论文
上一篇:基于Copula理论的股票投资组合VaR风险度量研究
下一篇:基于条件随机场的症状信息抽取研究与应用