首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向Web文本挖掘的主题网络爬虫研究

摘要第5-6页
abstract第6页
第一章 绪论第9-15页
    1.1 背景与意义第9页
    1.2 国内外研究综述第9-12页
    1.3 本文研究内容第12-13页
    1.4 本文结构安排第13-15页
第二章 论文相关技术研究第15-26页
    2.1 网络爬虫技术研究第15-20页
        2.1.1 通用网络爬虫概述第15-16页
        2.1.2 网络爬虫爬行策略第16-18页
        2.1.3 主题网络爬虫概述第18-19页
        2.1.4 主题网络爬虫分类第19-20页
    2.2 WEB文本挖掘技术研究第20-25页
        2.2.1 Web文本挖掘概述第20-22页
        2.2.2 Web文本挖掘技术第22-23页
        2.2.3 Web文本聚类挖掘第23-25页
    2.3 本章小结第25-26页
第三章 面向主题社区的主题网络爬虫研究第26-38页
    3.1 主题社区网站数据获取方案第26-27页
        3.1.1 基于第三方应用程序编程接口(API)获取数据第26-27页
        3.1.2 基于主题网络爬虫获取数据第27页
    3.2 网络爬虫编写语言第27-29页
    3.3 基于NODE.JS的主题网络爬虫设计与实现第29-37页
        3.3.1 网络爬虫总体设计第29-30页
        3.3.2 初始URL模块设计与实现第30页
        3.3.3 网页下载模块设计与实现第30-31页
        3.3.4 网页解析模块设计与实现第31-35页
        3.3.5 数据存储模块设计与实现第35-37页
    3.4 本章小结第37-38页
第四章 基于BIRCH算法的WEB文本聚类研究第38-51页
    4.1 WEB文本聚类流程第38-39页
    4.2 基于特征词向量的短文本表示模型第39-44页
        4.2.1 基于TF-IDF算法的特征提取第40-42页
        4.2.2 基于Word2vec的词向量表征第42-43页
        4.2.3 基于特征词向量的文本表征第43-44页
    4.3 文本聚类算法——BIRCH算法研究第44-48页
        4.3.1 聚类特征第44-46页
        4.3.2 聚类特征树第46-48页
    4.4 面向文本聚类的BIRCH算法改进第48-50页
    4.5 本章小结第50-51页
第五章 面向主题网络社区的信息采集和分析系统设计与实现第51-68页
    5.1 系统总体设计第51页
    5.2 前端模块设计与实现第51-55页
        5.2.1 前端模块总体设计第51-52页
        5.2.2 路由模块设计与实现第52-53页
        5.2.3 前端模板设计与实现第53-55页
    5.3 爬虫模块设计第55-56页
    5.4 文本分析模块设计第56-58页
        5.4.1 中文分词模块设计第56页
        5.4.2 文本表示模块设计第56-57页
        5.4.3 文本聚类模块设计第57-58页
    5.5 数据库设计第58-59页
    5.6 系统结果分析第59-62页
        5.6.1 当前热点第59-60页
        5.6.2 典型意见第60-62页
    5.7 系统功能测试第62-67页
        5.7.1 爬取功能测试第62-64页
        5.7.2 分析功能测试第64-67页
    5.8 本章小结第67-68页
第六章 全文总结与展望第68-69页
    6.1 全文总结第68页
    6.2 后续工作展望第68-69页
致谢第69-70页
参考文献第70-74页
攻读硕士学位期间取得的成果第74-75页

论文共75页,点击 下载论文
上一篇:基于Spark平台的空间数据挖掘DBSCAN聚类算法并行化研究
下一篇:Ka波段MMIC驱动级放大器芯片设计