首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Spark的新闻网页分类系统的设计与实现

摘要第4-5页
ABSTRACT第5-6页
第一章 绪论第9-13页
    1.1 课题目的和意义第9-10页
    1.2 课题的研究现状第10-11页
    1.3 课题难点和问题第11-12页
    1.4 本文的工作及内容安排第12-13页
第二章 网页分类技术简介第13-26页
    2.1 网页预处理研究第13-14页
        2.1.1 网页去噪与有效信息提取第13页
        2.1.2 文本分词与去停用词第13-14页
    2.2 文本分类过程概述第14-16页
    2.3 文本特征选择方法研究第16-20页
        2.3.1 词频方法第16页
        2.3.2 文档频次方法第16页
        2.3.3 卡方检验方法第16-18页
        2.3.4 互信息方法第18-19页
        2.3.5 信息增益方法第19-20页
    2.4 特征项权值计算研究第20-22页
        2.4.1 基本的特征项权重计算方法第20-21页
        2.4.2 TF-IDF的特征项权重计算方法第21-22页
    2.5 常用文本分类方法研究第22-25页
        2.5.1 贝叶斯分类方法第22页
        2.5.2 支持向量机的分类方法第22-24页
        2.5.3 随机森林的分类方法第24-25页
    2.6 本章小结第25-26页
第三章 对传统网页分类方法的改进第26-40页
    3.1 传统网页分类方法的缺陷第26页
    3.2 引入LDA改进VSM模型在分类中的缺陷第26-30页
        3.2.1 分类中常用文本模型的缺点第26-27页
        3.2.2 对文本主题模型的研究第27-28页
        3.2.3 结合VSM模型和LDA模型的分类方法第28-29页
        3.2.4 实验与分析第29-30页
    3.3 使用网页的结构信息改进TF-IDF算法第30-34页
        3.3.1 对网页的结构信息的研究和分析第30-31页
        3.3.2 基于特征项在文本中位置的权值调整方法第31-32页
        3.3.3 基于特征项所属网页标签类别的权值调整方法第32-33页
        3.3.4 实验与分析第33-34页
    3.4 基于网页关系信息对随机森林分类方法的改进第34-39页
        3.4.1 对网页关系信息的分析第34-35页
        3.4.2 可用于源网页分类的关系网页的选择方法第35-36页
        3.4.3 基于网页关系信息改进的随机森林算法第36-38页
        3.4.4 实验与分析第38-39页
    3.5 本章小结第39-40页
第四章 基于Spark的分类系统的设计与实现第40-56页
    4.1 系统整体概述第40页
    4.2 Spark的安装和部署第40-43页
        4.2.1 Spark的研究第40-42页
        4.2.2 Spark的部署第42-43页
    4.3 爬虫的设计和实现第43-48页
        4.3.1 爬虫需求分析第43-44页
        4.3.2 爬虫的流程设计第44-45页
        4.3.3 爬虫的数据库设计第45-46页
        4.3.4 爬虫的实现第46-48页
    4.4 网页预处理模块设计和实现第48-51页
        4.4.1 网页预处理需求分析第48页
        4.4.2 网页预处理模块的流程设计第48-49页
        4.4.3 网页预处理的实现第49-51页
    4.5 网页分类模块的设计和实现第51-55页
        4.5.1 网页分类的设计第51-52页
        4.5.2 网页分类的实现第52-55页
    4.6 本章小结第55-56页
第五章 结束语第56-58页
    5.1 论文工作总结第56-57页
    5.2 问题和展望第57-58页
参考文献第58-60页
致谢第60-61页
攻读学位期间发表的学术论文目录第61页

论文共61页,点击 下载论文
上一篇:面向多级代理商的iBeacon管理服务平台设计与实现
下一篇:云计算下基于资源感知的工作流系统设计与实现