致谢 | 第5-6页 |
摘要 | 第6-7页 |
ABSTRACT | 第7-8页 |
1 引言 | 第12-15页 |
1.1 研究背景 | 第12页 |
1.2 国内外研究现状 | 第12-13页 |
1.3 问题发现与解决途径 | 第13页 |
1.4 本文的主要工作 | 第13页 |
1.5 论文组织结构 | 第13-15页 |
2 文本分类技术的比较和优选 | 第15-26页 |
2.1 分词技术的比较 | 第15-16页 |
2.2 传统特征值提取方法的概述 | 第16-19页 |
2.2.1 词频 | 第17页 |
2.2.2 互信息 | 第17-18页 |
2.2.3 信息增益 | 第18页 |
2.2.4 卡方检验 | 第18-19页 |
2.3 主题模型的概述 | 第19-22页 |
2.3.1 潜在语义分析LSA | 第19页 |
2.3.2 概率潜在语义分析PLSA | 第19-20页 |
2.3.3 潜在狄利克雷分布LDA | 第20-21页 |
2.3.4 标签潜在狄利克雷分布Labeled-LDA | 第21-22页 |
2.4 分类技术的概述 | 第22-24页 |
2.4.1 朴素贝叶斯方法 | 第22-23页 |
2.4.2 KNN算法 | 第23页 |
2.4.3 支持向量机算法 | 第23-24页 |
2.5 方法比较与性能评估 | 第24-25页 |
2.5.1 特征提取方法优选 | 第24-25页 |
2.5.2 分类算法方法优选 | 第25页 |
2.6 本章小结 | 第25-26页 |
3 需求定义与架构设计 | 第26-33页 |
3.1 需求调研 | 第26-28页 |
3.1.1 角色需求调研 | 第26-27页 |
3.1.2 相关系统调研 | 第27-28页 |
3.2 需求定义 | 第28-30页 |
3.2.1 功能模块需求 | 第28页 |
3.2.2 功能模块概要 | 第28-30页 |
3.3 系统架构设计 | 第30-32页 |
3.3.1 逻辑架构设计 | 第30-31页 |
3.3.2 物理结构设计 | 第31-32页 |
3.4 本章小结 | 第32-33页 |
4 关键模块和算法的解决方案 | 第33-43页 |
4.1 建模模块设计 | 第33-38页 |
4.1.1 模型练和预测 | 第33-34页 |
4.1.2 参数估计算法优选 | 第34-36页 |
4.1.3 建模执行步骤 | 第36-38页 |
4.2 分类模块设计 | 第38-42页 |
4.2.1 一对多SVM多类别分类 | 第38-39页 |
4.2.2 其他SVM多类别分类 | 第39-41页 |
4.2.3 算法比较与优选 | 第41页 |
4.2.4 多类别分类执行步骤 | 第41-42页 |
4.3 本章小结 | 第42-43页 |
5 财经新闻分类系统的实现 | 第43-62页 |
5.1 分布式模块 | 第43-47页 |
5.1.1 Hadoop搭建 | 第44-45页 |
5.1.2 HDFS数据结构 | 第45-46页 |
5.1.3 Redis存储 | 第46-47页 |
5.2 预处理模块 | 第47-51页 |
5.2.1 分词工具 | 第47-49页 |
5.2.2 分词方法 | 第49-50页 |
5.2.3 工作流程 | 第50-51页 |
5.3 文本建模模块 | 第51-55页 |
5.3.1 建模工具 | 第51-53页 |
5.3.2 数据准备 | 第53页 |
5.3.3 主题建模 | 第53-54页 |
5.3.4 预测新数据 | 第54页 |
5.3.5 输出和流程 | 第54-55页 |
5.4 分类器模块 | 第55-61页 |
5.4.1 分类工具 | 第55-56页 |
5.4.2 分类器参数 | 第56-57页 |
5.4.3 数据流向 | 第57-59页 |
5.4.4 分类流程 | 第59-61页 |
5.5 本章小结 | 第61-62页 |
6 实验评估 | 第62-66页 |
6.1 评估指标 | 第62页 |
6.2 测试结果 | 第62-65页 |
6.3 结果分析 | 第65页 |
6.4 本章小结 | 第65-66页 |
7 总结与展望 | 第66-68页 |
7.1 总结 | 第66页 |
7.2 展望 | 第66-68页 |
参考文献 | 第68-70页 |
作者简历 | 第70-72页 |
学位论文数据集 | 第72页 |