基于支持向量机的海量文本分类并行化技术研究

摘要	第5-6页
ABSTRACT	第6页
第1章绪论	第10-15页
1.1 研究背景与意义	第10页
1.2 国内外研究发展现状	第10-14页
1.2.1 文本分类	第10-12页
1.2.2 文本分类并行化	第12-13页
1.2.3 情感分类	第13-14页
1.3 研究的主要内容	第14页
1.4 本文的内容组织	第14-15页
第2章中文文本分类研究	第15-29页
2.1 中文文本分类框架	第15-16页
2.2 中文文本处理流程	第16-22页
2.2.1 中文分词	第16-17页
2.2.2 去停用词	第17-18页
2.2.3 文本向量表示	第18页
2.2.4 特征选择	第18-21页
2.2.5 权重计算	第21-22页
2.3 文本分类算法	第22-26页
2.3.1 K最近邻分类算法	第22-23页
2.3.2 朴素贝叶斯分类算法	第23-25页
2.3.3 支持向量机分类算法	第25-26页
2.4 优化算法	第26-29页
2.4.1 人工智能优化算法	第26-27页
2.4.2 粒子群优化算法	第27-29页
第3章并行化技术研究	第29-33页
3.1 GPU并行计算框架	第29页
3.2 Hadoop分布式计算系统	第29-31页
3.2.1 HDFS分布式文件系统	第30页
3.2.2 Map/Reduce计算模型	第30页
3.2.3 Hive数据仓库	第30-31页
3.3 Spark分布式计算系统	第31-33页
3.3.1 弹性分布式数据集	第31页
3.3.2 Spark工作原理	第31-33页
第4章改进的文本分类及并行化方法	第33-46页
4.1 文本特征空间迭代算法	第33-37页
4.1.1 特征空间优化	第33-34页
4.1.2 扩充词典	第34页
4.1.3 过滤混淆词	第34-35页
4.1.4 迭代优化	第35-37页
4.2 粒子群优化的径向基核SVM	第37-38页
4.3 文本预处理的并行实现	第38-40页
4.4 SVM的GPU并行实现	第40-43页
4.4.1 数据加载	第40-41页
4.4.2 GPU并行化的线性核支持向量机	第41-42页
4.4.3 GPU并行化的径向基核支持向量机	第42-43页
4.5 Hadoop并行化的SVM	第43-44页
4.6 Spark并行化的SVM	第44-46页
第5章数据与实验设计	第46-52页
5.1 实验设计	第46页
5.2 数据采集	第46-49页
5.2.1 新闻数据	第46-48页
5.2.2 微博数据	第48-49页
5.3 页面净化	第49-50页
5.4 数据存取	第50页
5.5 评价指标	第50-52页
5.5.1 并行化加速比	第50-51页
5.5.2 准确率和召回率	第51页
5.5.3 F1分数	第51-52页
第6章实验部署与结果分析	第52-64页
6.1 系统环境部署	第52页
6.2 新闻文本分类	第52-60页
6.2.1 新闻文本特征	第52-53页
6.2.2 新闻文本预处理	第53-54页
6.2.3 并行实验部署	第54页
6.2.4 分类精度效果	第54-58页
6.2.5 运行性能对比	第58-60页
6.3 微博情感分类	第60-64页
6.3.1 微博文本特征	第60页
6.3.2 微博文本预处理	第60-61页
6.3.3 并行实验部署	第61页
6.3.4 分类精度效果	第61-62页
6.3.5 运行性能对比	第62-64页
结论	第64-66页
参考文献	第66-69页
攻读学位期间发表论文与研究成果清单	第69-70页
致谢	第70页