基于数据挖掘的实时短文本处理技术的研究

摘要	第2-3页
ABSTRACT	第3页
注释表	第7-8页
缩略词	第8-9页
第一章绪论	第9-15页
1.1 研究背景及意义	第9-10页
1.2 研究内容	第10-12页
1.3 应用领域	第12-13页
1.4 主要创新点	第13-14页
1.5 论文组织结构	第14-15页
第二章国内外研究进展	第15-33页
2.1 数据挖掘经典算法	第15-21页
2.1.1 朴素贝叶斯	第15-17页
2.1.2 KNN	第17-18页
2.1.3 支持向量机	第18-21页
2.2 实时流处理框架	第21-25页
2.2.1 实时流处理框架介绍	第21-22页
2.2.2 storm集群分析	第22-25页
2.3 短文本处理	第25-32页
2.3.1 短文本表示	第25-28页
2.3.2 特征向量提取	第28-30页
2.3.3 短文本相似度计算	第30-32页
2.4 本章小结	第32-33页
第三章实时数据挖掘系统的研究	第33-43页
3.1 基于投票的提升算法	第33-37页
3.1.1 现存挖掘算法的问题	第33页
3.1.2 提升方法的优势	第33-35页
3.1.3 基于投票的提升方法	第35-37页
3.2 storm负载均衡优化	第37-40页
3.2.1 storm调度机制	第37-38页
3.2.2 现存问题	第38-39页
3.2.3 基于current_load的storm调度算法	第39-40页
3.3 storm实时系统的设计	第40-42页
3.4 本章小结	第42-43页
第四章短文本处理技术的研究	第43-51页
4.1 文本预处理	第43-46页
4.1.1 文本分词	第43-44页
4.1.2 去停用词	第44-46页
4.2 基于Hash转换的同义词林的设计	第46-48页
4.2.1 同义词林设计方案	第46-47页
4.2.2 现存问题	第47页
4.2.3 基于Hash转换的同义词林	第47-48页
4.3 基于CNN的语义向量表示	第48-50页
4.4 本章小结	第50-51页
第五章实时文本挖掘系统的设计与实现	第51-60页
5.1 实时挖掘系统设计	第51-54页
5.1.1 信息抓取模块	第51-52页
5.1.2 短文本预处理模块	第52-53页
5.1.3 实时处理模块	第53-54页
5.2 对比实验	第54-59页
5.2.1 slots分配情况测试	第54-55页
5.2.2 storm负载均衡测试	第55-56页
5.2.3 实时性测试	第56-57页
5.2.4 同义词匹配测试	第57页
5.2.5 基于投票的提升算法的测试	第57-59页
5.3 本章小结	第59-60页
第六章结论与展望	第60-62页
6.1 总结	第60-61页
6.2 下一步计划	第61-62页
参考文献	第62-66页
致谢	第66-67页
在学期间发表的学术论文及取得的研究成果	第67页