基于Hadoop的中文并行LDA算法及在电子病历挖掘中的应用

摘要	第3-5页
ABSTRACT	第5-6页
1 绪论	第11-17页
1.1 选题背景与意义	第11-13页
1.2 相关研究现状	第13-15页
1.2.1 LDA算法研究现状	第13-14页
1.2.2 医疗行业数据挖掘现状	第14-15页
1.3 本文的研究工作	第15-16页
1.4 本文结构	第16-17页
2 主题模型技术综述	第17-28页
2.1 LDA模型简介	第17-18页
2.2 模型前提	第18-19页
2.2.1 贝叶斯法则	第18-19页
2.2.2 狄利克雷分布	第19页
2.3 建模	第19-22页
2.4 塌缩吉布斯采样算法	第22-26页
2.5 LDA缺点与改进	第26-27页
2.6 本章小结	第27-28页
3 基于Hadoop的中文LDA算法设计	第28-41页
3.1 中文文本向量化并行算法	第28-31页
3.1.1 去除符号、停用词	第28页
3.1.2 中文分词工具	第28-30页
3.1.3 中文分词并行算法	第30-31页
3.2 基于Hadoop的并行LDA算法设计	第31-35页
3.2.1 分布式处理系统	第31-32页
3.2.2 数据分块	第32-33页
3.2.3 过滤低频词	第33-34页
3.2.4 算法处理过程	第34-35页
3.3 算法实现	第35-39页
3.4 本章小结	第39-41页
4 实验分析	第41-49页
4.1 实验环境及测试数据	第41页
4.2 分析指标	第41-42页
4.3 过程及结果分析	第42-47页
4.4 实验结论与存在的问题	第47页
4.5 本章小结	第47-49页
5 并行LDA算法在新生儿疾病挖掘中的应用	第49-62页
5.1 新生儿疾病及诊断特征	第49页
5.2 影响因素分析	第49-50页
5.3 实验设计	第50-55页
5.3.1 数据来源及预处理	第50-51页
5.3.2 参数设置	第51-53页
5.3.3 算法运行结果	第53-55页
5.4 挖掘结果与分析	第55-60页
5.4.1 分类准确率	第55-56页
5.4.2 主题的内容倾向	第56-57页
5.4.3 单因素方差分析	第57-60页
5.5 本章小结	第60-62页
6 总结与展望	第62-64页
6.1 总结	第62-63页
6.2 展望	第63-64页
参考文献	第64-68页
致谢	第68-69页
攻读学位期间参加的研究工作和获得的学术成果	第69页