基于LDA的潜在语义空间分析及Web文档聚类的研究与实现
| 摘要 | 第1-6页 |
| Abstract | 第6-10页 |
| 第1章 绪论 | 第10-14页 |
| ·研究背景和意义 | 第10-11页 |
| ·本文的研究工作 | 第11-12页 |
| ·研究目的 | 第11页 |
| ·主要研究工作 | 第11-12页 |
| ·本文内容和结构安排 | 第12-14页 |
| 第2章 研究基础 | 第14-22页 |
| ·文档预处理 | 第14页 |
| ·中文分词 | 第14页 |
| ·去除停用词 | 第14页 |
| ·文档特征选择 | 第14-15页 |
| ·文档表示 | 第15-17页 |
| ·向量空间模型 | 第15-16页 |
| ·潜在语义分析模型 | 第16-17页 |
| ·文档聚类 | 第17-20页 |
| ·文档聚类概述 | 第17页 |
| ·文本相似性计算 | 第17-18页 |
| ·常用的文档聚类方法 | 第18-19页 |
| ·游离点检测 | 第19-20页 |
| ·本章小结 | 第20-22页 |
| 第3章 基于LDA的语义空间分析 | 第22-34页 |
| ·LDA模型描述 | 第22-23页 |
| ·LDA模型进一步分析 | 第23-25页 |
| ·Dirichlet分布 | 第23-24页 |
| ·LDA模型中参数的意义 | 第24-25页 |
| ·基于语义的文档特征表示 | 第25-28页 |
| ·语义的表现形式 | 第25-26页 |
| ·语义的特征和权重 | 第26-28页 |
| ·文档的表现形式 | 第28页 |
| ·基于α的语义空间分析 | 第28-32页 |
| ·本章小结 | 第32-34页 |
| 第4章 基于LDA语义区间分析的游离点检测 | 第34-40页 |
| ·游离点分析 | 第34页 |
| ·游离点定位算法 | 第34-36页 |
| ·实验 | 第36-38页 |
| ·本章小结 | 第38-40页 |
| 第5章 基于文档类别与语义的互作用机制的聚类 | 第40-50页 |
| ·基于LDA的文档聚类算法总体结构 | 第40-41页 |
| ·K-means算法 | 第41-42页 |
| ·特征平滑 | 第42-46页 |
| ·聚类结果修正 | 第46-49页 |
| ·本章小结 | 第49-50页 |
| 第6章 实验与结果分析 | 第50-58页 |
| ·数据集及评价标准 | 第50页 |
| ·对γ矩阵不同预处理方法的聚类实验 | 第50-52页 |
| ·基于“类别与语义互作用”机制的聚类结果修正实验 | 第52-53页 |
| ·基于PLSA的聚类结果对比与分析 | 第53-55页 |
| ·更严格的文档集上的实验 | 第55-57页 |
| ·初始K-means聚类结果对比实验 | 第55-56页 |
| ·基于“类别与语义互作用”机制的聚类结果修正实验 | 第56-57页 |
| ·本章小结 | 第57-58页 |
| 第7章 结论 | 第58-60页 |
| ·本文主要工作 | 第58-59页 |
| ·工作中的不足 | 第59-60页 |
| 参考文献 | 第60-62页 |
| 致谢 | 第62-64页 |
| 攻硕期间参与项目及发表的论文 | 第64页 |