基于语义引力及密度分布的Web文本聚类算法的研究与实现
| 摘要 | 第1-7页 |
| Abstract | 第7-13页 |
| 第1章 绪论 | 第13-21页 |
| ·问题提出 | 第13-14页 |
| ·WEB文本挖掘存在的问题及本文研究内容 | 第14-18页 |
| ·WEB文档获取存在的问题 | 第14-15页 |
| ·文档聚类存在的问题 | 第15-16页 |
| ·本文研究内容 | 第16-18页 |
| ·本文结构 | 第18-21页 |
| 第2章 相关理论研究 | 第21-31页 |
| ·中文文本预处理 | 第21-26页 |
| ·分词 | 第21-22页 |
| ·向量空间模型 | 第22-23页 |
| ·特征词选择及维度约减 | 第23-24页 |
| ·基于PLSA的语义向量表示 | 第24-26页 |
| ·相似度计算 | 第26-27页 |
| ·文本聚类 | 第27-29页 |
| ·文本聚类定义 | 第27-28页 |
| ·文本聚类算法 | 第28-29页 |
| ·本章小结 | 第29-31页 |
| 第3章 WEB文档采集与处理技术 | 第31-43页 |
| ·WEB文档抓取及其预处理 | 第31-36页 |
| ·WEB文档的抓取 | 第31-33页 |
| ·WEB文档的预处理 | 第33-35页 |
| ·去除HTML标签 | 第35页 |
| ·主体数据块识别 | 第35-36页 |
| ·WEB文本解析相关技术及实现 | 第36-41页 |
| ·网页内容解析 | 第37-38页 |
| ·网页解析算法及实现 | 第38-41页 |
| ·本章小结 | 第41-43页 |
| 第4章 语义引力相似度计算模型 | 第43-47页 |
| ·问题描述 | 第43-44页 |
| ·语义引力相似度相关定义 | 第44-45页 |
| ·基于语义引力的数据相似度计算方法 | 第45-46页 |
| ·本章小结 | 第46-47页 |
| 第5章 语义引力文本聚类算法 | 第47-55页 |
| ·文本向量引力空间模型 | 第47-48页 |
| ·空间模型的定义 | 第47页 |
| ·空间模型的构建 | 第47-48页 |
| ·语义引力聚类算法总体思想 | 第48-51页 |
| ·文本向量引力密度分布 | 第50-51页 |
| ·聚类过程参数设置及优化 | 第51页 |
| ·文本聚类描述 | 第51-54页 |
| ·本章小结 | 第54-55页 |
| 第6章 实验结果分析 | 第55-67页 |
| ·相似度计算方法的比较 | 第55-56页 |
| ·聚类方法的比较 | 第56-58页 |
| ·高维文本数据集实验分析 | 第58-59页 |
| ·相似度计算方法的比较 | 第58-59页 |
| ·聚类方法的比较 | 第59页 |
| ·WEB文本聚类实验分析 | 第59-62页 |
| ·语义引力相似度在WEB文本聚类的应用分析 | 第59-61页 |
| ·WEB文本聚类实验分析 | 第61-62页 |
| ·影响因素 | 第62-65页 |
| ·实验语料 | 第63页 |
| ·参数选择对聚类结果的影响 | 第63页 |
| ·数据分布特点对聚类结果的影响 | 第63-64页 |
| ·潜在语义对聚类结果的影响 | 第64-65页 |
| ·本章小结 | 第65-67页 |
| 第7章 结论 | 第67-69页 |
| ·本文的主要贡献与结论 | 第67-68页 |
| ·进一步的工作 | 第68-69页 |
| 参考文献 | 第69-73页 |
| 致谢 | 第73-75页 |
| 攻硕期间参与项目及发表的论文 | 第75页 |