基于语义引力及密度分布的Web文本聚类算法的研究与实现
摘要 | 第1-7页 |
Abstract | 第7-13页 |
第1章 绪论 | 第13-21页 |
·问题提出 | 第13-14页 |
·WEB文本挖掘存在的问题及本文研究内容 | 第14-18页 |
·WEB文档获取存在的问题 | 第14-15页 |
·文档聚类存在的问题 | 第15-16页 |
·本文研究内容 | 第16-18页 |
·本文结构 | 第18-21页 |
第2章 相关理论研究 | 第21-31页 |
·中文文本预处理 | 第21-26页 |
·分词 | 第21-22页 |
·向量空间模型 | 第22-23页 |
·特征词选择及维度约减 | 第23-24页 |
·基于PLSA的语义向量表示 | 第24-26页 |
·相似度计算 | 第26-27页 |
·文本聚类 | 第27-29页 |
·文本聚类定义 | 第27-28页 |
·文本聚类算法 | 第28-29页 |
·本章小结 | 第29-31页 |
第3章 WEB文档采集与处理技术 | 第31-43页 |
·WEB文档抓取及其预处理 | 第31-36页 |
·WEB文档的抓取 | 第31-33页 |
·WEB文档的预处理 | 第33-35页 |
·去除HTML标签 | 第35页 |
·主体数据块识别 | 第35-36页 |
·WEB文本解析相关技术及实现 | 第36-41页 |
·网页内容解析 | 第37-38页 |
·网页解析算法及实现 | 第38-41页 |
·本章小结 | 第41-43页 |
第4章 语义引力相似度计算模型 | 第43-47页 |
·问题描述 | 第43-44页 |
·语义引力相似度相关定义 | 第44-45页 |
·基于语义引力的数据相似度计算方法 | 第45-46页 |
·本章小结 | 第46-47页 |
第5章 语义引力文本聚类算法 | 第47-55页 |
·文本向量引力空间模型 | 第47-48页 |
·空间模型的定义 | 第47页 |
·空间模型的构建 | 第47-48页 |
·语义引力聚类算法总体思想 | 第48-51页 |
·文本向量引力密度分布 | 第50-51页 |
·聚类过程参数设置及优化 | 第51页 |
·文本聚类描述 | 第51-54页 |
·本章小结 | 第54-55页 |
第6章 实验结果分析 | 第55-67页 |
·相似度计算方法的比较 | 第55-56页 |
·聚类方法的比较 | 第56-58页 |
·高维文本数据集实验分析 | 第58-59页 |
·相似度计算方法的比较 | 第58-59页 |
·聚类方法的比较 | 第59页 |
·WEB文本聚类实验分析 | 第59-62页 |
·语义引力相似度在WEB文本聚类的应用分析 | 第59-61页 |
·WEB文本聚类实验分析 | 第61-62页 |
·影响因素 | 第62-65页 |
·实验语料 | 第63页 |
·参数选择对聚类结果的影响 | 第63页 |
·数据分布特点对聚类结果的影响 | 第63-64页 |
·潜在语义对聚类结果的影响 | 第64-65页 |
·本章小结 | 第65-67页 |
第7章 结论 | 第67-69页 |
·本文的主要贡献与结论 | 第67-68页 |
·进一步的工作 | 第68-69页 |
参考文献 | 第69-73页 |
致谢 | 第73-75页 |
攻硕期间参与项目及发表的论文 | 第75页 |