基于K-means的网页信息检索的聚类研究及实现
目录 | 第2-3页 |
摘要 | 第3-4页 |
ABSTRACT | 第4页 |
第1章 引言 | 第5-16页 |
1.1. 研究背景及意义 | 第5-6页 |
1.2. 研究现状 | 第6-14页 |
1.2.1. 数据挖掘概述 | 第7-9页 |
1.2.2. 数据挖掘的起源和挑战 | 第9-11页 |
1.2.3. Web数据挖掘研究现状和趋势 | 第11-14页 |
1.2.4. Web数据挖掘流程 | 第14页 |
1.3. 论文研究内容 | 第14-15页 |
1.4. 论文结构安排 | 第15-16页 |
第2章 网页信息检索的聚类模型分析 | 第16-23页 |
2.1. 基本概念 | 第16-18页 |
2.1.1. 聚类数据的预处理 | 第16-17页 |
2.1.2. 聚类分析的有关统计量 | 第17-18页 |
2.2. K-means及其它聚类算法 | 第18-19页 |
2.2.1. K-means算法 | 第18-19页 |
2.2.2. 其它的聚类算法 | 第19页 |
2.3. 网页信息检索模型 | 第19-20页 |
2.4. 网页的提取及预处理 | 第20-23页 |
2.4.1. 网页获取与解析 | 第21页 |
2.4.2. 停用词移除与词干提取 | 第21-22页 |
2.4.3. 特征向量转化 | 第22-23页 |
第3章 系统架构设计 | 第23-34页 |
3.1. 系统设计背景 | 第23页 |
3.2. 系统总体框架设计 | 第23-26页 |
3.3. 系统技术体系结构设计 | 第26-30页 |
3.3.1. 分布式体系结构设计 | 第26-27页 |
3.3.2. 分层次体系结构设计 | 第27-30页 |
3.4. 系统数据流控制设计 | 第30-34页 |
第4章 网页信息检索系统的聚类实现 | 第34-49页 |
4.1. Web数据挖掘框架设计 | 第34-36页 |
4.2. 系统子模块实现 | 第36-49页 |
4.2.1. 网页检索模块 | 第36-38页 |
4.2.2. 预处理模块 | 第38-43页 |
4.2.3. 聚类处理模块 | 第43-45页 |
4.2.4. 用户界面及结果呈现 | 第45-49页 |
第5章 总结与展望 | 第49-50页 |
参考文献 | 第50-52页 |
致谢 | 第52-53页 |