摘要 | 第1-4页 |
Abstract | 第4-10页 |
第一章 绪论 | 第10-14页 |
1 提出问题 | 第10页 |
2 国内外研究动态 | 第10-11页 |
3 论文主要内容 | 第11页 |
4 现实意义 | 第11-12页 |
5 论文的组织安排 | 第12-14页 |
第二章 从数据挖掘到Web挖掘 | 第14-26页 |
1 什么是数据挖掘 | 第14-15页 |
(1) 三种不同角度的定义 | 第14-15页 |
(2) KDD和数据挖掘 | 第15页 |
2 数据仓库和数据挖掘的OLAP | 第15-20页 |
(1) 数据仓库 | 第15-17页 |
(2) OLAP | 第17页 |
(3) 数据挖掘功能 | 第17-19页 |
(4) 数据挖掘的应用 | 第19-20页 |
3 网络上数据的特点和难点 | 第20-22页 |
(1) 特点 | 第20-21页 |
(2) 难点 | 第21-22页 |
4 Web挖掘定义 | 第22页 |
5 Web挖掘分类 | 第22-24页 |
6 Web挖掘国内外动态 | 第24-25页 |
7 聚类和数据预处理 | 第25-26页 |
第三章 用途数据预处理 | 第26-46页 |
1 用途数据挖掘的意义 | 第26页 |
2 用途数据挖掘 | 第26-28页 |
(1) 术语和相关概念 | 第27-28页 |
(2) 用途数据挖掘过程 | 第28页 |
3 数据预处理工作的意义 | 第28-31页 |
(1) 明确挖掘粒度 | 第30页 |
(2) 降低挖掘空间维数 | 第30页 |
(3) 对挖掘对象进行规范化 | 第30-31页 |
4 服务器日志格式--扩展公共日志格式(ECLF) | 第31页 |
5 预处理过程一般步骤介绍 | 第31-36页 |
(1) 数据净化 | 第31-32页 |
(2) 用户识别/会话识别 | 第32-33页 |
(3) 事务识别 | 第33-36页 |
(4) 路径完善 | 第36页 |
6 页面视图识别 | 第36-41页 |
(1) 问题的提出 | 第36-37页 |
(2) 一个改进了的用途数据预处理模型 | 第37页 |
(3) 网站结构的框架(Frame)表示 | 第37-38页 |
(4) 网页视图识别算法 | 第38-41页 |
7 实验 | 第41-46页 |
(1) 环境设定 | 第41页 |
(2) 可行性分析 | 第41页 |
(3) 实验内容 | 第41-43页 |
(4) 实验结果分析 | 第43-44页 |
(5) 评价 | 第44-46页 |
第四章 点击流的聚类 | 第46-56页 |
1 聚类 | 第46-48页 |
(1) 什么是聚类 | 第46-47页 |
(2) 聚类分析的意义 | 第47页 |
(3) 聚类算法简介 | 第47-48页 |
2 点击流聚类 | 第48-56页 |
(1) 分析 | 第48-49页 |
(2) 最长共同子序列(Longest Common Subsequence, LCS) | 第49-50页 |
(3) LCS相似度 | 第50-51页 |
(4) 相似图的生成 | 第51-53页 |
(5) 图形分割 | 第53-56页 |
第五章 结论 | 第56-60页 |
1 总结 | 第56页 |
2 目前工作中出现的几个问题 | 第56-57页 |
3 下一步工作 | 第57-60页 |
参考文献 | 第60-64页 |
附录A: 实验运行结果 | 第64-68页 |
附录B: 主要函数代码 | 第68-72页 |
致谢 | 第72-74页 |
在学期间发表的论文 | 第74页 |