中文摘要 | 第4-5页 |
英文摘要 | 第5页 |
1 绪论 | 第9-12页 |
1.1 论文的研究背景及选题意义 | 第9-10页 |
1.2 国内外的现状综述 | 第10页 |
1.3 论文的研究内容 | 第10-12页 |
2 面向INTERNET的数据挖掘 | 第12-16页 |
2.1 WEB内容挖掘 | 第12-13页 |
2.2 WEB结构挖掘 | 第13-14页 |
2.3 WEB使用记录挖掘 | 第14页 |
2.4 XML在数据挖掘中的应用 | 第14-16页 |
3 WEB日志挖掘的分析和研究 | 第16-26页 |
3.1 WEB术语 | 第16页 |
3.2 WEB挖掘的原始数据源 | 第16-17页 |
3.2.1 内容数据 | 第16页 |
3.2.2 结构数据 | 第16-17页 |
3.2.3 网站访问数据 | 第17页 |
3.2.4 用户注册数据 | 第17页 |
3.2.5 WEB使用记录挖掘数据源分析 | 第17页 |
3.3 常用的挖掘算法 | 第17-23页 |
3.3.1 统计分析 | 第18页 |
3.3.2 关联规则 | 第18-19页 |
3.3.3 序列模式 | 第19-20页 |
3.3.4 聚类 | 第20-21页 |
3.3.5 分类 | 第21-23页 |
3.4 WEB挖掘的基本框架 | 第23-24页 |
3.5 网站日志预处理 | 第24-26页 |
4 APRIORI算法分析与研究 | 第26-36页 |
4.1 基本概念与定义 | 第26-29页 |
4.2 算法描述 | 第29页 |
4.3 频繁项集挖掘算法伪代码 | 第29-30页 |
4.4 规则挖掘算法伪代码 | 第30-31页 |
4.5 算法改进 | 第31-33页 |
4.5.1 基于散列技术 | 第32页 |
4.5.2 事务压缩 | 第32页 |
4.5.3 划分技术 | 第32页 |
4.5.4 选样技术 | 第32-33页 |
4.5.5 动态项集计数 | 第33页 |
4.5.6 频繁模式增长方法 | 第33页 |
4.6 apriori算法应用于网站日志挖掘 | 第33-36页 |
4.6.1 网站日志数据的清理 | 第33-35页 |
4.6.2 挖掘的针对性 | 第35页 |
4.6.3 apriori算法优化的选择 | 第35-36页 |
5 WEB日志挖掘在重庆电视台互联网站日志数据中的应用 | 第36-41页 |
5.1 重庆电视台网站简介 | 第36页 |
5.2 数据源 | 第36-37页 |
5.2.1 网站拓扑结构数据 | 第36页 |
5.2.2 日志数据 | 第36-37页 |
5.2.3 网站资源文件 | 第37页 |
5.3 日志预处理 | 第37-38页 |
5.3.1 数据清理 | 第37-38页 |
5.3.2 事务识别 | 第38页 |
5.3.3 数据转换 | 第38页 |
5.4 模式发现 | 第38-39页 |
5.5 模式评价 | 第39-41页 |
6 论文总结 | 第41-42页 |
6.1 论文的主要工作 | 第41页 |
6.2 进一步努力的方向 | 第41-42页 |
致谢 | 第42-43页 |
参考文献 | 第43-45页 |