网站日志的数据挖掘

中文摘要	第4-5页
英文摘要	第5页
1 绪论	第9-12页
1．1 论文的研究背景及选题意义	第9-10页
1．2 国内外的现状综述	第10页
1．3 论文的研究内容	第10-12页
2 面向INTERNET的数据挖掘	第12-16页
2．1 WEB内容挖掘	第12-13页
2．2 WEB结构挖掘	第13-14页
2．3 WEB使用记录挖掘	第14页
2．4 XML在数据挖掘中的应用	第14-16页
3 WEB日志挖掘的分析和研究	第16-26页
3．1 WEB术语	第16页
3．2 WEB挖掘的原始数据源	第16-17页
3．2．1 内容数据	第16页
3．2．2 结构数据	第16-17页
3．2．3 网站访问数据	第17页
3．2．4 用户注册数据	第17页
3．2．5 WEB使用记录挖掘数据源分析	第17页
3．3 常用的挖掘算法	第17-23页
3．3．1 统计分析	第18页
3．3．2 关联规则	第18-19页
3．3．3 序列模式	第19-20页
3．3．4 聚类	第20-21页
3．3．5 分类	第21-23页
3．4 WEB挖掘的基本框架	第23-24页
3．5 网站日志预处理	第24-26页
4 APRIORI算法分析与研究	第26-36页
4．1 基本概念与定义	第26-29页
4．2 算法描述	第29页
4．3 频繁项集挖掘算法伪代码	第29-30页
4．4 规则挖掘算法伪代码	第30-31页
4．5 算法改进	第31-33页
4．5．1 基于散列技术	第32页
4．5．2 事务压缩	第32页
4．5．3 划分技术	第32页
4．5．4 选样技术	第32-33页
4．5．5 动态项集计数	第33页
4．5．6 频繁模式增长方法	第33页
4．6 apriori算法应用于网站日志挖掘	第33-36页
4．6．1 网站日志数据的清理	第33-35页
4．6．2 挖掘的针对性	第35页
4．6．3 apriori算法优化的选择	第35-36页
5 WEB日志挖掘在重庆电视台互联网站日志数据中的应用	第36-41页
5．1 重庆电视台网站简介	第36页
5．2 数据源	第36-37页
5．2．1 网站拓扑结构数据	第36页
5．2．2 日志数据	第36-37页
5．2．3 网站资源文件	第37页
5．3 日志预处理	第37-38页
5．3．1 数据清理	第37-38页
5．3．2 事务识别	第38页
5．3．3 数据转换	第38页
5．4 模式发现	第38-39页
5．5 模式评价	第39-41页
6 论文总结	第41-42页
6．1 论文的主要工作	第41页
6．2 进一步努力的方向	第41-42页
致谢	第42-43页
参考文献	第43-45页