基于数据流挖掘的网页热门主题获取技术研究

摘要	第1-5页
Abstract	第5-10页
第1章绪论	第10-21页
·课题背景	第10-11页
·课题的目的及意义	第11-12页
·研究目的	第11页
·研究意义	第11-12页
·Web挖掘的定义及相关领域	第12-15页
·Web挖掘的定义	第12-13页
·Web挖掘与信息检索	第13-14页
·Web挖掘与信息提取	第14-15页
·Web挖掘与机器学习	第15页
·网络舆情挖掘的研究现状及面临的问题	第15-19页
·点击流挖掘	第15-17页
·话题检测与跟踪	第17-18页
·热门主题的研究现状	第18-19页
·舆情挖掘的应用	第19页
·本文的研究内容及组织结构	第19-21页
第2章 Web挖掘技术	第21-31页
·Web挖掘的分类——按挖掘对象分类	第21-23页
·Web挖掘的分类——按应用角度分类	第23-30页
·基于生产者的挖掘	第24-26页
·基于消费者的挖掘	第26-27页
·基于增值服务提供者的挖掘	第27-30页
·本章小结	第30-31页
第3章 HTTP协议及用户访问特点研究	第31-44页
·信息在网页中的分布特性	第31-33页
·网页的内容——HTML语法	第31-32页
·网页的URL信息	第32-33页
·HTTP协议	第33-41页
·HTTP服务器与客户端之间的会话	第33-36页
·网页传输特点分析	第36-41页
·用户访问习惯	第41-43页
·网站分类	第41-42页
·网站访问量排行	第42页
·网页标题的长度	第42-43页
·本章小结	第43-44页
第4章频繁项挖掘算法	第44-55页
·数据流模型与统计高频项算法	第44-46页
·数据流基本模型	第44-45页
·输入数据分布的细尾特征	第45页
·计数策略统计高频项	第45-46页
·改进的Lossy Counting算法	第46-52页
·无限数据流频繁项挖掘问题	第46页
·Lossy Counting算法	第46-49页
·改进的Lossy Counting算法	第49-52页
·字符串数据的聚类处理	第52-54页
·字符串的相似度计算公式	第52-53页
·字符串类的表示	第53-54页
·本章小结	第54-55页
第5章系统实现	第55-68页
·系统组成模块	第55-62页
·过滤模块	第56页
·日志记录模块	第56-59页
·预处理模块	第59页
·聚类模块	第59-62页
·提交模块	第62页
·系统测试	第62-66页
·实验环境	第62页
·实验数据	第62页
·实验结果	第62-65页
·实验结果分析	第65-66页
·本章小结	第66-68页
结论	第68-70页
参考文献	第70-74页
攻读学位期间发表的学术论文	第74-75页
哈尔滨工业大学硕士学位论文原创性声明	第75页
哈尔滨工业大学硕士学位论文使用授权书	第75页
哈尔滨工业大学硕士学位涉密论文管理	第75-76页
致谢	第76页