基于Web信息的数据挖掘
中文摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第一章 绪论 | 第8-14页 |
1.1 研究背景及意义 | 第8-9页 |
1.1.1 研究背景 | 第8-9页 |
1.1.2 研究意义 | 第9页 |
1.2 Web数据挖掘研究现状 | 第9-12页 |
1.2.1 Web结构挖掘现状 | 第9-10页 |
1.2.2 Web内容挖掘研究现状 | 第10-11页 |
1.2.3 Web日志挖掘现状 | 第11-12页 |
1.3 本文的研究内容 | 第12-13页 |
1.3.1 公交新闻网站内容挖掘 | 第12页 |
1.3.2 电子证券系统用户日志挖掘 | 第12-13页 |
1.4 本文的组织架构 | 第13-14页 |
第二章 本文Web数据挖掘相关技术介绍 | 第14-20页 |
2.1 爬虫技术 | 第14页 |
2.2 模式匹配技术 | 第14-15页 |
2.3 数据持久化技术 | 第15-16页 |
2.4 Web开发技术 | 第16-17页 |
2.5 K-means聚类算法 | 第17-18页 |
2.6 可视化技术 | 第18-19页 |
2.7 其它相关技术 | 第19-20页 |
第三章 公交新闻信息挖掘系统的研究和实现 | 第20-33页 |
3.1 项目背景及意义 | 第20页 |
3.2 公交新闻信息挖掘系统整体设计 | 第20-24页 |
3.3 公交新闻信息挖掘系统实现 | 第24-33页 |
3.3.1 Step1爬虫的实现 | 第24-29页 |
3.3.2 Step2抽取内容的实现 | 第29-31页 |
3.3.3 Step3抽取关键词的实现 | 第31页 |
3.3.4 Step4存储的实现 | 第31-32页 |
3.3.5 Step5可视化的实现 | 第32-33页 |
第四章 用户日志挖掘系统的研究与实现 | 第33-48页 |
4.1 研究背景及要解决的问题 | 第33-34页 |
4.2 电子证券交易系统用户日志分析 | 第34-36页 |
4.3 日志数据的结构化 | 第36-38页 |
4.3.1 日志文件的全局结构化 | 第36-37页 |
4.3.2 用户交易产品的数据结构化 | 第37-38页 |
4.4 用户日志挖掘系统整体设计 | 第38-41页 |
4.5 用户日志挖掘系统算法描述 | 第41-48页 |
4.5.3 金融产品购买量问题算法 | 第41-42页 |
4.5.4 服务器响应延时问题算法 | 第42-45页 |
4.5.5 用户分类问题算法 | 第45-48页 |
第五章 实验结果与评价 | 第48-58页 |
5.1 公交新闻信息挖掘系统实验结果 | 第48-50页 |
5.1.1 新闻网站分类及统计 | 第48-49页 |
5.1.2 实验结果及收益 | 第49-50页 |
5.2 用户日志挖掘系统实验结果 | 第50-58页 |
5.2.1 金融产品购买量问题实验结果 | 第50-51页 |
5.2.2 服务器延时问题实验结果 | 第51-52页 |
5.2.3 用户分类问题实验结果及对比 | 第52-58页 |
第六章 总结与展望 | 第58-60页 |
6.1 工作总结 | 第58页 |
6.2 展望 | 第58-60页 |
参考文献 | 第60-63页 |
发表论文和参加科研情况说明 | 第63-64页 |
致谢 | 第64-65页 |