基于数据挖掘的网络用户行为分析

摘要	第4-5页
ABSTRACT	第5页
第一章绪论	第8-12页
1.1 课题研究的背景	第8-9页
1.2 国内外研究现状与课题的提出	第9-10页
1.3 论文的主要工作和组织结构	第10-12页
第二章新浪微博数据的采集	第12-44页
2.1 爬虫需求分析和设计	第12-15页
2.2 爬虫各模块具体设计与实现	第15-33页
2.2.1 微博模拟登录获取Cookie	第15-19页
2.2.2 网页预处理	第19-21页
2.2.3 爬虫遍历策略	第21-23页
2.2.4 URL链接的去重和管理	第23-26页
2.2.5 用户信息和关注信息解析	第26-27页
2.2.6 微博基本信息解析	第27-30页
2.2.7 转发传播路径解析	第30-32页
2.2.8 图像和视频数据的采集和存储	第32-33页
2.3 微博数据的存储	第33-37页
2.4 爬虫测试和性能分析	第37-43页
2.4.1 测试环境	第37-38页
2.4.2 爬虫性能测试	第38-43页
2.5 本章小结	第43-44页
第三章基于LDA模型的僵尸和水军用户聚类	第44-61页
3.1 用户数据词化	第44-46页
3.2 用户文档的表示	第46-54页
3.2.1 向量空间模型	第46-47页
3.2.2 主题模型	第47-51页
3.2.3 LDA主题模型训练	第51-54页
3.3 用户文档的聚类	第54-57页
3.4 实验结果及分析	第57-61页
3.4.1 数据的准备	第57页
3.4.2 聚类结果的评价指标	第57-59页
3.4.3 实验结果	第59-61页
第四章用户关注话题分析	第61-66页
4.1 用户关注话题分析设计	第61页
4.2 中文分词和去停用词	第61-62页
4.3 TF_IDF提取关键词	第62-63页
4.4 实验结果及分析	第63-66页
4.4.1 数据的准备	第63页
4.4.2 实验结果	第63-66页
第五章总结与展望	第66-68页
5.1 本文工作总结	第66页
5.2 今后研究工作展望	第66-68页
参考文献	第68-71页
致谢	第71-72页
攻读学位期间发表的学术论文目录	第72页