摘要 | 第4-7页 |
ABSTRACT | 第7-10页 |
第一章 绪论 | 第14-30页 |
1.1 中国互联网发展现状 | 第14-20页 |
1.1.1 手机网民规模 | 第15-16页 |
1.1.2 网民多样化特征 | 第16-18页 |
1.1.3 接入方式 | 第18-19页 |
1.1.4 手机网络应用 | 第19-20页 |
1.2 基于流量监测的数据采集 | 第20-22页 |
1.2.1 网络流量监测技术 | 第21页 |
1.2.2 流量采集设备的部署 | 第21-22页 |
1.3 网络用户行为分析 | 第22-23页 |
1.4 论文研究内容和创新点 | 第23-26页 |
1.5 论文结构 | 第26-30页 |
第二章 海量互联网流量数据分析中的关键技术 | 第30-52页 |
2.1 概述 | 第30-31页 |
2.2 数据预处理 | 第31-33页 |
2.2.1 数据清理 | 第31页 |
2.2.2 数据集成 | 第31-32页 |
2.2.3 数据转换 | 第32-33页 |
2.2.4 数据规约 | 第33页 |
2.3 聚类 | 第33-38页 |
2.3.1 基于代价函数最优的的聚类算法 | 第34-37页 |
2.3.2 层次聚类算法 | 第37-38页 |
2.4 分类 | 第38-43页 |
2.4.1 朴素贝叶斯分类 | 第38-40页 |
2.4.2 隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)算法 | 第40-41页 |
2.4.3 特征选择 | 第41-43页 |
2.5 关联规则和推荐 | 第43-46页 |
2.5.1 关联规则 | 第44-45页 |
2.5.2 协同过滤 | 第45-46页 |
2.6 基于Hadoop的云计算 | 第46-52页 |
2.6.1 计算相关背景 | 第46-47页 |
2.6.2 Hadoop简介 | 第47-48页 |
2.6.3 基于Hadoop的应用 | 第48-49页 |
2.6.4 Hadoop的理论研究方向 | 第49-52页 |
第三章 基于Hadoop云计算的移动互联网网站分类系统 | 第52-76页 |
3.1 研究背景 | 第52-55页 |
3.1.1 研究背景 | 第52-54页 |
3.1.2 网站分类系统的意义 | 第54-55页 |
3.2 网站分类系统架构 | 第55-59页 |
3.2.1 移动互联网网站分类系统架构 | 第55-57页 |
3.2.2 移动互联网网站分类系统流程 | 第57-59页 |
3.3 移动互联网网站分类系统详细设计 | 第59-70页 |
3.3.1 数据导入和爬虫模块 | 第59-63页 |
3.3.2 库识别模块 | 第63-67页 |
3.3.3 机器学习识别模块 | 第67-70页 |
3.4 系统性能测试 | 第70-73页 |
3.4.1 实验室云计算集群简介 | 第70-71页 |
3.4.2 测试数据 | 第71页 |
3.4.3 Mapper与Reducer端识别分类性能比较 | 第71-72页 |
3.4.4 系统性能测试 | 第72-73页 |
3.5 本章小结 | 第73-76页 |
第四章 网站分类系统的分类准确率和网站分析 | 第76-102页 |
4.1 研究背景 | 第76-79页 |
4.1.1 研究背景 | 第76-77页 |
4.1.2 网站分类目录 | 第77-79页 |
4.2 实验数据 | 第79-80页 |
4.3 网站分类系统分类准确率分析 | 第80-90页 |
4.3.1 分类准确率判据 | 第81-82页 |
4.3.2 累计概率阈值的定义 | 第82页 |
4.3.3 概率估计方法的分类准确率 | 第82-84页 |
4.3.4 累积概率阈值的分类准确率 | 第84-86页 |
4.3.5 特征选择方式的分类准确率 | 第86-88页 |
4.3.6 分类模型的分类准确率 | 第88-90页 |
4.4 系统分类结果的网站分析 | 第90-101页 |
4.4.1 网站用户访问次数分析 | 第91页 |
4.4.2 网站访问人数分析 | 第91-92页 |
4.4.3 网站用户全天时段流量分析 | 第92-98页 |
4.4.4 应用商店类网站分析 | 第98-101页 |
4.5 本章小结 | 第101-102页 |
第五章 ADSL宽带用户行为分析 | 第102-128页 |
5.1 研究背景 | 第102-103页 |
5.2 数据源 | 第103-106页 |
5.2.1 数据采集 | 第104页 |
5.2.2 ADSL用户上下线分析数据源 | 第104-105页 |
5.2.3 ADSL用户业务行为分析数据源 | 第105-106页 |
5.3 ADSL用户上下线行为建模 | 第106-113页 |
5.3.1 话音业务与ADSL业务 | 第106-107页 |
5.3.2 ADSL用户离线退出离去数分布 | 第107-109页 |
5.3.3 ADSL用户上下线行为建模 | 第109-111页 |
5.3.4 用户上下线模型随机转移概率模型 | 第111页 |
5.3.5 模型的数据验证及数据分析 | 第111-113页 |
5.4 ADSL用户业务行为聚类分析 | 第113-126页 |
5.4.1 数据预处理 | 第113-114页 |
5.4.2 用户业务聚类算法设计 | 第114-121页 |
5.4.3 ISAKMMR算法参数分析和设计 | 第121-123页 |
5.4.4 ISAKMMR算法聚类结果 | 第123-126页 |
5.5 本章小结 | 第126-128页 |
第六章 基于移动互联网用户网站访问的推荐系统 | 第128-152页 |
6.1 概述 | 第128-129页 |
6.2 推荐系统的算法研究 | 第129-131页 |
6.2.1 研究现状 | 第129-130页 |
6.2.2 项目背景 | 第130-131页 |
6.3 推荐系统和关键算法设计 | 第131-146页 |
6.3.1 数据源 | 第132-134页 |
6.3.2 网站推荐系统架构 | 第134-146页 |
6.4 算法性能和实验分析 | 第146-150页 |
6.4.1 算法性能分析 | 第146-148页 |
6.4.2 MRApriori算法实验结果分析 | 第148-150页 |
6.5 本章小结 | 第150-152页 |
结束语:总结与展望 | 第152-156页 |
参考文献 | 第156-164页 |
附录:缩写词说明 | 第164-166页 |
致谢 | 第166-168页 |
攻读学位期间发表的学术论文目录 | 第168页 |