基于Hadoop微博分类系统的设计与实现
摘要 | 第2-3页 |
Abstract | 第3页 |
1 绪论 | 第7-11页 |
1.1 课题背景及研究目的和意义 | 第7-8页 |
1.1.1 课题背景 | 第7页 |
1.1.2 选题目的和意义 | 第7-8页 |
1.2 国内外研究现状 | 第8页 |
1.3 本文研究的主要内容 | 第8-9页 |
1.4 文章组织结构 | 第9-11页 |
2 关键技术分析 | 第11-16页 |
2.1 微博文本特点 | 第11-12页 |
2.2 网页的抓取 | 第12-14页 |
2.3 过滤重复微博 | 第14页 |
2.4 过滤广告微博 | 第14-15页 |
2.5 本章小结 | 第15-16页 |
3 系统的需求分析 | 第16-24页 |
3.1 系统的需求分析 | 第16页 |
3.2 可行性分析 | 第16-17页 |
3.2.1 经济方面的可行性 | 第16-17页 |
3.2.2 技术方面的可行性 | 第17页 |
3.2.3 操作方面的可行性 | 第17页 |
3.3 非功能需求分析 | 第17页 |
3.4 系统目标 | 第17-22页 |
3.4.1 微博数据采集处理 | 第18-19页 |
3.4.2 云平台搭建 | 第19-20页 |
3.4.3 微博文本分类 | 第20-22页 |
3.5 系统用例分析 | 第22-23页 |
3.6 本章小结 | 第23-24页 |
4 系统的总体设计 | 第24-41页 |
4.1 系统总体设计 | 第24-27页 |
4.2 微博文本预处理设计 | 第27-29页 |
4.3 微博文本表示设计 | 第29-30页 |
4.4 特征提取设计 | 第30-32页 |
4.5 分类器的设计 | 第32-34页 |
4.6 分类器的评价设计 | 第34页 |
4.7 系统环境搭建设计 | 第34-38页 |
4.7.1 系统环境配置 | 第35-36页 |
4.7.2 Hadoop配置 | 第36-37页 |
4.7.3 SSH配置 | 第37页 |
4.7.4 Hadoop集群启动 | 第37页 |
4.7.5 Hadoop开发插件 | 第37页 |
4.7.6 开发环境搭建 | 第37页 |
4.7.7 环境配置检验 | 第37-38页 |
4.8 数据库设计 | 第38-40页 |
4.9 本章小结 | 第40-41页 |
5 系统实现 | 第41-50页 |
5.1 数据库模块实现 | 第41-42页 |
5.1.1 配置数据库 | 第41页 |
5.1.2 创建数据库表 | 第41-42页 |
5.1.3 访问数据库表 | 第42页 |
5.2 分类平台的实现 | 第42-49页 |
5.2.1 微博的抓取 | 第42-43页 |
5.2.2 预处理过程 | 第43-46页 |
5.2.3 分类实验 | 第46-49页 |
5.3 本章小结 | 第49-50页 |
6 系统测试 | 第50-55页 |
6.1 测试方案 | 第50页 |
6.2 单元模块测试 | 第50-51页 |
6.3 性能测试 | 第51-54页 |
6.3.1 性能测试环境及内容 | 第51-52页 |
6.3.2 性能测试环境以及测试内容 | 第52-53页 |
6.3.3 性能测试结果 | 第53-54页 |
6.3.4 微博分类平台的性能分析 | 第54页 |
6.4 本章小结 | 第54-55页 |
结论 | 第55-56页 |
参考文献 | 第56-58页 |
致谢 | 第58-60页 |