基于Hadoop的网络文本分析技术研究与实现

摘要	第5-7页
Abstract	第7-8页
第一章绪论	第11-14页
1.1 研究背景与意义	第11-12页
1.2 本文研究内容	第12页
1.3 本文组织结构	第12-14页
第二章 Hadoop相关技术介绍	第14-23页
2.1 Hadoop环境介绍	第14-15页
2.2 HDFS关键技术	第15-17页
2.3 MapReduce原理	第17-19页
2.4 HBase	第19-23页
第三章基于Hadoop的网络数据获取与解析	第23-36页
3.1 分布式网络爬虫概述	第23页
3.2 基本结构	第23-25页
3.3 下载模块	第25-27页
3.4 抽取链接模块	第27-28页
3.5 去重模块	第28-29页
3.6 抽取正文模块	第29-32页
3.7 实验	第32-36页
第四章基于Hadoop的信息检索	第36-44页
4.1 主要思路	第36页
4.2 基于MapReduce的分词	第36-38页
4.3 Lucene原理	第38页
4.4 Lucene功能扩展	第38-40页
4.5 基于MapReduce的索引	第40-41页
4.6 实验	第41-44页
第五章基于Hadoop的文本聚类	第44-53页
5.1 文本聚类概述	第44-45页
5.2 系统设计	第45-46页
5.3 K-Means算法描述	第46-48页
5.4 文本聚类分析的逻辑设计	第48-49页
5.5 实验	第49-53页
第六章总结和展望	第53-55页
6.1 总结	第53页
6.2 下一步研究工作	第53-55页
参考文献	第55-57页
攻读硕士学位期间参加的科研项目与公开发表的学术论文	第57-58页
致谢	第58页