基于Hadoop的Web文本挖掘的关键技术研究

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-14页
·研究背景与意义	第9-10页
·相关技术的国内外现状	第10-12页
·云计算技术的国内外研究现状	第10-11页
·数据挖掘技术的国内外研究现状	第11-12页
·主要研究内容	第12-13页
·论文组织结构	第13页
·小结	第13-14页
第二章 Hadoop 技术架构及 Web 文本挖掘理论基础	第14-30页
·Hadoop	第14-20页
·Hadoop 技术背景	第14-16页
·GFS	第14-15页
·Map/Reduce 编程模式	第15-16页
·HDFS 机制	第16-18页
·Hadoop MapReduce 编程模型	第18-20页
·相关操作	第18-19页
·MapReduce 执行流程	第19-20页
·Web 挖掘	第20-29页
·Web 文本挖掘定义	第20页
·Web 挖掘分类	第20-22页
·Web 内容挖掘	第21-22页
·Web 结构挖掘	第22页
·Web 使用记录挖掘	第22页
·Web 文本挖掘流程	第22-23页
·Web 文本挖掘的常用技术	第23-29页
·文本摘要	第23页
·文本分类	第23-27页
·文本聚类	第27-29页
·小结	第29-30页
第三章 Web 文本预处理研究	第30-38页
·文本提取	第30页
·中文分词	第30-32页
·基于词典的分词算法	第30-31页
·基于统计的分词算法	第31页
·基于理解的分词算法	第31-32页
·Web 文本表示	第32-35页
·权值计算	第33-34页
·向量相似度度量	第34-35页
·Web 文本特征选择	第35-36页
·χ2(CHI)统计	第35页
·信息增益	第35-36页
·互信息	第36页
·改进的特征项表示模型	第36-37页
·小结	第37-38页
第四章基于改进 SVM 的文本分类算法研究	第38-47页
·支持向量机分类方法	第38-43页
·SVM 算法的改进	第43-44页
·SVM 算法的并行实现	第44-45页
·分类器的结果评价	第45-46页
·小结	第46-47页
第五章实验评估及分析	第47-56页
·分布式实验环境的搭建	第47-50页
·硬件描述	第47页
·软件描述	第47页
·Hadoop 平台的搭建	第47-50页
·实验过程及评估	第50-55页
·改进的特征项表示模型的分析及评估	第50-52页
·实验步骤	第51-52页
·实验结果的评估	第52页
·改进 SVM 算法的分析及评估	第52-55页
·小结	第55-56页
第六章总结与展望	第56-57页
·总结	第56页
·展望	第56-57页
参考文献	第57-61页
致谢	第61-62页
攻读学位期间的主要研究成果	第62页