基于hadoop的微博文本分类及商业词抽取

摘要	第1-6页
ABSTRACT	第6-10页
第一章绪论	第10-15页
·课题研究背景及意义	第10-11页
·课题研究现状	第11-13页
·微博文本研究	第11-12页
·文本商业信息抽取	第12-13页
·本文的主要工作	第13-14页
·本文的组织结构	第14-15页
第二章相关理论及技术	第15-28页
·文本的表示	第15-17页
·向量空间模型	第15-16页
·TF-IDF 加权	第16-17页
·文本分类方法分析	第17-20页
·朴素贝叶斯算法	第17-18页
·KNN 算法	第18-19页
·决策树	第19页
·支持向量机	第19-20页
·开源云计算平台	第20-27页
·云计算发展	第20-22页
·HADOOP 的应用现状和发展趋势	第22-23页
·HADOOP 文件系统(HDFS)	第23-25页
·HADOOP 中 MAPREDUCE 的实现	第25-27页
·本章小结	第27-28页
第三章基于特征词类别分散度的微博分类研究	第28-35页
·微博文本预处理	第28-31页
·微博文本特性	第28-29页
·微博中文分词	第29-30页
·微博停用词的处理	第30-31页
·微博特征项选择	第31页
·微博特征向量维度扩展	第31-32页
·微博特征词类别分散度计算及分类	第32-33页
·本章小结	第33-35页
第四章基于商业搜索权重的微博商业词抽取	第35-42页
·微博商业关键词	第35-36页
·微博特征词商业价值影响因素分析	第36-37页
·词语互联网商业搜索权重计算	第37-39页
·基于微博文本的 TF-IDF 改进	第39-40页
·词语商业权重调整	第40-41页
·本章小结	第41-42页
第五章实验与分析	第42-54页
·实验环境选择及搭建	第42-43页
·微博数据收集	第43-44页
·基于类别分散及维度扩展的微博分类实验	第44-48页
·实验评价指标	第44-45页
·实验处理步骤	第45-47页
·实验结果及分析	第47-48页
·基于改进 TF-IDF 及搜索权重的商业词抽取实验	第48-53页
·实验数据及评价指标	第48-49页
·实验处理步骤	第49-51页
·实验结果及分析	第51-53页
·本章小结	第53-54页
第六章总结与展望	第54-57页
·本文完成的主要研究工作	第54-55页
·不足之处及工作展望	第55-57页
致谢	第57-58页
参考文献	第58-63页
附录：作者在读期间发表的学术论文及参加的科研项目	第63页