首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于hadoop的微博文本分类及商业词抽取

摘要第1-6页
ABSTRACT第6-10页
第一章 绪论第10-15页
   ·课题研究背景及意义第10-11页
   ·课题研究现状第11-13页
     ·微博文本研究第11-12页
     ·文本商业信息抽取第12-13页
   ·本文的主要工作第13-14页
   ·本文的组织结构第14-15页
第二章 相关理论及技术第15-28页
   ·文本的表示第15-17页
     ·向量空间模型第15-16页
     ·TF-IDF 加权第16-17页
   ·文本分类方法分析第17-20页
     ·朴素贝叶斯算法第17-18页
     ·KNN 算法第18-19页
     ·决策树第19页
     ·支持向量机第19-20页
   ·开源云计算平台第20-27页
     ·云计算发展第20-22页
     ·HADOOP 的应用现状和发展趋势第22-23页
     ·HADOOP 文件系统(HDFS)第23-25页
     ·HADOOP 中 MAPREDUCE 的实现第25-27页
   ·本章小结第27-28页
第三章 基于特征词类别分散度的微博分类研究第28-35页
   ·微博文本预处理第28-31页
     ·微博文本特性第28-29页
     ·微博中文分词第29-30页
     ·微博停用词的处理第30-31页
   ·微博特征项选择第31页
   ·微博特征向量维度扩展第31-32页
   ·微博特征词类别分散度计算及分类第32-33页
   ·本章小结第33-35页
第四章 基于商业搜索权重的微博商业词抽取第35-42页
   ·微博商业关键词第35-36页
   ·微博特征词商业价值影响因素分析第36-37页
   ·词语互联网商业搜索权重计算第37-39页
   ·基于微博文本的 TF-IDF 改进第39-40页
   ·词语商业权重调整第40-41页
   ·本章小结第41-42页
第五章 实验与分析第42-54页
   ·实验环境选择及搭建第42-43页
   ·微博数据收集第43-44页
   ·基于类别分散及维度扩展的微博分类实验第44-48页
     ·实验评价指标第44-45页
     ·实验处理步骤第45-47页
     ·实验结果及分析第47-48页
   ·基于改进 TF-IDF 及搜索权重的商业词抽取实验第48-53页
     ·实验数据及评价指标第48-49页
     ·实验处理步骤第49-51页
     ·实验结果及分析第51-53页
   ·本章小结第53-54页
第六章 总结与展望第54-57页
   ·本文完成的主要研究工作第54-55页
   ·不足之处及工作展望第55-57页
致谢第57-58页
参考文献第58-63页
附录:作者在读期间发表的学术论文及参加的科研项目第63页

论文共63页,点击 下载论文
上一篇:基于偏微分方程的三维模型重构
下一篇:诚信领导、领导—成员交换对组织认同的影响研究