首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

博客数据特征提取与基于分类的垃圾博客过滤

摘要第1-5页
ABSTRACT第5-10页
第1章 引言第10-16页
   ·研究背景第10-11页
   ·研究现状第11-14页
     ·博客的相关概念第11-12页
     ·垃圾博客的数据特征第12页
     ·垃圾博客过滤研究现状第12-13页
     ·分类算法在垃圾博客中的意义第13-14页
   ·本文的主要工作与内容安排第14-16页
第2章 垃圾博客数据特征提取第16-32页
   ·垃圾博客的定义第16页
   ·垃圾博客的特点第16-18页
     ·链接工厂博客第17-18页
     ·广告博客第18页
   ·博客数据的采集第18-19页
   ·博客内容数据预处理和文本表示第19-21页
     ·数据预处理第19-20页
     ·文本表示第20-21页
   ·垃圾博客的统计特征第21-30页
     ·基于博客内容的统计特征第21-27页
     ·基于博客正文结构的统计特征第27-28页
     ·基于正文词性的特征第28-29页
     ·基于链接的特征第29-30页
   ·本章小结第30-32页
第3章 面向垃圾博客过滤的动态组合分类算法研究第32-44页
   ·组合分类器的引入第32-33页
   ·传统的组合分类器结构第33-34页
     ·级联组合分类器第34页
     ·并联组合分类器第34页
   ·树状组合分类器简介第34-37页
     ·树状组合分类器的结构第35页
     ·树状组合分类器的训练过程第35-36页
     ·树状组合分类器的关键技术第36页
     ·树状组合分类器的特点第36-37页
   ·针对垃圾博客过滤的树状组合分类器设计第37-42页
     ·节点分类器的设计第37-38页
     ·节点分类器训练样本的选择第38-40页
     ·样本分割策略的设计第40-41页
     ·面向垃圾博客过滤的动态调整策略第41-42页
   ·垃圾博客的分类过滤过程第42-43页
   ·本章小结第43-44页
第4章 垃圾博客过滤实验与分析第44-52页
   ·实验数据第44页
   ·评估指标第44-45页
   ·实验结果与分析第45-51页
     ·与常用的SVM、AdaBoost 方法的比较第45-48页
     ·关键参数训练难度阈值θ对分类器性能的影响第48页
     ·关键参数交迭度overlap 对分类器性能的影响第48-49页
     ·样本分割策略对分类器性能的影响第49-51页
   ·本章小结第51-52页
第5章 基于垃圾过滤的分布式博客信息检索原型系统第52-62页
   ·系统基础平台Hadoop 简介第52-53页
   ·博客信息检索系统结构第53-54页
   ·博客信息检索设计第54-59页
     ·垃圾博客过滤子系统第54-55页
     ·并行索引子系统第55-56页
     ·分布式检索子系统第56-59页
   ·系统检索结果第59-60页
   ·本章小结第60-62页
第6章 总结展望第62-64页
   ·本文工作总结第62-63页
   ·进一步研究方向第63-64页
参考文献第64-67页
图目录第67-69页
表目录第69-70页
致谢第70-71页
攻读硕士期间参与科研项目和发表的论文第71页

论文共71页,点击 下载论文
上一篇:云计算中的网络拓扑设计和Hadoop平台研究
下一篇:网格计算市场环境中作业调度和资源分配研究