首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于随机森林的新闻网页分类系统应用研究

摘要第1-6页
Abstract第6-11页
1 引言第11-18页
   ·背景第11-12页
   ·国内外研究及应用现状第12-16页
   ·本论文主要研究内容与创新点第16-17页
   ·小结第17-18页
2 训练集的构建第18-27页
   ·网络爬虫设计第18-23页
     ·网络爬虫模型第19-20页
     ·通用爬虫的优缺点第20-21页
     ·通用爬虫的设计第21-22页
     ·爬行策略的选择第22-23页
   ·训练集的标记第23-26页
     ·人工标记第24-25页
     ·半自动化标记第25-26页
   ·小结第26-27页
3 特征选择技术第27-40页
   ·N-GRAM模型第27-30页
   ·网页向量化第30-35页
     ·网页文本特征第30-31页
     ·TF-IDF权重计算第31-33页
     ·URL特征第33-35页
   ·特征选择算法第35-38页
     ·信息增益第36-38页
     ·信息增益比第38页
   ·小结第38-40页
4 分类模型设计第40-57页
   ·评价指标第41页
   ·K-近邻算法(KNN)第41-43页
   ·贝叶斯分类第43-44页
   ·支持向量机第44-47页
   ·随机森林第47-54页
     ·决策树概述第47-49页
     ·CART算法第49页
     ·随机森林概述第49-52页
     ·随机森林算法第52-53页
     ·随机森林改进第53-54页
   ·模型评估第54-56页
   ·小结第56-57页
5 基于随机森林的新闻分类原型系统第57-67页
   ·系统平台与开发环境第57页
   ·系统架构第57-59页
   ·系统具体设计第59-66页
     ·网络爬虫模块第59-60页
     ·网页标记与向量化第60-61页
     ·特征选择第61页
     ·网页分类第61页
     ·URL聚合第61-63页
     ·原型系统的运行效果第63-66页
   ·小结第66-67页
6 总结与展望第67-70页
   ·总结第67-68页
   ·未来展望第68-70页
参考文献第70-74页
附录第74-82页
后记第82-83页
致谢第83-84页
在读期间科研成果目录第84页

论文共84页,点击 下载论文
上一篇:双渠道零售商的库存优化与决策
下一篇:基于移动互联网的农业电子商务系统建设--以汇农通项目为例