基于随机森林的新闻网页分类系统应用研究

摘要	第1-6页
Abstract	第6-11页
1 引言	第11-18页
·背景	第11-12页
·国内外研究及应用现状	第12-16页
·本论文主要研究内容与创新点	第16-17页
·小结	第17-18页
2 训练集的构建	第18-27页
·网络爬虫设计	第18-23页
·网络爬虫模型	第19-20页
·通用爬虫的优缺点	第20-21页
·通用爬虫的设计	第21-22页
·爬行策略的选择	第22-23页
·训练集的标记	第23-26页
·人工标记	第24-25页
·半自动化标记	第25-26页
·小结	第26-27页
3 特征选择技术	第27-40页
·N-GRAM模型	第27-30页
·网页向量化	第30-35页
·网页文本特征	第30-31页
·TF-IDF权重计算	第31-33页
·URL特征	第33-35页
·特征选择算法	第35-38页
·信息增益	第36-38页
·信息增益比	第38页
·小结	第38-40页
4 分类模型设计	第40-57页
·评价指标	第41页
·K-近邻算法(KNN)	第41-43页
·贝叶斯分类	第43-44页
·支持向量机	第44-47页
·随机森林	第47-54页
·决策树概述	第47-49页
·CART算法	第49页
·随机森林概述	第49-52页
·随机森林算法	第52-53页
·随机森林改进	第53-54页
·模型评估	第54-56页
·小结	第56-57页
5 基于随机森林的新闻分类原型系统	第57-67页
·系统平台与开发环境	第57页
·系统架构	第57-59页
·系统具体设计	第59-66页
·网络爬虫模块	第59-60页
·网页标记与向量化	第60-61页
·特征选择	第61页
·网页分类	第61页
·URL聚合	第61-63页
·原型系统的运行效果	第63-66页
·小结	第66-67页
6 总结与展望	第67-70页
·总结	第67-68页
·未来展望	第68-70页
参考文献	第70-74页
附录	第74-82页
后记	第82-83页
致谢	第83-84页
在读期间科研成果目录	第84页