医疗贴吧中广告的提取系统

摘要	第4-6页
ABSTRACT	第6-7页
1 绪论	第10-14页
1.1 本文研究意义	第10-11页
1.2 文本分类的背景及现状	第11-12页
1.3 本文主要研究内容	第12-13页
1.4 论文组织结构	第13-14页
2 系统模型的相关理论知识及技术	第14-18页
2.1 机器学习	第14页
2.2 PYTHON	第14-15页
2.3 网络爬虫	第15-17页
2.4 本章小结	第17-18页
3 文本分类模型	第18-36页
3.1 文本分类简介	第18-19页
3.2 实验数据的抓取与文本特征分析	第19-24页
3.2.1 实验数据的抓取	第19-23页
3.2.2 文本特征分析	第23-24页
3.3 文本预处理	第24-27页
3.3.1 去停用词	第24-25页
3.3.2 文本分词	第25-26页
3.3.3 特征选择	第26-27页
3.4 文本表示	第27-30页
3.4.1 布尔模型	第27页
3.4.2 概率模型	第27-28页
3.4.3 向量空间模型	第28-30页
3.5 分类算法	第30-31页
3.6 经典的统计学习分类方法	第31-34页
3.6.1 朴素贝叶斯算法	第31-32页
3.6.2 决策树分类算法	第32-34页
3.7 性能评价体系	第34页
3.8 本章小结	第34-36页
4 广告提取系统模型的设计与实现	第36-44页
4.1 广告提取系统的模型	第36页
4.2 预处理模块的设计与实现	第36-37页
4.3 文本表示模块的设计与实现	第37-39页
4.4 分类模块的设计与实现	第39-40页
4.5 信息增益与基于LOGISTIC回归的RFE算法相结合	第40-43页
4.6 本章小结	第43-44页
5 总结与展望	第44-46页
5.1.本文工作总结	第44页
5.2 后续工作的展望	第44-46页
参考文献	第46-50页
致谢	第50-51页