基于最大熵酒店评论分类系统的设计与实现

摘要	第4-5页
ABSTRACT	第5页
第一章引言	第8-11页
1.1 课题背景	第8-9页
1.2 课题任务	第9-10页
1.2.1 课题内容	第9页
1.2.2 本人承担任务	第9-10页
1.3 论文结构	第10-11页
第二章文本分类相关技术背景介绍	第11-22页
2.1 搜索引擎技术介绍	第11-13页
2.2 文本分类相关概念及技术介绍	第13-15页
2.2.1 短文本及酒店评论介绍	第13页
2.2.2 文本分类相关流程介绍	第13-14页
2.2.3 文本分类相关技术介绍	第14-15页
2.3 网络爬虫技术介绍	第15-19页
2.3.1 垂直网络爬虫介绍	第16-17页
2.3.2 分布式网络爬虫介绍	第17-19页
2.3.3 深度网络爬虫	第19页
2.4 最大熵的数学模型介绍	第19-21页
2.4.1 熵(Entropy)	第19页
2.4.2 最大熵的数学模型	第19-20页
2.4.3 最大熵的应用	第20-21页
2.5 本章小结	第21-22页
第三章系统需求分析	第22-27页
3.1 功能性需求分析	第22-26页
3.1.1 爬虫子系统功能性需求分析	第22-25页
3.1.2 分类子系统功能性需求分析	第25-26页
3.2 本章小结	第26-27页
第四章系统中爬虫模块的设计与实现	第27-38页
4.1 分类系统完整结构及流程介绍	第27-28页
4.2 爬虫模块的设计与实现	第28-37页
4.2.1 代理模块	第28页
4.2.2 抓取模块的设计与实现	第28-36页
4.2.3 解析模块的设计与实现	第36-37页
4.3 本章小结	第37-38页
第五章系统分类模块的设计与实现	第38-53页
5.1 文本分类模块的结构及流程图	第38-39页
5.2 文本的表示及观点识别	第39-40页
5.2.1 文本的表示方法	第39页
5.2.2 文本的倾向性识别	第39-40页
5.3 文本分词处理	第40-44页
5.3.1 中文分词	第40-42页
5.3.2 停用词过滤	第42-43页
5.3.3 结巴分词介绍	第43-44页
5.4 文本特征选择方法	第44-46页
5.4.1 基于DF的特征提取方法	第44页
5.4.2 信息增益方法	第44-45页
5.4.3 卡方(CHI)统计量	第45-46页
5.5 文本特征权重计算	第46-47页
5.6 分类器设计	第47-50页
5.6.1 分类器介绍	第47页
5.6.2 最大熵分类器设计	第47-49页
5.6.3 分类器性能指标	第49-50页
5.7 分类器设计与实现	第50-52页
5.7.1 语料选择	第50页
5.7.2 系统相关模块介绍	第50-51页
5.7.3 测试流程及结果分析	第51-52页
5.8 本章小结	第52-53页
第六章结束语	第53-54页
6.1 论文工作总结	第53页
6.2 问题和展望	第53-54页
参考文献	第54-55页
致谢	第55页