基于Hadoop和支持向量机的紧密度后处理的研究与实现

致谢	第5-6页
摘要	第6-7页
ABSTRACT	第7页
序言	第8-9页
目录	第9-11页
1 引言	第11-15页
1.1 选题背景	第11-12页
1.2 研究现状	第12-13页
1.3 主要研究内容	第13页
1.4 论文组织结构	第13-14页
1.5 本章小结	第14-15页
2 相关技术	第15-24页
2.1 中文分词	第15-17页
2.1.1 中文分词方法介绍	第15页
2.1.2 中文分词新词发现	第15-16页
2.1.3 中文分词对于搜索引擎的意义	第16-17页
2.2 Hadoop	第17-19页
2.2.1 HDFS	第17-18页
2.2.2 MapReduce	第18页
2.2.3 Hadoop集群介绍	第18-19页
2.3 信息熵	第19-20页
2.4 支持向量机介绍	第20-23页
2.4.1 线性可分的情况	第20-22页
2.4.2 线性不可分的情况	第22-23页
2.5 本章小结	第23-24页
3 紧密度算法分析与设计	第24-31页
3.1 紧密度背景	第24-27页
3.2 紧密度离线统计算法设计	第27-28页
3.3 紧密度在线计算算法设计	第28-30页
3.4 本章小结	第30-31页
4 紧密度后处理的流程设计与实现	第31-51页
4.1 开发环境	第32页
4.2 现有紧密度策略存在的问题分析	第32页
4.3 基于会话日志的策略的设计	第32-39页
4.3.1 策略简述	第32-33页
4.3.2 数据统计过程与算法	第33-35页
4.3.3 策略实现	第35-36页
4.3.4 策略线下测试结果分析	第36-39页
4.4 基于网页正文的紧密度后处理策略的实现	第39-50页
4.4.1 策略简述	第39-40页
4.4.2 数据预处理	第40页
4.4.3 点互信息提取	第40-41页
4.4.4 Accessor Variety提取	第41-43页
4.4.5 左右熵提取	第43页
4.4.6 策略的建立	第43-48页
4.4.7 模型分类结果分析	第48-50页
4.5 本章小结	第50-51页
5 在线策略实现与结果分析	第51-59页
5.1 在线策略的实现	第51-54页
5.1.1 基于会话日志的策略	第51-52页
5.1.2 基于网页正文的策略	第52-54页
5.2 策略的应用效果	第54-58页
5.2.1 基于会话日志的策略应用效果	第54-55页
5.2.2 基于网页正文的策略应用效果	第55-56页
5.2.3 策略上线评比结果分析	第56-58页
5.3 本章小结	第58-59页
6 结论	第59-61页
参考文献	第61-63页
作者简历及攻读硕士/博士学位期间取得的研究成果	第63-65页
学位论文数据集	第65页