大规模异构环境下的文本分类算法研究及应用

摘要	第1-5页
Abstract	第5-8页
第1章绪论	第8-11页
·论文的研究背景	第8页
·选题意义	第8-9页
·主要研究内容	第9页
·国内外研究现状	第9-11页
第2章相关工作	第11-25页
·分类问题的概述	第11-15页
·分类的一般方法步骤	第11-12页
·对数据构建表示模型	第12-13页
·常用文档模型	第13-14页
·关于中文文本分词	第14-15页
·有代表性的文本分类方法	第15-18页
·支持向量机方法	第15-17页
·kNN 方法	第17页
·朴素贝叶斯方法	第17-18页
·关于信息检索技术	第18-21页
·信息检索技术概述	第18-20页
·文本分类与信息检索技术	第20-21页
·大规模数据处理技术	第21-24页
·应用领域	第21-22页
·一些流行的技术与架构	第22-24页
·本章小结	第24-25页
第3章海量异构信息的获取与处理	第25-44页
·数据的处理方法	第25-27页
·异构数据的整合	第25页
·使用 XML 手段的整合	第25-27页
·HTML 爬虫的设计	第27-33页
·HTML 爬虫的设计原则	第27-28页
·HTML 爬虫实现难点分析	第28-30页
·Redis 的功能特性	第30-31页
·一种分布式 HTML 爬虫的设计	第31-33页
·HTML 网页处理	第33-41页
·网页中的信息抽取	第33-36页
·网页的 DOM 规范	第36页
·基于 DOM 方法的网页正文提取	第36-41页
·数字图书馆内容处理	第41-43页
·数据的抓取	第41-42页
·文档属性抽取	第42-43页
·文本的统一化处理	第43页
·本章小结	第43-44页
第4章一种基于单字计算的文本分类算法	第44-58页
·方法的理论分析	第44-46页
·算法的过程描述	第46-47页
·特征向量的生成	第47-48页
·文档相似度计算方法	第48页
·实验结果测定分析	第48-56页
·单字文本分类算法的特点	第56-57页
·本章小结	第57-58页
第5章系统整体设计	第58-64页
·数据处理流程及架构	第58-60页
·检索的实现	第60-63页
·存在的问题及发展方向	第63页
·本章小结	第63-64页
结论	第64-67页
参考文献	第67-71页
致谢	第71页