首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

大规模异构环境下的文本分类算法研究及应用

摘要第1-5页
Abstract第5-8页
第1章 绪论第8-11页
   ·论文的研究背景第8页
   ·选题意义第8-9页
   ·主要研究内容第9页
   ·国内外研究现状第9-11页
第2章 相关工作第11-25页
   ·分类问题的概述第11-15页
     ·分类的一般方法步骤第11-12页
     ·对数据构建表示模型第12-13页
     ·常用文档模型第13-14页
     ·关于中文文本分词第14-15页
   ·有代表性的文本分类方法第15-18页
     ·支持向量机方法第15-17页
     ·kNN 方法第17页
     ·朴素贝叶斯方法第17-18页
   ·关于信息检索技术第18-21页
     ·信息检索技术概述第18-20页
     ·文本分类与信息检索技术第20-21页
   ·大规模数据处理技术第21-24页
     ·应用领域第21-22页
     ·一些流行的技术与架构第22-24页
   ·本章小结第24-25页
第3章 海量异构信息的获取与处理第25-44页
   ·数据的处理方法第25-27页
     ·异构数据的整合第25页
     ·使用 XML 手段的整合第25-27页
   ·HTML 爬虫的设计第27-33页
     ·HTML 爬虫的设计原则第27-28页
     ·HTML 爬虫实现难点分析第28-30页
     ·Redis 的功能特性第30-31页
     ·一种分布式 HTML 爬虫的设计第31-33页
   ·HTML 网页处理第33-41页
     ·网页中的信息抽取第33-36页
     ·网页的 DOM 规范第36页
     ·基于 DOM 方法的网页正文提取第36-41页
   ·数字图书馆内容处理第41-43页
     ·数据的抓取第41-42页
     ·文档属性抽取第42-43页
   ·文本的统一化处理第43页
   ·本章小结第43-44页
第4章 一种基于单字计算的文本分类算法第44-58页
   ·方法的理论分析第44-46页
   ·算法的过程描述第46-47页
   ·特征向量的生成第47-48页
   ·文档相似度计算方法第48页
   ·实验结果测定分析第48-56页
   ·单字文本分类算法的特点第56-57页
   ·本章小结第57-58页
第5章 系统整体设计第58-64页
   ·数据处理流程及架构第58-60页
   ·检索的实现第60-63页
   ·存在的问题及发展方向第63页
   ·本章小结第63-64页
结论第64-67页
参考文献第67-71页
致谢第71页

论文共71页,点击 下载论文
上一篇:基于SOA的大学生情报意识与技能培养平台的设计与实现
下一篇:基于RFID技术的旅游景区导游系统的研究及应用