首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于N-grams短语的中文Web文本聚类及其预处理的研究

摘要第1-3页
Abstract第3-7页
第一章 绪论第7-14页
   ·本论文研究背景和意义第7-9页
     ·中国互联网基础资源发展状况第7页
     ·我们所期望的信息服务第7-8页
     ·聚类给予的帮助第8-9页
   ·Web 文本聚类的研究现状第9-12页
     ·聚类方法研究第10-12页
     ·Web 文本预处理、特征词的提取和选择、文本表示的研究第12页
   ·本论文研究的主要内容第12-13页
   ·本论文的组织安排第13-14页
第二章 Web 文本聚类分析相关技术第14-22页
   ·文本聚类概述第14-15页
   ·Web 挖掘概述第15-16页
   ·Web 文本聚类相关技术第16-21页
     ·Web 文档的收集第16页
     ·预处理和中文分词第16页
     ·特征提取和选择第16-17页
     ·文本表示第17-18页
     ·文本相似度计算第18-19页
     ·文本聚类算法第19-20页
     ·聚类质量评测第20-21页
   ·本章小结第21-22页
第三章 网页正文信息的提取第22-33页
   ·网页分析第22-25页
     ·网页类型和内容第22页
     ·常用网页编写语言第22-24页
     ·网页表示第24-25页
   ·网页信息提取方法第25页
   ·基于正文特征的网页正文信息提取方法第25-32页
     ·正文特征第26页
     ·块划分与块识别第26-28页
     ·正文信息提取第28-29页
     ·设计与实现、实验与分析第29-32页
   ·本章小结第32-33页
第四章 中文分词第33-56页
   ·中文分词概述第33-37页
     ·中文分词简介第33页
     ·国内几所大学研究的分词系统第33-35页
     ·中文分词中存在的困难第35-37页
   ·分词词典第37-39页
     ·常用的几种分词词典机制第37-39页
     ·三种典型分词词典机制的比较第39页
   ·中文分词切分算法第39-41页
     ·基于词典和规则的方法第39-40页
     ·基于大规模语料库的统计方法第40-41页
     ·规则和统计相结合的方法第41页
     ·人工智能分词方法第41页
   ·基于最短路径的二元语法中文词语粗分模型第41-49页
     ·N 元语法模型第41-44页
     ·基于最短路径的二元语法中文词语粗分模型第44-49页
   ·设计与实现第49-52页
     ·系统工作流程第49-50页
     ·分词词典设计第50-51页
     ·实现第51-52页
   ·实验与分析第52-55页
     ·分词系统的衡量要求第52页
     ·分词系统训练语料第52-53页
     ·实验与结果分析第53-55页
   ·本章小结第55-56页
第五章 基于N-grams 短语的中文文本聚类方法第56-76页
   ·文本聚类算法问题分析第56-57页
   ·k-均值算法第57-59页
     ·算法介绍第57页
     ·算法描述第57页
     ·算法的性能分析第57-59页
   ·凝聚层次聚类算法第59-60页
     ·算法介绍第59页
     ·算法描述第59页
     ·算法的性能分析第59-60页
   ·基于N-grams 短语的中文文本聚类方法第60-65页
     ·算法思想第60-61页
     ·N-grams 短语第61页
     ·短语相关文档模型第61-62页
     ·算法步骤第62-65页
   ·中文Web 文本聚类系统设计实现、实验和分析评价第65-75页
     ·系统设计实现第65-67页
     ·实验第67-71页
     ·分析评价第71-75页
   ·本章小结第75-76页
第六章 总结与展望第76-78页
   ·论文主要工作总结第76页
   ·进一步工作展望第76-78页
参考文献第78-81页

论文共81页,点击 下载论文
上一篇:基于改进梯度函数的图像质量评价及Laplace算子边缘检测新方法的研究
下一篇:基于ArcGIS Server的城市基础地理信息系统的研究与实现