基于N-grams短语的中文Web文本聚类及其预处理的研究

摘要	第1-3页
Abstract	第3-7页
第一章绪论	第7-14页
·本论文研究背景和意义	第7-9页
·中国互联网基础资源发展状况	第7页
·我们所期望的信息服务	第7-8页
·聚类给予的帮助	第8-9页
·Web 文本聚类的研究现状	第9-12页
·聚类方法研究	第10-12页
·Web 文本预处理、特征词的提取和选择、文本表示的研究	第12页
·本论文研究的主要内容	第12-13页
·本论文的组织安排	第13-14页
第二章 Web 文本聚类分析相关技术	第14-22页
·文本聚类概述	第14-15页
·Web 挖掘概述	第15-16页
·Web 文本聚类相关技术	第16-21页
·Web 文档的收集	第16页
·预处理和中文分词	第16页
·特征提取和选择	第16-17页
·文本表示	第17-18页
·文本相似度计算	第18-19页
·文本聚类算法	第19-20页
·聚类质量评测	第20-21页
·本章小结	第21-22页
第三章网页正文信息的提取	第22-33页
·网页分析	第22-25页
·网页类型和内容	第22页
·常用网页编写语言	第22-24页
·网页表示	第24-25页
·网页信息提取方法	第25页
·基于正文特征的网页正文信息提取方法	第25-32页
·正文特征	第26页
·块划分与块识别	第26-28页
·正文信息提取	第28-29页
·设计与实现、实验与分析	第29-32页
·本章小结	第32-33页
第四章中文分词	第33-56页
·中文分词概述	第33-37页
·中文分词简介	第33页
·国内几所大学研究的分词系统	第33-35页
·中文分词中存在的困难	第35-37页
·分词词典	第37-39页
·常用的几种分词词典机制	第37-39页
·三种典型分词词典机制的比较	第39页
·中文分词切分算法	第39-41页
·基于词典和规则的方法	第39-40页
·基于大规模语料库的统计方法	第40-41页
·规则和统计相结合的方法	第41页
·人工智能分词方法	第41页
·基于最短路径的二元语法中文词语粗分模型	第41-49页
·N 元语法模型	第41-44页
·基于最短路径的二元语法中文词语粗分模型	第44-49页
·设计与实现	第49-52页
·系统工作流程	第49-50页
·分词词典设计	第50-51页
·实现	第51-52页
·实验与分析	第52-55页
·分词系统的衡量要求	第52页
·分词系统训练语料	第52-53页
·实验与结果分析	第53-55页
·本章小结	第55-56页
第五章基于N-grams 短语的中文文本聚类方法	第56-76页
·文本聚类算法问题分析	第56-57页
·k-均值算法	第57-59页
·算法介绍	第57页
·算法描述	第57页
·算法的性能分析	第57-59页
·凝聚层次聚类算法	第59-60页
·算法介绍	第59页
·算法描述	第59页
·算法的性能分析	第59-60页
·基于N-grams 短语的中文文本聚类方法	第60-65页
·算法思想	第60-61页
·N-grams 短语	第61页
·短语相关文档模型	第61-62页
·算法步骤	第62-65页
·中文Web 文本聚类系统设计实现、实验和分析评价	第65-75页
·系统设计实现	第65-67页
·实验	第67-71页
·分析评价	第71-75页
·本章小结	第75-76页
第六章总结与展望	第76-78页
·论文主要工作总结	第76页
·进一步工作展望	第76-78页
参考文献	第78-81页