文本分类语料库自动创建系统的研究与实现

摘要	第1-5页
Abstract	第5-10页
第1章绪论	第10-16页
·论文选题背景及意义	第10-11页
·国内外研究现状和发展趋势	第11-15页
·语料库的定义及发展历史	第11-13页
·语料库的发展方向和前景	第13-14页
·中文文本分类技术的现状和发展趋势	第14-15页
·论文的结构与主要研究工作	第15-16页
第2章自动创建计算机语料库的相关技术理论	第16-34页
·计算机语料库的相关理论	第16-20页
·语料库的特点和建库原则	第16-17页
·语料库的选样原则	第17-18页
·语料库的数据管理方式	第18-20页
·中文文本分类语料库的特点	第20-21页
·典型的中文文本分类语料库简介	第21-22页
·主题网页抓取技术	第22-25页
·网络蜘蛛	第22-24页
·其他抓取网页方法	第24-25页
·网页清洗相关技术	第25-29页
·HTML、XHTML、XML相关技术标准	第25-27页
·网页解析技术	第27-29页
·中文分词技术	第29-30页
·中文分词技术简介	第29-30页
·现有的分词系统	第30页
·文本分类技术	第30-34页
·文本表示方法	第30-31页
·特征词提取方法	第31-32页
·文本分类方法	第32-34页
第3章文本分类语料库自动建立系统的设计思想	第34-42页
·现有中文文本分类语料库的缺点	第34-36页
·基于中文文本分类的大规模语料库自动建立系统的基础	第36-38页
·大规模语料的来源	第36-37页
·语料库的选样方法	第37-38页
·小结	第38页
·基于中文文本分类的大规模语料库自动建立系统的目标	第38-39页
·文本分类语料库自动建立系统的设计	第39-42页
·整体研究思路	第39-40页
·系统设计的流程图	第40-41页
·系统具备的功能	第41-42页
第4章文本分类语料库自动建立系统的实现	第42-68页
·自动抓取页面	第42-46页
·Google Soap API特点	第42-43页
·自动抓取页面程序实现	第43-46页
·实验结果分析	第46页
·页面清洗	第46-52页
·WEB编码标准	第47页
·Web编码识别的传统方法	第47页
·IUC算法的原理	第47-48页
·IUC算法的描述	第48-51页
·算法评测和应用	第51-52页
·小结	第52页
·页面标准化处理	第52-55页
·HTML各种标准的区别	第52-53页
·网页标准化的思路	第53-54页
·Tidy使用方法和程序实现介绍	第54-55页
·实验结果验证	第55页
·页面解析和主题信息提取	第55-61页
·解析思路	第55-56页
·初步清洗	第56-58页
·正文提取以及噪音去除	第58-60页
·实验结果分析	第60-61页
·中文分词以及停用词处理	第61-62页
·类别核心词获取算法	第62-67页
·目前语料库的结构	第62-63页
·词典与词频的统计算法	第63-64页
·核心词算法描述	第64-66页
·类别核心词的排序算法	第66-67页
·语料库扩充及其反馈机制	第67-68页
第5章自动的建立语料库有效性验证	第68-73页
·文本分类语料库的评价方法	第68页
·语料库验证测试的基础	第68-70页
·语料库的自动创建	第70-71页
·测试结果分析	第71-73页
第6章总结与展望	第73-74页
参考文献	第74-77页
致谢	第77-78页
攻读硕士研究生期间参与的项目和所发表的论文	第78页