首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

文本分类语料库自动创建系统的研究与实现

摘要第1-5页
Abstract第5-10页
第1章 绪论第10-16页
   ·论文选题背景及意义第10-11页
   ·国内外研究现状和发展趋势第11-15页
     ·语料库的定义及发展历史第11-13页
     ·语料库的发展方向和前景第13-14页
     ·中文文本分类技术的现状和发展趋势第14-15页
   ·论文的结构与主要研究工作第15-16页
第2章 自动创建计算机语料库的相关技术理论第16-34页
   ·计算机语料库的相关理论第16-20页
     ·语料库的特点和建库原则第16-17页
     ·语料库的选样原则第17-18页
     ·语料库的数据管理方式第18-20页
   ·中文文本分类语料库的特点第20-21页
   ·典型的中文文本分类语料库简介第21-22页
   ·主题网页抓取技术第22-25页
     ·网络蜘蛛第22-24页
     ·其他抓取网页方法第24-25页
   ·网页清洗相关技术第25-29页
     ·HTML、XHTML、XML相关技术标准第25-27页
     ·网页解析技术第27-29页
   ·中文分词技术第29-30页
     ·中文分词技术简介第29-30页
     ·现有的分词系统第30页
   ·文本分类技术第30-34页
     ·文本表示方法第30-31页
     ·特征词提取方法第31-32页
     ·文本分类方法第32-34页
第3章 文本分类语料库自动建立系统的设计思想第34-42页
   ·现有中文文本分类语料库的缺点第34-36页
   ·基于中文文本分类的大规模语料库自动建立系统的基础第36-38页
     ·大规模语料的来源第36-37页
     ·语料库的选样方法第37-38页
     ·小结第38页
   ·基于中文文本分类的大规模语料库自动建立系统的目标第38-39页
   ·文本分类语料库自动建立系统的设计第39-42页
     ·整体研究思路第39-40页
     ·系统设计的流程图第40-41页
     ·系统具备的功能第41-42页
第4章 文本分类语料库自动建立系统的实现第42-68页
   ·自动抓取页面第42-46页
     ·Google Soap API特点第42-43页
     ·自动抓取页面程序实现第43-46页
     ·实验结果分析第46页
   ·页面清洗第46-52页
     ·WEB编码标准第47页
     ·Web编码识别的传统方法第47页
     ·IUC算法的原理第47-48页
     ·IUC算法的描述第48-51页
     ·算法评测和应用第51-52页
     ·小结第52页
   ·页面标准化处理第52-55页
     ·HTML各种标准的区别第52-53页
     ·网页标准化的思路第53-54页
     ·Tidy使用方法和程序实现介绍第54-55页
     ·实验结果验证第55页
   ·页面解析和主题信息提取第55-61页
     ·解析思路第55-56页
     ·初步清洗第56-58页
     ·正文提取以及噪音去除第58-60页
     ·实验结果分析第60-61页
   ·中文分词以及停用词处理第61-62页
   ·类别核心词获取算法第62-67页
     ·目前语料库的结构第62-63页
     ·词典与词频的统计算法第63-64页
     ·核心词算法描述第64-66页
     ·类别核心词的排序算法第66-67页
   ·语料库扩充及其反馈机制第67-68页
第5章 自动的建立语料库有效性验证第68-73页
   ·文本分类语料库的评价方法第68页
   ·语料库验证测试的基础第68-70页
   ·语料库的自动创建第70-71页
   ·测试结果分析第71-73页
第6章 总结与展望第73-74页
参考文献第74-77页
致谢第77-78页
攻读硕士研究生期间参与的项目和所发表的论文第78页

论文共78页,点击 下载论文
上一篇:双语辅助翻译搜索引擎若干问题研究
下一篇:基于数据仓库的信用信息系统的分析与设计