摘要 | 第1-5页 |
Abstract | 第5-10页 |
第1章 绪论 | 第10-16页 |
·论文选题背景及意义 | 第10-11页 |
·国内外研究现状和发展趋势 | 第11-15页 |
·语料库的定义及发展历史 | 第11-13页 |
·语料库的发展方向和前景 | 第13-14页 |
·中文文本分类技术的现状和发展趋势 | 第14-15页 |
·论文的结构与主要研究工作 | 第15-16页 |
第2章 自动创建计算机语料库的相关技术理论 | 第16-34页 |
·计算机语料库的相关理论 | 第16-20页 |
·语料库的特点和建库原则 | 第16-17页 |
·语料库的选样原则 | 第17-18页 |
·语料库的数据管理方式 | 第18-20页 |
·中文文本分类语料库的特点 | 第20-21页 |
·典型的中文文本分类语料库简介 | 第21-22页 |
·主题网页抓取技术 | 第22-25页 |
·网络蜘蛛 | 第22-24页 |
·其他抓取网页方法 | 第24-25页 |
·网页清洗相关技术 | 第25-29页 |
·HTML、XHTML、XML相关技术标准 | 第25-27页 |
·网页解析技术 | 第27-29页 |
·中文分词技术 | 第29-30页 |
·中文分词技术简介 | 第29-30页 |
·现有的分词系统 | 第30页 |
·文本分类技术 | 第30-34页 |
·文本表示方法 | 第30-31页 |
·特征词提取方法 | 第31-32页 |
·文本分类方法 | 第32-34页 |
第3章 文本分类语料库自动建立系统的设计思想 | 第34-42页 |
·现有中文文本分类语料库的缺点 | 第34-36页 |
·基于中文文本分类的大规模语料库自动建立系统的基础 | 第36-38页 |
·大规模语料的来源 | 第36-37页 |
·语料库的选样方法 | 第37-38页 |
·小结 | 第38页 |
·基于中文文本分类的大规模语料库自动建立系统的目标 | 第38-39页 |
·文本分类语料库自动建立系统的设计 | 第39-42页 |
·整体研究思路 | 第39-40页 |
·系统设计的流程图 | 第40-41页 |
·系统具备的功能 | 第41-42页 |
第4章 文本分类语料库自动建立系统的实现 | 第42-68页 |
·自动抓取页面 | 第42-46页 |
·Google Soap API特点 | 第42-43页 |
·自动抓取页面程序实现 | 第43-46页 |
·实验结果分析 | 第46页 |
·页面清洗 | 第46-52页 |
·WEB编码标准 | 第47页 |
·Web编码识别的传统方法 | 第47页 |
·IUC算法的原理 | 第47-48页 |
·IUC算法的描述 | 第48-51页 |
·算法评测和应用 | 第51-52页 |
·小结 | 第52页 |
·页面标准化处理 | 第52-55页 |
·HTML各种标准的区别 | 第52-53页 |
·网页标准化的思路 | 第53-54页 |
·Tidy使用方法和程序实现介绍 | 第54-55页 |
·实验结果验证 | 第55页 |
·页面解析和主题信息提取 | 第55-61页 |
·解析思路 | 第55-56页 |
·初步清洗 | 第56-58页 |
·正文提取以及噪音去除 | 第58-60页 |
·实验结果分析 | 第60-61页 |
·中文分词以及停用词处理 | 第61-62页 |
·类别核心词获取算法 | 第62-67页 |
·目前语料库的结构 | 第62-63页 |
·词典与词频的统计算法 | 第63-64页 |
·核心词算法描述 | 第64-66页 |
·类别核心词的排序算法 | 第66-67页 |
·语料库扩充及其反馈机制 | 第67-68页 |
第5章 自动的建立语料库有效性验证 | 第68-73页 |
·文本分类语料库的评价方法 | 第68页 |
·语料库验证测试的基础 | 第68-70页 |
·语料库的自动创建 | 第70-71页 |
·测试结果分析 | 第71-73页 |
第6章 总结与展望 | 第73-74页 |
参考文献 | 第74-77页 |
致谢 | 第77-78页 |
攻读硕士研究生期间参与的项目和所发表的论文 | 第78页 |