首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文本分类语料库自动构建系统的研究与改进

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-15页
   ·论文选题背景及意义第9-10页
   ·国内外研究与发展现状第10-13页
     ·语料库的研究发展现状第10-11页
     ·中文文本分类技术研究现状第11-12页
     ·网页消重技术研究现状第12-13页
   ·论文的主要研究工作与结构第13-15页
     ·主要研究工作第13-14页
     ·论文结构第14-15页
第2章 文本分类语料库自动构建系统原型研究第15-23页
   ·文本分类语料库自动构建系统简介第15-17页
     ·语料库自动构建系统整体思路第15-16页
     ·语料库自动构建系统实现流程及功能第16-17页
   ·原型系统实现的相关技术第17-21页
     ·网页预处理方法第17-19页
     ·网页解析与主题信息提取第19-20页
     ·中文分词技术第20-21页
   ·原型系统分析及优化思路第21-22页
   ·本章小结第22-23页
第3章 网页正文抽取方法研究第23-36页
   ·网页正文抽取相关技术第23-26页
     ·正文抽取相关研究第23-24页
     ·主流抽取方法归纳分析第24-26页
   ·基于密度特征的抽取方法研究第26-28页
     ·文本块及其密度特征第27页
     ·抽取方法整体实现思路第27-28页
   ·基于密度特征的正文抽取方法技术实现第28-35页
     ·网页预处理第28-29页
     ·网页解析分块第29-31页
     ·构建文本块分类预测模型第31-34页
     ·模型检验与分析第34-35页
   ·本章小结第35-36页
第4章 网页消重技术研究第36-51页
   ·网页消重相关技术第36-42页
     ·文本表示模型第36-38页
     ·文本特征抽取方法第38-40页
     ·相似距离(Resemblance Distance)第40-42页
   ·现有网页消重算法分析第42-44页
   ·基于Shingling的网页消重改进方法研究第44-50页
     ·基于词性的网页文本表示方法第44-46页
     ·相似度计算性能优化第46-48页
     ·实验与分析评价第48-50页
   ·本章小结第50-51页
第5章 语料库构建系统改进的有效性验证第51-55页
   ·系统优化技术实现第51-53页
   ·系统优化结果验证第53-54页
   ·本章小结第54-55页
第6章 总结与展望第55-57页
致谢第57-58页
参考文献第58-61页
附录第61页

论文共61页,点击 下载论文
上一篇:LE-OLAP中多维数据模型及聚合算法的研究
下一篇:基于本体的主动服务构件库及构件排序研究