首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于标点符号统计特征的中文类型网页正文抽取

摘要第1-5页
Abstract第5-8页
第1章 绪论第8-12页
   ·信息抽取的研究背景及研究意义第8-10页
   ·本文的主要研究内容以及组织结构第10-12页
     ·本文的主要研究内容第10页
     ·论文的组织结构第10-12页
第2章 网页正文内容抽取的相关知识第12-26页
   ·信息检索与信息抽取第12-16页
       ·信息检索第12-13页
       ·信息抽取第13-15页
       ·信息检索与信息抽取的区别第15-16页
   ·编写 web 文档的语言第16-22页
     ·HTML第16-19页
     ·XML第19-21页
     ·XTHML第21-22页
   ·DOM第22-23页
   ·XPath第23-25页
   ·本章小结第25-26页
第3章 网页正文内容抽取方法第26-33页
   ·web 文档的信息抽取方法第26-29页
   ·网页正文内容抽取方法的分类第29-32页
       ·基于 DOM 的方法第29-30页
       ·基于模板的方法第30页
       ·基于网页分块的方法第30页
       ·基于统计的方法第30-31页
       ·基于 Tag Window 的方法第31-32页
   ·web 文档正文抽取的难点第32页
   ·本章小结第32-33页
第4章 基于统计特征的网页正文抽取第33-50页
   ·网页正文的定义第33-35页
   ·标点符号在中文网页中的分布规律第35-38页
   ·web 文档的预处理第38-43页
     ·web 文档的采集第38页
     ·字符编码问题第38-40页
     ·web 网页的规范化处理第40-43页
     ·噪音节点的过滤第43页
   ·构造叶子节点的正文特征向量第43-44页
   ·网页正文抽取算法第44-49页
     ·网页正文抽取算法流程第44-45页
     ·样本节点的选择算法第45-46页
     ·节点的聚类算法第46-48页
     ·网页正文信息抽取第48-49页
   ·网页正文信息抽取系统的设计第49页
   ·本章小结第49-50页
第5章 网页正文信息抽取系统的实现及实验第50-56页
   ·工作环境第50页
   ·正文信息抽取系统的实现第50-53页
   ·实验与分析第53-55页
     ·评价标准第53页
     ·实验数据第53页
     ·实验结果以及分析第53-55页
   ·本章小结第55-56页
第6章 总结及展望第56-58页
   ·总结第56-57页
   ·展望第57-58页
参考文献第58-61页
致谢第61-62页
附录A(攻读硕士学位期间发表的论文)第62页

论文共62页,点击 下载论文
上一篇:图像阈值分割算法研究
下一篇:联机汉语拼音书写教学关键技术研究