首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

Web正文信息抽取与面向层次结构的分类技术研究

摘要第1-6页
Abstract第6-10页
第一章 绪论第10-16页
   ·研究背景及意义第10-11页
   ·国内外研究现状第11-13页
     ·Web 信息抽取技术研究现状第11-12页
     ·网页自动分类技术研究现状第12-13页
   ·本文的研究内容第13-14页
   ·论文的组织结构第14-16页
第二章 相关理论和关键技术第16-23页
   ·信息抽取第16页
   ·文本分类第16-18页
   ·文本预处理技术第18-19页
     ·中文分词技术第18页
     ·停用词处理第18-19页
   ·特征选择第19页
   ·文本分类常用方法第19-21页
   ·知网第21-22页
     ·知网的结构第21页
     ·知网的概念第21-22页
   ·本章小结第22-23页
第三章 基于DOM 树和部分超链接过滤的正文信息抽取第23-41页
   ·网页正文信息与网页结构第23页
   ·网页正文信息抽取方法第23-29页
     ·基于启发性规则的抽取方法第24-28页
     ·基于网页模板的方法第28-29页
   ·基于网页DOM 树和部分超链接过滤的正文信息抽取算法第29-37页
     ·网页规范化第29-30页
     ·去噪过滤第30-34页
     ·正文信息抽取第34-37页
   ·实验及分析第37-40页
     ·实验评测指标结果第37-38页
     ·实验结果分析第38-40页
   ·本章小结第40-41页
第四章 基于站点层次结构的网页分类技术第41-46页
   ·虚拟站点层次关系树的构建第41-42页
   ·站点层次结构抽取算法第42-43页
   ·网页分类的实现第43-45页
   ·本章小结第45-46页
第五章 基于标题的网页分类研究第46-64页
   ·标题预处理第46-48页
     ·网页标题第46-47页
     ·领域知识库第47-48页
   ·特征选择研究第48-55页
     ·特征选择方法第48-51页
     ·归一化词频密度第51-52页
     ·类内覆盖度第52页
     ·改进的X~2 特征选择算法第52-54页
     ·常规领域知识导入第54-55页
   ·词语相似度第55-58页
     ·词语相似度计算方法第55-56页
     ·基于《知网》的语义相似度计算第56页
     ·网页自动分类流程第56-58页
   ·实验及分析第58-63页
     ·性能评价方法第58-59页
     ·实验数据第59-60页
     ·实验结果及分析第60-63页
   ·本章小结第63-64页
第六章 系统实现第64-75页
   ·系统设计思想第64-65页
   ·系统总体框架和模块设计第65-74页
     ·网页正文信息抽取模块第66-69页
     ·基于站点层次结构的网页分类模块第69-71页
     ·基于标题的网页分类模块第71-73页
     ·缓存管理模块第73-74页
   ·本章小结第74-75页
结论第75-77页
参考文献第77-81页
攻读硕士学位期间取得的研究成果第81-82页
致谢第82-83页
答辩委员会对论文的评定意见第83页

论文共83页,点击 下载论文
上一篇:雅芳DRMSP系统自动化功能测试的研究与实现
下一篇:实时动态手势识别关键技术研究