首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于DOM结构树和特征词的Web内容提取研究

摘要第1-5页
Abstract第5-7页
目录第7-9页
图目录第9-10页
Content of Figures第10-11页
表目录第11-12页
Content of Tables第12-13页
第一章 绪论第13-20页
   ·课题背景与意义第13-14页
   ·国内外研究现状第14-18页
     ·Web正文信息提取研究现状第14-15页
     ·短文本相似性的研究现状第15-16页
     ·本文的主要研究内容第16-18页
   ·本文的工作与安排第18-20页
第二章 相关理论基础第20-29页
   ·Web信息提取技术第20-23页
     ·基于标签的Web信息提取第20-21页
     ·基于DOM树的Web信息提取方法第21页
     ·本地布局Web信息提取方法(Location-based Segmentation)第21-22页
     ·VIPS Web信息提取方法(Vision-based P age Segmentation)第22页
     ·图形Web信息提取方法第22-23页
   ·DOM结构树的基本概念第23-24页
     ·语义标记第23页
     ·DOM结构树第23-24页
   ·短文本特点第24页
   ·中文自动分词第24-26页
     ·中文分词简介第24-25页
     ·中文分词的难点第25页
     ·常用汉语分词方法第25-26页
   ·特征词提取方法第26-28页
   ·本章小结第28-29页
第三章 基于DOM结构树的网页正文信息分段算法第29-40页
   ·经典Web信息提取方法第29页
   ·去除噪音信息第29-34页
     ·噪音信息去除第29-30页
     ·DOM结构树构造第30-32页
     ·正文内容的提取第32-33页
     ·正文内容的处理第33-34页
   ·实验结果及分析第34-39页
     ·DOM结构树构建算法实验第35-36页
     ·正文内容提取实验第36页
     ·综合实验第36-39页
     ·时间复杂度分析第39页
   ·本章小结第39-40页
第四章 基于特征词的短文本分类研究第40-50页
   ·引言第40页
   ·基于特征词的短文本分类方法第40-46页
     ·文本的预处理第41-42页
     ·语料库的建立第42页
     ·特征词的相关度计算第42-43页
     ·文本特征词的获取第43-44页
     ·短文本的分类第44-46页
   ·实验第46-48页
     ·特征词提取实验第46-47页
     ·短文本分类实验第47-48页
   ·本章小结第48-50页
第五章 总结与展望第50-52页
   ·总结第50页
   ·研究与展望第50-52页
参考文献第52-57页
致谢第57-58页
攻读硕士学位期间发表的学术论文第58-59页
攻读硕士学位期间参加的科研项目第59页

论文共59页,点击 下载论文
上一篇:基于单演特征和遮挡字典的稀疏表示人脸识别研究
下一篇:基于计算机视觉的车辆外廓尺寸测量系统研究与应用