基于DOM结构树和特征词的Web内容提取研究

摘要	第1-5页
Abstract	第5-7页
目录	第7-9页
图目录	第9-10页
Content of Figures	第10-11页
表目录	第11-12页
Content of Tables	第12-13页
第一章绪论	第13-20页
·课题背景与意义	第13-14页
·国内外研究现状	第14-18页
·Web正文信息提取研究现状	第14-15页
·短文本相似性的研究现状	第15-16页
·本文的主要研究内容	第16-18页
·本文的工作与安排	第18-20页
第二章相关理论基础	第20-29页
·Web信息提取技术	第20-23页
·基于标签的Web信息提取	第20-21页
·基于DOM树的Web信息提取方法	第21页
·本地布局Web信息提取方法(Location-based Segmentation)	第21-22页
·VIPS Web信息提取方法(Vision-based P age Segmentation)	第22页
·图形Web信息提取方法	第22-23页
·DOM结构树的基本概念	第23-24页
·语义标记	第23页
·DOM结构树	第23-24页
·短文本特点	第24页
·中文自动分词	第24-26页
·中文分词简介	第24-25页
·中文分词的难点	第25页
·常用汉语分词方法	第25-26页
·特征词提取方法	第26-28页
·本章小结	第28-29页
第三章基于DOM结构树的网页正文信息分段算法	第29-40页
·经典Web信息提取方法	第29页
·去除噪音信息	第29-34页
·噪音信息去除	第29-30页
·DOM结构树构造	第30-32页
·正文内容的提取	第32-33页
·正文内容的处理	第33-34页
·实验结果及分析	第34-39页
·DOM结构树构建算法实验	第35-36页
·正文内容提取实验	第36页
·综合实验	第36-39页
·时间复杂度分析	第39页
·本章小结	第39-40页
第四章基于特征词的短文本分类研究	第40-50页
·引言	第40页
·基于特征词的短文本分类方法	第40-46页
·文本的预处理	第41-42页
·语料库的建立	第42页
·特征词的相关度计算	第42-43页
·文本特征词的获取	第43-44页
·短文本的分类	第44-46页
·实验	第46-48页
·特征词提取实验	第46-47页
·短文本分类实验	第47-48页
·本章小结	第48-50页
第五章总结与展望	第50-52页
·总结	第50页
·研究与展望	第50-52页
参考文献	第52-57页
致谢	第57-58页
攻读硕士学位期间发表的学术论文	第58-59页
攻读硕士学位期间参加的科研项目	第59页