Web信息内容及其特征提取方法研究

摘要	第1-6页
Abstract	第6-10页
1 引言	第10-16页
·研究背景和意义	第10-11页
·国内外研究现状	第11-14页
·Web信息内容提取研究	第11-12页
·文本分类和Web文本分类	第12页
·作品特征提取研究	第12-13页
·Web信息发布源同一认定研究	第13-14页
·问题综述	第14-15页
·本文的研究内容	第15-16页
2 相关理论及技术	第16-28页
·Web信息的分类	第16-17页
·Web页面基本知识	第17-18页
·HTML简介	第17页
·HTML基本结构	第17-18页
·文档对象模型(DOM)	第18页
·电子邮件基本知识	第18-21页
·电子邮件工作原理	第18-19页
·电子邮件的格式	第19-21页
·文本分类关键技术	第21-27页
·文本分词	第21-22页
·特征表示(向量空间模型)	第22页
·特征权重	第22-23页
·特征选择	第23-27页
·本章小结	第27-28页
3 Web信息内容提取技术研究	第28-37页
·Web信息内容提取的任务	第28页
·HTML页面内容提取	第28-32页
·HTML文件的规整化	第29页
·HTML网页内容结构表示	第29-30页
·HTML页面主题内容块提取技术	第30-32页
·相关主题信息提取	第32页
·电子邮件内容提取	第32-36页
·邮件头信息提取	第33页
·邮件信体内容提取	第33-34页
·邮件内容解码	第34-35页
·电子邮件内容提取流程	第35-36页
·本章小结	第36-37页
4 Web信息特征分析与提取方法研究	第37-50页
·Web信息的一般特点	第37-38页
·Web信息特征分析	第38-41页
·语言特征	第38-40页
·非语言特征	第40-41页
·各类特征的提取方法	第41-43页
·语言特征的提取方法	第41-42页
·非语言特征的提取方法	第42-43页
·基于关联规则分析的潜在特征词提取方法	第43-46页
·潜在特征词概述	第43页
·关联规则的基本概念	第43-44页
·基于关联规则分析的潜在特征词提取方法	第44-46页
·特征表达与利用方法研究	第46-49页
·特征的描述方法	第46-47页
·特征的表达方法	第47页
·特征权重	第47-49页
·特征选择	第49页
·本章小结	第49-50页
5 实验	第50-59页
·实验目的及实验环境	第50页
·Web信息内容提取实验	第50-56页
·HTML页面内容提取实验	第50-53页
·电子邮件内容提取实验	第53-56页
·Web信息特征提取实验	第56-58页
·本章小结	第58-59页
6 总结与展望	第59-60页
参考文献	第60-65页
在读期间发表的学术论文	第65-67页
作者简历	第67-68页
致谢	第68页