内容相关性驱动的Web资源离群点挖掘技术研究与系统实现

摘要	第1-7页
Abstract	第7-10页
第1章绪论	第10-18页
·研究背景与意义	第10-11页
·国内外研究发展现状	第11-12页
·数据质量分析与Web资源质量离群点检测	第12-15页
·Web资源内容相关性离群点挖掘应用范围	第15-16页
·Web网站内容质量进行审查过滤	第15页
·Web不良信息内容发现与过滤	第15页
·提高搜索引擎返回结果的质量	第15页
·提高门户网站中构建自动类别索引的准确性	第15-16页
·识别竞争对手和有趣的商业模式	第16页
·本论文的主要工作	第16页
·论文安排与主要内容	第16-18页
第2章 Web内容相关性质量离群点挖掘系统框架及关键技术分析	第18-31页
·系统框架	第18页
·Web文本的预处理	第18-23页
·Web文本内容抽取	第19-20页
·HTML与DOM	第20-22页
·Web内容抽取的评价准则	第22-23页
·Web内容离群点挖掘相关技术	第23-31页
·常用的文本表示模型	第23-25页
·常用特征选择的方法	第25-27页
·文本相似度的度量	第27-29页
·离群点挖掘算法	第29-31页
第3章基于统计的链接密度和链接文本密度Web内容抽取	第31-44页
·现阶段Web内容抽取存在的问题	第31页
·基于链接密度和链接文本密度的Web内容抽取	第31-35页
·方法的提出	第31-33页
·Web内容抽取模块总体框架	第33-35页
·抽取模块的实现	第35-43页
·抽取前的预处理	第35-37页
·标签内容抽取	第37-39页
·标签正文内容抽取	第39-43页
·本章小结	第43-44页
第4章基于N-gram技术的Web内容相关性离群点检测算法研究	第44-53页
·Web资源内容质量离群点相关介绍	第44-45页
·问题的提出	第44-45页
·Web资源内容相关性质量离群点挖掘模块框架	第45页
·基于N-gram的文档特征向量的选择	第45-47页
·N-gram技术介绍	第45-46页
·N-gram技术作为数据挖掘工具的优势	第46-47页
·N-gram的生成	第47页
·文本向量的表示	第47-49页
·文本内容相关性质量离群点检测算法	第49-52页
·基于距离的离群点挖掘算法	第49-50页
·基于密度的离群点挖掘算法	第50-51页
·文本内容相关性质量离群点挖掘算法	第51-52页
·文章小结	第52-53页
第5章 Web资源内容相关性质量离群点检测系统	第53-62页
·Web资源内容相关性质量离群点挖掘系统的实现	第53-58页
·开发环境	第53页
·系统结构	第53-58页
·Web资源内容相关性质量离群点挖掘实验结果与分析	第58-62页
·Web内容抽取实验数据集及结果分析	第58-59页
·Web内容相关性质量离群点挖掘实验数据集及结果分析	第59-62页
结论与展望	第62-64页
1 全文总结	第62-63页
2 下一步工作	第63-64页
致谢	第64-65页
参考文献	第65-69页
攻读学位期间发表的论文	第69页