摘要 | 第1-7页 |
Abstract | 第7-10页 |
第1章 绪论 | 第10-18页 |
·研究背景与意义 | 第10-11页 |
·国内外研究发展现状 | 第11-12页 |
·数据质量分析与Web资源质量离群点检测 | 第12-15页 |
·Web资源内容相关性离群点挖掘应用范围 | 第15-16页 |
·Web网站内容质量进行审查过滤 | 第15页 |
·Web不良信息内容发现与过滤 | 第15页 |
·提高搜索引擎返回结果的质量 | 第15页 |
·提高门户网站中构建自动类别索引的准确性 | 第15-16页 |
·识别竞争对手和有趣的商业模式 | 第16页 |
·本论文的主要工作 | 第16页 |
·论文安排与主要内容 | 第16-18页 |
第2章 Web内容相关性质量离群点挖掘系统框架及关键技术分析 | 第18-31页 |
·系统框架 | 第18页 |
·Web文本的预处理 | 第18-23页 |
·Web文本内容抽取 | 第19-20页 |
·HTML与DOM | 第20-22页 |
·Web内容抽取的评价准则 | 第22-23页 |
·Web内容离群点挖掘相关技术 | 第23-31页 |
·常用的文本表示模型 | 第23-25页 |
·常用特征选择的方法 | 第25-27页 |
·文本相似度的度量 | 第27-29页 |
·离群点挖掘算法 | 第29-31页 |
第3章 基于统计的链接密度和链接文本密度Web内容抽取 | 第31-44页 |
·现阶段Web内容抽取存在的问题 | 第31页 |
·基于链接密度和链接文本密度的Web内容抽取 | 第31-35页 |
·方法的提出 | 第31-33页 |
·Web内容抽取模块总体框架 | 第33-35页 |
·抽取模块的实现 | 第35-43页 |
·抽取前的预处理 | 第35-37页 |
·标签内容抽取 | 第37-39页 |
·标签正文内容抽取 | 第39-43页 |
·本章小结 | 第43-44页 |
第4章 基于N-gram技术的Web内容相关性离群点检测算法研究 | 第44-53页 |
·Web资源内容质量离群点相关介绍 | 第44-45页 |
·问题的提出 | 第44-45页 |
·Web资源内容相关性质量离群点挖掘模块框架 | 第45页 |
·基于N-gram的文档特征向量的选择 | 第45-47页 |
·N-gram技术介绍 | 第45-46页 |
·N-gram技术作为数据挖掘工具的优势 | 第46-47页 |
·N-gram的生成 | 第47页 |
·文本向量的表示 | 第47-49页 |
·文本内容相关性质量离群点检测算法 | 第49-52页 |
·基于距离的离群点挖掘算法 | 第49-50页 |
·基于密度的离群点挖掘算法 | 第50-51页 |
·文本内容相关性质量离群点挖掘算法 | 第51-52页 |
·文章小结 | 第52-53页 |
第5章 Web资源内容相关性质量离群点检测系统 | 第53-62页 |
·Web资源内容相关性质量离群点挖掘系统的实现 | 第53-58页 |
·开发环境 | 第53页 |
·系统结构 | 第53-58页 |
·Web资源内容相关性质量离群点挖掘实验结果与分析 | 第58-62页 |
·Web内容抽取实验数据集及结果分析 | 第58-59页 |
·Web内容相关性质量离群点挖掘实验数据集及结果分析 | 第59-62页 |
结论与展望 | 第62-64页 |
1 全文总结 | 第62-63页 |
2 下一步工作 | 第63-64页 |
致谢 | 第64-65页 |
参考文献 | 第65-69页 |
攻读学位期间发表的论文 | 第69页 |