首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

内容相关性驱动的Web资源离群点挖掘技术研究与系统实现

摘要第1-7页
Abstract第7-10页
第1章 绪论第10-18页
   ·研究背景与意义第10-11页
   ·国内外研究发展现状第11-12页
   ·数据质量分析与Web资源质量离群点检测第12-15页
   ·Web资源内容相关性离群点挖掘应用范围第15-16页
     ·Web网站内容质量进行审查过滤第15页
     ·Web不良信息内容发现与过滤第15页
     ·提高搜索引擎返回结果的质量第15页
     ·提高门户网站中构建自动类别索引的准确性第15-16页
     ·识别竞争对手和有趣的商业模式第16页
   ·本论文的主要工作第16页
   ·论文安排与主要内容第16-18页
第2章 Web内容相关性质量离群点挖掘系统框架及关键技术分析第18-31页
   ·系统框架第18页
   ·Web文本的预处理第18-23页
     ·Web文本内容抽取第19-20页
     ·HTML与DOM第20-22页
     ·Web内容抽取的评价准则第22-23页
   ·Web内容离群点挖掘相关技术第23-31页
     ·常用的文本表示模型第23-25页
     ·常用特征选择的方法第25-27页
     ·文本相似度的度量第27-29页
     ·离群点挖掘算法第29-31页
第3章 基于统计的链接密度和链接文本密度Web内容抽取第31-44页
   ·现阶段Web内容抽取存在的问题第31页
   ·基于链接密度和链接文本密度的Web内容抽取第31-35页
     ·方法的提出第31-33页
     ·Web内容抽取模块总体框架第33-35页
   ·抽取模块的实现第35-43页
     ·抽取前的预处理第35-37页
     ·标签内容抽取第37-39页
     ·标签正文内容抽取第39-43页
   ·本章小结第43-44页
第4章 基于N-gram技术的Web内容相关性离群点检测算法研究第44-53页
   ·Web资源内容质量离群点相关介绍第44-45页
     ·问题的提出第44-45页
     ·Web资源内容相关性质量离群点挖掘模块框架第45页
   ·基于N-gram的文档特征向量的选择第45-47页
     ·N-gram技术介绍第45-46页
     ·N-gram技术作为数据挖掘工具的优势第46-47页
     ·N-gram的生成第47页
   ·文本向量的表示第47-49页
   ·文本内容相关性质量离群点检测算法第49-52页
     ·基于距离的离群点挖掘算法第49-50页
     ·基于密度的离群点挖掘算法第50-51页
     ·文本内容相关性质量离群点挖掘算法第51-52页
   ·文章小结第52-53页
第5章 Web资源内容相关性质量离群点检测系统第53-62页
   ·Web资源内容相关性质量离群点挖掘系统的实现第53-58页
     ·开发环境第53页
     ·系统结构第53-58页
   ·Web资源内容相关性质量离群点挖掘实验结果与分析第58-62页
     ·Web内容抽取实验数据集及结果分析第58-59页
     ·Web内容相关性质量离群点挖掘实验数据集及结果分析第59-62页
结论与展望第62-64页
 1 全文总结第62-63页
 2 下一步工作第63-64页
致谢第64-65页
参考文献第65-69页
攻读学位期间发表的论文第69页

论文共69页,点击 下载论文
上一篇:实时场景下的运动目标检测技术研究
下一篇:外籍教师管理信息系统的设计与实现