首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于网页结构聚类的Web信息提取技术研究

摘要第1-7页
Abstract第7-8页
目录第8-10页
第1章 绪论第10-12页
   ·研究意义第10-11页
   ·研究内容第11页
   ·本文结构安排第11-12页
第2章 Web信息提取综述第12-19页
   ·WEB信息提取概念第12-13页
   ·目前WEB信息提取方法第13-17页
     ·基于HTML结构的信息提取第14-15页
     ·基于自然语言理解的信息提取第15-17页
     ·基于本体(Ontology)的信息提取第17页
   ·WEB信息提取评价指标第17-18页
   ·WEB信息提取存在的问题第18页
   ·本章小结第18-19页
第3章 网页结构相似度研究与网页聚类原理第19-32页
   ·网页DOM树第19-20页
   ·网页结构相似度第20-27页
     ·树编辑距离第20-22页
     ·树路径匹配第22-24页
     ·改进的树路径第24-25页
     ·相似度算法比较第25-27页
   ·网页聚类第27-31页
     ·聚类的概念第27-28页
     ·层次聚类简介第28-30页
     ·网页层次聚类第30页
     ·聚类结果评估第30-31页
   ·本章小结第31-32页
第4章 Web信息提取第32-46页
   ·总体设计第32-33页
   ·网络爬虫第33-35页
   ·网页预处理第35-39页
     ·网页清洗第36-37页
     ·DOM解析第37页
     ·网页结构图形显示第37-39页
   ·规则学习第39-42页
     ·模板网页选择第40页
     ·XSLT第40-41页
     ·规则生成第41-42页
   ·信息提取第42-45页
   ·本章小结第45-46页
第5章 原型系统实现及评价第46-54页
   ·系统实现第46-50页
     ·网页下载模块第46-48页
     ·规则生成模块第48-49页
     ·信息提取模块第49-50页
   ·系统评价第50-53页
     ·聚类结果评价第50-51页
     ·信息提取结果评价第51-53页
   ·本章小结第53-54页
结论与展望第54-56页
致谢第56-57页
参考文献第57-60页
攻读硕士学位期间发表的论文及科研成果第60页

论文共60页,点击 下载论文
上一篇:网络用户时间偏好及时变计费机制研究
下一篇:基于测量的SUPA流量工程信息交换协议研究