基于网页结构聚类的Web信息提取技术研究

摘要	第1-7页
Abstract	第7-8页
目录	第8-10页
第1章绪论	第10-12页
·研究意义	第10-11页
·研究内容	第11页
·本文结构安排	第11-12页
第2章 Web信息提取综述	第12-19页
·WEB信息提取概念	第12-13页
·目前WEB信息提取方法	第13-17页
·基于HTML结构的信息提取	第14-15页
·基于自然语言理解的信息提取	第15-17页
·基于本体(Ontology)的信息提取	第17页
·WEB信息提取评价指标	第17-18页
·WEB信息提取存在的问题	第18页
·本章小结	第18-19页
第3章网页结构相似度研究与网页聚类原理	第19-32页
·网页DOM树	第19-20页
·网页结构相似度	第20-27页
·树编辑距离	第20-22页
·树路径匹配	第22-24页
·改进的树路径	第24-25页
·相似度算法比较	第25-27页
·网页聚类	第27-31页
·聚类的概念	第27-28页
·层次聚类简介	第28-30页
·网页层次聚类	第30页
·聚类结果评估	第30-31页
·本章小结	第31-32页
第4章 Web信息提取	第32-46页
·总体设计	第32-33页
·网络爬虫	第33-35页
·网页预处理	第35-39页
·网页清洗	第36-37页
·DOM解析	第37页
·网页结构图形显示	第37-39页
·规则学习	第39-42页
·模板网页选择	第40页
·XSLT	第40-41页
·规则生成	第41-42页
·信息提取	第42-45页
·本章小结	第45-46页
第5章原型系统实现及评价	第46-54页
·系统实现	第46-50页
·网页下载模块	第46-48页
·规则生成模块	第48-49页
·信息提取模块	第49-50页
·系统评价	第50-53页
·聚类结果评价	第50-51页
·信息提取结果评价	第51-53页
·本章小结	第53-54页
结论与展望	第54-56页
致谢	第56-57页
参考文献	第57-60页
攻读硕士学位期间发表的论文及科研成果	第60页