Web信息自动抽取技术研究

摘要	第1-4页
Abstract	第4-9页
第1章绪论	第9-12页
·引言	第9-10页
·本文工作	第10-11页
·本文组织	第11页
·本章小结	第11-12页
第2章 Web信息抽取研究综述	第12-23页
·Web信息抽取发展历史	第12-13页
·Web信息抽取评价标准	第13-14页
·Web信息抽取相关工作	第14-20页
·基于知识工程的方法	第14页
·自动训练的方法	第14-16页
·基于DOM的Web抽取技术	第16-20页
·Web信息抽取的问题与改进	第20-22页
·本章小结	第22-23页
第3章 HTML标签树相似性算法	第23-30页
·树的编辑距离	第23-25页
·自顶向下限制的树编辑距离	第25-27页
·树的最大节点匹配	第27-28页
·本章小结	第28-30页
第4章 Web信息自动抽取算法设计	第30-46页
·网页聚类	第31-36页
·聚类的概念	第32页
·层次聚类算法	第32-34页
·网页聚类算法	第34-36页
·聚类评估标准	第36页
·模板生成	第36-44页
·两个网页的模板	第37-38页
·多网页模板生成	第38-40页
·文本模板处理	第40-43页
·模板表示规范	第43-44页
·数据抽取与语义标记	第44-45页
·数据字段抽取	第44-45页
·数据字段语义标记	第45页
·本章小结	第45-46页
第5章系统设计与实现	第46-53页
·总体设计	第46-47页
·网页获取与存储	第47-48页
·网页源	第47-48页
·网页存储	第48页
·格式化处理	第48-49页
·系统实现	第49-52页
·数据存储格式	第49-52页
·系统界面	第52页
·本章小结	第52-53页
第6章实验结果评估	第53-60页
·聚类结果评估	第53-54页
·模板生成结果	第54-55页
·语义标记实验评估	第55-56页
·数据抽取实验评估	第56-59页
·本章小结	第59-60页
第7章总结与展望	第60-63页
·总结	第60-61页
·下一步工作	第61-63页
参考文献	第63-66页
致谢	第66-67页
附录1	第67-71页
作者简历	第71页