Web信息智能抽取技术的研究与实现

摘要	第1-5页
ABSTRACT	第5-10页
第一章绪论	第10-15页
·研究背景及意义	第10-12页
·作者工作及论文章节安排	第12-15页
·作者所做工作	第12-13页
·论文章节安排	第13-15页
第二章 Web 信息抽取技术概述	第15-29页
·Web 网页的基本结构和特点	第15-19页
·Web 信息特点	第15-17页
·网站的组织结构	第17-18页
·网页的组织结构	第18页
·网页的噪声数据	第18-19页
·信息抽取与信息检索的比较	第19-20页
·Web 信息抽取技术	第20-27页
·基于正则表达式的信息抽取技术	第20-22页
·基于统计的网页信息抽取技术	第22页
·基于归纳学习的信息抽取技术	第22-23页
·基于HTML 结构的信息抽取技术	第23-24页
·基于隐马尔科夫模型的信息抽取技术	第24-25页
·基于模式匹配的信息抽取技术	第25页
·基于本体论的Web 信息抽取技术	第25-26页
·基于竞争分类的Web 信息抽取技术	第26-27页
·基于Web 查询的信息抽取技术	第27页
·基于NLP 的信息抽取技术	第27页
·本章小结	第27-29页
第三章系统设计原理及整体框架	第29-38页
·系统设计原理	第29页
·系统相关术语定义	第29-31页
·系统总体框架	第31-35页
·逻辑架构模型概览	第31-34页
·逻辑架构设计使用的模式	第34-35页
·数据库设计与实现	第35-37页
·本章小结	第37-38页
第四章启发式规则生成器的设计	第38-49页
·规则生成器的原理	第38页
·DOM 树的原理	第38-39页
·HTMLParser 解析器	第39-41页
·规则集的生成实现	第41-48页
·最小信息富余子树的生成	第41-42页
·分隔符自动识别算法	第42-48页
·本章小结	第48-49页
第五章模板生成器的设计	第49-55页
·基本原理	第49页
·模板结构定义及实现	第49-53页
·模板的定义语言	第49-50页
·模板的定义	第50-52页
·模板的生成及配置	第52-53页
·本章小结	第53-55页
第六章信息抽取器的设计与实现	第55-63页
·信息抽取器原理	第55页
·信息抽取基本流程及关键技术	第55-62页
·信息抽取基本流程	第55-58页
·话题有效性判断	第58页
·增量/多页处理	第58-60页
·发帖者等级处理	第60-61页
·帖子额外属性权值处理	第61-62页
·话题线索权重处理	第62页
·本章小结	第62-63页
第七章测试与分析	第63-68页
·测试环境	第63页
·测试结果及分析	第63-68页
第八章总结与展望	第68-71页
·总结	第68-70页
·展望	第70-71页
致谢	第71-72页
参考文献	第72-76页
攻读硕士期间研究成果	第76-77页