Web信息智能抽取技术的研究与实现
摘要 | 第1-5页 |
ABSTRACT | 第5-10页 |
第一章 绪论 | 第10-15页 |
·研究背景及意义 | 第10-12页 |
·作者工作及论文章节安排 | 第12-15页 |
·作者所做工作 | 第12-13页 |
·论文章节安排 | 第13-15页 |
第二章 Web 信息抽取技术概述 | 第15-29页 |
·Web 网页的基本结构和特点 | 第15-19页 |
·Web 信息特点 | 第15-17页 |
·网站的组织结构 | 第17-18页 |
·网页的组织结构 | 第18页 |
·网页的噪声数据 | 第18-19页 |
·信息抽取与信息检索的比较 | 第19-20页 |
·Web 信息抽取技术 | 第20-27页 |
·基于正则表达式的信息抽取技术 | 第20-22页 |
·基于统计的网页信息抽取技术 | 第22页 |
·基于归纳学习的信息抽取技术 | 第22-23页 |
·基于HTML 结构的信息抽取技术 | 第23-24页 |
·基于隐马尔科夫模型的信息抽取技术 | 第24-25页 |
·基于模式匹配的信息抽取技术 | 第25页 |
·基于本体论的Web 信息抽取技术 | 第25-26页 |
·基于竞争分类的Web 信息抽取技术 | 第26-27页 |
·基于Web 查询的信息抽取技术 | 第27页 |
·基于NLP 的信息抽取技术 | 第27页 |
·本章小结 | 第27-29页 |
第三章 系统设计原理及整体框架 | 第29-38页 |
·系统设计原理 | 第29页 |
·系统相关术语定义 | 第29-31页 |
·系统总体框架 | 第31-35页 |
·逻辑架构模型概览 | 第31-34页 |
·逻辑架构设计使用的模式 | 第34-35页 |
·数据库设计与实现 | 第35-37页 |
·本章小结 | 第37-38页 |
第四章 启发式规则生成器的设计 | 第38-49页 |
·规则生成器的原理 | 第38页 |
·DOM 树的原理 | 第38-39页 |
·HTMLParser 解析器 | 第39-41页 |
·规则集的生成实现 | 第41-48页 |
·最小信息富余子树的生成 | 第41-42页 |
·分隔符自动识别算法 | 第42-48页 |
·本章小结 | 第48-49页 |
第五章 模板生成器的设计 | 第49-55页 |
·基本原理 | 第49页 |
·模板结构定义及实现 | 第49-53页 |
·模板的定义语言 | 第49-50页 |
·模板的定义 | 第50-52页 |
·模板的生成及配置 | 第52-53页 |
·本章小结 | 第53-55页 |
第六章 信息抽取器的设计与实现 | 第55-63页 |
·信息抽取器原理 | 第55页 |
·信息抽取基本流程及关键技术 | 第55-62页 |
·信息抽取基本流程 | 第55-58页 |
·话题有效性判断 | 第58页 |
·增量/多页处理 | 第58-60页 |
·发帖者等级处理 | 第60-61页 |
·帖子额外属性权值处理 | 第61-62页 |
·话题线索权重处理 | 第62页 |
·本章小结 | 第62-63页 |
第七章 测试与分析 | 第63-68页 |
·测试环境 | 第63页 |
·测试结果及分析 | 第63-68页 |
第八章 总结与展望 | 第68-71页 |
·总结 | 第68-70页 |
·展望 | 第70-71页 |
致谢 | 第71-72页 |
参考文献 | 第72-76页 |
攻读硕士期间研究成果 | 第76-77页 |