Web页面中结构化数据抽取的实现与应用

中文摘要	第1-4页
ABSTRACT	第4-7页
第一章绪论	第7-12页
·Web 信息抽取技术的发展背景	第7页
·Web 信息抽取技术的难点	第7-8页
·Web 信息抽取技术国内外研究情况	第8-11页
·基于本体的信息抽取	第9页
·基于位置的信息抽取	第9-10页
·基于自然语言处理方式的信息抽取	第10页
·基于包装器归纳方式的信息抽取	第10-11页
·基于Web 查询的信息抽取	第11页
·论文工作说明	第11-12页
第二章相同模板页面的模板推断和结构化数据抽取	第12-44页
·介绍	第12-14页
·问题的描述与定义	第14-20页
·模型与问题的公式化定义	第14-15页
·结构化数据的形式定义	第15-17页
·网页生成模型和模板	第17-19页
·综述与问题	第19-20页
·EXALG 算法思想及分析	第20-29页
·EXALG 算法思想简介	第20-22页
·等价类和高频等价类（LFEQs）的定义	第22-23页
·有效等价类的判定	第23-24页
·token 职能的区分	第24-26页
·模板T 的生成	第26-28页
·EXALG 算法思想的总结	第28-29页
·仿真算法EXALG_tju 的提出及其实现描述	第29-41页
·对token 重新定义	第29-32页
·通过格式区分token 职能的实现	第32-33页
·等价类的查找	第33-34页
·有效等价类的获取	第34-39页
·模板的创建	第39-40页
·包装器的生成与结构化数据的抽取	第40-41页
·EXALG_tju 算法的实验结果与分析	第41-42页
·EXALG_tju 算法的深入思考	第42-44页
·算法对输入网页模板个数的限制	第42-43页
·算法在抽取过程中对网页结构变化的抗干扰能力	第43-44页
第三章网页中单一领域半结构化文本的信息抽取	第44-50页
·网页中的半结构化文本	第44-45页
·半结构化文本的信息抽取	第45-47页
·半结构化文本的结构特征	第45-46页
·分割符的特征	第46页
·字段名和信息内容的特征	第46-47页
·面向单一领域半结构化文本的信息提取	第47页
·半结构文本中字段名的模糊匹配	第47-49页
·半结构化文本抽取的实验结果与分析	第49-50页
第四章 Web 信息抽取技术在实际项目中的应用	第50-53页
·面向创新技术信息领域的垂直搜索引擎系统	第50-51页
·Web 信息抽取技术在引擎系统中的使用	第51-53页
第五章结论与展望	第53-55页
参考文献	第55-57页
发表论文和科研情况说明	第57-58页
致谢	第58页