基于Web的双语资源信息抽取研究

摘要	第1-4页
Abstract	第4-7页
第一章绪论	第7-12页
·语料库的定义与应用	第7-8页
·语料库的定义和分类	第7-8页
·双语平行语料库	第8页
·信息抽取研究的背景	第8-11页
·信息抽取的历史与现状	第8-11页
·信息抽取与信息检索的区别	第11页
·本文讨论的主要问题	第11-12页
第二章因特网语料下载分析及噪音过滤	第12-22页
·语料下载程序	第12-16页
·语料下载程序的设计思想	第13页
·语料下载程序的关键步骤	第13-16页
·网页分析程序	第16-18页
·HTML 网页解析	第16-17页
·网页对象识别方法	第17-18页
·基于分块的网页正文信息抽取算法	第18-20页
·网页噪声分析	第18-19页
·分块算法描述	第19-20页
·本章小结	第20-22页
第三章双语资源的导入、整理和加工	第22-32页
·语料样本的著作权	第22页
·语料数据导入	第22-23页
·对齐与分词处理	第23-27页
·句子对齐	第24-25页
·句子分词	第25-27页
·实例分析	第27-31页
·双语网页对齐	第27-29页
·中文分词功能的实现	第29-31页
·本章小结	第31-32页
第四章信息抽取系统的实现与评价	第32-41页
·信息抽取系统的功能模块	第32页
·信息抽取关键技术的实现	第32-37页
·命名实体识别模块	第32-34页
·句法分析模块	第34页
·篇章分析与推理模块	第34-35页
·知识获取模块	第35-36页
·分装器设计与实现	第36-37页
·评价信息抽取系统	第37-38页
·应用 MUC 评价体系	第37-38页
·应用 ACE 评价体系	第38页
·信息抽取算法的研究	第38-40页
·本章小结	第40-41页
第五章 WEB信息抽取的应用	第41-47页
·抽取双语词汇与术语定义	第41-43页
·识别可能的词对	第41-42页
·抽取术语：识别多词等价形式	第42-43页
·抽取翻译模板	第43-46页
·翻译模板的定义	第43-44页
·模板生成	第44页
·过滤	第44-45页
·评分和选取	第45-46页
·本章小结	第46-47页
第六章总结与展望	第47-48页
参考文献	第48-51页
致谢	第51页