首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

Web页面中结构化数据抽取的实现与应用

中文摘要第1-4页
 ABSTRACT第4-7页
第一章 绪论第7-12页
   ·Web 信息抽取技术的发展背景第7页
   ·Web 信息抽取技术的难点第7-8页
   ·Web 信息抽取技术国内外研究情况第8-11页
     ·基于本体的信息抽取第9页
     ·基于位置的信息抽取第9-10页
     ·基于自然语言处理方式的信息抽取第10页
     ·基于包装器归纳方式的信息抽取第10-11页
     ·基于Web 查询的信息抽取第11页
   ·论文工作说明第11-12页
第二章 相同模板页面的模板推断和结构化数据抽取第12-44页
   ·介绍第12-14页
   ·问题的描述与定义第14-20页
     ·模型与问题的公式化定义第14-15页
     ·结构化数据的形式定义第15-17页
     ·网页生成模型和模板第17-19页
     ·综述与问题第19-20页
   ·EXALG 算法思想及分析第20-29页
     ·EXALG 算法思想简介第20-22页
     ·等价类和高频等价类(LFEQs)的定义第22-23页
     ·有效等价类的判定第23-24页
     ·token 职能的区分第24-26页
     ·模板T 的生成第26-28页
     ·EXALG 算法思想的总结第28-29页
   ·仿真算法EXALG_tju 的提出及其实现描述第29-41页
     ·对token 重新定义第29-32页
     ·通过格式区分token 职能的实现第32-33页
     ·等价类的查找第33-34页
     ·有效等价类的获取第34-39页
     ·模板的创建第39-40页
     ·包装器的生成与结构化数据的抽取第40-41页
   ·EXALG_tju 算法的实验结果与分析第41-42页
   ·EXALG_tju 算法的深入思考第42-44页
     ·算法对输入网页模板个数的限制第42-43页
     ·算法在抽取过程中对网页结构变化的抗干扰能力第43-44页
第三章 网页中单一领域半结构化文本的信息抽取第44-50页
   ·网页中的半结构化文本第44-45页
   ·半结构化文本的信息抽取第45-47页
     ·半结构化文本的结构特征第45-46页
     ·分割符的特征第46页
     ·字段名和信息内容的特征第46-47页
     ·面向单一领域半结构化文本的信息提取第47页
   ·半结构文本中字段名的模糊匹配第47-49页
   ·半结构化文本抽取的实验结果与分析第49-50页
第四章 Web 信息抽取技术在实际项目中的应用第50-53页
   ·面向创新技术信息领域的垂直搜索引擎系统第50-51页
   ·Web 信息抽取技术在引擎系统中的使用第51-53页
第五章 结论与展望第53-55页
参考文献第55-57页
发表论文和科研情况说明第57-58页
致谢第58页

论文共58页,点击 下载论文
上一篇:七年之痒后的困境突围--电视电影在中国
下一篇:手机报纸现状分析及发展方向初探