摘要 | 第1-10页 |
Abstract | 第10-12页 |
致谢 | 第12-19页 |
第一章 绪论 | 第19-35页 |
·Web信息抽取 | 第19-24页 |
·Web信息抽取的应用背景 | 第19页 |
·Web信息抽取技术发展历程 | 第19-20页 |
·Web信息抽取技术分类 | 第20-23页 |
·Web信息抽取技术面临的挑战 | 第23-24页 |
·Web新闻内容抽取 | 第24-30页 |
·Web新闻内容抽取任务 | 第24-25页 |
·Web新闻内容抽取的通用系统模型 | 第25-26页 |
·Web新闻内容抽取方法 | 第26页 |
·Web新闻内容抽取的评价体系 | 第26-29页 |
·语料及其标注 | 第29-30页 |
·主要研究工作 | 第30-34页 |
·课题来源 | 第30页 |
·Web新闻内容抽取存在的问题及本文研究思路 | 第30-31页 |
·相关概念与定义 | 第31页 |
·主要研究目标与研究内容 | 第31-32页 |
·科学意义与应用前景 | 第32-33页 |
·内容组织 | 第33-34页 |
·本章小结 | 第34-35页 |
第二章 基于路径模式的WEB新闻抽取模型与方法 | 第35-47页 |
·概述 | 第35页 |
·基于路径模式的Web信息抽取系统模型与算法 | 第35-37页 |
·基于路径模式的Web信息抽取系统 | 第35-36页 |
·基于路径模式的Web信息抽取算法 | 第36-37页 |
·区分路径模式挖掘问题 | 第37-39页 |
·区分路径模式挖掘算法 | 第39-42页 |
·路径模式枚举树PE_tree | 第39-40页 |
·基于PE_tree的区分路径模式挖掘算法APM | 第40-41页 |
·基于前缀超模式剪枝策略的区分路径模式挖掘算法APM-P | 第41-42页 |
·APM/APM-P算法性能评估与分析 | 第42-44页 |
·实验数据集与抽取性能评估指标 | 第42页 |
·容噪参数ε的设置 | 第42-43页 |
·与基于领域知识的抽取实验对比 | 第43-44页 |
·实验结果分析 | 第44页 |
·相关工作 | 第44-45页 |
·本章小结 | 第45-47页 |
第三章 基于极小区分路径模式的WEB新闻内容抽取 | 第47-65页 |
·概述 | 第47页 |
·区分路径模式覆盖问题描述 | 第47-49页 |
·区分路径模式覆盖 | 第47-48页 |
·区分路径模式覆盖求解问题 | 第48-49页 |
·极小区分路径模式挖掘算法 | 第49-53页 |
·极小区分路径模式覆盖及其挖掘算法MPM | 第49-52页 |
·MPM算法复杂性分析 | 第52-53页 |
·极小区分模式挖掘与新闻网页内容抽取评估 | 第53-61页 |
·实验数据集与抽取性能评估指标 | 第53页 |
·容噪参数ε的设置 | 第53-57页 |
·排序及剪枝策略评估 | 第57-58页 |
·不同语料间的交叉测试 | 第58页 |
·与基于领域知识的抽取实验对比 | 第58-59页 |
·与CETR抽取方法对比 | 第59-60页 |
·实验结果分析 | 第60-61页 |
·相关工作 | 第61-64页 |
·本章小结 | 第64-65页 |
第四章 基于文本标签路径比的WEB新闻内容抽取 | 第65-89页 |
·概述 | 第65-66页 |
·基于标签路径特征的在线Web信息抽取系统模型 | 第66-67页 |
·文本标签路径比 | 第67-76页 |
·Web新闻网页DOM树与标签路径特征分析 | 第67-69页 |
·文本标签路径比的定义与计算过程 | 第69-73页 |
·扩展的文本标签路径比 | 第73-76页 |
·基于文本标签比的Web新闻内容抽取方法 | 第76-79页 |
·阈值 | 第76页 |
·基于标签路径编辑距离的加权高斯平滑 | 第76-77页 |
·抽取算法CEPR与实现细节 | 第77-79页 |
·参数设置与抽取性能评估 | 第79-85页 |
·实验数据集与抽取性能评估指标 | 第79页 |
·阈值参数兄的设置 | 第79-80页 |
·平滑调节参数α的设置 | 第80-81页 |
·CEPR算法抽取性能评估 | 第81-83页 |
·与CETR抽取方法的对比实验 | 第83-84页 |
·实验结果分析 | 第84-85页 |
·相关工作 | 第85-87页 |
·本章小结 | 第87-89页 |
第五章 应用实例-HTML新闻网页过滤与总结系统 | 第89-101页 |
·概述 | 第89-90页 |
·NFaS系统架构 | 第90-91页 |
·NFaS系统组件介绍 | 第91-97页 |
·HTML新闻网页识别组件 | 第91-93页 |
·HTML新闻网页内容过滤组件 | 第93-95页 |
·HTML新闻网页内容总结组件 | 第95-97页 |
·系统运行效果评估 | 第97-99页 |
·系统运行界面 | 第97-98页 |
·系统性能评估结果 | 第98-99页 |
·相关工作 | 第99-100页 |
·本章小结 | 第100-101页 |
第六章 总结与展望 | 第101-105页 |
·本文主要工作 | 第101-102页 |
·工作展望 | 第102-105页 |
参考文献 | 第105-115页 |
攻读博士学位期间参加研究的课题和发表的论文 | 第115-118页 |