首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于标签路径特征的Web新闻内容抽取研究

摘要第1-10页
Abstract第10-12页
致谢第12-19页
第一章 绪论第19-35页
   ·Web信息抽取第19-24页
     ·Web信息抽取的应用背景第19页
     ·Web信息抽取技术发展历程第19-20页
     ·Web信息抽取技术分类第20-23页
     ·Web信息抽取技术面临的挑战第23-24页
   ·Web新闻内容抽取第24-30页
     ·Web新闻内容抽取任务第24-25页
     ·Web新闻内容抽取的通用系统模型第25-26页
     ·Web新闻内容抽取方法第26页
     ·Web新闻内容抽取的评价体系第26-29页
     ·语料及其标注第29-30页
   ·主要研究工作第30-34页
     ·课题来源第30页
     ·Web新闻内容抽取存在的问题及本文研究思路第30-31页
     ·相关概念与定义第31页
     ·主要研究目标与研究内容第31-32页
     ·科学意义与应用前景第32-33页
     ·内容组织第33-34页
   ·本章小结第34-35页
第二章 基于路径模式的WEB新闻抽取模型与方法第35-47页
   ·概述第35页
   ·基于路径模式的Web信息抽取系统模型与算法第35-37页
     ·基于路径模式的Web信息抽取系统第35-36页
     ·基于路径模式的Web信息抽取算法第36-37页
   ·区分路径模式挖掘问题第37-39页
   ·区分路径模式挖掘算法第39-42页
     ·路径模式枚举树PE_tree第39-40页
     ·基于PE_tree的区分路径模式挖掘算法APM第40-41页
     ·基于前缀超模式剪枝策略的区分路径模式挖掘算法APM-P第41-42页
   ·APM/APM-P算法性能评估与分析第42-44页
     ·实验数据集与抽取性能评估指标第42页
     ·容噪参数ε的设置第42-43页
     ·与基于领域知识的抽取实验对比第43-44页
     ·实验结果分析第44页
   ·相关工作第44-45页
   ·本章小结第45-47页
第三章 基于极小区分路径模式的WEB新闻内容抽取第47-65页
   ·概述第47页
   ·区分路径模式覆盖问题描述第47-49页
     ·区分路径模式覆盖第47-48页
     ·区分路径模式覆盖求解问题第48-49页
   ·极小区分路径模式挖掘算法第49-53页
     ·极小区分路径模式覆盖及其挖掘算法MPM第49-52页
     ·MPM算法复杂性分析第52-53页
   ·极小区分模式挖掘与新闻网页内容抽取评估第53-61页
     ·实验数据集与抽取性能评估指标第53页
     ·容噪参数ε的设置第53-57页
     ·排序及剪枝策略评估第57-58页
     ·不同语料间的交叉测试第58页
     ·与基于领域知识的抽取实验对比第58-59页
     ·与CETR抽取方法对比第59-60页
     ·实验结果分析第60-61页
   ·相关工作第61-64页
   ·本章小结第64-65页
第四章 基于文本标签路径比的WEB新闻内容抽取第65-89页
   ·概述第65-66页
   ·基于标签路径特征的在线Web信息抽取系统模型第66-67页
   ·文本标签路径比第67-76页
     ·Web新闻网页DOM树与标签路径特征分析第67-69页
     ·文本标签路径比的定义与计算过程第69-73页
     ·扩展的文本标签路径比第73-76页
   ·基于文本标签比的Web新闻内容抽取方法第76-79页
     ·阈值第76页
     ·基于标签路径编辑距离的加权高斯平滑第76-77页
     ·抽取算法CEPR与实现细节第77-79页
   ·参数设置与抽取性能评估第79-85页
     ·实验数据集与抽取性能评估指标第79页
     ·阈值参数兄的设置第79-80页
     ·平滑调节参数α的设置第80-81页
     ·CEPR算法抽取性能评估第81-83页
     ·与CETR抽取方法的对比实验第83-84页
     ·实验结果分析第84-85页
   ·相关工作第85-87页
   ·本章小结第87-89页
第五章 应用实例-HTML新闻网页过滤与总结系统第89-101页
   ·概述第89-90页
   ·NFaS系统架构第90-91页
   ·NFaS系统组件介绍第91-97页
     ·HTML新闻网页识别组件第91-93页
     ·HTML新闻网页内容过滤组件第93-95页
     ·HTML新闻网页内容总结组件第95-97页
   ·系统运行效果评估第97-99页
     ·系统运行界面第97-98页
     ·系统性能评估结果第98-99页
   ·相关工作第99-100页
   ·本章小结第100-101页
第六章 总结与展望第101-105页
   ·本文主要工作第101-102页
   ·工作展望第102-105页
参考文献第105-115页
攻读博士学位期间参加研究的课题和发表的论文第115-118页

论文共118页,点击 下载论文
上一篇:软件开发过程质量与产品质量度量方法研究
下一篇:物体形状的表示与分析关键问题研究