首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

半结构化网页中商品属性抽取方法研究

中文摘要第1-5页
Abstract第5-10页
第一章 绪论第10-17页
   ·研究背景第10-11页
   ·国内外研究现状第11-14页
   ·研究内容第14-16页
   ·本文结构第16-17页
第二章 任务体系及相关技术介绍第17-31页
   ·任务体系介绍第17-22页
     ·任务定义第17-18页
     ·语料来源与分析第18-21页
     ·网页信息抽取的评价方法介绍第21-22页
   ·网页信息抽取技术分类第22-25页
     ·基于自然语言处理方法的信息抽取第22-23页
     ·基于机器学习归纳包装器的信息抽取第23-24页
     ·基于本体知识的信息抽取第24页
     ·基于结构分析的信息抽取第24-25页
   ·网页信息抽取相关技术介绍第25-29页
     ·超文本标记语言简介第25-27页
     ·基于视觉的网页切分算法简介第27-29页
   ·本章小结第29-31页
第三章 基于属性描述网页块定位的商品属性抽取第31-46页
   ·算法总体框架第31-32页
   ·商品属性描述网页块的定位第32-37页
     ·属性描述网页块的定义及分析第33-34页
     ·基于视觉信息的网页分块第34页
     ·网页块特征提取第34-37页
     ·基于分类器的商品属性描述网页块定位第37页
   ·属性名-值对抽取第37-40页
     ·文本预处理第37-38页
     ·基于单位词表的潜在商品属性值的判定第38-39页
     ·商品属性信息对齐第39-40页
   ·实验设计及结果分析第40-44页
     ·语料的构建及评价标准第40-41页
     ·评价方法第41-42页
     ·基准方法第42页
     ·实验结果和分析第42-44页
   ·本章小结第44-46页
第四章 基于网页标题构建模板的商品属性抽取第46-59页
   ·算法总体框架第46-47页
   ·领域属性词包的构建第47-48页
   ·网页文本片段的细分第48-49页
   ·种子属性名-值对提取第49-50页
     ·优质属性文本片段的筛选第49-50页
     ·双向扩展构建种子属性名-值对第50页
   ·优质模板的学习第50-53页
     ·候选模板构建与筛选第51-52页
     ·加权词表的引入第52页
     ·优质模板选择第52-53页
     ·基于模板的商品属性名-值对抽取第53页
   ·实验及分析第53-58页
     ·实验语料构建第53-54页
     ·基准方法第54-55页
     ·语料分析第55-56页
     ·实验结果分析第56-58页
   ·本章小结第58-59页
第五章 总结与展望第59-61页
   ·本文工作第59-60页
   ·工作展望第60-61页
参考文献第61-65页
攻读学位期间公开发表的论文第65-66页
致谢第66-67页

论文共67页,点击 下载论文
上一篇:分布式数据的反skyline查询算法研究
下一篇:语句压缩及其应用研究