首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于页面结构分析的网页信息抽取方法研究

摘要第1-5页
Abstract第5-8页
第一章 前言第8-14页
   ·课题背景与意义第8页
   ·国内外研究现状第8-12页
   ·论文研究内容第12-13页
   ·论文组织结构第13-14页
第二章 网页信息抽取技术综述第14-22页
   ·网页信息抽取的概念第14页
   ·网页信息抽取的关键技术第14-18页
     ·HTML第14-15页
     ·XML第15-16页
     ·DOM第16-17页
     ·正则表达式第17页
     ·网页分块技术第17-18页
   ·网页信息抽取技术分类第18-21页
     ·基于自然语言处理的网页信息抽取第18-19页
     ·基于Wrapper 的网页信息抽取第19页
     ·基于Ontology 的网页信息抽取第19页
     ·基于Web 查询的网页信息抽取第19-20页
     ·基于HTML结构分析的网页信息抽取第20页
     ·各方法的比较第20-21页
   ·信息抽取评价标准第21页
   ·本章小结第21-22页
第三章 页面结构分析方法第22-32页
   ·页面结构分析技术第22-25页
     ·利用DOM 树分析页面结构第22-23页
     ·利用HTML标签的分布规律分析页面结构第23-24页
     ·利用页面视觉特征分析页面结构第24-25页
     ·各方法的比较第25页
   ·本文的信息抽取方法第25-27页
     ·问题的提出第25-26页
     ·页面视觉特征分析的优势第26-27页
     ·拟解决的关键问题第27页
   ·本文研究的方法第27-31页
     ·VIPS 算法第27-29页
     ·文本聚类第29-31页
   ·本章小结第31-32页
第四章 基于视觉特征的网页信息块抽取方法第32-38页
   ·网页预处理第32页
   ·网页分块第32-33页
   ·块特征提取第33-35页
   ·相似度计算第35-36页
   ·聚类第36-37页
   ·本章小结第37-38页
第五章 网页信息抽取实验系统设计第38-50页
   ·实验环境设定第38页
   ·实验系统结构设计第38-43页
     ·DOM 树构建模块第39页
     ·划分内容块模块第39页
     ·特征提取模块第39-41页
     ·相似度计算模块第41页
     ·聚类模块第41-43页
   ·运行结果及分析第43-49页
     ·网页抽取实验第43-45页
     ·网页分类实验第45-47页
     ·运行结果分析第47-49页
   ·本章小结第49-50页
总结第50-52页
 主要工作第50-51页
 主要创新点第51页
 存在的问题及未来的方向第51-52页
参考文献第52-57页
在学期间的研究成果第57-58页
致谢第58页

论文共58页,点击 下载论文
上一篇:基于半监督的支持向量机网页分类方法
下一篇:跨域Web服务的UCON使用控制模型研究