首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于文档结构的半监督Blog信息抽取技术

摘要第1-5页
Abstract第5-10页
第1章 绪论第10-18页
   ·研究背景和意义第10-11页
     ·研究背景第10页
     ·研究意义第10-11页
   ·国内外研究和综述第11-15页
     ·页面分块技术现状第11-12页
     ·信息抽取技术现状第12-15页
   ·研究问题定义第15-16页
   ·本文研究内容第16页
   ·本文结构安排第16-18页
第2章 Blog数据特征分析第18-23页
   ·BLOG页面特点分析第18-19页
     ·Blog页面模板化第18-19页
     ·Blog页面模块化第19页
     ·Blog页面个性化第19页
   ·BLOG页面模块定义第19-20页
   ·BLOG数据表示第20-22页
     ·HTML文档解析第20页
     ·Blog页面数据特征表示第20-22页
   ·本章小结第22-23页
第3章 基于子树相似性的Blog页面分块第23-36页
   ·引言第23-24页
   ·BLOG页面分块算法第24-30页
     ·算法描述第24-25页
     ·页面Html标签树的构建第25-30页
   ·BLOG页面分块的层次性第30-31页
   ·BLOG模块分类第31-32页
     ·分类属性的选取第31页
     ·分类过程描述第31-32页
   ·实验及结果分析第32-35页
     ·性能评价指标第32-33页
     ·实验结果分析第33-35页
   ·本章小结第35-36页
第4章 基于ontology的Blog信息抽取第36-50页
   ·BLOG领域的ONTOLOGY的构建第36-42页
     ·ontology的定义第36-37页
     ·ontology构建规则第37-38页
     ·ontology构建方法第38-39页
     ·构建Blog ontology第39-41页
     ·Blog ontology概念定义第41-42页
   ·ONTOLOGY概念数据属性的归纳学习第42-44页
   ·抽取规则的构造第44-45页
     ·抽取规则描述第44页
     ·抽取规则的构造第44-45页
   ·信息抽取算法第45-46页
   ·实验及结果分析第46-49页
     ·训练样本生成第46页
     ·信息抽取评价指标第46-47页
     ·实验结果分析第47-49页
   ·本章小结第49-50页
第5章 Blog信息抽取系统第50-57页
   ·系统功能与环境第50-51页
     ·开发目的及功能第50-51页
     ·开发平台及工具第51页
   ·系统总体设计第51-52页
   ·系统模块设计与实现第52-56页
     ·异步网络爬虫模块第52-54页
     ·页面分块模块第54页
     ·可视化标注模块第54页
     ·ontology数据属性归纳学习模块第54-55页
     ·抽取规则生成模块第55页
     ·信息抽取模块第55-56页
   ·本章小结第56-57页
结论第57-59页
参考文献第59-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:基于词语共现的BBS垃圾信息过滤模型
下一篇:基于程序语义的静态恶意代码检测系统的研究与实现