首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

实体搜索爬虫和信息抽取研究

摘要第1-7页
ABSTRACT第7-13页
第一章 绪论第13-23页
   ·研究背景和意义第13-15页
   ·国内外研究现状第15-19页
   ·本文研究内容和创新点第19-20页
   ·本文组织结构第20-23页
第二章 基于联合链接相似度评估的爬虫技术第23-45页
   ·引言第23-24页
   ·聚焦爬行算法及框架第24-38页
     ·页面分类器第25-26页
     ·结果页面分类器第26-27页
     ·链接评估器第27-32页
     ·链接学习器第32-38页
   ·实验与分析第38-44页
     ·数据集第38-39页
     ·实验设计第39-40页
     ·实验结果及分析第40-44页
   ·本章小结第44-45页
第三章 基于视觉信息的WEB页面分割技术第45-66页
   ·引言第45-46页
   ·相关工作第46-47页
   ·WPBL算法第47-56页
     ·Web页面转换第48-49页
     ·Web页面分割第49-52页
     ·CSS抽取器第52页
     ·Web页面块排序第52-56页
   ·基于WPBL的信息抽取第56-58页
     ·Web页面分割和块排序第57页
     ·消除页面噪音信息第57页
     ·基于块的命名实体抽取第57-58页
   ·实验结果第58-65页
     ·数据集第58-59页
     ·WPBL算法性能评估第59-63页
     ·基于WPBL的信息抽取性能第63-64页
     ·噪音消除的精度第64-65页
   ·本章小结第65-66页
第四章 实体层WEB信息抽取技术第66-81页
   ·引言第66-68页
   ·特定领域WEB实体建模第68-70页
     ·基于ER模型Web实体建模第68-69页
     ·本体模型第69-70页
   ·基于迭代抽取的实体信息抽取和集成框架第70-73页
     ·生成页面索引第71页
     ·抽取基本实体属性信息第71-72页
     ·迭代抽取和集成过程第72-73页
   ·使用条件随机域抽取基本属性信息第73-77页
     ·条件随机域模型概述第73-75页
     ·训练集和特征选择第75页
     ·训练和预测第75-76页
     ·实验结果第76-77页
   ·基于内容相似度匹配的块信息抽取第77-80页
     ·算法框架第78页
     ·页面的分割和块的抽取第78-80页
     ·基于贝叶斯分类器的信息块识别第80页
   ·本章小结第80-81页
第五章 用户社会数据推荐研究第81-97页
   ·引言第81-83页
   ·用户社会数据推荐接口设计第83-85页
   ·用户推荐数据融合第85-93页
     ·数据融合概述第85-86页
     ·实体融合相关定义第86-88页
     ·实体融合算法第88-93页
   ·实验与分析第93-95页
     ·数据集第93-94页
     ·评价指标第94页
     ·实验结果及分析第94-95页
   ·本章小结第95-97页
第六章 总结与展望第97-100页
   ·总结第97-98页
   ·下一步的工作第98-100页
参考文献第100-108页
致谢第108-109页
攻读博士学位期间的科研成果第109页

论文共109页,点击 下载论文
上一篇:可信数据库中的隐私保护技术研究
下一篇:基于形式概念分析的Web数据库抽取研究