实体搜索爬虫和信息抽取研究
| 摘要 | 第1-7页 |
| ABSTRACT | 第7-13页 |
| 第一章 绪论 | 第13-23页 |
| ·研究背景和意义 | 第13-15页 |
| ·国内外研究现状 | 第15-19页 |
| ·本文研究内容和创新点 | 第19-20页 |
| ·本文组织结构 | 第20-23页 |
| 第二章 基于联合链接相似度评估的爬虫技术 | 第23-45页 |
| ·引言 | 第23-24页 |
| ·聚焦爬行算法及框架 | 第24-38页 |
| ·页面分类器 | 第25-26页 |
| ·结果页面分类器 | 第26-27页 |
| ·链接评估器 | 第27-32页 |
| ·链接学习器 | 第32-38页 |
| ·实验与分析 | 第38-44页 |
| ·数据集 | 第38-39页 |
| ·实验设计 | 第39-40页 |
| ·实验结果及分析 | 第40-44页 |
| ·本章小结 | 第44-45页 |
| 第三章 基于视觉信息的WEB页面分割技术 | 第45-66页 |
| ·引言 | 第45-46页 |
| ·相关工作 | 第46-47页 |
| ·WPBL算法 | 第47-56页 |
| ·Web页面转换 | 第48-49页 |
| ·Web页面分割 | 第49-52页 |
| ·CSS抽取器 | 第52页 |
| ·Web页面块排序 | 第52-56页 |
| ·基于WPBL的信息抽取 | 第56-58页 |
| ·Web页面分割和块排序 | 第57页 |
| ·消除页面噪音信息 | 第57页 |
| ·基于块的命名实体抽取 | 第57-58页 |
| ·实验结果 | 第58-65页 |
| ·数据集 | 第58-59页 |
| ·WPBL算法性能评估 | 第59-63页 |
| ·基于WPBL的信息抽取性能 | 第63-64页 |
| ·噪音消除的精度 | 第64-65页 |
| ·本章小结 | 第65-66页 |
| 第四章 实体层WEB信息抽取技术 | 第66-81页 |
| ·引言 | 第66-68页 |
| ·特定领域WEB实体建模 | 第68-70页 |
| ·基于ER模型Web实体建模 | 第68-69页 |
| ·本体模型 | 第69-70页 |
| ·基于迭代抽取的实体信息抽取和集成框架 | 第70-73页 |
| ·生成页面索引 | 第71页 |
| ·抽取基本实体属性信息 | 第71-72页 |
| ·迭代抽取和集成过程 | 第72-73页 |
| ·使用条件随机域抽取基本属性信息 | 第73-77页 |
| ·条件随机域模型概述 | 第73-75页 |
| ·训练集和特征选择 | 第75页 |
| ·训练和预测 | 第75-76页 |
| ·实验结果 | 第76-77页 |
| ·基于内容相似度匹配的块信息抽取 | 第77-80页 |
| ·算法框架 | 第78页 |
| ·页面的分割和块的抽取 | 第78-80页 |
| ·基于贝叶斯分类器的信息块识别 | 第80页 |
| ·本章小结 | 第80-81页 |
| 第五章 用户社会数据推荐研究 | 第81-97页 |
| ·引言 | 第81-83页 |
| ·用户社会数据推荐接口设计 | 第83-85页 |
| ·用户推荐数据融合 | 第85-93页 |
| ·数据融合概述 | 第85-86页 |
| ·实体融合相关定义 | 第86-88页 |
| ·实体融合算法 | 第88-93页 |
| ·实验与分析 | 第93-95页 |
| ·数据集 | 第93-94页 |
| ·评价指标 | 第94页 |
| ·实验结果及分析 | 第94-95页 |
| ·本章小结 | 第95-97页 |
| 第六章 总结与展望 | 第97-100页 |
| ·总结 | 第97-98页 |
| ·下一步的工作 | 第98-100页 |
| 参考文献 | 第100-108页 |
| 致谢 | 第108-109页 |
| 攻读博士学位期间的科研成果 | 第109页 |