WEB实体信息的提取算法及其应用研究

摘要	第5-7页
abstract	第7-8页
第一章绪论	第11-17页
1.1 研究背景及意义	第11-12页
1.2 国内外研究现状	第12-14页
1.3 本文主要研究内容和贡献	第14-15页
1.4 本文结构安排	第15-17页
第二章论文相关基础技术知识介绍	第17-29页
2.1 网络爬虫技术概述	第17-22页
2.1.1 网络爬虫基本流程	第17-18页
2.1.2 网络爬虫搜索策略	第18-20页
2.1.3 网络爬虫分类	第20-22页
2.2 WEB信息提取经典技术概述	第22-28页
2.2.1 WEB信息提取技术特点	第22-23页
2.2.2 WEB信息提取技术分类	第23-28页
2.3 本章小结	第28-29页
第三章 WEB实体信息的提取算法	第29-50页
3.1 WEB实体信息提取算法的研究基础和目标	第29-33页
3.1.1 WEB实体信息提取算法的研究基础	第29-31页
3.1.2 WEB实体信息提取算法实现目标及框架	第31-33页
3.2 有监督的广度优先网页带权搜索策略	第33-42页
3.2.1 正则表达式	第34页
3.2.2 正则表达式过滤器	第34-39页
3.2.2.1 URL识别	第35-36页
3.2.2.2 URL正则表达式生成规则	第36-37页
3.2.2.3 URL聚类	第37-39页
3.2.3 带权网页计算	第39-42页
3.2.3.1 主题孤岛问题	第40-41页
3.2.3.2 基于隧道技术的网页权值计算	第41-42页
3.3 数据解析路径模板自动抽取	第42-49页
3.3.1 数据解析路径模板自动生成提出基础	第42-44页
3.3.2 提取目标页面公共节点路径模板	第44-46页
3.3.3 生成精确数据解析路径	第46-49页
3.4 本章小结	第49-50页
第四章通用型垂直爬虫系统的实现及实验分析	第50-79页
4.1 系统设计与实现	第50-60页
4.1.1 系统实现基础技术介绍	第50-52页
4.1.2 系统框架和模块设计	第52-56页
4.1.3 系统界面层展示	第56-60页
4.2 实验结果与分析	第60-78页
4.2.1 实验环境和内容	第60页
4.2.2 多种类型网站实验结果及分析	第60-70页
4.2.2.1 大众点评网实验分析	第60-64页
4.2.2.2 新浪股票网站实验分析	第64-67页
4.2.2.3 搜狐军事网站实验分析	第67-68页
4.2.2.4 新华网论坛实验分析	第68-70页
4.2.3 初始化阶段实验结果及分析	第70-72页
4.2.4 正式爬取阶段与现有技术实验对比分析	第72-78页
4.2.4.1 配置信息便捷性	第72-73页
4.2.4.2 数据爬取效率	第73-75页
4.2.4.3 数据采集完整性	第75-76页
4.2.4.4 数据采集准确性	第76-78页
4.3 本章小结	第78-79页
第五章总结与展望	第79-81页
5.1 全文总结	第79-80页
5.2 工作展望	第80-81页
致谢	第81-82页
参考文献	第82-85页
攻读硕士期间取得的研究成果	第85页