开放存取期刊论文自动采集方法的研究

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-16页
·课题背景及意义	第10-11页
·国内外研究现状	第11-13页
·OA 资源利用与发展现状	第11-12页
·Web 信息资源采集研究现状	第12-13页
·本文的主要研究内容	第13-14页
·本文组织结构	第14-16页
第2章基础知识和相关技术	第16-26页
·HTML 基础	第16-19页
·HTML 简介	第16页
·HTML DOM 树	第16-18页
·HTML 解析工具的介绍	第18-19页
·HTTP 协议分析	第19-20页
·HTTP 协议概述	第19页
·HTTP 协议报头信息	第19-20页
·网络爬虫技术介绍	第20-22页
·Web 信息抽取技术	第22-25页
·本章小结	第25-26页
第3章 OA 期刊论文自动采集框架的设计	第26-38页
·OA 期刊论文自动采集框架	第26-30页
·采集系统的总体架构	第26-27页
·系统总体模块	第27-28页
·系统工作流程	第28-29页
·系统的性能指标及工作原理	第29-30页
·采集系统中的主要模块及关键问题	第30-36页
·页面更新检测模块	第30-32页
·论文采集模块	第32-35页
·采集系统中的关键问题	第35-36页
·本章小结	第36-38页
第4章 OA 期刊卷期目录链接的提取方法	第38-49页
·问题描述	第38-39页
·问题解决方法	第39页
·基于网页原子分割和内容块聚类的网页分块方法	第39-43页
·网页的原子分割	第39-41页
·原子内容块聚类	第41-43页
·卷期目录链接块的识别算法	第43-47页
·相关定义	第43-44页
·链接文本相似度的计算	第44页
·Bayes 后验概率的计算	第44-46页
·卷期目录链接的识别算法	第46-47页
·本章小结	第47-49页
第5章实验验证与分析	第49-58页
·实验环境的搭建	第49-51页
·系统环境的配置	第49-50页
·系统整体界面	第50-51页
·OA 期刊站点服务注册	第51页
·实验数据来源及评价标准	第51-52页
·实验数据来源	第51页
·实验评价标准	第51-52页
·卷期目录链接提取方法的验证	第52-54页
·网页分块算法的对比分析	第52-53页
·卷期目录链接识别和提取算法的验证	第53-54页
·自动采集系统性能的分析	第54-57页
·本章小结	第57-58页
结论	第58-60页
参考文献	第60-64页
攻读硕士学位期间承担的科研任务与主要成果	第64-65页
致谢	第65-66页
作者简介	第66页