增量式Web信息采集与信息提取系统的研究与实现

摘要	第1-5页
Abstract	第5-9页
第1章绪论	第9-14页
·研究背景	第9-10页
·研究意义	第10页
·研究现状	第10-13页
·本文安排	第13-14页
第2章 WEB信息采集相关技术研究	第14-26页
·信息采集系统概述	第14-17页
·搜索引擎的基本结构	第14-16页
·信息采集系统的工作原理	第16-17页
·爬虫工作流程	第17-20页
·增量采集技术	第20-22页
·增量采集的定义	第20页
·增量采集策略	第20-22页
·信息抽取技术	第22-25页
·信息抽取的策略	第22-23页
·隐马尔可夫模型	第23-25页
·本章小结	第25-26页
第3章改进的增量采集算法	第26-35页
·目录型网页识别	第26-27页
·目录型网页的定义	第26页
·目录型网页识别算法	第26-27页
·目录型网页识别的应用	第27页
·网页的相似性分析	第27-31页
·基于MD5算法的内容变化判定	第28-30页
·网页去噪算法	第30-31页
·预测网页的变化频率	第31-34页
·泊松模型	第31-33页
·改进的泊松模型	第33-34页
·本章小结	第34-35页
第4章网页信息抽取算法	第35-42页
·网页预处理	第35-39页
·构造抽取模型	第39-40页
·信息提取和精化	第40-41页
·本章小结	第41-42页
第5章系统的实现与分析	第42-55页
·系统需求分析	第42页
·系统设计	第42-44页
·系统实现	第44-52页
·页面采集模块	第44页
·页面解析模块	第44-49页
·URL去重模块	第49页
·页面去重模块	第49-50页
·更新检测模块	第50-52页
·系统增量采集实验	第52-54页
·增量采集实验	第52-53页
·信息提取实验	第53-54页
·本章小结	第54-55页
第6章总结与展望	第55-57页
·总结	第55页
·下一步的工作	第55-57页
致谢	第57-58页
参考文献	第58-63页
攻读硕士学位期间发表的学术论文	第63页