网络文本信息采集分析关键技术研究与实现

表目录	第1-8页
图目录	第8-9页
摘要	第9-10页
ABSTRACT	第10-11页
第一章绪论	第11-15页
·课题的研究背景和意义	第11页
·研究现状与发展趋势	第11-13页
·课题主要研究内容和论文框架	第13-14页
·本章小结	第14-15页
第二章网络文本信息采集分析技术	第15-26页
·HTTP协议下的网络通信机制	第15-19页
·HTTP协议的网络通信流程	第15-16页
·HTTP的报文结构	第16-17页
·HTTP协议的核心——请求和响应消息	第17-19页
·Web数据采集技术	第19-22页
·Web数据采集的基本原理	第19-20页
·聚焦爬虫技术的工作原理	第20-21页
·两种Web数据采集策略	第21-22页
·文本分类技术	第22-25页
·文本分类技术基本原理	第22-24页
·KNN分类器	第24页
·SVM分类器	第24-25页
·本章小结	第25-26页
第三章 Web文本信息抽取技术研究与实现	第26-46页
·Web页面语法组织形式和分析技术研究	第26-32页
·HTML语法分析	第26-27页
·基于HTML的Web文档解析算法	第27-32页
·Web页面分块技术研究	第32-33页
·VIPS算法	第32页
·基于DOM树的方法	第32-33页
·基于VIPS算法的DOM树算法设计与实现	第33-45页
·Web文档DOM树结构研究	第33-35页
·Web页面的基于视觉的内容结构描述	第35-37页
·基于VIPS算法的DOM树算法描述	第37-43页
·基于VIPS算法的DOM树的信息块识别和提取的实现流程	第43-44页
·试验结果与分析	第44-45页
·本章小结	第45-46页
第四章网页文本信息更新自动检测技术研究与实现	第46-56页
·网页更新检测算法	第46-47页
·基于HTML数据流的匹配策略	第46页
·基于网页对象的匹配策略	第46-47页
·基于Web页面信息块的更新检测算法设计与实现	第47-55页
·算法总体设计思想	第47页
·检测算法的实现流程	第47-54页
·算法性能分析	第54-55页
·本章小结	第55-56页
第五章网页排序算法研究与实现	第56-65页
·网页排序算法分析	第56-59页
·基于超链接的网页排序算法	第56-58页
·基于超链接和内容的网页排序算法	第58-59页
·基于网页分块技术的改进HITS算法	第59-64页
·BHITS算法设计	第60页
·BHITS算法流程及实现	第60-62页
·算法试验结果与分析	第62-64页
·本章小结	第64-65页
第六章网页文本信息采集分析系统设计与实现	第65-69页
·系统设计概述	第65-66页
·总体设计思想	第65页
·设计原则和主要设计指标	第65-66页
·系统体系结构	第66-67页
·本课题涉及的关键技术	第67-68页
·本章小结	第68-69页
结束语	第69-71页
参考文献	第71-74页
附录A 网络文本信息采集处理系统相关界面	第74-76页
作者简历攻读硕士学位期间完成的主要工作	第76-77页
致谢	第77页