Web挖掘中信息采集技术研究与实现

摘要	第1-4页
ABSTRACT	第4-8页
第1章绪论	第8-15页
·问题提出	第8页
·研究现状	第8-13页
·网页爬取的研究	第9-11页
·信息抽取的研究	第11-13页
·本文的研究内容	第13-15页
第2章 WEB 挖掘中信息采集概述	第15-23页
·WEB 挖掘	第15-17页
·相关概念	第15-16页
·Web 挖掘的分类	第16-17页
·WEB 信息的特点	第17-20页
·WEB 信息采集	第20-22页
·Web 信息采集概述	第20-21页
·工作流程	第21-22页
·小结	第22-23页
第3章网页爬取	第23-38页
·相关概念	第23-26页
·URL(统一资源定位符)	第23页
·HTTP(超文本传输协议)	第23-25页
·HTML(超文本标记语言)	第25-26页
·网页爬取程序的工作原理	第26-28页
·网页爬取程序的实现	第28-33页
·总体结构及流程	第28-29页
·HTTP 协议解析	第29页
·页面处理	第29-31页
·URL 去重与过滤	第31-33页
·实现的关键技术	第33-37页
·如何提高爬虫性能	第33-34页
·表单验证	第34-35页
·URL 搜集策略	第35-37页
·小结	第37-38页
第4章网页净化	第38-49页
·概述	第38-40页
·净化的重要性	第38页
·常见的几种网页净化方法	第38-40页
·一种简单的网页净化方法	第40-45页
·网页分块	第40-42页
·正文内容块的识别	第42-45页
·网页净化程序的实现	第45-48页
·实现过程	第45-47页
·净化效果	第47-48页
·小结	第48-49页
第5章信息抽取	第49-68页
·概述	第49-50页
·相关技术	第50-54页
·XML(可扩展标记语言)	第50-51页
·XHTML(可扩展超文本标识语言)	第51页
·DOM(文档对象模型)	第51-52页
·XPath(XML 路径语言)	第52-54页
·基于XPATH 的信息抽取方法	第54-61页
·方法概述	第54-55页
·抽取平台的整体框架	第55-56页
·抽取规则	第56-57页
·抽取规则的优化	第57-61页
·信息抽取程序的实现	第61-67页
·HTML 到XHTML 的转换	第61-62页
·构建DOM 树	第62-63页
·生成抽取规则	第63-66页
·抽取规则执行	第66-67页
·小结	第67-68页
第6章 WEB 信息采集实验与分析	第68-73页
·实验过程	第68-71页
·实验结论	第71-73页
总结与展望	第73-75页
参考文献	第75-78页
发表文章	第78-79页
致谢	第79页