Web挖掘中信息采集技术研究与实现
摘要 | 第1-4页 |
ABSTRACT | 第4-8页 |
第1章 绪论 | 第8-15页 |
·问题提出 | 第8页 |
·研究现状 | 第8-13页 |
·网页爬取的研究 | 第9-11页 |
·信息抽取的研究 | 第11-13页 |
·本文的研究内容 | 第13-15页 |
第2章 WEB 挖掘中信息采集概述 | 第15-23页 |
·WEB 挖掘 | 第15-17页 |
·相关概念 | 第15-16页 |
·Web 挖掘的分类 | 第16-17页 |
·WEB 信息的特点 | 第17-20页 |
·WEB 信息采集 | 第20-22页 |
·Web 信息采集概述 | 第20-21页 |
·工作流程 | 第21-22页 |
·小结 | 第22-23页 |
第3章 网页爬取 | 第23-38页 |
·相关概念 | 第23-26页 |
·URL(统一资源定位符) | 第23页 |
·HTTP(超文本传输协议) | 第23-25页 |
·HTML(超文本标记语言) | 第25-26页 |
·网页爬取程序的工作原理 | 第26-28页 |
·网页爬取程序的实现 | 第28-33页 |
·总体结构及流程 | 第28-29页 |
·HTTP 协议解析 | 第29页 |
·页面处理 | 第29-31页 |
·URL 去重与过滤 | 第31-33页 |
·实现的关键技术 | 第33-37页 |
·如何提高爬虫性能 | 第33-34页 |
·表单验证 | 第34-35页 |
·URL 搜集策略 | 第35-37页 |
·小结 | 第37-38页 |
第4章 网页净化 | 第38-49页 |
·概述 | 第38-40页 |
·净化的重要性 | 第38页 |
·常见的几种网页净化方法 | 第38-40页 |
·一种简单的网页净化方法 | 第40-45页 |
·网页分块 | 第40-42页 |
·正文内容块的识别 | 第42-45页 |
·网页净化程序的实现 | 第45-48页 |
·实现过程 | 第45-47页 |
·净化效果 | 第47-48页 |
·小结 | 第48-49页 |
第5章 信息抽取 | 第49-68页 |
·概述 | 第49-50页 |
·相关技术 | 第50-54页 |
·XML(可扩展标记语言) | 第50-51页 |
·XHTML(可扩展超文本标识语言) | 第51页 |
·DOM(文档对象模型) | 第51-52页 |
·XPath(XML 路径语言) | 第52-54页 |
·基于XPATH 的信息抽取方法 | 第54-61页 |
·方法概述 | 第54-55页 |
·抽取平台的整体框架 | 第55-56页 |
·抽取规则 | 第56-57页 |
·抽取规则的优化 | 第57-61页 |
·信息抽取程序的实现 | 第61-67页 |
·HTML 到XHTML 的转换 | 第61-62页 |
·构建DOM 树 | 第62-63页 |
·生成抽取规则 | 第63-66页 |
·抽取规则执行 | 第66-67页 |
·小结 | 第67-68页 |
第6章 WEB 信息采集实验与分析 | 第68-73页 |
·实验过程 | 第68-71页 |
·实验结论 | 第71-73页 |
总结与展望 | 第73-75页 |
参考文献 | 第75-78页 |
发表文章 | 第78-79页 |
致谢 | 第79页 |