Web挖掘中信息采集技术研究与实现
| 摘要 | 第1-4页 |
| ABSTRACT | 第4-8页 |
| 第1章 绪论 | 第8-15页 |
| ·问题提出 | 第8页 |
| ·研究现状 | 第8-13页 |
| ·网页爬取的研究 | 第9-11页 |
| ·信息抽取的研究 | 第11-13页 |
| ·本文的研究内容 | 第13-15页 |
| 第2章 WEB 挖掘中信息采集概述 | 第15-23页 |
| ·WEB 挖掘 | 第15-17页 |
| ·相关概念 | 第15-16页 |
| ·Web 挖掘的分类 | 第16-17页 |
| ·WEB 信息的特点 | 第17-20页 |
| ·WEB 信息采集 | 第20-22页 |
| ·Web 信息采集概述 | 第20-21页 |
| ·工作流程 | 第21-22页 |
| ·小结 | 第22-23页 |
| 第3章 网页爬取 | 第23-38页 |
| ·相关概念 | 第23-26页 |
| ·URL(统一资源定位符) | 第23页 |
| ·HTTP(超文本传输协议) | 第23-25页 |
| ·HTML(超文本标记语言) | 第25-26页 |
| ·网页爬取程序的工作原理 | 第26-28页 |
| ·网页爬取程序的实现 | 第28-33页 |
| ·总体结构及流程 | 第28-29页 |
| ·HTTP 协议解析 | 第29页 |
| ·页面处理 | 第29-31页 |
| ·URL 去重与过滤 | 第31-33页 |
| ·实现的关键技术 | 第33-37页 |
| ·如何提高爬虫性能 | 第33-34页 |
| ·表单验证 | 第34-35页 |
| ·URL 搜集策略 | 第35-37页 |
| ·小结 | 第37-38页 |
| 第4章 网页净化 | 第38-49页 |
| ·概述 | 第38-40页 |
| ·净化的重要性 | 第38页 |
| ·常见的几种网页净化方法 | 第38-40页 |
| ·一种简单的网页净化方法 | 第40-45页 |
| ·网页分块 | 第40-42页 |
| ·正文内容块的识别 | 第42-45页 |
| ·网页净化程序的实现 | 第45-48页 |
| ·实现过程 | 第45-47页 |
| ·净化效果 | 第47-48页 |
| ·小结 | 第48-49页 |
| 第5章 信息抽取 | 第49-68页 |
| ·概述 | 第49-50页 |
| ·相关技术 | 第50-54页 |
| ·XML(可扩展标记语言) | 第50-51页 |
| ·XHTML(可扩展超文本标识语言) | 第51页 |
| ·DOM(文档对象模型) | 第51-52页 |
| ·XPath(XML 路径语言) | 第52-54页 |
| ·基于XPATH 的信息抽取方法 | 第54-61页 |
| ·方法概述 | 第54-55页 |
| ·抽取平台的整体框架 | 第55-56页 |
| ·抽取规则 | 第56-57页 |
| ·抽取规则的优化 | 第57-61页 |
| ·信息抽取程序的实现 | 第61-67页 |
| ·HTML 到XHTML 的转换 | 第61-62页 |
| ·构建DOM 树 | 第62-63页 |
| ·生成抽取规则 | 第63-66页 |
| ·抽取规则执行 | 第66-67页 |
| ·小结 | 第67-68页 |
| 第6章 WEB 信息采集实验与分析 | 第68-73页 |
| ·实验过程 | 第68-71页 |
| ·实验结论 | 第71-73页 |
| 总结与展望 | 第73-75页 |
| 参考文献 | 第75-78页 |
| 发表文章 | 第78-79页 |
| 致谢 | 第79页 |