首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--自动化系统论文--数据处理、数据处理系统论文

Web挖掘中信息采集技术研究与实现

摘要第1-4页
ABSTRACT第4-8页
第1章 绪论第8-15页
   ·问题提出第8页
   ·研究现状第8-13页
     ·网页爬取的研究第9-11页
     ·信息抽取的研究第11-13页
   ·本文的研究内容第13-15页
第2章 WEB 挖掘中信息采集概述第15-23页
   ·WEB 挖掘第15-17页
     ·相关概念第15-16页
     ·Web 挖掘的分类第16-17页
   ·WEB 信息的特点第17-20页
   ·WEB 信息采集第20-22页
     ·Web 信息采集概述第20-21页
     ·工作流程第21-22页
   ·小结第22-23页
第3章 网页爬取第23-38页
   ·相关概念第23-26页
     ·URL(统一资源定位符)第23页
     ·HTTP(超文本传输协议)第23-25页
     ·HTML(超文本标记语言)第25-26页
   ·网页爬取程序的工作原理第26-28页
   ·网页爬取程序的实现第28-33页
     ·总体结构及流程第28-29页
     ·HTTP 协议解析第29页
     ·页面处理第29-31页
     ·URL 去重与过滤第31-33页
   ·实现的关键技术第33-37页
     ·如何提高爬虫性能第33-34页
     ·表单验证第34-35页
     ·URL 搜集策略第35-37页
   ·小结第37-38页
第4章 网页净化第38-49页
   ·概述第38-40页
     ·净化的重要性第38页
     ·常见的几种网页净化方法第38-40页
   ·一种简单的网页净化方法第40-45页
     ·网页分块第40-42页
     ·正文内容块的识别第42-45页
   ·网页净化程序的实现第45-48页
     ·实现过程第45-47页
     ·净化效果第47-48页
   ·小结第48-49页
第5章 信息抽取第49-68页
   ·概述第49-50页
   ·相关技术第50-54页
     ·XML(可扩展标记语言)第50-51页
     ·XHTML(可扩展超文本标识语言)第51页
     ·DOM(文档对象模型)第51-52页
     ·XPath(XML 路径语言)第52-54页
   ·基于XPATH 的信息抽取方法第54-61页
     ·方法概述第54-55页
     ·抽取平台的整体框架第55-56页
     ·抽取规则第56-57页
     ·抽取规则的优化第57-61页
   ·信息抽取程序的实现第61-67页
     ·HTML 到XHTML 的转换第61-62页
     ·构建DOM 树第62-63页
     ·生成抽取规则第63-66页
     ·抽取规则执行第66-67页
   ·小结第67-68页
第6章 WEB 信息采集实验与分析第68-73页
   ·实验过程第68-71页
   ·实验结论第71-73页
总结与展望第73-75页
参考文献第75-78页
发表文章第78-79页
致谢第79页

论文共79页,点击 下载论文
上一篇:我国图书流通产业组织研究
下一篇:数据挖掘技术在教学管理中的应用研究