首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向特定领域的Deep Web数据自动抽取

摘要第1-8页
Abstract第8-12页
1 引言第12-20页
   ·研究背景和意义第12-14页
     ·Deep Web 的概念第12页
     ·Deep Web 的发展第12-13页
     ·Deep Web 网站特点第13-14页
   ·国内外研究现状第14-17页
     ·Deep Web 入口查找第14-15页
     ·Deep Web 交互技术第15页
     ·Deep Web 详细页面定位第15-16页
     ·Deep Web 详细页面自动抽取第16-17页
   ·论文的主要研究问题第17-18页
     ·Deep Web 入口查找第17页
     ·Deep Web 交互技术第17-18页
     ·Deep Web 详细页面定位第18页
     ·Deep Web 详细页面数据抽取第18页
   ·论文的主要内容和章节安排第18-20页
     ·论文的主要内容第18-19页
     ·论文的章节安排第19-20页
2 基于决策树的入口查找方法第20-37页
   ·问题描述第20-22页
   ·入口搜索聚焦爬虫第22-29页
     ·面向领域的聚焦爬虫第22-24页
     ·爬虫网页搜索策略第24-25页
     ·URL 链接提取第25-26页
     ·Bloom Filter 技术第26-29页
   ·基于决策树的 Deep Web 查询入口分类方法第29-36页
     ·决策树算法第29-32页
     ·数据准备第32-33页
     ·分类模型学习第33-36页
     ·入口配置文件抽取第36页
   ·小结第36-37页
3 Deep Web 交互工具研究第37-43页
   ·问题描述第37页
   ·交互技术第37-42页
     ·模拟请求包第38-39页
     ·模拟 HTTP 方法第39-40页
     ·模拟浏览器第40-42页
   ·小结第42-43页
4 基于聚类算法的详细页面定位方法第43-57页
   ·问题描述第43-44页
   ·K-Means 算法第44-46页
     ·聚类算法第44-45页
     ·距离函数第45-46页
   ·聚类实验第46-54页
     ·数据准备第47-48页
     ·K-Means 实验第48-50页
     ·特征加权第50-54页
   ·Tidy 简介第54-56页
     ·功能介绍第54-56页
     ·Tidy 的使用第56页
   ·小结第56-57页
5 基于树匹配算法的详细页面抽取方法第57-67页
   ·问题描述第57页
   ·树匹配算法第57-59页
     ·字符串编辑距离第57-58页
     ·简单树编辑距离第58-59页
   ·基于树匹配算法详细页面抽取第59-64页
     ·建立页面树第60-61页
     ·生成 Wrapper第61-63页
     ·Wrapper 的优化第63-64页
   ·详细页面抽取实验第64-66页
   ·小结第66-67页
6 总结与展望第67-69页
   ·总结第67页
   ·展望第67-69页
参考文献第69-74页
致谢第74-75页
个人简历第75页
发表的学术论文第75页
研究项目第75页

论文共75页,点击 下载论文
上一篇:校园网异常流量分析系统设计与实现
下一篇:HID规范在智能遥控系统中的研究与应用