面向特定领域的Deep Web数据自动抽取

摘要	第1-8页
Abstract	第8-12页
1 引言	第12-20页
·研究背景和意义	第12-14页
·Deep Web 的概念	第12页
·Deep Web 的发展	第12-13页
·Deep Web 网站特点	第13-14页
·国内外研究现状	第14-17页
·Deep Web 入口查找	第14-15页
·Deep Web 交互技术	第15页
·Deep Web 详细页面定位	第15-16页
·Deep Web 详细页面自动抽取	第16-17页
·论文的主要研究问题	第17-18页
·Deep Web 入口查找	第17页
·Deep Web 交互技术	第17-18页
·Deep Web 详细页面定位	第18页
·Deep Web 详细页面数据抽取	第18页
·论文的主要内容和章节安排	第18-20页
·论文的主要内容	第18-19页
·论文的章节安排	第19-20页
2 基于决策树的入口查找方法	第20-37页
·问题描述	第20-22页
·入口搜索聚焦爬虫	第22-29页
·面向领域的聚焦爬虫	第22-24页
·爬虫网页搜索策略	第24-25页
·URL 链接提取	第25-26页
·Bloom Filter 技术	第26-29页
·基于决策树的 Deep Web 查询入口分类方法	第29-36页
·决策树算法	第29-32页
·数据准备	第32-33页
·分类模型学习	第33-36页
·入口配置文件抽取	第36页
·小结	第36-37页
3 Deep Web 交互工具研究	第37-43页
·问题描述	第37页
·交互技术	第37-42页
·模拟请求包	第38-39页
·模拟 HTTP 方法	第39-40页
·模拟浏览器	第40-42页
·小结	第42-43页
4 基于聚类算法的详细页面定位方法	第43-57页
·问题描述	第43-44页
·K-Means 算法	第44-46页
·聚类算法	第44-45页
·距离函数	第45-46页
·聚类实验	第46-54页
·数据准备	第47-48页
·K-Means 实验	第48-50页
·特征加权	第50-54页
·Tidy 简介	第54-56页
·功能介绍	第54-56页
·Tidy 的使用	第56页
·小结	第56-57页
5 基于树匹配算法的详细页面抽取方法	第57-67页
·问题描述	第57页
·树匹配算法	第57-59页
·字符串编辑距离	第57-58页
·简单树编辑距离	第58-59页
·基于树匹配算法详细页面抽取	第59-64页
·建立页面树	第60-61页
·生成 Wrapper	第61-63页
·Wrapper 的优化	第63-64页
·详细页面抽取实验	第64-66页
·小结	第66-67页
6 总结与展望	第67-69页
·总结	第67页
·展望	第67-69页
参考文献	第69-74页
致谢	第74-75页
个人简历	第75页
发表的学术论文	第75页
研究项目	第75页