Deep web中基于领域知识的接口集成
摘要 | 第1-6页 |
Abstract | 第6-7页 |
序论 | 第7-10页 |
第1章 相关知识 | 第10-22页 |
·HTML | 第10-14页 |
·HTTP简介 | 第10页 |
·HTML表单 | 第10-12页 |
·HTML DOM | 第12-13页 |
·HTTP协议 | 第13-14页 |
·Deep web接口抽取与集成技术框架 | 第14-22页 |
·术语定义 | 第15-17页 |
·接口的发现与判定 | 第17-18页 |
·接口属性抽取 | 第18-19页 |
·接口查询接口的集成 | 第19-22页 |
第2章 接口集成理论 | 第22-30页 |
·接口的发现 | 第23-25页 |
·网络爬虫 | 第23-24页 |
·基于网络爬虫的接口发现 | 第24-25页 |
·接口的判定 | 第25-27页 |
·接口属性抽取 | 第27-29页 |
·N-Gram算法 | 第28页 |
·基于N-Gram的属性抽取 | 第28-29页 |
·接口模式抽取 | 第29-30页 |
·接口属性的匹配 | 第29页 |
·全局属性抽取 | 第29-30页 |
第3章 接口集成系统 | 第30-48页 |
·基于聚焦网络爬虫的接口发现 | 第30-36页 |
·爬虫入口 | 第30-31页 |
·爬虫工作流程设计 | 第31-33页 |
·页面预处理 | 第33页 |
·页面词频的统计 | 第33-34页 |
·爬虫限定条件 | 第34-35页 |
·候选URL优化 | 第35-36页 |
·查询接口的判别 | 第36-38页 |
·分类器特征提取 | 第37页 |
·使用感知器分类 | 第37-38页 |
·去除非当前领域接口 | 第38页 |
·基于N-Gram的接口属性抽 | 第38-41页 |
·属性抽取总体流程 | 第38-39页 |
·分解表单元素 | 第39-40页 |
·N-Gram匹配过程 | 第40-41页 |
·不匹配的情况 | 第41页 |
·文本语义处理 | 第41-45页 |
·中文分词 | 第41-43页 |
·同义词扩充 | 第43-44页 |
·中文词汇翻译与缓存 | 第44-45页 |
·领域词汇表更新策略 | 第45-48页 |
第4章 有效性验证 | 第48-52页 |
·实验环境 | 第48页 |
·聚焦网络爬虫 | 第48-49页 |
·基于N-Gram的接口抽取 | 第49-50页 |
·接口属性集成 | 第50-52页 |
第5章 总结 | 第52-54页 |
·工作总结 | 第52页 |
·改进之处 | 第52-53页 |
·展望 | 第53-54页 |
参考资料 | 第54-58页 |
致谢 | 第58-60页 |
在学期间所发表的文章 | 第60页 |