Deep web中基于领域知识的接口集成
| 摘要 | 第1-6页 |
| Abstract | 第6-7页 |
| 序论 | 第7-10页 |
| 第1章 相关知识 | 第10-22页 |
| ·HTML | 第10-14页 |
| ·HTTP简介 | 第10页 |
| ·HTML表单 | 第10-12页 |
| ·HTML DOM | 第12-13页 |
| ·HTTP协议 | 第13-14页 |
| ·Deep web接口抽取与集成技术框架 | 第14-22页 |
| ·术语定义 | 第15-17页 |
| ·接口的发现与判定 | 第17-18页 |
| ·接口属性抽取 | 第18-19页 |
| ·接口查询接口的集成 | 第19-22页 |
| 第2章 接口集成理论 | 第22-30页 |
| ·接口的发现 | 第23-25页 |
| ·网络爬虫 | 第23-24页 |
| ·基于网络爬虫的接口发现 | 第24-25页 |
| ·接口的判定 | 第25-27页 |
| ·接口属性抽取 | 第27-29页 |
| ·N-Gram算法 | 第28页 |
| ·基于N-Gram的属性抽取 | 第28-29页 |
| ·接口模式抽取 | 第29-30页 |
| ·接口属性的匹配 | 第29页 |
| ·全局属性抽取 | 第29-30页 |
| 第3章 接口集成系统 | 第30-48页 |
| ·基于聚焦网络爬虫的接口发现 | 第30-36页 |
| ·爬虫入口 | 第30-31页 |
| ·爬虫工作流程设计 | 第31-33页 |
| ·页面预处理 | 第33页 |
| ·页面词频的统计 | 第33-34页 |
| ·爬虫限定条件 | 第34-35页 |
| ·候选URL优化 | 第35-36页 |
| ·查询接口的判别 | 第36-38页 |
| ·分类器特征提取 | 第37页 |
| ·使用感知器分类 | 第37-38页 |
| ·去除非当前领域接口 | 第38页 |
| ·基于N-Gram的接口属性抽 | 第38-41页 |
| ·属性抽取总体流程 | 第38-39页 |
| ·分解表单元素 | 第39-40页 |
| ·N-Gram匹配过程 | 第40-41页 |
| ·不匹配的情况 | 第41页 |
| ·文本语义处理 | 第41-45页 |
| ·中文分词 | 第41-43页 |
| ·同义词扩充 | 第43-44页 |
| ·中文词汇翻译与缓存 | 第44-45页 |
| ·领域词汇表更新策略 | 第45-48页 |
| 第4章 有效性验证 | 第48-52页 |
| ·实验环境 | 第48页 |
| ·聚焦网络爬虫 | 第48-49页 |
| ·基于N-Gram的接口抽取 | 第49-50页 |
| ·接口属性集成 | 第50-52页 |
| 第5章 总结 | 第52-54页 |
| ·工作总结 | 第52页 |
| ·改进之处 | 第52-53页 |
| ·展望 | 第53-54页 |
| 参考资料 | 第54-58页 |
| 致谢 | 第58-60页 |
| 在学期间所发表的文章 | 第60页 |