风险主题网关信息采集模块研究与设计

摘要	第1-5页
ABSTRACT	第5-7页
目录	第7-9页
第1章绪论	第9-13页
·引言	第9-10页
·研究的意义	第10-11页
·本文的研究内容和论文结构	第11-13页
第2章 Web页面数据采集基础	第13-21页
·相关协议与接口	第13-17页
·DOM	第13-16页
·Jericho Html Parser	第16-17页
·WEB页面数据采集的相关技术	第17-20页
·基于自然语言理解的方法	第18页
·基于机器学习的方法	第18-19页
·基于Ontology的方法	第19页
·RoadRunner	第19-20页
·术语定义	第20页
·本章小结	第20-21页
第3章定向Extractor设计	第21-33页
·风险种子站点管理	第21-22页
·模板的定义	第22-24页
·方法的选择	第24-25页
·列表页信息抽取	第25-30页
·信息列表块的定位	第25-28页
·基于标签距离的列表聚类包装方法	第28-30页
·正文的抽取	第30-32页
·Finn算法简介	第30-31页
·Finn算法的改进	第31-32页
·实验结果及分析	第32页
·本章小结	第32-33页
第4章深度Extractor的设计	第33-53页
·深度Extractor总体框架	第33-34页
·HiWE	第34-35页
·表单理解	第35-44页
·建立逻辑模型	第36-39页
·表单表达式	第39-40页
·LAttribute标签识别	第40-42页
·启发式LAttribute提取方法	第42-44页
·表单的提交	第44-48页
·表单的自动填写	第44-45页
·请求提交策略	第45-46页
·随机排除型采样策略	第46-48页
·穷举采样	第48页
·响应页处理	第48-51页
·构造启发式规则	第48-50页
·消除重复记录	第50-51页
·实验结果及分析	第51-52页
·本章小结	第52-53页
第5章综合风险知识库	第53-61页
·构建知识库的目的和流程	第53-54页
·数据统一化	第54-55页
·知识库中表的设计	第55-58页
·JDBC数据库访问及连接池技术	第58-60页
·本章小结	第60-61页
第6章总结与展望	第61-62页
参考文献	第62-65页
致谢	第65页