首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

风险主题网关信息采集模块研究与设计

摘要第1-5页
ABSTRACT第5-7页
目录第7-9页
第1章 绪论第9-13页
   ·引言第9-10页
   ·研究的意义第10-11页
   ·本文的研究内容和论文结构第11-13页
第2章 Web页面数据采集基础第13-21页
   ·相关协议与接口第13-17页
     ·DOM第13-16页
     ·Jericho Html Parser第16-17页
   ·WEB页面数据采集的相关技术第17-20页
     ·基于自然语言理解的方法第18页
     ·基于机器学习的方法第18-19页
     ·基于Ontology的方法第19页
     ·RoadRunner第19-20页
   ·术语定义第20页
   ·本章小结第20-21页
第3章 定向Extractor设计第21-33页
   ·风险种子站点管理第21-22页
   ·模板的定义第22-24页
   ·方法的选择第24-25页
   ·列表页信息抽取第25-30页
     ·信息列表块的定位第25-28页
     ·基于标签距离的列表聚类包装方法第28-30页
   ·正文的抽取第30-32页
     ·Finn算法简介第30-31页
     ·Finn算法的改进第31-32页
   ·实验结果及分析第32页
   ·本章小结第32-33页
第4章 深度Extractor的设计第33-53页
   ·深度Extractor总体框架第33-34页
   ·HiWE第34-35页
   ·表单理解第35-44页
     ·建立逻辑模型第36-39页
     ·表单表达式第39-40页
     ·LAttribute标签识别第40-42页
     ·启发式LAttribute提取方法第42-44页
   ·表单的提交第44-48页
     ·表单的自动填写第44-45页
     ·请求提交策略第45-46页
     ·随机排除型采样策略第46-48页
     ·穷举采样第48页
   ·响应页处理第48-51页
     ·构造启发式规则第48-50页
     ·消除重复记录第50-51页
   ·实验结果及分析第51-52页
   ·本章小结第52-53页
第5章 综合风险知识库第53-61页
   ·构建知识库的目的和流程第53-54页
   ·数据统一化第54-55页
   ·知识库中表的设计第55-58页
   ·JDBC数据库访问及连接池技术第58-60页
   ·本章小结第60-61页
第6章 总结与展望第61-62页
参考文献第62-65页
致谢第65页

论文共65页,点击 下载论文
上一篇:可磁分离光催化剂的制备及其降解水中有机污染物性能的研究
下一篇:中小企业松散信息管理设计