首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于规则的论坛爬取与抽取一体化

摘要第1-8页
ABSTRACT第8-12页
第一章 绪论第12-17页
   ·研究背景第12-13页
   ·研究难点第13-15页
   ·本文贡献第15-16页
   ·本文组织第16-17页
第二章 相关工作第17-22页
   ·网络爬虫第17-19页
   ·信息抽取第19-22页
第三章 问题定义第22-31页
   ·论坛数据结构第22-24页
   ·论坛数据存储模型第24-25页
   ·抽取规则的形式化定义第25-30页
     ·模式映射规则第25-27页
     ·XPath模式第27-30页
   ·小结第30-31页
第四章 模式映射规则的学习与解释第31-40页
   ·模式映射规则学习第31-33页
     ·训练集及其获取第31-32页
     ·模式映射规则学习第32-33页
   ·映射规则转化为XSLT第33-38页
     ·算法思想第34-36页
     ·算法分析第36-37页
     ·算法示例第37-38页
   ·小结第38-40页
第五章 InForCE系统第40-46页
   ·设计思想第40-41页
   ·系统架构第41-44页
     ·爬虫第42页
     ·HTML解析器第42页
     ·链接池第42-43页
     ·学习器第43页
     ·规则库第43-44页
     ·抽取器第44页
   ·爬取策略第44-45页
   ·小结第45-46页
第六章 实验第46-54页
   ·实验设置第46-47页
   ·爬取队列的生成第47-48页
   ·大规模的数据抽取第48-50页
   ·使用模式映射规则进行信息抽取第50-53页
   ·小结第53-54页
第七章 总结与展望第54-56页
参考文献第56-61页
附录 已发表或录用的论文第61-62页
后记第62页

论文共62页,点击 下载论文
上一篇:Web服务编排语言的分析与测试
下一篇:匿名口令基密钥交换协议和可净化数字签名的研究