首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于网页的信息抽取的研究

摘要第1-4页
Abstract第4-8页
1 绪论第8-11页
   ·论文背景第8页
   ·论文主要工作第8-10页
     ·论文目标第8-9页
     ·工作内容第9页
     ·工作成果第9页
     ·相关技术对比第9-10页
   ·论文组织结构第10页
   ·本章小结第10-11页
2 信息抽取相关理论第11-18页
   ·引言第11页
   ·信息抽取的定义和任务第11页
   ·信息抽取技术及工具第11-14页
     ·基于自然语言处理方式的信息抽取第12页
     ·包装器归纳方式的信息抽取第12-13页
     ·基于ontology方式的信息抽取第13页
     ·基于HTML结构的信息抽取第13-14页
     ·基于Web查询的信息抽取第14页
   ·知识表示方法研究第14-16页
     ·概念图第15页
     ·面向对象第15页
     ·粗糙集第15页
     ·XML第15-16页
     ·Petri网第16页
     ·框架结构第16页
   ·本章小结第16-18页
3 基于HTML的信息抽取技术第18-33页
   ·引言第18页
   ·HTML介绍第18页
   ·基于HTML信息抽取的原理第18-24页
     ·原理概述第18-20页
     ·确定样本第20-21页
     ·定义模式第21-22页
     ·生成抽取规则第22-24页
     ·抽取过程第24页
   ·基于HTML信息抽取的实现技术第24-32页
     ·正则表达式第24-25页
     ·基于正则表达式的实现过程第25-31页
     ·正则表达式的简化第31-32页
   ·本章小结第32-33页
4 基于HTML的信息抽取原型系统功能流程分析设计第33-46页
   ·引言第33页
   ·系统功能分析第33-36页
     ·外部角色第33页
     ·前端查询模块第33-34页
     ·后台信息抽取模块第34-36页
   ·核心信息抽取流程设计第36-37页
   ·数据库设计第37-40页
     ·系统数据表介绍第37-39页
     ·同内容不同格式页面抽取的考虑第39-40页
   ·后台信息抽取模块流程设计第40-44页
     ·相同格式页面信息抽取第40-42页
     ·不同格式页面信息抽取第42-43页
     ·使用网络蜘蛛(Spider)抓取网页并抽取信息第43-44页
   ·待抽取资源的接口抽象第44-45页
   ·本章小结第45-46页
5 原型系统详细设计第46-70页
   ·引言第46页
   ·信息抽取功能选择第46页
   ·查看现有信息表第46-47页
   ·创建新表第47-48页
   ·向现有信息表中添加内容第48-60页
     ·选择网页第48-49页
     ·选择或创建规则第49-50页
     ·创建新规则第50-55页
     ·显示规则第55-56页
     ·生成正则表达式第56-60页
   ·使用网络蜘蛛抓取网页并抽取信息第60-67页
     ·使用网络蜘蛛抓取网页第61-65页
     ·网页过滤第65页
     ·抓取及抽取结果第65-67页
   ·前端查询第67-69页
   ·本章小结第69-70页
6 总结第70-72页
   ·论文总结第70页
   ·不足和改进第70-72页
参考文献第72-75页
攻读硕士学位期间发表的论文第75-76页
致谢第76-78页

论文共78页,点击 下载论文
上一篇:基于局域网的资源分享平台系统的研究与实现
下一篇:红外全景光学系统设计