首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于DOM的网页主体信息块抽取

1. 第一章 绪论第1-13页
   ·引言第8页
   ·背景及意义第8-11页
     ·背景第8-9页
     ·互联网竞争情报监测及网页主体信息抽取的意义第9-10页
     ·互联网竞争情报监测及网页主体信息抽取的研究现状第10-11页
   ·研究内容第11-12页
   ·论文结构第12-13页
2. 第二章 相关标准第13-26页
   ·HTML(Hyper Text Markup Language)第13-14页
   ·XML(eXtensible Markup Language)第14-20页
     ·XML的起源和发展第14-15页
     ·XML的主要特点第15页
     ·XML语法第15-19页
       ·XML文档第16-17页
       ·XML验证第17-18页
       ·样式单第18-19页
     ·XML作为半结构化数据模型的优点第19-20页
     ·XML用于 Web的发展前景第20页
   ·DOM(Document Object Model)第20-26页
     ·概述第20-21页
     ·借用 DOM方式解析 XML文档第21页
     ·XML文档的树模型第21-23页
       ·作为树的XML第22页
       ·树模型中的节点第22-23页
     ·文档树结构的实现第23-25页
       ·DOMNode接口第23-24页
       ·DOMNodeList接口第24页
       ·DOMNamedNodeMap接口第24-25页
       ·其他DOM类第25页
     ·在表达式处理过程中生成文档树结构第25-26页
3. 第三章 Web信息抽取技术研究第26-33页
   ·Web信息抽取的概念第26-27页
   ·Web信息抽取系统及相关研究第27-31页
     ·基于自然语言理解的方法第27-28页
     ·基于机器学习的方法第28-29页
     ·基于Ontology的方法第29页
     ·基于HTML结构的方法第29-30页
     ·完全自动化的方法第30-31页
       ·一种基于模式发现的信息抽取方法 IEPAD第30页
       ·RoadRunner第30-31页
       ·小结第31页
   ·Web信息抽取的评价指标第31-32页
   ·Web信息抽取与信息检索的结合第32-33页
4. 第四章 网页的主体内容抽取技术第33-38页
   ·引言第33页
   ·对已有技术方法的研究分析第33-36页
     ·Rahman 的方法第33-34页
     ·Finn的方法第34页
     ·McKeown的方法第34页
     ·Buyukkokten的方法第34-35页
     ·Kaasinen的方法第35页
     ·Chen的方法第35-36页
   ·基于 DOM的主体内容抽取方法第36-38页
5. 第五章 DBIES主体信息块抽取系统第38-57页
   ·系统概述第38页
   ·基于试探的方法第38-41页
     ·初级试探第39页
     ·深入试探第39-41页
     ·主体内容提取第41页
   ·具体实现第41-57页
     ·系统架构第41-43页
     ·主体框架的实现第43-47页
       ·ProxyFilter类第44-45页
       ·PluginFilterRunner类中的process方法第45-46页
       ·接口ProxyFilterSettings第46-47页
     ·过滤器的实现第47-54页
       ·内容过滤插件第47-50页
       ·初步试探的实现第50-53页
       ·几个深入试探的实现第53-54页
     ·网页归类实现过滤器方案的自动选用第54-57页
       ·预处理第55页
       ·网页归类的方法第55-57页
6. 第六章 结束语第57-59页
   ·论文工作总结第57页
   ·进一步的工作第57-59页
参考文献第59-63页
致谢第63-64页
攻读硕士学位期间发表论文及编著第64页

论文共64页,点击 下载论文
上一篇:我国开展产学研合作的理论与实践研究
下一篇:景天通脉方对实验性兔动脉粥样硬化的影响