首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

垂直搜索引擎中Web信息抽取技术研究

摘要第1-4页
ABSTRACT第4-8页
第一章 绪论第8-14页
   ·研究背景第8-9页
   ·研究现状第9-12页
     ·Web信息抽取技术研究现状第9-11页
     ·搜索引擎发展现状第11-12页
   ·研究内容第12-13页
   ·本文组织结构第13-14页
第二章 Web信息抽取及垂直搜索引擎技术第14-22页
   ·DOM技术第14-15页
     ·DOM第14页
     ·Cobra软件第14-15页
   ·分装器第15-16页
   ·Web信息抽取评价指标第16-17页
   ·文本预处理第17-19页
     ·文本分类第17-18页
     ·中文分词第18-19页
   ·Lucene工具包第19页
   ·垂直搜索引擎原理第19-21页
   ·本章小结第21-22页
第三章 基于标签序列的 Web页面主题信息抽取方法研究第22-42页
   ·引言第22-23页
   ·相关概念与分析第23-26页
     ·相关概念第23页
     ·页面结构分析第23-25页
     ·主题属性页面显示格式特征分析第25-26页
     ·主题属性页面表示方式特征分析第26页
   ·一种基于标签序列的Web页面主题信息抽取方法第26-36页
     ·相关策略第26-27页
     ·相关定义第27-29页
     ·基于标签序列的Web页面主题信息抽取模型第29-30页
     ·样本训练第30-33页
     ·主题信息抽取第33-36页
   ·实验第36-40页
     ·实验过程第36-39页
     ·实验分析第39-40页
   ·本章小结第40-42页
第四章 基于可信度的Web页面主题新属性发现第42-59页
   ·引言第42-43页
   ·可信度第43-44页
   ·一种基于可信度的 Web页面主题新属性发现方法第44-54页
     ·证据定义第44-45页
     ·基于可信度的Web页面主题新属性发现模型第45-46页
     ·字体关系可信度第46-49页
     ·背景关系可信度第49-51页
     ·待抽取属性名与已抽取属性名拥有相同父节点可信度第51-52页
     ·待抽取属性名与已抽取属性名格式相同可信度第52-53页
     ·待抽取属性名与用户感兴趣范围关系可信度第53-54页
   ·实验第54-58页
     ·实验过程第54-57页
     ·实验分析第57-58页
   ·本章小结第58-59页
第五章 垂直搜索引擎原型系统设计第59-68页
   ·系统整体框架第59页
   ·总体结构第59-62页
     ·模块介绍第60页
     ·系统处理流程第60-62页
   ·专业网络蜘蛛第62页
   ·总体设计第62-67页
     ·URL队列管理子模块第64-65页
     ·主题信息抽取与新属性发现子模块第65-67页
   ·本章小结第67-68页
第六章 总结和展望第68-70页
   ·本文工作总结第68页
   ·进一步展望第68-70页
参考文献第70-75页
致谢第75-76页
攻读学位期间主要的研究成果第76页

论文共76页,点击 下载论文
上一篇:论高校网络教育中的情感教育
下一篇:基于LabVIEW的球杆系统建模、仿真及实验研究