基于领域本体的网页信息采集与检索研究
摘要 | 第1-5页 |
Abstract | 第5-10页 |
1 绪论 | 第10-17页 |
·研究的背景与意义 | 第10-11页 |
·国内外研究发展现状 | 第11-15页 |
·面向主题信息采集技术发展现状 | 第12-13页 |
·基于本体的扩展查询 | 第13-14页 |
·专业搜索引擎的发展状况 | 第14-15页 |
·研究内容及方法 | 第15页 |
·文章组织结构 | 第15-17页 |
2 本体概述及领域本体构建 | 第17-24页 |
·本体概述 | 第17页 |
·本体描述语言 | 第17-19页 |
·本体的构建原则 | 第19-20页 |
·领域本体生成 | 第20-24页 |
·本体生成工具与方法 | 第20-21页 |
·领域本体分析与生成 | 第21-24页 |
3 面向主题采集技术的分析与研究 | 第24-48页 |
·面向主题信息采集技术基本原理 | 第24-26页 |
·Web页面(HTML文档)的特点分析 | 第26-29页 |
·HTML页面结构特点分析 | 第26-27页 |
·页面主题特性分析 | 第27-29页 |
·爬虫采集策略分析 | 第29-34页 |
·基于内容的采集策略 | 第30-32页 |
·基于Web链接的采集策略 | 第32-34页 |
·Web主题识别研究 | 第34-41页 |
·文本主题识别方法概述 | 第34-35页 |
·获取带有权重的本体概念树 | 第35-36页 |
·页面相关性判别算法 | 第36-39页 |
·根据链接和网页内容的判定算法设计 | 第39-41页 |
·网络Web信息采集相关技术分析 | 第41-48页 |
·网络机器人技术 | 第41-42页 |
·网页解析技术 | 第42-43页 |
·利用反向有限自动机技术统计词频 | 第43-45页 |
·采集控制与优先级队列 | 第45-47页 |
·重复采集和网页更新问题分析 | 第47-48页 |
4 网页索引技术分析与设计 | 第48-57页 |
·Lucene索引技术简介 | 第48-49页 |
·Lucene核心技术 | 第49-52页 |
·倒排文件索引结构 | 第49-50页 |
·Lucene的文档排序 | 第50-51页 |
·分词技术应用 | 第51-52页 |
·Lucene主要功能类分析 | 第52-53页 |
·本体扩展查询研究 | 第53-57页 |
·Lucene中的查询方式 | 第53页 |
·本体扩展查询研究 | 第53-57页 |
5 系统设计与实现 | 第57-73页 |
·本体生成解析的实现 | 第57-61页 |
·面向主题采集子系统设计与实现 | 第61-68页 |
·系统功能结构设计 | 第61-62页 |
·主要类、接口和数据库设计 | 第62-64页 |
·通过本体获取种子与主题概念 | 第64-65页 |
·网页内容和链接相关度计算 | 第65-67页 |
·采集作业(URLs)排队的实现 | 第67-68页 |
·信息检索功能的实现 | 第68-70页 |
·检索子系统系统结构图 | 第68页 |
·基于关键词的本体扩展 | 第68-69页 |
·系统运行效果显示 | 第69-70页 |
·实验分析 | 第70-73页 |
·面向主题采集效果分析 | 第71页 |
·基于本体扩展检索效果分析 | 第71-73页 |
结论 | 第73-74页 |
参考文献 | 第74-78页 |
攻读硕士学位期间发表学术论文情况 | 第78-79页 |
致谢 | 第79-80页 |