基于领域本体的网页信息采集与检索研究
| 摘要 | 第1-5页 |
| Abstract | 第5-10页 |
| 1 绪论 | 第10-17页 |
| ·研究的背景与意义 | 第10-11页 |
| ·国内外研究发展现状 | 第11-15页 |
| ·面向主题信息采集技术发展现状 | 第12-13页 |
| ·基于本体的扩展查询 | 第13-14页 |
| ·专业搜索引擎的发展状况 | 第14-15页 |
| ·研究内容及方法 | 第15页 |
| ·文章组织结构 | 第15-17页 |
| 2 本体概述及领域本体构建 | 第17-24页 |
| ·本体概述 | 第17页 |
| ·本体描述语言 | 第17-19页 |
| ·本体的构建原则 | 第19-20页 |
| ·领域本体生成 | 第20-24页 |
| ·本体生成工具与方法 | 第20-21页 |
| ·领域本体分析与生成 | 第21-24页 |
| 3 面向主题采集技术的分析与研究 | 第24-48页 |
| ·面向主题信息采集技术基本原理 | 第24-26页 |
| ·Web页面(HTML文档)的特点分析 | 第26-29页 |
| ·HTML页面结构特点分析 | 第26-27页 |
| ·页面主题特性分析 | 第27-29页 |
| ·爬虫采集策略分析 | 第29-34页 |
| ·基于内容的采集策略 | 第30-32页 |
| ·基于Web链接的采集策略 | 第32-34页 |
| ·Web主题识别研究 | 第34-41页 |
| ·文本主题识别方法概述 | 第34-35页 |
| ·获取带有权重的本体概念树 | 第35-36页 |
| ·页面相关性判别算法 | 第36-39页 |
| ·根据链接和网页内容的判定算法设计 | 第39-41页 |
| ·网络Web信息采集相关技术分析 | 第41-48页 |
| ·网络机器人技术 | 第41-42页 |
| ·网页解析技术 | 第42-43页 |
| ·利用反向有限自动机技术统计词频 | 第43-45页 |
| ·采集控制与优先级队列 | 第45-47页 |
| ·重复采集和网页更新问题分析 | 第47-48页 |
| 4 网页索引技术分析与设计 | 第48-57页 |
| ·Lucene索引技术简介 | 第48-49页 |
| ·Lucene核心技术 | 第49-52页 |
| ·倒排文件索引结构 | 第49-50页 |
| ·Lucene的文档排序 | 第50-51页 |
| ·分词技术应用 | 第51-52页 |
| ·Lucene主要功能类分析 | 第52-53页 |
| ·本体扩展查询研究 | 第53-57页 |
| ·Lucene中的查询方式 | 第53页 |
| ·本体扩展查询研究 | 第53-57页 |
| 5 系统设计与实现 | 第57-73页 |
| ·本体生成解析的实现 | 第57-61页 |
| ·面向主题采集子系统设计与实现 | 第61-68页 |
| ·系统功能结构设计 | 第61-62页 |
| ·主要类、接口和数据库设计 | 第62-64页 |
| ·通过本体获取种子与主题概念 | 第64-65页 |
| ·网页内容和链接相关度计算 | 第65-67页 |
| ·采集作业(URLs)排队的实现 | 第67-68页 |
| ·信息检索功能的实现 | 第68-70页 |
| ·检索子系统系统结构图 | 第68页 |
| ·基于关键词的本体扩展 | 第68-69页 |
| ·系统运行效果显示 | 第69-70页 |
| ·实验分析 | 第70-73页 |
| ·面向主题采集效果分析 | 第71页 |
| ·基于本体扩展检索效果分析 | 第71-73页 |
| 结论 | 第73-74页 |
| 参考文献 | 第74-78页 |
| 攻读硕士学位期间发表学术论文情况 | 第78-79页 |
| 致谢 | 第79-80页 |