基于领域本体的网页信息采集与检索研究

摘要	第1-5页
Abstract	第5-10页
1 绪论	第10-17页
·研究的背景与意义	第10-11页
·国内外研究发展现状	第11-15页
·面向主题信息采集技术发展现状	第12-13页
·基于本体的扩展查询	第13-14页
·专业搜索引擎的发展状况	第14-15页
·研究内容及方法	第15页
·文章组织结构	第15-17页
2 本体概述及领域本体构建	第17-24页
·本体概述	第17页
·本体描述语言	第17-19页
·本体的构建原则	第19-20页
·领域本体生成	第20-24页
·本体生成工具与方法	第20-21页
·领域本体分析与生成	第21-24页
3 面向主题采集技术的分析与研究	第24-48页
·面向主题信息采集技术基本原理	第24-26页
·Web页面(HTML文档)的特点分析	第26-29页
·HTML页面结构特点分析	第26-27页
·页面主题特性分析	第27-29页
·爬虫采集策略分析	第29-34页
·基于内容的采集策略	第30-32页
·基于Web链接的采集策略	第32-34页
·Web主题识别研究	第34-41页
·文本主题识别方法概述	第34-35页
·获取带有权重的本体概念树	第35-36页
·页面相关性判别算法	第36-39页
·根据链接和网页内容的判定算法设计	第39-41页
·网络Web信息采集相关技术分析	第41-48页
·网络机器人技术	第41-42页
·网页解析技术	第42-43页
·利用反向有限自动机技术统计词频	第43-45页
·采集控制与优先级队列	第45-47页
·重复采集和网页更新问题分析	第47-48页
4 网页索引技术分析与设计	第48-57页
·Lucene索引技术简介	第48-49页
·Lucene核心技术	第49-52页
·倒排文件索引结构	第49-50页
·Lucene的文档排序	第50-51页
·分词技术应用	第51-52页
·Lucene主要功能类分析	第52-53页
·本体扩展查询研究	第53-57页
·Lucene中的查询方式	第53页
·本体扩展查询研究	第53-57页
5 系统设计与实现	第57-73页
·本体生成解析的实现	第57-61页
·面向主题采集子系统设计与实现	第61-68页
·系统功能结构设计	第61-62页
·主要类、接口和数据库设计	第62-64页
·通过本体获取种子与主题概念	第64-65页
·网页内容和链接相关度计算	第65-67页
·采集作业(URLs)排队的实现	第67-68页
·信息检索功能的实现	第68-70页
·检索子系统系统结构图	第68页
·基于关键词的本体扩展	第68-69页
·系统运行效果显示	第69-70页
·实验分析	第70-73页
·面向主题采集效果分析	第71页
·基于本体扩展检索效果分析	第71-73页
结论	第73-74页
参考文献	第74-78页
攻读硕士学位期间发表学术论文情况	第78-79页
致谢	第79-80页