首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--自动化系统论文--数据处理、数据处理系统论文

基于领域的主题信息采集技术研究

摘要第1-6页
Abstract第6-11页
第1章 绪论第11-21页
   ·课题的研究背景和意义第11-12页
   ·信息采集概述第12-15页
     ·信息采集的基本原理第12-13页
     ·信息采集的结构第13-15页
   ·信息采集的发展现状第15-17页
     ·信息采集的分类第15-17页
     ·面向主题的信息采集的发展第17页
   ·信息采集面临的主要问题和解决策略第17-19页
   ·本文的主要工作第19页
   ·论文组织结构第19-21页
第2章 相关理论与技术第21-29页
   ·中文分词第21-22页
   ·本体与本体描述语言第22-27页
     ·本体描述语言第22-24页
     ·本体构建规则第24页
     ·本体构建工具第24-25页
     ·本体解析第25-27页
   ·BERKELEY DB实现链接存储技术第27-28页
   ·本章小结第28-29页
第3章 基于领域本体的主题信息抽取第29-41页
   ·网页的预处理第29-31页
     ·建立DOM树第29-30页
     ·网页标题的提取第30页
     ·网页正文内容的提取第30-31页
   ·本体构建第31-33页
   ·本体解析第33-35页
     ·基于Jena的本体解析第33-35页
   ·主题描述第35-38页
     ·主题描述方法第36-37页
     ·基于本体的主题领域描述方法第37-38页
   ·基于知网的语义分析技术第38-40页
     ·知网简介第38页
     ·知网对词语的描述第38-39页
     ·义原相似度计算第39-40页
     ·词语相似度的计算第40页
   ·本章小结第40-41页
第4章 页面与主题领域相关性判断算法第41-56页
   ·基于本体的领域知识集的构建第41-45页
     ·构建本体概念树第41-42页
     ·获得本体中的概念和权值第42-43页
     ·语义消歧第43-45页
     ·生成领域义原集第45页
   ·链接与主题相似度计算第45-50页
     ·页面问链接分析第46页
     ·PageRank算法第46-47页
     ·PageRank算法的不足和改进第47-48页
     ·链接信息的分析第48-49页
     ·链接与主题相似度计算第49-50页
   ·网页与主题相似度计算第50-56页
     ·空间向量模型第50-52页
     ·基于Web页面分析的文本空间向量第52-54页
     ·基于语义分析的网页内容与主题相关度的计算第54-56页
第5章 系统实现及其结果分析第56-64页
   ·实验环境第56页
   ·HERITRIX简介第56-61页
     ·Heritrix架构分析第56-58页
     ·Heritrix在主题信息采集中的应用第58-61页
   ·实验第61-64页
     ·评估指标第61-62页
     ·种子URL第62页
     ·实验结果及分析第62-64页
第6章 总结与展望第64-66页
   ·总结第64-65页
   ·进一步研究第65-66页
参考文献第66-69页
致谢第69-70页
攻读硕士学位期间发表的论文和参研项目情况第70页

论文共70页,点击 下载论文
上一篇:基于QoS约束的无线传感器网络路由协议的研究
下一篇:基于不均匀分簇的LEACH协议的改进研究