首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

Web信息智能获取若干关键问题研究

摘要第1-7页
ABSTRACT第7-9页
目录第9-13页
第一章 绪论第13-37页
   ·WEB信息获取的研究意义第13-14页
   ·相关研究综述第14-30页
     ·Web信息采集第15-18页
       ·Web信息采集面临的主要困难第15-16页
       ·Web信息采集的类型第16-18页
     ·Web信息抽取第18-21页
       ·Web信息抽取的意义第19页
       ·信息抽取与信息检索第19-20页
       ·信息抽取任务的类型第20-21页
       ·影响信息抽取技术的因素第21页
     ·聚类分析第21-27页
       ·数据表示第22页
       ·聚类的标准或目标函数第22-24页
       ·聚类的搜索算法第24-25页
       ·常见聚类算法第25-26页
       ·Web/文本聚类的特点和方法第26-27页
     ·新闻相关研究第27-30页
       ·网络新闻语料的选择原因第28-29页
       ·新闻事件探测和跟踪第29-30页
       ·多篇摘要第30页
   ·研究内容第30-31页
   ·WEB信息获取总体设计思路第31-35页
     ·“数据决定策略”第33页
     ·“需求决定策略”第33-35页
   ·论文组织第35-37页
第二章 基于多主体的网络信息采集研究第37-63页
   ·引言第37-38页
   ·基于多主体的WEB信息采集模型第38-43页
     ·体系结构第39-41页
     ·主体实例模型第41-42页
     ·主体内部运行机制第42-43页
   ·专题跟踪采集模式第43-50页
     ·Web主题页面的分布特点第44-46页
     ·主题相关性计算模型第46-50页
       ·基于链接关系及其链接深度的URL主题相关性计算模型第46-47页
       ·基于HTML标记信息的主题相关性计算模型第47-49页
       ·基于网页语义计算主题相关度第49-50页
   ·噪音去除第50-56页
     ·噪音数据存在形式及相关定义第51页
     ·噪音数据的特点及其影响第51-52页
     ·噪音数据去除策略第52-56页
       ·基于HTML标记信息的噪音判别模型第53-54页
       ·基于数据冗余的噪音数据判别模型第54-55页
       ·基于标记文本信息熵的噪音数据判别模型第55-56页
   ·系统实现及实验结果分析第56-62页
     ·系统特点第56-57页
     ·实验分析第57-62页
   ·小结第62-63页
第三章 基于统计与规则方法相结合的新词发现第63-79页
   ·引言第63-64页
   ·系统结构及其相关概念第64-67页
     ·系统体系结构及其工作流程第65-66页
     ·相关概念第66-67页
   ·统计模型第67-72页
     ·“二元语法”统计模型第68-69页
     ·统计垃级第69-70页
     ·统计选词第70-72页
   ·规则选词第72-74页
     ·单字组合词规则第72-73页
     ·多字组合词规则第73-74页
   ·实验结果分析第74-76页
     ·评价标准第74-75页
     ·实验结果第75-76页
   ·小结第76-79页
第四章 事件探测和追踪第79-95页
   ·引言第79-80页
   ·概念模型第80-81页
   ·模型知识的设计和学习第81-87页
     ·预处理过程和文档表示第82-83页
       ·特征权重的计算第82页
       ·文档特征选取第82-83页
     ·时间知识的学习第83-85页
       ·文档中与时间相关的信息第84页
       ·时间学习算法第84-85页
     ·事件模板知识的学习第85-87页
       ·事件特征权值计算第85-86页
       ·事件特征选择第86页
       ·事件模板进化策略第86-87页
   ·事件探测和追踪第87-91页
     ·事件探测和追踪算法第88页
     ·基于时间距离的相似度计算模型第88-90页
     ·基于“类间距离”提高算法效率第90-91页
   ·实验结果与讨论第91-93页
   ·小结第93-95页
第五章 事件来龙去脉生成第95-111页
   ·引言第95-96页
   ·新闻报道的摘要生成第96-100页
     ·摘要生成模型第96-97页
     ·段落相似度计算模型第97-99页
     ·文摘主题相关性判别及其润色第99-100页
   ·事件来龙去脉的生成第100-106页
     ·概念模型第100-102页
     ·事件来龙去脉组织策略第102-103页
     ·事件来龙去脉生成算法第103-104页
     ·事件来龙去脉评测第104-106页
       ·评测模型第105页
       ·评测语料第105-106页
   ·系统实现与结果分析第106-109页
     ·系统实现第106-108页
     ·单篇摘要的结果分析第108页
     ·事件来龙去脉质量评价及结果分析第108-109页
   ·小结第109-111页
第六章 网络信息智能获取和处理系统——GHUNT第111-127页
   ·引言第111-112页
   ·GHUNT总体功能框架及其体系结构第112-115页
   ·信息获取过程管理第115-120页
     ·GHunt中的元数据第115-116页
     ·信息获取任务定义第116页
     ·信息获取算法第116-118页
     ·信息获取任务的建立第118-119页
     ·信息获取任务的执行第119-120页
   ·获取知识的管理第120-121页
   ·信息获取实例及结果第121-124页
     ·目录检索第121-122页
     ·语义检索第122页
     ·专题检索第122-123页
     ·图文联合查询第123-124页
   ·GHUNT系统特点及其应用第124-126页
     ·中文搜索引擎市场第124页
     ·GHunt的特点第124-125页
     ·GHunt的应用之一——万方智能信息处理平台第125-126页
   ·小结第126-127页
第七章 结束语第127-131页
   ·本文的总结第127-129页
   ·前景和展望第129-131页
参考文献第131-141页
致谢第141-142页
作者简历第142页
攻读博士学位期间发表的主要论文第142-143页
攻读博士学位期间参加的主要科研项目第143页

论文共143页,点击 下载论文
上一篇:细菌组合的固氮、解磷与抗病能力及不同培养条件的影响
下一篇:论刑事诉讼客体