面向智能信息检索的Web挖掘关键技术研究
声明 | 第1-4页 |
摘要 | 第4-6页 |
Abstract | 第6-13页 |
第一章 前言 | 第13-22页 |
·问题提出 | 第13页 |
·智能信息检索 | 第13-16页 |
·基于概念的信息检索 | 第15页 |
·个性化服务 | 第15页 |
·信息的合理分类/聚类 | 第15-16页 |
·Web挖掘技术及其对智能信息检索的支持 | 第16-20页 |
·数据挖掘 | 第16-17页 |
·Web挖掘 | 第17-19页 |
·分类/聚类对智能信息检索的支持 | 第19-20页 |
·本文的组织 | 第20-22页 |
第二章 相关概念与技术 | 第22-34页 |
·分类/聚类概述 | 第22-23页 |
·样本类型及相似性度量 | 第23-26页 |
·样本类型 | 第23-24页 |
·相似性度量 | 第24-26页 |
·聚类分析 | 第26-29页 |
·聚类分析步骤 | 第26-27页 |
·几种常用的聚类策略 | 第27-28页 |
·类的定义 | 第28-29页 |
·本体介绍 | 第29-34页 |
·构造本体的准则 | 第30页 |
·本体方法学 | 第30-31页 |
·本体的描述语言 | 第31-32页 |
·本体的分类 | 第32-33页 |
·本体的应用 | 第33-34页 |
第三章 支持信息检索的数据预处理技术 | 第34-59页 |
·问题提出 | 第34页 |
·基于PDF文件的信息抽取 | 第34-45页 |
·信息抽取过程 | 第34-35页 |
·PDF文件解析 | 第35-36页 |
·PDF文件的物理结构 | 第36页 |
·PDF文件的逻辑结构 | 第36页 |
·PDF文件解析器 | 第36页 |
·格式标签注入 | 第36-38页 |
·标签预处理 | 第38页 |
·规则库 | 第38-41页 |
·信息抽取规则与限定词库 | 第38-40页 |
·标签一致性判定规则和冗余标签判定规则 | 第40-41页 |
·模式匹配 | 第41-43页 |
·实验分析 | 第43-45页 |
·实验分析一 | 第43-44页 |
·实验分析二 | 第44-45页 |
·基于渐进式丰富词典的中文分词方法 | 第45-50页 |
·中文分词方法 | 第45-47页 |
·基于词典的分词方法 | 第45-46页 |
·基于统计的分词方法 | 第46-47页 |
·基于人工智能的分词方法 | 第47页 |
·渐进式丰富词典 | 第47-50页 |
·基本思路 | 第47-48页 |
·分词算法 | 第48-49页 |
·实验分析 | 第49-50页 |
·Web日志预处理 | 第50-58页 |
·Web数据源 | 第50-51页 |
·Web日志数据的特点 | 第51-52页 |
·HTTP协议对数据的影响 | 第51-52页 |
·缓存导致的信息丢失 | 第52页 |
·其它原因导致的数据不准确性 | 第52页 |
·Web日志数据预处理过程及实现 | 第52-58页 |
·数据清洗 | 第53-54页 |
·用户识别 | 第54页 |
·会话识别 | 第54-56页 |
·路径补充 | 第56-58页 |
·本章小结 | 第58-59页 |
第四章 中文页面与Web用户分类技术 | 第59-91页 |
·问题提出 | 第59页 |
·常用分类方法 | 第59-61页 |
·朴素贝叶斯方法 | 第59-60页 |
·k-近邻方法 | 第60页 |
·决策树方法 | 第60页 |
·支持向量机方法 | 第60-61页 |
·维数约减方法 | 第61-64页 |
·改进的基于k近邻的中文文本分类方法 | 第64-82页 |
·k-近邻方法的分类过程及改进思路 | 第64-65页 |
·训练样本集的约减 | 第65-70页 |
·基本思路 | 第65-66页 |
·约减算法 | 第66-67页 |
·实验分析 | 第67-70页 |
·渐进式分类模式 | 第70-72页 |
·基本思想 | 第70-71页 |
·实验分析 | 第71-72页 |
·基于本体的语义理解 | 第72-79页 |
·基本思路 | 第72-75页 |
·实验分析 | 第75-79页 |
·基于遗传算法的k值学习 | 第79-82页 |
·基本思路 | 第79页 |
·学习k值的遗传算法 | 第79-80页 |
·选择染色体的方法 | 第80-81页 |
·杂交变异并形成新一代染色体 | 第81页 |
·实验分析 | 第81-82页 |
·基于神经网络的Web用户分类 | 第82-90页 |
·神经网络概述 | 第83页 |
·神经网络学习规则 | 第83-85页 |
·Hebb型学习 | 第84页 |
·误差修正学习 | 第84-85页 |
·竞争型学习 | 第85页 |
·随机型学习 | 第85页 |
·前馈型神经网络 | 第85-90页 |
·网络结构 | 第85-86页 |
·数据规格化 | 第86页 |
·误差函数 | 第86-89页 |
·实验分析 | 第89-90页 |
·本章小结 | 第90-91页 |
第五章 面向页面和用户聚类的聚类分析技术 | 第91-106页 |
·问题提出 | 第91页 |
·主要聚类方法 | 第91-95页 |
·划分方法 | 第91-93页 |
·层次方法 | 第93-94页 |
·局部方法 | 第94页 |
·模型方法 | 第94-95页 |
·对k-means算法的改进 | 第95-99页 |
·k-means算法的一般过程 | 第95-96页 |
·k-means改进算法的思想 | 第96-97页 |
·改进的初始聚类中心选择算法 | 第97-98页 |
·实验分析 | 第98-99页 |
·DBSCAN改进算法 | 第99-105页 |
·基本概念 | 第99-100页 |
·DBSCAN算法 | 第100页 |
·对DBSCAN算法的改进思路 | 第100-102页 |
·MinPts的确定 | 第102页 |
·Eps的确定 | 第102页 |
·实验分析 | 第102-105页 |
·本章小结 | 第105-106页 |
第六章 智能信息检索系统原型 | 第106-123页 |
·问题提出 | 第106页 |
·个性化服务 | 第106-108页 |
·个性化服务的定义 | 第106-107页 |
·个性化服务系统的分类 | 第107-108页 |
·基于规则的系统 | 第107-108页 |
·基于内容过滤的系统 | 第108页 |
·协作过滤系统 | 第108页 |
·个性化服务的实现 | 第108-113页 |
·收集用户访问信息 | 第109页 |
·用户建模 | 第109-111页 |
·手工建模 | 第110页 |
·示例建模 | 第110-111页 |
·自动建模 | 第111页 |
·个性化推荐 | 第111-113页 |
·基于规则的推荐技术 | 第111-112页 |
·基于内容过滤的推荐技术 | 第112页 |
·基于协作过滤的推荐技术 | 第112-113页 |
·基于概念的信息检索 | 第113-114页 |
·智能信息检索系统原型的设计与实现 | 第114-122页 |
·系统结构 | 第114-115页 |
·数据准备 | 第115页 |
·用户访问信息的收集 | 第115-116页 |
·用户访问信息 | 第115页 |
·用户访问信息的收集 | 第115-116页 |
·建立用户模型 | 第116-117页 |
·综合用户建模方式 | 第116页 |
·用户页面兴趣度 | 第116-117页 |
·个性化推荐 | 第117-121页 |
·基于内容过滤的个性化推荐 | 第117-118页 |
·基于规则的个性化推荐 | 第118页 |
·基于协作过滤的个性化推荐 | 第118页 |
·专家推荐 | 第118-119页 |
·个性化服务实例 | 第119-121页 |
·概念检索的实现 | 第121-122页 |
·概念处理 | 第121页 |
·概念检索实例 | 第121-122页 |
·本章小结 | 第122-123页 |
第七章 总结与展望 | 第123-125页 |
·总结 | 第123-124页 |
·进一步工作 | 第124-125页 |
参考文献 | 第125-137页 |
致谢 | 第137-138页 |
攻博期间发表的文章 | 第138-139页 |
攻博期间参加和完成的科研项目 | 第139-140页 |
作者简介 | 第140页 |