摘要 | 第1-4页 |
Abstract | 第4-8页 |
第一章 绪论 | 第8-17页 |
·课题研究的背景和意义 | 第8-12页 |
·网页浏览 | 第8-9页 |
·信息爆炸和信息检索 | 第9-10页 |
·专利信息挖掘 | 第10-12页 |
·国内外研究现状与相关工作 | 第12-15页 |
·国内外研究现状 | 第12-14页 |
·相关工作 | 第14-15页 |
·本文的主要研究内容和创新 | 第15-17页 |
第二章 基于左右邻信息的短语扩展识别方法 | 第17-32页 |
·短语优势的理据 | 第17-19页 |
·语言学上关于"词组本位"的论述 | 第17-18页 |
·认知心理学上,"短语"更有利于语言理解 | 第18页 |
·计算语言学上的"短语方法" | 第18-19页 |
·关键短语的界定 | 第19-20页 |
·左右邻信息及短语扩展识别方法 | 第20-29页 |
·候选种子的选取 | 第21-23页 |
·左右邻信息与相关统计参数分析 | 第23-26页 |
·左右邻信息 | 第23-25页 |
·相关统计参数分析 | 第25-26页 |
·基于扩展的完整短语深度识别方法 | 第26-29页 |
·候选种子扩展识别完整短语基本思想 | 第26-28页 |
·候选种子扩展主要步骤 | 第28页 |
·候选种子递归扩展算法 | 第28-29页 |
·实验结果与分析 | 第29-31页 |
·本章小结 | 第31-32页 |
第三章 有指导的基于决策树的关键短语抽取 | 第32-55页 |
·决策树算法介绍 | 第32-42页 |
·决策树的基本思想 | 第32-36页 |
·信息论基础 | 第33-34页 |
·属性选择的度量标准 | 第34-36页 |
·决策树学习过程 | 第36-37页 |
·基本的决策树学习算法 | 第37-41页 |
·ID3算法 | 第37-40页 |
·C4.5算法 | 第40-41页 |
·决策树算法的比较与选择 | 第41-42页 |
·基于决策树的关键短语抽取算法思想及实现 | 第42-50页 |
·文本预处理 | 第43-44页 |
·构造决策树的关键 | 第44页 |
·文本特征分析及描述属性的确立 | 第44-49页 |
·建立决策树及对候选关键词进行合并获取关键短语 | 第49页 |
·bagging重采样技术 | 第49-50页 |
·实验设计与结果分析 | 第50-54页 |
·决策树工具 | 第50页 |
·评估决策树分类法 | 第50-51页 |
·实验结果与分析 | 第51-54页 |
·实验1:改变选取的特征 | 第51-53页 |
·实验2:改变决策树的数目 | 第53-54页 |
·本章小结 | 第54-55页 |
第四章 无指导的基于复杂网络的关键短语抽取 | 第55-79页 |
·复杂网络理论基础 | 第55-58页 |
·小世界特性 | 第56-57页 |
·无标度特性 | 第57页 |
·其他统计特征 | 第57-58页 |
·语言网络及词语重要性度量 | 第58-64页 |
·复杂网络存在于人类语言中 | 第58-59页 |
·语言网络的小世界特性 | 第58-59页 |
·语言网络的无标度特性 | 第59页 |
·语言网络的词语重要性度量 | 第59-64页 |
·点度中心度(degree centrality:简称DC) | 第60-62页 |
·中间中心度(betweenness centrality:简称BC) | 第62-63页 |
·接近中心度(closeness centrality:简称CC) | 第63-64页 |
·复杂网络的构建及关键短语的抽取 | 第64-75页 |
·文档预处理 | 第65-67页 |
·构建文档语言网络 | 第67-69页 |
·复杂网络的分离 | 第69-71页 |
·计算网络特征值进行关键短语抽取 | 第71-75页 |
·加权点度中心度(DC weight) | 第72-73页 |
·基于边界节点的中间中心度(BC border) | 第73-74页 |
·综合网络特征值抽取关键短语 | 第74-75页 |
·实验设计与结果分析 | 第75-78页 |
·实验结果与分析 | 第76-77页 |
·与已有工作比较 | 第77-78页 |
·本章小结 | 第78-79页 |
第五章 总结与展望 | 第79-81页 |
·总结 | 第79-80页 |
·研究展望 | 第80-81页 |
参考文献 | 第81-86页 |
附录1:获得左右邻信息文本举例 | 第86-87页 |
附录2:国内外关键短语抽取典型显著工作性能列举 | 第87-89页 |
攻读学位期间公开发表的论文 | 第89-90页 |
致谢 | 第90-91页 |
详细摘要 | 第91-93页 |