专利文本聚类及关键短语抽取的研究
摘要 | 第1-6页 |
Abstract | 第6-11页 |
第1章 绪论 | 第11-17页 |
·研究背景和意义 | 第11-12页 |
·研究现状 | 第12-13页 |
·本文的主要研究内容和贡献 | 第13-14页 |
·论文组织 | 第14-17页 |
第2章 基础知识 | 第17-21页 |
·文本聚类概述 | 第17-18页 |
·传统的文本聚类算法 | 第18-19页 |
·基于层次的聚类算法 | 第18页 |
·基于划分的聚类算法 | 第18-19页 |
·基于密度的聚类算法 | 第19页 |
·专利文本数据介绍及特点分析 | 第19-20页 |
·本章小结 | 第20-21页 |
第3章 专利文本预处理及表示 | 第21-39页 |
·文本预处理 | 第21-27页 |
·分词(Tokenization) | 第21页 |
·词形还原 | 第21-22页 |
·停用词过滤 | 第22-24页 |
·特定字段的拼写检查及纠正 | 第24-27页 |
·文本表示 | 第27-30页 |
·Bag-of-words | 第28-29页 |
·N-gram | 第29页 |
·Word Cluster | 第29页 |
·Phrase | 第29-30页 |
·基于Trie树的文本表示优化 | 第30-32页 |
·Trie树的设计与实现 | 第30-32页 |
·Trie树与哈希表性能的实验对比 | 第32页 |
·特征权重计算 | 第32-35页 |
·Bool权重 | 第32-33页 |
·TF权重 | 第33页 |
·TF~*IDF权重 | 第33-34页 |
·TFC权重 | 第34页 |
·ITC权重 | 第34页 |
·TF~*IWF | 第34-35页 |
·熵权重 | 第35页 |
·特征降维 | 第35-37页 |
·文档频数 | 第35-36页 |
·信息增益 | 第36页 |
·χ~2统计 | 第36-37页 |
·互信息 | 第37页 |
·本章小结 | 第37-39页 |
第4章 专利文本聚类算法 | 第39-51页 |
·传统的文本相似度计算 | 第39-40页 |
·Minkowski(明氏)距离 | 第39页 |
·Consine(余弦)距离 | 第39-40页 |
·Mahalanois(马氏)距离 | 第40页 |
·Lance(兰氏)距离 | 第40页 |
·基于辅助字段的文本相似度计算 | 第40-42页 |
·Inventor统计 | 第41页 |
·Assignee统计 | 第41页 |
·Agent统计 | 第41-42页 |
·基于辅助字段的的相似度计算公式 | 第42页 |
·改进的文本聚类算法 | 第42-45页 |
·随机 | 第43页 |
·K-means++ | 第43-44页 |
·多次随机取最优 | 第44页 |
·随机分组 | 第44页 |
·多次随机分组取最优 | 第44-45页 |
·最优类别个数选取 | 第45页 |
·实验 | 第45-50页 |
·实验数据 | 第45页 |
·评价方法 | 第45-48页 |
·实验结果及分析 | 第48-50页 |
·本章小结 | 第50-51页 |
第5章 专利文本关键短语抽取 | 第51-63页 |
·关键短语抽取的难点及关键短语表示的优势 | 第51-52页 |
·关键短语抽取的难点 | 第51页 |
·关键短语表示的优势 | 第51-52页 |
·基于词性模板的关键短语候选抽取 | 第52-56页 |
·名词+动词模板 | 第54-55页 |
·自动抽取的词性模板 | 第55-56页 |
·基于词典的短语识别 | 第56-57页 |
·基于上下文信息的短语识别 | 第57-58页 |
·基于TF-ICF-CDF的关键短语评分 | 第58页 |
·实验 | 第58-60页 |
·实验数据 | 第58页 |
·评价方法 | 第58-59页 |
·实验结果及分析 | 第59-60页 |
·本章小结 | 第60-63页 |
第6章 工作总结与展望 | 第63-65页 |
·工作总结 | 第63页 |
·工作展望 | 第63-65页 |
参考文献 | 第65-69页 |
致谢 | 第69-71页 |
攻读硕士期间发表的论文 | 第71-73页 |
攻读硕士期间参加的项目 | 第73页 |