专利文本聚类及关键短语抽取的研究
| 摘要 | 第1-6页 |
| Abstract | 第6-11页 |
| 第1章 绪论 | 第11-17页 |
| ·研究背景和意义 | 第11-12页 |
| ·研究现状 | 第12-13页 |
| ·本文的主要研究内容和贡献 | 第13-14页 |
| ·论文组织 | 第14-17页 |
| 第2章 基础知识 | 第17-21页 |
| ·文本聚类概述 | 第17-18页 |
| ·传统的文本聚类算法 | 第18-19页 |
| ·基于层次的聚类算法 | 第18页 |
| ·基于划分的聚类算法 | 第18-19页 |
| ·基于密度的聚类算法 | 第19页 |
| ·专利文本数据介绍及特点分析 | 第19-20页 |
| ·本章小结 | 第20-21页 |
| 第3章 专利文本预处理及表示 | 第21-39页 |
| ·文本预处理 | 第21-27页 |
| ·分词(Tokenization) | 第21页 |
| ·词形还原 | 第21-22页 |
| ·停用词过滤 | 第22-24页 |
| ·特定字段的拼写检查及纠正 | 第24-27页 |
| ·文本表示 | 第27-30页 |
| ·Bag-of-words | 第28-29页 |
| ·N-gram | 第29页 |
| ·Word Cluster | 第29页 |
| ·Phrase | 第29-30页 |
| ·基于Trie树的文本表示优化 | 第30-32页 |
| ·Trie树的设计与实现 | 第30-32页 |
| ·Trie树与哈希表性能的实验对比 | 第32页 |
| ·特征权重计算 | 第32-35页 |
| ·Bool权重 | 第32-33页 |
| ·TF权重 | 第33页 |
| ·TF~*IDF权重 | 第33-34页 |
| ·TFC权重 | 第34页 |
| ·ITC权重 | 第34页 |
| ·TF~*IWF | 第34-35页 |
| ·熵权重 | 第35页 |
| ·特征降维 | 第35-37页 |
| ·文档频数 | 第35-36页 |
| ·信息增益 | 第36页 |
| ·χ~2统计 | 第36-37页 |
| ·互信息 | 第37页 |
| ·本章小结 | 第37-39页 |
| 第4章 专利文本聚类算法 | 第39-51页 |
| ·传统的文本相似度计算 | 第39-40页 |
| ·Minkowski(明氏)距离 | 第39页 |
| ·Consine(余弦)距离 | 第39-40页 |
| ·Mahalanois(马氏)距离 | 第40页 |
| ·Lance(兰氏)距离 | 第40页 |
| ·基于辅助字段的文本相似度计算 | 第40-42页 |
| ·Inventor统计 | 第41页 |
| ·Assignee统计 | 第41页 |
| ·Agent统计 | 第41-42页 |
| ·基于辅助字段的的相似度计算公式 | 第42页 |
| ·改进的文本聚类算法 | 第42-45页 |
| ·随机 | 第43页 |
| ·K-means++ | 第43-44页 |
| ·多次随机取最优 | 第44页 |
| ·随机分组 | 第44页 |
| ·多次随机分组取最优 | 第44-45页 |
| ·最优类别个数选取 | 第45页 |
| ·实验 | 第45-50页 |
| ·实验数据 | 第45页 |
| ·评价方法 | 第45-48页 |
| ·实验结果及分析 | 第48-50页 |
| ·本章小结 | 第50-51页 |
| 第5章 专利文本关键短语抽取 | 第51-63页 |
| ·关键短语抽取的难点及关键短语表示的优势 | 第51-52页 |
| ·关键短语抽取的难点 | 第51页 |
| ·关键短语表示的优势 | 第51-52页 |
| ·基于词性模板的关键短语候选抽取 | 第52-56页 |
| ·名词+动词模板 | 第54-55页 |
| ·自动抽取的词性模板 | 第55-56页 |
| ·基于词典的短语识别 | 第56-57页 |
| ·基于上下文信息的短语识别 | 第57-58页 |
| ·基于TF-ICF-CDF的关键短语评分 | 第58页 |
| ·实验 | 第58-60页 |
| ·实验数据 | 第58页 |
| ·评价方法 | 第58-59页 |
| ·实验结果及分析 | 第59-60页 |
| ·本章小结 | 第60-63页 |
| 第6章 工作总结与展望 | 第63-65页 |
| ·工作总结 | 第63页 |
| ·工作展望 | 第63-65页 |
| 参考文献 | 第65-69页 |
| 致谢 | 第69-71页 |
| 攻读硕士期间发表的论文 | 第71-73页 |
| 攻读硕士期间参加的项目 | 第73页 |