专利文本聚类及关键短语抽取的研究

摘要	第1-6页
Abstract	第6-11页
第1章绪论	第11-17页
·研究背景和意义	第11-12页
·研究现状	第12-13页
·本文的主要研究内容和贡献	第13-14页
·论文组织	第14-17页
第2章基础知识	第17-21页
·文本聚类概述	第17-18页
·传统的文本聚类算法	第18-19页
·基于层次的聚类算法	第18页
·基于划分的聚类算法	第18-19页
·基于密度的聚类算法	第19页
·专利文本数据介绍及特点分析	第19-20页
·本章小结	第20-21页
第3章专利文本预处理及表示	第21-39页
·文本预处理	第21-27页
·分词(Tokenization)	第21页
·词形还原	第21-22页
·停用词过滤	第22-24页
·特定字段的拼写检查及纠正	第24-27页
·文本表示	第27-30页
·Bag-of-words	第28-29页
·N-gram	第29页
·Word Cluster	第29页
·Phrase	第29-30页
·基于Trie树的文本表示优化	第30-32页
·Trie树的设计与实现	第30-32页
·Trie树与哈希表性能的实验对比	第32页
·特征权重计算	第32-35页
·Bool权重	第32-33页
·TF权重	第33页
·TF~*IDF权重	第33-34页
·TFC权重	第34页
·ITC权重	第34页
·TF~*IWF	第34-35页
·熵权重	第35页
·特征降维	第35-37页
·文档频数	第35-36页
·信息增益	第36页
·χ~2统计	第36-37页
·互信息	第37页
·本章小结	第37-39页
第4章专利文本聚类算法	第39-51页
·传统的文本相似度计算	第39-40页
·Minkowski(明氏)距离	第39页
·Consine(余弦)距离	第39-40页
·Mahalanois(马氏)距离	第40页
·Lance(兰氏)距离	第40页
·基于辅助字段的文本相似度计算	第40-42页
·Inventor统计	第41页
·Assignee统计	第41页
·Agent统计	第41-42页
·基于辅助字段的的相似度计算公式	第42页
·改进的文本聚类算法	第42-45页
·随机	第43页
·K-means++	第43-44页
·多次随机取最优	第44页
·随机分组	第44页
·多次随机分组取最优	第44-45页
·最优类别个数选取	第45页
·实验	第45-50页
·实验数据	第45页
·评价方法	第45-48页
·实验结果及分析	第48-50页
·本章小结	第50-51页
第5章专利文本关键短语抽取	第51-63页
·关键短语抽取的难点及关键短语表示的优势	第51-52页
·关键短语抽取的难点	第51页
·关键短语表示的优势	第51-52页
·基于词性模板的关键短语候选抽取	第52-56页
·名词+动词模板	第54-55页
·自动抽取的词性模板	第55-56页
·基于词典的短语识别	第56-57页
·基于上下文信息的短语识别	第57-58页
·基于TF-ICF-CDF的关键短语评分	第58页
·实验	第58-60页
·实验数据	第58页
·评价方法	第58-59页
·实验结果及分析	第59-60页
·本章小结	第60-63页
第6章工作总结与展望	第63-65页
·工作总结	第63页
·工作展望	第63-65页
参考文献	第65-69页
致谢	第69-71页
攻读硕士期间发表的论文	第71-73页
攻读硕士期间参加的项目	第73页