首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

专利文本聚类及关键短语抽取的研究

摘要第1-6页
Abstract第6-11页
第1章 绪论第11-17页
   ·研究背景和意义第11-12页
   ·研究现状第12-13页
   ·本文的主要研究内容和贡献第13-14页
   ·论文组织第14-17页
第2章 基础知识第17-21页
   ·文本聚类概述第17-18页
   ·传统的文本聚类算法第18-19页
     ·基于层次的聚类算法第18页
     ·基于划分的聚类算法第18-19页
     ·基于密度的聚类算法第19页
   ·专利文本数据介绍及特点分析第19-20页
   ·本章小结第20-21页
第3章 专利文本预处理及表示第21-39页
   ·文本预处理第21-27页
     ·分词(Tokenization)第21页
     ·词形还原第21-22页
     ·停用词过滤第22-24页
     ·特定字段的拼写检查及纠正第24-27页
   ·文本表示第27-30页
     ·Bag-of-words第28-29页
     ·N-gram第29页
     ·Word Cluster第29页
     ·Phrase第29-30页
   ·基于Trie树的文本表示优化第30-32页
     ·Trie树的设计与实现第30-32页
     ·Trie树与哈希表性能的实验对比第32页
   ·特征权重计算第32-35页
     ·Bool权重第32-33页
     ·TF权重第33页
     ·TF~*IDF权重第33-34页
     ·TFC权重第34页
     ·ITC权重第34页
     ·TF~*IWF第34-35页
     ·熵权重第35页
   ·特征降维第35-37页
     ·文档频数第35-36页
     ·信息增益第36页
     ·χ~2统计第36-37页
     ·互信息第37页
   ·本章小结第37-39页
第4章 专利文本聚类算法第39-51页
   ·传统的文本相似度计算第39-40页
     ·Minkowski(明氏)距离第39页
     ·Consine(余弦)距离第39-40页
     ·Mahalanois(马氏)距离第40页
     ·Lance(兰氏)距离第40页
   ·基于辅助字段的文本相似度计算第40-42页
     ·Inventor统计第41页
     ·Assignee统计第41页
     ·Agent统计第41-42页
     ·基于辅助字段的的相似度计算公式第42页
   ·改进的文本聚类算法第42-45页
     ·随机第43页
     ·K-means++第43-44页
     ·多次随机取最优第44页
     ·随机分组第44页
     ·多次随机分组取最优第44-45页
   ·最优类别个数选取第45页
   ·实验第45-50页
     ·实验数据第45页
     ·评价方法第45-48页
     ·实验结果及分析第48-50页
   ·本章小结第50-51页
第5章 专利文本关键短语抽取第51-63页
   ·关键短语抽取的难点及关键短语表示的优势第51-52页
     ·关键短语抽取的难点第51页
     ·关键短语表示的优势第51-52页
   ·基于词性模板的关键短语候选抽取第52-56页
     ·名词+动词模板第54-55页
     ·自动抽取的词性模板第55-56页
   ·基于词典的短语识别第56-57页
   ·基于上下文信息的短语识别第57-58页
   ·基于TF-ICF-CDF的关键短语评分第58页
   ·实验第58-60页
     ·实验数据第58页
     ·评价方法第58-59页
     ·实验结果及分析第59-60页
   ·本章小结第60-63页
第6章 工作总结与展望第63-65页
   ·工作总结第63页
   ·工作展望第63-65页
参考文献第65-69页
致谢第69-71页
攻读硕士期间发表的论文第71-73页
攻读硕士期间参加的项目第73页

论文共73页,点击 下载论文
上一篇:军区科技论文管理系统的设计与安全性研究
下一篇:军队计划生育管理系统的设计与实现