基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究
第一章 绪论 | 第1-19页 |
·课题的提出 | 第12页 |
·本研究的定位 | 第12-14页 |
·术语自动提取 | 第12页 |
·基于大规模动态流通语料库 | 第12-13页 |
·以信息技术领域为切入点 | 第13页 |
·描述性术语工作 | 第13-14页 |
·本文中一些指称的界定 | 第14-15页 |
·本研究的基本思路 | 第15-16页 |
·新术语的特点 | 第15-16页 |
·本研究的基本思路 | 第16页 |
·本研究的方法和技术路线 | 第16-17页 |
·用接续指数确定字符串的词语度 | 第16页 |
·用TFIDF和领域相减确定字符串的术语度 | 第16-17页 |
·本文的工作流程和实验目标 | 第17-18页 |
·本文的工作流程 | 第17-18页 |
·本文的实验目标 | 第18页 |
·本研究的贡献 | 第18页 |
·本文的内容安排 | 第18-19页 |
第二章 术语学研究及其对术语提取的指导 | 第19-29页 |
·引言 | 第19页 |
·术语学相关研究 | 第19-23页 |
·术语的定义 | 第19-20页 |
·术语定义的三个含义 | 第20-21页 |
·术语的基本特征 | 第21页 |
·作为提取对象的术语的特征 | 第21-22页 |
·术语和一般词语的关系 | 第22-23页 |
·术语提取相关研究 | 第23-28页 |
·作为提取对象的术语的分类 | 第23-24页 |
·术语提取的定义 | 第24-25页 |
·术语提取跟其他自然语言处理方向的关系 | 第25页 |
·术语提取的方法 | 第25-26页 |
·术语提取的工作模式 | 第26-28页 |
·本章小结 | 第28-29页 |
第三章 动态语言知识更新 | 第29-43页 |
·本研究的理论基础及背景介绍 | 第29-34页 |
·流通度理论简介 | 第29-30页 |
·动态语言知识更新理论 | 第30-32页 |
·动态流通语料库(DCC) | 第32-34页 |
·本研究的总体规划和实验流程设计 | 第34-35页 |
·本研究的总体规划 | 第34-35页 |
·本研究的提取方法和策略 | 第35页 |
·本研究的资源建设和系统开发 | 第35-42页 |
·动态流通语料库扩展规划 | 第35-38页 |
·术语数据库建设 | 第38页 |
·统一的语料库建设和术语提取系统 | 第38-42页 |
·本章小结 | 第42-43页 |
第四章 接续指数 | 第43-55页 |
·接续指数概念的引入 | 第43-44页 |
·接续指数的定义 | 第44-45页 |
·接续指数的理论基础 | 第45页 |
·接续指数分析 | 第45-52页 |
·接续指数与频率的关系 | 第45-47页 |
·接续指数与字符串的关系 | 第47-49页 |
·前接指数和后续指数的关系 | 第49页 |
·接续指数为0的情况 | 第49-52页 |
·接续指数在术语提取中的应用 | 第52-54页 |
·术语提取的范围划定 | 第52页 |
·术语的接续指数分析 | 第52-54页 |
·字符串词语度判断 | 第54页 |
·本章小结 | 第54-55页 |
第五章 TFIDF与领域相减相结合的方法 | 第55-65页 |
·术语提取的基本思路 | 第55-56页 |
·TFIDF介绍 | 第56-57页 |
·定义 | 第56-57页 |
·各参数的取值 | 第57页 |
·TFIDF在术语提取中的作用 | 第57-60页 |
·TFIDF在术语提取中的不足 | 第60-61页 |
·领域相减介绍 | 第61-63页 |
·领域相减的定义 | 第61页 |
·关于领域距离 | 第61页 |
·学科领域的划分 | 第61-63页 |
·领域相减的作用和不足 | 第63-64页 |
·两者相结合的方法 | 第64页 |
·本章小结 | 第64-65页 |
第六章 实验结果和数据分析 | 第65-75页 |
·引言 | 第65页 |
·实验所用的语料 | 第65页 |
·通用领域语料 | 第65页 |
·专业领域语料 | 第65页 |
·实验所用的术语词典 | 第65页 |
·实验的硬软件环境 | 第65-66页 |
·实验流程 | 第66页 |
·提取结果分析 | 第66-73页 |
·提取结果在语料中的分布 | 第66-67页 |
·标准答案的确定 | 第67-68页 |
·提取结果的评价 | 第68页 |
·两个领域共有字符串的提取结果 | 第68-70页 |
·目标领域独有字符串的提取结果 | 第70页 |
·新术语提取结果 | 第70-73页 |
·本章小结 | 第73-75页 |
第七章 结论和展望 | 第75-78页 |
·全文总结 | 第75页 |
·今后的工作 | 第75-78页 |
附录1 CCW02切分结果 | 第78-79页 |
附录2 不同长度的字符串在各频率段的分布 | 第79-80页 |
附录3 语料库各部分代码 | 第80-81页 |
附录4 接续指数举例 | 第81-83页 |
附录5 部分无人工干预的提取结果(一) | 第83-86页 |
附录6 部分无人工干预的提取结果(二) | 第86-89页 |
附录7 部分经过人工后处理的提取结果 | 第89-91页 |
附录8 部分产品、品牌、公司名称 | 第91-94页 |
参考文献 | 第94-97页 |
攻读博士学位期间发表的论文和著作 | 第97-98页 |
致谢 | 第98页 |