基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究
| 第一章 绪论 | 第1-19页 |
| ·课题的提出 | 第12页 |
| ·本研究的定位 | 第12-14页 |
| ·术语自动提取 | 第12页 |
| ·基于大规模动态流通语料库 | 第12-13页 |
| ·以信息技术领域为切入点 | 第13页 |
| ·描述性术语工作 | 第13-14页 |
| ·本文中一些指称的界定 | 第14-15页 |
| ·本研究的基本思路 | 第15-16页 |
| ·新术语的特点 | 第15-16页 |
| ·本研究的基本思路 | 第16页 |
| ·本研究的方法和技术路线 | 第16-17页 |
| ·用接续指数确定字符串的词语度 | 第16页 |
| ·用TFIDF和领域相减确定字符串的术语度 | 第16-17页 |
| ·本文的工作流程和实验目标 | 第17-18页 |
| ·本文的工作流程 | 第17-18页 |
| ·本文的实验目标 | 第18页 |
| ·本研究的贡献 | 第18页 |
| ·本文的内容安排 | 第18-19页 |
| 第二章 术语学研究及其对术语提取的指导 | 第19-29页 |
| ·引言 | 第19页 |
| ·术语学相关研究 | 第19-23页 |
| ·术语的定义 | 第19-20页 |
| ·术语定义的三个含义 | 第20-21页 |
| ·术语的基本特征 | 第21页 |
| ·作为提取对象的术语的特征 | 第21-22页 |
| ·术语和一般词语的关系 | 第22-23页 |
| ·术语提取相关研究 | 第23-28页 |
| ·作为提取对象的术语的分类 | 第23-24页 |
| ·术语提取的定义 | 第24-25页 |
| ·术语提取跟其他自然语言处理方向的关系 | 第25页 |
| ·术语提取的方法 | 第25-26页 |
| ·术语提取的工作模式 | 第26-28页 |
| ·本章小结 | 第28-29页 |
| 第三章 动态语言知识更新 | 第29-43页 |
| ·本研究的理论基础及背景介绍 | 第29-34页 |
| ·流通度理论简介 | 第29-30页 |
| ·动态语言知识更新理论 | 第30-32页 |
| ·动态流通语料库(DCC) | 第32-34页 |
| ·本研究的总体规划和实验流程设计 | 第34-35页 |
| ·本研究的总体规划 | 第34-35页 |
| ·本研究的提取方法和策略 | 第35页 |
| ·本研究的资源建设和系统开发 | 第35-42页 |
| ·动态流通语料库扩展规划 | 第35-38页 |
| ·术语数据库建设 | 第38页 |
| ·统一的语料库建设和术语提取系统 | 第38-42页 |
| ·本章小结 | 第42-43页 |
| 第四章 接续指数 | 第43-55页 |
| ·接续指数概念的引入 | 第43-44页 |
| ·接续指数的定义 | 第44-45页 |
| ·接续指数的理论基础 | 第45页 |
| ·接续指数分析 | 第45-52页 |
| ·接续指数与频率的关系 | 第45-47页 |
| ·接续指数与字符串的关系 | 第47-49页 |
| ·前接指数和后续指数的关系 | 第49页 |
| ·接续指数为0的情况 | 第49-52页 |
| ·接续指数在术语提取中的应用 | 第52-54页 |
| ·术语提取的范围划定 | 第52页 |
| ·术语的接续指数分析 | 第52-54页 |
| ·字符串词语度判断 | 第54页 |
| ·本章小结 | 第54-55页 |
| 第五章 TFIDF与领域相减相结合的方法 | 第55-65页 |
| ·术语提取的基本思路 | 第55-56页 |
| ·TFIDF介绍 | 第56-57页 |
| ·定义 | 第56-57页 |
| ·各参数的取值 | 第57页 |
| ·TFIDF在术语提取中的作用 | 第57-60页 |
| ·TFIDF在术语提取中的不足 | 第60-61页 |
| ·领域相减介绍 | 第61-63页 |
| ·领域相减的定义 | 第61页 |
| ·关于领域距离 | 第61页 |
| ·学科领域的划分 | 第61-63页 |
| ·领域相减的作用和不足 | 第63-64页 |
| ·两者相结合的方法 | 第64页 |
| ·本章小结 | 第64-65页 |
| 第六章 实验结果和数据分析 | 第65-75页 |
| ·引言 | 第65页 |
| ·实验所用的语料 | 第65页 |
| ·通用领域语料 | 第65页 |
| ·专业领域语料 | 第65页 |
| ·实验所用的术语词典 | 第65页 |
| ·实验的硬软件环境 | 第65-66页 |
| ·实验流程 | 第66页 |
| ·提取结果分析 | 第66-73页 |
| ·提取结果在语料中的分布 | 第66-67页 |
| ·标准答案的确定 | 第67-68页 |
| ·提取结果的评价 | 第68页 |
| ·两个领域共有字符串的提取结果 | 第68-70页 |
| ·目标领域独有字符串的提取结果 | 第70页 |
| ·新术语提取结果 | 第70-73页 |
| ·本章小结 | 第73-75页 |
| 第七章 结论和展望 | 第75-78页 |
| ·全文总结 | 第75页 |
| ·今后的工作 | 第75-78页 |
| 附录1 CCW02切分结果 | 第78-79页 |
| 附录2 不同长度的字符串在各频率段的分布 | 第79-80页 |
| 附录3 语料库各部分代码 | 第80-81页 |
| 附录4 接续指数举例 | 第81-83页 |
| 附录5 部分无人工干预的提取结果(一) | 第83-86页 |
| 附录6 部分无人工干预的提取结果(二) | 第86-89页 |
| 附录7 部分经过人工后处理的提取结果 | 第89-91页 |
| 附录8 部分产品、品牌、公司名称 | 第91-94页 |
| 参考文献 | 第94-97页 |
| 攻读博士学位期间发表的论文和著作 | 第97-98页 |
| 致谢 | 第98页 |