首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Web的领域词典构建技术研究

摘要第1-5页
Abstract第5-10页
第1章 绪论第10-16页
   ·课题研究的背景及意义第10-11页
   ·国内外对领域术语自动获取的研究第11-14页
     ·国外的研究状况第11-13页
     ·国内的研究状况第13-14页
   ·主要工作与本文组织第14-16页
第2章 关于术语的相关概念第16-24页
   ·术语与术语学第16-19页
   ·术语的特征第19-23页
     ·术语的领域特征第19页
     ·术语的结构特征第19-20页
     ·术语的单元性(Unithood)与术语性(Termhood)第20-21页
     ·简单术语与复杂术语第21-22页
     ·术语的内部特征与外部特征第22-23页
   ·本章小结第23-24页
第3章 基于互联网的领域词典构建的关键技术第24-40页
   ·面向领域主题的信息采集相关研究第24-27页
     ·主题的描述第25页
     ·网页内容与主题相关性的判定第25-26页
     ·URL与主题的相关性预测第26-27页
   ·领域语料内容的预处理相关研究第27-31页
     ·网页规范化处理第27-28页
     ·网页形式化表示第28-29页
     ·网页节点选择第29-31页
   ·领域新词发现相关研究第31-34页
     ·上下文邻接分析第32-33页
     ·独立成词概率第33页
     ·位置成词概率第33页
     ·双字耦合度第33-34页
   ·领域特征词抽取相关研究第34-39页
     ·领域术语抽取标准第35-36页
     ·符号定义第36页
     ·信息熵第36-37页
     ·正规化的类间分布熵第37-38页
     ·正规化的类内分布熵第38页
     ·词语的排序公式第38-39页
   ·本章小结第39-40页
第4章 Web术语抽取系统的设计与实现第40-51页
   ·系统功能第40页
   ·系统总体架构第40-41页
   ·主题信息采集的实现第41-43页
   ·网页正文抽取的实现第43-44页
     ·预处理第43页
     ·噪声过滤第43-44页
     ·正文抽取第44页
   ·领域新词发现的实现第44-47页
     ·训练模块第44-45页
     ·频度统计第45-47页
     ·垃圾串过滤第47页
   ·领域特征词抽取的实现第47-50页
   ·本章小结第50-51页
第5章 系统功能评测第51-59页
   ·针对主题过滤模块的评测第51-52页
   ·针对正文抽取模块的评测第52-53页
   ·针对领域新词发现模块的评测第53-56页
     ·小规模语料测试第53-55页
     ·分词实验第55-56页
   ·针对领域特征词抽取模块的评测第56-58页
     ·特征词精度测试第56-57页
     ·文本分类实验第57-58页
   ·本章小结第58-59页
结论第59-61页
参考文献第61-66页
致谢第66页

论文共66页,点击 下载论文
上一篇:基于线段的平面多边形最近邻查询
下一篇:基于本体的移动数据库同步服务器的设计