首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

现代汉语通用分词系统的技术与实现

中文摘要第5-6页
英文摘要第6页
1 引言第7-10页
    1.1 自动分词是中文信息处理技术的基础工程第7-8页
    1.2 自动分词技术的重点和难点第8页
    1.3 自动分词系统及现代汉语通用分词系统(GPWS)的发展第8-9页
    1.4 本论文的内容第9-10页
2 现代汉语通用分词系统中歧义切分技术第10-19页
    2.1 基本概念第10-11页
    2.2 前人的工作第11-13页
        2.2.1 规则方法第11-12页
        2.2.2 统计方法第12页
        2.2.3 歧义切分知识库第12页
        2.2.4 词语切分、词性标注、句法分析一体化方法第12-13页
    2.3 本文中采用的方法第13-17页
        2.3.1 交集型歧义字段的发现算法第13页
        2.3.2 大规模真实语料中交集型歧义字段统计分析第13-14页
        2.3.3 实用的消歧策略第14-17页
        2.3.4 测试结果第17页
    2.4 小结第17-19页
3 现代汉语通用分词系统中专名识别技术第19-31页
    3.1 专名识别的任务和困难第19-20页
        3.1.1 专名识别的任务第19页
        3.1.2 专名识别的困难第19-20页
    3.2 前人的方法第20页
    3.3 一体化并行识别方法第20-28页
        3.3.1 数据准备与初始规则系统第20-22页
        3.3.2 歧义处理实用策略第22-23页
        3.3.3 基于专名特征属性集的分解策略——多种专名的并行识别(理论探讨:形式规则和算法)第23-27页
        3.3.4 上下文语境特征、反面规则和临时专名表第27-28页
    3.4 专名识别系统整体框架第28页
    3.5 测试结果第28-29页
    3.6 小结第29-31页
4 现代汉语自动分词系统通用性设计、评价与交互式分词系统第31-39页
    4.1 通用自动分词系统的困难第31-35页
        4.1.1 词表的问题第31-32页
        4.1.2 词信息的问题第32页
        4.1.3 词条颗粒度问题第32-34页
        4.1.4 分词功能问题第34-35页
        4.1.5 跨平台问题第35页
    4.2 现有的解决方案第35-37页
        4.2.1 分词底表、即插即用的用户自定义词表和词信息库组织第35-36页
        4.2.2 词语的结构化表示——词条颗粒度第36-37页
        4.2.3 任选和任意组合的分词功能(歧义切分、专名识别、数字、后缀短语识别等)第37页
        4.2.4 系统的跨平台能力:UNICODE & ANSI C/C++第37页
    4.3 分词系统通用性评价第37-38页
    4.4 交互式分词系统第38-39页
        4.4.1 交互性对于通用分词系统的重要性第38页
        4.4.2 一种简单的交互性实现方法第38-39页
5 结论第39-40页
6 尚未解决的问题和将来的工作第40-41页
参考文献第41-43页
攻读学位期间发表的学术论文第43-44页
致谢第44页

论文共44页,点击 下载论文
上一篇:放牧制度对短花针茅草原植物群落和家畜体重的影响
下一篇:气调库气调监控系统的设计