中文摘要 | 第1-5页 |
Abstract | 第5-13页 |
第一章 引言 | 第13-26页 |
·问题的提出 | 第13-18页 |
·世界全球化的发展趋势 | 第14页 |
·Internet加速了信息处理的国际化 | 第14-15页 |
·多民族、多文种的中国需要多文种信息处理 | 第15页 |
·多文种信息处理研究的意义和价值 | 第15-17页 |
·多文种信息处理平台 | 第17-18页 |
·国内外现状 | 第18-22页 |
·国内研究现状 | 第18-19页 |
·国外研究现状 | 第19-21页 |
·存在的问题和不足 | 第21-22页 |
·本文的主要工作及解决的问题 | 第22-24页 |
·本文的组织结构 | 第24-26页 |
第二章 多文种信息处理技术概述 | 第26-69页 |
·概述 | 第26页 |
·国际化和本地化 | 第26-33页 |
·国际化和本地化 | 第26-28页 |
·国际化的内容 | 第28-32页 |
·文字翻译 | 第28页 |
·文化和语言特性 | 第28-29页 |
·用户界面 | 第29页 |
·文字输入和输出 | 第29-30页 |
·字符和字形 | 第30-31页 |
·字符编码方案和代码体系 | 第31-32页 |
·国际化、本地化和多文种化 | 第32-33页 |
·常用字符编码方案 | 第33-61页 |
·基本概念 | 第33-34页 |
·欧美拼音文字编码方案 | 第34-40页 |
·ASCII | 第34-36页 |
·ISO 646 | 第36页 |
·ISO 8859 | 第36-38页 |
·其它拼音字符的编码方案 | 第38-40页 |
·亚洲像形文字编码方案 | 第40-51页 |
·ISO 2022 | 第40-42页 |
·日文编码方案 | 第42-44页 |
·韩文编码方案 | 第44-45页 |
·越南文字代码体系 | 第45-46页 |
·中国文字代码体系 | 第46-51页 |
·多文种编码方案 | 第51-53页 |
·单文种编码方案的缺点 | 第51-52页 |
·多文种编码方案及其目标 | 第52-53页 |
·多文种编码方案:Unicode和ISO 10646 | 第53-60页 |
·Unicode和ISO 10646的历史 | 第53页 |
·Unicode和ISO 10646的关系 | 第53-55页 |
·Unicode的宗旨 | 第55页 |
·Unicode和ISO 10646的编码规范 | 第55-57页 |
·BMP和USC-2 | 第57-58页 |
·Unicode的转换格式 | 第58-60页 |
·其它支持多文种的其它平台 | 第60-61页 |
·多文种信息处理平台 | 第61-68页 |
·多文种信息处理平台概念和内容 | 第62页 |
·目前多文种信息处理平台存在的问题 | 第62-66页 |
·基于语义的多文种信息处理平台 | 第66-68页 |
·本章小结 | 第68-69页 |
第三章 基于语义的多文种代码体系SemaCode | 第69-109页 |
·现有的多文种代码体系 | 第69-76页 |
·文本处理的语义需求和MetaData | 第69-71页 |
·Unicode代码体系 | 第71-72页 |
·Unicode的缺陷 | 第72-75页 |
·MetaCode结构 | 第75-76页 |
·MetaCode的缺陷 | 第76页 |
·以语义为轴心的多文种代码体系SemaCode | 第76-80页 |
·文字语义表示的挑战 | 第76-77页 |
·SemaCode的基本思想 | 第77-80页 |
·SemaCode模型 | 第80页 |
·SemaCode各层的内容 | 第80-101页 |
·物理存储层(Physical Storage Layer) | 第80-81页 |
·字符码位层(Character Code Point Layer) | 第81-86页 |
·Unicode的兼容字符、变形字符、多码位字符和复杂字符 | 第81-82页 |
·SemaCode码位层的基本思想 | 第82-83页 |
·字符码位定义 | 第83-86页 |
·词码位层(Phrase Code Point Layer) | 第86-90页 |
·属性层(Property Layer) | 第90-95页 |
·XML和Unicode语言标签存在的问题 | 第90-91页 |
·SemaCode标签定义 | 第91-92页 |
·字符属性 | 第92-95页 |
·语义层(Semantic Layer) | 第95-100页 |
·语义描述的方式 | 第95-97页 |
·其它语义标签(Semantic Tags) | 第97页 |
·属性标签和语义标签的混用 | 第97-98页 |
·语义的扩展(Extension) | 第98页 |
·字符的等价关系(Equivalencce) | 第98-100页 |
·交换/传输层(Exchange/Transmission Layer) | 第100页 |
·应用接口层(Application Interface Layer) | 第100-101页 |
·SemaCode和Unicode等的比较和分析 | 第101-104页 |
·字符码位层 | 第101-102页 |
·属性的表示 | 第102-103页 |
·等价关系 | 第103页 |
·语义表示 | 第103-104页 |
·SemaCode的缺点 | 第104页 |
·SemaCode和Unicode的转换和兼容性分析 | 第104-108页 |
·SemaCode和Unicode转换 | 第105-107页 |
·SemaCode和其它代码的转换 | 第107页 |
·用SemaCode直接表示其它编码方案 | 第107-108页 |
·本章小结 | 第108-109页 |
第四章 基于语义的多文种信息处理平台SMIPP模型 | 第109-163页 |
·现有的多文种信息处理平台 | 第109-116页 |
·Windows多文种环境(Windows Multilingual Environment) | 第109-111页 |
·Linux国际化框架(Linux Internationalisation Architecture) | 第111-112页 |
·NJStar Communicator | 第112-113页 |
·中国少数民族多文种处理平台 | 第113-116页 |
·“炎黄”中文平台 | 第113-115页 |
·维、哈、柯、汉、英多文种处理平台 | 第115-116页 |
·基于语义的多文种信息处理平台模型SMIPP | 第116-124页 |
·多文种信息处理平台的设计目标 | 第116-119页 |
·SMIPP模型 | 第119-120页 |
·SMIPP模型的组成 | 第120-124页 |
·应用程序/用户接口层 | 第120-122页 |
·文字输入层和文字输出层 | 第122页 |
·信息处理服务层 | 第122页 |
·语料库层 | 第122-123页 |
·SemaCode | 第123-124页 |
·Ontology | 第124页 |
·面向SMIPP的Ontology | 第124-139页 |
·什么是Ontology | 第124-126页 |
·Ontology在SMIPP中的意义和设计目标 | 第126-127页 |
·Ontology需要解决的问题和总体设计思想 | 第127页 |
·面向SMIPP的Ontology的形式化定义 | 第127-131页 |
·面向SMIPP的Ontology的结构和表示方法 | 第131-138页 |
·Ontology的结构 | 第131-134页 |
·Ontology的构建和表示方法 | 第134-137页 |
·一个例子 | 第137-138页 |
·面向SMIPP的Ontology的语义相似度计算 | 第138-139页 |
·面向SMIPP的语料库 | 第139-160页 |
·语料库研究的现状 | 第139-141页 |
·面向SMIPP语料库的设计思想 | 第141-142页 |
·Wiki的信息收集方法 | 第142-144页 |
·信息网格技术 | 第144-145页 |
·语料的收集方法 | 第145-147页 |
·基于信息网格的语料库建设和发布模型 | 第147-150页 |
·面向SMIPP语料库的收集和整理 | 第150-155页 |
·语料的可信度计算和分析 | 第155-160页 |
·可信度定义 | 第155-157页 |
·基于算法的语料可信度 | 第157-158页 |
·基于用户的语料可信度 | 第158-160页 |
·SMIPP和现有平台的对比 | 第160-162页 |
·SMIPP的优势 | 第160页 |
·SMIPP的不足 | 第160-161页 |
·SMIPP和现有平台对比表 | 第161-162页 |
·本章小结 | 第162-163页 |
第五章 SMIPP的输入和输出模型及其分析 | 第163-215页 |
·文字输入/输出技术概述 | 第163-167页 |
·文字输入/输出概述 | 第163-164页 |
·文字输入技术目前存在的问题 | 第164-165页 |
·文字输出技术目前存在的问题 | 第165-167页 |
·SMIPP输入和输出模型 | 第167-179页 |
·基本思想 | 第167-168页 |
·SMIPP的输入模型 | 第168-172页 |
·语言模型的个性化 | 第172-174页 |
·语言模型的普适性 | 第174-176页 |
·新词的收集 | 第176-179页 |
·SMIPP的输出模型 | 第179页 |
·文字内码自动识别技术 | 第179-196页 |
·文字内码自动识别概述 | 第180-181页 |
·现有的文字内码识别方法 | 第181-183页 |
·文字内码自动识别算法 | 第183-186页 |
·字符串内码编码方案和文种自动识别算法 | 第186-193页 |
·算法设计思想 | 第186-187页 |
·算法的准备 | 第187-189页 |
·单个字符串的编码方案和文种自动识别算法 | 第189-193页 |
·实验和算法分析 | 第193-196页 |
·双向文字处理技术 | 第196-213页 |
·双向文字概述 | 第196-200页 |
·阿拉伯和希伯来文字 | 第196-198页 |
·蒙古文字 | 第198页 |
·双向文字 | 第198-199页 |
·双向文字存在的问题 | 第199-200页 |
·现有的双向文字解决方法 | 第200-202页 |
·常用双向文字解决方法 | 第201页 |
·显/隐式的双向文字识别算法 | 第201-202页 |
·SMIPP的双向文字处理算法SBidi(SMIPP Bidirectional Algorithm) | 第202-209页 |
·测试和例子 | 第209-213页 |
·语义信息的获取 | 第213-214页 |
·本章总结 | 第214-215页 |
第六章 总结和展望 | 第215-229页 |
·本文总结 | 第215-216页 |
·本文的贡献和创新 | 第216-218页 |
·下一步的工作 | 第218-229页 |
攻读博士学位期间相关的科研情况 | 第229-230页 |
攻读博士学位期间发表的相关论文 | 第230-233页 |
致谢 | 第233-234页 |
中文详细摘要 | 第234-250页 |