| 中文摘要 | 第1-5页 |
| Abstract | 第5-13页 |
| 第一章 引言 | 第13-26页 |
| ·问题的提出 | 第13-18页 |
| ·世界全球化的发展趋势 | 第14页 |
| ·Internet加速了信息处理的国际化 | 第14-15页 |
| ·多民族、多文种的中国需要多文种信息处理 | 第15页 |
| ·多文种信息处理研究的意义和价值 | 第15-17页 |
| ·多文种信息处理平台 | 第17-18页 |
| ·国内外现状 | 第18-22页 |
| ·国内研究现状 | 第18-19页 |
| ·国外研究现状 | 第19-21页 |
| ·存在的问题和不足 | 第21-22页 |
| ·本文的主要工作及解决的问题 | 第22-24页 |
| ·本文的组织结构 | 第24-26页 |
| 第二章 多文种信息处理技术概述 | 第26-69页 |
| ·概述 | 第26页 |
| ·国际化和本地化 | 第26-33页 |
| ·国际化和本地化 | 第26-28页 |
| ·国际化的内容 | 第28-32页 |
| ·文字翻译 | 第28页 |
| ·文化和语言特性 | 第28-29页 |
| ·用户界面 | 第29页 |
| ·文字输入和输出 | 第29-30页 |
| ·字符和字形 | 第30-31页 |
| ·字符编码方案和代码体系 | 第31-32页 |
| ·国际化、本地化和多文种化 | 第32-33页 |
| ·常用字符编码方案 | 第33-61页 |
| ·基本概念 | 第33-34页 |
| ·欧美拼音文字编码方案 | 第34-40页 |
| ·ASCII | 第34-36页 |
| ·ISO 646 | 第36页 |
| ·ISO 8859 | 第36-38页 |
| ·其它拼音字符的编码方案 | 第38-40页 |
| ·亚洲像形文字编码方案 | 第40-51页 |
| ·ISO 2022 | 第40-42页 |
| ·日文编码方案 | 第42-44页 |
| ·韩文编码方案 | 第44-45页 |
| ·越南文字代码体系 | 第45-46页 |
| ·中国文字代码体系 | 第46-51页 |
| ·多文种编码方案 | 第51-53页 |
| ·单文种编码方案的缺点 | 第51-52页 |
| ·多文种编码方案及其目标 | 第52-53页 |
| ·多文种编码方案:Unicode和ISO 10646 | 第53-60页 |
| ·Unicode和ISO 10646的历史 | 第53页 |
| ·Unicode和ISO 10646的关系 | 第53-55页 |
| ·Unicode的宗旨 | 第55页 |
| ·Unicode和ISO 10646的编码规范 | 第55-57页 |
| ·BMP和USC-2 | 第57-58页 |
| ·Unicode的转换格式 | 第58-60页 |
| ·其它支持多文种的其它平台 | 第60-61页 |
| ·多文种信息处理平台 | 第61-68页 |
| ·多文种信息处理平台概念和内容 | 第62页 |
| ·目前多文种信息处理平台存在的问题 | 第62-66页 |
| ·基于语义的多文种信息处理平台 | 第66-68页 |
| ·本章小结 | 第68-69页 |
| 第三章 基于语义的多文种代码体系SemaCode | 第69-109页 |
| ·现有的多文种代码体系 | 第69-76页 |
| ·文本处理的语义需求和MetaData | 第69-71页 |
| ·Unicode代码体系 | 第71-72页 |
| ·Unicode的缺陷 | 第72-75页 |
| ·MetaCode结构 | 第75-76页 |
| ·MetaCode的缺陷 | 第76页 |
| ·以语义为轴心的多文种代码体系SemaCode | 第76-80页 |
| ·文字语义表示的挑战 | 第76-77页 |
| ·SemaCode的基本思想 | 第77-80页 |
| ·SemaCode模型 | 第80页 |
| ·SemaCode各层的内容 | 第80-101页 |
| ·物理存储层(Physical Storage Layer) | 第80-81页 |
| ·字符码位层(Character Code Point Layer) | 第81-86页 |
| ·Unicode的兼容字符、变形字符、多码位字符和复杂字符 | 第81-82页 |
| ·SemaCode码位层的基本思想 | 第82-83页 |
| ·字符码位定义 | 第83-86页 |
| ·词码位层(Phrase Code Point Layer) | 第86-90页 |
| ·属性层(Property Layer) | 第90-95页 |
| ·XML和Unicode语言标签存在的问题 | 第90-91页 |
| ·SemaCode标签定义 | 第91-92页 |
| ·字符属性 | 第92-95页 |
| ·语义层(Semantic Layer) | 第95-100页 |
| ·语义描述的方式 | 第95-97页 |
| ·其它语义标签(Semantic Tags) | 第97页 |
| ·属性标签和语义标签的混用 | 第97-98页 |
| ·语义的扩展(Extension) | 第98页 |
| ·字符的等价关系(Equivalencce) | 第98-100页 |
| ·交换/传输层(Exchange/Transmission Layer) | 第100页 |
| ·应用接口层(Application Interface Layer) | 第100-101页 |
| ·SemaCode和Unicode等的比较和分析 | 第101-104页 |
| ·字符码位层 | 第101-102页 |
| ·属性的表示 | 第102-103页 |
| ·等价关系 | 第103页 |
| ·语义表示 | 第103-104页 |
| ·SemaCode的缺点 | 第104页 |
| ·SemaCode和Unicode的转换和兼容性分析 | 第104-108页 |
| ·SemaCode和Unicode转换 | 第105-107页 |
| ·SemaCode和其它代码的转换 | 第107页 |
| ·用SemaCode直接表示其它编码方案 | 第107-108页 |
| ·本章小结 | 第108-109页 |
| 第四章 基于语义的多文种信息处理平台SMIPP模型 | 第109-163页 |
| ·现有的多文种信息处理平台 | 第109-116页 |
| ·Windows多文种环境(Windows Multilingual Environment) | 第109-111页 |
| ·Linux国际化框架(Linux Internationalisation Architecture) | 第111-112页 |
| ·NJStar Communicator | 第112-113页 |
| ·中国少数民族多文种处理平台 | 第113-116页 |
| ·“炎黄”中文平台 | 第113-115页 |
| ·维、哈、柯、汉、英多文种处理平台 | 第115-116页 |
| ·基于语义的多文种信息处理平台模型SMIPP | 第116-124页 |
| ·多文种信息处理平台的设计目标 | 第116-119页 |
| ·SMIPP模型 | 第119-120页 |
| ·SMIPP模型的组成 | 第120-124页 |
| ·应用程序/用户接口层 | 第120-122页 |
| ·文字输入层和文字输出层 | 第122页 |
| ·信息处理服务层 | 第122页 |
| ·语料库层 | 第122-123页 |
| ·SemaCode | 第123-124页 |
| ·Ontology | 第124页 |
| ·面向SMIPP的Ontology | 第124-139页 |
| ·什么是Ontology | 第124-126页 |
| ·Ontology在SMIPP中的意义和设计目标 | 第126-127页 |
| ·Ontology需要解决的问题和总体设计思想 | 第127页 |
| ·面向SMIPP的Ontology的形式化定义 | 第127-131页 |
| ·面向SMIPP的Ontology的结构和表示方法 | 第131-138页 |
| ·Ontology的结构 | 第131-134页 |
| ·Ontology的构建和表示方法 | 第134-137页 |
| ·一个例子 | 第137-138页 |
| ·面向SMIPP的Ontology的语义相似度计算 | 第138-139页 |
| ·面向SMIPP的语料库 | 第139-160页 |
| ·语料库研究的现状 | 第139-141页 |
| ·面向SMIPP语料库的设计思想 | 第141-142页 |
| ·Wiki的信息收集方法 | 第142-144页 |
| ·信息网格技术 | 第144-145页 |
| ·语料的收集方法 | 第145-147页 |
| ·基于信息网格的语料库建设和发布模型 | 第147-150页 |
| ·面向SMIPP语料库的收集和整理 | 第150-155页 |
| ·语料的可信度计算和分析 | 第155-160页 |
| ·可信度定义 | 第155-157页 |
| ·基于算法的语料可信度 | 第157-158页 |
| ·基于用户的语料可信度 | 第158-160页 |
| ·SMIPP和现有平台的对比 | 第160-162页 |
| ·SMIPP的优势 | 第160页 |
| ·SMIPP的不足 | 第160-161页 |
| ·SMIPP和现有平台对比表 | 第161-162页 |
| ·本章小结 | 第162-163页 |
| 第五章 SMIPP的输入和输出模型及其分析 | 第163-215页 |
| ·文字输入/输出技术概述 | 第163-167页 |
| ·文字输入/输出概述 | 第163-164页 |
| ·文字输入技术目前存在的问题 | 第164-165页 |
| ·文字输出技术目前存在的问题 | 第165-167页 |
| ·SMIPP输入和输出模型 | 第167-179页 |
| ·基本思想 | 第167-168页 |
| ·SMIPP的输入模型 | 第168-172页 |
| ·语言模型的个性化 | 第172-174页 |
| ·语言模型的普适性 | 第174-176页 |
| ·新词的收集 | 第176-179页 |
| ·SMIPP的输出模型 | 第179页 |
| ·文字内码自动识别技术 | 第179-196页 |
| ·文字内码自动识别概述 | 第180-181页 |
| ·现有的文字内码识别方法 | 第181-183页 |
| ·文字内码自动识别算法 | 第183-186页 |
| ·字符串内码编码方案和文种自动识别算法 | 第186-193页 |
| ·算法设计思想 | 第186-187页 |
| ·算法的准备 | 第187-189页 |
| ·单个字符串的编码方案和文种自动识别算法 | 第189-193页 |
| ·实验和算法分析 | 第193-196页 |
| ·双向文字处理技术 | 第196-213页 |
| ·双向文字概述 | 第196-200页 |
| ·阿拉伯和希伯来文字 | 第196-198页 |
| ·蒙古文字 | 第198页 |
| ·双向文字 | 第198-199页 |
| ·双向文字存在的问题 | 第199-200页 |
| ·现有的双向文字解决方法 | 第200-202页 |
| ·常用双向文字解决方法 | 第201页 |
| ·显/隐式的双向文字识别算法 | 第201-202页 |
| ·SMIPP的双向文字处理算法SBidi(SMIPP Bidirectional Algorithm) | 第202-209页 |
| ·测试和例子 | 第209-213页 |
| ·语义信息的获取 | 第213-214页 |
| ·本章总结 | 第214-215页 |
| 第六章 总结和展望 | 第215-229页 |
| ·本文总结 | 第215-216页 |
| ·本文的贡献和创新 | 第216-218页 |
| ·下一步的工作 | 第218-229页 |
| 攻读博士学位期间相关的科研情况 | 第229-230页 |
| 攻读博士学位期间发表的相关论文 | 第230-233页 |
| 致谢 | 第233-234页 |
| 中文详细摘要 | 第234-250页 |