首页--文化、科学、教育、体育论文--科学、科学研究论文--情报学、情报工作论文--情报检索论文--情报检索方法和工具论文

面向现代汉语文本处理的全文检索、自动分词通用系统

中文摘要第1-6页
ABSTRACT第6-7页
第一章 前言第7-11页
   ·研究背景及现状第7-9页
     ·全文检索的概念与特点第7-8页
     ·中文全文检索第8-9页
   ·本文的工作和意义第9-10页
   ·本文的主要内容及其组织第10-11页
第二章 全文检索引擎Lucene的分析研究第11-22页
   ·Lucene简介第11页
   ·Lucene的倒排索引原理第11-13页
   ·Lucene的组成结构第13-16页
   ·LUCENE的基本数据类型第16页
   ·Lucene中的文件格式第16-21页
   ·全文检索的实现机制第21-22页
第三章 全文检索系统的分析与设计第22-28页
   ·系统的整体结构第22-23页
   ·模块的功能描述第23-25页
     ·文档对象第23页
     ·语言分析器和查询分析器第23-24页
     ·检索接口第24页
     ·索引接口第24-25页
   ·系统数据流逻辑第25-26页
   ·数据流分析第26-27页
   ·系统的可扩展性第27-28页
第四章 中文自动分词技术第28-71页
   ·自动分词技术及发展概况第28-34页
     ·汉语自动分词技术及存在的困难第28-31页
     ·汉语自动分词的研究现状及分析第31-34页
   ·分词算法第34-42页
     ·现有的的分词算法分析第34-40页
     ·本系统所用分词算法第40-42页
   ·分词词典第42-45页
     ·词典的常用组织结构第42-43页
     ·本系统的分词词典机制第43-44页
     ·本系统词典的结构第44-45页
   ·歧义字段的处理第45-49页
     ·歧义字段产生的根源及其处理策略第46-47页
     ·本系统中歧义字段的消解方法第47-49页
   ·未登录词识别第49-58页
     ·未登录词的研究现状第50-52页
     ·未登录词现有解决方案的讨论第52-53页
     ·本系统中未登录词的解决方案第53-54页
     ·数字串的识别第54-56页
     ·重叠词形式的识别第56-58页
   ·词性标注第58-66页
     ·词性标注的研究的概况第58-59页
     ·常用的兼类词排歧方法及存在问题分析第59-64页
     ·本系统的处理方式第64-66页
   ·自动分词系统的设计与实现第66-71页
     ·系统设计原则及思路第66-67页
     ·系统结构研制流程图第67-70页
     ·系统的实现及其性能测评第70-71页
第五章 系统集成的设计与实现第71-79页
   ·检索结果的打开与保存第71-72页
   ·建立检索第72-74页
   ·检索流程第74页
   ·查询表达式的处理第74-75页
   ·检索结果的输出第75-77页
   ·自动分词模块第77-78页
   ·字频、词频统计第78-79页
第六章 结论第79-82页
   ·本文工作总结第79页
   ·检索功能的比较与测试第79-81页
   ·今后的工作第81-82页
参考文献第82-85页
后记第85页

论文共85页,点击 下载论文
上一篇:中小企业集群发展的比较研究--对江苏中小企业集群发展模式和格局的探索
下一篇:结缕草属(Zoysia Willd.)植物种质资源的锈病危害及抗病性研究