首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于HTML标记分析及中文切词的网页索引研究与实现

摘要第1-3页
Abstract第3-4页
目录第4-6页
第一章 绪论第6-11页
   ·搜索引擎的产生及发展第6-7页
   ·中文搜索引擎的发展现状及不足第7-8页
     ·中文搜索引擎的发展现状第7-8页
     ·中文搜索引擎存在的不足第8页
   ·搜索引擎的类型第8-10页
     ·按索引方式划分第8-9页
     ·按检索特性划分第9-10页
   ·课题来源第10页
   ·本文的研究内容第10-11页
第二章 系统设计第11-21页
   ·设计目的第11页
   ·系统设计第11-14页
     ·搜索引擎的工作原理第11-12页
     ·系统总体设计第12-13页
     ·索引器设计第13-14页
   ·开发工具选择第14-15页
     ·Java和C、C++对比第15页
   ·数据存储结构第15页
   ·系统实现相关Java技术研究第15-21页
     ·Java数据库访问技术-JDBC API第16-17页
     ·Unicode编码字符集第17-18页
     ·格式化流输入StreamTokenizer第18页
     ·Java多线程技术第18-21页
第三章 基于HTML标记的加权方案和网页预处理设计第21-26页
   ·HTML标记分析及加权方案第21-23页
   ·HTML文档的预处理第23-26页
     ·HTML的标准化第23-24页
     ·网页扫描算法第24-26页
第四章 语句切分、词汇切分算法及索引词加权策略第26-38页
   ·语句切分算法第26-28页
     ·算法描述第26页
     ·语句切分示例第26-28页
   ·词汇切分模块第28-33页
     ·改进的正向最大匹配法第29-30页
     ·反向最大匹配法第30-31页
     ·三字长交集切词歧义消解算法第31-32页
     ·切词示例及分析第32-33页
   ·英文单词的Stemming操作第33-34页
   ·索引词权重计算第34-35页
   ·综合切词示例第35-38页
结论第38-39页
附录第39-40页
参考文献第40-43页
致谢第43页

论文共43页,点击 下载论文
上一篇:葛洪及其《抱朴子外篇》简论
下一篇:樱桃光合特性研究