Web中文信息获取的算法研究

摘要	第1-6页
ABSTRACT	第6-7页
第一章绪论	第7-15页
·问题的提出	第7-8页
·相关研究综述	第8-13页
·Web信息检索系统	第8-9页
·搜索引擎的类型及研究动向	第9-12页
·Web信息抽取技术	第12-13页
·本文研究内容	第13-14页
·本文结构	第14-15页
第二章 WEB搜索引擎研究	第15-26页
·搜索引擎系统的组成及工作原理	第15-21页
·搜索器	第17-19页
·索引器	第19-20页
·检索器	第20-21页
·用户接口	第21页
·WEB搜索引擎相关技术	第21-26页
·网页信息采集技术	第21-22页
·汉语自动分词	第22页
·检索结果排序算法	第22-23页
·自动分类技术	第23-24页
·智能代理(Intelligent Agent)技术	第24-26页
第三章中文自动分词算法的研究	第26-42页
·词典设计	第26-33页
·典型的中文分词词典机制	第26-31页
·字典结构设计	第31-32页
·字典查询过程	第32-33页
·自动分词算法	第33-38页
·基于字符串匹配的分词算法	第33-37页
·基于统计语言模型的分词算法	第37页
·基于理解的分词算法	第37-38页
·基于最大匹配的概率算法	第38-40页
·基于最大匹配的概率算法	第38-39页
·歧义词的消去	第39-40页
·算法分析	第40-42页
·空间	第40页
·性能分析	第40-41页
·实验与分析	第41-42页
第四章 WEB页面主题相关性排序算法的研究	第42-52页
·网页排序算法	第42-46页
·PageRank算法	第43-44页
·ARC算法	第44页
·HITS算法	第44-46页
·WEB页面主题的相关性分析	第46-48页
·Web页面主题特性分析	第46-47页
·页面主题的相关性分析	第47-48页
·网页的相关性计算算法	第48-50页
·基于URL的相关性计算	第48页
·基于网页标记的相关性计算	第48-49页
·网页文本的相关性计算	第49页
·用户行为的相关性计算	第49页
·相关性计算算法	第49-50页
·实验与分析	第50-52页
第五章 WEB中文信息获取的框架	第52-70页
·WEB信息抽取	第52-60页
·Web信息抽取概述	第52-54页
·Web信息抽取技术	第54-60页
·基于XML信息抽取的相关技术	第60-66页
·XML介绍	第60-61页
·DOM模型	第61-63页
·XPath	第63-66页
·基于XML的信息抽取模型	第66-70页
·信息采集	第67页
·文本预处理	第67-68页
·信息抽取	第68-69页
·索引库	第69页
·用户查询模块	第69-70页
第六章结论	第70-71页
·本文小结	第70页
·工作展望	第70-71页
参考文献	第71-74页
致谢	第74-75页
攻读学位期间的科研任务和发表的论文	第75页