科技信息门户网站的技术研究--特定主题（Topic-Specific）的Web信息发现技术的理论研究和实践探索

摘要	第1-3页
Abstract	第3-7页
1 绪论	第7-16页
·关于门户网站	第7-8页
·科技信息门户网站	第8-10页
·总装科技信息门户网站建设的基本思路	第10-11页
·Web信息发现技术是科技门户网站建设的核心技术之一	第11-12页
·特定主题的Web信息发现技术的研究范畴	第12-13页
·特定主题的Web信息发现技术的国内外研究现状	第13-15页
·本文的主要工作	第15-16页
2 一般的Web信息发现技术研究	第16-37页
·一般搜索引擎的体系结构	第16-18页
·典型搜索引擎系统的体系结构分析	第18-20页
·Google系统	第18-19页
·WebBase系统	第19-20页
·Web爬取技术	第20-29页
·爬取器的一般工作原理	第21-23页
·著名的Web爬取原型系统Mercator	第23-26页
·一般爬取器的爬取算法--广度优先算法	第26-27页
·爬取器的页面刷新策略	第27-28页
·并行爬取技术	第28-29页
·Web页面索引技术	第29-35页
·Web页面索引的一般原理	第29-31页
·Google的索引机制	第31-34页
·Web页面索引中的英文词干提取与中文词语切分问题	第34-35页
·Web页面分类技术	第35-37页
3 特定主题的Web信息发现的基本问题研究	第37-42页
·主题的表达	第37-38页
·特定主题的Web信息发现所基于的假设	第38-40页
·特定主题的Web信息发现的一般原理	第40-42页
4 特定主题的Web爬取研究	第42-56页
·基于内容的特定主题Web爬取	第42-46页
·基于页面内容的最佳优先爬取	第42-44页
·基于链接锚文本和链接语境文本的最佳优先爬取	第44-46页
·基于链接结构的爬取--HITS和PageRank	第46-52页
·HITS的基本思想	第46-48页
·PageRank的基本思想	第48-50页
·PageRank的实际计算	第50-52页
·基于内容爬取和基于链接结构爬取的结合	第52-56页
·PageRank与基于内容标准的结合	第52-54页
·基于分类器和蒸馏器的聚集爬取思想	第54-56页
5 一种基于隧道效应和贝叶斯分类的特定主题爬取算法研究	第56-74页
·隧道效应的基本思想	第56-58页
·使用贝叶斯分类途径计算页面文档的主题相关概率	第58-63页
·贝叶斯分类途径的基本思想	第59-61页
·使用TF-IDF模型建立特征词汇表	第61-63页
·隧道效应中穿越距离的数学模型	第63-65页
·爬取实现	第65-74页
·根据训练文档计算主题类目参数表达	第66-70页
·爬取过程	第70-74页
6 特定主题的Web信息发现系统i-Scape的开发思路	第74-88页
·总装科技信息门户网站的技术总体构思	第74-77页
·特定主题的Web信息发现系统i-Scape的总体思路	第77-80页
·i-Scape系统的模块设计	第80-86页
·爬取进程	第80-81页
·索引进程	第81-84页
·页面解析	第81-83页
·词典索引	第83页
·分类(主题相关概率分析)	第83-84页
·隧道距离计算和链接分析模块	第84页
·PageRank计算进程	第84页
·刷新分析进程	第84-86页
·调度进程	第86页
·贝叶斯训练进程	第86页
·i-Scape系统的数据库结构设计	第86-87页
·i-Scape系统的开发环境	第87页
·i-Scape系统部分模块的代码实现	第87-88页
7 结束语	第88-90页
·论文工作总结	第88页
·进一步的工作	第88-90页
致谢	第90-91页
参考文献	第91-95页
附录A Mercator爬取器的部分组件	第95-99页
附录B i-Scape系统的数据库结构设计	第99-103页
附录C 利用HTTP协议和SOCKET实现的网络文件获取程序	第103-108页
附录D 利用正向最大匹配法进行中文切词的程序代码(部分)	第108-111页