1 引言 | 第1-11页 |
1.1 滞后的网络内容监控 | 第8页 |
1.2 相关领域的进展 | 第8-9页 |
1.3 研究内容 | 第9-10页 |
1.4 本文组织结构 | 第10-11页 |
2 搜索引擎技术发展趋势 | 第11-25页 |
2.1 从信息检索到搜索引擎 | 第11-16页 |
2.1.1 信息检索概念模型 | 第11-12页 |
2.1.2 经典的检索方法 | 第12-14页 |
2.1.3 利用语义(Semantic)提高信息检索的效率 | 第14-15页 |
2.1.4 搜索引擎的出现与发展 | 第15-16页 |
2.2 搜索引擎的主要体系结构 | 第16-21页 |
2.2.1 集中式体系结构 | 第16-17页 |
2.2.2 分布式体系结构 | 第17-19页 |
2.2.3 Google体系结构 | 第19-21页 |
2.3 主要的网络搜索引擎 | 第21-25页 |
2.3.1 Google(http://www.google.com) | 第21-22页 |
2.3.2 AltaVista(http://www.altavista.com) | 第22页 |
2.3.3 Excite(http://www.xcite.com) | 第22页 |
2.3.4 WebCrawler(http://www.webcrawler.com/) | 第22-23页 |
2.3.5 Lycos(http://www.1ycos.com/) | 第23页 |
2.3.6 Infoseek(http://www.go.com) | 第23页 |
2.3.7 Yahoo!(http://www.yahoo.com) | 第23-25页 |
3 文档分析技术综述 | 第25-36页 |
3.1 词法分析 | 第25-29页 |
3.1.1 汉语自动分词的必要性 | 第25页 |
3.1.2 汉语自动分词中的困难 | 第25-27页 |
3.1.2.1 分词规范的问题 | 第25-27页 |
3.1.2.2 分词算法的困难 | 第27页 |
3.1.3 自动分词算法的分类 | 第27-29页 |
3.1.3.1 基于字符串匹配的分词方法 | 第27-28页 |
3.1.3.2 基于理解的分词方法 | 第28页 |
3.1.3.3 基于统计的分词方法 | 第28-29页 |
3.1.4 适用于信息检索与信息提取的分词技术 | 第29页 |
3.2 语法分析 | 第29-31页 |
3.2.1 基于统计的方法 | 第30页 |
3.2.2 基于规则的方法 | 第30-31页 |
3.3 语义分析 | 第31-36页 |
3.3.1 语义网络的基本概念 | 第31-33页 |
3.3.1.1 什么是本体论(ontology) | 第31页 |
3.3.1.2 什么是语义网络 | 第31页 |
3.3.1.3 如何构成语义网络 | 第31-33页 |
3.3.2 目前语义网络的原型系统 | 第33-36页 |
4 基于搜索引擎的网络内容监控 | 第36-45页 |
4.1 概述 | 第36-37页 |
4.2 体系结构 | 第37-39页 |
4.3 模块分析 | 第39-45页 |
4.3.1 学习模块 | 第39-41页 |
4.3.1.1 用户接口、样本代理和样本集 | 第39-40页 |
4.3.1.2 学习器 | 第40-41页 |
4.3.2 采集模块 | 第41-43页 |
4.3.3 页面分析与概念匹配模块 | 第43-44页 |
4.3.4 结果显示和反馈模块 | 第44-45页 |
5 关键技术与主要算法 | 第45-62页 |
5.1 HTML文件格式的分析 | 第45-48页 |
5.2 自动分词 | 第48-53页 |
5.2.1 词库的构造 | 第48页 |
5.2.2 分词算法 | 第48-49页 |
5.2.3 汉语分词规则的设计 | 第49-53页 |
5.3 词性标注 | 第53-55页 |
5.3.1 规则设计 | 第54-55页 |
5.4 基于概念模型的语义分析 | 第55-56页 |
5.4.1 基于关键字的语义表达与匹配 | 第55-56页 |
5.5 摘要的自动生成 | 第56-57页 |
5.6 高性能的抓取 | 第57-62页 |
5.6.1 协议模块 | 第57页 |
5.6.2 回退输入流的设计 | 第57-58页 |
5.6.3 内容存储和仓库设计 | 第58页 |
5.6.4 内容查看测试 | 第58-59页 |
5.6.5 域名解析 | 第59-60页 |
5.6.6 URL查看测试 | 第60页 |
5.6.7 同步和异步I/O | 第60-61页 |
5.6.8 检查点 | 第61-62页 |
6 基于ONTOLOGY的WEBCM | 第62-70页 |
6.1 体系结构的变化 | 第62-64页 |
6.2 本体论的自动生成 | 第64-69页 |
6.2.1 本体论生成中考虑的问题 | 第64-65页 |
6.2.2 本体论自动生成方法 | 第65-69页 |
6.3 基于ontology的语义分析 | 第69-70页 |
7 结束语 | 第70-72页 |
8 参考文献 | 第72-76页 |
附录:在读期间发表论文与科研情况 | 第76-77页 |
致谢 | 第77页 |