计算机科学学术影响力排名系统的设计与实现
摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第一章 绪论 | 第14-22页 |
1.1 研究背景和意义 | 第14-15页 |
1.2 国内外研究现状 | 第15-18页 |
1.2.1 国外成熟学术搜索以及信息系统 | 第15-17页 |
1.2.2 学术社交网络科研平台 | 第17-18页 |
1.3 目前存在的问题 | 第18-19页 |
1.4 研究内容及工作 | 第19页 |
1.5 论文结构 | 第19-22页 |
第二章 相关理论技术 | 第22-28页 |
2.1 信息抽取的技术与方法 | 第22-24页 |
2.1.1 信息抽取中的基本概率模型 | 第22-23页 |
2.1.2 信息抽取模型的实际应用 | 第23-24页 |
2.2 文本分类算法 | 第24-27页 |
2.2.1 分类算法简介 | 第24-25页 |
2.2.2 文本分类的常用算法 | 第25-26页 |
2.2.3 分类算法衡量标准 | 第26-27页 |
2.3 本章小结 | 第27-28页 |
第三章 CSAR 系统简介 | 第28-34页 |
3.1 CSAR 系统结构 | 第28-30页 |
3.2 CSAR 系统模块 | 第30-32页 |
3.3 本章小结 | 第32-34页 |
第四章 信息抽取方法 | 第34-54页 |
4.1 网络爬虫的设计与优化 | 第34-38页 |
4.1.1 网络爬虫的基本设计 | 第35-36页 |
4.1.2 爬虫的字符处理 | 第36页 |
4.1.3 网络爬虫的优化 | 第36-37页 |
4.1.4 反爬虫系统应对策略 | 第37-38页 |
4.2 论文视图页面抽取算法 | 第38-49页 |
4.2.1 论文视图的排版分解 | 第38-39页 |
4.2.2 作者信息确定与抓取 | 第39-40页 |
4.2.3 KM-匈牙利算法 | 第40-41页 |
4.2.4 邮箱匹配算法 | 第41-43页 |
4.2.5 隶属机构匹配算法 | 第43-49页 |
4.3 实验结果及分析 | 第49-52页 |
4.3.1 论文视图页面抽取结果 | 第49-52页 |
4.3.2 作者邮箱匹配结果 | 第52页 |
4.4 本章小结 | 第52-54页 |
第五章 数据处理与归一化方法 | 第54-74页 |
5.1 数据处理与归一化简介 | 第54-55页 |
5.2 地理与学术信息数据库 | 第55页 |
5.3 学术机构字符串归一化 | 第55-64页 |
5.3.1 N 元语法模型 | 第56页 |
5.3.2 自然语言中的平滑处理方法 | 第56-59页 |
5.3.3 N 元插值平滑算法 | 第59-60页 |
5.3.4 EM 训练算法 | 第60-63页 |
5.3.5 综合归一化算法 | 第63-64页 |
5.4 论文分类算法 | 第64-69页 |
5.4.1 CSAR 系统的分类标准 | 第64-65页 |
5.4.2 分类预处理与词干还原 | 第65页 |
5.4.3 基于朴素贝叶斯模型分类算法 | 第65-67页 |
5.4.4 CSAR 系统分类算法流程 | 第67-68页 |
5.4.5 论文分类衡量标准 | 第68-69页 |
5.5 实验结果以及分析 | 第69-71页 |
5.5.1 命名实体串的标注结果 | 第69页 |
5.5.2 数据采集归一化的总体性能 | 第69-70页 |
5.5.3 论文分类实验结果 | 第70-71页 |
5.6 本章小结 | 第71-74页 |
第六章 学术排名发布算法 | 第74-80页 |
6.1 学术排名算法简介 | 第74页 |
6.2 学术网络数据库 | 第74-75页 |
6.3 h 指数,g 指数及其他类 h 指数 | 第75-77页 |
6.3.1 h 指数(h-index) | 第75页 |
6.3.2 g 指数(g-index) | 第75-76页 |
6.3.3 其他类 h 指数 | 第76-77页 |
6.4 h 指数,g 指数,类 h 指数排名结果 | 第77-80页 |
第七章 结束语 | 第80-82页 |
7.1 论文主要工作 | 第80页 |
7.2 未来工作展望 | 第80-82页 |
参考文献 | 第82-86页 |
致谢 | 第86-87页 |
攻读硕士学位期间已发表或录用的论文 | 第87页 |