摘要 | 第1-12页 |
Abstract | 第12-15页 |
第一章 绪论 | 第15-35页 |
·研究背景 | 第15-21页 |
·基于 Web 的开源社区的流行 | 第15-18页 |
·开源社区 Web 数据挖掘的应用需求 | 第18-20页 |
·开源社区 Web 数据挖掘的挑战 | 第20-21页 |
·研究现状 | 第21-28页 |
·软件资源库挖掘技术 | 第21-23页 |
·Web 信息抽取技术 | 第23-24页 |
·Web 数据挖掘技术 | 第24-26页 |
·信息网络分析技术 | 第26-28页 |
·研究内容与研究成果 | 第28-33页 |
·本文的研究内容 | 第28-31页 |
·本文的研究成果 | 第31-33页 |
·论文结构 | 第33-35页 |
第二章 基于缩进轮廓的单网页列表信息抽取算法 | 第35-51页 |
·引言 | 第35-37页 |
·相关工作 | 第37-38页 |
·缩进轮廓模型 | 第38-43页 |
·缩进轮廓和缩进波段 | 第39-40页 |
·串联重复波段 | 第40-43页 |
·缩进轮廓的串联重复波段挖掘算法 | 第43-46页 |
·数据区域的识别与信息抽取 | 第46-48页 |
·实验及结果分析 | 第48-50页 |
·本章小结 | 第50-51页 |
第三章 基于重复内容的异构多网页信息抽取算法 | 第51-71页 |
·引言 | 第51-53页 |
·相关工作 | 第53-55页 |
·问题描述 | 第55-57页 |
·异构多网页信息抽取算法 | 第57-64页 |
·构建种子属性集合 | 第58-59页 |
·属性标注与定位 | 第59-62页 |
·属性抽取 | 第62-64页 |
·实验及结果分析 | 第64-70页 |
·本章小结 | 第70-71页 |
第四章 开源社区开发者合作关系网络实体排序算法 | 第71-91页 |
·引言 | 第71-73页 |
·相关工作 | 第73-74页 |
·马尔可夫链上的随机游走模型 | 第74-75页 |
·主题和时间敏感的排序算法 | 第75-80页 |
·主题和时间敏感的合作关系网络模型 | 第75-77页 |
·主题时间函数 | 第77-80页 |
·TTS-Rank 算法 | 第80页 |
·实验及结果分析 | 第80-88页 |
·开发人员合作关系网络的网络属性 | 第81-84页 |
·试验过程及结果分析 | 第84-88页 |
·讨论 | 第88页 |
·本章小结 | 第88-91页 |
第五章 基于在线增量演化主题模型的软件自动分类算法 | 第91-127页 |
·引言 | 第91-95页 |
·相关工作 | 第95-98页 |
·基于监督学习的软件自动分类 | 第95-96页 |
·基于非监督学习的软件自动分类 | 第96页 |
·文本主题发现与在线演化 | 第96-98页 |
·基于 LDA 的在线增量演化主题模型 | 第98-112页 |
·LDA 主题模型 | 第98-100页 |
·Gibbs 抽样 | 第100-104页 |
·在线增量演化主题模型 | 第104-112页 |
·开源社区软件自动分类与主题自动标注算法 | 第112-114页 |
·实验及结果分析 | 第114-125页 |
·数据集和实验方法 | 第114-116页 |
·实验结果及分析 | 第116-125页 |
·本章小结 | 第125-127页 |
第六章 结论与展望 | 第127-131页 |
·本文工作总结 | 第127-128页 |
·下一步工作展望 | 第128-131页 |
致谢 | 第131-133页 |
参考文献 | 第133-143页 |
作者在学期间取得的学术成果 | 第143-145页 |
作者在学期间参与的科研项目 | 第145-147页 |
附录A INFLUX 平台 | 第147-152页 |
平台设计背景 | 第147页 |
平台系统结构 | 第147-150页 |
平台目前的运转情况 | 第150-152页 |