基于文本相似度的局部Web社区识别技术

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-14页
·研究背景	第9-11页
·论文的主要研究工作	第11-13页
·论文组织	第13-14页
2 Web信息检索基础知识	第14-27页
·信息检索介绍	第14-17页
·信息检索与数据检索	第14页
·信息检索的发展	第14-15页
·文档的逻辑视图	第15-16页
·检索过程	第16-17页
·向量空间模型	第17-20页
·信息检索模型的形式	第17-18页
·向量空间	第18-19页
·相关性	第19-20页
·搜索引擎	第20-25页
·搜索引擎的工作原理	第20-21页
·搜索引擎的分类	第21-22页
·搜索引擎中的排序算法	第22-24页
·Web上典型的搜索任务	第24-25页
·信息检索评价指标	第25-27页
·准确率与召回率	第25-26页
·平均准确率与平均召回率	第26-27页
3 Web链接结构与社区发现	第27-33页
·Web链接结构	第27-28页
·Web链接图	第27页
·Web链接结构的自组织性	第27-28页
·Web链接分析	第28页
·社区发现	第28-33页
·社区定义	第29-30页
·传统复杂网络中的社区发现算法	第30页
·Web社区发现算法	第30-33页
4 最大流社区识别算法回顾与分析	第33-42页
·最大流最小割	第33-35页
·FLG算法	第35-39页
·理想社区	第35-36页
·近似社区	第36-38页
·预期最大化算法	第38-39页
·算法分析	第39-42页
·社区体积与边的关系	第39-40页
·FLG算法存在的问题及IK方法的提出	第40-42页
5 对最大流算法的改进:基于文本相似度的社区识别算法	第42-51页
·改进的总体思路	第42页
·从页面框架到站点框架的聚合算法	第42-44页
·邻域图基于文本相似度的加权策略	第44-49页
·方法概述	第44-45页
·邻接图结点(即Web网页)主题的向量表示	第45页
·社区主题(即FLG种子集主题)的向量表示	第45-46页
·计算结点的主题相似度	第46-47页
·基于文本相似度的边容量设置	第47-48页
·迭代后结点的排序策略	第48-49页
·基于文本相似度的社区识别算法	第49-51页
·结合内容与链接分析的社区识别算法步骤	第49页
·页面/站点邻接图构造	第49-51页
6 实验	第51-64页
·实验设计准则	第51页
·Web实验	第51-58页
·实验方案	第51-52页
·数据集的爬取及预处理	第52-54页
·系统结构	第54-57页
·系统详细设计	第57-58页
·实验结果及其讨论	第58-63页
·实验总结	第63-64页
结论	第64-65页
参考文献	第65-67页
附录A 非用字(stop words list)	第67-68页
附录B 基于预流推进与最短增广路径策略实现最大流算法	第68-75页
攻读硕士学位期间发表学术论文情况	第75-76页
致谢	第76-78页