面向专业领域的网络信息采集及主题检测技术研究与应用
| 摘要 | 第1-5页 |
| Abstract | 第5-13页 |
| 第1章 绪论 | 第13-38页 |
| ·课题背景及意义 | 第13-16页 |
| ·国内外研究现状 | 第16-32页 |
| ·信息采集技术研究现状 | 第16-22页 |
| ·文本聚类算法研究现状 | 第22-24页 |
| ·主题模型研究现状 | 第24-29页 |
| ·主题检测发展过程 | 第29-32页 |
| ·本文研究内容 | 第32-36页 |
| ·内容与结构安排 | 第36-38页 |
| 第2章 领域信息采集 | 第38-52页 |
| ·引言 | 第38-39页 |
| ·已有增量更新策略存在的问题 | 第39-44页 |
| ·网页选择算法 | 第39-43页 |
| ·网站选择算法 | 第43-44页 |
| ·领域信息增量自适应更新策略 | 第44-48页 |
| ·模型建立及优化 | 第44-46页 |
| ·种子站点选择方法 | 第46-47页 |
| ·自适应增量更新策略 | 第47-48页 |
| ·实验结果与分析 | 第48-49页 |
| ·自适应增量更新策略有效性 | 第48页 |
| ·领域信息分布式采集 | 第48-49页 |
| ·本章小结 | 第49-52页 |
| 第3章 网络主题检测方法 | 第52-77页 |
| ·引言 | 第52-53页 |
| ·面向专业领域的在线主题检测方法 | 第53-60页 |
| ·主题特征提取和特征空间降维 | 第53-55页 |
| ·特征词距离度量 | 第55-57页 |
| ·基于NTD 距离的聚类过程 | 第57-58页 |
| ·实验及结果分析 | 第58-60页 |
| ·在线新事件检测方法 | 第60-66页 |
| ·增量TF-IDF 模型 | 第61-62页 |
| ·特征词权重 | 第62页 |
| ·基于时间线分析的新事件检测方法 | 第62-64页 |
| ·实验结果和分析 | 第64-66页 |
| ·基于混合概率模型主题聚类方法 | 第66-75页 |
| ·一种简单的混合主题模型 | 第68页 |
| ·基于主题采样的EM 近似迭代方法 | 第68-70页 |
| ·实验结果 | 第70-75页 |
| ·本章小结 | 第75-77页 |
| 第4章 领域信息自适应主题检测及新闻推荐方法 | 第77-96页 |
| ·引言 | 第77-78页 |
| ·主题模型简介 | 第78-80页 |
| ·模型的假设 | 第79-80页 |
| ·LDA 模型 | 第80页 |
| ·主题模型的选择 | 第80-88页 |
| ·主题模型选择方法 | 第80-82页 |
| ·基于主题模型的主题距离 | 第82-83页 |
| ·实验结果 | 第83-86页 |
| ·结果分析 | 第86-88页 |
| ·自适应主题检测和新闻推荐算法 | 第88-93页 |
| ·自适应主题检测算法 | 第88-90页 |
| ·实验结果 | 第90-93页 |
| ·自适应主题新闻推荐 | 第93页 |
| ·本章小结 | 第93-96页 |
| 第5章 领域信息采集及主题检测技术应用 | 第96-121页 |
| ·引言 | 第96页 |
| ·非阻塞结构的单机爬虫 | 第96-100页 |
| ·Inar 体系结构 | 第96-97页 |
| ·网页抓取实验 | 第97-99页 |
| ·实验结果分析 | 第99-100页 |
| ·分布式信息采集技术的应用 | 第100-114页 |
| ·分布式并行爬虫结构设计 | 第100-103页 |
| ·负载均衡机制 | 第103-104页 |
| ·分布式并行采集实验 | 第104-114页 |
| ·金融信息主题检测和新闻推荐系统 | 第114-119页 |
| ·系统信息采集和处理情况 | 第115-116页 |
| ·金融新闻推荐系统运行情况 | 第116-119页 |
| ·本章小结 | 第119-121页 |
| 结论 | 第121-124页 |
| 参考文献 | 第124-137页 |
| 攻读博士学位期间发表的学术论文及其它成果 | 第137-140页 |
| 致谢 | 第140-142页 |
| 个人简历 | 第142页 |