首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Web搜索和网页结构分析的IT相关主题新闻抓取研究

摘要第1-8页
Abstract第8-12页
1 绪论第12-18页
   ·研究意义第12-13页
   ·搜索引擎、新闻搜索简介第13-15页
   ·IT相关主题新闻抓取第15-17页
   ·小结第17-18页
2 Web搜索引擎原理及其搜索结果利用方法对比第18-30页
   ·Web搜索原理简介第18-22页
     ·Web搜索简介第18-21页
     ·Web搜索的问题第21-22页
   ·主题爬行器第22-24页
     ·爬行器的作用第22-23页
     ·网络爬虫的爬取策略及对IT主题新闻的启示第23-24页
   ·当前主流搜索引擎搜索结果利用比较第24-26页
     ·百度(baidu.com)第24页
     ·必应(Bing.com)第24-25页
     ·谷歌Google第25-26页
   ·搜索引擎搜索结果利用方法比较第26-29页
     ·利用Google API整理搜索结果第26-29页
     ·利用本机程序提取Web搜索URL链接第29页
   ·小结第29-30页
3 Web搜索结果利用和URL行业角色评价获取模型第30-50页
   ·IT相关新闻分析及其行业特征提取第30-35页
     ·2009年IT新闻事件回顾第30-32页
     ·新闻事件剖析第32-34页
     ·手工利用搜索引擎的困境第34-35页
   ·从用户兴趣搜索模型到行业角色URL评价模型第35-40页
     ·用户兴趣搜索模型设计第36-37页
     ·基于兴趣向量的模型P2第37-38页
     ·基于多兴趣向量的模型P3第38-39页
     ·兴趣模型P4到基于行业角色模型第39-40页
   ·行业角色模式下最佳URL挖掘第40-48页
     ·各功能模块设计第40-41页
     ·新闻事件注册与关键词库第41-42页
     ·搜索引擎结果接口第42-45页
     ·行业角色URL评价模块第45-47页
     ·结果反馈模块第47-48页
     ·结果URL链接库第48页
   ·实验结果分析第48-49页
   ·小结第49-50页
4 网页新闻数据提取第50-62页
   ·简介第50-52页
     ·HTML及新闻HTML文档特点第50-51页
     ·网页DOM树和MSHTML模型第51-52页
   ·新闻网页提取流程第52-59页
     ·网页文本提取第53-54页
     ·新闻正文挖掘第54-56页
     ·多网页新闻正文挖掘第56-58页
     ·单网页平衡挖掘内容第58-59页
   ·实验结果分析第59-60页
   ·小结第60-62页
5 结论与展望第62-64页
   ·全文总结第62-63页
   ·进一步工作第63-64页
参考文献第64-65页
致谢第65-66页
个人简历第66页
发表的学术论文第66页

论文共66页,点击 下载论文
上一篇:基于小波变换和马尔可夫链的流量预测模型
下一篇:政务网隔离与监控技术研究与应用