| 1. 基于分类的智能信息检索研究与实现 | 第1-38页 |
| 第一章 引言 | 第7-9页 |
| ·研究背景 | 第7页 |
| ·本文的研究思路及主要的工作 | 第7-8页 |
| ·论文组织 | 第8-9页 |
| 第二章 网页预处理及中文分词的研究 | 第9-14页 |
| ·网页预处理 | 第9-10页 |
| ·中文分词 | 第10-14页 |
| ·中文分词概述 | 第10页 |
| ·汉字编码问题 | 第10页 |
| ·分词词典的建设 | 第10-11页 |
| ·词表的查找 | 第11-12页 |
| ·分词过程描述 | 第12页 |
| ·未登录词的识别 | 第12-13页 |
| ·空间利用率和查找时间复杂度分析 | 第13-14页 |
| 第三章 特征提取 | 第14-18页 |
| ·特征选取的目的 | 第14页 |
| ·常见特征提取方法介绍及评价 | 第14-16页 |
| ·文档频次 | 第14-15页 |
| ·互信息 | 第15页 |
| ·信息增益 | 第15页 |
| ·CHI统计方法(开方拟和检验) | 第15-16页 |
| ·本文所采用的特征提取方法 | 第16-17页 |
| ·特征提取算法描述 | 第17-18页 |
| 第四章 中文网页分类的研究 | 第18-23页 |
| ·类的定义 | 第18页 |
| ·网页分类概述 | 第18-19页 |
| ·基于KNN文档分类介绍 | 第19-20页 |
| ·文档的机器表示 | 第20-21页 |
| ·传统的特征加权方法 | 第20页 |
| ·本文中采用的特征加权方法 | 第20-21页 |
| ·分类算法描述 | 第21-23页 |
| 第五章 索引和搜索 | 第23-25页 |
| ·倒排文件 | 第23页 |
| ·倒排文件的搜索 | 第23-24页 |
| ·本文的搜索方法 | 第24-25页 |
| 第六章 系统总体设计及实验 | 第25-30页 |
| ·系统总体结构图 | 第25-26页 |
| ·各功能模块介绍 | 第26-27页 |
| ·中文网页数据集 | 第27-28页 |
| ·中文网页分类实验结果及评价 | 第28-29页 |
| ·讨论 | 第29-30页 |
| 第七章 将来的工作展望 | 第30-31页 |
| 致谢 | 第31-32页 |
| 参考文献 | 第32-38页 |
| 2. Research and Implementation onf Intelligent Information Retrieval Based on Classification | 第38-75页 |
| Abstract | 第38-40页 |
| Chapter one Preface | 第40-43页 |
| ·Background of Study | 第40-41页 |
| ·The thinking of research of this paper and main work | 第41-42页 |
| ·Framework of paper | 第42-43页 |
| Chapter Two the Predisposing of Web Page and Chinese Word Segmentation | 第43-49页 |
| ·The pre-disposed of Web Page | 第43-44页 |
| ·Chinese word segmentation | 第44-49页 |
| ·Summarize of Chinese word segmentation | 第44页 |
| ·Code question of Chinese word | 第44-45页 |
| ·Construction of segmentation lexicon | 第45-46页 |
| ·Finding of dictionary | 第46页 |
| ·Describes of segmentation course | 第46-47页 |
| ·Discernment of not recorded word | 第47-48页 |
| ·Space utilization ratio and the complexity analyze of looking up | 第48-49页 |
| Chapter three The Selection of Feature | 第49-54页 |
| ·the purpose of selection of feature | 第49-50页 |
| ·the recommending and appraising of common method of feature selection and appraise | 第50-51页 |
| ·Document Frequency | 第50页 |
| ·Mutual Information | 第50-51页 |
| ·Information gain | 第51页 |
| ·the statistic of x~2 | 第51页 |
| ·Method of Feature Extraction in this paper. | 第51-52页 |
| ·Description of feature selection algorithm | 第52-54页 |
| Chapter Four the study of Chinese Web Page Classification | 第54-60页 |
| ·Definition of class | 第54页 |
| ·summary of document classification | 第54-55页 |
| ·the introduction of document classification based on KNN | 第55-56页 |
| ·The machine expression of the web page | 第56-58页 |
| ·the tradition feature weight method | 第56-57页 |
| ·Feature weighting method adopted in this system | 第57-58页 |
| ·Description of classification algorithm | 第58-60页 |
| Chapter Five the Index and Retrieval | 第60-62页 |
| ·Inversed file | 第60-61页 |
| ·search of inversed file | 第61页 |
| ·The search methods of systems | 第61-62页 |
| Chapter six the Whole Design and Experiment | 第62-67页 |
| ·the whole strut graph of system | 第62-63页 |
| ·the introduction of every function module | 第63-64页 |
| ·Material of Chinese web page train sets | 第64-65页 |
| ·the result and appraise of Chinese web page | 第65-66页 |
| ·Discussions | 第66-67页 |
| Chapter seven the Prospective of Work | 第67-68页 |
| REFERENCE | 第68-75页 |
| 3. 文本搜索引擎关键技术综述 | 第75-115页 |
| 第一章 文本搜索引擎概述 | 第75-78页 |
| ·前言 | 第75页 |
| ·搜索引擎发展简史 | 第75页 |
| ·常见的搜索引擎 | 第75-78页 |
| ·目录搜索引擎 | 第75-76页 |
| ·全文搜索引擎 | 第76页 |
| ·元搜索引擎 | 第76-77页 |
| ·小结 | 第77-78页 |
| 第二章 网络蜘蛛 | 第78-83页 |
| ·前言 | 第78页 |
| ·常见搜索策略 | 第78-80页 |
| ·IP地址搜索策略 | 第78页 |
| ·深度优先搜索策略 | 第78页 |
| ·宽度优先搜索策略 | 第78-79页 |
| ·基于内容评价的搜索策战略 | 第79页 |
| ·基于未来回报价值评价的搜索策略 | 第79-80页 |
| ·基于巩固学习的搜索策略 | 第80页 |
| ·爬虫的设计中应该注意的问题 | 第80-81页 |
| ·网站与网络爬虫 | 第81-82页 |
| ·小结 | 第82-83页 |
| 第三章 中文分词 | 第83-89页 |
| ·前言 | 第83页 |
| ·中文分词研究现状 | 第83-86页 |
| ·基于字符串匹配的方法 | 第83-84页 |
| ·基于理解的分词方法 | 第84页 |
| ·基于统计的分词方法 | 第84-85页 |
| ·其他的方法 | 第85-86页 |
| ·分词方法评价准则 | 第86-87页 |
| ·分词中存在的困难 | 第87-89页 |
| 第四章 特征选取 | 第89-91页 |
| ·前言 | 第89页 |
| ·常见特征选取的方法 | 第89-91页 |
| ·文档频次 | 第89页 |
| ·信息增益 | 第89-90页 |
| ·CHI统计 | 第90页 |
| ·互信息 | 第90-91页 |
| 第五章 分类和聚类 | 第91-97页 |
| ·前言 | 第91页 |
| ·类的定义 | 第91-92页 |
| ·分类算法 | 第92-94页 |
| ·简单向量距离分类法 | 第92页 |
| ·贝叶斯算法 | 第92-93页 |
| ·KNN算法 | 第93-94页 |
| ·基于投票的方法 | 第94页 |
| ·聚类 | 第94-97页 |
| ·聚类概述 | 第94页 |
| ·常见聚类方法 | 第94-97页 |
| 第六章 索引 | 第97-100页 |
| ·前言 | 第97页 |
| ·索引中的关键技术 | 第97-100页 |
| ·文本的词法分析 | 第97-98页 |
| ·索引词条的选择 | 第98页 |
| ·词典 | 第98-99页 |
| ·倒排文件 | 第99-100页 |
| 第七章 检索技术 | 第100-103页 |
| ·布尔逻辑模型 | 第100页 |
| ·模糊逻辑模型 | 第100页 |
| ·向量空间模型 | 第100-101页 |
| ·概率检索模型 | 第101-103页 |
| 第八章 搜索结果的排序 | 第103-106页 |
| ·前言 | 第103页 |
| ·词频位置加权排序算法 | 第103-104页 |
| ·PageRank的排序方法 | 第104页 |
| ·HillTop的排序方法 | 第104-106页 |
| 第九章 结束语 | 第106-108页 |
| ·内容总结 | 第106页 |
| ·搜索引擎的技术展望 | 第106-108页 |
| 参考文献 | 第108-115页 |
| 4. A Survey of Key Technologies For Text Search Engine | 第115-164页 |
| Chapter one A survey of text search engines | 第118-123页 |
| §1.1 Preface | 第118页 |
| §1.2 History of search engines | 第118-119页 |
| §1.3 Normal search engines | 第119-123页 |
| §1.3.1 Catalog search engines | 第119-120页 |
| §1.3.2 Full text search engines | 第120页 |
| §1.3.3 Meta-search engines | 第120-121页 |
| §1.3.4 Evaluate of kinds of search engines | 第121-123页 |
| Chapter two WebCrawler | 第123-128页 |
| §2.1 Preface | 第123页 |
| §2.2 Search tactics of WebCrawler | 第123-124页 |
| §2.2.1 Search tactics based on IP address | 第123页 |
| §2.2.2 Depth first | 第123-124页 |
| §2.2.3 Width first search tactics | 第124页 |
| §2.3 Question that should be paid attention to in the design of the WebCrawler | 第124-126页 |
| §2.4 Website and WebCrawler | 第126-127页 |
| §2.5 Brief summary | 第127-128页 |
| Chapter three Chinese Word Segmentation | 第128-136页 |
| §3.1 Preface | 第128-129页 |
| §3.2 The current state of Chinese segmentation method | 第129-133页 |
| §3.2.1 Segmentation method string match based | 第129-130页 |
| §3.2.2 Segmentation method based on understand | 第130页 |
| §3.2.3 Segmentation method based on statistics | 第130-131页 |
| §3.2.4 Other segmentation method | 第131-133页 |
| §3.3 Evaluation of segmentation method | 第133-134页 |
| §3.4 Difficult in segmentation method | 第134-136页 |
| Chapter four Feature Selection | 第136-139页 |
| §4.1 Preface | 第136页 |
| §4.2 Usual methods of characteristic extraction | 第136-139页 |
| §4.2.1 Frequency of document | 第136-137页 |
| §4.2.2 Information Gain | 第137页 |
| §4.2.3 Statistic of x2 | 第137-138页 |
| §4.2.4 Mutual information | 第138-139页 |
| Chapter five Classification and Clustering | 第139-146页 |
| §5.1 Preface | 第139页 |
| §5.2 Definition of class | 第139-140页 |
| §5.3 Methods of classification | 第140-143页 |
| §5.3.1 Simple vector distance classification | 第140-141页 |
| §5.3.2 Bayesian classification | 第141页 |
| §5.3.3 KNN algorithm | 第141-142页 |
| §5.3.4 According to the polling method | 第142-143页 |
| §5.4 clustering | 第143-146页 |
| §5.4.1 Summary of clustering | 第143页 |
| §5.4.2 Procedure of clustering | 第143-146页 |
| Chapter six Index and Search | 第146-150页 |
| §6.1 Significance of index | 第146页 |
| §6.2 Kernel technology in index | 第146-150页 |
| §6.2.1 Analysis of text syntax | 第146-147页 |
| §6.2.2 Choice of index term | 第147-148页 |
| §6.2.3 Lexicon | 第148页 |
| §6.2.4 Inversed file | 第148-150页 |
| Chapter seven Search Technology | 第150-153页 |
| §7.1 Boolean logic model | 第150页 |
| §7.2 Fuzzy logic model | 第150页 |
| §7.3 Vector space model | 第150-152页 |
| §7.4 Probability search model | 第152-153页 |
| Chapter eight the Sort of Search Result | 第153-155页 |
| §8.1 Preface | 第153页 |
| §8.2 Sort method by word frequency weight | 第153-154页 |
| §8.3 Page Rank sort method | 第154-155页 |
| §8.4 Hilltop sort method | 第155页 |
| Chapter nine Conclusion | 第155-158页 |
| ·Summaries | 第155-156页 |
| ·Prospects of search engine technology | 第156-158页 |
| Reference literature | 第158-164页 |