| Table of Contents | 第5-8页 |
| List of Tables | 第8-9页 |
| List of Figures | 第9-10页 |
| Abstract | 第10页 |
| Acknowledgements | 第12-13页 |
| 1 Introduction | 第13-19页 |
| 1.1 Spam and its Types | 第13-14页 |
| 1.2 Anti-spamming Techniques | 第14-16页 |
| 1.3 Previous Works on Bayesian Spam Filtering | 第16-17页 |
| 1.4 Contributions | 第17-18页 |
| 1.5 Thesis Organization | 第18-19页 |
| 2 Statistical Bayesian Spam Filtering Algorithms | 第19-28页 |
| 2.1 Spam Filtering Steps | 第20-22页 |
| 2.2 Naive Bayes (NB) Algorithm | 第22-23页 |
| 2.3 Paul Graham's (PB) Algorithm | 第23-25页 |
| 2.4 Gary Robinson's (GR) Algorithm | 第25-27页 |
| 2.5 Dealing with Small Probabilities and Normalization | 第27-28页 |
| 3 Preprocessing and Feature Selection | 第28-31页 |
| 3.1 Preprocessing | 第28-29页 |
| 3.2 Feature extraction or Tokenization | 第29-31页 |
| 4 Filtering Based on Co-weighted Multi-estimations | 第31-35页 |
| 4.1 Main Idea and Algorithm Description | 第31-33页 |
| 4.2 Training Algorithm | 第33-34页 |
| 4.3 Classification Algorithm | 第34-35页 |
| 5 Filtering Based on Co-weighted Multi-area Information | 第35-39页 |
| 5.1 Main Idea and Algorithm Description | 第35-37页 |
| 5.2 Training Algorithm | 第37页 |
| 5.3 Classification Algorithm | 第37-39页 |
| 6 Dataset Collections and Evaluation Measures | 第39-44页 |
| 6.1 Corpora Collections | 第39-41页 |
| 6.2 Evaluation Measures | 第41-44页 |
| 7 Experiments and Analysis | 第44-60页 |
| 7.1 Parameters Tuning | 第44-46页 |
| 7.2 Experiments with Co-weighted Multi-estimations | 第46-52页 |
| 7.2.1 Experiments and Results | 第46-51页 |
| 7.2.2 Analysis | 第51-52页 |
| 7.3 Experiments with Co-weighted Multi-area Information | 第52-60页 |
| 7.3.1 Experiments and Results | 第52-57页 |
| 7.3.2 Analysis | 第57-60页 |
| 8 Conclusions and Future Work | 第60-62页 |
| 8.1 Conclusions | 第60-61页 |
| 8.2 Future Work | 第61-62页 |
| Appendix | 第62-157页 |
| A Implementation of Filter Application | 第62-69页 |
| A.1 Data Structures | 第62-65页 |
| A.2 Source Files | 第65-68页 |
| A.3 Data Files | 第68-69页 |
| B Application User's Manual | 第69-79页 |
| B.1 System Requirements | 第69页 |
| B.2 Installation of the Application | 第69-70页 |
| B.3 Running and Using the Application | 第70-79页 |
| B.3.1 Dataset Preparer | 第70-71页 |
| B.3.2 Trainer | 第71-72页 |
| B.3.3 Classifier | 第72-75页 |
| B.3.4 Tester | 第75-79页 |
| C Program Documentation | 第79-155页 |
| C.1 Package and Class Summaries | 第79-81页 |
| C.1.1 Class Summary | 第79-80页 |
| C.1.2 Enum Summary | 第80-81页 |
| C.2 Hierarchy For Package rsspambayes | 第81-82页 |
| C.2.1 Class Hierarchy | 第81页 |
| C.2.2 Enum Hierarchy | 第81-82页 |
| C.3 Class Details | 第82-150页 |
| C.3.1 Algorithm | 第82-83页 |
| C.3.2 Category | 第83-85页 |
| C.3.3 Classifier | 第85-90页 |
| C.3.4 Counts | 第90-94页 |
| C.3.5 DatasetPreparer | 第94-95页 |
| C.3.6 FreqTable | 第95-98页 |
| C.3.7 Frequencies | 第98-105页 |
| C.3.8 GRobinsonBayes | 第105-109页 |
| C.3.9 NaiveBayes | 第109-113页 |
| C.3.10 PGrahamBayes | 第113-117页 |
| C.3.11 RShresthaBayesl | 第117-121页 |
| C.3.12 RShresthaBayes2 | 第121-128页 |
| C.3.13 Stats | 第128-131页 |
| C.3.14 Tester | 第131-135页 |
| C.3.15 Tokenizer | 第135-142页 |
| C.3.16 Trainer | 第142-144页 |
| C.3.17 Utils | 第144-150页 |
| C.4 Enum Details | 第150-155页 |
| C.4.1 Algorithms | 第150-151页 |
| C.4.2 Areas | 第151页 |
| C.4.3 EmailCats | 第151-152页 |
| C.4.4 Headers | 第152页 |
| C.4.5 HtmlTags | 第152-153页 |
| C.4.6 Method Detail for All Enum Types | 第153-155页 |
| D List of Papers Published | 第155-157页 |
| Bibliography | 第157-161页 |