Table of Contents | 第5-8页 |
List of Tables | 第8-9页 |
List of Figures | 第9-10页 |
Abstract | 第10页 |
Acknowledgements | 第12-13页 |
1 Introduction | 第13-19页 |
1.1 Spam and its Types | 第13-14页 |
1.2 Anti-spamming Techniques | 第14-16页 |
1.3 Previous Works on Bayesian Spam Filtering | 第16-17页 |
1.4 Contributions | 第17-18页 |
1.5 Thesis Organization | 第18-19页 |
2 Statistical Bayesian Spam Filtering Algorithms | 第19-28页 |
2.1 Spam Filtering Steps | 第20-22页 |
2.2 Naive Bayes (NB) Algorithm | 第22-23页 |
2.3 Paul Graham's (PB) Algorithm | 第23-25页 |
2.4 Gary Robinson's (GR) Algorithm | 第25-27页 |
2.5 Dealing with Small Probabilities and Normalization | 第27-28页 |
3 Preprocessing and Feature Selection | 第28-31页 |
3.1 Preprocessing | 第28-29页 |
3.2 Feature extraction or Tokenization | 第29-31页 |
4 Filtering Based on Co-weighted Multi-estimations | 第31-35页 |
4.1 Main Idea and Algorithm Description | 第31-33页 |
4.2 Training Algorithm | 第33-34页 |
4.3 Classification Algorithm | 第34-35页 |
5 Filtering Based on Co-weighted Multi-area Information | 第35-39页 |
5.1 Main Idea and Algorithm Description | 第35-37页 |
5.2 Training Algorithm | 第37页 |
5.3 Classification Algorithm | 第37-39页 |
6 Dataset Collections and Evaluation Measures | 第39-44页 |
6.1 Corpora Collections | 第39-41页 |
6.2 Evaluation Measures | 第41-44页 |
7 Experiments and Analysis | 第44-60页 |
7.1 Parameters Tuning | 第44-46页 |
7.2 Experiments with Co-weighted Multi-estimations | 第46-52页 |
7.2.1 Experiments and Results | 第46-51页 |
7.2.2 Analysis | 第51-52页 |
7.3 Experiments with Co-weighted Multi-area Information | 第52-60页 |
7.3.1 Experiments and Results | 第52-57页 |
7.3.2 Analysis | 第57-60页 |
8 Conclusions and Future Work | 第60-62页 |
8.1 Conclusions | 第60-61页 |
8.2 Future Work | 第61-62页 |
Appendix | 第62-157页 |
A Implementation of Filter Application | 第62-69页 |
A.1 Data Structures | 第62-65页 |
A.2 Source Files | 第65-68页 |
A.3 Data Files | 第68-69页 |
B Application User's Manual | 第69-79页 |
B.1 System Requirements | 第69页 |
B.2 Installation of the Application | 第69-70页 |
B.3 Running and Using the Application | 第70-79页 |
B.3.1 Dataset Preparer | 第70-71页 |
B.3.2 Trainer | 第71-72页 |
B.3.3 Classifier | 第72-75页 |
B.3.4 Tester | 第75-79页 |
C Program Documentation | 第79-155页 |
C.1 Package and Class Summaries | 第79-81页 |
C.1.1 Class Summary | 第79-80页 |
C.1.2 Enum Summary | 第80-81页 |
C.2 Hierarchy For Package rsspambayes | 第81-82页 |
C.2.1 Class Hierarchy | 第81页 |
C.2.2 Enum Hierarchy | 第81-82页 |
C.3 Class Details | 第82-150页 |
C.3.1 Algorithm | 第82-83页 |
C.3.2 Category | 第83-85页 |
C.3.3 Classifier | 第85-90页 |
C.3.4 Counts | 第90-94页 |
C.3.5 DatasetPreparer | 第94-95页 |
C.3.6 FreqTable | 第95-98页 |
C.3.7 Frequencies | 第98-105页 |
C.3.8 GRobinsonBayes | 第105-109页 |
C.3.9 NaiveBayes | 第109-113页 |
C.3.10 PGrahamBayes | 第113-117页 |
C.3.11 RShresthaBayesl | 第117-121页 |
C.3.12 RShresthaBayes2 | 第121-128页 |
C.3.13 Stats | 第128-131页 |
C.3.14 Tester | 第131-135页 |
C.3.15 Tokenizer | 第135-142页 |
C.3.16 Trainer | 第142-144页 |
C.3.17 Utils | 第144-150页 |
C.4 Enum Details | 第150-155页 |
C.4.1 Algorithms | 第150-151页 |
C.4.2 Areas | 第151页 |
C.4.3 EmailCats | 第151-152页 |
C.4.4 Headers | 第152页 |
C.4.5 HtmlTags | 第152-153页 |
C.4.6 Method Detail for All Enum Types | 第153-155页 |
D List of Papers Published | 第155-157页 |
Bibliography | 第157-161页 |