Spam-Classifier

A spam classifier to predict spam and ham(not spam) Emails using concepts of Machine Learning, Natural Language Processing(NLP) and Python.

Workflow of the project

1. Loading Dataset

Dataset - https://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection

2. Data Visualization

3. Data Preprocessing

Data cleaning (using RegEx)
Tokenization (using Word Tokenization)
Removing Stop words
Lemmatization (using WordNet)
Vectorization (using TF-IDF)
Label Encoding

4. Splitting Dataset into Training and Testing set

5. Model Training

Naïve Bayes
Random Forest
Support Vector Machine
k- Nearest Neighbors

6. Model Evaluation

Cross Validation Scores
Accuracy on Testing and Testing dataset

Accuracy reported on various Algorithms used:

References

Machine Learning Mastery - https://machinelearningmastery.com/natural-language-processing/
TF-IDF - https://towardsdatascience.com/tf-idf-for-document-ranking-from-scratch-in-python-on-real-world-dataset-796d339a4089
Stemming vs Lemmatization - https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
Stop Words - https://kavita-ganesan.com/what-are-stop-words/#.YWFEfNpBxPY
RegEx basics - https://docs.python.org/3/howto/regex.html

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
FInal_Spam_Classifier.ipynb		FInal_Spam_Classifier.ipynb
README.md		README.md
model.pkl		model.pkl
spam.csv		spam.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FInal_Spam_Classifier.ipynb

FInal_Spam_Classifier.ipynb

README.md

README.md

model.pkl

model.pkl

spam.csv

spam.csv

Repository files navigation

Spam-Classifier

A spam classifier to predict spam and ham(not spam) Emails using concepts of Machine Learning, Natural Language Processing(NLP) and Python.

1. Loading Dataset

2. Data Visualization

3. Data Preprocessing

4. Splitting Dataset into Training and Testing set

5. Model Training

6. Model Evaluation

Accuracy reported on various Algorithms used:

References

About

Releases

Packages

Languages

shashwatjha798/Spam-Classifier

Folders and files

Latest commit

History

Repository files navigation

Spam-Classifier

A spam classifier to predict spam and ham(not spam) Emails using concepts of Machine Learning, Natural Language Processing(NLP) and Python.

1. Loading Dataset

2. Data Visualization

3. Data Preprocessing

4. Splitting Dataset into Training and Testing set

5. Model Training

6. Model Evaluation

Accuracy reported on various Algorithms used:

References

About

Topics

Resources

Stars

Watchers

Forks

Languages