GitHub - vinsis/word-classification: Using NLTK's Bayesian Classification to classify any roman string as English, Spanish or Japanese

word-classification

Accuracy: ~80%

Overview

A piece of code that tells classifies any given word sounds as Japanese, English or Spanish based on its structure.

For example, it classifies:

"mirodo" as Japanese
"mirado" as Spanish
"mirror" as English

It is able to detect subtle differences between words. For example, it classifies "Texas" as English but "Tejas" as Spanish. Texas is actually anglicized form of the Spanish word Tejas. It also classifies Colorado as Spanish.

How to use it

In any Python Interpreter, go to the location where classifier.py is located and type the commands like so:

import classifier
classifier.trainData()
classifier.classifyWord('hello')

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.gitignore		.gitignore
README.md		README.md
_config.yml		_config.yml
classifier.gif		classifier.gif
classifier.py		classifier.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.gitignore

.gitignore

README.md

README.md

_config.yml

_config.yml

classifier.gif

classifier.gif

classifier.py

classifier.py

Repository files navigation

word-classification

Overview

How to use it

About

Releases

Packages

Languages

vinsis/word-classification

Folders and files

Latest commit

History

Repository files navigation

word-classification

Overview

How to use it

About

Topics

Resources

Stars

Watchers

Forks

Languages