Classify programming language

It uses ULMFIT model https://arxiv.org/abs/1801.06146 Model with default parameters achieves ~96% accuracy on validation set.

It requires:

python 3.7
gpu for training (recommended)

Basing training classifier:

python train.py --input data.csv --model-path ulmfit.pkl

Running service that predicts programming language:

python app.py application.conf

Example of curl:

curl -X POST -H "Content-Type:application/json" 'http://0.0.0.0:8010/predict' 
--data '{"text": "#include <iostream>"}'

Running service from docker:

docker build -t detectorService -f DockerfileService .

docker run --rm -it detectorService python app.py application.conf

Further improvements:

Compare with baseline models such as CNN, N-grams features
Try different tokenizations instead of just on letters
Try different hyperparameters, bigger model.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
Dockerfile		Dockerfile
DockerfileService		DockerfileService
README.md		README.md
app.py		app.py
application.conf		application.conf
build.sh		build.sh
experiments.ipynb		experiments.ipynb
requirements.txt		requirements.txt
requirements_service.txt		requirements_service.txt
run.sh		run.sh
tokenizers.py		tokenizers.py
train.py		train.py
ulmfit.pkl		ulmfit.pkl

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Dockerfile

Dockerfile

DockerfileService

DockerfileService

README.md

README.md

app.py

app.py

application.conf

application.conf

build.sh

build.sh

experiments.ipynb

experiments.ipynb

requirements.txt

requirements.txt

requirements_service.txt

requirements_service.txt

run.sh

run.sh

tokenizers.py

tokenizers.py

train.py

train.py

ulmfit.pkl

ulmfit.pkl

Repository files navigation

Classify programming language

About

Releases

Packages

Languages

mdaniluk/language-detector

Folders and files

Latest commit

History

Repository files navigation

Classify programming language

About

Resources

Stars

Watchers

Forks

Languages