NeuralTokenizer

TensorFlow로 구현한 한국어 토큰 분석기입니다.

Dependencies

Python 3
TensorFlow 1.4

Dataset

국립국어원에서 제공하는 세종 코퍼스를 사용 하였습니다. SejongCorpusParser를 통해서 학습에 필요한 Dataset을 생성할 수 있습니다.

국립국어원 언어정보나눔터에서 전산 처리용 세종 말뭉치 다운로드.
Project 폴더에서 data 폴더 생성 후 세종 말뭉치 파일 복사.
Python3 sejong_corpus_parser.py 실행.
data 폴더에 학습 및 테스트용 Dataset 파일 생성 확인.

Training

NeuralPosTaggerTest의 test_train() 함수를 통해서 트레이닝을 시작할 수 있습니다. 트레이닝 된 모델은 model 폴더에 생성 됩니다.

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
.idea		.idea
res		res
tests		tests
.gitignore		.gitignore
LICENSE		LICENSE
NeuralTokenizer.iml		NeuralTokenizer.iml
README.md		README.md
corpus.py		corpus.py
morpheme.py		morpheme.py
neural_pos_tagger.py		neural_pos_tagger.py
neural_tokenizer.py		neural_tokenizer.py
paths.py		paths.py
sejong_corpus_parser.py		sejong_corpus_parser.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

res

res

tests

tests

.gitignore

.gitignore

LICENSE

LICENSE

NeuralTokenizer.iml

NeuralTokenizer.iml

README.md

README.md

corpus.py

corpus.py

morpheme.py

morpheme.py

neural_pos_tagger.py

neural_pos_tagger.py

neural_tokenizer.py

neural_tokenizer.py

paths.py

paths.py

sejong_corpus_parser.py

sejong_corpus_parser.py

Repository files navigation

NeuralTokenizer

Dependencies

Dataset

Training

About

Releases

Packages

Languages

License

fin10/NeuralTokenizer

Folders and files

Latest commit

History

Repository files navigation

NeuralTokenizer

Dependencies

Dataset

Training

About

Topics

Resources

License

Stars

Watchers

Forks

Languages