Skip to content

embedding resources

Compare
Choose a tag to compare
@ratsgo ratsgo released this 27 May 11:30
· 288 commits to master since this release

embedding 튜토리얼 코드로 생산할 수 있는 데이터와 모델들입니다. Raw Data로 아래 데이터와 모델들을 만들 수도 있습니다만, 계산 자원 등이 여의치 않을 경우 내려받아 간편하게 사용하실 수 있도록 준비했습니다. 아래 데이터와 모델을 만드는 데 사용된 코드는 첨부된 압축파일을 참고하시기 바랍니다.

  • processed.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 1 line이 1개 document가 되도록 텍스트 파일로 가공한 것입니다. [다운받기]
  • tokenized.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 은전한닢 분석기로 형태소 분석한 파일이 포함돼 있습니다. 이밖에 각각 Khaiii, Komoran, Okt, soynlp, sentence piece 모델로 네이버 영화 말뭉치를 형태소 분석한 파일도 있습니다. [다운받기]
  • trained-models.zip : soynlp의 띄어쓰기 모델, soynlp의 L-tokenizer 모델, sentence piece의 학습 결과 등이 있습니다. [다운받기]
  • word-embeddings.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 은전한닢으로 형태소 분석한 말뭉치를 가지고 Word2Vec, GloVe, FastText, Swivel로 각각 임베딩한 결과입니다. [다운받기]
  • sentence-embeddings.zip : 다음 내용이 포함돼 있습니다. [다운받기]
    (1) pretrained ELMo : 한국어 위키피디아, KorQuAD 데이터셋을 은전한닢으로 형태소 분석한 말뭉치를 가지고 나흘 간 직접 학습한 ELMo pretrained weights입니다.
    (2) fine-tuned ELMo : pretrained ELMo 모델을 네이버 영화 말뭉치 데이터셋의 극성(polarity)을 맞추도록 파인튜닝한 모델입니다.
    (3) pretrained BERT : 구글에서 공개한 다국어 버전 BERT의 pretrain 모델입니다. 모델명은 multi_cased_L-12_H-768_A-12입니다.
    (4) fine-tuned BERT : pretrained BERT 모델을 네이버 영화 말뭉치 데이터셋의 극성(polarity)을 맞추도록 파인튜닝한 모델입니다.