Skip to content

embedding resources

Latest
Compare
Choose a tag to compare
@ratsgo ratsgo released this 13 Sep 06:28
· 99 commits to master since this release

embedding 튜토리얼 코드로 생산할 수 있는 데이터와 모델들입니다. Raw Data로 아래 데이터와 모델들을 만들 수도 있습니다만, 계산 자원 등이 여의치 않을 경우 내려받아 간편하게 사용하실 수 있도록 준비했습니다. 아래 데이터와 모델을 만드는 데 사용된 코드는 첨부된 압축파일을 참고하시기 바랍니다.

  • processed.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 1 line이 1개 document가 되도록 텍스트 파일로 가공한 것입니다. 다운받기
  • tokenized.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 은전한닢 분석기로 형태소 분석한 파일이 포함돼 있습니다. 이밖에 각각 Khaiii, Komoran, Okt, soynlp, sentence piece 모델로 네이버 영화 말뭉치를 형태소 분석한 파일도 있습니다. 다운받기
  • word-embeddings.zip : 한국어 위키피디아, 네이버 영화 말뭉치, KorQuAD 데이터셋을 은전한닢으로 형태소 분석한 말뭉치를 가지고 Word2Vec, GloVe, FastText, Swivel로 각각 임베딩한 결과입니다. 다운받기
  • pretrained ELMo : 한국어 위키피디아, KorQuAD 데이터셋을 은전한닢으로 형태소 분석한 말뭉치를 가지고 나흘 간 직접 학습한 ELMo pretrained weights입니다. 다운받기
  • pretrained BERT : 자연어 처리 연구자 '오연택 님'께서 공개한 한국어 BERT의 pretrain 모델입니다. 다음 링크를 클릭하세요. https://github.com/yeontaek/BERT-Korean-Model