Skip to content

in this repository, I am writing the CBOW and skip-gram algorithms from scratch. Also, I will describe the algorithm of their construction, the main features and their time complexity and memory

Notifications You must be signed in to change notification settings

CHISH08/PytorchEmbedding

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Word2Vec

Введение

Недавно увлекся темой эмбеддингов, и решил подробно изучить каждый из методов обучения эмбеддингов слов с их модификациями.

Модели

  • CBOW
  • Skip-Gram
  • FastText
  • GloVe

Модификации класссический методов

У первой тройки реализовал такие методы, как:

  1. Negative Sampling
  2. Hierarhical Softmax: реализовано на сбалансированном бинарном дереве, может быть сделаю еще релиз на дереве хаффмана (адаптивном)

Цель

  • Реализация всех методов в одном проекте для полного покружения в мир эмбеддингов
  • Тест и изучение каждого из методов с программной, математической, философской точки зрения

Отличие моего проекта от таких реализаций, как от nltk и тд

  • Использование torch, а значит и cuda
  • Более читаемый код с точки зрения ООП
  • Большее кол-во методов для изучения модели

Визуализация с помощью plotly

Метрики

alt text

Слова в друмерной плоскости

alt text

About

in this repository, I am writing the CBOW and skip-gram algorithms from scratch. Also, I will describe the algorithm of their construction, the main features and their time complexity and memory

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published