Skip to content

ru Annotators

dilyararimovna edited this page May 9, 2023 · 1 revision

Аннотаторы

Аннотаторы — это компоненты (соединители/службы), которые аннотируют данное высказывание пользователя.

Примером аннотатора является NER: этот аннотатор может возвращать словарь с ключами tokens tags:

{"tokens": ["Paris"], "tags": ["I-LOC"]}

Другим примером является аннотатор классификации настроений. Он может вернуть список меток, например:

["neutral", "speech"]

Доступные Аннотаторы для Английского

Название Требования Описание
ASR 40 MB RAM вычисляет общую достоверность ASR для данного высказывания и оценивает его как very low, low, medium, or high (для разметки Amazon)
Badlisted Words 150 MB RAM обнаруживает слова и фразы из заданного списка
Combined Classification 1.5 GB RAM, 3.5 GB GPU модель на основе BERT, включая классификацию тем, классификацию диалоговых актов, настроения, токсичность, эмоции, классификацию фактоидов
COMeT Atomic 2 GB RAM, 1.1 GB GPU Модели предсказаний на основе здравого смысла COMeT Atomic
COMeT ConceptNet 2 GB RAM, 1.1 GB GPU Модели предсказаний на основе здравого смысла COMeT ConceptNet
Convers Evaluator Annotator 1 GB RAM, 4.5 GB GPU обучается на данных Alexa Prize о предыдущих конкурсах и предсказывает, будет ли ответ кандидата интересным, понятным, соответствующим теме, привлекательным или ошибочным
Emotion Classification 2.5 GB RAM аннотатор классификации эмоций
Entity Detection 1.5 GB RAM, 3.2 GB GPU извлекает сущности и их типы из высказываний
Entity Linking 2.5 GB RAM, 1.3 GB GPU находит идентификаторы сущностей Викиданных для сущностей, обнаруженных с помощью Entity Detection
Entity Storer 220 MB RAM компонент на основе правил, который сохраняет сущности из высказываний пользователя и социального бота, если выражение мнения обнаружено с помощью паттернов или классификатора MIDAS, и сохраняет их вместе с обнаруженным отношением к состоянию диалога
Fact Random 50 MB RAM возвращает случайные факты для данной сущности (для сущностей из пользовательского высказывания)
Fact Retrieval 7.4 GB RAM, 1.2 GB GPU извлекает факты из Википедии и wikiHow
Intent Catcher 1.7 GB RAM, 2.4 GB GPU классифицирует высказывания пользователя по ряду предопределенных намерений, которые обучаются на наборе фраз и регулярных выражений
KBQA 2 GB RAM, 1.4 GB GPU отвечает на фактические вопросы пользователей на основе Wikidata KB
MIDAS Classification 1.1 GB RAM, 4.5 GB GPU модель на основе BERT, обученная на подмножестве семантических классов набора данных MIDAS
MIDAS Predictor 30 MB RAM модель на основе BERT, обученная на подмножестве семантических классов набора данных MIDAS
NER 2.2 GB RAM, 5 GB GPU извлекает имена людей, названия мест, организаций из текста без регистра
News API Annotator 80 MB RAM извлекает последние новости о сущностях или темах с помощью GNews API. Развертывания DeepPavlov Dream используют наш собственный ключ API.
Personality Catcher 30 MB RAM навык состоит в том, чтобы изменить описание личности системы через интерфейс чата, он работает как системная команда, ответом является системное сообщение
Prompt Selector 50 MB RAM Аннотатор использует Sentence Ranker для ранжирования подсказок и выбирает N_SENTENCES_TO_RETURN наиболее подходящие подсказки (на основе вопросов, заданных в подсказках)
Property Extraction 6.3 GiB RAM извлекает пользовательские атрибуты из высказываний
Rake Keywords 40 MB RAM извлекает ключевые слова из высказываний с помощью алгоритма RAKE
Relative Persona Extractor 50 MB RAM Аннотатор использует Sentence Ranker для ранжирования предложений персонажей и выбирает N_SENTENCES_TO_RETURN наиболее релевантные предложения
Sentrewrite 200 MB RAM переписывает высказывания пользователя, заменяя местоимения конкретными именами, которые предоставляют более полезную информацию нижестоящим компонентам
Sentseg 1 GB RAM позволяет нам обрабатывать длинные и сложные высказывания пользователя, разбивая их на предложения и восстанавливая пунктуацию
Spacy Nounphrases 180 MB RAM извлекает существительные с помощью Spacy и отфильтровывает общие
Speech Function Classifier 1.1 GB RAM, 4.5 GB GPU иерархический алгоритм, основанный на нескольких линейных моделях и основанном на правилах подходе к предсказанию речевых функций, описанном Эггинсом и Слэйдом
Speech Function Predictor 1.1 GB RAM, 4.5 GB GPU дает вероятности речевых функций, которые могут следовать речевой функции, предсказанной классификатором речевых функций
Spelling Preprocessing 50 MB RAM компонент на основе шаблонов для преобразования различных разговорных выражений в более формальный стиль разговора
Topic Recommendation 40 MB RAM предлагает тему для дальнейшего разговора, используя информацию об обсуждаемых темах и предпочтениях пользователя. Текущая версия основана на личностях Reddit (см. Dream Report для Alexa Prize 4).
Toxic Classification 3.5 GB RAM, 3 GB GPU Модель классификации токсичных веществ от Transformers указана как PRETRAINED_MODEL_NAME_OR_PATH
User Persona Extractor 40 MB RAM определяет, к какой возрастной категории относится пользователь, по некоторым ключевым словам
Wiki Parser 100 MB RAM извлекает триплеты Викиданных для сущностей, обнаруженных с помощью Entity Linking
Wiki Facts 1.7 GB RAM модель, извлекающая связанные факты со страниц Википедии и WikiHow

Доступные аннотаторы для русского

Название Требования Описание
Badlisted Words 50 MB RAM обнаруживает нецензурные русские слова из заданных списков
Entity Detection 5.5 GB RAM извлекает сущности и их типы из высказываний
Entity Linking 400 MB RAM находит идентификаторы сущностей Викиданных для сущностей, обнаруженных с помощью Entity Detection
Fact Retrieval 6.5 GiB RAM, 1 GiB GPU Аннотатор извлечения параграфов Википедии, релевантных истории диалога.
Intent Catcher 900 MB RAM классифицирует высказывания пользователя по ряду предопределенных намерений, которые обучаются на наборе фраз и регулярных выражений
NER 1.7 GB RAM, 4.9 GB GPU извлекает имена людей, названия мест, организаций из текста без регистра, используя модель на основе ruBert (pyTorch)
Sentseg 2.4 GB RAM, 4.9 GB GPU восстанавливает пунктуацию с помощью модели на основе ruBert (pyTorch) и разбивает на предложения
Spacy Annotator 250 MB RAM аннотации на основе токенов от Spacy
Spelling Preprocessing 8 GB RAM Русская модель коррекции Левенштейна
Toxic Classification 3.5 GB RAM, 3 GB GPU Модель классификации токсичных веществ от Transformers указана как PRETRAINED_MODEL_NAME_OR_PATH
Wiki Parser 100 MB RAM извлекает триплеты Викиданных для сущностей, обнаруженных с помощью Entity Linking
DialogRPT 3.8 GB RAM, 2 GB GPU Модель DialogRPT, основанная на русском DialoGPT от DeepPavlov и точно настроенная на русских последовательностях комментариев Pikabu

Разработка собственного аннотатора

TBD

Ссылки