ru Annotators

Аннотаторы

Аннотаторы — это компоненты (соединители/службы), которые аннотируют данное высказывание пользователя.

Примером аннотатора является NER: этот аннотатор может возвращать словарь с ключами tokens tags:

{"tokens": ["Paris"], "tags": ["I-LOC"]}

Другим примером является аннотатор классификации настроений. Он может вернуть список меток, например:

["neutral", "speech"]

Доступные Аннотаторы для Английского

Название	Требования	Описание
ASR	40 MB RAM	вычисляет общую достоверность ASR для данного высказывания и оценивает его как very low, low, medium, or high (для разметки Amazon)
Badlisted Words	150 MB RAM	обнаруживает слова и фразы из заданного списка
Combined Classification	1.5 GB RAM, 3.5 GB GPU	модель на основе BERT, включая классификацию тем, классификацию диалоговых актов, настроения, токсичность, эмоции, классификацию фактоидов
COMeT Atomic	2 GB RAM, 1.1 GB GPU	Модели предсказаний на основе здравого смысла COMeT Atomic
COMeT ConceptNet	2 GB RAM, 1.1 GB GPU	Модели предсказаний на основе здравого смысла COMeT ConceptNet
Convers Evaluator Annotator	1 GB RAM, 4.5 GB GPU	обучается на данных Alexa Prize о предыдущих конкурсах и предсказывает, будет ли ответ кандидата интересным, понятным, соответствующим теме, привлекательным или ошибочным
Emotion Classification	2.5 GB RAM	аннотатор классификации эмоций
Entity Detection	1.5 GB RAM, 3.2 GB GPU	извлекает сущности и их типы из высказываний
Entity Linking	2.5 GB RAM, 1.3 GB GPU	находит идентификаторы сущностей Викиданных для сущностей, обнаруженных с помощью Entity Detection
Entity Storer	220 MB RAM	компонент на основе правил, который сохраняет сущности из высказываний пользователя и социального бота, если выражение мнения обнаружено с помощью паттернов или классификатора MIDAS, и сохраняет их вместе с обнаруженным отношением к состоянию диалога
Fact Random	50 MB RAM	возвращает случайные факты для данной сущности (для сущностей из пользовательского высказывания)
Fact Retrieval	7.4 GB RAM, 1.2 GB GPU	извлекает факты из Википедии и wikiHow
Intent Catcher	1.7 GB RAM, 2.4 GB GPU	классифицирует высказывания пользователя по ряду предопределенных намерений, которые обучаются на наборе фраз и регулярных выражений
KBQA	2 GB RAM, 1.4 GB GPU	отвечает на фактические вопросы пользователей на основе Wikidata KB
MIDAS Classification	1.1 GB RAM, 4.5 GB GPU	модель на основе BERT, обученная на подмножестве семантических классов набора данных MIDAS
MIDAS Predictor	30 MB RAM	модель на основе BERT, обученная на подмножестве семантических классов набора данных MIDAS
NER	2.2 GB RAM, 5 GB GPU	извлекает имена людей, названия мест, организаций из текста без регистра
News API Annotator	80 MB RAM	извлекает последние новости о сущностях или темах с помощью GNews API. Развертывания DeepPavlov Dream используют наш собственный ключ API.
Personality Catcher	30 MB RAM	навык состоит в том, чтобы изменить описание личности системы через интерфейс чата, он работает как системная команда, ответом является системное сообщение
Prompt Selector	50 MB RAM	Аннотатор использует Sentence Ranker для ранжирования подсказок и выбирает `N_SENTENCES_TO_RETURN` наиболее подходящие подсказки (на основе вопросов, заданных в подсказках)
Property Extraction	6.3 GiB RAM	извлекает пользовательские атрибуты из высказываний
Rake Keywords	40 MB RAM	извлекает ключевые слова из высказываний с помощью алгоритма RAKE
Relative Persona Extractor	50 MB RAM	Аннотатор использует Sentence Ranker для ранжирования предложений персонажей и выбирает `N_SENTENCES_TO_RETURN` наиболее релевантные предложения
Sentrewrite	200 MB RAM	переписывает высказывания пользователя, заменяя местоимения конкретными именами, которые предоставляют более полезную информацию нижестоящим компонентам
Sentseg	1 GB RAM	позволяет нам обрабатывать длинные и сложные высказывания пользователя, разбивая их на предложения и восстанавливая пунктуацию
Spacy Nounphrases	180 MB RAM	извлекает существительные с помощью Spacy и отфильтровывает общие
Speech Function Classifier	1.1 GB RAM, 4.5 GB GPU	иерархический алгоритм, основанный на нескольких линейных моделях и основанном на правилах подходе к предсказанию речевых функций, описанном Эггинсом и Слэйдом
Speech Function Predictor	1.1 GB RAM, 4.5 GB GPU	дает вероятности речевых функций, которые могут следовать речевой функции, предсказанной классификатором речевых функций
Spelling Preprocessing	50 MB RAM	компонент на основе шаблонов для преобразования различных разговорных выражений в более формальный стиль разговора
Topic Recommendation	40 MB RAM	предлагает тему для дальнейшего разговора, используя информацию об обсуждаемых темах и предпочтениях пользователя. Текущая версия основана на личностях Reddit (см. Dream Report для Alexa Prize 4).
Toxic Classification	3.5 GB RAM, 3 GB GPU	Модель классификации токсичных веществ от Transformers указана как `PRETRAINED_MODEL_NAME_OR_PATH`
User Persona Extractor	40 MB RAM	определяет, к какой возрастной категории относится пользователь, по некоторым ключевым словам
Wiki Parser	100 MB RAM	извлекает триплеты Викиданных для сущностей, обнаруженных с помощью Entity Linking
Wiki Facts	1.7 GB RAM	модель, извлекающая связанные факты со страниц Википедии и WikiHow

Доступные аннотаторы для русского

Название	Требования	Описание
Badlisted Words	50 MB RAM	обнаруживает нецензурные русские слова из заданных списков
Entity Detection	5.5 GB RAM	извлекает сущности и их типы из высказываний
Entity Linking	400 MB RAM	находит идентификаторы сущностей Викиданных для сущностей, обнаруженных с помощью Entity Detection
Fact Retrieval	6.5 GiB RAM, 1 GiB GPU	Аннотатор извлечения параграфов Википедии, релевантных истории диалога.
Intent Catcher	900 MB RAM	классифицирует высказывания пользователя по ряду предопределенных намерений, которые обучаются на наборе фраз и регулярных выражений
NER	1.7 GB RAM, 4.9 GB GPU	извлекает имена людей, названия мест, организаций из текста без регистра, используя модель на основе ruBert (pyTorch)
Sentseg	2.4 GB RAM, 4.9 GB GPU	восстанавливает пунктуацию с помощью модели на основе ruBert (pyTorch) и разбивает на предложения
Spacy Annotator	250 MB RAM	аннотации на основе токенов от Spacy
Spelling Preprocessing	8 GB RAM	Русская модель коррекции Левенштейна
Toxic Classification	3.5 GB RAM, 3 GB GPU	Модель классификации токсичных веществ от Transformers указана как PRETRAINED_MODEL_NAME_OR_PATH
Wiki Parser	100 MB RAM	извлекает триплеты Викиданных для сущностей, обнаруженных с помощью Entity Linking
DialogRPT	3.8 GB RAM, 2 GB GPU	Модель DialogRPT, основанная на русском DialoGPT от DeepPavlov и точно настроенная на русских последовательностях комментариев Pikabu

Разработка собственного аннотатора

TBD

Ссылки

Annotators @ ReadTheDocs

Provide feedback

Saved searches