Skip to content
@ZeCariocaUnicamp

[Legacy] Zé Carioca Unicamp

[LEGACY] Zé Carioca

Projeto UNICAMP + CI&T

Project ended in 2022. Link para a documentação completa

Este documento tem como objetivo descrever as atividades e passos realizados durante a execução do projeto a partir da parceria entre CI&T e UNICAMP. O projeto provém de uma experiência humanizada, agradável e resolutiva para clientes por meio de um assistente célere e preciso (i.e., chatbot) para melhorar a experiência e resolutividade em canais digitais. Para isso, propomos um framework para criar um chatbot baseado em um modelo de linguagem, o qual aborda todas as tarefas necessárias para o desenvolvimento do chatbot, ou seja, desde a coleta e pré-processamento de dados, até o treinamento e uso do modelo de linguagem. Além disso, é importante destacar que esse framework pode ser aplicado em diferentes escopos (cenários de atendimento) e sua aplicação é transparente para seus usuários, ou seja, todas as tarefas são automatizadas, assim os usuários apenas fornecem os dados para o cenário que desejam, tendo como resultado um chatbot baseado em modelo de linguagem com uma experiência agradável e humanizada. A Figura 1 ilustra o processo de aplicação do framework proposto.

Em resumo, o framework é composto pelas seguintes etapas principais: (i) coleta e obtenção de dados; (ii) pré-processamento e anotação; (iii) treinamento e fine-tuning; e (iv) humanização e aprimoramento. Para endereçar os desafios inerentes a cada etapa, as seguintes perguntas de pesquisa foram definidas:

  • Como obter dados de diferentes linguagens? Dados de diálogos com diferentes linguagens i.e., formal, informal, gírias, abreviações de internet, e etc, são importantes para fornecer ao modelo diferentes formas para entender mensagens e se comunicar com diferentes públicos. Entretanto, dados com tais características em língua portuguesa são limitados. Assim, para ter acesso a esses dados de diferentes linguagens, além dos corpus (i.e., base de dados) utilizados pela literatura, desenvolvemos uma ferramenta para coletar dados de fóruns disponíveis na Web.

  • Como anotar os dados de maneira precisa e eficiente? Anotar dados é importante para que seja possível ensinar ao modelo de linguagem como identificar as tarefas a serem realizadas e suas características. Contudo, diferentes conjuntos de dados possuem diferentes anotações, o que torna tal processo custoso e manual. Dessa forma, para tornar praticável a anotação de grandes bases de dados, propomos um modelo anotador. A ideia principal desse modelo é realizar a anotação manual de uma fração pequena dos dados, em seguida, utilizar a fração anotada para treinar um anotador. Por fim, utilizar o anotador treinado para anotar o restante dos dados.

  • Como fazer com que o modelo entenda diferentes linguagens e executa tarefas? A partir do treinamento é possível fazer com que o modelo entenda os diferentes tipos de linguagens presentes nos dados coletados. E além dos diferentes tipos de linguagens a serem ensinadas, o modelo também precisa aprender a executar tarefas utilizando as anotações. Nesse contexto, definimos um aprendizado por currículo, o qual consiste em organizar os diferentes dados entre maior ou menor grau de complexidade, de tal forma que o modelo consiga aprender com melhor convergência as tarefas de maior complexidade. Dessa forma, podemos ensinar ao modelo não só diferentes tipos de linguagens, mas também a executar tarefas e realizar o fine-tuning para o escopo desejado.

  • Como permitir interação humanizada entre usuários e chatbot ? Cada chatbot tem suas características próprias, finalidades e público alvo, e as percepções de humanidade que devem ser levadas em conta são as relativas a da realidade em que o chatbot analisado está inserido. Além disso, é importante que o chatbot seja capaz de relacionar-se cordialmente com o usuário, fazendo com que este sinta-se confortável, satisfeito e valorizado. Nesse contexto, propomos uma metodologia para avaliar quão humanizada é a experiência com um chatbot, assim, baseadas nessa avaliação, tarefas são recomendadas para aprimorar a humanização de um chatbot. É importante destacar que a metodologia proposta não é apenas parte do framework, mas também pode ser utilizada para avaliar e aprimorar a humanização de outros chatbots.

Pinned

  1. Assis Assis Public

    NPL annotation tool for entities and intentions with Active Learning

    JavaScript

  2. zecarioca zecarioca Public

    Python 1

Repositories

Showing 10 of 19 repositories

People

This organization has no public members. You must be a member to see who’s a part of this organization.

Top languages

Loading…

Most used topics

Loading…