[Legacy] Zé Carioca Unicamp

[LEGACY] Zé Carioca

Projeto UNICAMP + CI&T

Project ended in 2022. Link para a documentação completa

Este documento tem como objetivo descrever as atividades e passos realizados durante a execução do projeto a partir da parceria entre CI&T e UNICAMP. O projeto provém de uma experiência humanizada, agradável e resolutiva para clientes por meio de um assistente célere e preciso (i.e., chatbot) para melhorar a experiência e resolutividade em canais digitais. Para isso, propomos um framework para criar um chatbot baseado em um modelo de linguagem, o qual aborda todas as tarefas necessárias para o desenvolvimento do chatbot, ou seja, desde a coleta e pré-processamento de dados, até o treinamento e uso do modelo de linguagem. Além disso, é importante destacar que esse framework pode ser aplicado em diferentes escopos (cenários de atendimento) e sua aplicação é transparente para seus usuários, ou seja, todas as tarefas são automatizadas, assim os usuários apenas fornecem os dados para o cenário que desejam, tendo como resultado um chatbot baseado em modelo de linguagem com uma experiência agradável e humanizada. A Figura 1 ilustra o processo de aplicação do framework proposto.

Em resumo, o framework é composto pelas seguintes etapas principais: (i) coleta e obtenção de dados; (ii) pré-processamento e anotação; (iii) treinamento e fine-tuning; e (iv) humanização e aprimoramento. Para endereçar os desafios inerentes a cada etapa, as seguintes perguntas de pesquisa foram definidas:

Como obter dados de diferentes linguagens? Dados de diálogos com diferentes linguagens i.e., formal, informal, gírias, abreviações de internet, e etc, são importantes para fornecer ao modelo diferentes formas para entender mensagens e se comunicar com diferentes públicos. Entretanto, dados com tais características em língua portuguesa são limitados. Assim, para ter acesso a esses dados de diferentes linguagens, além dos corpus (i.e., base de dados) utilizados pela literatura, desenvolvemos uma ferramenta para coletar dados de fóruns disponíveis na Web.
Como anotar os dados de maneira precisa e eficiente? Anotar dados é importante para que seja possível ensinar ao modelo de linguagem como identificar as tarefas a serem realizadas e suas características. Contudo, diferentes conjuntos de dados possuem diferentes anotações, o que torna tal processo custoso e manual. Dessa forma, para tornar praticável a anotação de grandes bases de dados, propomos um modelo anotador. A ideia principal desse modelo é realizar a anotação manual de uma fração pequena dos dados, em seguida, utilizar a fração anotada para treinar um anotador. Por fim, utilizar o anotador treinado para anotar o restante dos dados.
Como fazer com que o modelo entenda diferentes linguagens e executa tarefas? A partir do treinamento é possível fazer com que o modelo entenda os diferentes tipos de linguagens presentes nos dados coletados. E além dos diferentes tipos de linguagens a serem ensinadas, o modelo também precisa aprender a executar tarefas utilizando as anotações. Nesse contexto, definimos um aprendizado por currículo, o qual consiste em organizar os diferentes dados entre maior ou menor grau de complexidade, de tal forma que o modelo consiga aprender com melhor convergência as tarefas de maior complexidade. Dessa forma, podemos ensinar ao modelo não só diferentes tipos de linguagens, mas também a executar tarefas e realizar o fine-tuning para o escopo desejado.
Como permitir interação humanizada entre usuários e chatbot ? Cada chatbot tem suas características próprias, finalidades e público alvo, e as percepções de humanidade que devem ser levadas em conta são as relativas a da realidade em que o chatbot analisado está inserido. Além disso, é importante que o chatbot seja capaz de relacionar-se cordialmente com o usuário, fazendo com que este sinta-se confortável, satisfeito e valorizado. Nesse contexto, propomos uma metodologia para avaliar quão humanizada é a experiência com um chatbot, assim, baseadas nessa avaliação, tarefas são recomendadas para aprimorar a humanização de um chatbot. É importante destacar que a metodologia proposta não é apenas parte do framework, mas também pode ser utilizada para avaliar e aprimorar a humanização de outros chatbots.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Legacy] Zé Carioca Unicamp

[LEGACY] Zé Carioca

Projeto UNICAMP + CI&T

Pinned

Repositories

People

Top languages

Most used topics