Índice

Sobre
Primeiros Passos
- Pré-requisitos
- Instalação
Uso

Sobre

O Detect My Scene foi um projeto realizado durante a live coding do meu canal na Twitch. O objetivo principal era realizar algum projeto assistivo, para suprir alguma necessidade. Através de discussões foi resolvido que poderíamos ajudar deficientes visuais, criando um programa que fosse capaz de descrever uma foto (que poderia ser extendido para vídeos também) através de texto ou áudio. Com isso o deficiente visual poderia tirar fotos em um ambiente ou até tirar fotos de alguma notícia ou artigo para rodar no software e ter uma breve descrição do que existe ali.

Para a criação dessa aplicação foram utilizados alguns conceitos de Inteligência Artificial e Processamento Digital de Imagens, com a biblioteca ImageAI e alguns cálculos e aplicações implementadas do zero. O projeto é realizado em alguns passos.

Para a maioria dos testes durante o desenvolvimento do projeto, a imagem a seguir foi utilizada, além de algumas outras para validações. Os objetos identificados nas imagens testadas no desenvolvimento mostram apenas objetos que o algoritmo tem 45% ou mais de certeza de ser de fato aquilo que foi identificado.

Figura 1. Imagem de teste

Passo 1: Identificação dos objetos

Esse passo é realizado pela própria biblioteca utilizada (ImageAI), onde são identificados todos os objetos reconhecidos na imagem, informando o nome, probabilidade de ser aquele objeto específico e suas delimitações na imagem. Essas informações base são essenciais para os próximos passos, pois são com elas que todas as informações são cruzadas e geram novos resultados.

Figura 2. Identificação da biblioteca

Passo 2: Determinação do ponto (x, y)

Após o passo 1 o objetivo foi calcular o "ponto central" dos objetos, a partir da delimitação, conhecida como box_points. Determinar esse ponto foi necessário para que cada objeto tivesse sua posição em um ponto (x, y) na imagem, para que o próximo passo pudesse ser feito.

Figura 3. Determinação do ponto (x, y) de cada objeto

Passo 3: Matriz de distância entre objetos

Com os objetos tendo suas posições devidamente identificadas, foi possível implementar e calcular a distância euclidiana entre cada um dos objetos identificados. Além de saber exatamente em que área da imagem cada objeto está, agora sabemos a distância entre cada um. Isso possibilita a implementação de outros algoritmos como KNN (Vizinho mais próximo), entre outros, a fim de criar uma relação entre os objetos e criar descrições para o/a deficiente visual cada vez mais detalhadas.

Figura 4. Cálculo de distância entre objetos

Além disso foi criada uma Matriz de Distância, com identificador entre cada objeto (como pode ser visto na imagem acima) e linhas indicando onde inicia e para. A tabela com os valores para a imagem de exemplo podem ser vistos abaixo (distância em pixels).

*	0	1	2	3	4	5	6	7
0	0	132	71	452	188	203	190	296
1	132	0	63	584	318	282	321	426
2	71	63	0	521	259	249	261	367
3	452	584	521	0	282	433	269	193
4	188	318	259	282	0	171	25	108
5	203	282	249	433	171	0	195	240
6	190	321	261	269	25	195	0	109
7	296	426	367	193	108	240	109	0

Tabela 1. Matriz de distância entre os objetos da imagem

Passo 4: Criação de descrição simples em áudio

De acordo com o que foi feito no passo 1 já é possível criar uma descrição textual do que pode ser encontrado na imagem e uma sonora também. Todos os tipos de objetos identificáveis pelo modelo foram traduzidos para que um dos principais diferenciais do projeto pudesse ser feito: descrição textual e sonora em português. A seguir é possível escutar o áudio gerado automaticamente depois da identificação dos objetos:

Audio 1. Descrição simples da cena

Passo 5: Criação de descrição com localização em áudio

A partir do passo 2 é possível melhorar a descrição textual e sonora. Por isso foram criados dois tipos de descrição, uma simples (descrição anterior) e outra mais detalhada a respeito da licalização dos objetos. A descrição um pouco mais detalhada pode ser vista a seguir:

Audio 2. Descrição com localização na cena

Novas funcionalidades

A partir do passo 3, com a criação da matriz de distância seria possível, através da identificação do objeto e a distância entre eles, estimar a distância entre cada um em métricas reais (metro) e a distância do objeto até o observador. Com isso seria possível criar uma descrição complexa e detalhada para o deficiente visual, entretanto não seria viável implementar isso durante as lives, visto que iria demandar muito tempo e ainda há muito o que aprender por aí em outros projetos!

2. Primeiros Passos

Siga estas instruções para rodar o projeto na sua máquina.

Pré-requisitos

Python 3.7 ou superior

Máquina com GPU (Pode ser feito sem GPU, será apenas mais lento)

Instalação

Com o python 3.7.x instalado, basta instalar com o gerenciador de pacotes do python o pipenv:

pip3 install pipenv

Clone o repositório para obter o código necessário:

git clone https://github.com/mateustoin/DetectMyScene

O arquivo de modelos utilizado para a identificações do projeto é o resnet50_coco_best_v2.0.1.h5, pode ser encontrado o link de download na documentação do ImageAI. Cole ele na pasta raiz do projeto. Depois todas as dependências necessárias para a execução do projeto podem ser instaladas automaticamente com o comando:

pipenv install

3. Uso

Para utilizar o projeto, basta entrar no ambiente criado pelo pipenv.

pipenv shell

Depois que estiver rodando dentro do ambiente virtual, a execução do código é realizada através de uma simples API para facilitar a entrada de dados. Pode ser iniciada com:

uvicorn main:app

Um servidor se iniciará em 127.0.0.1:500.

Figura 5. Entrada de imagens na API

Escolha uma imagem e clique em Enviar. Após o processamento será retornado as descrições textuais como corpo da resposta e os áudios serão gerados na mesma pasta do projeto.

Figura 6. Resultado do processamento

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
app		app
img		img
test_files		test_files
.gitignore		.gitignore
Pipfile		Pipfile
Pipfile.lock		Pipfile.lock
README.md		README.md
__init__.py		__init__.py
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

app

app

img

img

test_files

test_files

.gitignore

.gitignore

Pipfile

Pipfile

Pipfile.lock

Pipfile.lock

README.md

README.md

init.py

init.py

main.py

main.py

Repository files navigation

Índice

Sobre

Passo 1: Identificação dos objetos

Passo 2: Determinação do ponto (x, y)

Passo 3: Matriz de distância entre objetos

Passo 4: Criação de descrição simples em áudio

Passo 5: Criação de descrição com localização em áudio

Novas funcionalidades

2. Primeiros Passos

Pré-requisitos

Instalação

3. Uso

About

Releases

Packages

Languages

*	0	1	2	3	4	5	6	7
0	0	132	71	452	188	203	190	296
1	132	0	63	584	318	282	321	426
2	71	63	0	521	259	249	261	367
3	452	584	521	0	282	433	269	193
4	188	318	259	282	0	171	25	108
5	203	282	249	433	171	0	195	240
6	190	321	261	269	25	195	0	109
7	296	426	367	193	108	240	109	0

*	0	1	2	3	4	5	6	7
0	0	132	71	452	188	203	190	296
1	132	0	63	584	318	282	321	426
2	71	63	0	521	259	249	261	367
3	452	584	521	0	282	433	269	193
4	188	318	259	282	0	171	25	108
5	203	282	249	433	171	0	195	240
6	190	321	261	269	25	195	0	109
7	296	426	367	193	108	240	109	0

mateustoin/DetectMyScene

Folders and files

Latest commit

History

Repository files navigation

Índice

Sobre

Passo 1: Identificação dos objetos

Passo 2: Determinação do ponto (x, y)

Passo 3: Matriz de distância entre objetos

Passo 4: Criação de descrição simples em áudio

Passo 5: Criação de descrição com localização em áudio

Novas funcionalidades

2. Primeiros Passos

Pré-requisitos

Instalação

3. Uso

About

Topics

Resources

Stars

Watchers

Forks

Languages

*	0	1	2	3	4	5	6	7
0	0	132	71	452	188	203	190	296
1	132	0	63	584	318	282	321	426
2	71	63	0	521	259	249	261	367
3	452	584	521	0	282	433	269	193
4	188	318	259	282	0	171	25	108
5	203	282	249	433	171	0	195	240
6	190	321	261	269	25	195	0	109
7	296	426	367	193	108	240	109	0