Text Mining

Introdução

Em 18 de novembro de 2011, foi sancionada a Lei nº 12.527 que regulamenta o direito constitucional de acesso à informações públicas aos cidadãos, com o objetivo de fortalecer a democracia brasileira e as políticas de transparência pública. A chamada Lei de Acesso à Informação (LAI), em linhas gerais diz que, com exceção de informações pessoais e sigilosas legalmente estabelecidas, toda informação produzida pelo estado é pública.

Os principais aspectos da LAI são:

Acesso é a regra, o sigilo, a exceção (divulgação máxima)

Requerente não precisa dizer por que e para que deseja a informação (não exigência de motivação)

Hipóteses de sigilo são limitadas e legalmente estabelecidas (limitação de exceções)

Fornecimento gratuito de informação, salvo custo de reprodução (gratuidade da informação)

Divulgação proativa de informações de interesse coletivo e geral (transparência ativa)

Criação de procedimentos e prazos que facilitam o acesso à informação (transparência passiva)

^{Fonte: http://www.acessoainformacao.gov.br/assuntos/conheca-seu-direito/principais-aspectos}

Para garantir a transparência passiva, foi criado o Sistema Eletrônico do Serviço de Informações ao Cidadão (e-SIC), que permite qualquer pessoa, física ou jurídica, fazer pedidos de acesso à informação e acompanhar o tramite.

Objetivo

Este trabalho tem como objetivo realizar uma mineração de texto nos pedidos de acesso à informação realizados à prefeitura de São Paulo no ano de 2018 com o intuito de identificar as principais necessidades de informações da população no que diz respeito à educação, saúde e transportes visando fornecer insumo ao planejamento de melhora dos serviços públicos para os anos subsequentes e melhora da comunicação com o público.

Tratamento da Base e Análise Exploratória

A base que estamos analisando possui 35.689 registros com 8 colunas. Essa base foi obtida no portal de dados abertos da prefeitura de São Paulo no link abaixo:

http://dados.prefeitura.sp.gov.br/pt_PT/dataset/pedidos-de-informacao-protocolados-a-prefeitura-via-e-sic1

As colunas estão descritas na tabela abaixo:

Coluna	Definição
cd_atendimento_pedido	Código único para cada movimentação do pedido (a partir de 2018)
status_nome	Nome do status do pedido (Ex: Atendido, finalizado, 2ª instância, etc.)
cd_orgao	Código de identificação do órgão responsável pelo pedido
orgao_nome	Nome do órgão responsável pelo pedido
cd_pedido	Código do pedido (protocolo único de cada pedido)
dc_pedido	Conteúdo do Pedido
dt_resposta_atendimento	Data do pedido ou movimentação
dc_resposta	Resposta do pedido

Após a leitura da base, tratamos a coluna dc_pedido, transformando-as para caracteres, em seguida dt_resposta_atendimento é reformatada, trocando-se “/” por “-“ para que se possa separa-la em 4 colunas: data, ano, mês e dia. Em seguida, a partir da coluna orgao_nome, cria-se uma nova coluna apenas com a sigla do órgão para facilitar as visualizações.

A partir deste ponto inicia-se a análise exploratória com uma contagem de pedidos únicos por órgão com status de início (Em Tramitação) e fim (Finalizado). Pode-se observar na figura 1 abaixo os órgãos que mais recebem pedidos de acesso à informação, sendo áreas como educação, saúde e transportes as principais. Por conta disso e pelo fato de existirem mais de 100 órgãos no dataframe, optou-se por analisar os órgãos SME, SMS e SPTrans.

Seguindo a análise, pode-se observar na figura 2 o comportamento dos pedidos durante o ano de 2018, alcançando um pico de pedidos no mês de Maio e um declínio a partir de Setembro até Dezembro.

Na figura 3, pode-se observar a evolução dos pedidos dia a dia no mês de Maio, que foi o mês com o maior número de pedidos como visto anteriormente. Nesse mês, observa-se que o aumento aconteceu no final, particularmente nos dias 26 e 30.

Pode-se observar na figura 4 o comportamento dos pedidos nos 3 órgão selecionados durante o ano de 2018. A SME e SMS aparentemente seguem a mesma lógica da figura 2 com picos por volta do meio do ano e declínio ao final, porém a SPTrans segue um padrão um pouco diferente, com pico em janeiro seguido de um declínio até maio.

Inicialmente , o campo dc_pedido contendo os pedidos de acesso à informação foi separado em tokens e retirada as stop words da língua portuguesa, porém notou-se algumas palavras que não adicionavam significância à análise, logo foram retiradas também junto das stop words.

Após o processo de tokenização e remoção de stop words, gerou-se um ranking top 30 de palavras mais utilizadas nos pedidos. É possível notar que as palavras se relacionam com pedidos de dados sobre servidores, servidores comissionados, dados da cidade e região e citação de lei possivelmente para embasar alguma solicitação.

Na figura 7 podem-se observar as palavras de forma mais clara da sua importância.

Partindo-se para uma análise mais aprofundada dos órgãos selecionados, fez-se um top 10 de palavras mais utilizadas. Na educação, observa-se um interesse sobre números e dados de ensino nas escolas, já na saúde há um interesse em unidades básicas de saúde, enquanto que nos transportes aparentemente deseja-se saber sobre ônibus e passageiros. Com a superficialidade dessa análise, optou-se por partir para um estudo de bigramas, trigramas e TF-IDF com o intuito de aprofundar e pesquisa e retirar insights sobre o que a população está interessada em saber do estado.

Analisando a figura 9, já é possível observar alguns tópicos surgindo, principalmente no órgão SPTrans onde identificamos 3 bigramas associados diretamente com abusos sexuais e 1 sobre bilhete único. Já na SME nota-se interesse em educação infantil e fundamental, enquanto que na SMS não surgiu nenhum tópico além do comentado anteriormente.

Fazendo-se uma análise TF-IDF dos bigramas, puderam-se corroborar os assuntos citados no parágrafo anterior para o SPTrans e SME, enquanto que na SMS, já surgem alguns temas que aparentemente são de interesse da população, como NTCSSS (Núcleo Técnico de Contratação de Serviço de Saúde) e contratos.

Partindo-se para a análise de trigramas, além dos temas já citados anteriormente, na SME aparecem dúvidas sobre servidores comissionados e como proceder ou recorrer sobre algo. Na SPTrans, o tema de abusos sexuais aprece fortemente como o principal novamente, porém já se nota citações sobre servidores comissionados, zonas e tempo indicado em meses. Na SMS surgiu um tópico sobre dados abertos nos trigramas “dados abertos atenciosamente” e “abertos atenciosamente rede”, indicando a causa de citações a formatos de dados como csv, planilha e xlx.

A análise TF-IDF de trigramas reforça todas as análises feitas anteriores, adicionando o tema de fraudes à SPTrans.

Topic Modelling

A técnica de Topic Modelling é similar a uma Análise de Cluster, onde ele aplica o algoritmo LDA (Latent Dirichlet Allocation) para estimar em qual tópico uma palavra tem a maior chance de ser classificada, lembrando que a mesma palavra pode aparecer em vários tópicos. Neste estudo, optou-se por aplicar a técnica no órgão SPTrans pois foi o que demonstrou maior potencial de se obter resultados significativos, levando-se em consideração todas as análises anteriores.

Inicialmente filtrou-se apenas o órgão desejado para então aplicar o LDA para 2, 3, 4 e 5 tópicos e notou-se que, para 2 tópicos havia uma sobreposição de assuntos, enquanto que para 4 e 5 os assunto começavam a se repetir ou não se podia identificar. Por conta disso chegou-se à conclusão que existem 3 temas principais nos pedidos de acesso à informação no órgão SPTrans:

O tópico 1 estaria relacionado à bilhetes únicos devido a palavras como bilhete, bilhetes, único, sistema;
O tópico 2 estaria relacionado à linhas de ônibus devido a palavras como ônibus, linha, linhas, empresa, terminal;
O tópico 3 estaria relacionado à abusos sexuais devido a palavras como quantos, abusos, cometidos, casos, sexuais, número;

Nas figuras 14, 15 e 16 pode-se observar os termos com maior diferença entre os betas de cada tópico.

Conclusão

Este trabalho discutiu e implementou técnicas de text mining aplicada à geração de insights na transparência passiva visando a melhora dos serviços públicos e da comunicação com a população. A partir destes resultados, a prefeitura de São Paulo pode pensar em estratégias para melhorar o site do bilhete único, elaborar novas campanhas contra o abuso sexual, passar para a transparência ativa o acesso a contratos caso ainda não esteja, por exemplo.

A análise apresentada mostrou que para a SME nota-se interesse em educação infantil e fundamental, servidores comissionados e como proceder ou recorrer sobre algo. Já na saúde, encontrou-se menções à NTCSSS (Núcleo Técnico de Contratação de Serviço de Saúde), contratos e dados abertos. Na SPTrans aplicou-se a técnica de topic modelling e se encontrou 3 temas principais: abusos sexuais, bilhetes únicos e linhas de ônibus.

Como trabalhos futuros, pretende-se investigar os principais temas nos pedidos dos demais órgãos, além de aprofundar a análise nos órgãos estudados no trabalho.

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
img		img
README.md		README.md
pedidorespondido2018atualizado.csv		pedidorespondido2018atualizado.csv
pedidos.r		pedidos.r

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

img

img

README.md

README.md

pedidorespondido2018atualizado.csv

pedidorespondido2018atualizado.csv

pedidos.r

pedidos.r

Repository files navigation

Text Mining - Pedidos de Acesso à Informação à Prefeitura de São Paulo em 2018

Introdução

Objetivo

Tratamento da Base e Análise Exploratória

Text Mining

Topic Modelling

Conclusão

About

Releases

Packages

Languages

ricardobreis/Text-Mining-Acesso-Info-SP

Folders and files

Latest commit

History

Repository files navigation

Text Mining - Pedidos de Acesso à Informação à Prefeitura de São Paulo em 2018

Introdução

Objetivo

Tratamento da Base e Análise Exploratória

Text Mining

Topic Modelling

Conclusão

About

Topics

Resources

Stars

Watchers

Forks

Languages