Bem-vindo ao site da disciplina EST0133 - Introdução à Modelagem de Big Data, ministrada aos alunos do Bacharelado em Estatística da UFRN. O material contido aqui está sendo utilizado durante o semestre 2022.2. Atualmente não é possível aceitar alunos de fora da universidade nesse curso, mas o material está aberto a quem quiser utilizá-lo.
Além dos slides, exercícios e códigos disponibilizados nesse repositório, há uma playlist no YouTube com vídeos explicativos sobre cada tópico.
Este é um projeto de Marcus Nunes.
Há alguns programas que devem ser instalados em seu computador para que ele fique preparado para acompanhar as aulas. A lista destes programas está a segu. Eles devem ser instalados na ordem em que estão colocados abaixo.
-
Instale o interpretador da linguagem de programação R. A versão 4.2.1 é a mais recente neste momento. Recomendo fortemente que, caso o
R
já esteja instalado em seu computador, ele seja atualizado para a versão mais atual. -
Instale a versão desktop gratuita do RStudio.
-
Caso seu computador rode Windows, é necessário instalar um programa extra para compilar os arquivos-fonte de alguns dos pacotes utilizados. Esse programa é chamado RTools, é gratuito e pode ser baixado nesse link. Atente para baixar a versão do RTools equivalente à da sua versão do R.
-
Há uma série de pacotes a serem instalados no
R
para que a disciplina seja acompanhada. Assim, após abrir o RStudio pela primeira vez, rode o comando abaixo para que todos os pacotes necessários sejam instalados em seu computador. O script irá verificar quais pacotes necessários para a disciplina já estão em seu computador e apenas aqueles pacotes que estiverem faltando serão baixados e instalados. Além disso, o script irá atualizar os pacotes que estiverem em versões antigas. É um comando demorado a ser executado, cuja duração dependerá da velocidade da sua conexão à internet.
source("https://raw.githubusercontent.com/mnunes/introbigdata_material/master/scripts/pacotes.R")
-
É possível baixar os slides e códigos da disciplina manualmente. Entretanto, a melhor maneira de se manter a par com o que está ocorrendo é através do git. Crie uma conta no github e instale o GitHub Desktop para facilitar a sua vida. Todas essas ferramentas são gratuitas.
-
Com o GitHub Desktop instalado, é necessário clonar esse repositório em seu computador. Basta seguir dois passos para isso. O primeiro deles é ir ao menu File > Clone Repository...
- Em seguida, siga os passos abaixo, na ordem em que estão colocados:
-
- Clique no campo URL.
-
- Entre com o endereço deste repositório:
mnunes/introbigdata_material
.
- Entre com o endereço deste repositório:
-
- Escolha uma pasta em seu computador para salvar os arquivos. Eu sugiro que seja na mesma pasta em que estão os materiais de suas outras disciplinas na universidade.
-
- Clique no botão Clone para copiar os arquivos para o seu computador.
- Sempre que for necessário atualizar o material, clique no botão Fetch origin, localizado na barra superior da tela.
- Se houver uma ou mais atualizações a serem baixadas, clique na mensagem Pull origin, que aparecerá no mesmo botão.
-
Entre regularmente no Github Desktop para realizar as operações Fetch origin e Pull origin para, assim, manter-se atualizado com a disciplina. Eventuais typos nos slides e nos códigos serão corrigidos dessa maneira.
-
Bugs nos códigos, erros de digitação nos slides, conjuntos de dados faltantes e demais erros ou problemas com o material podem ser facilmente reportados nesse link. Usuários que conheçam melhor o funcionamento do github podem submeter pull requests.
O material da disciplina foi produzido a partir de várias referências espalhadas por bibliotecas e pela internet. Poucas delas estão em português.
- Hastie, T. e Tibshirani, R. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer. link
- Izbicki, R. e dos Santos, T. M. (2020) Aprendizado de máquina: uma abordagem estatística. São Carlos. link
- James, G., Witten, D., Hastie, T., e Tibshirani, R. (2014). An Introduction to Statistical Learning with Applications in R. Springer.
- Kuhn, M. e Johnson, K. (2013). Applied Predictive Modeling. Springer. site do livro, sem seu conteúdo completo
- Kuhn, M. e Johnson, K. (2019). Feature Engineering and Selection: A Practical Approach for Predictive Models. Taylor & Francis. link
- Lantz, B. (2013). Machine Learning with R. Packt Publishing.
- Tan, P.-K., Steinbach, M., e Kumar, V. (2012). Introdução ao Data Mining: Mineração de Dados. Ciência Moderna.
- Zhao, Y. (2012). R and Data Mining: Examples and Case Studies. Academic Press.
- Domingos, P. (2015). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. Basic Books.
- O'Neil, C. (2017) Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown.
- O'Neil, C. e Schutt, R. (2013) Doing Data Science: Straight Talk from the Frontline. O'Reilly.
- Parker, M. (2020). Humble Pi: A Comedy of Maths Errors. Penguin.