forked from llegarreta/Archivos_examen_ds
/
Cargafichero.R
68 lines (50 loc) · 1.68 KB
/
Cargafichero.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
load("C:/Examen_DS/Archivos_examen_ds/muestra09.RData")
dim(muestra09)
#307085 filas y 3 columnas
#Cambiamos nombres
colnames(muestra09)<-c("nif", "nombre", "genero")
<<<<<<< HEAD
unique(muestra09$genero)
chicos<- muestra09%>%
filter(genero=="V")
chicas<- muestra09%>%
filter(genero=="M")
vec <- chicos$nombre
frecuencia_chicos <- sort(table(vec))
(tabla_frecuencias_chicos <- as.data.frame(frecuencia_chicos))
str(tabla_frecuencias_chicos)
vec <- chicas$nombre
frecuencia_chicas <- sort(table(vec))
(tabla_frecuencias_chicas <- as.data.frame(frecuencia_chicas))
str(tabla_frecuencias_chicas)
#Comprobamos que tenemos una tabla de frecuencias de cada uno y los unimos
View(tabla_frecuencias_chicas)
View(tabla_frecuencias_chicos)
frecuencias<-full_join(tabla_frecuencias_chicas, tabla_frecuencias_chicos, by="vec")
View(frecuencias)
colnames(frecuencias)<- c("nombre", "M", "V")
frecuencias[is.na(frecuencias)] <- 0
#Creamos nueva variable para quedarnos con el genero de mayor frecuencia
frecuencias$genero_imp[frecuencias$M>frecuencias$V]="M"
frecuencias$genero_imp[frecuencias$V>frecuencias$M]="V"
View(frecuencias)
#Cambiamos a mayúsculas
muestra09$nombre<-toupper(muestra09$nombre)
frecuencias$nombre<-toupper(frecuencias$nombre)
#Unimos con el dataset general
final<-full_join(muestra09, frecuencias, by="nombre")
#Eliminamos las columnas de frecuencia V y M porque no valen para nada
final<-final[-c(4,5)]
View(final)
dim(final)
#729094 filas y 4 columnas
>>>>>>> rama-genero
#Solucionamos problemas en el nif
fallos <- grepl('[[:digit:]]{8}[[:alpha:]]{1}', final$nif)
fallos
trues <- which(fallos == T)
bueno <- final[trues, ]
str(bueno)
dim(bueno)
#688528 filas y 4 columnas
>>>>>>> rama-nif