Conjunto de paquetes para:
Importar
Limpiar y transformar
Procesar y analizar
Visualizar
Proporciona una forma unificada, armoniosa y más poderosa de trabajar con datos que la que ofrece el paquete base.
Archivos de texto plano (txt, csv, tsv)
Formatos propietarios (dta, sav)
Archivos Excel (xls, xlsx)
Paquete jsolite, archivos JSON (JavaScript Object Notation)
Trasformar estructura de datos
Manipular texto
Manipular fechas
Manipular data frame
Gráficos y mapas
Modelización
Si usamos get_microdata() solo para descargar los archivos del INE y no exportamos el objeto generado a RData sino a formatos externos a R, es necesario, para leer esos archivos usar el paquete haven.
Si usamos get_microdata() solo para descargar los archivos del INE y no exportamos el objeto generado a RData sino a formatos externos a R, es necesario, para leer esos archivos usar el paquete haven.
install.packages("haven") # se instala desde el CRANlibrary(haven) # lo cargo al entorno de trabajo
Si usamos get_microdata() solo para descargar los archivos del INE y no exportamos el objeto generado a RData sino a formatos externos a R, es necesario, para leer esos archivos usar el paquete haven.
install.packages("haven") # se instala desde el CRANlibrary(haven) # lo cargo al entorno de trabajo
La función read_spss() permite importar un archivo de SPSS en R. Mantiene las etiquetas de las variables y valores, creando la clase de doble condición haven_labelled y double.
La función read_spss() permite importar un archivo de SPSS en R. Mantiene las etiquetas de las variables y valores, creando la clase de doble condición haven_labelled y double.
También podemos usar la función read_sav(), que es un alias de la anterior.
La función read_spss() permite importar un archivo de SPSS en R. Mantiene las etiquetas de las variables y valores, creando la clase de doble condición haven_labelled y double.
También podemos usar la función read_sav(), que es un alias de la anterior.
Abrimos el proyecto donde tenemos los archivos de microdatos y scripts.
La función read_spss() permite importar un archivo de SPSS en R. Mantiene las etiquetas de las variables y valores, creando la clase de doble condición haven_labelled y double.
También podemos usar la función read_sav(), que es un alias de la anterior.
Abrimos el proyecto donde tenemos los archivos de microdatos y scripts.
# Leemos el archivo descargado con la función get_microdata() que contiene la base hogares.h19 <- read_spss("data/H_2019_Terceros.sav")
# Exportamos a dtawrite_dta(data = h19, path = "data/hogares_2019.dta")
Importa el archivo de la base de hogares y personas en formato dta, y guarda en un objeto llamado ech2019. Usar la función read_dta().
Exporta el objeto en un archivo SPSS. Usar la función write_sav().
El operador %>%, llamado pipe (significa tubería) permitirá encadenar funciones en lugar de colocar una dentro de otra sin una a continuación de la otra.
El operador %>%, llamado pipe (significa tubería) permitirá encadenar funciones en lugar de colocar una dentro de otra sin una a continuación de la otra.
El operador %>%, llamado pipe (significa tubería) permitirá encadenar funciones en lugar de colocar una dentro de otra sin una a continuación de la otra.
El operador %>%, llamado pipe (significa tubería) permitirá encadenar funciones en lugar de colocar una dentro de otra sin una a continuación de la otra.
El operador %>%, llamado pipe (significa tubería) permitirá encadenar funciones en lugar de colocar una dentro de otra sin una a continuación de la otra.
El mate es el data frame, los verbos de dplyr (así se llaman a las funciones que vimos) son las acciones que necesitamos para armarlo: poner la yerba, poner un poco de agua, dejarlo hinchar, poner la bombilla, cebar.
El mate es el data frame, los verbos de dplyr (así se llaman a las funciones que vimos) son las acciones que necesitamos para armarlo: poner la yerba, poner un poco de agua, dejarlo hinchar, poner la bombilla, cebar.
# Mate con 'pipe'mate %>% poner_yerba() %>% hinchar() %>% colocar_bombilla() %>% cebar()
El mate es el data frame, los verbos de dplyr (así se llaman a las funciones que vimos) son las acciones que necesitamos para armarlo: poner la yerba, poner un poco de agua, dejarlo hinchar, poner la bombilla, cebar.
# Mate con 'pipe'mate %>% poner_yerba() %>% hinchar() %>% colocar_bombilla() %>% cebar()
En R base y sin el pipe tendríamos que concatenar estas funciones. Cuando las funciones están concatenadas el orden se obtiene de adentro hacia afuera.
# Mate sin 'pipe'cebar(colocar_bombilla(hinchar(poner_yerba(mate))))
summarise(group_by(ech19, nomdpto), promedio_dpto = mean(ht11))
summarise(group_by(ech19, nomdpto), promedio_dpto = mean(ht11))
ech19 %>% group_by(nomdpto) %>% summarise(promedio_dpto = mean(ht11))
ech19 <- ech19 %>% group_by(region_3) %>% mutate(media_y_region = mean(ht11)) %>% ungroup()
ech19 <- ech19 %>% group_by(region_3) %>% mutate(media_y_region = mean(ht11)) %>% ungroup()
Podemos confirmar que la nueva variable promedio toma un valor para cada uno de las categorías de region_3
.
ech19 %>% count(region_3, media_y_region)
La función ungroup()
permite desagrupar para volver agrupar por otra variable dentro de la misma concatenación de acciones.
Luego de calcular la(s) variables vuelvo a desagrupar.
ech19 <- ech19 %>% group_by(region_3) %>% mutate(media_y_region = mean(ht11)) %>% ungroup() %>% group_by(dpto) %>% mutate(media_y_dpto = mean(ht11)) %>% ungroup()
Rehacer ejercicio 2 del práctico pasado usando el pipe
Calcular el promedio de edad según sexo.
Calcular la cantidad de jefas de hogar.
El paquete labelled se instala cuando instalamos haven.
Trae una serie de funciones que nos permiten trabajar fácilmente con variables que tienen etiquetas, por ejemplo, cuando importamos datos de SPSS o STATA con las variables de clase haven-labelled.
# install.packages("labelled") # se instala desde el CRANlibrary(labelled)
Para ver las etiquetas de la variable usamos la función var_label(). Ahora que sabemos usar el pipe (%>%), conviene usarlo al final de la cadena de comandos.
## muestra las etiquetas de un grupo de variablesech19 %>% select(c2, c3, c4) %>% var_label()
$c2[1] "Material predominante en las paredes externas"$c3[1] "Material predominante en el techo"$c4[1] "Material predominante en los pisos"
Para ver las etiquetas de los valores usamos la función val_labels().
## see value labels for bysexech19 %>% select(region_4) %>% val_labels()
$region_4 Montevideo 1 Interior - Localidades de 5.000 habitantes o más 2 Interior - Localidades de menos de 5.000 habitantes 3 Zona rural 4
La función as_factor() combinada con count() permite mostrar las etiquetas al hacer una tabla.
ech19 %>% count(region_4) %>% as_factor()
# A tibble: 4 x 2 region_4 n <fct> <int>1 Montevideo 382072 Interior - Localidades de 5.000 habitantes o más 508543 Interior - Localidades de menos de 5.000 habitantes 120194 Zona rural 6791
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |