rocarvaj
4/17/2019 - 3:09 AM

Algunos comandos más usados de R (Taller de Data Analytics UAI 2019) #R

Algunos comandos más usados de R (Taller de Data Analytics UAI 2019) #R

Lista de comandos útiles

Nota: Varios de estos comandos pertenecen al Tidyverse, por lo que se asume que se ha instalado y cargado tidyverse.

Generales

ComandoDescripciónEjemplo
install.packages()Instalar paquete (es necesario hacer sólo una vez)install.packages("tidyverse")
library()Cargar paquetelibrary(tidyverse)
read_csv()Cargar datos en formato .csv (separado por comas)read_csv("carpeta/misdatos.csv")
read_excel()Cargar datos desde un archivo Excel (requiere cargar paquete readxl)read_excel("misdatos.xlsx", sheet = "Hoja1")
glimpse()Entrega un resumen de un data frame (variables y observaciones)glimpse(mpg)
$Seleccionar una variable de un data framedataframe$edad
table()Generar una tabla de frecuencia para la(s) variable(s)table(dataframe$comuna, dataframe$carrera)

Manipulación de datos (dplyr)

Nota: Como varios de estos comandos se usan usualmente con el operador "pipe" (%>%), en los ejemplos usamos df como nombre del data frame sobre el cual se aplica la función.

ComandoDescripciónEjemplo
filter()Seleccionar (filtrar) observaciones (filas) de un data framedf %>% filter(edad >= 18 & comuna == "Concon")
select()Seleccionar variables (columnas) de un data framedf %>% select(edad, comuna, carrera)
Al usar select() con - se seleccionan todas las variables, excepto las indicadasdf %>% select(-comuna)
rename()Renombrar variables de un data framedf %>% rename(edad = edad.del.individuo)
mutate()Modificar variables y entregar el resultado en otra variabledf %>% mutate(ptos.totales = ptos.local + ptos.visita)
summarise()Generar alguna estadística a partir de las variables del data frame (reducir varios valores a uno solo)df %>% summarise(edad.promedio = mean(edad))
group_by()Agrupar las observaciones según una o más variables para luego calcular alguna estadística por grupodf %>% group_by(carrera) %>% summarise(edad.promedio = mean(edad))
arrange()Reordenar observaciones según una o más variables (usar - para orden descendiente)df %>% arrange(edad, -ingresos)

Modelos

ComandoDescripciónEjemplo
lm()Modelo de regresión lineallm(var.dep ~ var1 + var2 + var 3, data = df)
glm()Modelo lineal generalizado (usar family = binomial para reg. logísitca)glm(var.dep ~ var1 + var2, data = df, family = binomial)
summary()Obtener un resumen del modelo y su calidadsummary(modelo)
predict()Usar un modelo para predecir el valor de la variable dependiente para nuevas observacionespredict(modelo, newdata = otrodf)
Para regresiones logísticas, usar el parámetro type = "response"predict(modelolog, type = "response", newdata = otrodf)
sample.split()Dividir una base de datos para generar set de entrenamiento y de prueba (requiere el paquete caTools)indices <- sample.split(df$var.dep, SplitRatio = 0.75)
Luego de generar indices, se seleccionan las observaciones correspondientes desde el data frame originaldftrain <- df[indices, ]