Algunos comandos más usados de R (Taller de Data Analytics UAI 2019) #R
Nota: Varios de estos comandos pertenecen al Tidyverse, por lo que se asume que se ha instalado y cargado tidyverse
.
Comando | Descripción | Ejemplo |
---|---|---|
install.packages() | Instalar paquete (es necesario hacer sólo una vez) | install.packages("tidyverse") |
library() | Cargar paquete | library(tidyverse) |
read_csv() | Cargar datos en formato .csv (separado por comas) | read_csv("carpeta/misdatos.csv") |
read_excel() | Cargar datos desde un archivo Excel (requiere cargar paquete readxl ) | read_excel("misdatos.xlsx", sheet = "Hoja1") |
glimpse() | Entrega un resumen de un data frame (variables y observaciones) | glimpse(mpg) |
$ | Seleccionar una variable de un data frame | dataframe$edad |
table() | Generar una tabla de frecuencia para la(s) variable(s) | table(dataframe$comuna, dataframe$carrera) |
dplyr
)Nota: Como varios de estos comandos se usan usualmente con el operador "pipe" (%>%
), en los ejemplos usamos df
como nombre del data frame sobre el cual se aplica la función.
Comando | Descripción | Ejemplo |
---|---|---|
filter() | Seleccionar (filtrar) observaciones (filas) de un data frame | df %>% filter(edad >= 18 & comuna == "Concon") |
select() | Seleccionar variables (columnas) de un data frame | df %>% select(edad, comuna, carrera) |
Al usar select() con - se seleccionan todas las variables, excepto las indicadas | df %>% select(-comuna) | |
rename() | Renombrar variables de un data frame | df %>% rename(edad = edad.del.individuo) |
mutate() | Modificar variables y entregar el resultado en otra variable | df %>% mutate(ptos.totales = ptos.local + ptos.visita) |
summarise() | Generar alguna estadística a partir de las variables del data frame (reducir varios valores a uno solo) | df %>% summarise(edad.promedio = mean(edad)) |
group_by() | Agrupar las observaciones según una o más variables para luego calcular alguna estadística por grupo | df %>% group_by(carrera) %>% summarise(edad.promedio = mean(edad)) |
arrange() | Reordenar observaciones según una o más variables (usar - para orden descendiente) | df %>% arrange(edad, -ingresos) |
Comando | Descripción | Ejemplo |
---|---|---|
lm() | Modelo de regresión lineal | lm(var.dep ~ var1 + var2 + var 3, data = df) |
glm() | Modelo lineal generalizado (usar family = binomial para reg. logísitca) | glm(var.dep ~ var1 + var2, data = df, family = binomial) |
summary() | Obtener un resumen del modelo y su calidad | summary(modelo) |
predict() | Usar un modelo para predecir el valor de la variable dependiente para nuevas observaciones | predict(modelo, newdata = otrodf) |
Para regresiones logísticas, usar el parámetro type = "response" | predict(modelolog, type = "response", newdata = otrodf) | |
sample.split() | Dividir una base de datos para generar set de entrenamiento y de prueba (requiere el paquete caTools ) | indices <- sample.split(df$var.dep, SplitRatio = 0.75) |
Luego de generar indices , se seleccionan las observaciones correspondientes desde el data frame original | dftrain <- df[indices, ] |