¿Cómo usar y para qué sirve R?
R es un entorno de software de programación libre especializado dentro del campo de la estadística muy usado por analistas de datos. Este lenguaje de programación nos permite facilitar el manejo y análisis de datos, crear gráficos de alta calidad, hacer series de tiempo, predecir comportamientos, entre otros. El software R es altamente usado en la estadística, machine learning, data mining y analítica Web ya que posee una gran cantidad de librerías especializadas.
El software R posee una interfaz muy amigable para el usuario llamada RStudio.
La interfaz Rstudio permite instalar librerías especializadas, leer archivos (de diferentes extensiones), visualizar gráficos/ bases de datos, almacenar “script” de código, crear proyectos, entre otras funcionalidades.
Te dejamos un manual en el caso que necesitas ayuda en la instalación del software R y su intefaz Rstudio.
Estructuras fundamentales de R
Una vez instalado el software R, es necesario que los analistas de datos conozcan las estructuras fundamentales que el software requiere. Dentro de las más conocidas podemos mencionar las siguientes:
Esta estructura es la más simple que utiliza el software, la cual es utilizada para almacenar datos que pueden ser de tipo numérico, string o lógico (booleano). La dimensión depende del número de datos que se requiera almacenar.
Puede almacenar varios datos de diferente tipo en cada elemento de la lista. Además, no es necesario que los datos tengan la misma naturaleza o dimensión.
Es una estructura de dos dimensiones (filas y columnas) que generalmente se utiliza para almacenar datos numéricos (enteros o reales).
- Es la estructura más utilizada para representar datos tabulados (se puede hacer una analogía con una tabla de Excel). La característica principal es que cada columna (vector) debe tener la misma dimensión sin importar la naturaleza de cada una.
Librerías o Packages en R
Una de las grandes ventajas que tienen los analistas de datos al usar software R es la gran variedad de librerías especializadas que poseen. A continuación, se menciona algunas de ellas.
Librería ggplot2
Esta librería es la más utilizadas del software R al crear gráficos ya que posee atributos que dan mucha calidad a la representación gráfica.
Se puede observar la calidad gráfica de las distintas formas de representar datos como: histogramas, diagrama de puntos, diagrama de barras, ajuste de regresión lineal entre otras, gráficas de gran utilidad para los analistas de datos. Además, una de las opciones más relevantes de esta librería es que se pueden realizar subgrafos aplicando una función de facetas como se puede ver en la siguiente figura.
Librería ggmap
Esta librería permite crear mapas en R utilizando componentes de la librería ggplot2 antes mencionada.
Librería Tseries
El análisis de series temporales es de gran ayuda cuando se requiere obtener un pronóstico en el tiempo. Para esto, R cuenta con una librería especializada donde se pueden obtener varios análisis al respecto con lo cual los analistas de datos optimizan su tiempo al analizar.
Librería Rpart
El árbol de decisión es una de las herramientas visuales de clasificación y predicción más sencillas de aplicar cuando los datos son “separables” para tomar decisiones. En R esta librería ayuda a realizar este análisis y su representación gráfica.
Librería likert
Esta librería es utilizada para realizar un análisis de los datos recopilados a través de una encuesta. A parte de la tabulación de los datos, R presenta una forma visual de representar los datos obtenidos de manera que el usuario tenga una mejor percepción de los resultados.
Referencias
- R: The R Project for Statistical Computing (r-project.org)
- Create Elegant Data Visualisations Using the Grammar of Graphics • ggplot2 (tidyverse.org)
- ggmap package – RDocumentation
- Making Maps With R · Reproducible Research. (eriqande.github.io)
- rpart function – RDocumentation
- tseries: Time Series Analysis and Computational Finance (r-project.org)
- http://rnotr.com/likert/ggplot/barometer/likert-plots/