2  Introducción a la ciencia de datos

En este capítulo se definen algunos conceptos fundamentales de estadística, como observaciones y variables. También se introduce el área de conocimiento denominada ciencia de datos.

2.1 Resumen

Una investigación estadística se basa en datos. Los datos acostumbran representarse en tablas, en las cuales cada fila es una observación y cada columna es una variable. Una observación corresponde a un elemento de datos que ha sido estudiado y cada variable a una característica de ese elemento de datos. Las variables pueden ser numéricas o categóricas. Las numéricas se subdividen en discretas y continuas y las categóricas en nominales y ordinales.

La ciencia de datos es una disciplina que permite convertir datos “crudos” en comprensión y conocimiento. Incluye los procesos importar, ordenar, transformar, visualizar, modelar y comunicar.

2.2 Trabajo previo

2.2.1 Lecturas

Çetinkaya-Rundel, Mine, & Hardin, Johanna (2021). Introduction to Modern Statistics (1st ed.). OpenIntro, Inc. https://openintro-ims.netlify.app/ (capítulo 1)

Wickham, Hadley; Çetinkaya-Rundel, Mirne; & Grolemund, Garret (2023). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data (2nd ed.). O’Reilly Media. https://r4ds.hadley.nz/ (capítulo introductorio)

2.3 Datos

Los científicos tratan de responder preguntas mediante métodos rigurosos y observaciones cuidadosas. Estas observaciones, recopiladas de notas de campo, encuestas y experimentos, entre otras fuentes, forman la columna vertebral de una investigación estadística y se denominan datos. La presentación y descripción efectivas de los datos constituyen el primer paso en un análisis (Çetinkaya-Rundel & Hardin, 2021). Esta sección introduce una estructura para organizar los datos, así como alguna terminología que se utilizará a lo largo de este curso.

2.3.1 Observaciones y variables

La tabla 2.1. contiene 10 filas de un conjunto de datos. Cada fila representa una persona. En términos estadísticos, cada fila corresponde a una observación. Las columnas representan características de las personas. Cada columna corresponde a una variable.

Tabla 2.1.
id provincia equipo masa estatura sexo cantidad_hermanos nivel_guitarra
1 Limón Saprissa 51.0 1.51 otro 0 nulo
2 Heredia Herediano 98.5 1.87 hombre 1 alto
3 Guanacaste Liberia 91.6 1.65 mujer 4 bajo
4 Limón Liberia 60.6 1.68 mujer 1 alto
5 Cartago Cartaginés 59.1 1.73 mujer 3 bajo
6 otra San Carlos 59.2 1.89 hombre 3 bajo
7 Guanacaste Cartaginés 65.2 1.70 mujer 3 alto
8 Guanacaste Sporting 76.2 1.76 hombre 3 experto
9 Limón Alajuelense 71.6 1.80 hombre 4 bajo
10 Alajuela Alajuelense 64.6 1.52 hombre 2 bajo

2.3.2 Tipos de variables

Los datos de la tabla 2.1. son de varios tipos, cuya jerarquía se muestra en la Figura 2.1.

2.3.2.1 Numéricas

Corresponden a números a los cuales se les pueden aplicar operaciones como suma, resta, multiplicación, división y otras similares.

2.3.2.1.1 Discretas

Toman valores específicos que se pueden contar. La variable cantidad_hermanos es discreta. Existe una separación clara entre sus posibles valores. Por ejemplo, es posible tener 1, 2 o 3 hermanos, pero no es posible tener 2.5 hermanos.

2.3.2.1.2 Continuas

Pueden tomar cualquier valor dentro de un intervalo o rango continuo. Estas variables se caracterizan por su capacidad para representar medidas precisas y pueden asumir un número infinito de valores, incluso dentro de un rango limitado (ej. entre 0 y 1). Las variables masa y estatura son continuas.

2.3.2.2 Categóricas

Las variables categóricas (también llamadas cualitativas), son aquellas que describen una característica o cualidad de una observación y clasifican las observaciones en grupos o categorías. A diferencia de las variables numéricas, que expresan cantidades numéricas, las variables categóricas expresan atributos no numéricos.

2.3.2.2.1 Nominales

No existe un orden inherente o jerarquía entre las categorías. Las variables provincia, equipo y sexo son nominales.

2.3.2.2.2 Ordinales

Hay un orden o jerarquía clara entre las categorías. La variable nivel_guitarra es categórica.

2.4 Ciencia de datos

La ciencia de datos es una disciplina que permite convertir datos “crudos” en comprensión y conocimiento (Wickham, Çetinkaya-Rundel, & Grolemund, 2023). Utiliza estadística y ciencias de la computación, entre otras disciplinas.

La Figura 4.1 ilustra el modelo de un proyecto típico de ciencia de datos, el cual incluye los procesos de importar, ordenar, transformar, visualizar, modelar y comunicar. Todos se articulan mediante programación de computadoras.

  • Importar los datos típicamente implica leerlos de un archivo, una base de datos o una interfaz de programación de aplicaciones (API) y cargarlos en un data frame.

  • Ordenar u organizar (to tidy) los datos significa colocarlos en estructuras rectangulares de filas y columnas, similares a tablas, de manera que cada fila sea una observación y cada columna una variable.

  • Transformar los datos implica la generación de algún subconjunto de filas y columnas, la creación de nuevas variables o el cálculo de estadísticas (ej. conteos, promedios, mínimos, máximos).

  • Visualizar los datos (en tablas, gráficos, mapas, etc.) permite encontrar patrones inesperados o formular nuevas preguntas.

  • Modelar es crear una representación abstracta y estructurada de los datos, con el fin de facilitar su análisis y realizar predicciones.

  • Comunicar es el último paso y es una actividad crítica de cualquier proyecto de análisis de datos o de ciencia en general.

2.5 Referencias

Çetinkaya-Rundel, M., & Hardin, J. (2021). Introduction to Modern Statistics (1st ed.). OpenIntro, Inc. Retrieved from https://openintro-ims.netlify.app/
Gandrud, C. (2020). Reproducible research with R and RStudio (Third edition). Boca Raton, FL: CRC Press.
Peng, R. D. (2011). Reproducible Research in Computational Science. Science, 334(6060), 1226–1227. https://doi.org/10.1126/science.1213847
Singleton, A. D., Spielman, S., & Brunsdon, C. (2016). Establishing a framework for Open Geographic Information science. International Journal of Geographical Information Science, 30(8), 1507–1521. https://doi.org/10.1080/13658816.2015.1137579
Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data (2nd ed.). O’Reilly Media. Retrieved from https://r4ds.hadley.nz/