2 Introducción a la ciencia de datos
En este capítulo se definen algunos conceptos fundamentales de estadística, como observaciones y variables. También se introduce el área de conocimiento denominada ciencia de datos.
2.1 Resumen
Una investigación estadística se basa en datos. Los datos acostumbran representarse en tablas, en las cuales cada fila es una observación y cada columna es una variable. Una observación corresponde a un elemento de datos que ha sido estudiado y cada variable a una característica de ese elemento de datos. Las variables pueden ser numéricas o categóricas. Las numéricas se subdividen en discretas y continuas y las categóricas en nominales y ordinales.
La ciencia de datos es una disciplina que permite convertir datos “crudos” en comprensión y conocimiento. Incluye los procesos importar, ordenar, transformar, visualizar, modelar y comunicar.
2.2 Trabajo previo
2.2.1 Lecturas
Çetinkaya-Rundel, Mine, & Hardin, Johanna (2021). Introduction to Modern Statistics (1st ed.). OpenIntro, Inc. https://openintro-ims.netlify.app/ (capítulo 1)
Wickham, Hadley; Çetinkaya-Rundel, Mirne; & Grolemund, Garret (2023). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data (2nd ed.). O’Reilly Media. https://r4ds.hadley.nz/ (capítulo introductorio)
2.3 Datos
Los científicos tratan de responder preguntas mediante métodos rigurosos y observaciones cuidadosas. Estas observaciones, recopiladas de notas de campo, encuestas y experimentos, entre otras fuentes, forman la columna vertebral de una investigación estadística y se denominan datos. La presentación y descripción efectivas de los datos constituyen el primer paso en un análisis (Çetinkaya-Rundel & Hardin, 2021). Esta sección introduce una estructura para organizar los datos, así como alguna terminología que se utilizará a lo largo de este curso.
2.3.1 Observaciones y variables
La tabla 2.1. contiene 10 filas de un conjunto de datos. Cada fila representa una persona. En términos estadísticos, cada fila corresponde a una observación. Las columnas representan características de las personas. Cada columna corresponde a una variable.
id | provincia | equipo | masa | estatura | sexo | cantidad_hermanos | nivel_guitarra |
---|---|---|---|---|---|---|---|
1 | Limón | Saprissa | 51.0 | 1.51 | otro | 0 | nulo |
2 | Heredia | Herediano | 98.5 | 1.87 | hombre | 1 | alto |
3 | Guanacaste | Liberia | 91.6 | 1.65 | mujer | 4 | bajo |
4 | Limón | Liberia | 60.6 | 1.68 | mujer | 1 | alto |
5 | Cartago | Cartaginés | 59.1 | 1.73 | mujer | 3 | bajo |
6 | otra | San Carlos | 59.2 | 1.89 | hombre | 3 | bajo |
7 | Guanacaste | Cartaginés | 65.2 | 1.70 | mujer | 3 | alto |
8 | Guanacaste | Sporting | 76.2 | 1.76 | hombre | 3 | experto |
9 | Limón | Alajuelense | 71.6 | 1.80 | hombre | 4 | bajo |
10 | Alajuela | Alajuelense | 64.6 | 1.52 | hombre | 2 | bajo |
2.3.2 Tipos de variables
Los datos de la tabla 2.1. son de varios tipos, cuya jerarquía se muestra en la Figura 2.1.
2.3.2.1 Numéricas
Corresponden a números a los cuales se les pueden aplicar operaciones como suma, resta, multiplicación, división y otras similares.
2.3.2.1.1 Discretas
Toman valores específicos que se pueden contar. La variable cantidad_hermanos
es discreta. Existe una separación clara entre sus posibles valores. Por ejemplo, es posible tener 1, 2 o 3 hermanos, pero no es posible tener 2.5 hermanos.
2.3.2.1.2 Continuas
Pueden tomar cualquier valor dentro de un intervalo o rango continuo. Estas variables se caracterizan por su capacidad para representar medidas precisas y pueden asumir un número infinito de valores, incluso dentro de un rango limitado (ej. entre 0 y 1). Las variables masa
y estatura
son continuas.
2.3.2.2 Categóricas
Las variables categóricas (también llamadas cualitativas), son aquellas que describen una característica o cualidad de una observación y clasifican las observaciones en grupos o categorías. A diferencia de las variables numéricas, que expresan cantidades numéricas, las variables categóricas expresan atributos no numéricos.
2.3.2.2.1 Nominales
No existe un orden inherente o jerarquía entre las categorías. Las variables provincia
, equipo
y sexo
son nominales.
2.3.2.2.2 Ordinales
Hay un orden o jerarquía clara entre las categorías. La variable nivel_guitarra
es categórica.
2.4 Ciencia de datos
La ciencia de datos es una disciplina que permite convertir datos “crudos” en comprensión y conocimiento (Wickham, Çetinkaya-Rundel, & Grolemund, 2023). Utiliza estadística y ciencias de la computación, entre otras disciplinas.
La Figura 4.1 ilustra el modelo de un proyecto típico de ciencia de datos, el cual incluye los procesos de importar, ordenar, transformar, visualizar, modelar y comunicar. Todos se articulan mediante programación de computadoras.
Importar los datos típicamente implica leerlos de un archivo, una base de datos o una interfaz de programación de aplicaciones (API) y cargarlos en un data frame.
Ordenar u organizar (to tidy) los datos significa colocarlos en estructuras rectangulares de filas y columnas, similares a tablas, de manera que cada fila sea una observación y cada columna una variable.
Transformar los datos implica la generación de algún subconjunto de filas y columnas, la creación de nuevas variables o el cálculo de estadísticas (ej. conteos, promedios, mínimos, máximos).
Visualizar los datos (en tablas, gráficos, mapas, etc.) permite encontrar patrones inesperados o formular nuevas preguntas.
Modelar es crear una representación abstracta y estructurada de los datos, con el fin de facilitar su análisis y realizar predicciones.
Comunicar es el último paso y es una actividad crítica de cualquier proyecto de análisis de datos o de ciencia en general.