En este módulo, los estudiantes se pondrán en el papel de un científico de datos real encargado de resolver un problema. Seguirán las indicaciones del instructor y recorrerán los pasos de un
científico de datos: desde la obtención de datos y la descripción del problema hasta su resolución.
Esta disciplina, también conocida como ciencia de datos, es una de las ramas de la informática que ha florecido en la última década y sirve de base para muchas de las capacidades que ofrece internet hoy en día. Está estrechamente relacionada con conceptos populares como
inteligencia artificial, aprendizaje automático, big data, predicción y aprendizaje profundo, entre otros. Es un área en la que grandes empresas como Google, Facebook, Amazon, Apple, IBM, Microsoft y otras están invirtiendo importantes cantidades de dinero.
Al finalizar el módulo, los
alumnos aprenderán:
- Diferentes métodos de estructuración de datos.
- Diferentes tipos de datos con sus ventajas e inconvenientes.
- Cómo explorar un conjunto de datos y considerar criterios relevantes.
- Algoritmos de predicción sencillos (árbol de decisión, Random Forest, SVM, KNN).
- El concepto de estadística para interpretar los resultados.
- Algoritmos sencillos de clustering/agrupación (K-Means, DBScan) con sus ventajas e inconvenientes.
- Formas de presentar los resultados y tipos básicos de gráficos.