Métodos, experiencias y herramientas para el aprendizaje experiencial de la Ciencia de Datos

Proyecto de Innovación Educativa
premiado en la convocatoria 2018

Coordinador(a): EMILIO SERRANO FERNANDEZ

Centro: E.T.S. DE INGENIEROS INFORMÁTICOS

Nivel: Nivel 2. Proyectos promovidos por otros colectivos de profesores de la UPM

Código: IE1617.1003
memoria >>

Línea: E5. Aprendizaje Experiencial

Aprendizaje Activo
Aprendizaje Basado en Problemas
Aprendizaje Experiencial
Aprendizaje Orientado a Proyectos
Big Data
Elaboracion material docente
Máster
Trabajo en Equipo/Grupo

Nombre y apellidos	Centro	Plaza *
MARTIN MOLINA GONZALEZ	E.T.S. DE INGENIEROS INFORMÁTICOS	CATEDRÁTICO UNIVERSIDAD
DANIEL MANRIQUE GAMO	E.T.S. DE INGENIEROS INFORMÁTICOS	TITULAR UNIVERSIDAD
LUIS BAUMELA MOLINA	E.T.S. DE INGENIEROS INFORMÁTICOS	CATEDRÁTICO UNIVERSIDAD
EMILIO SERRANO FERNANDEZ	E.T.S. DE INGENIEROS INFORMÁTICOS	L.D. PRF.AYUD.DOCTOR

* La plaza que se muestra corresponde a la ocupada en el momento de la convocatoria
(para PDI/PAS de la UPM, en el resto de casos no se especifica).

La Ciencia de datos o Data Science (DS) es un campo interdisciplinar que se encarga de la extracción del conocimiento de los datos. Esta disciplina es particularmente compleja ante el Big Data: grandes volúmenes de datos que dificultan su almacenamiento, procesamiento, y análisis con tecnologías estándar de las Ciencias de la computación. Como describe Schönberger en su obra "Big data: La revolución de los datos masivos", la Ciencia de los datos es una revolución que ya está cambiando la forma de hacer negocios, la sanidad, la política, la educación y la innovación.

La gran diversidad de aplicaciones y la creciente demanda de expertos en la materia, ha hecho que proliferen los cursos, libros y manuales en DS. El método pedagógico estándar que podemos apreciar en estos cursos consisten en: (1) la explicación de las distintas ramas de aprendizaje automático (supervisado, no supervisado, por refuerzo); (2) el detalle de algún paradigma de aprendizaje como árboles de decisión o redes neuronales artificiales; y, (3) la ilustración mediante conjuntos de datos de juguete como Weather o Iris.

La existencia de distintos repositorios de datos sobre los que construir conocimiento ofrece un caldo de cultivo privilegiado para diseñar un curso de DS como una serie de experiencias en problemas del mundo real. Pocos campos permiten al estudiante (o “aprendedor” en terminología de aprendizaje experiencial) ponerse en la piel de perfiles tan diversos e interesantes como la Ciencia de Datos: economistas, administradores de empresas, médicos, biólogos, administradores de sitios webs, etcétera. De la misma manera, pocas disciplinas pueden ofrecer recompensas tan atractivas para el aprendizaje experiencial como los 3 millones de dólares que obtuvo el ganador del concurso para predecir los pacientes que eran admitidos en un hospital estadounidense en el siguiente año; o el millón de dólares con el que la compañía Netflix premió al mejor predictor de valoraciones de películas.

Este proyecto de innovación se plantea para desarrollar métodos, experiencias y herramientas para el aprendizaje experiencial de DS; y más específicamente, de una de las disciplinas de las que se nutre la Ciencia de los datos: el Deep Learning (DL).

Este proyecto tiene tres objetivos fundamentales bajo el aprendizaje experiencial en Data Science (DS) y Deep Learning (DL).

O1. Desarrollo de métodos para el aprendizaje experiencial en DS. Instanciación de metodologías y frameworks generales de aprendizaje experiencial al campo específico de la Ciencia de datos. Destacan entre estos marcos de trabajo el ciclo de Kolb que plantea el aprendizaje como una iteración de cuatro fases que se adaptarán en este proyecto:
- O1.1. Métodos para el desarrollo de experiencias concretas en DS. Esta experiencia debe ofrecer una situación que requiera al estudiante reinterpretar su conocimiento previo. Por ejemplo, un estudiante de Ingeniería Informática acostumbrado a resolver problemas como algoritmos que definen los pasos que el computador debe dar; se verá retado ante casos donde la definición de estos pasos sea muy compleja o directamente imposible.
- O1.2. Métodos para la observación reflexiva en DS. El estudiante deberá reflexionar sobre las inconsistencias e incoherencias entre la experiencia previa y el conocimiento existente. Por ejemplo, cómo puede un software ser capaz de predecir el contenido de una imagen si no es posible dar un algoritmo que paso a paso realice esta tarea.
- O1.3. Métodos para la conceptualización abstracta en DS. La reflexión debe dar lugar a nuevas ideas o la modificación de conceptos abstractos ya definidos.
- O1.4. Métodos para la experimentación activa en DS. El estudiante debe aplicar la conceptualización al mundo y observar los resultados.
O2. Desarrollo de experiencias de DL. Aplicación de la instanciación de métodos explorados, ampliados, e instanciados a la Ciencia de datos en O1; para el desarrollo de experiencias concretas y para un perfil de estudiantes concreto en Deep Learning (DL). Estas experiencias permitirán que los profesores (o “facilitadores” en terminología de aprendizaje experiencial) ofrezcan herramientas para que los estudiantes o “aprendedores” sean capaces de construir su propio conocimiento. Para este objetivo, será clave el conocimiento de las debilidades y fortalezas, e intereses de los estudiantes. Aunque el desarrollo de este objetivo requiere la satisfacción total o parcial de O1, en una primera exploración de la bibliografía psicopedagógica; Jacobson y Ruddy describen en “Open To Outcome: A Practical Guide For Facilitating & Teaching Experiential Reflection” un modelo en cinco preguntas para diseñar experiencias que los miembros del proyecto consideran fácilmente adaptable para el diseño de experiencias en DL. Estas preguntas son: (1) ¿Notaste que...?; (2) ¿Por qué ocurrió esto?; (3) ¿Ocurre esto en la vida real?; (4) ¿Por qué ocurre esto?; y, (5) ¿Cómo puedo usar esto?.
O3. Desarrollo de herramientas para el soporte del aprendizaje experiencial. En este objetivo se implementarán herramientas o, preferentemente, se extenderán aplicaciones existentes para soportar el método y experiencias concretas desarrolladas en O1 y O2, respectivamente. Entre otros requisitos se incluirán:
- O3.1. Facilitación de la construcción de una experiencia combinando: un conjunto de datos específico, un problema de DS concreto (clasificación, regresión, agrupación…), uno o varios paradigmas de aprendizajes, y la respuesta a un formulario concreto que asegure que la experiencia satisface el potencial de aprendizaje buscado por los profesores (por ejemplo, número de elementos de cada clase si se busca aprender sobre la clasificación desbalanceada). Estas experiencias serán diseñadas por los facilitadores, o propuestas por los aprendedores.
- O3.2. Reserva de una experiencia concreta que dejará de estar disponible para otros estudiantes o grupos de estos; y, la posterior liberación del recurso si así se decide. Esta funcionalidad no se encuentra disponible en el sistema Moodle de la UPM, donde un alumno puede proponer/seleccionar un elemento (dataset, experiencia, recurso) pero no hay un mecanismo que restrinja que otros estudiantes seleccionen el mismo.
- O3.3. Voto y calificación experiencias por parte de facilitadores y aprendedores, así como exposiciones posteriores por parte de los estudiantes. Esto posibilita estructurar un curso bajo esquemas de gamificación en combinación con el aprendizaje experiencia.

Como se vio en la descripción del proyecto, el método pedagógico estándar en Ciencia de datos incluye tres pasos bien distinguidos: (1) la explicación de las distintas ramas de aprendizaje automático (supervisado, no supervisado, por refuerzo); (2) el detalle de algún paradigma de aprendizaje como árboles de decisión o redes neuronales artificiales; y, (3) la ilustración mediante conjuntos de datos de juguete como Weather o Iris.

Si bien este enfoque se suele combinar con un cuarto paso donde los estudiantes aplican las lecciones aprendidas a casos más complejos, algunas limitaciones de este método que los profesores solicitantes de este PIE han podido apreciar son:

El estudiante tiene dificultades a la hora de seleccionar los puntos más relevantes del funcionamiento de un paradigma concreto. Muy frecuentemente aprende a considerarlos como cajas negras donde el funcionamiento y modelo construido no tiene ninguna relevancia y sólo importa la métrica de calidad devuelta.
Fruto del punto anterior, el estudiante suele obviar los detalles y datos del problema concreto. Como dice Ian Witten, autor de "Data Mining: Practical Machine Learning Tools and Techniques", nada sustituye una buena comprensión de los datos.
También corolario del primer punto, el estudiante no percibe la naturaleza iterativa de la Ciencia de los datos, y más específicamente, el DL. La construcción de distintos modelos de predicción ofrece una valiosa información sobre los datos que debe ser realimentada a iteraciones posteriores para conseguir resultados más valiosos.

El aprendizaje experiencial ayuda naturalmente a paliar las anteriores limitaciones en el aprendizaje porque quita el foco de los métodos concretos y lo pone en los problemas a resolver. Además, comenzar con experiencias realistas aporta a los estudiantes más experiencia sobre problemas del mundo real. También, se dan más oportunidades para la creatividad, incentivando el pensamiento divergente para la búsqueda de distintas soluciones en una misma experiencia.

El proyecto está destinado estudiantes del “Master in Data Science (EIT Digital Master School)” impartido en la ETS de Ingenieros Informáticos de la Universidad Politécnica de Madrid (ETSINF).

El perfil de estos estudiantes es eminentemente técnico, por lo que tienden a centrarse en aspectos de la programación de DS, en detrimento de otras grandes disciplinas como la estadística o la reflexión sobre una aplicación concreta. Precisamente por ello se considera que este proyecto, aportará una mejora significativa en el aprendizaje.

Además, dado que el único objetivo específico de la materia de Deep Learning es el segundo, siendo el primero y tercero generales a la Ciencia de datos; los resultados de este proyecto serán directamente aplicables a otras asignaturas del máster, de otros masters (como la asignatura de Machine Learning en el futuro máster “EIT Digital programme on Human Computer Interaction and Design”), y también en asignaturas de grado (como Minería de Datos en el Grado en Ingeniería Informática).

El esfuerzo por enfatizar aspectos menos técnicos de la Ciencia de Datos, también favorecerá la extrapolación de los resultados a perfiles distintos como los de los estudiantes del futuro máster de Biología Computacional de la ETSINF.

Se considerarán las siguientes tres grandes tareas con una clara correspondencia a los tres objetivos ya mencionados:

T1. Desarrollar de métodos para el aprendizaje experiencial en DS.
T2. Desarrollar de experiencias de DL.
T3. Desarrollar de herramientas para el soporte del aprendizaje experiencial.

También se considerará, como especifica la convocatoria, un comienzo en febrero de 2017, y una finalización el 15 de noviembre de 2017 o antes, dando 9 meses de proyecto numerados de M1 a M9.

En un enfoque iterativo e incremental como el de la metodología Scrum, se plantea el siguiente cronograma que permite dar tres iteraciones a cada tarea de manera que los resultados preliminares de cada una de ellas sirvan para realimentar las siguientes fases del proyecto:

M1 T1 primera iteración
M2 T2 primera iteración
M3 T3 primera iteración
M4 T1 segunda iteración
M5 T2 segunda iteración
M6 T3 segunda iteración
M7 T1 tercera iteración
M8 T2 tercera iteración
M9 T3 tercera iteración

Fundamentalmente se utilizarán:

Repositorios científicos disponibles en la UPM como ScienceDirect.
La Plataforma Institucional de Telenseñanza de la UPM (Moodle).
Sitios webs de repositorios de datos y concursos en Ciencia de Datos.
Recursos informáticos del Departamento de Inteligencia Artificial como servidores web.

En el mes quinto (se espera Junio), se estará realizando la segunda iteración del desarrollo de experiencias. Estas experiencias serán propuestas a los alumnos de Deep Learning y, tras su finalización, se evaluará mediante un cuestionario: (1) los conocimientos adquiridos; y, (2) la satisfacción del estudiante ante la metodología experiencial frente a otras más tradicionales.

Esta evaluación servirá para ajustar las siguientes iteraciones de las tareas, cuyos resultados serán sometidos a un foro científico en ciencias de la educación con un sistema de revisión por pares.

Se elaborarán los siguientes entregables.

E1. Informe sobre métodos para el aprendizaje experiencial en DS.
E2. Informe sobre experiencias de DL desarrolladas.
E3. Manual de herramientas para el soporte del aprendizaje experiencial.
E4. Informe sobre la evaluación de los resultados.
E5. Artículo de revista o conferencia para la divulgación de resultados.

Como se describió en la sección de alcance, estos entregables tienen una transferencia interna en la UPM hacia otras asignaturas del máster para el que se propone, otros másters, y otros grados. También puede suponer una ventaja competitiva en la organización de MOOCs al presentar una filosofía pedagógica distinta a alternativas como los cursos que ofrece la universidad de Stanford o la universidad Johns Hopkins.

Los principales materiales divulgativos generados serán los entregables 3 y 5:

E3. Manual de herramientas para el soporte del aprendizaje experiencial.
E5. Artículo de revista o conferencia para la divulgación de resultados.

También se considerará:

la construcción de una web que recoja todos los entregables,
noticias para la difusión en la UPM,
entradas de microblogging (Twitter) en el departamento y la escuela,
entrevistas radiofónicas para divulgación de la innovación educativa.

Se consultará con frecuencia al Gabinete de Tele-Educación (GATE) para buscar soluciones software ya integradas con la Plataforma Institucional de Telenseñanza de la UPM (Moodle), o que permitan la integración con esta en un futuro si se estimase oportuno a raíz de los resultados del proyecto.

Ficha Proyecto I.E. 2016-2017

Métodos, experiencias y herramientas para el aprendizaje experiencial de la Ciencia de Datos