Back to top

Información MOOC

Inteligencia artificial aplicada a información multimedia: Procesando imagen, audio y texto para extraer conocimiento

Coordinador(a): ALBERTO BELMONTE HERNÁNDEZ
Centro: E.T.S.I. DE TELECOMUNICACION
Idioma: Castellano
Convocatoria: 2025
Miembros que lo componen
Nombre Centro / Entidad
ALBERTO BELMONTE HERNÁNDEZ E.T.S. DE INGENIEROS DE TELECOMUNICACION
MIGUEL ANTONIO BARBERO ALVAREZ E.T.S. DE INGENIEROS INFORMÁTICOS
JAVIER SERRANO ROMERO E.T.S DE ING. DE SISTEMAS INFORMÁTICOS
Objetivos de la propuesta

El equipo está conformado por personal docente e investigador de tres centros universitarios: la Escuela Técnica Superior de Ingenieros de Telecomunicación, la Escuela Técnica Superior de Ingenieros Informáticos y la Escuela Técnica Superior de Ingeniería de Sistemas Informáticos. Todos sus integrantes forman parte del Grupo de Aplicación de Telecomunicaciones Visuales (GATV), con una amplia experiencia docente e investigadora en las áreas de procesado de señal, análisis de datos heterogéneos e inteligencia artificial. Este grupo imparte asignaturas relacionadas con dichas disciplinas en diversos grados y másteres de las tres escuelas, participando activamente en la formación especializada de estudiantes.

En el ámbito investigador, el GATV cuenta con una dilatada trayectoria, estando participando actualmente ?a fecha de marzo de 2025? en más de veinte proyectos nacionales (de distintas convocatorias) y europeos (principalmente en el marco del programa Horizon2020). La mayoría de estas iniciativas se centran en el modelado de información multimedia, abarcando desde su captura mediante sensores diversos, hasta su almacenamiento, análisis y explotación mediante técnicas avanzadas de procesamiento de señal y datos. En los últimos años, el grupo ha orientado gran parte de su investigación hacia tecnologías emergentes de inteligencia artificial, incluyendo IA generativa, grandes modelos de lenguaje (LLMs), y generación de representaciones embebidas para tareas de clasificación, detección y extracción de información. Cabe destacar también que uno de los miembros ha participado en la creación de dos cursos MOOC en convocatorias anteriores, uno de los cuales continúa impartiéndose en la actualidad.

  • El profesor Alberto Belmonte Hernández, Profesor Permanente Laboral en la Escuela Técnica Superior de Ingenieros de Telecomunicación, imparte docencia en asignaturas vinculadas al procesado de señal e información multimedia mediante técnicas avanzadas e inteligencia artificial. Entre las asignaturas que coordina se encuentran Análisis y Visualización de Datos (Grado en Ingeniería y Sistemas de Datos), Large Scale Media Analytics (Máster Universitario en Teoría de la Señal y Comunicaciones) y Procesado Avanzado de Señal (Máster Propio en Ingeniería de Producción y Explotación de Contenidos). Asimismo, colabora en asignaturas como Sistemas de Telecomunicación, Sistemas de Comunicaciones, Aplicaciones Sectoriales, Media Data System Design, Procesado de Señal Audiovisual y Data Science Foundations and Applications. Su labor investigadora se ha centrado en la aplicación del procesado de señal y la inteligencia artificial a datos obtenidos de diversos sensores (cámaras, dispositivos wearable, hidrófonos, sensores inerciales, entre otros) para la extracción de conocimiento, detección de anomalías y desarrollo de soluciones en áreas como la salud, mediante el seguimiento continuo de pacientes con Parkinson o Alzheimer; la generación de avatares virtuales mediante IA generativa; o la identificación y seguimiento de personas en espacios interiores y exteriores, aplicando técnicas de detección de objetos, segmentación y reidentificación basadas en imagen y señales inalámbricas. Asimismo, ha participado en proyectos centrados en el análisis de imágenes médicas, datos genómicos y grafos de conocimiento en el ámbito sanitario, con aplicaciones en clasificación, detección y formulación de hipótesis clínicas. Hasta la fecha, ha publicado más de 15 artículos científicos en revistas y congresos especializados, estrechamente relacionados con los resultados de los proyectos en los que ha intervenido.

 

  • Javier es doctor (cum laude) en Tecnologías y Sistemas de Comunicaciones por la Universidad Politécnica de Madrid (UPM). Se graduó en Ingeniería de Sonido e Imagen en la UPM y obtuvo un Máster de Investigación en procesado de señal, imagen, voz y telecomunicaciones en el Institut Polytechnique de Grenoble (INP) en Francia. Actualmente, es Profesor Ayudante Doctor en la Escuela Técnica Superior de Ingeniería de Sistemas Informáticos de la UPM. En el grupo de investigación participa activamente en proyectos europeos de investigación. Su trabajo se centra en la virtualización de servicios en redes de nueva generación y en la aplicación de inteligencia artificial para la optimización de procesos de red. A lo largo de su trayectoria, ha participado en más de una docena de proyectos europeos, desempeñando roles clave en coordinación técnica, desarrollo de casos de uso e innovación en telecomunicaciones y redes. Ha liderado tareas de gestión en proyectos internacionales y ha trabajado en estrecha colaboración con empresas como Telefónica y Cellnex en iniciativas de optimización de redes y eficiencia energética. En el ámbito académico, ha impartido docencia en asignaturas como Sistemas Distribuidos, Redes Avanzadas, Administración y Gestión de Redes, y Gestión de Proyectos y del Riesgo, y es coordinador de la asignatura de Sistemas Distribuidos en la UPM. También forma parte del Grupo de Innovación Educativa de Redes y Servicios de Comunicaciones de la ETSI de Sistemas Informáticos. Ha publicado numerosos artículos en revistas y conferencias internacionales, abordando temas como la seguridad, optimización de redes mediante aprendizaje profundo, aprendizaje federado, redes 5G y digital twins.

 

  • Miguel Antonio Barbero Álvarez es Profesor Ayudante Doctor en la ETSIINF-UPM e investigador en proyectos europeos y nacionales. Se doctoró (cum laude) en la UPM con una tesis sobre conservación preventiva de patrimonio cultural usando técnicas de análisis colorimétrico y aprendizaje profundo. Ha impartido docencia en Algoritmos y Estructuras de Datos, Redes de Computadores y Representación e Intercambio de Datos en tres grados diferentes en la ETSIINF. Su área de interés es el análisis de imágenes y colorimetría para fines técnicos y sociales, sobre todo en el ámbito patrimonial; el estudio de fuentes información veraz en línea (contenido en RRSS y medios de comunicación); y la representación matemática de objetos reales con distintos formatos, ya sea imagen, audio o texto. Adicionalmente, obtuvo una beca de investigación en el GAPS (UPM) y una estancia doctoral en la Politécnica de Viena (TU Wien). Actualmente es miembro voluntario del Museo Histórico de la Informática (MHI), donde realizó las obras de exposición "Mujeres Ilustres de la Informática", visitables en dichas instalaciones. Ha trabajado en exitosos proyectos nacionales y europeos, y en varios artículos publicados en prestigiosas revistas indexadas en el JCR, participaciones en conferencias internacionales y actividades de diseminación junto a la Comisión Europea avalan su dedicación.
Justificacion del equipo docente

Este curso explora el fascinante y creciente campo de la extracción de características en datos multimodales, una competencia clave para el desarrollo de sistemas inteligentes capaces de interpretar el mundo real a través de distintas fuentes de información: imágenes, audio y texto. En un contexto en el que la inteligencia artificial forma parte de ámbitos tan diversos como la medicina, la industria, la educación o el entretenimiento, la capacidad de analizar datos heterogéneos de manera integrada es más relevante que nunca. El curso sigue un enfoque progresivo y estructurado: se comienza trabajando cada modalidad por separado (imagen y vídeo, audio, y texto), abordando primero las técnicas tradicionales de procesado de señales e ingeniería de características, que permiten entender la naturaleza y representación de cada tipo de dato. A continuación, se introducen técnicas más avanzadas basadas en aprendizaje profundo, mostrando su aplicación en tareas concretas como:

  • En imagen y vídeo: clasificación, detección y segmentación de objetos, análisis de movimiento, detección de poses o generación de imágenes.
  • En audio: análisis espectral, clasificación de eventos sonoros, reconocimiento de voz o detección de emociones y separación de fuentes.
  • En texto: análisis semántico, clasificación, extracción de entidades, resumen automático o generación de texto usando modelos LLM.

Una vez comprendidas las particularidades y potenciales de cada tipo de dato, el curso se orienta hacia el análisis multimodal, abordando técnicas que permiten combinar información visual, acústica y textual para desarrollar sistemas más robustos, interpretables y cercanos al razonamiento humano. Se estudiarán modelos y arquitecturas actuales como CLIP, SAM, Data2Vec o Flamingo, que representan el estado del arte en el aprendizaje multimodal.

Diseñado para estudiantes, investigadores y profesionales del ámbito tecnológico y científico, el curso proporciona las herramientas conceptuales y prácticas necesarias para abordar problemas complejos del mundo real con una visión integral, crítica y aplicada. En una era de crecimiento exponencial del volumen y la variedad de datos, dominar las técnicas para extraer, interpretar y combinar información multimodal se convierte en una de las habilidades más demandadas e influyentes del futuro próximo.

Justificacion del mooc

La necesidad de formación en extracción y análisis de características en datos multimodales responde directamente a los cambios tecnológicos que están transformando la práctica de la ingeniería, la investigación aplicada y el desarrollo de sistemas inteligentes. Hoy en día, los profesionales se enfrentan a desafíos en los que los datos no se presentan en una única forma, sino que combinan información visual, acústica y textual, procedente de sensores, plataformas digitales o entornos físicos complejos. Este nuevo paradigma, donde la interpretación conjunta de imagen, audio y texto es clave para la toma de decisiones automatizada, requiere nuevas competencias que no están suficientemente cubiertas en los planes de estudio tradicionales. Ingenieros que trabajan en campos como la robótica, salud digital, automoción, ciudades inteligentes, telecomunicaciones o defensa, ya se encuentran ante el reto de integrar múltiples flujos de datos en sus soluciones, sin disponer de herramientas metodológicas claras para ello. Además, la rápida evolución de modelos basados en aprendizaje profundo, arquitecturas transformadoras y sistemas generativos, junto con el auge de modelos multimodales como CLIP, SAM, Flamingo o Data2Vec, ha ampliado aún más la brecha entre los avances tecnológicos y la formación técnica existente. Esto hace imprescindible el reciclaje profesional y la actualización continua, especialmente en perfiles que deseen mantenerse a la vanguardia de la inteligencia artificial aplicada. Este curso, centrado en un enfoque progresivo (de lo tradicional a lo más avanzado) y práctico (aplicado a casos reales por modalidad), proporciona a los participantes una base sólida para entender, analizar y combinar distintas fuentes de datos, permitiéndoles desarrollar soluciones más precisas, eficientes e interpretables. No se trata de una formación de nicho, sino de una respuesta estratégica y transversal a las exigencias de la ingeniería moderna y a la creciente demanda de expertos capaces de afrontar problemas complejos con una visión integral, crítica y aplicada.

Objetivos del aprendizaje

Al finalizar el curso, los participantes serán capaces de:

  • Procesar y analizar imágenes y vídeos utilizando técnicas tradicionales y modelos de aprendizaje profundo.
  • Aplicar modelos avanzados de visión por computador en tareas como clasificación, detección, segmentación o generación de imágenes.
  • Procesar señales de audio y extraer características relevantes mediante técnicas clásicas y redes neuronales.
  • Utilizar modelos avanzados de IA para tareas de análisis acústico como reconocimiento de voz o detección de emociones.
  • Procesar texto y transformarlo en representaciones numéricas mediante técnicas tradicionales y modelos basados en transformers.
  • Aplicar modelos de lenguaje preentrenados para tareas como clasificación, análisis semántico o generación de texto.
  • Combinar información de distintas modalidades (imagen, audio y texto) en sistemas multimodales.
  • Utilizar librerías de Python especializadas para el tratamiento de datos multimodales.
  • Evaluar el impacto de las técnicas aplicadas en distintos casos de uso y ajustar los modelos en función de los resultados.
  • Reflexionar sobre el uso responsable de la inteligencia artificial, considerando aspectos de interpretabilidad, ética y sostenibilidad.
Contenidos y breve descripción de cada capítulo

Módulo 0 ? Introducción a la extracción de características multimodales
Presentación del curso, objetivos y metodología. Introducción al concepto de extracción de características en inteligencia artificial. Importancia del análisis multimodal en entornos reales y visión general de los contenidos y enfoque progresivo del curso.

Bloque 1 ? Imagen y vídeo

Módulo 1 ? Fundamentos y técnicas clásicas en imagen y vídeo
Introducción al tratamiento de datos visuales. Técnicas tradicionales como filtros, histogramas, detección de bordes y descriptores locales. Aplicaciones iniciales en clasificación de imágenes y análisis básico de vídeo.

Módulo 2 ? Aprendizaje profundo y tareas avanzadas en visión
Aplicación de arquitecturas modernas como CNNs, Vision Transformers y modelos generativos (p. ej. Stable Diffusion) en tareas complejas como detección de objetos, segmentación semántica, análisis de poses o generación de contenido visual.

Módulo 3 ? Práctica en visión por computador con Python
Exploración práctica de las técnicas anteriores mediante notebooks preparados. Uso de librerías python para aplicar modelos en imágenes y vídeo.

Bloque 2 ? Audio

Módulo 4 ? Fundamentos y técnicas clásicas en audio
Procesamiento de señales acústicas. Extracción de características como MFCC, espectrogramas o cromagramas. Aplicaciones en clasificación de sonidos y detección de eventos acústicos simples.

Módulo 5 ? Aprendizaje profundo y modelos avanzados en audio
Uso de modelos como más avanzados en audio para reconocimiento de voz, clasificación de ambientes sonoros, detección de emociones o separación de fuentes.

Módulo 6 ? Práctica en procesamiento de audio con Python
Ejercicios guiados en notebooks que aplican las técnicas anteriores. Uso de librerías como Librosa, torchaudio y modelos preentrenados para experimentación directa.

Bloque 3 ? Texto

Módulo 7 ? Fundamentos y técnicas clásicas en texto
Introducción al procesamiento de lenguaje natural. Técnicas clásicas como tokenización, TF-IDF y Bag of Words. Aplicaciones iniciales como análisis de sentimiento o clasificación de texto.

Módulo 8 ? Aprendizaje profundo en procesamiento de texto
Uso de modelos como BERT, RoBERTa o GPT para tareas avanzadas: generación, resumen automático, extracción de entidades, entre otras.

Módulo 9 ? Práctica en NLP con Python
Aplicación práctica con notebooks que implementan los modelos y técnicas anteriores. Uso de librerías como Transformers y scikit-learn, NLTK para manipulación y análisis de texto.

Bloque 4 ? Multimodalidad

Módulo 10 ? Multimodalidad e integración de modalidades
Síntesis de conocimientos sobre imagen, audio y texto. Introducción a arquitecturas multimodales (CLIP, Data2Vec, SAM, Flamingo) y su capacidad para combinar información de distintas fuentes. Análisis de aplicaciones y limitaciones actuales.

Elementos multimeda e innovadores

El curso está diseñado para ofrecer una experiencia formativa moderna, accesible y altamente interactiva. Para ello, se utilizarán diversos recursos multimedia e innovadores que permiten combinar teoría y práctica de forma eficaz y adaptada a diferentes niveles de conocimiento técnico. Los alumnos necesitarán un ordenador con conexión a internet para acceder a los contenidos, consultar recursos web y trabajar de forma práctica en la nube, principalmente mediante entornos como Google Colab, aunque también se facilitarán alternativas locales si el alumno desea ejecutarlas en su propio equipo. Uno de los elementos clave es el uso de cuadernos interactivos en Google Colab, especialmente preparados por el profesorado, que permiten:

  • Ejecutar el código directamente sin necesidad de instalaciones locales.
  • Visualizar resultados en tiempo real (gráficas, imágenes, espectrogramas, etc.).
  • Manipular parámetros y experimentar con los modelos sin conocimientos avanzados de programación.
  • Trabajar con datasets reales y preprocesados incluidos directamente en los notebooks.

Además, se integrarán diversos elementos interactivos e innovadores que facilitan un aprendizaje progresivo, visual y aplicado. Entre ellos destacan:

  • Visualizaciones dinámicas, que permiten observar cómo se representan y transforman los datos en cada modalidad, facilitando la comprensión de conceptos abstractos.
  • Ejercicios interactivos, que ofrecen la posibilidad de trabajar con distintos tipos de datos (imagen, audio, texto) y aplicar técnicas de extracción de características en contextos diversos.
  • Simulaciones guiadas, diseñadas para seguir paso a paso el funcionamiento de los algoritmos, ayudando a consolidar la teoría a través de la práctica.
  • Vídeos explicativos breves, que refuerzan los contenidos clave de cada módulo y muestran de forma clara cómo implementar y probar las técnicas estudiadas.

Estos recursos están pensados para fomentar el aprendizaje activo, mejorar la asimilación de los contenidos y permitir que los participantes avancen con autonomía en la aplicación práctica de los conocimientos adquiridos.

Destinatarios

El curso está dirigido a estudiantes, profesionales e investigadores que deseen iniciarse o actualizarse en el campo del procesado de datos multimedia y su aplicación en inteligencia artificial. Está especialmente orientado a aquellos perfiles que, habiendo trabajado previamente con datos tabulares o estructurados, desean ampliar sus competencias hacia el análisis de datos complejos como imágenes, vídeos, audio y texto, cada vez más presentes en entornos reales de ingeniería, ciencia de datos, salud, industria o tecnologías digitales. También resulta adecuado para quienes estén comenzando en el ámbito del aprendizaje automático o el deep learning, y quieran entender cómo tratar distintos tipos de datos para aplicar modelos de IA de forma eficaz y fundamentada. El curso proporciona una formación progresiva y práctica, lo que lo hace accesible tanto para quienes se están iniciando como para aquellos que ya cuentan con experiencia básica y desean profundizar en técnicas modernas, como redes neuronales, modelos generativos o arquitecturas multimodales. Esta formación responde a una demanda creciente de actualización y reciclaje en el ámbito de la ingeniería y la ciencia de datos, motivada por la expansión del uso de IA en entornos profesionales reales donde el análisis multimodal se está convirtiendo en un estándar de facto.

Actividades de evaluación

Módulo 0

Cuestionario inicial de autoevaluación para conocer el nivel previo del alumnado.

Bloque 1 ? Imagen y vídeo

Módulo 1

Test con preguntas teóricas sobre conceptos básicos de visión por computador.

Módulo 2

Test sobre arquitecturas y tareas avanzadas en imagen y vídeo.

Módulo 3

Test práctico basado en notebooks. Preguntas sobre la ejecución, modificación y resultados de las técnicas aplicadas.

Bloque 2 ? Audio

Módulo 4

Test sobre teoría del procesamiento de audio y extracción clásica de características.

Módulo 5

Test sobre arquitecturas y tareas avanzadas con modelos de audio.

Módulo 6

Test práctico centrado en notebooks de audio: interpretación de código, resultados y posibilidad de adaptación.

Bloque 3 ? Texto

Módulo 7

Test sobre teoría del NLP clásico: representación del texto, vectorización y análisis básico.

Módulo 8

Test sobre arquitecturas modernas de NLP.

Módulo 9

Test práctico a partir de notebooks de NLP. Interpretación, modificación y análisis de resultados en tareas de texto.

Bloque 4 ? Multimodalidad

Módulo 10

Test de integración final. Preguntas sobre conceptos de multimodalidad, modelos combinados y reflexiones sobre su aplicación práctica.

Actividades de dinamización previstas

Durante el desarrollo del curso se promoverá una participación activa del alumnado mediante foros temáticos, espacios de discusión e intercambio de ideas en torno a cada uno de los bloques del curso (imagen, audio, texto y multimodalidad). Estos foros permitirán no solo resolver dudas técnicas o conceptuales, sino también compartir inquietudes, descubrimientos y reflexiones sobre las aplicaciones reales de los métodos aprendidos. Se habilitarán además canales específicos para comentar novedades del ámbito de la inteligencia artificial aplicada, así como los avances en modelos y arquitecturas relevantes, fomentando así la actualización continua y el aprendizaje colaborativo. Como parte central del enfoque práctico del curso, los participantes trabajarán con notebooks interactivos en Python que combinan teoría, ejemplos funcionales y visualizaciones dinámicas. Estas actividades permiten al estudiante experimentar directamente con los modelos y técnicas propuestas, e incluso adaptar los códigos a sus propios datos. Esta forma de trabajo favorece tanto la autonomía del alumno como el aprendizaje exploratorio, incluso en perfiles sin experiencia previa en programación. Finalmente, se propondrán cuestionarios y retos prácticos que permitirán consolidar el aprendizaje y verificar la adquisición de competencias clave a lo largo de cada módulo, incluyendo una actividad final integradora centrada en un proyecto con datos multimodales.