JS2025: XXXV JORNADAS SARTECO 2025
PROGRAM FOR WEDNESDAY, JUNE 25TH
Days:
next day
all days

View: session overviewtalk overview

11:00-12:30 Session 1A: Procesamiento de imágenes y Visión por computador
11:00
Paralelismo en el procesamiento de imágenes en tiempo real sobre arquitecturas heterogéneas usando el patrón publicación/suscripción

ABSTRACT. El procesamiento de imágenes en tiempo real es esencial en aplicaciones como visión por computador, realidad aumentada y sistemas de vigilancia, donde la eficiencia y la baja latencia son críticas. Para satisfacer estas exigencias, las arquitecturas heterogéneas que combinan CPUs y GPUs se han convertido en una solución clave. En este trabajo, se propone el uso del patrón arquitectónico publicación/suscripción para mejorar el paralelismo en el procesamiento de imágenes, optimizando la escalabilidad y el rendimiento en entornos heterogéneos. La metodología se valida en un sistema de inspección superficial que requiere la ejecución en tiempo real de tareas como interpolación Bayer, compensación de intensidad, mejora de contraste y detección de defectos mediante un modelo de aprendizaje profundo. Los resultados muestran que la estrategia propuesta no solo cumple con las restricciones de tiempo real, sino que también ofrece una solución flexible y eficiente.

11:18
Estudio preliminar del registro de alta precisión de imágenes multitemporales de observación terrestre

ABSTRACT. El creciente uso de varias imágenes multidimensionales de teledetección para una misma zona geográfica con el objetivo de realizar procesos de observación terrestre hace imprescindible realizar un alineamiento previo de dichas imágenes. El alineamiento, conocido también como registro, consiste en, dadas dos imágenes, explotar la información espacial y espectral de la zona capturada para obtener la transformación geométrica que permita alinear una imagen respecto de la otra. En este artículo se propone un análisis previo del registro de alta precisión de imágenes multitemporales basado en la combinación de métodos ya existentes en la literatura. Se realizará sobre imágenes multiespectrales de alta resolución espacial capturadas en diferentes fechas. Las imágenes presentan diferentes condiciones de captura tanto lumínicas como de inclinación que suponen un reto en cuanto a su registro. Mediante una evaluación sistemática de los métodos disponibles en la literatura seleccionamos los más adecuados para ser aplicados de manera consecutiva. Se mide la calidad del registro mediante la evaluación de su precisión, la robustez ante solapamientos de imágenes y el tiempo de ejecución. Finalmente se selecciona la combinación de métodos que proporciona la más alta precisión de registro.

11:36
Aceleración de Operaciones Convolucionales en GPU mediante Triton

ABSTRACT. Las operaciones convolucionales son fundamentales en tareas de visión por computadora, procesamiento de señales y aprendizaje profundo. Sin embargo, su alto costo computacional las convierte en un cuello de botella en entornos donde la eficiencia es crítica. En este trabajo, exploramos la optimización de convoluciones en unidades de procesamiento gráfico (GPU) utilizando Triton, un lenguaje y compilador diseñado para facilitar la escritura de kernels eficientes sin necesidad de programación en CUDA o OpenCL. Se presentan estrategias para la optimización del acceso a memoria, la reducción de latencia mediante paralelismo masivo y la vectorización eficiente. Evaluamos el rendimiento de nuestras implementaciones en comparación con soluciones convencionales, demostrando mejoras significativas en velocidad de ejecución y uso eficiente de recursos. Estos resultados confirman el potencial de Triton para la aceleración de cargas de trabajo intensivas en cómputo, ofreciendo una alternativa flexible y de alto rendimiento para el desarrollo de kernels personalizados en GPU.

11:54
Estrategias de Aceleración del Flujo de procesos en Procesadores Gráficos

ABSTRACT. La visión por computador es una disciplina clave en entornos industriales con estrictos requisitos de tiempo real, donde la eficiencia computacional es fundamental. Vision System (VS) es un software desarrollado para la inspección de frutas, ejecutándose en plataformas multinúcleo de alto rendimiento basadas en arquitecturas x86. En particular, la plataforma YYY, utilizada en este estudio, cuenta con un procesador Intel y gestiona la carga de E/S mediante oversubscription de hilos. Sin embargo, a pesar del alto grado de paralelismo, el rendimiento del sistema sigue estando limitado por la carga computacional de la CPU.

Este trabajo aborda la optimización del flujo de procesamiento de VS mediante la migración de etapas a unidades de procesamiento gráfico (GPU) de NVIDIA, con el objetivo de reducir el coste computacional y mejorar la eficiencia del sistema. Se han desarrollado tres estrategias: implementación de kernels CUDA optimizados para reducir tiempos de ejecución, desarrollo de kernels ligeros para minimizar las transferencias de datos entre CPU y GPU, y mejoras en la interacción entre ambas unidades de procesamiento.

Los resultados obtenidos muestran una reducción significativa en el tiempo de análisis de imágenes, lo que mejora la precisión de clasificación y disminuye la cantidad de imágenes descartadas. Además, estas optimizaciones reducen costes operativos y permiten la integración de nuevas cámaras sin modificar el hardware.

12:12
Evaluación de modelos de DL para nubes de puntos 3D en aplicaciones de automoción en tiempo real

ABSTRACT. Este trabajo presenta una evaluación de la precisión, el rendimiento y el consumo de recursos de modelos de Deep Learning para nubes de puntos 3D orientados a aplicaciones de automoción en tiempo real. En concreto, se han evaluado los modelos PointNet, PointNet++, PointPillars y PointRCNN en la tarea de clasificación. Para ello, se han desarrollado dos aplicaciones: un pipeline con ROS2 para la identificación, clasificación y seguimiento de objetos en tiempo real; y una herramienta de evaluación que permite comparar modelos en función de un conjunto de métricas configurables. Los resultados obtenidos, utilizando el dataset KITTI y bajo las condiciones empleadas en este estudio, señalan a PointPillars como el modelo mejor balanceado en cuanto a rendimiento y precisión. Por su parte, PointRCNN se posiciona como el más preciso, mientras que PointNet destaca por ofrecer el menor tiempo de inferencia. Con respecto al uso de recursos, aunque PointRCNN y PointPillars son modelos significativamente más pesados, presentan un consumo de memoria por objeto inferior al de PointNet y PointNet++ durante el procesamiento. Por último, todos los modelos requirieron aceleración mediante GPU para completar la tarea de inferencia dentro de las condiciones de tiempo real establecidas en el pipeline desarrollado.

11:00-12:30 Session 1B: Computación Cuántica (Quantum Computing)
11:00
Propuesta de paralelización para ordenadores cuánticos

ABSTRACT. Los avances en el campo de las tecnologías cuánticas están abriendo el camino a una multitud de aplicaciones potenciales en distintos sectores. Sin embargo, el número reducido de ordenadores cuánticos disponibles, sus limitaciones técnicas, los altos costes de ejecución asociados y la alta demanda de uso, están generando desafíos para desarrolladores e investigadores. Al ejecutar circuitos cuánticos en estos procesadores, los desarrolladores se enfrentan a extensos tiempos de espera en las colas de tareas. En este contexto, este trabajo propone una técnica de paralelización de circuitos para reducir el número de tareas en las colas y maximizar el uso de las computadoras cuánticas. Esta propuesta permite paralelizar circuitos de diferentes desarrolladores en combinaciones que se ejecutan simultáneamente. Para validar la viabilidad tecnológica de la propuesta, se han tomado un amplio conjunto de circuitos, utilizados en los principales benchmarks, y se han lanzado para su ejecución en diferentes ordenadores cuánticos reales realizando tres experimentos. La evaluación de la propuesta refleja una media de reducción de tiempos de 90.62%, un 94.67% en reducción de tareas y un 89.67% en reducción de costes, verificando así su aplicabilidad y viabilidad.

11:18
CUNQA: una plataforma de computación cuántica distribuida en entornos HPC

ABSTRACT. La dificultad de aumentar el número de qubits de una QPU junto con la creciente propuesta de usar computadores cuánticos como aceleradores en un entorno HPC pone de manifiesto la importancia de la computación cuántica distribuida. La plataforma CUNQA presentada en este artículo apunta en esa dirección: permite el despliegue de una infraestructura para la ejecución distribuida de circuitos cuánticos en QPU virtuales empleando recursos clásicos de un entorno HPC.

11:36
Accelerating MCMC with Quantum Walks: Design, Implementation, and Early Results

ABSTRACT. Markov Chain Monte Carlo (MCMC) methods are algorithms for sampling probability distributions, often applied to the Boltzmann distribution in physical and chemical models, such as protein folding and the Ising model. These methods enable the study of such systems by sampling their most probable states. However, sampling multidimensional and multimodal distributions with MCMC demands significant computational resources, leading to the development of techniques aimed at improving sampling efficiency. In this context, quantum computing, with its potential to accelerate classical methods, emerges as a promising solution to the sampling problem. In this work, we present the design and implementation of a novel MCMC algorithm (QMCMC) based on the Discrete Quantum Walk (DQW) algorithm. We test several Gaussian distributions, including mixtures, and demonstrate that although its convergence rate is slow, it effectively captures the structure of the target distribution by leveraging quantum superposition.

11:54
Predicción de la variabilidad temporal de las tasas de error en procesadores cuánticos superconductores

ABSTRACT. Múltiples capas un sistema cuántico requieren datos sobre las variaciones temporales en las tasas de error de los elementos físicos. La ausencia de esta información, especialmente en sistemas cuánticos basados en la nube donde existen tiempos de espera entre la compilación y la ejecución, puede derivar en cálculos poco fiables debido al uso de datos de calibración desactualizados. Un ejemplo de ello es el proceso de compilación, que influye en la tasa de éxito de los circuitos cuánticos.

Este artículo propone el uso de cinco modelos de aprendizaje automático y series temporales para predecir la variabilidad en las tasas de error, a partir de datos de calibración, de las puertas cuánticas de dos qubits. La información predicha se incorpora a un compilador (que tiene en cuenta el ruido) para evaluar su impacto en la tasa de éxito. Se analizan la precisión y la complejidad computacional (medida en términos de tiempo de ejecución) de los modelos. Los resultados experimentales, obtenidos en un procesador cuántico superconductor real, demuestran la capacidad del enfoque propuesto para predecir con precisión la variabilidad temporal de las tasas de error, logrando un rendimiento comparable al de los datos de calibración en tiempo real y reduciendo el impacto de los tiempos de espera en la cola, que pueden alcanzar hasta dos días.

12:12
NetQIR: diseño de una representación intermedia para la computación cuántica distribuida

ABSTRACT. El rápido avance de la computación cuántica ha puesto de manifiesto la necesidad de una infraestructura software escalable y eficiente para explotar plenamente su potencial. Los procesadores cuánticos actuales se enfrentan a importantes restricciones de escalabilidad debido al limitado número de qubits por chip. Por ello, la computación cuántica distribuida (DQC), que se consigue conectando en red varias unidades de procesamiento cuántico (QPU), se perfila como una solución prometedora. Para dar soporte a este paradigma, se necesitan representaciones intermedias (IR) robustas que traduzcan los algoritmos cuánticos de alto nivel en instrucciones ejecutables adecuadas para los sistemas distribuidos. Este artículo presenta NetQIR, una extensión de la representación intermedia cuántica (QIR) de Microsoft, diseñada específicamente para facilitar el DQC mediante la incorporación de nuevas especificaciones de instrucciones. NetQIR se desarrolló en respuesta a la falta de abstracción en las capas de red y hardware identificada en la literatura existente como un obstáculo significativo para implementar eficazmente algoritmos cuánticos distribuidos. Basándose en este análisis, NetQIR introduce nuevas características de abstracción esenciales para apoyar a los compiladores en contextos DQC. Se definen instrucciones de comunicación en red independientes del hardware específico, abstrayendo las complejidades de la comunicación entre QPU. Aprovechando el marco QIR, NetQIR pretende salvar la distancia entre el diseño de algoritmos cuánticos de alto nivel y la ejecución de hardware de bajo nivel, promoviendo así enfoques modulares y escalables de las infraestructuras de software cuántico para la distribución de datos.

11:00-12:30 Session 1C: IoT y Sensores
11:00
Plataforma de supervisión y control de estaciones ambientales e IoTs

ABSTRACT. Este proyecto tiene como objetivo desarrollar una herramienta web para la supervisión de la calidad del aire, proporcionando información en tiempo real sobre los niveles de contaminantes. La plataforma muestra el Índice de Calidad del Aire (ICA), junto con indicadores visuales que permiten ver los valores de los contaminantes que componen dicho índice. Además, incluye gráficos y estadísticas sobre promedios horarios, diarios y anuales, facilitando el análisis detallado de la calidad del aire. También se ofrece una sección que permite monitorizar el cumplimiento de los valores límite establecidos para los contaminantes según la normativa vigente, alertando a los usuarios cuando estos valores son superados. La interfaz es intuitiva y está diseñada para proporcionar a los usuarios información relevante de manera clara y accesible. Además, esta herramienta está diseñada para combinar los datos proporcionados por las estaciones de control medioambiental existentes con datos provenientes de sensores IoT desarrollados para este proyecto.

11:18
Computación Privada CKKS Eficiente en GPU

ABSTRACT. Los esquemas de Cifrado Homomórfico Total (Fully Homomorphic Encryption o FHE) como CKKS pueden garantizar la privacidad en entornos de computación en la nube tales como Machine-Learning-as-a-Service (MLaaS). OpenFHE es la biblioteca estándar de FHE en CPU, pero su rendimiento, incluso aprovechando las extensiones AVX, sigue siendo insuficiente para su uso práctico en servidores. Aunque otras bibliotecas FHE están aceleradas con soporte para GPU, adaptar OpenFHE a GPU no lograráa la aceleración necesaria debido a su arquitectura multi-esquema y multi-backend, que inevitablemente sacrifica rendimiento por versatilidad. Para dar soporte eficiente a CKKS en GPU, satisfaciendo al mismo tiempo los parámetros de seguridad robustos de OpenFHE, presentamos FIDESlib. FIDESlib es la primera biblioteca de GPU optimizada para CKKS en servidores, de código abierto y completamente inter-operable con las operaciones de cliente de OpenFHE. A diferencia de otras propuestas, FIDESlib da soporte eficiente a todas las operaciones CKKS, incluyendo el bootstrapping, e incorpora herramientas de testeo y benchmarking exhaustivas, lo que garantiza su corrección funcional y facilidad de extensión. Nuestros experimentos demuestran que FIDESlib supera en rendimiento y escalabilidad a la biblioteca de código abierto del estado del arte, Phantom. Además, para la operación de bootstrapping, nuestra biblioteca alcanza una aceleración de 74× frente a la implementación más optimizada de OpenFHE basada en AVX. FIDESlib está disponible en el siguiente enlace https://github.com/CAPS-UMU/FIDESlib

11:36
Arquitectura segura para la trazabilidad basada en IoT y blockchain

ABSTRACT. La integración del Internet de las Cosas (IoT) con la tecnología blockchain ofrece una solución innovadora para mejorar la trazabilidad, seguridad y eficiencia en la gestión de residuos. En este trabajo se propone una arquitectura híbrida que emplea el protocolo MQTT para la comunicación eficiente entre dispositivos IoT y blockchain para garantizar la inmutabilidad y trazabilidad de los datos almacenados en un Data Lake. Se presenta un caso de uso relacionado con el seguimiento y trazabilidad del destino final de residuos, donde la implementación de este sistema permite registrar y verificar la información en tiempo real mediante contratos inteligentes. Los resultados obtenidos validan la viabilidad de la propuesta, destacando su capacidad para facilitar auditorías transparentes, optimizar la supervisión operativa y asegurar la integridad de los datos. Estas conclusiones abren la puerta a futuras implementaciones en entornos urbanos e industriales, consolidando un modelo replicable.

11:54
Poda 2:4 en Transformadores para Dispositivos de Borde

ABSTRACT. El despliegue eficiente de modelos de aprendizaje profundo en dispositivos de borde es crucial para aplicaciones en tiempo real. Aunque la poda estructurada 2:4 ha sido estudiada en GPUs de alto rendimiento, su viabilidad en dispositivos de borde ha recibido menos atención, pese a sus beneficios potenciales en entornos con recursos limitados. Este trabajo analiza su impacto en desempeño, eficiencia energética y precisión en la plataforma Nvidia Jetson Orin, aprovechando sus núcleos de tensores dispersos para evaluar su aplicabilidad en computación en el borde. Se realizan experimentos exhaustivos en tres modelos basados en transformadores, midiendo latencia de inferencia, consumo de energía y precisión predictiva. Los resultados muestran que, si bien la poda 2:4 no mejora significativamente el rendimiento absoluto, sí reduce el consumo energético, lo que se traduce en un mayor rendimiento por vatio y una mayor eficiencia global del sistema. Además, aunque se observan pérdidas discretas de precisión, estas pueden mitigarse ajustando el criterio de poda. También se logra una reducción aceptable del tamaño del modelo comprimido, reforzando su utilidad en entornos con recursos limitados. Estos hallazgos proporcionan información valiosa sobre los compromisos de la optimización basada en dispersión y ofrecen directrices para el despliegue de modelos de alto rendimiento en escenarios con restricciones de hardware.

12:12
Sincronización Práctica de Sensores Distribuidos: Diseño de un Sistema de Bajo Coste para la Captura de Datos de Caídas

ABSTRACT. Se ha diseñado un experimento para capturar un conjunto de datos sobre caídas de personas mayores utilizando múltiples sensores heterogéneos, incluyendo cámaras RGB-D y sensores inerciales. Para facilitar el etiquetado temporal de los eventos registrados, se requería una sincronización precisa entre todos los dispositivos, con un objetivo de precisión inferior a 50 ms, dado que la duración típica de una caída es de unos 500 ms. Se implementó una arquitectura distribuida de bajo coste basada en red local, donde un ordenador central ejercía como servidor de tiempo y coordinador de las grabaciones mediante comunicación TCP/IP. La solución, complementada con supervisión activa y sincronizaciones manuales mediante NetTime, permitió mantener una precisión media inferior a 15 ms, garantizando la coherencia temporal del dataset sin necesidad de hardware especializado.

11:00-12:30 Session 1D: JCER1 - Redes Neuronales en Hardware (FPGA/GPU)
11:00
Modelo computacional de memoria bioinspirado en el Hipocampo: aproximación a una Memoria Direcionable por Contenido neuromórfica basada en Redes Neuronales Pulsantes

ABSTRACT. El cerebro posee capacidades computacionales que superan a las de los sistemas modernos, siendo capaz de resolver problemas complejos de manera eficiente y sencilla. La ingeniería neuromórfica tiene como objetivo imitar la biología para desarrollar nuevos sistemas capaces de incorporar tales capacidades. Los sistemas de aprendizaje bioinspirados continúan siendo un desafío que debe resolverse, y aún queda mucho trabajo por hacer en este sentido. Entre todas las regiones del cerebro, el hipocampo destaca como una memoria autoasociativa a corto plazo con la capacidad de aprender y recordar recuerdos a partir de cualquier fragmento de los mismos. Estas características hacen del hipocampo un candidato ideal para desarrollar sistemas de aprendizaje bioinspirados que, además, se asemejan a las memorias direccionables por contenido. Por lo tanto, en este trabajo proponemos un modelo de memoria direccionable por contenido basado en eventos bioinspirado en la región CA3 del hipocampo con la capacidad de aprender, olvidar y recordar recuerdos, tanto ortogonales como no ortogonales, a partir de cualquier fragmento de los mismos. El modelo se implementó en la plataforma hardware SpiNNaker haciendo uso de las Redes Neuronales Pulsantes. Se realizó un conjunto de experimentos basados en pruebas funcionales, de estrés y de aplicabilidad para demostrar su correcto funcionamiento. Este trabajo presenta la primera implementación hardware de un modelo de memoria direccionable por contenido basado en eventos bioinspirado en el hipocampo y completamente funcional, allanando el camino para el desarrollo de futuros sistemas neuromórficos más complejos.

11:18
Mantenimiento Predictivo en Sistemas de Refrigeración Industrial usando Redes Neuronales Recurrentes Pulsantes en FPGA

ABSTRACT. En este estudio, se ha implementado una red neuronal pulsante recurrente (RSNN) en un acelerador desplegado en un circuito reconfigurable (FPGA) para predecir el Factor de Ensuciamiento del Condensador (CFF) en un Sistema de Refrigeración Industrial como una medida de mantenimiento predictivo (PdM). Este sistema opera a través de un dispositivo de bajo consumo utilizando computación en el borde, dirigido a aplicaciones AIoT/EdgeAI. Puede identificar con precisión niveles de CFF que superan el 25 % basándose en varios datos de sensores de presión y temperatura distribuidos en el sistema de refrigeración, logrando una precisión superior al 90 % con una arquitectura de 256 neuronas paralelas y recurrentes en la capa oculta. El modelo fue entrenado utilizando un conjunto de datos propietario que registró los estados de los sensores durante experimentos controlados donde el condensador fue obstruido manualmente en diferentes porcentajes de cobertura. La principal ventaja de emplear técnicas RSNN en hardware radica en su doble capacidad: en primer lugar, están diseñadas para detectar patrones de señales temporales, y en segundo lugar, su capacidad de entrenamiento permite adaptarse a varias aplicaciones en diferentes contextos. El entrenamiento, en el caso del acelerador particular utilizado en este trabajo, se realiza en el hardware, sin requerir máquinas que consuman excesiva energía.

11:36
Caracterización de un procesador convolucional pulsante sobre FPGA

ABSTRACT. La visión artificial encuentra en el procesamiento neuromórfico basado en eventos, una alternativa eficiente capaz de optimizar recursos computacionales y energéticos, al inspirarse en la dinámica de los sistemas neuronales biológicos. En el desarrollo de sistemas de procesamiento en tiempo real, es clave representar visualmente la información captada por los sensores y explorar su contenido con precisión. Así, se implementan modelos de aprendizaje automatizado que pueden ser desplegados en dispositivos hardware de limitadas capacidades según la finalidad a lograr, garantizando un ahorro de recursos computacionales. En este trabajo, se persigue evaluar por un lado, el comportamiento del modelo de neurona usado, y por otro, el rendimiento de un procesador convolucional pulsante, a partir de la aplicación de filtros de Sobel sobre grabaciones muestrales del dataset MNIST-DVS. Para ello, se resumen las característcas del modelo neuronal LIF utilizado y los detalles de su implementación en un diseño hardware, a partir de parámetros configurables. Los resultados obtenidos en base a la configuración que mostró el mejor rendimiento, todavía son mejorables en cuanto al índice de similitud entre el modelo teórico y el procesador convolucional, determinado por las métricas evaluadas.

11:54
Sistema de Bajo Coste para la Monitorización del Consumo del Agua

ABSTRACT. Este artículo presenta un sistema para la monitorización remota del consumo de agua, que pretende abordar las limitaciones de los contadores tradicionales. En concreto, se propone un dispositivo IoT de bajo coste, alimentado por batería y con conectividad LoRaWAN, capaz de capturar y enviar imágenes de los contadores a un servidor para su procesamiento mediante OCR. La idea principal es poder obtener las lecturas de los consumos de agua, sin necesidad de intervención humana, ni del despliegue de dispositivos mucho más caros.

El sistema utiliza una red neuronal U-Net para la segmentación de los dígitos y una red Faster R-CNN para su reconocimiento, logrando una alta precisión, incluso en condiciones adversas. Las pruebas demuestran la viabilidad del sistema, tanto por la precisión alcanzada en las lecturas, como un consumo energético optimizado que permite una autonomía cercana a los 4 años.

12:12
Hacia la evaluación en software de la robustez de aceleradores hardware para CNN cuantizadas

ABSTRACT. Gracias a su bajo consumo de memoria y energía, así como a su mayor velocidad de ejecución, las redes neuronales convolucionales cuantizadas son especialmente adecuadas para sistemas empotrados que realizan análisis de imágenes. Estos beneficios aumentan al implementarse sobre aceleradores hardware, generados a partir de modelos software mediante herramientas de síntesis de alto nivel y automatización de diseño electrónico. En sistemas críticos, donde se requieren garantías de seguridad funcional, resulta imprescindible evaluar la robustez de estos aceleradores frente a fallos accidentales y maliciosos que pueden alterar su comportamiento nominal durante su ciclo de vida. Realizar dicha evaluación en fases tempranas del desarrollo de la red reduce costes, pero los modelos software disponibles en dichas etapas rara vez reflejan con precisión el comportamiento del hardware. Este trabajo propone una metodología de inyección de fallos, diseñada para modelos software de redes neuronales convolucionales cuantizadas, que busca reproducir fielmente los efectos que los bit-flips pueden tener en el proceso de inferencia de la red una vez que ésta es implementada sobre un acelerador hardware. La metodología se valida con una versión cuantizada de LeNet descrita en Python. Esta contribución sienta las bases para una evaluación temprana y representativa de la robustez de redes convolucionales cuantizadas, con el objetivo de facilitar el diseño diseño de soluciones futuras de inteligencia artificial embebida más seguras y confiables.

12:30-14:00 Session 2A: Computación Distribuida y Aprendizaje
12:30
Despliegue de Aprendizaje Federado semiasíncrono sobre una infraestructura distribuida de bajo coste

ABSTRACT. El aprendizaje automático ha evolucionado significativamente en los últimos años, expandiendo su aplicación a entornos de Internet de las Cosas (IoT), donde estas técnicas poseen un gran potencial en sectores como la mejora de diagnósticos médicos, el reconocimiento facial o la clasificación de imágenes. En este contexto, el paradigma de Federated Learning (FL) permite entrenar modelos distribuidos sin extraer datos sensibles fuera del dominio de sus propietarios, manteniendo así la privacidad y seguridad de los datos.

Este trabajo propone una implementación de FL semiasíncrono sobre una infraestructura de computación en la niebla de bajo coste, específicamente diseñada para integrar clientes con recursos computacionales limitados. La contribución principal es analizar el rendimiento de esta arquitectura en términos de eficiencia computacional, convergencia del modelo y consumo de recursos. Se presenta una evaluación comparativa entre el enfoque semiasíncrono y el modelo síncrono tradicional de FL, demostrando las ventajas del primero en escenarios con restricciones de hardware. Los resultados obtenidos proporcionan directrices valiosas para la implementación de sistemas FL en infraestructuras distribuidas de bajo coste, abriendo nuevas posibilidades para aplicaciones IoT en sectores como salud, industria y ciudades inteligentes.

12:48
GLow - A Novel, Flower-Based Simulated Gossip Learning Strategy

ABSTRACT. Fully decentralized learning algorithms are still in an early stage of development. Creating modular Gossip Learning strategies is not trivial due to convergence challenges and Byzantine faults intrinsic in systems of decentralized nature. Our contribution provides a novel means to simulate custom Gossip Learning systems by leveraging the state-of-the-art Flower Framework. Specifically, we introduce GLow, which will allow researchers to train and assess scalability and convergence of devices, across custom network topologies, before making a physical deployment. The Flower Framework is selected for being a simulation featured library with a very active community on Federated Learning research. However, Flower exclusively includes vanilla Federated Learning strategies and, thus, is not originally designed to perform simulations without a centralized authority. GLow is presented to fill this gap and make simulation of Gossip Learning systems possible. Results achieved by GLow in the MNIST and CIFAR10 datasets, show accuracies over 0.98 and 0.75 respectively. More importantly, GLow performs similarly in terms of accuracy and convergence to its analogous Centralized and Federated approaches in all designed experiments.

13:06
Containerized Distributed Computing for Rapid AI Inference: A Case Study in Provincial-Scale Data Efficiency

ABSTRACT. The field of AI and the use of statistical models to derive insights from data are profoundly impacting society, highlighting that data is the oil of the 21st century. Remarkably, training or running these models does not always require extensive infrastructure.

We will demonstrate how, by applying the appropriate techniques, a statistical model can be run locally using data from an entire province. Initially, the analysis took 39 days to complete on a single node. However, by optimizing data ingestion and processing through vector operations powered by distributed computing, we can reduce this time to just 22 hours. Moreover, the processing time can be further reduced proportionally by adding more nodes, managed within a Kubernetes cluster.

By optimizing the models and utilizing a distributed, container-based architecture, we can analyze larger volumes of data more efficiently. This approach not only extends the use of our infrastructure but also facilitates migration to the cloud if needed.

13:24
Hacia escalabilidad extrema en aplicaciones iterativas de tipo stencil

ABSTRACT. Los grandes sistemas de cómputo pre- y exaescala necesitan soluciones para desarrollar y ejecutar aplicaciones con enormes capacidades de escalabilidad. Esto implica en un caso general abstraer y fusionar capas de portabilidad entre dispositivos heterogéneos y/o aceleradores con mecanismos que permitan solapar cómputo y comunicación de forma muy eficiente. Una clase importante de aplicaciones científicas con un alto potencial de escalabilidad son las aplicaciones ISL (Iterative Stencil Loop). EPSILOD es una herramienta para simplificar el desarrollo y ejecución de aplicaciones ISL en entornos heterogéneos distribuidos. En este trabajo se proponen mejoras y extensiones para una nueva versión de EPSILOD que amplían el rango de aplicaciones que se pueden construir y la eficiencia de los mecanismos de implementación y comunicación para conseguir un alto grado de escalabilidad en sistemas de cómputo de primer nivel. Se presentan resultados experimentales, con hasta 1024 GPUs distribuidas en 256 nodos, que indican que la nueva versión de EPSILOD puede conseguir altos niveles de escalabilidad fuerte y débil en diferentes tipos de escenarios y aplicaciones ISL. Se incluye una comparación experimental con otras herramientas del estado del arte que permiten implementar fácilmente aplicaciones ISL distribuidas: Muesli y Celerity basado en SYCL. Los resultados muestran que EPSILOD permite mejorar sus medidas de rendimiento, especialmente en altos niveles de escalabilidad.

13:42
Implementación Paralela y Distribuida de Desmezclado Hiperespectral Usando Distancias Geométricas

ABSTRACT. La mezcla hiperespectral es una tarea clave en el análisis de imágenes hiperespectrales que consiste en identificar píxeles puros (endmembers), extraer sus firmas espectrales y estimar sus proporciones (abundancias) en cada píxel de la escena. Sin embargo, los métodos tradicionales presentan limitaciones de escalabilidad y eficiencia al tratar con grandes volúmenes de datos. Este artículo propone un nuevo enfoque llamado DPGD (Distributed Parallel Geometric Distance), que emplea medidas de distancia geométrica en un entorno distribuido y paralelo basado en el marco MapReduce. Utilizando el modelo de programación Spark, DPGD permite distribuir la carga computacional entre varios nodos, reduciendo considerablemente el tiempo de procesamiento. La propuesta mejora la precisión en la identificación de endmembers y en la estimación de abundancias al considerar las similitudes internas de los datos. Los experimentos con imágenes hiperespectrales reales demuestran que DPGD es efectivo y competitivo frente a métodos de mezcla avanzados.

12:30-14:00 Session 2B: Arquitecturas de Red y Comunicaciones
12:30
Deadlock-free proxy routing in Dragonfly with two virtual channels

ABSTRACT. Dragonfly is becoming one of the networks of choice for high-performance computer systems as it offers a sweet spot in terms of cost, simplicity, performance, fault-tolerance and power. In a Dragonfly topology, compute nodes are connected to routers forming fully-connected groups, which are then connected to every other group. This provides very high connectivity with very low diameter, which are desired characteristics of high performance interconnection networks. However, because the topology features a large amount of cycles, it is known to be deadlock-prone. The Dally mechanism which was proposed with the topology requires 3 virtual channels when proxy routing is used. This paper investigates the design of a deadlock-avoidance virtual channel management policy that leverages specific proxy selection criteria and requires only 2 virtual channels. Our mechanism frees one virtual channel, allowing it to be repurposed for other system-level operations such as quality of service, adaptive routing, congestion control or fault tolerance. In particular, when used as an additional adaptive routing channel, we observe a positive impact on overall performance: throughput can increase up to $29\%$, while more realistic workloads from traces experienced faster execution by up to $11\%$.

12:48
LFI: una librería de comunicaciones tolerante a fallos para redes de alto rendimiento

ABSTRACT. Hoy en día, el uso de redes de alto rendimiento en supercomputadores se ha vuelto indispensable para aplicaciones de inteligencia artificial, análisis de datos y simulaciones entre otras, las cuales requieren altas velocidades de red y bajas latencias. El estándar elegido para desarrollar estas aplicaciones es MPI, ya que la mayoría de sus implementaciones ofrecen soporte para este tipo de redes. Sin embargo, algunas implementaciones de MPI presentan algunas limitaciones, como una deficiencia en la tolerancia a fallos y un modelo de inicialización rígido que resulta problemático para determinadas aplicaciones. Por otra parte, las aplicaciones que emplean sockets o RPC, no se pueden beneficiar de estas interfaces.

En respuesta a estos problemas, se ha desarrollado la biblioteca Lightweight Fabric Interface (LFI), que proporciona una interfaz de usuario muy simplificada, tolerancia a fallos y un modelo de inicialización más flexible. En comparación una de las implementaciones de MPI más conocida, MPICH, LFI ha demostrado exhibir un rendimiento y una escalabilidad superiores, junto con un consumo de recursos sustancialmente menor en aplicaciones multihilo, como demuestran las evaluaciones realizadas. Además, LFI ofrece una biblioteca de interceptación, que permite a las aplicaciones que utilizan sockets POSIX aprovechar las redes de alto rendimiento sin necesidad de modificaciones.

13:06
Extensión de un simulador de redes de interconexión y modelado de políticas de mapeo en redes Dragonfly

ABSTRACT. La red de interconexión es uno de los componentes más críticos de los supercomputadores. La elección de la topología es critica para cubrir las necesidades de prestaciones y consumo de estos sistemas. Se suelen utilizan topologías novedosas con conmutadores de alto grado como la Dragonfly. No obstante, esta topología no está exenta de problemas de contención en la red entre aplicaciones que comparten el sistema, así como entre los mensajes de la misma aplicación. Los trabajos que se ejecutan concurrentemente se ven obligados a compartir recursos generando interferencias entre ellos en las comunicaciones a través de la red. La interferencia sufrida por las aplicaciones paralelas es altamente dependiente de las políticas de mapeo de aplicaciones a nodos de procesamiento en el sistema y de la configuración de la topología utilizada. Por ello en este artículo analizamos en la topologías Dragonfly la interferencia sufrida por aplicaciones reales del dominio HPC considerando varias estrategias de mapeo de estas aplicaciones en los nodos de procesamiento y varias configuraciones de la topología Dragonfly. Además, este artículo presenta las extensiones realizadas al simulador Sauron para poder realizar un análisis exhaustivo de interferencia en la red de interconexión de altas prestaciones en aplicaciones paralelas.

13:24
Modelado y evaluación en un simulador de redes de interconexión de altas prestaciones de técnicas de planificación en destino para reducir la congestión.

ABSTRACT. La congestión representa una seria amenaza para las redes de interconexión de alto rendimiento en supercomputadoras y centros de datos, donde miles de nodos de servidor generan un tráfico masivo al ejecutar aplicaciones y servicios altamente paralelos y distribuidos. Para optimizar el rendimiento de estas infraestructuras, no solo es fundamental mejorar el hardware de cómputo y almacenamiento, sino también la red de interconexión, cuyo desempeño afecta significativamente la eficiencia global del sistema. Debido a las características estructurales de estas redes, los protocolos tradicionales presentan limitaciones en entornos de baja latencia. En este contexto, los 'protocolos de planificación de destino', como Homa, han surgido como una alternativa en la capa de transporte, mejorando la eficiencia en la transmisión de datos en redes de alto rendimiento. En este trabajo se presenta el modelado de Homa para su evaluación y comparación con múltiples protocolos considerados estado del arte en la actualidad.

12:30-14:00 Session 2C: Aplicaciones Biomédicas
12:30
Mitigando la contención por acceso a disco de un compresor paralelo de datos genómicos

ABSTRACT. La genómica ha ganado relevancia ya que permite prevenir, diagnosticar y tratar enfermedades de forma personalizada. El aumento significativo de los datos genómicos que deben almacenarse o transferirse, ha impulsado el desarrollo de algoritmos de compresión específicos que ayuden a reducir el almacenamiento requerido manteniendo un tiempo de respuesta aceptable. En particular, estos algoritmos se caracterizan por realizar gran cantidad de operaciones de E/S a disco. En este trabajo evaluamos dos algoritmos paralelos de compresión de genomas, basados en el método HRCM. El primero explota el paralelismo de sistemas multicore y escala bien al aumentar el número de cores involucrados en la compresión para colecciones pequeñas. Sin embargo, tanto el aumento del número de cores y del tamaño de la colección a comprimir, incrementan las operaciones de E/S a servir en simultáneo por el disco, provocando contención y limitando la escalabilidad. El segundo algoritmo explota el paralelismo de sistemas cluster. El objetivo del trabajo es mostrar que el uso de recursos equivalentes (cores) en forma distribuida permite mitigar la contención por E/S inherente a esta clase de algoritmos y en consecuencia mejorar la escalabilidad.

12:48
Quantum Machine Learning en la detección de problemas de hígado

ABSTRACT. El hígado, la glándula más grande del cuerpo, desempeña un papel fundamental en el procesamiento de nutrientes, la filtración de toxinas y la regulación del sistema inmunológico. El daño viral o químico puede provocar enfermedades hepáticas, afecciones graves que requieren diagnóstico y tratamiento oportunos. La detección temprana es crucial para mejorar el pronóstico de los pacientes y reducir los costos médicos. En este trabajo, presentamos primero una revisión del estado del arte de aprendizaje automático clásico y cuántico aplicados al Indian Liver Patient Dataset. Posteriormente, describimos la metodología para desarrollar 'QML-Liver', un enfoque híbrido que integra de manera eficiente técnicas de aprendizaje automático clásico y cuántico. Esto incluye el preprocesamiento de datos, el diseño del modelo y la configuración óptima de sus parámetros. Los resultados muestran que 'QML-Liver' mejora métricas clave de rendimiento, como la precisión y la exactitud, superando el mejor enfoque del estado del arte. Además, hemos reducido el número de qubits a solo uno, lo que facilita su implementación práctica. Estos hallazgos subrayan el potencial del Quantum Machine Learning en el diagnóstico médico, especialmente en el contexto de la era NISQ.

13:06
Filtrado Fuzzy 3D integrado con reconstrucción de TC de baja dosis en GPU

ABSTRACT. La Tomografía Computarizada (TC) es una herramienta diagnóstica esencial, pero su uso está limitado para muchos grupos demográficos debido al peligro que supone la radiación ionizante necesaria para conseguir imágenes de alta calidad. Cuando las adquisiciones se realizan con baja dosis, pueden aparecer artefactos y ruido en los volúmenes reconstruidos. Mediante el uso de técnicas de filtrado de imagen, este ruido puede reducirse, pero habitualmente la reducción de los artefactos requiere de técnicas costosas de reconstrucción de imagen. Este trabajo presenta una solución integral para la reducción de ruido y artefactos, mediante la combinación de algoritmos de reconstrucción (FBP y SIRT) con un método de filtrado de imagen volumétrico (F3D-FGI) en diferentes etapas de la reconstrucción. Para mantener los tiempos de ejecución bajos, el filtro volumétrico FGI fue implementado en GPU utilizando CUDA, solventando las limitaciones de memoria mediante la reducción estratégica de las ventanas volumétricas. Los datos utilizados en el estudio provienen de la base de datos DICOM CT-PD y consisten en imágenes y proyecciones adquiridas a dosis completa y a una baja dosis simulada. Los experimentos muestran que la metodología mejora la calidad de imagen significativamente, obteniendo también buenos datos de tiempo de ejecución, con el método F3D-FGI siendo capaz de filtrar un volumen reconstruido de 300x512x512 píxeles en 0.1 segundos.

13:24
Clústeres Heterogéneos para Acelerar la Planificación Automática en Radioterapia

ABSTRACT. La IMRT utiliza haces de radiación con diferentes ángulos e intensidades para eliminar tejidos cancerosos mientras trata de proteger los órganos sanos. Los métodos de planificación basados en la métrica Dosis Uniforme Equivalente producen planes con excelente cobertura tumoral, pero requieren el ajuste manual de numerosos parámetros. Para abordar esta tarea, se ha propuesto un nuevo enfoque, PersEUD, para la optimización automática de estos parámetros. Esto se logra combinando soluciones obtenidas con un algoritmo de Gradiente por Descenso, con un método de optimización evolutiva para explorar eficientemente el espacio de parámetros. Investigaciones previas han demostrado la efectividad de este enfoque para cumplir con las restricciones clínicas. Sin embargo, su alta demanda computacional dificulta su integración en la práctica clínica. El objetivo de este estudio es acelerar los procesos de optimización distribuyendo las evaluaciones en los nodos de clústeres modernos de procesadores multi-núcleos. A nivel de nodo, estas evaluaciones pueden calcularse de manera eficiente mediante una combinación de estrategias de paralelización y procesamiento por lotes. La eficiencia de las evaluaciones por lotes depende del tamaño de los mismos y de la potencia computacional del nodo, por lo que la distribución de las evaluaciones entre los nodos debe considerar estas dependencias. En este estudio, proponemos un enfoque para integrar una planificación eficiente de las evaluaciones en nodos heterogéneos de múltiples núcleos dentro de PersEUD. La propuesta ha sido ampliamente probada en ocho clústeres con nodos de tres arquitecturas de microprocesador diferentes. El conjunto de datos de prueba consistió en tres pacientes con cáncer de cabeza y cuello tratados con IMRT utilizando nueve haces. Los resultados indican que la explotación adecuada del clúster genera una aceleración significativa de la computación de la planificación basada en PersEUD. Este resultado facilita la implementación práctica de PersEUD en entornos clínicos.

13:42
Generación de imágenes histopatológicas con redes generativas adversarias

ABSTRACT. La inteligencia artificial está cada vez más presente en nuestro dı́a a dı́a, influyendo muy significativamente en diversos sectores de la sociedad. Estos algoritmos son usados ampliamente para incre- mentar la eficiencia y el rendimiento de tareas rea- lizadas anteriormente por algoritmos que no imple- mentaban estas técnicas, afectando a áreas como la automoción, la robótica, la medicina, etc. El entre- namiento de estos modelos requiere un hardware con especificaciones mı́nimas y un volumen suficiente de datos disponibles. Este último requisito puede ser pro- blemático en sectores donde la información utilizada para el entrenamiento esté condicionada por derechos de imagen o polı́ticas de privacidad, llegando a ser un factor limitante en la aplicación de algoritmos de in- teligencia artificial en ciertos sectores de la sociedad. Con este enfoque, este trabajo se ha centrado en la problemática derivada del uso de redes neuronales en el sector de la salud y la dificultad a la hora de conse- guir imágenes de carácter médico. Para hacer frente a estas limitaciones, en este trabajo se ha optado por el uso de técnicas de generación de imágenes sintéticas empleando redes adversarias, las cuales han sido en- trenadas con imágenes reales anotadas por patólogos. Para comprobar la validez de las imágenes sintéticas, se ha llevado a cabo el entrenamiento de una red neu- ronal convolucional (CNN) con imágenes generadas mediante una red generativa adversaria (GAN), com- parando si se realiza una clasificación precisa del teji- do. Al finalizar el estudio, se consigue un porcentaje de acierto del 96,76 % en el modelo entrenado con el dataset sintético.

12:30-14:00 Session 2D: JCER2 - Optimización Energética y Hw de bajo consumo
12:30
GaZmusino: Un procesador RISC-V con aceleración para Redes Neuronales Bayesianas

ABSTRACT. Las redes neuronales bayesianas (BNN) permiten estimar la incertidumbre de las predicciones que producen, lo que las convierte en una opción más adecuada que las redes neuronales tradicionales (NN) a la hora de tomar decisiones fiables. Sin embargo, el coste computacional de ejecutar una BNN es superior al de una NN, principalmente debido a que las BNN requieren muestrear distribuciones gaussianas, lo que limita su capacidad de despliegue en dispositivos edge. En este artículo se presenta una optimización que permite muestrear distribuciones uniformes en vez de distribuciones gaussianas, reduciendo de esta forma el impacto del muestreo en el rendimiento. Basándose en esta optimización, este trabajo propone una pequeña extensión de la arquitectura RISC-V que acelera la inferencia de BNNs introduciendo operaciones aritméticas en coma fija y un generador de números aleatorios uniforme. Las optimizaciones software y hardware propuestas consiguen una aceleración media de x8,93 y aumentan las imágenes/J un x8,19. Las optimizaciones se han verificado con un extenso proceso de validación que considera múltiples arquitecturas de modelos. Nuestros resultados indican que el muestreo de pesos ya no es el cuello de botella en las BNN, desplazando el principal factor limitante a la sobrecarga de control.

12:48
Técnicas de optimización para el tiempo de ejecución en SBCs ARM

ABSTRACT. En los últimos años, se ha producido un aumento significativo del número de dispositivos IoT desplegados en proyectos de diverso tipo, desde los Smart Buildings o las Smart Cities, hasta aplicaciones en el sector agrícola e industrial. Esto supone un aumento del consumo energético relacionado con estos dispositivos por lo que, en consecuencia, mejorar el rendimiento del código y reducir los tiempos de ejecución es clave en el desarrollo de software orientado a este ámbito. A pesar de esta situación, hay una cantidad limitada de propuestas centradas en la formación de programadores para la escritura de código eficiente. En este contexto, la presente propuesta utiliza una metodología para la reducción del tiempo de ejecución realizadas en el ASUS Tinker Board 2S, un dispositivo Single Board Computer (SBC) con una arquitectura ARMv8 de 64 bits ampliamente utilizado en el entorno IoT. Se han seleccionado y analizado 7 técnicas de optimización de software orientadas a la mejora del rendimiento, alcanzando valores de reducción del tiempo de ejecución de hasta un 92\% respecto a las optimizaciones automáticas implementadas por el compilador GCC (GNU Compiler Collection) versión 8.3.0.

13:06
Planificación de Máquinas de Estados en Núcleos LP RISC-V: Optimización Energética en Computación Empotrada Asimétrica

ABSTRACT. En este trabajo se presenta un enfoque para la optimización energética de sistemas empotrados mediante la implementación de máquinas de estados finitas (FSM) sobre arquitecturas de computación asimétrica basadas en RISC-V. Concretamente, se propone delegar la planificación y orquestación de la lógica de control a un núcleo de bajo consumo (LP) en el SoC ESP32-C6, reservando la activación del núcleo de altas prestaciones (HP) únicamente para tareas computacionalmente intensivas o de comunicación. Este diseño permite mantener una ejecución continua y determinista, evitando los estados de suspensión profunda que, si bien reducen el consumo, limitan la reactividad y flexibilidad del sistema. A través de un caso de estudio basado en la adquisición periódica de datos de temperatura, se evalúa el impacto energético de este enfoque en comparación con una implementación tradicional de FSM en ejecución continua sobre el núcleo HP. Los resultados obtenidos muestran una reducción del consumo energético superior al 66\% sin comprometer la capacidad de respuesta del sistema, lo que valida la viabilidad de este modelo como alternativa eficiente y estructurada para el diseño de sistemas empotrados sobre plataformas RISC-V asimétricas.

13:24
Sistema IoT de Bajo Coste para la Monitorización del Consumo Eléctrico en Entornos Industriales

ABSTRACT. Este trabajo presenta el diseño, desarrollo y validación de un sistema de bajo coste para la medición de consumo eléctrico en entornos industriales, basado en tecnologías IoT y protocolos multiconectividad. El sistema permite una medición no invasiva del consumo eléctrico mediante sensores de corriente, integrando un esquema híbrido de comunicaciones (WiFi y LoRa) y transmisión eficiente de datos. Su arquitectura está diseñada para adaptarse a cuadros eléctricos complejos, minimizando las interferencias y mejorando la calidad de las señales. Además, incorpora un proceso de calibración dinámico, tanto en el propio dispositivo como en el postprocesamiento externo, para ajustar las mediciones a las condiciones reales. La solución se ha evaluado en una instalación industrial, generando más de 500.000 registros y comparando los resultados con un sistema comercial de medición energética. Los resultados muestran un error absoluto medio de 1.00 kWh y un error relativo medio del 6.46%, validando así su viabilidad como alternativa escalable y eficiente para la supervisión energética en entornos con restricciones de infraestructura de red y costes. El sistema representa la antesala de una gestión de energía inteligente, al sentar las bases para soluciones más complejas de control, optimización y automatización.

15:00-16:30 Session 3A: Algoritmos genéticos y evolutivos
15:00
Evaluación de las parametrizaciones físicas para la predicción de tormentas de granizo utilizando la computación evolutiva

ABSTRACT. Las tormentas de granizo son fenómenos meteorológicos intensos y localizados que pueden afectar gravemente a la agricultura, las infraestructuras y las propiedades, por lo que una predicción precisa es esencial para la gestión de riesgos. El modelo de Investigación y Predicción Meteorológica (WRF, por sus siglas en inglés) es ampliamente utilizado para la predicción numérica del tiempo, ofreciendo numerosas opciones de parametrización física para representar los procesos atmosféricos. Sin embargo, debido a la gran cantidad de configuraciones posibles, identificar la configuración más adecuada es un desafío. Este trabajo utiliza un algoritmo genético (AG) para refinar sistemáticamente los esquemas físicos de WRF para la predicción de granizo en Europa Central, específicamente, para los eventos de granizo de junio de 2022. En este marco, las configuraciones de WRF se tratan como individuos en una población que evoluciona a través de la selección, el cruzamiento y la mutación en múltiples iteraciones. La “bondad” de las soluciones propuestas se evalúa utilizando la métrica F2-score. Esta metodología permite evaluar más de 2,4 millones de configuraciones posibles, mejorando la capacidad del modelo WRF para representar con precisión las tormentas de granizo. Los resultados obtenidos para el caso de estudio son prometedores, ya que se han podido predecir las zonas que fueron más afectadas por el granizo casi en su totalidad.

15:18
Integrando Simulación e Inteligencia Artificial para una Infraestructura Óptima de Recarga de Vehículos Eléctricos: Logros y Perspectivas Futuras

ABSTRACT. Los vehículos eléctricos (VE) son la tecnología más destacada para reducir las emisiones del transporte por carretera. Su rápida adopción requiere un despliegue eficiente de infraestructura de recarga. Este estudio presenta los trabajos en curso sobre un enfoque innovador que integra simulación e inteligencia artificial (IA) para optimizar la ubicación de estaciones de recarga de VE. Desarrollamos un modelo microscópico de simulación de tráfico combinando técnicas de autómatas celulares y modelado basado en agentes para capturar las interacciones dinámicas entre vehículos, estaciones de recarga y entornos urbanos. Utilizamos algoritmos genéticos y redes neuronales para explorar el complejo espacio de soluciones e identificar configuraciones óptimas. El modelo considera múltiples factores incluyendo patrones de tráfico, calidad del aire, impacto en la red eléctrica y movilidad urbana. El objetivo de este enfoque holístico es mejorar la planificación de la infraestructura de recarga, reduciendo así la congestión, disminuyendo las emisiones y mejorando la movilidad urbana. Discutimos los logros alcanzados hasta la fecha y esbozamos las futuras líneas de investigación.

15:36
Arquitecturas Lakehouse en la Nube: Análisis de SQL Warehouses

ABSTRACT. Este artículo presenta un análisis de los cuatro SQL Warehouses que consideramos más representativos de arquitecturas Lakehouse en la nube. Las tecnologidas evaluadas son Redshift en Amazon Web Services, Fabric en Microsoft Azure, y Snowflake y Databricks, soluciones disponibles en los tres principales proveedores de cloud. La evaluación de las distintas tecnologías es tanto funcional, respecto de sus capacidades y puntos fuertes como de rendimiento, haciendo uso del benchmark de referencia en este ámbito, TPC-DS. El trabajo identificar las principales ventajas y desventajas de cada plataforma en términos de eficiencia, escalabilidad y rendimiento.

15:00-16:30 Session 3B: Sistemas de Ficheros y Almacenamiento
15:00
Evaluación del sistema de ficheros Expand Ad-Hoc con aplicaciones de uso intensivo de datos

ABSTRACT. Durante los últimos años, en campos como la investigación, la inteligencia artificial o el big data cada vez es más común el empleo de aplicaciones de uso intensivo de datos para realizar análisis masivos de datos.

Sin embargo, debido al diseño de los supercomputadores actuales y sus sistemas de ficheros backend, el rendimiento de estas aplicaciones se ve comprometido significativamente. Para ayudar a solventar estos problemas, surge el sistema de ficheros paralelo Expand Ad-Hoc, que está especialmente diseñado y optimizado para ser utilizado por aplicaciones de uso intensivo de datos en entornos de alto rendimiento (HPC).

El objetivo de este trabajo es presentar una evaluación del rendimiento de Expand Ad-Hoc cuando es utilizado por diferentes aplicaciones reales de uso intensivo de datos en un entorno HPC. Como resultado de esta evaluación, se ha podido ver que, cuando se utiliza Expand Ad-Hoc como sistema de ficheros en este tipo de aplicaciones, el tiempo de ejecución de las aplicaciones disminuye significativamente respecto a cuando se utiliza el sistema de ficheros backend del entorno HPC.

15:18
Sistema de almacenamiento para computing continuum: aplicación a sistemas de información ferroviaria

ABSTRACT. El crecimiento exponencial de los dispositivos IoT ha transformado la gestión de datos en múltiples sectores, generando volúmenes masivos de información que requieren infraestructuras eficientes para su procesamiento y almacenamiento. Paradigmas como el cloud, edge y fog computing han surgido para abordar estos desafíos, junto con sistemas de ficheros paralelos y distribuidos que pueden adaptarse a la demanda de almacenamiento masivo. No obstante, el despliegue de estas infraestructuras puede ser costoso, lo que hace necesario utilizar simuladores como herramientas clave para el análisis de datos IoT en diferentes escenarios, a menor y mayor escala. Entre sus ventajas destaca la capacidad de interactuar con los datos, facilitando la identificación de patrones y tendencias que podrían no ser evidentes en un análisis estático. Por estas razones, el objetivo de este trabajo es presentar la aplicación de un sistema de ficheros paralelo a un caso de uso real, permitiendo visualizar, en tiempo real, los datos generados por los dispositivos IoT durante la ejecución de un despliegue de un sistema ferroviario.

15:36
Sistema de almacenamiento distribuido a gran escala para el manejo de datos en ambientes heterogeneos

ABSTRACT. La distribución de datos a través de múltiples instalaciones ofrece múltiples beneficios. Por ejemplo, permite mejorar la utilización de recursos evitando saturar los recursos de una misma organización, mejorar la disponibilidad de datos utilizando estrategias de replicaciones y reducir la latencia de acceso a los datos al almacenarlos y procesarlos en ubicaciones próximas a los usuarios finales y a las fuentes de datos. Sin embargo, el manejo de datos en estos ambientes distribuidos es complejo debido a la heterogeneidad de las infraestructuras de almacenamiento en términos de protocolos de acceso, modelos de autenticación y sistema de archivos, por nombrar algunos ejemplos. Lo anterior se debe a la falta de un \textit{framework} de coordinación común. En este artículo se presenta \textit{DynoStore}, un sistema de manejo de datos a través de sistemas de almacenamiento heterogéneos. La unidad fundamental de DynoStore son abstracciones llamadas \textit{contenedores de datos}, las cuales proveen interfaces estandarizadas para el manejo transparente de datos, independientemente de los sistemas de almacenamiento subyacentes. Múltiples contenedores de datos crean una red de almacenamiento de gran escala, la cual asegura la disponibilidad de los datos utilizando políticas de confiabilidad de datos basadas en dispersión de información. Además, un algoritmo de balanceo de datos permite mantener un uso eficiente de los recursos de almacenamiento. DynoStore fue evaluado a través de múltiples \textit{benchmakrs} donde se evaluó su desempeño para realizar operaciones de carga y descarga utilizando contenedores distribuidos en diferentes ubicaciones. La evaluación experimental reveló que DynoStore puede manejar eficientemente diferentes peticiones concurrentes. Además, revelo que los costos de utilizar políticas de confiabilidad son del 20\%.

15:54
Aceleración de los Nuevos Patrones de E/S mediante un Sistema de Ficheros Ad-hoc Maleable

ABSTRACT. Este trabajo presenta a Hercules, un sistema de archivos ad-hoc diseñado para optimizar el rendimiento de E/S en aplicaciones con grandes volúmenes de datos. Basado en un modelo cliente- servidor, Hercules proporciona una arquitectura flexible y escalable, permitiendo su despliegue junto con cada aplicación para una gestión eficiente de metadatos y datos. En este trabajo hemos abordado optimizaciones que persiguen mejorar los tiempos de E/S en sistemas tradicionales de alto rendimiento y los nuevos frameworks de entrenamiento para Inteligencia Artificial. Se introducen políticas de distribución de datos que mejoran la localización y acceso a la información, reduciendo la latencia y optimizando el uso de los recursos disponibles. Además, el sistema implementa un esquema de asignación de tareas que equilibra la carga de trabajo en entornos multiproceso. Los resultados obtenidos demuestran que Hercules es capaz de gestionar eficientemente las operaciones de E/S, mejorando el desempeño en escenarios de alta concurrencia.

15:00-16:30 Session 3C: Procesadores RISC-V
15:00
Improving data locality via access-type segregation in RISC-V vector architectures

ABSTRACT. The Bicameral Cache is a cache organization proposal for a vector architecture that segregates data according to their access type, distinguishing scalar from vector references. Its aim is to avoid both types of references from interfering in each other’s data locality, with a special focus on prioritizing the performance on vector references. The proposed system incorporates an additional, non-polluting prefetching mechanism to help populate the long vector cache lines in advance to increase the hit rate by further exploiting the spatial locality on vector data. Its evaluation was conducted on the Cavatools simulator, comparing the performance to a standard conventional cache, over different typical vector benchmarks for several vector lengths. The results proved the proposed cache speeds up performance on stride-1 vector benchmarks, while hardly impacting non-stride-1’s. In addition, the prefetching feature consistently provided an additional value.

15:18
Acceleration of an Exact Sequence Alignment Library using RISC-V Custom Instructions

ABSTRACT. Modern sequencing technologies can rapidly decode billions of long DNA sequences from a biological sample, enabling advancements in precision medicine and personalized healthcare. However, the increase in data-production volume and sequence length poses a significant computational challenge to traditional data analysis tools. In particular, sequence alignment remains a critical operation and a major computational bottleneck in genome analysis pipelines. Notwithstanding, many practical sequence alignment algorithms rely on common general-purpose processors and do not take full advantage of hardware accelerators. This study proposes to accelerate the problem of sequence alignment using domain-specific hardware RISC-V instructions. To this end, we present QuickEdX, a hardware-software co-designed implementation of QuickEd (a state-of-the-art sequence alignment library) optimized using GMX hardware instructions (a set of custom RISC-V extensions designed to accelerate dynamic programming computations). QuickEdX's co-designed implementation not only achieves better alignment throughput than the software-only baseline but also reduces the memory footprint by 16x. Compared to the baseline, our evaluation obtains speed-ups up to 28x when aligning simulated datasets and up to 17x when aligning real-world datasets. Overall, our results demonstrate the flexibility and potential of custom hardware extensions for accelerating practical sequence alignment algorithms, enabling them to scale with the ever-increasing volumes of genomic data produced by modern sequencing technologies.

15:36
Simulador web para RISC-V basado en la especificación SAIL

ABSTRACT. En este artículo se presenta CREATOR Next, un nuevo simulador de programación en ensamblador basado en la herramienta de simulación CREATOR desarrollado por el grupo de investigación ARCOS de la UC3M. Esta nueva herramienta extiende la arquitectura RISC-V actualmente implementada en CREATOR añadiendo una nueva variante de la arquitectura de 64 bits e integrando todo el conjunto de instrucciones especificado en el estándar de RISC-V en ambas variantes de la arquitectura, incluyendo instrucciones vectoriales y privilegiadas. Esta herramienta amplía la capacidad docente para el aprendizaje de este tipo de arquitectura y abre un nuevo camino para sectores profesionales y de investigación que han demostrado un gran interés en este tipo de arquitecturas. La herramienta permite editar, compilar, ejecutar y depurar programas escritos en ensamblador, así como también la generación de bibliotecas de subrutinas para ser utilizadas en futuros proyectos. También se han añadido nuevas funcionalidades a la herramienta como un editor multifichero con el que poder desarrollar proyectos en la herramienta de una forma más sencilla, ordenada y estructurada, asemejándose a editores de código como VSCode y/o Sublime Text. Para su desarrollo se ha utilizado SAIL, un lenguaje que permite expresar la semántica de la arquitectura del conjunto de instrucciones (ISA) de los procesadores. Respecto a la herramienta de compilación se ha utilizado la recomendada por los desarrolladores de RISC-V, ambas integradas en entornos web con WebAssembly, ya que permite ejecutar código nativo en entornos web con un rendimiento similar al de una aplicación nativa y con un mayor rendimiento que implementaciones en JavaScript.

15:54
Implementación y soporte de operaciones microscaling para procesadores RISC-V

ABSTRACT. Las técnicas de cuantización post-entrenamiento son ampliamente utilizadas para reducir el coste en memoria de los modelos durante su posterior inferencia. Esto conlleva a una posible pérdida de precisión. Diferentes propuestas en los últimos años han tratado de explotar al máximo esta relación, actualmente, los formatos basados en microexponentes compartidos (Microscaling (MX)), logran minimizar la pérdida de precisión, mientras que continúan reduciendo notablemente la huella en memoria. No obstante, la computación eficiente de estos, sin sobrecostes, requiere la implementación nativa en hardware de la gestión de estos microexponentes. En este trabajo presentamos una propuesta de implementación, para la cuantizacion y aritmética de dichos formatos, así como una serie de estudios en torno a los parámetros de diseño del mismo, en términos de precisión, area y consumo. Todo ello se enmarca en su posterior implementación en un procesador RISC-V a modo de acelerador, con una propuesta de extensión de su ISA Vectorial para dar soporte a los mismos nativamente.

16:12
RISC-V Vector Extension Performance Analysis on SpacemiT X60 with SYCL Insights

ABSTRACT. The RISC-V vector extension is relatively new, and most prior performance analyses have relied on emulation and theoretical studies based on dynamic instruction dispatch counts rather than real execution times. In this work, we take a set of benchmarks that include both scalar and hand-vectorized implementations and extend them with an additional auto-vectorized version using Clang. We evaluate and compare the performance of these three variants on the SpacemiT X60 hardware platform, which supports the latest RISC-V vector specification. The study also includes experiments using the SYCL programming model, providing insights into how thread-level and vector-level parallelism interact in practice.

15:00-16:30 Session 3D: JCER3 - IoT y Visión Artificial en Sistemas Embebidos
15:00
Electronic Design of Versatile RISC-V Soft-Core Processors on a FPGA Platform: A Comparative Study

ABSTRACT. This research initially conducts a comparative analysis between the use of Field Programmable Gate Arrays (FPGAs) and dedicated RISC-V silicon boards. Additionally, it aims to improve understanding of RISC-V's FPGA implementation by exploring deployment and compilation challenges. An open-source RISC-V soft-core processor and Microblaze V IP block is implemented on the Xilinx Zynq-7000 series SoC board, highlighting key differences in resource and power consumption. By leveraging Vivado and preconfigured Tcl scripts, a functional design methodology is developed to the project’s platforms, enabling the creation of a compiler compatible with the soft-core processor. The study tackles cross-compiler setup, reset mechanisms and the open-source core's adaptability across hardware-software environments. Future work aims to enhance processor functionality and expand its integration into diverse computing ecosystems.

15:18
Generación de impulsos Pseudoaleatorios con una Neurona de adaptación en frecuencia implementada en Hardware

ABSTRACT. En este trabajo se describe el diseño en hardware de una neurona de impulsos pseudoealeatorios, con un comportamiento de adaptación en frecuencia. Esta se caracteriza por trabajar en una frecuencia de salida que disminuye gradualmente hasta una frecuencia menor a la inicial. Obteniendo en la señal de salida un total de siete impulsos por estimulación. La neurona incluye un generador que produce una secuencia pseudoaleatoria con palabras de ocho bits, que se almacenan en un registro con entrada y salida en paralelo. Para programar los impulsos en la salida de la neurona, tiene una máquina programable de 13 estados, donde, cada uno de ellos se conecta a la salida de un registro que permite programar el periodo de los impulsos. El generador pseudoaleatorio provee los datos que se almacenan en el registro interno de la neurona. En este trabajo se presenta un nuevo diseño de neurona artificial en HW que tiene una salida de impulsos no periódicos y pseudoaleatorios. Estos son validados por la prueba de complejidad lineal del NIST National Institute of Standards and Technology, para determinar que la secuencia de impulsos es lo suficientemente compleja para ser considerada como pseudoaleatoria. Por lo cual es posible utilizar la neurona para aplicaciones que requieren una señal de reloj no periódica, como son generadores de números pseudoaleatorios o en el diseño de redes neuronales artificiales RNA etc. La neurona con comportamiento de adaptación en frecuencia se implementó en el dispositivo reconfigurable FPGA Spartan3E XC3S250E y Kintex7 respectivamente. Este diseño presenta un nivel bajo de ocupación y alta flexibilidad para exportarse a diferentes dispositivos reconfigurables FPGAs.

15:36
Análisis del desempeño de un asistente SLM en mantenimiento de despliegues IoT

ABSTRACT. La automatización eficiente del mantenimiento y gestión de despliegues del Internet de las Cosas (IoT) en entornos embebidos exige la generación precisa de comandos, una tarea que requiere conocimientos expertos y consume tiempo y recursos técnicos considerables. Este trabajo aborda la creación y evaluación iterativa de datasets sintéticos específicos para entrenar Small Language Models (SLMs) capaces de generar comandos Linux precisos sobre entornos de este tipo, permitiendo poder desplegar el sistema final en dispositivos de recursos limitados. Se describe el proceso seguido para la selección, generación y validación de datos usando técnicas novedosas, así como la evaluación sistemática del rendimiento de los modelos T5 y GPT2 empleando distintas configuraciones. Se destaca especialmente la importancia de la calidad y especificidad de los datos para el aprendizaje efectivo de patrones por parte de los modelos. Los resultados experimentales confirman que un dataset balanceado y altamente especializado mejora significativamente la precisión en la generación de comandos, obteniendo un 93,36% de precisión con el modelo T5-Large empleando la métrica Equals, siendo éste el mejor modelo valorado en este estudio. Este resultado representa una mejora del 74,86% en comparación con datasets de menor especificidad. Por último, en trabajos futuros, se propone ampliar la cobertura del modelo integrando comandos específicos para gestión de entornos IoT.

15:54
Método Basado en Marcadores para la Calibración de sistemas multi-cámara RGB-D

ABSTRACT. La reconstrucción 3D precisa mediante sistemas multi-cámara RGB-D depende de forma crítica de una calibración extrínseca exacta para lograr una alineación adecuada entre las vistas capturadas. En este trabajo, se presenta un método iterativo de calibración extrínseca que aprovecha las restricciones geométricas proporcionadas por un marcador tridimensional para mejorar significativamente la precisión de la calibración. El enfoque propuesto segmenta y refina sistemáticamente los planos del marcador mediante técnicas de agrupamiento, análisis de regresión y reasignación iterativa, garantizando una correspondencia geométrica robusta entre las vistas de las cámaras. Validamos nuestro método de forma exhaustiva tanto en entornos controlados como en escenarios reales, en el marco del proyecto Tech4Diet, orientado a modelar la evolución física de pacientes sometidos a tratamientos nutricionales. Los resultados experimentales muestran reducciones sustanciales en los errores de alineación, lo que permite reconstrucciones 3D precisas y fiables.

16:12
Retiplus 2: Sistema IoT de Realidad Aumentada para la Ayuda Visual y Rehabilitación de Personas con Baja Visión

ABSTRACT. Retiplus 1 fue desarrollado bajo un enfoque de diseño centrado en el usuario con el objetivo de mejorar la calidad de vida de personas con baja visión mediante el uso de dispositivos montados en la cabeza. Integró el potencial de la realidad aumentada para superponer información y modificar la escena en tiempo real, permitiendo ajustar parámetros como zoom, brillo y contraste. Además, incorporó tecnologías IoT para el almacenamiento de datos y recuperación de datos y aprovechó la flexibilidad de la tecnología móvil para ofrecer soluciones personalizadas de ayuda visual y rehabilitación. Los estudios clínicos realizados evidenciaron mejoras significativas en la visión periférica de los usuarios.

Retiplus 2 es una evolución de su predecesor, desarrollada a partir del feedback de pacientes y especialistas. Introduce mejoras en el diseño del sistema y la usabilidad, además de nuevas herramientas de evaluación y personalización centradas en la visión central. Un estudio observacional sobre Retiplus 2 mostró resultados prometedores en la evaluación de la visión central, comparándola con las costosas herramientas tradicionales de diagnóstico. Asimismo, las encuestas realizadas confirmaron la utilidad y aceptación del sistema entre los usuarios.

17:00-18:30 Session 4A: Deep Learning y optimización de modelos
17:00
Monitorización del Rendimiento Computacional y la Eficiencia Energética en Deep Learning

ABSTRACT. El entrenamiento y la inferencia de modelos de Deep Learning requieren un uso intensivo de recursos computacionales, lo que hace fundamental la monitorización del consumo de CPU, GPU y energía para optimizar el rendimiento y reducir costos. En este trabajo, presentamos una herramienta de análisis que permite medir en tiempo real el uso de los recursos computacionales durante la ejecución de modelos de aprendizaje profundo. La herramienta proporciona métricas clave como la utilización de CPU/GPU, el consumo energético y la eficiencia del hardware en distintos escenarios de entrenamiento e inferencia. Se realizan experimentos con redes neuronales profundas sobre múltiples arquitecturas de hardware para evaluar la variabilidad en el uso de recursos y proponer estrategias de optimización. Los resultados muestran que una monitorización adecuada permite mejorar la eficiencia del entrenamiento y la escalabilidad de modelos de Deep Learning en infraestructuras heterogéneas.

17:18
Rendimiento, eficiencia y consumo energético de frameworks de entrenamiento para Deep Learning

ABSTRACT. El entrenamiento de modelos de Deep Learning es una tarea computacionalmente exigente, con costes significativos en términos de tiempo, recursos y consumo energético. A medida que estos modelos crecen en complejidad y tamaño, la elección del framework adecuado se vuelve un factor clave para optimizar su eficiencia. Existen múltiples frameworks, como TensorFlow, PyTorch y JAX, además de librerías como Keras, ampliamente utilizadas en la comunidad de Deep Learning. En este análisis, comparamos su rendimiento y eficiencia en tres tipos de redes: perceptrones multicapa, convolucionales y de memoria a corto y largo plazo (LSTM). Se evalúan métricas como el tiempo de entrenamiento y prueba, el uso de memoria en GPU y el consumo energético total y por hora. Los resultados muestran que PyTorch sin Keras logra los tiempos de entrenamiento más bajos, especialmente en la red LSTM. JAX mantiene un equilibrio entre rendimiento y consumo energético, destacando con Keras. En general, el uso de Keras tiende a disminuir el consumo por hora, pero aumenta el tiempo de entrenamiento, especialmente en PyTorch. TensorFlow, en general, presenta los tiempos más altos, aunque con un consumo energético por hora menor en MLP y CNN. Estos hallazgos destacan la influencia del framework en la eficiencia del entrenamiento, evidenciando la necesidad de elegir el más adecuado según el tipo de red y los recursos disponibles.

17:36
Una variante de Ok-Topk para el entrenamiento de Redes Neuronales en entornos distribuidos de CPUs

ABSTRACT. En el entrenamiento distribuido, se emplea comúnmente el paralelismo de datos, donde el modelo se replica en múltiples nodos y los gradientes son calculados localmente en cada uno de ellos. Para sincronizar los nodos, los gradientes deben ser posteriormente agregados mediante un Allreduce, lo que puede introducir un sobrecoste debido al volumen de comunicaciones, especialmente al incrementarse el número de nodos o procesos que están involucrados en el entrenamiento. En este trabajo se presenta una implementación del algoritmo Ok-Topk (Li y Hoefler, 2022), que incorpora una estrategia escalable para realizar un Allreduce de forma más eficiente con gradientes dispersos. La variante que se presenta cuenta con algunas diferencias y simplificaciones respecto al algoritmo original, además de haber sido desarrollada en el entorno PyDTNN para clústeres de CPUs. Los resultados muestran una reducción del coste de entrenamiento del modelo VGG16 con el CIFAR-10 de más de un 50% respecto al SGD, sin comprometer la precisión del modelo. Además, en este trabajo también se evalúan los efectos y beneficios del aumento de la dispersión durante el entrenamiento distribuido.

17:54
Módulo de Optimización de PyTorch para Facilitar el Uso de Técnicas de Optimización de Memoria y Paralelismo de Modelos

ABSTRACT. Durante la última década, los modelos de IA y la complejidad de los datos han aumentado para las redes neuronales de última generación. Siguiendo esta tendencia, también se considera el impacto de los requisitos de memoria, convirtiéndose en uno de los principales cuellos de botella. Actualmente, la mayoría de los frameworks de aprendizaje automático usados, como PyTorch o TensorFlow, incluyen mecanismos de optimización de memoria incorporados. Por otro lado, técnicas más complejas como el Paralelismo de Modelo, resultan más difíciles de implementar para investigadores sin formación informática y son propensas a errores. En este trabajo, presentamos un módulo de Python llamado Módulo de Optimización PyTorch (TOM) que agrega técnicas de optimización de memoria y permite a los investigadores simplificar su implementación en modelos PyTorch con una sobrecarga mínima tanto en la huella de memoria como en el tiempo de ejecución sin una pérdida de calidad relevante. Nuestro enfoque reduce en gran medida las líneas de código necesarias para técnicas complejas, como el paralelismo de modelo, con una reducción media del 65%.

17:00-18:30 Session 4B: Secuenciación y alineamiento genómico
17:00
Heterogeneous Architecture for Accelerating Long Genome Sequence Alignment

ABSTRACT. Modern DNA sequencing technologies have revolutionized genome research and healthcare, enabling rapid and cost-effective DNA reading from biological samples. However, the growing volume of sequencing data requires high-performance tools for efficient genome analysis. In particular, sequence alignment remains a critical and computationally expensive step in genomic pipelines due to its quadratic complexity in classical dynamic programming (DP) algorithms. As sequencing machines generate longer sequences, sequence alignment becomes a major bottleneck, limiting the performance and scalability of genomic analysis pipelines.

To address this problem, we propose Smough, a heterogeneous architecture combining a RISC-V CPU equipped with custom instructions and SmoughEngine, a domain-specific accelerator designed to accelerate DP computations. \engine accelerates the computation of large DP-tiles through efficient bit-parallel operations, while the general-purpose CPU handles small and irregular tasks leveraging custom RISC-V instructions and orchestrates the system's execution. We evaluate Smough using the Gem5 simulator and show that Smough outperforms state-of-the-art software solutions, achieving up to 63.3x speedups when aligning long sequences and 2.9x aligning short ones. Furthermore, we present an efficient implementation of SmoughEngine's compute tile and synthesize it in TSMC 7nm, achieving an area of 0.17mm^2, demonstrating its suitability for accelerating real-world sequence alignment applications.

17:18
Pattern Exact-Matching Acceleration with a near CPU Hardware Learned Index Engine

ABSTRACT. Advancements in sequencing technologies have enabled large-scale genome analyses, driving advancements in biomedical research and healthcare. However, the rapid growth of genomic data availability challenges the scalability of genome analysis applications that require accessing large databases.To this end, many critical applications rely on space-efficient FM-Index structures to perform pattern exact-matching operations despite its random memory access pattern and poor spatial locality. Recently, AI-based learned index strategies, such as LISA, have emerged as an effective strategy to accelerate FM-Index pattern exact-match operations, reducing the overall number of required memory accesses to query a pattern. Nevertheless, the performance advantage of LISA-like solutions remains limited by a low instruction parallelism and poor memory bandwidth utilization.

In this paper, we present PEACH, an efficient and flexible hardware accelerator based on learned indexes for fast pattern exact-matching queries on large databases.PEACH is designed as a tightly coupled co-processor that integrates seamlessly with the CPU via custom instructions, enabling easy and flexible integration with real-world applications. PEACH introduces an efficient hardware design that increases parallelism to maximize the memory bandwidth utilization of modern systems. Furthermore, we present PEACH-C, an extended version of PEACH that incorporates a small cache to exploit data locality. As a result, we show that PEACH and PEACH-C outperform state-of-the-art solutions, increasing throughput by 36x, 39x, and 1.45x compared to other software, near-data processing, and ASICs solutions, respectively. Moreover, compared to other state-of-the-art software solutions, PEACH and PEACH-C reduce the instruction count by 41x and improve the bandwidth efficiency by 12x. Synthesis results demonstrate that PEACH and PEACH-C present a throughput per area increase of 32x, 36x, and 1.23x compared to other state-of-the-art solutions. We conclude that PEACH provides a flexible and efficient solution to accelerate pattern exact-match operations of population-scale genome analysis applications.

17:36
Implementación del Patrón de Diseño Paralelo Pipeline usando Threads, TBB y SYCL. Un estudio comparativo

ABSTRACT. En este trabajo se muestra la implementación paralela del patrón de diseño Pipeline bajo tres propuestas: la codificación del pipeline usando el modelo de Thread del C++ moderno con memoria compartida, la codificación del pipeline con paso de mensajes usando la librería de clases Threading Building Block o TBB y la codificación del pipeline usando programación heterogénea con SYCL bajo el modelo de programación host-device del OneApi de Intel. En todas estas implementaciones se resuelve el mismo problema; la sumatoria de i con 1<=i<=N donde N es suficientemente grande para obtener un análisis comparativo del rendimiento de las tres propuestas presentadas. Se muestran los códigos fuentes de las tres propuestas de implementación y los tiempos de ejecución en segundos de cada uno de ellos para obtener una comparación de la aceleración que presentan respecto a la versión secuencial del problema que se resuelve y así poder identificar la mejor implementación del pipeline.

17:54
Leveraging SIMD Instructions for Sequence Alignment Acceleration

ABSTRACT. Recent advancements in sequencing technologies have significantly increased the volume of genomic data generated yearly, making sequence alignment a major computing bottleneck in many modern bioinformatics tools. Despite its biological relevance, dual gap-affine sequence alignment is often forgone due to its higher computational cost compared to simpler alignment models, such as edit or single gap-affine. For practical purposes, two libraries supporting dual gap-affine alignment have gained significant relevance: KSW2, implementing the Suzuki-Kasahara algorithm (SKA), and WFA2lib, implementing the Wavefront Alignment algorithm (WFA). Despite their relevance, none of these libraries fully exploit the vector capabilities of modern CPU architectures, such as Intel’s AVX2/AVX-512 or ARM’s SVE instruction sets.

This work presents a fully vectorized and highly optimized implementation of the KSW2 and WFA2-lib libraries tailored to AVX2, AVX-512, and SVE. We introduce architecture-specific optimizations for the SKA and WFA algorithms to exploit instruction-level parallelism and maximize performance across modern CPU architectures. Moreover, we present a thorough experimental evaluation on high-performance computing processors (Intel Sapphire Rapids, Amazon Graviton3, and NVIDIA Grace) to assess the real-world performance of our proposal and the tradeoffs between different SIMD architectures. Our results show that our WFA-SIMD implementation accelerates WFA up to 2.17x and 1.93x compared to WFA2-lib on x86 and ARM platforms, respectively. Similarly, our SKA-SIMD implementation accelerates SKA by up to 2.35x on x86 and 1.73x on ARM.

18:12
Estudio Comparativo de Métodos de Compartición de GPU

ABSTRACT. El uso de GPUs para la aceleración de los procesos de inferencia de redes neuronales es habitual en un gran número de aplicaciones dadas las altas capacidades de cómputo que estos dispositivos ofrecen. Sin embargo, el uso de GPUs en aplicaciones con requerimientos de seguridad funcional (p.ej. el coche autónomo) esta sujeto a la capacidad de estas de garantizar que dichas ejecuciones se realizaran de acuerdo a una temporalización estricta. En este artículo presentamos un estudio comparativo de diferentes alternativas para la ejecución concurrente de múltiples procesos de inferencia de modelos de aprendizaje profundo. Los resultados obtenidos muestran como tecnologías como MIG permiten obtener un buen aislamiento para los diferentes procesos de inferencia, pero a costa de una menor flexibilidad en la planificación de los mismos.

17:00-18:30 Session 4C: Optimización y Analisis de Prestaciones
17:00
Nueva técnica de reducción de dimensionalidad basada en la transformada wavelet

ABSTRACT. La metilación del ADN se ha convertido en un importante marcador epigenético para la detección temprana del cáncer. Aunque la aparación de microarrays de metilación ha reducido la dimensionalidad del problema desde los 3.000 millones de bases (tamaño del genoma humano) hasta sólo los 450.000 bases de ADN, el tamaño del problema es aún demasiado grande para la detección y clasificación automática del cáncer basado en aprendizaje máquina. Este trabajo propone un nuevo enfoque basado en la transformada wavelet discreta (DWT), que preserva la información espacial, para la reducción de la dimensionalidad del problema. Los resultados de evaluación muestran que la técnica propuesta mejora significativamente tanto el tiempo de ejecución y la carga computacional como la precisión de la clasificación obtenida, frente a otras cinco técnicas de reducción bien conocidas como PCA, ReliefF, Isomap, LLE y UMAP.

17:18
Mejora del Benchmarking de aplicaciones de latencia crítica para una evaluación más realista

ABSTRACT. Los sistemas en la nube han crecido rápidamente, trasladando tareas computacionales desde los dispositivos usuarios a los servidores de la nube donde los clientes envían sus peticiones. Las aplicaciones de latencia crítica, influenciadas por los tiempos de respuesta más elevados (percentil 95+) de las peticiones, han cobrado especial interés, pero su gran diversidad dificulta una evaluación precisa.

Este trabajo compara distintas suites de prueba y concluye que TailBench es la más adecuada para evaluar estas aplicaciones, ya que ofrece una amplia diversidad de comportamientos e implementa una interfaz común que facilita la evaluación experimental. Sin embargo, presenta limitaciones para escenarios multi-servidor. Para abordar este problema, en este trabajo se propone TailBench++, una versión mejorada de Tailbench que permite configurar de forma flexible el número de clientes y servidores, así como la carga de trabajo. Estas mejoras facilitan la evaluación de entornos más realistas con múltiples servidores que sirven peticiones de clientes que varían su comportamiento de forma dinámica, ampliando el alcance de los estudios en la nube.

17:36
Modelado de una Arquitectura de Monitorización de Prestaciones con el Simulador Gem5

ABSTRACT. Los simuladores son una herramienta esencial en la investigación de la Arquitectura de Computadores, ya que proporcionan una solución ágil y económica para el análisis preciso y eficiente de propuestas estructurales y microarquitectónicas para el diseño de CPU. Una de sus principales ventajas de estas herramientas es la capacidad de análisis de las prestaciones del procesador, permitiendo obtener un conocimiento profundo sobre el rendimiento de las etapas del pipeline y el estado de la máquina.

Sin embargo, los simuladores actuales carecen de un modelado preciso de las Performance Monitoring Units (PMU) presentes en procesadores reales, lo que limita su capacidad para realizar ciertos análisis avanzados de rendimiento como el análisis Top-Down propuesto por Intel.

En el presente trabajo se realiza la implementación de una PMU para el simulador gem5, incluyendo la capacidad de monitorizar aplicaciones ejecutándose en procesadores con soporte a multihilo SMT (Simultaneous Multi-Threading). Los resultados muestran la viabilidad y utilidad de esta nueva funcionalidad, que permite realizar análisis Top-Down de cargas de trabajo SPEC CPU tanto monohilo como multihilo.

17:54
Optimización del proceso de compilación de códigos cuánticos a través de la herramienta Qat

ABSTRACT. Hoy en día el fulgor por la computación cuántica y por el desarrollo de nuevas tecnologías asociadas nos lleva a interesarnos por un elemento de vital importancia: el compilador. Este elemento realiza un papel fundamental a la hora de poder hacer uso de lenguajes que faciliten al usuario el uso de estas nuevas tecnologías. A lo largo de este artículo se observará la importancia de la compilación y se presentarán algunas herramientas utilizadas actualmente en computación cuántica buscando posibles mejoras. Por último se mostrará una nueva propuesta para una de las herramientas comentadas con la finalidad de mejorar los tiempos de ejecución

17:00-18:30 Session 4D: JCER4 - Seguridad y Tolerancia a Fallos
17:00
Estudio Preliminar de la Degradación Física en Aceleradores ORB

ABSTRACT. El efecto Negative Bias Temperature Instability (NBTI) es una de las principales amenazas para la fiabilidad de los nodos tecnológicos actuales. Este fenómeno de envejecimiento degrada la tensión umbral del transistor (V_th) a lo largo de la vida útil de un circuito digital, lo que da lugar a transistores más lentos que pueden acabar provocando fallos permanentes cuando el camino crítico sobrepasa el tiempo de ciclo del microprocesador. Los transistores más vulnerables al efecto NBTI son aquellos utilizados para implementar celdas de memoria estáticas, puesto que estas celdas se degradan continuamente. En particular, NBTI envejece los transistores PMOS cuando las celdas almacenan un valor lógico determinado durante un periodo de tiempo largo (i.e., un duty cycle largo). Este artículo realiza una caracterización de los patrones de envejecimiento en las celdas estáticas de las memorias FIFO on-chip utilizadas en aceleradores ORB y evalúa el impacto de los fallos en memoria sobre sus métricas de calidad con el fin de proponer técnicas anti-envejecimiento. Los resultados experimentales muestran que las celdas con un duty cycle más desbalanceado son aquellas que almacenan los bits más significativos de cada píxel. En base a esta observación, inyectando fallos solamente en estas celdas, se observa una disminución en todas las métricas de calidad del algoritmo ORB variando desde un 10% hasta casi un 100%.

17:18
Impacto de la Mejora en el Aprovechamiento de la Memoria Caché sobre la Fiabilidad de un Sistema

ABSTRACT. Este trabajo explora el impacto de las cachés en la fiabilidad de sistemas críticos expuestos a radiación ionizante, empleando el lenguaje de programación C para implementar un benchmark ampliamente utilizado en el campo de la tolerancia a fallos. Este benchmark fue sometido a diferentes variaciones para resaltar aún más el comportamiento de la caché y el coste en tiempo de ejecución. Posteriormente, se constataron estas diferencias realizando una caracterización dinámica previa a los experimentos bajo radiación. La fase experimental arrojó resultados que indican que la optimización de la caché tiene un impacto beneficioso sobre la tolerancia a fallos en todas las versiones. Las versiones con más localidad de caché también presentan mejor trabajo medio hasta fallo (MWTF).

17:36
Micro-benchmarks ajustables para entornos maleables y dinámicos

ABSTRACT. En el marco de la computación de altas prestaciones (HPC), las nuevas técnicas de despliegue de aplicaciones, y la creciente complejidad de las nuevas aplicaciones y workflows dinámicos, están dejando obsoleto el modelo clásico de reserva y utilización de recursos debido a su ineficiencia. El objetivo de la maleabilidad es ajustar los recursos del sistema y las aplicaciones para extaer la máxima la eficiencia posible. Esto se realiza mediante la asignación o eliminación de recursos bajo demanda. En este trabajo presentamos \textit{Malleable Benchmarks}, una herramienta desarrollada con el fin de dar soporte a los desarrolladores para la realización de pruebas de estos sistemas dinámicos. Además, el hecho de que los usuarios puedan ver el código que se ejecuta en estos programas, a su vez sirve de ejemplo de un código malleable, en este caso en el marco del proyecto europeo ADMIRE.

17:54
Implementación en Arduino de una red neuronal cuantizada tolerante a fallos

ABSTRACT. En la actualidad, las redes neuronales se están utilizando en dominios tan dispares como son los entornos industriales, espaciales y médicos, entornos donde es esencial equilibrar rendimiento, consumo energético y área de silicio. Si, además, estos dispositivos forman parte de un sistema crítico, también se debe garantizar una alta tolerancia a fallos.

Generalmente, los parámetros de las redes neuronales se definen en coma flotante de 32 bits, lo que implica un elevado consumo de memoria. Debido a la miniaturización de la tecnología CMOS, la memoria es más susceptible a los fallos múltiples, lo que puede afectar negativamente a los parámetros de la red neuronal almacenados en memoria.

Para optimizar el uso de memoria y acelerar el procesamiento, una estrategia efectiva es reducir la precisión de los parámetros, codificándolos con menos bits. Sin embargo, al implementar estas redes optimizadas en sistemas empotrados, surgen varios interrogantes: ¿realmente se reduce el área ocupada y la latencia? ¿Siguen siendo confiables en entornos críticos?

Este estudio aborda estas cuestiones. Para ello, se han cuantizado a enteros de 8 bits los parámetros de una red neuronal y se ha implementado en un sistema Arduino, incorporando Códigos de Corrección de Errores. A través de la inyección de fallos, se ha analizado su confiabilidad y comparado con una red con los parámetros en coma flotante de 32 bits.

Los resultados ayudarán a evaluar si esta optimización mejora el rendimiento sin comprometer la robustez en aplicaciones críticas.

18:12
Análisis de la confiabilidad de una red neuronal implementada en Arduino con formato BF16

ABSTRACT. El uso de redes neuronales se ha expandido a entornos tan diversos como dispositivos industriales, sistemas médicos o sistemas espaciales. En estos casos, es fundamental equilibrar rendimiento, consumo energético y área de silicio. Además, en entornos críticos, es necesario garantizar una alta tolerancia a fallos. Tradicionalmente, las redes neuronales han utilizado parámetros en coma flotante de 32 bits, lo que implica un alto consumo de memoria y una mayor vulnerabilidad a fallos debido a la miniaturización de la tecnología CMOS. Una estrategia efectiva para optimizar estos sistemas es reducir la precisión de los parámetros, utilizando menos bits y disminuyendo así la cantidad de memoria necesaria y el tiempo de procesamiento. Sin embargo, surgen dudas al implementar este tipo de redes en sistemas empotrados: ¿Mantienen su confiabilidad en entornos críticos, o requieren mecanismos de tolerancia a fallos? ¿Realmente se reduce el área y la latencia? Este trabajo aborda estas cuestiones reduciendo la precisión de una red neuronal, e implementándola en un sistema basado en Arduino. Además, se han incorporado Códigos de Corrección de Errores y, mediante la técnica de inyección de fallos, se ha evaluado su confiabilidad comparándola con la misma red, pero con sus parámetros codificados en 32 bits.