JS2025: XXXV JORNADAS SARTECO 2025
PROGRAM FOR THURSDAY, JUNE 26TH
Days:
previous day
next day
all days

View: session overviewtalk overview

09:00-10:30 Session 5A: Aplicaciones Industriales y Automoción
09:00
Transmisión de vídeo robusta en redes vehiculares urbanas

ABSTRACT. Los servicios de streaming de v´ıdeo a trav´es de redes vehiculares ad-hoc (VANETs) pueden ser servicios que permitan el despliegue masivo de aplicaciones asociadas al veh´ıculo conectado (entretenimiento multimedia, redes sociales, asistencia al conductor, soporte en caso de accidente, etc.). Sin embargo, la transmisi´on de v´ıdeo de alta calidad a trav´es de una VANET no es una tarea trivial ni exenta de obst´aculos, ya que el canal inal´ambrico es altamente din´amico, muy poco fiable y sufre limitaciones de ancho de banda. Como consecuencia, pueden perderse paquetes, lo que hace muy dif´ıcil para el receptor reconstruir un v´ıdeo con la calidad m´ınima requerida. Para ello, creemos que nuestra propuesta debe de combinar de uan forma eficaz varios aspectos de la arquitectura de un sistema de streaming de v´ıdeo siguiendo un enfoque multicapa (crosslayer) que tenga en cuenta: (a) las caracter´ısticas del contenido del flujo de paquetes de v´ıdeo, (b) un esquema de codificaci ´on adaptativa de detecci´on y correcci´on de errores (FEC) eficiente, y (c) el uso de un servicio de priorizaci ´on de paquetes (QoS) en el canal inal´ambrico. Para ello, vamos a utilizar un esquema de codificaci´on RaptorQ adaptativo para proteger el flujo de paquetes de v´ıdeo sin malgastar el ancho de banda disponible en la red. Al mismo tiempo, utilizaremos los servicios diferenciados de QoS del est´andar IEEE 802.11p para dar prioridad a los paquetes de v´ıdeo cr´ıticos. Por ´ultimo, proporcionaremos un mecanismo para reducir el impacto de los efectos de sincronizaci´on en el canal de servicio multiplexado IEEE 1609.4 que reducir´a las colisiones de paquetes al principio de la ranura del canal de servicio. Todas estas t´ecnicas, adecuadamente combinadas, permitir´an el despliegue de servicios de streaming de v´ıdeo de alta calidad en escenarios VANET urbanos, proporcionando una experiencia de alta calidad a los usuarios, independientemente de las condiciones puntuales de inestabilidad que pueda tener el entrono inal´ambrico, soportando tasas de paquetes perdidos de moderadas a altas. Para evaluar el rendimiento de nuestra propuesta, utilizaremos un marco de simulaci´on detallado con diferentes escenarios y condiciones de red. Esperamos que los resultados de esta propuesta proporcionen una soluci´on viable para servicios de streaming de v´ıdeo de alta calidad en redes VANET urbanas.

09:18
Detección de Anomalı́as en Imagen Multiespectral Basada en Isolation Forest y Redes de Deep Learning

ABSTRACT. Las imágenes multiespectrales son fundamentales en sensado remoto en tareas como la clasificación, detección de cambios o anomalías. Este trabajo propone el uso de los algoritmos Isolation Forest y Deep SAD para detección de anomalías en imágenes multiespectrales. Isolation Forest, basado en árboles de aislamiento, es altamente paralelizable y poco sensible a variaciones de dimensionalidad, mientras que Deep SAD se basa en un autoencoder convolucional para una detección más robusta, manejando mejor la variabilidad de las anomalías. Ambos algoritmos son evaluados con diferentes estrategias de cálculo de umbral óptimo, para binarizar las puntuaciones de anomalía. Los resultados experimentales muestran que ambos métodos superan al algoritmo de referencia RX, destacando la alta tasa de detección de Isolation Forest y el balance entre identificación de anomalías y reducción de falsos positivos de Deep SAD.

09:36
Mitigando el Impacto de los Fallos en CNNs con Protección Fija y Variable

ABSTRACT. Las redes neuronales convolucionales se emplean en entornos críticos como la atención sanitaria, los vehículos autónomos y la vigilancia. Para garantizar la seguridad de estos sistemas, es esencial validar su funcionamiento en presencia de fallos.

Este artículo analiza la sensibilidad de distintos modelos ante la inyección de fallos e identifica el impacto de los cambios de bits (bit flips) en su precisión. Para mitigar estos efectos, proponemos dos mecanismos de protección de bits invariantes: Protección Fija y Protección Variable. Los resultados muestran que los modelos no protegidos experimentan una reducción de precisión de hasta un 3% debido a fallos aleatorios de cambio de bit. Con nuestros mecanismos, la recuperación oscila entre el 88% y el 99%.

09:54
Redes adversariales para la adaptación de dominio sobre imágenes de sensado remoto

ABSTRACT. El sensado remoto es un campo esencial en múltiples aplicaciones científicas y tecnológicas, permitiendo la obtención de información espectral detallada de la superficie terrestre sin la necesidad de contacto físico. Mediante sensores instalados en plataformas como satélites, drones y aeronaves, se recopilan datos multiespectrales e hiperespectrales que facilitan el monitoreo ambiental, la detección de cambios en el uso del suelo, la gestión de recursos naturales y la respuesta ante desastres naturales, además de muchas otras aplicaciones. No obstante, uno de los principales retos en el análisis de estas imágenes es la variabilidad entre los dominios de entrenamiento (origen) y test (objetivo), fenómeno conocido como desplazamiento de dominio. Esta discrepancia puede deberse a factores como variaciones atmosféricas, diferencias en las condiciones de iluminación, cambios estacionales y divergencias en las características de los sensores utilizados.

Para abordar este problema, se han desarrollado estrategias de adaptación de dominio que buscan mejorar la generalización de los modelos de clasificación cuando se aplican a dominios distintos al de origen. En este contexto, en este trabajo se estudia un método de adaptación de dominio conocido como Adversarial Discriminator Domain Adaptation (ADDA). Este método se basa en encontrar una función de mapeo de los datos originales a un espacio de características común independiente de su dominio de origen. La principal ventaja de ADDA es que no requiere datos etiquetados del dominio objetivo, lo que disminuye significativamente los costos asociados al proceso de anotación manual, una tarea particularmente compleja en imágenes de sensado remoto debido a la necesidad de una validación realizada por personal experto.

Para evaluar la efectividad de ADDA en la adaptación de dominio en imágenes de sensado remoto, se exploraron distintas configuraciones de redes neuronales, incluyendo modelos convolucionales básicos y arquitecturas más avanzadas inspiradas en ResNet. Los resultados mostraron que, si bien no hubo una arquitectura claramente superior en todos los casos, algunas configuraciones presentaron ventajas en términos de estabilidad y consistencia en los resultados. Esto sugiere que la elección de la arquitectura es un factor crítico en la implementación de ADDA y que futuras investigaciones podrían enfocarse en optimizar esta selección.

Además de las mejoras en precisión, se observó que la reducción del costo computacional es un aspecto fundamental para la implementación práctica de técnicas de adaptación de dominio. En este sentido, la segmentación en superpíxeles demostró ser una estrategia viable para acelerar el entrenamiento sin afectar negativamente el rendimiento del modelo. Esto es de especial interés para aplicaciones en las que el procesamiento en tiempo real es un requisito indispensable, como en la detección temprana de incendios forestales o en la vigilancia de fenómenos meteorológicos extremos.

En conclusión, este estudio demuestra el potencial de ADDA como un método efectivo para mitigar los efectos del desplazamiento de dominio en el análisis de imágenes de sensado remoto. Los resultados obtenidos resaltan la importancia de continuar investigando en esta dirección para desarrollar modelos más robustos y eficientes, capaces de operar en condiciones adversas sin necesidad de grandes volúmenes de datos etiquetados. La implementación de técnicas de adaptación de dominio basadas en aprendizaje profundo no solo podría mejorar la precisión en tareas de clasificación, sino que también abriría nuevas oportunidades en la automatización y optimización del procesamiento de imágenes en diversas aplicaciones geoespaciales y ambientales.

10:12
Sistema de Simulación Solar y Medición Automatizada de la Curva I-V de paneles fotovoltaico

ABSTRACT. Este artículo presenta un sistema de simulación de espectro solar y medición automatizada de la curva intensidad-voltaje (I-V). El sistema descrito integra hardware y software con el objetivo de replicar la radiación solar bajo diversas condiciones atmosféricas y geográficas para posteriormente medir automáticamente la curva I-V de módulos fotovoltaicos que describe el comportamiento del panel en dichas condiciones ambientales. El sistema permite realizar ensayos de rendimiento en condiciones atmosféricas variables y validación de algoritmos de seguimiento del punto de máxima potencia (MPPT) en tiempo real. Para calcular la irradiancia espectral solar, se utiliza el modelo Bird Simple Spectral Model replicado en el simulador solar mediante el ajuste de la potencia de sus 36 fuentes de luz. La medición automatizada de la curva I-V se realiza mediante un equipo controlado por software, extrayendo parámetros eléctricos característicos del panel según el modelo de diodo único (SDM) con distintos métodos, incluido el Two-Step Linear Least-Squares (TSLLS). Este sistema proporciona una herramienta rápida y eficaz para la evaluación de rendimiento de tecnologías fotovoltaicas y la optimización de la operación de plantas solares, facilitando diagnósticos y mejoras en la eficiencia energética.

09:00-10:30 Session 5B: Procesamiento Paralelo y Heterogéneo
09:00
OpenDwarfs 2025: Reingenierı́a de la Benchmark Suite OpenDwarfs para su Uso en Computación Heterogénea

ABSTRACT. En este trabajo presentamos el proceso de reingenierı́a de la benchmark suite OpenDwarfs, una colección de benchmarks diseñados para evaluar las capacidades de computación paralela en sistemas heterogéneos, usando OpenCL. El proceso de reingenierı́a llevado a cabo incluye la corrección de errores, la optimización de la compilación y mejoras en la usabilidad, garantizando su compatibilidad con hardware moderno. Además, realizamos experimentos que demuestran la escalabilidad de los benchmarks que forman la nueva benchmark suite OpenDwarfs 2025 en diversas plataformas de hardware, proporcionando resultados comparativos.

09:18
Hacia el Uso de Deep Learning para Balanceo de Carga Estático en Sistemas CPU+GPU

ABSTRACT. El balanceo estático de carga en sistemas heterogéneos es clave para optimizar recursos y evitar cuellos de botella. Los enfoques tradicionales requieren profiling, aumentando el tiempo de ejecución, o están basados en heurísticas complejas. Este trabajo propone el primer balanceador de carga estático basado en deep learning para sistemas CPU+GPU. El modelo de balanceo de carga toma como entrada un kernel de OpenCL e información dinámica del mismo para predecir la distribución óptima de trabajo entre la CPU y la GPU. Los resultados experimentales muestran que el modelo propuesto iguala o supera a los métodos basados en profiling, incluso con kernels no vistos en el entrenamiento. Además, la metodología propuesta permite ajustar las predicciones en el sistema de destino sin necesidad de volver a medir todo el dataset. En dos sistemas CPU+GPU distintos con una GPU discreta y otra integrada, el modelo logra mejoras en el rendimiento de 1,37× y 1,10× frente a un balanceador basado en profiling.

09:36
Desarrollo de un conjunto de benchmarks paralelos para la evaluación de UPC++

ABSTRACT. La paralelización de aplicaciones en sistemas de memoria distribuida es una parte fundamental del desarrollo de aplicaciones de alto rendimiento. El paradigma más popular en estos sistemas es Message Passing Interface (MPI). Sin embargo, han surgido nuevos paradigmas como Partitioned Global Address Space (PGAS), que ofrece una visión de memoria compartida en un sistema de memoria distribuida. UPC++ es una librería reciente en C++ que adopta este paradigma, permitiendo a los programadores acceder directamente a la memoria de procesos remotos.

En este artículo, se evalúa el rendimiento de UPC++ mediante benchmarks paralelos implementados tanto con esta biblioteca como con MPI. Los resultados han sido analizados para ofrecer conclusiones sobre las mejores prácticas y la eficiencia de cada enfoque en diferentes contextos.

09:54
Diseño de Políticas de Asignación de Hilos en Procesadores ARM SMT Basadas en Categorías

ABSTRACT. Los servidores HPC modernos integran procesadores simultaneous multithreading (SMT). Estos procesadores comparten los recursos internos del núcleo entre diversos hilos de ejecución, lo cuál les permite alcanzar mayores prestaciones. Sin embargo, esto introduce interferencias entre los hilos que se ejecutan en el mismo núcleo. Esta interferencia intra-núcleo pone en peligro la mejora de prestaciones y puede aumentar el tiempo de ejecución. Las políticas de asignación de hilos a núcleos (Thread-to-Core Allocation, T2C) abordan este problema en dos pasos: (i) construir una performance stack por aplicación usando contadores hardware y (ii) predecir las parejas afines de aplicaciones y asignarlas al mismo núcleo.

Este artículo presenta la Instructions and Stall Cycles (ISC) stack, un nuevo enfoque diseñado para procesadores ARM resolviendo las limitaciones de la PMU de estos procesadores. Estas stacks de ISC se utilizan en un modelo de predicción para determinar las parejas afines que ayuden a mejorar las prestaciones.

Este trabajo presenta el diseño y análisis de SYNPA, una familia de políticas T2C guiada por modelos de predicción de prestaciones basados en stacks de ICS. Los experimentos demuestran que SYNPA4, la mejor variante, reduce el tiempo de ejecución en un 38% frente a Linux, logrando 3X las mejoras de políticas del estado del arte. SYNPA4 se puede aplicar a otros procesadores SMT siguiendo la metodología presentada en este trabajo.

10:12
Reestructurando dinámicamente la partición de datos para equilibrar la carga en sistemas heterogéneos distribuidos

ABSTRACT. Existen importantes clases de aplicaciones paralelas iterativas en las que una implementación clásica determina al comienzo una partición estática de grano grueso, que se mantiene a lo largo de la ejecución para aumentar la localidad y minimizar las comunicaciones. Un ejemplo son las aplicaciones ISL (Iterative Stencil Loop). Sin embargo, cuando se utiliza un sistema con dispositivos heterogéneos de diversas capacidades de cómputo, o que ajustan sus frecuencias de trabajo dinámicamente, es difícil predeterminar una partición apropiada. En este trabajo se presenta un mecanismo transparente, en tiempo de ejecución, para el reequilibrado de carga de aplicaciones con particiones de grano grueso, aplicado a ISL. El mecanismo se integra dentro de aplicaciones iterativas de este tipo y monitoriza los tiempos de ejecución en cada dispositivo, determina los momentos en que puede compensar realizar una repartición completa del trabajo, calcula la nueva partición en función del rendimiento observado en los dispositivos y realiza las comunicaciones necesarias para recolocar los datos entre ellos. Se ha realizado una implementación del mecanismo integrándolo en un sistema de desarrollo y ejecución de aplicaciones paralelas ISL. Los resultados de un estudio experimental en una pequeña plataforma con CPUs y GPUs heterogéneas de diversos tipos y marcas muestra que la propuesta permite reequilibrar progresivamente la carga de forma automática, reduciendo ampliamente los tiempos medios de cada iteración (entre un 40% y un 60%), y ajustando el tiempo entre reequilibrados para que su sobrecoste se compense.

09:00-10:30 Session 5C: Educación y Herramientas Docentes
09:00
Teaching Computer Architecture through Visual Simulation of Arm and RISC-V Processors

ABSTRACT. Teaching computer architecture is challenging due to its abstract concepts and complexity. Visual learning tools help reinforce key ideas but often lack flexibility for direct architectural modifications or require extensive knowledge of digital design. This work presents an enhanced visual simulation approach using Logisim Evolution, that allows students to implement and debug single-cycle and pipelined ARM and RISC-V processors. New programmable components enable students to modify functionality through code instead of digital electronics, improving comprehension. The methodology has been successfully integrated into computer architecture courses, demonstrating effectiveness in laboratory assignments and exams. The results indicate that interactive visual tools significantly enhance learning outcomes for students and teaching efficiency for instructors.

09:18
Motivando el uso y aprendizaje de Bash a través de concursos de programación

ABSTRACT. El aprendizaje de la lı́nea de comandos y el uso de Bash son competencias fundamentales en entornos de administración de sistemas, desarrollo de software y ciencia de datos. Sin embargo, su enseñanza ha sido relegada en muchos planes de estudio, a pesar de su relevancia en el ámbito profesional. Para abordar esta carencia, hemos desarrollado un concurso interactivo que incentiva a los estudiantes a mejorar sus habilidades en Bash a través de desafı́os prácticos y competitivos. Este enfoque gamificado busca motivar el aprendizaje autónomo y reforzar el dominio de la lı́nea de comandos en un contexto dinámico. Los resultados han sido prometedores: de los 26 estudiantes participantes, el 85 % consideró que la actividad fue útil para mejorar sus conocimientos y un 71 % manifestó la necesidad de profundizar más en Bash de cara al futuro académico y profesional. Estos hallazgos sugieren que este tipo de iniciativas pueden ser una estrategia efectiva para fomentar el aprendizaje de Bash en entornos académicos.

09:36
Acercando la arquitectura de computadores a los ingenieros de microelectrónica

ABSTRACT. Este articulo presenta la metodología docente implementada en el diseño del curso de refuerzo sobre microprocesadores del Máster de diseño microelectrónico de la Universidad Politécnica de Valencia. Dicha metodología busca acercar la arquitectura de computadores a un perfil de ingeniero en microelectrónica cerrando la brecha entre el diseño digital y los conceptos arquitectónicos de un computador. Para ello se presenta un curso donde se codifica un microprocesador en RTL, generando software para dicho microprocesador tanto en ensamblador, como en C++.

09:54
Generación colaborativa de contenidos de programación para ingenierías con Jupyter Notebooks y GitHub

ABSTRACT. El presente trabajo expone una experiencia de innovación docente aplicada en varias titulaciones de ingeniería, orientada a mejorar el aprendizaje práctico y colaborativo para lenguajes de programación implicados en cada asignatura, mediante la creación de contenidos educativos interactivos. A través del uso combinado de Jupyter Notebooks, GitHub y un servidor docente gestionado con JupyterHub, se ha implementado un entorno de aprendizaje activo que permite al alumnado generar, revisar y utilizar material didáctico adaptado a sus propias necesidades formativas.

El proyecto se ha desarrollado en torno a un modelo basado en la participación activa del estudiantado, estructurado en fases que incluyen una evaluación inicial de conocimientos, la formación de un Grupo Editor encargado de la elaboración de los Notebooks, la revisión colectiva por parte del Grupo Editor de los contenidos y calidad de los Notebooks, la presentación en el aula de los Notebooks y su aplicación mediante clases invertidas dirigidas por los alumnos.

Los resultados preliminares obtenidos, a partir de encuestas y valoraciones del alumnado, destacan una mejora en la adquisición de competencias técnicas y transversales de programación, un aumento significativo del compromiso y la motivación, así como la creación de recursos reutilizables que enriquecen el proceso de enseñanza-aprendizaje.

El análisis del proyecto apunta a la viabilidad de extender esta metodología a otras asignaturas, así como a trabajos de fin de grado y máster, consolidando un modelo sostenible y escalable dentro del ámbito universitario.

10:12
Extensión del simulador CREATOR para integrar funcionalidades de Arduino: caso de estudio con el microcontrolador ESP32

ABSTRACT. El objetivo de este trabajo es introducir el conocimiento de los procesadores RISC-V a estudiantes de universidades y centros de formación profesional a través del soporte para desarrollar aplicaciones en ensamblador sobre placas RISC-V compatibles con Arduino. Por ello, se propone un nuevo entorno de desarrollo que permite a los estudiantes desarrollar proyectos para Arduino utilizando directamente el ensamblador del RISC-V, haciendo, por tanto, más atractivo el aprendizaje de este lenguaje ensamblador. Con este objetivo, se han ampliado las funcionalidades del simulador CREATOR para poder desarrollar proyectos basados en Arduino utilizando el lenguaje ensamblador RISC-V. Además, como ejemplo de uso, se han utilizado microcontroladores RISC-V de la compañía Espressif

09:00-10:30 Session 5D: JCER5 - Redes Neuronales Empotradas
09:00
A Practical Framework for the Design and Implementation of a Convolutional Neural Network on FPGA Platforms

ABSTRACT. Convolutional Neural Networks (CNNs) in Field Programmable Gate Arrays (FPGAs) offer an attractive option due to their capabilities in executing parallel pipelined computations. CNNs are noted for their excellence in image representation and robustness to data variations by convolutional operations to extract features. This research aims to integrate CNNs into a low-cost, energy-efficient FPGA platform without compromising performance or accuracy. As a main result, a CNN model trained on the MNIST dataset achieved 96.60 % accuracy and a mean cost of 2.91 % using mini-batch gradient descent. The model, optimized for fixed-point in MATLAB, was synthesized for a Xilinx Artix-7 FPGA with Vitis HLS. This reduced latency by 87.76%, from 43.71 ms to 5.35 ms compared to the floating-point and increased speed by 1.71x overall, reaching 2.14x for the convolutional layer. Our study also suggests future research directions for alternative architectures and temporal validation techniques.

09:18
Estudio Comparativo de enfoques de aprendizaje profundo para la clasificación de peces salvajes y cultivados

ABSTRACT. Este trabajo presenta un estudio comparativo de métodos avanzados centrados en explorar estrategias para mejorar la clasificación de dos especies de peces mediterráneos de importancia comercial, S. aurata y D. labrax, como salvajes o de cultivo. Esta tarea es crucial para la conservación del medio ambiente y la gestión de la acuicultura, ya que respalda prácticas acuícolas responsables y mantiene la confianza del consumidor al verificar el origen y la autenticidad de los productos pesqueros. Enfoques como las Redes Neuronales Convolucionales (CNNs) y los Vision Transformers (ViTs) suelen depender de entrenamientos específicos para cada tarea, lo que limita su adaptabilidad entre dominios. En este trabajo, comparamos el potencial del Preentrenamiento Contrastivo de Lenguaje e Imagen (CLIP) para la clasificación multimodal de peces. Al combinar la arquitectura preentrenada de CLIP con un clasificador lineal ligero e incorporar descripciones textuales del mundo real proporcionadas por expertos en el dominio, logramos una alta precisión en la clasificación con un entrenamiento mínimo específico para la tarea. Los resultados demuestran que CLIP, incluso con un simple Linear Probe (LP), supera a los modelos convolucionales en precisión, generalización y adaptabilidad, mostrando su potencial para tareas de clasificación especializadas y aplicaciones más amplias.

09:36
SNNorlax: A hardware platform for accelerating Spiking Neural Networks

ABSTRACT. Spiking Neural Networks (SNN) are a type of Artificial Neural Network (ANN) that closely mimics the behaviour of biological neural networks. Unlike traditional ANNs, SNNs encode information as discrete spikes leading to improved performance and high energy efficiency. However, most of the cu- rrent hardware platforms do not take advantage of the event driven nature of SNN and have poor sca- lability when handling larger sizes and more complex networks. To solve these problems, this paper propo- ses a new hardware acceleration platform (SNNorlax), a highly configurable, low power FPGA coprocessor that supports the inference on SNNs with arbitrary topology.

09:54
Exploración de Espacios de Diseño en Sistemas Embebidos: Un Enfoque basado en Programación Genética, Swarm Intelligence y Aprendizaje por Refuerzo

ABSTRACT. El diseño de hardware eficiente para el procesamiento de información en sistemas empotrados es fundamental en aplicaciones que requieren alta velocidad y bajo consumo energético, como el procesamiento de señales e imágenes o la inteligencia artificial en el borde. Sin embargo, estos sistemas enfrentan restricciones significativas en términos de recursos computacionales y consumo de energía, especialmente cuando operan con alimentación por baterías. Además, la configuración manual de los hiperparámetros para lograr un rendimiento óptimo suele ser un proceso largo y complejo.

En este trabajo se lleva a cabo un estudio comparativo entre diferentes técnicas de búsqueda y optimización de hiperparámetros aplicadas al diseño de pipelines de procesamiento de imágenes en dispositivos empotrados. Para ello se consideran tanto la calidad de los resultados obtenidos como los recursos utilizados para la generación del hardware reconfigurable. Esta evaluación es clave en el proceso de maximizar la calidad de los resultados mientras se minimiza el consumo de recursos en el dispositivo.

Para validar la funcionalidad del sistema propuesto, se han llevado a cabo experimentos para comparar los resultados obtenidos por las diferentes técnicas frente a un sistema de procesamiento de imágenes en el borde en producción y sobre un conjunto de datos real, en el ámbito de la agricultura inteligente. Los resultados han mostrado un rendimiento superior de los enfoques evolutivos, especialmente del algoritmo personalizado y NSGA-II, al lograr un buen equilibrio entre precisión y uso de recursos. En contraste, los métodos de refuerzo no convergieron eficazmente y PSO presentó limitaciones exploratorias, destacando así la idoneidad de las técnicas evolutivas en sistemas empotrados con restricciones.

10:12
Implementación Hardware de Precargador de Memoria Caché SGASP mediante HLS

ABSTRACT. En un contexto de auge en la demanda de infraestructuras de cómputo de modelos de Inteligencia Artificial, el coste y la eficiencia de los sistemas desplegados se convierten en factores clave. Las arquitecturas de propósito específico suponen una buena solución a este reto, pero, al igual que sus contrapartes de propósito general, están supeditadas a las restricciones que supone la memoria, afectando al rendimiento y al coste energético. Para mitigar este problema, en este trabajo se explora la implementación de un precargador de memoria para poder enmascarar la latencia de acceso a memoria DRAM externa. Para ello, se propone en este estudio un diseño hardware del precargador Spatial Greedily Accurate SVM-based Prefetcher (SGASP), perteneciente a la familia GASP, que presentó unos resultados superiores al estado-del-arte en un trabajo previo. Se consigue diseñar e implementar de manera eficiente los componentes del precargador incluyendo el modelo SVM, optimizado para aplicar predicción mediante operaciones discretas. Para el diseño hardware del precargador estudiado, se hace uso del método High-Level Synthesis (HLS), simplificando significativamente el proceso. Finalmente, se valida exitosamente el buen funcionamiento de las implementaciones propuestas comparando, por cada acceso a memoria, los resultados de precarga obtenidos usando el simulador ChampSim con aquellos obtenidos simulando el hardware sintetizado.

12:30-14:00 Session 6A: Optimización de Redes Neuronales
12:30
Acelerador de hardware SIRENA: utilizando la descomposición en nibbles para reducir MACs en Redes Neuronales.

ABSTRACT. La creciente demanda de aplicaciones de Inteligencia Artificial (IA) requiere aceleradores hardware especializados para soportar cargas computacionales intensivas. Para reducir las necesidades de cómputo, este artículo introduce la Descomposición en Nibbles (NBD), un método que divide los valores de 8 bits en dos nibbles de 4 bits para detectar y eliminar cálculos redundantes en Redes Neuronales Convolucionales (CNNs). Los experimentos con diversas CNN quatizadas en INT8 muestran que explotar la repetición usando el método NBD elimina hasta el 92% de las multiplicaciones en el nibble superior de 4 bits y un 72% en el nibble inferior de 4 bits.

También presentamos SIRENA, un acelerador hardware basado en la descomposición en nibbles para optimizar CNNs cuantificadas en INT8, eliminado operaciones redundantes sin introducir ningún error. SIRENA logra una reducción del 55% en el consumo de energía en comparación con un acelerador de hardware convencional.

12:48
Análisis comparativo de algoritmos optimizadores para la detección de objetos basada en modelos YOLO para USVs

ABSTRACT. Con los avances en inteligencia artificial, los algoritmos de optimización juegan un papel muy importante al mejorar la eficiencia de los modelos. Este estudio compara distintos optimizadores como SGD, Adam, NAdam, RAdam, RMSProp y Adadelta mediante métricas de rendimiento, usando YOLOv8x con un conjunto de datos en el contexto de vehículos de superficie no tripulados (USV). Además, se realiza una comparativa basada en las versiones YOLOv8x y YOLO11x considerando tiempo de inferencia, fotogramas por segundo (FPS) y mAP (precisión media). También se aplica la técnica de parada temprana basada en convergencia en dos GPUs Nvidia. Los resultados indican que SGD y Adadelta alcanzan una mAP50 mayor o igual al 92% y más de 60 FPS, mientras que la parada temprana reduce el consumo de recursos computacionales sin afectar la precisión. Estos hallazgos apoyan la selección de configuraciones óptimas en modelos de aprendizaje profundo, equilibrando precisión y eficiencia.

13:06
AleSNNet: A parallel Spiking Neural Networks library implementation in C programming language

ABSTRACT. Research in the field of spiking neural network (SNN) has experienced a great growth in recent years due to the similarities these networks have with biological neural networks. Although SNNs have not match the results of DNNs yet, their energy cost is much lower. Additionally, while SNNs have not been able to match the performance shown by traditional DNNs, significant progress has been made in improving results on various benchmarks. Due to the complexity of developing SNNs, software tools for working with these networks are essential, but most are limited to very specific use cases. In this work, the initial version of a more general library for creating and using SNNs, useful in machine learning and biological simulation, has been developed. The implementation is done in the C programming language to achieve the best possible performance, as most used libraries are developed in Python. Moreover, the code has been parallelized in OpenMP to speed up the simulations performed. Results show the effectiveness of parallelization, specially as the size of the networks increase. This enables the simulation of networks which otherwise could not be easily simulated. They also indicate that simulation execution times depend more on the number of synapses than on the number of neurons and that the simulation time for learning rules decreases as the network size increases.

13:24
Inferencia Energéticamente Eficiente en Redes RNN y LLM: Una Evaluación Cuantizada en Dispositivos RISC-V, ARM y x86

ABSTRACT. Este trabajo investiga la eficiencia energética y el rendimiento de modelos de inteligencia artificial cuantizados desplegados en dispositivos de bajo consumo a través de diversas arquitecturas, incluyendo RISC-V, x86, ARM de 64 bits y ARM de 32 bits. Nuestro estudio examina dos clases de modelos: redes neuronales recurrentes para predicción meteorológica y modelos de lenguaje de gran tamaño aplicados en contextos conversacionales. Se emplean técnicas de cuantización para reducir las demandas computacionales y el tamaño de los modelos, manteniendo una precisión aceptable, lo que permite ejecutar modelos a gran escala en hardware con recursos limitados.

Los resultados experimentales ofrecen un análisis detallado de los compromisos entre la complejidad del modelo y la eficiencia energética. La evaluación revela que el impacto de la cuantización sobre el consumo energético y el tiempo de ejecución varía según el modelo y la configuración del hardware, lo que resalta la necesidad de una evaluación cuidadosa de las características específicas del sistema al desplegar aplicaciones de aprendizaje automático en entornos de computación sensibles al consumo energético.

13:42
Análisis sistemático de películas con apoyo de Inteligencia Artificial

ABSTRACT. La aplicación de la Inteligencia Artificial en la detección de objetos ha creado destacables avances en diferentes campos, mejorando la precisión y eficiencia de tareas complejas. En el ámbito cinematográfico, el etiquetado manual de personajes es un proceso tedioso que tiende a incurrir en fallos debido a la fatiga -entre otras cosas-, lo que dificulta la extracción y posterior análisis detallado de patrones. La IA, especialmente a través de modelos de detección de imágenes y visión por computadora nos ofrece una solución eficaz para superar dichas limitaciones, reduciendo errores en la clasificación. Este proyecto tiene como objetivo realizar un análisis sistemático para evaluar qué método de identificación de personajes es el más adecuado y preciso. Se comprobarán los porcentajes de fallo, tiempo invertido, rendimiento, etc., y, por ello, también será necesario elaborar el etiquetado de cada personaje en cada fotograma de una serie de Secuencias extraídas de un filme, en nuestro caso, El Señor de los Anillos: La Comunidad del anillo (Peter Jackson, 2021).

12:30-14:00 Session 6B: Multicores / GPU
12:30
Implementaciones Multiprocesador de Algoritmos de Análisis de Series Temporales

ABSTRACT. El análisis de series temporales es una técnica para extraer y predecir eventos en dominios como la epidemiología, la genómica, la neurociencia,... Matrix Profile, algoritmo de actualidad, es capaz de descubrir las subsecuencias más similares y diferentes en una serie temporal en tiempo determinista y de manera exacta. Tiene baja intensidad aritmética y opera sobre grandes cantidades de datos, lo que puede ser un problema en términos de requisitos de memoria. Por otro lado, la Memoria Transaccional Hardware (HTM) es un método de sincronización optimista que ejecuta transacciones especulativamente en paralelo mientras hace un seguimiento de los accesos a memoria para detectar y resolver conflictos. Este trabajo evalúa una de las mejores implementaciones de Matrix Profile proponiendo nuevas implementaciones multiprocesador con una variedad de métodos de sincronización (HTM, locks, barreras) y organizaciones. Analizamos estas variantes en términos de rendimiento y memoria, siendo esta último un problema importante al tratar con series temporales muy grandes. La evaluación experimental muestra que nuestras propuestas pueden lograr hasta 100x con 128 hilos sobre el algoritmo secuencial, y hasta 3x sobre el base paralelo, manteniendo muy bajos los requisitos de memoria e incluso independientes del número de hilos.

12:48
Estudio de la eficiencia en la escalabilidad de GPU`s para el entrenamiento de Inteligencia Artificial

ABSTRACT. El entrenamiento de modelos de aprendizaje profundo a gran escala se ha convertido en un desafío clave para la comunidad científica y la industria. Si bien el uso masivo de GPUs puede acelerar considerablemente los tiempos de entrenamiento, este enfoque conlleva un impacto negativo en la eficiencia. En este artículo, presentamos un análisis detallado de los tiempos presentados por MLPerf Training v4.1 en cuatro cargas de trabajo: BERT, Llama2 LoRA, RetinaNet y Stable Diffusion, evidenciando que existen configuraciones que optimizan la relación entre el rendimiento, uso de GPUs y eficiencia. Los resultados señalan un “punto de equilibrio” que permite disminuir tiempos de entrenamiento manteniendo maximizando la eficiencia.

13:06
Caracterización Precisa de la Actividad de Coherencia en Multicores usando gem5

ABSTRACT. La simulación permite crear prototipos rentables y rápidos en la investigación de arquitecturas de computadores. Ayuda a evaluar el impacto de los cambios arquitectónicos en el rendimiento, el área y el consumo de energía, desempeñando un papel crucial en las primeras fases de desarrollo.

Gem5 se ha convertido en una herramienta de simulación muy utilizada en el mundo académico y la industria para investigar arquitecturas multinúcleo. Sin embargo, su precisión depende de una configuración adecuada. Los parámetros clave, como la microarquitectura del núcleo, la jerarquía de memoria y la red de interconexión, deben calibrarse cuidadosamente para garantizar resultados realistas.

Este trabajo destaca la importancia de un entorno de simulación bien ajustado para modelar las configuraciones multinúcleo modernas, con especial atención al directorio de coherencia. Refinamos los parámetros de núcleo, memoria y red de interconexión, identificando y abordando las deficiencias de la infraestructura de simulación. Introducimos nuevas funcionalidades y estadísticas para mejorar la caracterización del sistema. Implementamos la metodología Top-Down de Intel en gem5, ampliándola con dos nuevos niveles para analizar el impacto de la actividad de coherencia en el rendimiento.

13:24
Configuración Automática del TMA para GPUs de Alto Rendimiento

ABSTRACT. Para lograr el máximo rendimiento en GPUs, resulta esencial optimizar la localidad de los datos y hacer uso de la ejecución asíncrona, con el fin de reducir al mínimo los costes de acceso a la memoria y solapar cómputo con transferencias de memoria. Si bien características hardware como el Tensor Memory Accelerator (TMA) y la especialización a nivel de warp contribuyen a abordar estos desafíos, su complejidad de uso limita a menudo a los programadores.

En este trabajo presentamos ACTA (Automatic Configuration of the Tensor Memory Accelerator o, en castellano, configuración automática del acelerador TMA), una biblioteca software que simplifica y optimiza el uso del TMA. Al aprovechar la tabla de especificaciones de la GPU (GPU Specification Table, GST), ACTA determina dinámicamente los tamaños de tile y las configuraciones de cola óptimas para cada kernel y arquitectura. Su algoritmo garantiza un solapamiento eficiente entre memoria y cómputo, reduciendo drásticamente la complejidad de programación y eliminando la necesidad de una exploración exhaustiva del espacio de diseño.

Nuestra evaluación sobre un conjunto diverso de kernels muestra que ACTA logra un rendimiento apenas un 2,78% por debajo del ideal y requiere tan solo una única pasada de configuración. Esto convierte a ACTA en una solución práctica y eficiente para optimizar las cargas de trabajo de las GPUs modernas, ya que combina un rendimiento casi óptimo con un esfuerzo de programación significativamente menor.

12:30-14:00 Session 6C: Docencia en ATC
12:30
Estrategia didáctica para la enseñanza de programación paralela a través de problemas recurrentes

ABSTRACT. El aprendizaje efectivo de la programación de las arquitecturas multiprocesador requiere estrategias didácticas que minimicen la carga cognitiva y maximicen la comprensión de los conceptos clave. Este artículo describe una metodología basada en el uso recurrente de tres problemas específicos (dibujo de una bandera, creación del conjunto de Mandelbrot y la simulación de una red trófica Wa-Tor) a lo largo de doce prácticas en la asignatura de Multiprocesadores de la Universidad de Almería. La enseñanza se estructura en fases secuenciales, comenzando con la introducción a Linux y C para la familiarización con herramientas fundamentales, seguida de la implementación de soluciones en C (secuencial), OpenMP y PThreads (memoria compartida) y MPI (memoria distribuida). Esta estrategia permite a los estudiantes enfocarse en los distintos paradigmas de paralelización sin la distracción de múltiples problemas de dominio, resaltando de manera clara las ventajas y desventajas de cada modelo de programación paralela. Los resultados obtenidos evidencian una mejora en la asimilación de los conceptos de paralelismo y comunicación entre procesos, además de un incremento en la eficiencia del desarrollo de código paralelo. La propuesta se perfila como una alternativa efectiva para la enseñanza de multiprocesadores en entornos universitarios, optimizando la curva de aprendizaje y fortaleciendo la formación práctica de los estudiantes en computación de alto rendimiento.

12:48
Shardine: Visualizador y Editor de Sistemas de Ficheros para Docencia de Sistemas Operativos

ABSTRACT. Los sistemas de ficheros son un componente fundamental de los sistemas operativos, pero su docencia suele ser complicada debido a la diferencia que existe entre la visión mostrada a los usuarios y su organización interna, así como la carencia de herramientas que permitan interactuar directamente con esta última.

En este trabajo se presenta Shardine, una aplicación para examinar la estructura interna de sistemas de ficheros simples. La aplicación muestra la distribución y valores de los campos de cada elemento, permitiendo editarlos directamente y ver cómo afectan cambios externos a su contenido. Además, permite deshacer y rehacer los cambios mediante un historial de operaciones. En esta primera versión se incluye soporte para sistemas de ficheros MINIX V3.

Además de describir su funcionalidad, se presentan varios casos de uso que pueden servir de apoyo práctico para comprender determinados aspectos de la organización de un sistema de ficheros en una asignatura introductoria de sistemas operativos.

13:06
Del mundo real al aula: Integrando la gestión de recursos de sistemas reales en la docencia de arquitectura del computador

ABSTRACT. La gestión de recursos es fundamental para optimizar las prestaciones y la equidad en los servidores actuales. Para desarrollar sistemas eficientes, es esencial una formación sólida en técnicas avanzadas de gestión de recursos. Sin embargo, las asignaturas avanzadas sobre arquitectura de computadores suelen concentrarse en los aspectos teóricos o prácticas relativamente sencillas, la mayoría basadas en simuladores, y omitir estos conceptos.

Este artículo presenta la asignatura de máster "Gestión de Recursos en Sistemas Cloud y Evaluación de Prestaciones" (GRE) que aborda la arquitectura de computadores con un enfoque práctico, centrándose en la evaluación de prestaciones y la gestión de recursos de las máquinas comerciales. Los contenidos abarcan tanto sistemas de alto rendimiento (HPC) como sistemas cloud, donde una gestión ineficiente puede comprometer los acuerdos de nivel de servicio (SLA). Un aspecto fundamental es dotar a los alumnos de habilidades prácticas, por lo que se han diseñado prácticas en sistemas reales y empleando herramientas populares tanto en la industria como en la investigación. Esto asegura una formación aplicada y relevante, respaldada por altos niveles de satisfacción estudiantil.

13:24
Herramienta Docente para la Codificación de Vídeo HEVC en Matlab

ABSTRACT. En este artículo se presenta una herramienta educativa desarrollada íntegramente en Matlab que implementa las etapas fundamentales del estándar de codificación de vídeo HEVC. Esta herramienta está especialmente orientada al profesorado y alumnado universitario, facilitando la comprensión profunda e interactiva de los procesos clave como la transformación, cuantización, predicción intra-frame, cálculo del residuo, reconstrucción del vídeo, así como la obtención de curvas Rate-Distortion (R-D). El diseño modular de la herramienta permite realizar modificaciones e integrar fácilmente nuevas estrategias, fomentando así la experimentación activa en el aula y la investigación educativa. Se incluyen ejemplos prácticos y teóricos de aplicación en asignaturas universitarias, así como propuestas de ejercicios académicos para modificar y evaluar distintas configuraciones del codificador original. El código fuente completo, instrucciones de uso y ejemplos se encuentran disponibles en un repositorio oficial de GitHub.

12:30-14:00 Session 6D: JCER6: IoT y Sistemas Neuromórficos
12:30
Diseño de un testbed LoRaWAN Clase B para agricultura inteligente

ABSTRACT. Este trabajo presenta el diseño e implementación de un testbed LoRaWAN Clase B. Tras evaluar 12 dispositivos candidatos, se seleccionó la plataforma B-L072Z-LRWAN1 por su compatibilidad con la especificación Clase B y su desempeño en comunicaciones inalámbricas de largo alcance. La infraestructura propuesta combina un gateway Lorank8 con un GPS, junto con el servidor de red ChirpStack para gestionar comunicaciones bidireccionales programadas.

Los resultados demuestran la capacidad del sistema para mantener sincronización temporal mediante beacons periódicos (intervalos de 128 segundos) y ventanas de recepción predecibles (ping-slots), validados mediante análisis experimental. Este estudio contribuye a superar la escasez de implementaciones reales de Clase B de la literatura. Como trabajo futuro, se propone la integración con redes satelitales para extender la cobertura a zonas completamente aisladas, abordando así uno de los principales desafíos en la implementación de IoT para agricultura de precisión.

12:48
Rotación paralela eficiente de imágenes hiperespectrales en plataformas aceleradas por FPGA.

ABSTRACT. Este trabajo presenta una arquitectura de hardware eficiente para el rotado de imágenes hiperespectrales, basada en una transformación geométrica de matrices combinada con interpolación bilineal para mejorar la precisión de los píxeles. Este tipo de operaciones es habitual en registro de HSI, cuando es necesario una compensación por movimiento de la escena observada. El objetivo principal de esta investigación es minimizar el uso de recursos computacionales del algoritmo, optimizando su eficiencia. Para ello, se emplea una arquitectura de hardware reconfigurable basada en FPGA, donde el algoritmo de rotado es implementado en un acelerador mediante la herramienta de síntesis de alto nivel Vitis HLS, utilizando el mecanismo de bloques de Stream. Tras la implementación, se obtuvieron tanto las imágenes hiperespectrales rotadas como el consumo de recursos computacionales. Adicionalmente, se realizó una implementación alternativa en una arquitectura basada en GPU, específicamente en una Jetson Nano, con el fin de comparar el rendimiento entre ambas soluciones. Se evaluó el consumo de recursos computacionales y se calculó el índice de similitud entre las imágenes resultantes. Los resultados indican que la solución basada en FPGA es más eficiente en términos de recursos, y que la imagen rotada por el acelerador de hardware tiene un indice de similitud en el rango de 0,9 respecto a la generada por la implementación en GPU, lo que indica que ambas son muy similares.

13:06
NASIC: Diseño de un Sensor Auditivo Neuromórfico Digital en ASIC

ABSTRACT. Este artículo presenta el diseño e implementación de un sensor auditivo neuromórfico (NAS) digital en un circuito integrado de aplicación específica (ASIC) utilizando la tecnología CMOS de 65 nm de TSMC. Inspirado en la eficiencia y el bajo consumo de los sistemas auditivos biológicos, el NAS propuesto procesa la información de audio de manera asíncrona, basada en pulsos, lo que resulta ventajoso para el procesamiento de señales complejas con alta precisión temporal y un amplio rango de frecuencias. El documento describe la arquitectura digital del NAS, detallando sus bloques funcionales y el flujo de diseño digital seguido, que abarca la síntesis lógica y la implementación física. Se presentan los resultados clave de la implementación, incluyendo el consumo de potencia, la capacitancia total, el área ocupada y la densidad de utilización, demostrando la viabilidad de un NAS digital para aplicaciones de bajo consumo.

13:24
Dispositivos neuromóficos: Revision y mejoras en el estado del arte.

ABSTRACT. La ingeniería neuromórfica tiene como objetivo replicar los principios de los sistemas neuronales biológicos en hardware, utilizando cómputo basado en eventos inspirado en la forma en que las neuronas procesan y transmiten información. A diferencia de los sistemas convencionales, que dependen del procesamiento sincronizado con reloj, los sistemas neuromórficos emplean comunicación asíncrona basada en pulsos, lo que permite un procesamiento altamente eficiente, con baja latencia y menor consumo de energía. Una de las tecnologías clave que habilitan estos sistemas es la representación de eventos por dirección (AER), un protocolo que permite la comunicación entre dispositivos neuromórficos a través de eventos discretos con marcas de tiempo que codifican la información espacial y temporalmente. Este trabajo presenta una revisión del estado del arte en las herramientas disponibles para la transmisión y recepción de eventos AER y presenta una evolución de la herramienta OKAERtool, describiendo las mejoras implementadas sobre una solución previa. Estas mejoras fueron desarrolladas con el propósito de optimizar la captura, depuración y análisis en tiempo real de señales AER con un incremento del ancho de banda. Además, se presentan distintas APIs de Python para facilitar la interacción con hardware y la integración con la plataforma jAER, bajo un caso de uso para retina DVS, habilitando así un flujo de trabajo más ágil y accesible para desarrolladores e investigadores en el campo de las aplicaciones neuromórficas.