Program

PROGRAM

Days: Monday, August 25th Tuesday, August 26th Wednesday, August 27th Thursday, August 28th Friday, August 29th

Monday, August 25th

View this program: with abstracts session overview talk overview

09:00-09:10 Session 1A: WSCC: Opening Session

09:00-09:30 Session 1B: DynResHPC: Opening Session

09:00-09:15 Session 1C: HiPES: Opening Session

09:00-09:05 Session 1D: GraphSys: Opening Session

09:05-10:00 Session 2: GraphSys Keynote: Jürgen Becker

09:10-10:10 Session 3: WSCC Keynote: TBA

09:15-10:00 Session 4: HiPES Keynote: Marco Lapegna

09:30-10:30 Session 5: DynResHPC Keynote: Thomas Gruber

10:00-10:30 Session 6A: HiPES.1

10:00

Francesco De Micco (University of Naples "Parthenope", Italy)
Francesca Formisano (University of Naples "Parthenope", Italy)
Diana Di Luccio (University of Naples Parthenope, Italy)
Ciro Giuseppe De Vita (University of Naples "Parthenope", Italy)
Gennaro Mellone (University of Napoli "Parthenope", Italy)
Dante Sánchez-Gallegos (Universidad Carlos III de Madrid, Spain)
Pasquale De Luca (University of Naples "Parthenope", Italy)
Emanuel Di Nardo (University of Naples "Parthenope", Italy)
Vincenzo Capozzi (University of Naples "Parthenope", Italy)
Angelo Ciaramella (University of Naples "Parthenope", Italy)

A framework for flooding early warning leveraging AI, HPC, and computing continuum (abstract)

10:00-10:30 Session 6B: GraphSys Invited Short Talks

10:10-10:30 Session 7: Workshop WSCC.1

10:10

Cuong Pham-Quoc (HCMUT, Viet Nam)
Minh-Thu Le-Ngoc (Ho Chi Minh City University of Technology (HCMUT), Viet Nam)
Nhat Huynh-Trung (Ho Chi Minh City University of Technology (HCMUT), Viet Nam)
Thanh-Thien Do-Huu (Ho Chi Minh City University of Technology (HCMUT), Viet Nam)

Efficient FPGA-based GAN Accelerator Core for Edge-AI Platforms (abstract)

10:30-11:00Coffee Break

11:00-12:20 Session 8A: WSCC.2

11:00	Klaus Nölp (University of Hagen, Germany) Lena Oden (University of Hagen, Germany) Simplifying distributed workflows: A portable approach for Cloud and HPC (abstract)
11:20	Laurent Morin (Université Rennes, France) François Bodin (Université Rennes, France) Germaine Nyastikor (Université Rennes, France) HPC Software as a Service: A Flexible Approach to Data Logistics (abstract)
11:40	Carlos Barrios Hernandez (SC3UIS-CAGE, LIG/INRIA-DataMove, CITI/INRIA -Sindy, Colombia) Yves Denneulin (Grenoble-INP - LIG/INRIA, France) Frederic Le Mouel (INSA - CITILAB, France) A Holistic Approach to Complexity Management and Multidimensional Analysis in Computing Continuum (abstract)
12:00	Mohsen Seyedkazemi Ardebili (University of Bologna, Italy) Andrea Bartolini (University of Bologna, Italy) Light Weight Scalable DevOps for Cloud Robotics (abstract)

11:00-12:30 Session 8B: DynResHPC.1

11:00	Dominik Huber (Technical University Munich, Germany) Martin Schreiber (Université Grenoble Alpes, France) Martin Schulz (Technical University Munich, Germany) Howard Pritchard (Los Alamos National Laboratory, United States) Daniel Holmes (Intel Corporation, UK) Design Principles of Dynamic Resource Management for High-Performance Parallel Programming Models (abstract)
11:30	Aleksei Fedotov (Intel, Germany) Michael Voss (Intel, United States) Ilya Isaev (Intel, Germany) A Case Study for Resolving Composability Issues Using a Shared CPU Resource Coordinator (abstract)
12:00	Tiberiu Rotaru (Fraunhofer Institute For Industrial Mathematics ITWM, Germany) Rui Machado (Fraunhofer Institute for Industrial Mathematics ITWM, Germany) Experimental Evaluation of Scheduling Strategies for Evolving Workflow-Based Applications (abstract)

11:00-12:30 Session 8C: HiPES.2

11:00	Marco Edoardo Santimaria (University of Torino, Italy) Adriano Marques Garcia (University of Torino, Italy) Giulio Malenza (University of Torino, Italy) Stefano Monaldi (University of Torino, Italy) Marco Aldinucci (University of Torino, Italy) Robert Birke (University of Torino, Italy) Thread Monitoring Tool: transparent characterization of threading patterns with eBPF (abstract)
11:30	Tommaso Foglio Bonda (University of Turin, Italy) Doriana Medic (University of Turin, Italy) Alberto Mulone (University of Turin, Italy) Marco Aldinucci (University of Turin, Italy) Accelerating SWIRL Workflows: A High-Performance Rust Backend for Distributed Execution (abstract)
12:00	Eugenio Cesario (University of Calabria, Italy) Salvatore Giampà (Relatech Group, Italy) Domenico Talia (University of Calabria, Italy) Building Parallel Machine Learning Workflows in PyCOMPSs: The Case Study of Tsunami Forecasting (abstract)

11:00-11:50 Session 8D: GraphSys.1

11:00	Shaoshuai Du (University of Amsterdam, Netherlands) Joze Rozanec (University of Twente, Netherlands) Ana Lucia Varbanescu (University of Twente, Netherlands) Andy D. Pimentel (University of Amsterdam, Netherlands) A Comparative Study of Streaming Graph Processing Systems (abstract)
11:25	Junaid Ahmed Khan (University of Bologna, Italy) Andrea Bartolini (University of Bologna, Italy) A Unified Ontology for Scalable Knowledge Graph–Driven Operational Data Analytics in High-Performance Computing Systems (abstract)

11:50-12:30 Session 9: GraphSys Invited Talk: Setareh Maghsudi

12:20-12:30 Session 10: WSCC: Closing Session

12:30-14:00Lunch Break

14:00-15:30 Session 11A: DynResHPC.2

14:00	Paula Sánchez-Checa (Universidad Carlos III de Madrid, Spain) Genaro Sánchez-Gallegos (Universidad Carlos III de Madrid, Spain) Javier Garcia-Blas (Universidad Carlos III de Madrid, Spain) Jesus Carretero (Universidad Carlos III de Madrid, Spain) David E. Singh (Universidad Carlos III de Madrid, Spain) Comparative Analysis of Algorithms for Malleability Decision-Making in Applications and File Systems (abstract)
14:30	Zafer Bora Yılmazer (Technical University of Munich, Germany) Dominik Huber (Technical University of Munich, Germany) Arjun Parab (Leibniz Supercomputing Centre, Germany) Amir Raoofy (Leibniz Supercomputing Centre, Germany) Josef Weidendorfer (Leibniz Supercomputing Centre, Germany) Malleability in LAIK with MPI Dynamic Processes and PSets (abstract)
15:00	Ahmad Tarraf (TU Darmstadt, Germany) Glib Grozin (TU Darmstadt, Germany) Felix Wolf (TU Darmstadt, Germany) Dynamic Data Redistribution for Malleable MPI Frameworks through Virtual Topologies (abstract)
15:15	Iker Martín Álvarez (Universidad Jaume I, Spain) José Ignacio Aliaga (Computer Science and Engineering Department, University Jaume I, Spain) Mª Isabel Castillo (Universitat Jaume I, Spain) Dynamic reconfiguration for malleable applications using RMA (abstract)

14:00-14:30 Session 11B: HiPES.3

14:00

Maximo Rodriguez (Universidad Carlos III de Madrid, Spain)
Dante Sánchez-Gallegos (Universidad Carlos III de Madrid, Spain)
Marco Nuñez (Instituto Nacional de Rehabilitacion "Luis Guillermo Ibarra Ibarra", Mexico)
Heriberto Aguirre-Meneses (Instituto Nacional de Rehabilitacion "Luis Guillermo Ibarra Ibarra", Mexico)
Luis Villalvazo-Gutiérrez (Instituto Nacional de Rehabilitacion "Luis Guillermo Ibarra Ibarra", Mexico)
Mario Ibrahin Gutiérrez Velasco (SECIHTI - Departamento de Sistemas Médicos INRLGII, Mexico)
Jose Luis Gonzalez-Compean (Cinvestav-Tamps, Mexico)
Jesus Carretero (Universidad Carlos III de Madrid, Spain)

A Computer-aided Framework for Detecting Osteosarcoma in Computed Tomography Scans (abstract)

14:00-14:40 Session 11C: GraphSys Invited Talk: Kathrin Hanauer

14:30-15:00 Session 12: HiPES Panel: Discussing the vision about the high-performance cloud computing in eScience application

14:40-15:30 Session 13: GraphSys.2

14:40	Aristeidis Mastoras (Computing Systems Laboratory, Huawei Zurich Research Center, Switzerland) Albert-Jan N. Yzelman (Computing Systems Laboratory, Huawei Zurich Research Center, Switzerland) Efficient handling of sparse vectors for parallel nonblocking execution in GraphBLAS (abstract)
15:05	Duncan Bart (University of Twente, Netherlands) Kuan-Hsun Chen (University of Twente, Netherlands) Ana-Lucia Varbanescu (University of Twente, Netherlands) Millibenchmarking: Using Graph Sampling for Ranking GPU PageRank Implementations (abstract)

15:30-16:00Coffee Break

16:00-16:15 Session 14A: DynResHPC Invited Talk: Simon Pickartz

16:00-17:15 Session 14B: HiPES Hand-on tutorial: R.Montella, G. Mellone

16:00-17:00 Session 14C: GraphSys Keynote: Maciej Besta

16:15-16:20 Session 15: DynResHPC: Closing Session

16:20-17:30 Session 16: DynResHPC: Consortium Meeting

17:00-17:30 Session 17: GraphSys: Panel

17:15-17:30 Session 18: HiPES: Closing Session

Tuesday, August 26th

View this program: with abstracts session overview talk overview

09:00-09:05 Session 19A: HeteroPar: Opening Session

09:00-09:50 Session 19B: VHPC Tutorial: Writing a hypervisor from scratch

09:05-10:00 Session 20: HeteroPar Keynote: Michel Steuwer

09:15-09:30 Session 21: PECS: Opening Session

09:30-10:30 Session 22: PECS Invited Talk: Leonel Sousa

09:50-10:30 Session 23: VHPC.1

09:50

Seiha Nuta (TBA, Germany)

Enabling RDMA and GPUs in Rootless Kubernetes for Accelerated HPC and AI Applications (abstract)

10:00-10:30 Session 24: HeteroPar.1

10:00

Ivan Donchev Kabadzhov (EURECOM, France)
Jose Mordgado (INESC-ID, Instituto Superior Tecnico, Universidade de Lisboa, Portugal)
Aleksandar Ilic (INESC-ID, Instituto Superior Tecnico, Universidade de Lisboa, Portugal)
Raja Appuswamy (EURECOM, France)

Open, cross-architecture acceleration of data analytics with SYCL and RISC-V (abstract)

10:30-11:00Coffee Break

11:00-12:30 Session 25A: PECS.1

11:00	Meven Mognol (CNRS, France) Florestan De Moor (CNRS, France) Erwan Drezen (Pasteur Institute, France) Yann Falevoz (UPMEM, France) Dominique Lavenier (CNRS, France) Evaluating Energy Efficiency of Genomics Algorithms on Processing-in-Memory Architectures (abstract)
11:30	Salvatore Cielo (Leibniz Supercomputing Centre, Germany) Alexander Pöppl (Intel Deutschland GmbH, Germany) Ivan Pribec (Leibniz Supercomputing Centre, Germany) SYCL for Energy-Efficient Computational Astrophysics: the case of DPEcho (abstract)
12:00	Guillaume Raffin (LIG, Univ. Grenoble Alpes, France) Denis Trystram (Grenoble Alpes university, France) Olivier Richard (LIG Laboratory Grenoble, France) Alumet: a modular framework to standardize the measurement of energy consumption (abstract)

11:00-12:30 Session 25B: HeteroPar.2

11:00	Loris Belcastro (University of Calabria, Italy) Nicola Gabriele (University of Calabria, Italy) Fabrizio Marozzo (University of Calabria, Italy) Alessio Orsino (University of Calabria, Italy) Domenico Talia (University of Calabria, Italy) Paolo Trunfio (University of Calabria, Italy) Rosa María Badia (Barcelona Supercomputing Center, Spain) Francesc Lordan (Barcelona Supercomputing Center, Spain) Federated Learning in the Edge-Cloud Continuum: A Task-Based Approach with Colony (abstract)
11:30	Juan José Ropero (Universidad de Valladolid, Spain) Manuel de Castro (Universidad de Valladolid, Spain) Diego R. Llanos (Universidad de Valladolid, Spain) OpenDwarfs 2025: Modernizing the OpenDwarfs Benchmark Suite for Heterogeneous Computing (abstract)
12:00	Måns I. Andersson (KTH, Sweden) Hugo Martin Christian Karp (KTH Royal Institute of Technology, Sweden) Niclas Jansson (PDC, Sweden) Stefano Markidis (KTH Royal Institute of Technology, Sweden) Portable High-Performance Kernel Generation for a Computational Fluid Dynamics Code with DaCe (abstract)

11:00-11:30 Session 25C: VHPC Invited Talk: TBA

11:30-12:00 Session 26: VHPC Invited Talk: TBA

12:00-12:30 Session 27: VHPC.2

12:00

Manoj Patra (TBA, Germany)

Performance Analysis of Container-in-VM Architectures: A Study on Hypervisor Isolation and Lightweight OS Integration (abstract)

12:30-14:00Lunch Break

14:00-15:30 Session 28A: PECS.2

14:00	Marcelo Augusto Sudo (Federal University of Sao Paulo (UNIFESP), Brazil) Alvaro Luiz Fazenda (Federal University of Sao Paulo (UNIFESP), Brazil) Roberto Pinto Souto (National Scientific Computing Laboratory (LNCC), Brazil) Mixed precision over GPU applied to a Microphysics model (abstract)
14:30	Botond Szirtes (Eötvös Loránd University, Hungary) Melinda Tóth (Eotvos Lorand University, Budapest, Hungary) Comparative Analysis of Energy Efficiency in Actor-Based Applications in Distributed Environments (abstract)
15:00	Max Lübke (University of Potsdam, Germany) Dorian Stoll (University of Potsdam, Germany) Bettina Schnor (University of Potsdam, Germany) Stefan Petri (Potsdam Institute for Climate Impact Research (PIK), Germany) HPC Benchmark Game: Comparing Programming Languages Regarding Energy-Efficiency for Applications from the HPC Field (abstract)

14:00-15:30 Session 28B: HeteroPar.3

14:00	Martin Rose (University of Stuttgart, Germany) Simon Homes (Technische Universität Berlin, Germany) Lukas Ramsperger (University of Stuttgart, Germany) Jose Gracia (High Performance Computing Center Stuttgart, Germany) Christoph Niethammer (HRLS, Universität Stuttgart, Germany) Jadran Vrabec (Thermodynamics and Process Engineering, Technical University of Berlin, Germany) Cyclic Data Streaming on GPUs for Short Range Stencils Applied to Molecular Dynamics (abstract) PRESENTER: Martin Rose
14:30	Ivan Tagliaferro de Oliveira Tezoto (CNRS/CRIStAL UMR 9189, Centre Inria de l’Université de Lille, France; University of Luxembourg, SnT, Luxembourg, France) Guillaume Helbecque (Université de Lille, CNRS/CRIStAL UMR 9189, Centre Inria de l’Université de Lille, France, France) Ezhilmathi Krishnasamy (University of Luxembourg, FSTM-DCS, Luxembourg, Luxembourg) Nouredine Melab (Université de Lille, CNRS/CRIStAL UMR 9189, Centre Inria de l’Université de Lille, France, France) Grégoire Danoy (University of Luxembourg, FSTM-DCS, Luxembourg; University of Luxembourg, SnT, Luxembourg, Luxembourg) A Portable Branch-and-Bound Algorithm for Cross-Architecture Multi-GPU Systems (abstract)
15:00	Joachim Jenke (RWTH Aachen University, Germany) Ben Thärigen (RWTH Aachen University, Germany) Kaloyan Ignatov (RWTH Aachen University, Germany) Tobias Dollenbacher (RWTH Aachen University, Germany) Simon Schwitanski (RWTH Aachen University, Germany) Tracking the Critical Path of Execution for GPU Offloading Applications (abstract)

14:00-14:40 Session 28C: VHPC Invited Talk: TBA

14:40-15:20 Session 29: VHPC.3

14:40

Enrico Fiasco (TBA, Germany)

WebAssembly and Unikernels: A Comparative Study for Serverless at the Edge (abstract)

15:30-16:00Coffee Break

16:00-17:00 Session 30A: PECS.3

16:00	Abdessalam Benhari (Université de Grenoble Alpes, France) Yves Denneulin (Université de Grenoble Alpes, France) Frédéric Desprez (INRIA, France) Fanny Dufossé (INRIA, France) Denis Trystram (Université de Grenoble Alpes, France) Analysis of the carbon footprint of HPC (abstract)
16:30	Miray Ozcan (Minerva University, United States) Philipp Wiesner (Technical University Berlin, Germany) Philipp Jan Weiß (Technical University Berlin, Germany) Odej Kao (Technical University Berlin, Germany) Quantifying the Energy Consumption and Carbon Emissions of LLM Inference via Simulations (abstract)

16:00-17:30 Session 30B: HeteroPar.4

16:00	Allen Malony (University of Oregon, United States) Michael Dushkoff (University of Oregon, United States) Grace McLewee (University of Oregon, United States) Kevin Huck (AMD, United States) SIMON: A Simple Monitoring Framework for Heterogeneous Application Observability (abstract)
16:30	Manuel de Castro Caballero (Universidad de Valladolid, Spain) Sergio Alonso Pascual (Universidad de Valladolid, Spain) Rubén Gran Tejero (Universidad de Zaragoaza, Spain) Yuri Torres (Universidad de Valladolid, Spain) Arturo Gonzalez-Escribano (Universidad de Valladolid, Spain) Exploiting highly heterogenous systems with stencil applications (abstract)
17:00	Marcelo Torres Do Ó (Escola de Artes, Ciências e Humanidades, Universidade de São Paulo, Brazil) Daniel Cordeiro (Escola de Artes, Ciências e Humanidades, Universidade de São Paulo, Brazil) Veronika Rehn-Sonigo (Université Marie et Louis Pasteur, CNRS, FEMTO-ST institute, France) Green Energy Aware Scheduling of Scientific Workflows with Flexible Deadlines (abstract)

17:00-17:10 Session 31: PECS: Closing Session

17:30-17:35 Session 32: HeteroPar: Closing Session

19:00-22:30 Welcome Reception

Wednesday, August 27th

View this program: with abstracts session overview talk overview

09:00-09:30 Session 33: Opening Session

09:30-10:30 Session 34: Keynote 1: Martin Schulz

10:30-11:00Coffee Break

11:00-12:30 Session 35A: Track 2.1: Scheduling, Resource Management, Cloud, Edge Computing, and Workflows

11:00	Daniel Medeiros (KTH Royal Institute of Technology, Sweden) Jeremy Williams (KTH Royal Institute of Technology, Sweden) Jacob Wahlgren (KTH Royal Institute of Technology, Sweden) Leonardo Saud Maia Leite (KTH Royal Institute of Technology, Sweden) Ivy Peng (KTH Royal Institute of Technology, Sweden) ARC-V: Vertical Resource Adaptivity for HPC Workloads in Containerized Environments (abstract)
11:20	Thomas Jakobsche (University of Basel, Switzerland) Osman S. Simsek (University of Basel, Switzerland) Jim Brandt (Sandia National Laboratories, United States) Ann Gentile (Sandia National Laboratories, United States) Florina M. Ciorba (University of Basel, Switzerland) An Autonomy Loop for Dynamic HPC Job Time Limit Adjustment (abstract)
11:40	Rajat Bhattarai (Tennessee Tech University, United States) Howard Pritchard (Los Alamos National Laboratory, United States) Sheikh Ghafoor (Tennessee Tech University, United States) Enabling Elasticity in Scientific Workflows for High Performance Computing Systems (abstract)
12:00	Marta Navarro (Universitat Politècnica de València, Spain) Vicent Pallardó-Julià (Universitat de València, Spain) Salvador Petit (Universitat Politècnica de València, Spain) Maria Gomez (Universitat Politècnica de València, Spain) Julio Sahuquillo (Universitat Politècnica de València, Spain) WAPA: A Workload-Agnostic CPI-Based Thread-to-Core Allocation Policy (abstract)

11:00-12:30 Session 35B: Track 3.1: Neural Network Acceleration and Optimization

11:00	Yudong Mu (Institute of Computing Technology, Chinese Academy of Sciences, China) Zhihua Fan (Institute of Computing Technology, Chinese Academy of Sciences, China) Xiaoxia Yao (China Mobile Research Institute, China) Wenming Li (Institute of Computing Technology, Chinese Academy of Sciences, China) Zhiyuan Zhang (Insitute of Computing Technology, Chinese Academy of Sciences, China) Honglie Wang (Institute of Automation, Chinese Academy of Sciences, China) Xuejun An (Insitute of Computing Technology, Chinese Academy of Sciences, China) Xiaochun Ye (Institute of Computing Technology, Chinese Academy of Sciences, China) FDHA: Fusion-Driven Heterogeneous Accelerator for Efficient Diffusion Model Inference (abstract)
11:20	Jiale Dong (University of Science and Technology of China, China) Hao Wu (University of Science and Technology of China, China) Zihao Wang (University of Science and Technology of China, China) Wenqi Lou (University of Science and Technology of China, China) Zhendong Zheng (University of Science and Technology of China, China) Lei Gong (University of Science and Technology of China, China) Chao Wang (University of Science and Technology of China, China) Xuehai Zhou (University of Science and Technology of China, China) CoQMoE: Co-Designed Quantization and Computation Orchestration for Mixture-of-Experts Vision Transformer on FPGA (abstract)
11:40	Joonyup Kwon (Korea University, South Korea) Jinhyeok Choi (Korea University, South Korea) Ngoc-Son Pham (Korea University, South Korea) Sangwon Shin (Korea University, South Korea) Taeweon Suh (Korea University, South Korea) SkipNZ: Non-Zero Value Skipping for Efficient CNN Acceleration (abstract)
12:00	Piyumal Ranawaka (Chalmers University of Technology, Sweden) Per Stenstrom (Chalmers University of Technology, Sweden) BATCH-DNN: Adaptive and Dynamic Batching for Multi-DNN Accelerators (abstract)

11:00-12:30 Session 35C: Track 6.1: Memory and I/O Systems

11:00	Yisu Wang (HKUST (GZ), China) Xinjiao Li (HKUST (GZ), China) Ruilong Wu (HKUST (GZ), China) Huangxun Chen (HKUST (GZ), China) Dirk Kutscher (HKUST (GZ), Germany) NetSenseML: Network-Adaptive Compression for Efficient Distributed Machine Learning (abstract)
11:20	John W. Romein (Stichting ASTRON (Netherlands Institute for Radio Astronomy), Netherlands) Breaking the I/O Barrier: 1.2 Tb/s Ethernet Packet Processing on a GPU (abstract)
11:40	Tianyu Wan (Wuhan National Laboratory for Optoelectronics, Huazhong University of Science and Technology, Wuhan, Hubei, China, China) Shijia Gong (Wuhan National Laboratory for Optoelectronics, Huazhong University of Science and Technology, Wuhan, Hubei, China, China) Yangyang Hu (Wuhan National Laboratory for Optoelectronics, Huazhong University of Science and Technology, Wuhan, Hubei, China, China) Jianxi Chen (Wuhan National Laboratory for Optoelectronics, Huazhong University of Science and Technology, Wuhan, Hubei, China, China) GECKO: A Write-optimized Hybrid Index based on Disaggregated Memory (abstract)
12:00	Jhonatan Cléto (Universidade Estadual de Campinas (UNICAMP), Brazil) Guilherme Valarini (Universidade Estadual de Campinas (UNICAMP), Brazil) Marcio Pereira (Universidade Estadual de Campinas (UNICAMP), Brazil) Guido Araujo (Universidade Estadual de Campinas (UNICAMP), Brazil) Hervé Yviquel (Universidade Estadual de Campinas (UNICAMP), Brazil) Scalable OpenMP Remote Offloading via Asynchronous MPI and Coroutine-Driven Communication (abstract)

12:30-14:00Lunch Break

14:00-15:00 Session 36A: Track 1.1: Performance Analysis and Simulation

14:00	Anna-Lena Roth (Hochschule Fulda, University of Applied Sciences, Germany) David James (Hochschule Fulda, University of Applied Sciences, Germany) Michael Kuhn (Otto von Guericke University Magdeburg, Germany) Dustin Frisch (Hochschule Fulda, University of Applied Sciences, Germany) Making MPI Collective Operations Visible: Understanding Their Utility and Algorithmic Insights (abstract)
14:20	Jaewoo Son (Seoul National University, South Korea) Youngchul Yoon (Seoul National University, South Korea) Soonhoi Ha (Seoul National University, South Korea) TSim4CXL: Trace-driven Simulation Framework for CXL-based High-Performance Computing Systems (abstract)
14:40	Solomon Bekele (Argonne National Laboratory, United States) Aurelio Vivas (University De Los Andes - Colombia, Colombia) Thomas Applencourt (Argonne National Laboratory, United States) Kazutomo Yoshii (Argonne National Laboratory, United States) Swann Perarnau (Argonne National Laboratory, United States) Servesh Muralidharan (Argonne National Laboratory, United States) Bryce Allen (Argonne National Laboratory, United States) Brice Videau (Argonne National Laboratory, United States) THAPI: Tracing Heterogeneous APIs (abstract)

14:00-15:00 Session 36B: Track 6.2: Learning systems

14:00	Xinrui Yang (Harbin Institute of Technology, Shenzhen, China) Shaohuai Shi (Harbin Institute of Technology, Shenzhen, China) SQ-DeAR: Sparsified and Quantized Gradient Compression for Distributed Training (abstract)
14:20	Samuel Wiggins (University of Southern California, United States) Nikunj Gupta (University of Southern California, United States) Grace Zgheib (Altera, United States) Mahesh Iyer (Altera, United States) Viktor Prasanna (University of Southern California, United States) Accelerating Independent Multi-Agent Reinforcement Learning on Multi-GPU Platforms (abstract)
14:40	Wenxiang Lin (Harbin Institute of Technology, Shenzhen, China) Xinglin Pan (The Hong Kong University of Science and Technology, GuangZhou, China) Shaohuai Shi (Harbin Institute of Technology, Shenzhen, China) Xuan Wang (Harbin Institute of Technology, Shenzhen, China) Xiaowen Chu (The Hong Kong University of Science and Technology, Guangzhou, China) ScheInfer: Efficient Inference of Large Language Models with Task Scheduling on Moderate GPUs. (abstract)

14:00-15:00 Session 36C: WHPC Special Session: Advances in HPC Computing Applications

15:00-16:00Coffee Break and PhD Symposium and Poster&Demos Session

The PhD Symposium Posters and the Posters & Demos will be on display in this coffee break.

15:00-16:00 Session 37A: Demos&Poster Session during the Coffee Break

Manuel I. Capel (University of Granada, Spain)
Javier Gómez-Garaluz (University of Granada, Spain)
Juan A. Holgado (University of Granada, Spain)

Optimized Parallel Metaheuristics for Big Data Processing on GPUs with Apache Spark (abstract)

Gia Bao Thieu (Chair for Chip Design for Embedded Computing, TU Braunschweig, Germany)
Jasper Homann (Chair for Chip Design for Embedded Computing, TU Braunschweig, Germany)
Sven Gesper (Chair for Chip Design for Embedded Computing, TU Braunschweig, Germany)
Guillermo Payá-Vayá (Chair for Chip Design for Embedded Computing, TU Braunschweig, Germany)

Portable and Scalable FPGA Emulation of a Massive-Parallel Vector Processor (abstract)

Sanyam Kaul (IIT Hyderabad, India)
Gayathri Shreeya P (IIT Hyderabad, India)
Manaswini Piduguralla (IIT Hyderabad, India)
Sathya Peri (IIT Hyderabad, India)

Modifying the HyperLedger Fabric Blockchain Architecture to increase throughput and decrease transaction rejections (abstract)

Jj Merelo (University of Granada, Spain)
Gustavo Romero López (University of Granada, Spain)
Mario Garcia Valdez (Inst Tec de Tijuana, Mexico)

Time-related effects in the measurement of energy consumption in evolutionary algorithms (abstract)

Nikolai Beliaev (Independent researcher, Germany)

ParSolGen (Parallel Solvers Generator) - an automated numerical parallel programs generator for distributed memory parallel computers (abstract)

Mario Bielert (ZIH, CIDS, TU Dresden, Germany)
Daniel Hackenberg (ZIH, CIDS, TU Dresden, Germany)

Towards Digital Twins of HPC Data Centres Modelling Infrastructure and HPC Systems for IT-Zauber (abstract)

Phani Sahasra Akkinepally (IIT Hyderabad, India)
Manaswini Piduguralla (IIT Hyderabad, India)
Sathya Peri (IIT Hyderabad, India)

Fault-Tolerant Distributed Federated Learning with Adaptive Termination Detection (abstract)

Ruiwen Wang (Sorbonne University/Eurecom/Huawei France, France)
Chong Li (Huawei France, France)
Raja Appuswamy (Eurecom Institute, France)

H2O: Holistic Hyper-Parameter Optimization for Large-Scale Deep Neural Network Training (abstract)

15:00-16:00 Session 37B: PhD Symposium Poster Session during the Coffee Break

Sunil Kumar (IIIT-Delhi, India)

Power Scheduling on Multicore Multiprocessor Systems for Maximizing Throughput and Fairness (abstract)

Yi-Hua Chung (University of Wisconsin-Madison, United States)
Nahmsuk Oh (Synopsys Inc, United States)
Malleswara Gupta Balabhadra Naga Venkata (Synopsys Inc, United States)
Aditya Shiledar (Synopsys Inc, United States)
Sudipto Kundu (Synopsys Inc, United States)
Vishal Khandelwal (Synopsys Inc, United States)
Tsung-Wei Huang (University of Wisconsin-Madison, United States)

Accelerating Gate Sizing using GPU (abstract)

Rubayet Rahman Rongon (Washington State University, United States)
Xuechen Zhang (Washington State University, United States)

SCOPE: Accelerating ML data pipeline using cloud-based computational storage (abstract)

Mateusz Grużewski (West Pomeranian University of Technology in Szczecin, Poland)

Advanced Techniques in Polyhedral Model-Based Compilers for Efficient and Cross-Platform Code Generation on Multicore Processors (abstract)

Jack Strange (University of Manchester, UK)
Rizos Sakellariou (The University of Manchester, UK)

CoreWaterfall: a Virtual-Core-Focused Scheduling and Allocation Algorithm for Oversubscribed Virtual Machines (abstract)

Ben Thärigen (RWTH Aachen University, Germany)
Joachim Jenke (RWTH Aachen University, Germany)
Christian Terboven (RWTH Aachen University, Germany)
Matthias S. Müller (RWTH Aachen University, Germany)

On-the-fly Performance Analysis of Asynchronous Parallel Execution (abstract)

Yao Lu (Beihang University, China)
Zhongzhi Luan (Beihang university, China)
Depei Qian (Beihang university, China)

TH-Pulse: A Study on Hardware-Software Co-Designed Framework for LLM Training and Inference on the Tianhe new-generation supercomputer (abstract)

Bin Han (Beihang University, China)
Ming Gong (Institute of High Energy Physics, Chinese Academy of Sciences, China)
Zhongzhi Luan (Beihang University, China)
Depei Qian (Beihang University, China)

DCG-DDQ: A Directed Cyclic Graph Based Task Computing System (abstract)

Gia Bao Thieu (Chair for Chip Design for Embedded Computing, TU Braunschweig, Germany)
Guillermo Payá-Vayá (Chair for Chip Design for Embedded Computing, TU Braunschweig, Germany)

A Hybrid DMA-Cache Mechanism to Leverage Memory Bandwidth in Massive-Parallel Processors (abstract)

Pawel Bratek (Czestochowa University of Technology, Poland)
Lukasz Szustak (Czestochowa University of Technology, Poland)
Jaroslaw Zola (University at Buffalo, United States)

Boosting Performance of Counting Queries in Machine Learning Applications with a ccNUMA-aware Implementation (abstract)

Hamid Moghadaspour (Instituto de Telecomunicações, Department of Electrical and Computer Engineering, University of Coimbra, Portugal, Portugal)
Nuno Neves (INESC-ID, IST, Universidade de Lisboa, Portugal)
Oscar Ferraz (Instituto de Telecomunicações, Portugal)
Paulo Peixoto (Institute of Systems and Robotics, Department of Electrical and Computer Engineering, University of Coimbra, Portugal, Portugal)
Jorge Lobo (Instituto de Telecomunicações, Department of Electrical and Computer Engineering, University of Coimbra, Portugal, Portugal)
Gabriel Falcao (Instituto de Telecomunicacoes, Portugal)

EAGER: Energy-Aware 3D Gaussian Splatting on Embedded Parallel Heterogeneous Systems (abstract)

Ashwina Kumar (Indian Institute of Technology, Madras, India)
Rupesh Nasre (Indian Institute of Technology,Madras, India)

AskLLVM: LLVM Code Generation for GPUs for Graph Algorithms (abstract)

Jan Meizner (Sano - Centre for Computational Personalised Medicine - International Research Foundation, Poland)
Maciej Malawski (Sano - Centre for Computational Personalised Medicine - International Research Foundation, Poland)

Heterogeneous computing, storage and network infrastructures for medical applications (abstract)

16:00-17:30 Session 38A: Track 2.2: Scheduling, Resource Management, Cloud, Edge Computing, and Workflows

16:00	Jianfeng Gu (Technical University of Munich, Germany) Puxuan Wang (Technical University of Munich, Germany) Isaac David Núñez Araya (Technical University of Munich, Germany) Kai Huang (Sun Yat-sen University, China) Michael Gerndt (Technical University of Munich, Germany) HAS-GPU: Efficient Hybrid Auto-scaling with Fine-grained GPU Allocation for SLO-aware Serverless Inferences (abstract)
16:20	Yiming Sun (Institute of Computing Technology, Chinese Academy of Sciences, China) Jiaqi Zhang (Institute of Computing Technology, Chinese Academy of Sciences, China) Jie Zhang (Institute of Computing Technology, Chinese Academy of Sciences, China) Huawei Cao (Institute of Computing Technology, Chinese Academy of Sciences, China) Xuejun An (Institute of Computing Technology, Chinese Academy of Sciences, China) Xiaochun Ye (Institute of Computing Technology, Chinese Academy of Sciences, China) CGP-Graphless: Towards Efficient Serverless Graph Processing via CPU-GPU Pipelined Collaboration (abstract)
16:40	Kaicheng Guo (Shanghai Jiao Tong University, China) Jingyi Chen (Shanghai Jiao Tong University, China) Yun Wang (Shanghai Jiao Tong University, China) Semakin Anton (Huawei technologies co. ltd., Russia) Tovmachenko Dmitry (Huawei technologies co. ltd., Russia) Jiajie Sheng (Shanghai Jiao Tong University, China) Jianwen Wei (Shanghai Jiao Tong University, China) James Lin (Shanghai Jiao Tong University, China) Zhengwei Qi (Shanghai Jiao Tong University, China) Haibing Guan (Shanghai Jiao Tong University, China) Design and Operation of Elastic GPU-pooling on Campus (abstract)
17:00	Mingxuan Liu (Northwestern Polytechnical University, China) Jianhua Gu (Northwestern Polytechnical University, China) Tianhai Zhao (Northwestern Polytechnical University, China) ServerlessRec: Fast Serverless Inference for Embedding-based Recommender Systems with Disaggregated Memory (abstract)

16:00-17:30 Session 38B: Track 6.3: Stream, Image and Sequence Processing

16:00	Apurv Deepak Kulkarni (Center for Scalable Data Analytics and Artificial Intelligence Dresden/Leipzig, Germany) Siavash Ghiasvand (Center for Scalable Data Analytics and Artificial Intelligence Dresden/Leipzig, Germany) SProBench: Stream Processing Benchmark for High Performance Computing Infrastructure (abstract)
16:20	Lifeng Yan (Shandong University, China) Zekun Yin (Shandong University, China) Qixin Chang (Shandong University, China) Tong Zhang (Shandong University, China) Zhisong Wang (Shandong University, China) Xiaohui Duan (Shandong University, China) Bertil Schmidt (Johannes Gutenberg University, Germany) Weiguo Liu (Shandong University, China) SWBWA: A Highly Efficient NGS Aligner on the New Sunway Architecture (abstract)
16:40	Marie Reinbigler (Télécom SudParis - Institut Polytechnique de Paris, France) Rishi Sharma (EPFL, Switzerland) Rafael Pires (EPFL, Switzerland) Elisabeth Brunet (Télécom Sudparis - Institut Polytechnique de Paris, Inria, France) Anne-Marie Kermarrec (EPFL, Switzerland) Catalin Fetita (Télécom Sudparis - Institut Polytechnique de Paris, France) Efficient Pyramidal Analysis of Gigapixel Images on a Decentralized Modest Computer Cluster (abstract)

16:00-17:30 Session 38C: WHPC Special Session: Advances in HPC Computing Applications

Thursday, August 28th

View this program: with abstracts session overview talk overview

09:00-10:00 Session 39: Keynote 2: Domenico Talia

10:00-10:30Coffee Break

10:30-12:30 Session 40: Best Paper Session

10:30	Aurélien Delval (SiPearl - Université Paris-Saclay, UVSQ, Li-PaRAD, France) Pablo de Oliveira Castro (Université Paris-Saclay, UVSQ, Li-PaRAD, France) William Jalby (Université Paris-Saclay, UVSQ, Li-PaRAD, France) Etienne Renault (SiPearl, France) Noise injection for performance bottleneck analysis (abstract)
10:50	Louis-Claude Canon (Univ. Marie et Louis Pasteur, CNRS, institut FEMTO-ST, F-25000 Besançon, France) Anthony Dugois (Univ. Marie et Louis Pasteur, CNRS, institut FEMTO-ST, F-25000 Besançon, France) Ismaël Jecker (Univ. Marie et Louis Pasteur, CNRS, institut FEMTO-ST, F-25000 Besançon, France) Pierre-Cyrille Heam (Univ. Marie et Louis Pasteur, CNRS, institut FEMTO-ST, F-25000 Besançon, France) Approximation Bounds for SLACK on Identical Parallel Machines (abstract)
11:10	Jiangying Xue (University of Electronic Science and Technology of China, China) Tianyu Xiong (University of Electronic Science and Technology of China, China) Lingwei Chao (University of Electronic Science and Technology of China, China) Ruini Xue (University of Electronic Science and Technology of China, China) SimPoint+: More Stable, Accurate and Efficient Program Analysis (abstract)
11:30	Xuanzheng Wang (Tsinghua University, China) Shuo Miao (Tsinghua University, China) Zihan Zhu (Tsinghua University, China) Peng Qu (Tsinghua University, China) Youhui Zhang (Tsinghua University, China) AlphaSparseTensor: Discovering Faster Sparse Matrix Multiplication Algorithms on GPUs for LLM Inference (abstract)
11:50	Jeffrey Spaan (University of Twente, Netherlands) Kuan-Hsun Chen (University of Twente, Netherlands) David A. Bader (NJIT, United States) Ana-Lucia Varbanescu (University of Twente, Netherlands) Wedge-Parallel Triangle Counting for GPUs (abstract)
12:10	Abhijeet Sahu (Indian Institute of Technology Tirupati, India) Andaluri S P V M Aditya (Indian Institute of Technology Tirupati, India) Gadhamsetty Ramakrishna (Indian Institute of Technology Tirupati, India) Malleti Sai Nikhil (Indian Institute of Technology Tirupati, India) Kishore Kothapalli (International Institute of Information Technology Hyderabad, India) Dip Sankar Banerjee (Indian Institute of Technology Jodhpur, India) External GPU Biconnected Components (abstract)

12:30-14:00Lunch Break

14:00-15:30 Session 41A: Track 1.2: Compilers, Optimizations, and Scheduling

14:00	Wei Li (Chongqing University, China) Ao Ren (Chongqing University, China) Qingqiu Lan (Chongqing University, China) Haining Fang (Chongqing University, China) Zhenyu Wang (Chongqing University, China) Yujuan Tan (Chongqing University, China) Kan Zhong (Chongqing University, China) Duo Liu (Chongqing University, China) CoSF: A Co-Optimization Framework for Operator Splitting and Fusion (abstract)
14:20	Jie Tong (University of Wisconsin-Madison, United States) Wan-Luan Lee (University of Wisconsin–Madison, United States) Umit Yusuf Ogras (University of Wisconsin-Madison, United States) Tsung-Wei Huang (University of Wisconsin-Madison, United States) Scalable Code Generation for RTL Simulation of Deep Learning Accelerators with MLIR (abstract)
14:40	Ivo Gabe de Wolff (Utrecht University, Netherlands) David van Balen (Utrecht University, Netherlands) Gabriele Keller (Utrecht University, Netherlands) Scheduling Task and Data Parallelism in Array Languages with Work Assisting (abstract)
15:00	Andre Rauber Du Bois (Universidade Federal de Pelotas, Brazil) Gerson Cavalheiro (Universidade Federal de Pelotas, Brazil) Polymorphic Higher-Order GPU Kernels (abstract)

14:00-15:30 Session 41B: Track 4.1: Scalable AI Optimization and Parallel Training

14:00	Xinjue Zheng (Huazhong University of Science and Technology, China) Zhangqiang Ming (Huazhong University of Science and Technology, China) Yuchong Hu (Huazhong University of Science and Technology, China) Chenxuan Yao (Huazhong University of Science and Technology, China) Wenxiang Zhou (Huazhong University of Science and Technology, China) Rui Wang (Huazhong University of Science and Technology, China) Xun Chen (Huazhong University of Science and Technology, China) Dan Feng (Huazhong University of Science and Technology, China) Saving Memory via Residual Reduction for DNN Training with Compressed Communication (abstract)
14:20	Jacob Garby (Chalmers University of Technology, Sweden) Philippas Tsigas (Chalmers University of Technology, Sweden) Interval-Asynchrony: Delimited Intervals of Localised Asynchrony for Fast Parallel SGD (abstract)
14:40	Sanjif Shanmugavelu (Groq Inc, UK) Mathieu Taillefumier (CSCS Swiss National Supercomputing Centre, Switzerland) Christopher Culver (Groq Inc, United States) Oscar Hernandez (Oak Ridge National Laboratory, United States) Vijay Ganesh (Georgia Tech, United States) Ada Sedova (Oak Ridge National Laboratory, United States) Robustness of deep learning classification to adversarial input on GPUs: asynchronous parallel accumulation is a source of vulnerability (abstract)
15:00	Matyáš Brabec (Charles University, Czech Republic, Czechia) Jiří Klepl (Charles University, Czech Republic, Czechia) Michal Töpfer (Charles University, Czech Republic, Czechia) Martin Kruliš (Charles University, Czech Republic, Czechia) Tutoring LLM into a Better CUDA Optimizer (abstract) PRESENTER: Martin Kruliš

14:00-15:30 Session 41C: Track 3.2: Architecture

14:00	Hao Lan (Institute of Computing Technology，Chinese Academy of Science；ZGC Laboratory；University of Chinese Academy of Sciences, China) Ziang Zhou (Institute of Computing Technology，Chinese Academy of Science；University of Chinese Academy of Sciences,Beijing, China, China) Qi Zhu (Institute of Computing Technology，Chinese Academy of Science；University of Chinese Academy of Sciences,Beijing, China, China) Wei Yan (Institute of Computing Technology，Chinese Academy of Science；ZGC Laboratory；University of Chinese Academy of Sciences, China) Qinfen Hao (Institute of Computing Technology，Chinese Academy of Science；ZGC Laboratory；University of Chinese Academy of Sciences, China) Xiaochun Ye (Institute of Computing Technology，Chinese Academy of Science；University of Chinese Academy of Sciences,Beijing, China, China) Yong Liu (ZGC Laboratory；Qi-AnXin Technology Group, QAX Security Center, Xicheng District, Beijing, China, China) Ninghui Sun (Institute of Computing Technology，Chinese Academy of Science；ZGC Laboratory；University of Chinese Academy of Sciences, China) ParTEE:A Framework for Secure Parallel Computing of RISC-V TEEs (abstract)
14:20	Ruimin Shi (KTH Royal Institute of Technology, Sweden) Gabin Schieffer (KTH Royal Institute of Technology, Sweden) Maya Gokhale (Lawrence Livermore National Laboratory, United States) Pei-Hung Lin (Lawrence Livermore National Laboratory, United States) Hiren Patel (University of Waterloo, Canada) Ivy Peng (KTH Royal Institute of Technology, Sweden) ARM SVE Unleashed: Performance and Insights Across HPC Applications on Nvidia Grace (abstract)
14:40	Jin Pu (Shanghai Jiao Tong University, China) Shengan Zheng (Shanghai Jiao Tong University, China) Penghao Sun (Shanghai Jiao Tong University, China) Guifeng Wang (Shanghai Jiao Tong University, China) Xin Xie (Shanghai Jiao Tong University, China) Linpeng Huang (Shanghai Jiao Tong University, China) CSGC: Collaborative File System Garbage Collection with Computational Storage (abstract)
15:00	Zhenxuan Xiong (National University of Defense Technology, China) Libo Huang (National University of Defense Technology, China) Ling Yang (National University of Defense Technology, China) Hui Guo (National University of Defense Technology, China) Junhui Wang (National University of Defense Technology, China) Zheng Zhong (National University of Defense Technology, China) Songwen Pei (University of Shanghai for Science and Technology, China) Gang Chen (Sun Yat-sen University, China) Yongwen Wang (National University of Defense Technology, China) SONet: Towards Practical Online Neural Network for Enhancing Hard-To-Predict Branches (abstract)

15:30-16:00Coffee Break

16:00-17:30 Session 42A: Track 3.3: Caching and Memory for ML

16:00	Mengyue Xi (Sun Yat-sen University, China) Jingyi He (Sun Yat-sen University, China) Xianwei Zhang (Sun Yat-sen University, China) CacheC: LLM-based GPU Cache Management to Enhance Kernel Concurrency (abstract)
16:20	Zhaoyang Zeng (Chongqing University, China) Yujuan Tan (Chongqing University, China) Jiali Li (Tsinghua University, China) Zhuoxin Bai (Chongqing University, China) Kan Zhong (Chongqing University, China) Duo Liu (Chongqing University, China) Ao Ren (Chongqing University, China) Cocache: An Accurate And Low-overhead Dynamic Caching Method for GNNs (abstract)
16:40	Yi Luo (Southwest University of Science and Technology, China) Yaobin Wang (Southwest University of Science and Technology, China) Qi Wang (Southwest University of Science and Technology, China) Yingchen Song (Southwest University of Science and Technology, China) Huan Wu (Southwest University of Science and Technology, China) Qingfeng Wang (Southwest University of Science and Technology, China) Jun Huang (Southwest University of Science and Technology, China) DCI: An Efficient Workload-Aware Dual-Cache Allocation GNN Inference Acceleration System (abstract)
17:00	Kazi Asifuzzaman (Oak Ridge National Laboratory, United States) Aaron Young (Oak Ridge National Laboratory, United States) Prasanna Date (Oak Ridge National Laboratory, United States) Shruti Kulkarni (Oak Ridge National Laboratory, United States) Narasinga Rao Miniskar (Oak Ridge National Laboratory, United States) Matthew Marinella (Arizona State University, United States) Jeffrey Vetter (Oak Ridge National Laboratory, United States) ReSpike: A Co-Design Framework for Evaluating SNNs on ReRAM-based Neuromorphic Processors (abstract)

16:00-17:30 Session 42B: Track 2.3: Scheduling, Resource Management, Cloud, Edge Computing, and Workflows

16:00	Yang Xu (University of Science and Technology of China, China) Zhiwei Yao (University of Science and Technology of China, China) Hongli Xu (University of Science and Technology of China, China) Yunming Liao (University of Science and Technology of China, China) Zuan Xie (University of Science and Technology of China, China) MPLS: Stacking Diverse Layers into One Model for Decentralized Federated Learning (abstract)
16:20	Roopkatha Banerjee (Indian Institute of Science, India) Tejus Chandrashekar (Indian Institute of Science, India) Ananth Eswar (Indian Institute of Science, India) Yogesh Simmhan (Indian Institute of Science, India) Federated Learning within Global Energy Budget over Heterogeneous Edge Accelerators (abstract)
16:40	Volodia Parol-Guarino (Centre INRIA de l'Université de Rennes, France) Nikos Parlavantzas (INSA Rennes, France) Auction-based Placement of Functions in the Fog at Scale (abstract)
17:00	Giuseppe Coviello (NEC Laboratories America, Inc., United States) Kunal Rao (NEC Laboratories America, Inc., United States) Mohammad Khojastepour (NEC Laboratories America, United States) Srimat T. Chakradhar (NEC Labs, United States) Bifröst: Peer-to-peer Load-balancing for Function Execution in Agentic AI Systems (abstract)

16:00-17:30 Session 42C: Track 4.2: Efficient AI Inference and Model Serving at Scale

16:00	Ao Chen (Institute of Computing Technology, Chinese Academy of Sciences, China) Guangli Li (Institute of Computing Technology, Chinese Academy of Sciences, China) Feng Yu (Institute of Computing Technology, Chinese Academy of Sciences, China) Xueying Wang (Beijing University of Posts and Telecommunications, China) Jiacheng Zhao (Institute of Computing Technology at Chinese Academy of Sciences, China) Huimin Cui (Institute of Computing Technology at Chinese Academy of Sciences, China) Xiaobing Feng (Institute of Computing Technology at Chinese Academy of Sciences, China) Jingling Xue (The University of New South Wales, Australia) TopServe: Task-Operator Co-Scheduling for Efficient Multi-DNN Inference Serving on GPUs (abstract)
16:20	Tianyu Guo (Sun Yat-Sen University, China) Hande Dong (Tencent, China) Yichong Leng (University of Science and Technology of China, China) Feng Liu (Tencent, China) Cheater Lin (Tencent, China) Nong Xiao (Sun Yat-sen University, China) Xianwei Zhang (Sun Yat-sen University, China) EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse (abstract)
16:40	Nicolás Hernández González (Universidad de La Laguna, Spain) Pedro Antonio Toledo Delgado (Universidad de La Laguna, Spain) Vicente José Blanco Pérez (Universidad de La Laguna, Spain) Francisco Carmelo Almeida Rodríguez (Universidad de La Laguna, Spain) 2:4 Pruning on Edge Devices: Performance, Energy Efficiency and Accuracy (abstract)
17:00	Cheng Gu (Shanghai Jiao Tong University, China) Gang Li (Institute of Automation, Chinese Academy of Sciences, China) Xuan Zhang (Shanghai Jiao Tong University, China) Jiayao Ling (Shanghai Jiao Tong University, China) Xiaolong Lin (Shanghai Jiao Tong University, China) Zhuoran Song (Shanghai Jiao Tong University, China) Jian Cheng (Institute of Automation, Chinese Academy of Sciences, China) Xiaoyao Liang (Shanghai Jiao Tong University, China) Light-DiT: An Importance-Aware Dynamic Compression Framework for Diffusion Transformers (abstract)

19:30-23:00 Conference Dinner

Friday, August 29th

View this program: with abstracts session overview talk overview

09:00-10:00 Session 43: Keynote 3: Florina Ciorba

10:00-10:10 Session 44: Announcement of Euro-Par 2026

10:10-10:30Coffee Break

10:30-12:00 Session 45A: Track 2.4: Scheduling, Resource Management, Cloud, Edge Computing, and Workflows

10:30	Yunling Chen (School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou, China, China) Qingyin Lin (School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou, China, China) Zhitao Chen (School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou, China, China) Yang Ou (College of Computer Science and Technology, National University of Defense Technology, Changsha, China, China) Zhiguang Chen (School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou, China, China) DynoInfer: Adaptive Resource Orchestration for LLM Inference on Resource-Constrained PCs (abstract)
10:50	Yunlan Wang (Northwestern Polytechnical University, China) Yutong Liu (Northwestern Polytechnical University, China) Jianhua Gu (Northwestern Polytechnical University, China) Tianhai Zhao (Northwestern Polytechnical University, China) Zhengxiong Hou (Northwestern Polytechnical University, China) Chengwen Zhong (Northwestern Polytechnical University, China) Container Workload Prediction Using Deep Domain Adaptation in Transfer Learning (abstract)
11:10	Sunil Kumar (IIIT-Delhi, India) Vivek Kumar (IIIT-Delhi, India) KarmaPM: Reward-Driven Power Manager (abstract)
11:30	Nobel Dhar (Kennesaw State University, United States) Bobin Deng (Kennesaw State University, United States) Md Romyull Islam (Kennesaw State University, United States) Xinyue Zhang (Kennesaw State University, United States) Kazi Fahim Ahmad Nasif (Kennesaw State University, United States) Kun Suo (Kennesaw State University, United States) A Sparsity Predicting Approach for General Large Language Models via Activation Pattern Clustering (abstract)

10:30-12:00 Session 45B: Track 4.3: Distributed systems, Compression, and Federated Applications

10:30	Zhichen Feng (Computer Network Information Center, Chinese Academy of Sciences & University of Chinese Academy of Sciences, China, China) Xin Zhang (Computer Network Information Center, Chinese Academy of Sciences & University of Chinese Academy of Sciences, China, China) DiffNO: Neural Operator Learning using Physically Structured Constrained Diffusion Model (abstract)
10:50	Loris Belcastro (University of Calabria, Italy) Paolo Ferragina (Sant’Anna School of Advanced Studies, Italy) Giovanni Manzini (University of Pisa, Italy) Fabrizio Marozzo (DIMES, University of Calabria, Italy) Domenico Talia (University of Calabria, Italy) Paolo Trunfio (DEIS, University of Calabria, Italy) Scalable Compression of Massive Data Collections on HPC Systems (abstract)
11:10	Sabtain Ahmad (Vienna University of Technology, Austria) Thomas Schneidergruber (Paris-Lodron University of Salzburg, Austria) Ivona Brandic (Vienna University of Technology, Austria) Johannes Scholz (Paris-Lodron University of Salzburg, Austria) On-Device Federated Learning for Remote Alpine Livestock Monitoring (abstract)
11:30	Rubayet Rahman Rongon (Washington State University, United States) Xuechen Zhang (Washington State University, United States) IAUG: Accelerating Augmentation with Importance Sampling in Deep Neural Network Training (abstract)

10:30-12:00 Session 45C: Track 5.1: Theory and Algorithms

10:30	Spyros Angelopoulos (CNRS, France) Loris Marchal (CNRS, France) Adrien Obrecht (ENS-Lyon, France) Bertrand Simon (CNRS, France) Cache Management for Mixture-of-Experts LLMs (abstract)
10:50	Atte Torri (Université Paris-Saclay, LISN, CNRS, France) Przemyslaw Dominikowski (Université Paris-Saclay, Inria, France) Brice Pointal (Université Paris-Saclay, LISN, CNRS, France) Oguz Kaya (Université Paris-Saclay, LISN, CNRS, France) Laercio Lima Pilla (Université de Bordeaux, CNRS, Bordeaux INP, Inria, LaBRI, France) Olivier Coulaud (Inria, France) Near-optimal contraction strategies for the scalar product in the tensor-train format (abstract)
11:10	John Augustine (IIT Madras, India, India) Christian Scheideler (Paderborn University, Germany, Germany) Julian Werthmann (Paderborn University, Germany, Germany) Supervised Distributed Computing (abstract)
11:30	Anne Benoit (ENS Lyon - LIP, France) Thomas Herault (INRIA, France) Yves Robert (ENS Lyon, France) Alix Tremodeux (ENS Lyon, France) Partial Detectors Versus Replication To Cope With Silent Errors (abstract)

10:30-12:00 Session 45D: Track 6.4: Graph Algorithms and Linear Algebra

10:30	Chao Wang (University of Science and Technology of China, China) Haijie Hou (University of Science and Technology of China, China) Longsheng Song (University of Science and Technology of China, China) Junshi Chen (University of Science and Technology of China, China) Hong An (University of Science and Technology of China, China) Dongdong Tan (University of Science and Technology of China, China) Yueqiang He (University of Science and Technology of China, China) Sihan Lu (University of Science and Technology of China, China) Uniform Dense Blocking for Efficient Sparse LU Factorization in First-principles Materials Simulation (abstract)
10:50	Soumyajit Chatterjee (Indian Institute of Technology, Hyderabad, India) Rahul Utkoor (Qualcomm Innovation Center, Hyderabad, India) Eshwar Uppu (Indian Institute of Technology, Hyderabad, India) Sathya Peri (Indian Institute of Technlogy, Hyderabad, India) Venkata Krishna Nandivada (Indian Institute of Technology, Madras, India) Efficient Task Graph Scheduling for Parallel QR Factorization in SLSQP (abstract)
11:10	Florian Willich (Humbold Universität zu Berlin, Germany) Henning Meyerhenke (Humbold Universität zu Berlin, Germany) ScaleRunner: A Fast MPI-based Random Walk Engine for Multi-CPU Systems (abstract)

12:00-13:30Lunch Break

13:30-14:30 Session 46A: Track 2.5: Scheduling, Resource Management, Cloud, Edge Computing, and Workflows

13:30	Olivier Beaumont (Inria, France) Raphael Bourgouin (Inria, France) Maxime Darrin (Mistral AI, France) Loris Marchal (IRL ILLS (CNRS, McGill, ETS Montreal), Canada) Pablo Piantanida (IRL ILLS (CNRS, McGill, ETS Montreal), Canada) Leveraging Expert Usage to Speed up LLM Inference with Expert Parallelism (abstract)
13:50	Ana Gainaru (Oak Ridge National Laboratory, United States) Scott Klasky (ORNL, United States) Guillaume Pallez (INRIA, France) Priority-BF: a Task Manager for Priority-Based Scheduling (abstract)
14:10	Joachim Cendrier (ENS Lyon, France) Rajini Wijayawardana (University of Chicago, United States) Anne Benoit (ENS Lyon, France) Yves Robert (ENS Lyon, France) Frédéric Vivien (INRIA, France) Andrew Chien (University of Chicago, United States) Green Scheduling on the Edge (abstract)

13:30-14:30 Session 46B: Track 5.2: Theory and Algorithms

13:30	Chryssis Georgiou (University of Cyprus, Cyprus) Piduguralla Manaswini (IIT hyderabad, India) Sathya Peri (Indian Institute of Technology Hyderabad, India) Byzantine-Tolerant Consensus in GPU-Inspired Shared Memory (abstract)
13:50	Thomas Koopman (Radboud University, Netherlands) Sven-Bodo Scholz (Radboud University, Netherlands) Bernard van Gastel (Radboud University, Netherlands) Partitioning In-Place on Massively Parallel Systems (abstract)

13:30-14:30 Session 46C: Track 6.5: GPU and Quantum Systems

13:30	Massimiliano Meneghin (Autodesk Research, Italy) Ahmed Mahmoud (MIT, United States) Disaggregated Design for GPU-Based Volumetric Data Structures (abstract)
13:50	Jiale Zhang (Jilin university, China) Xilong Che (Jilin university, China) Yuzhe Fan (Jilin university, China) Juncheng Hu (Jilin university, China) Quantum Delta Encoding: Optimizing Data Storage on Quantum Computers with Resource Efficiency (abstract)
14:10	Yi-Hua Chung (University of Wisconsin at Madison, United States) Shui Jiang (The Chinese University of Hong Kong, Hong Kong) Wan Luan Lee (University of Wisconsin at Madison, United States) Yanqing Zhang (Nvidia Corporation, United States) Haoxing Ren (Nvidia Corporation, United States) Tsung-Yi Ho (The Chinese University of Hong Kong, Hong Kong) Tsung-Wei Huang (University of Wisconsin at Madison, United States) SimPart: A Simple Yet Effective Replication-aided Partitioning Algorithm for Logic Simulation on GPU (abstract)

14:30-15:00 Session 47: Closing Session