Recorded Events

Presenters: Carlo Siebenschuh, Kyle Hippe, Ozan Gokdemir, Alexander Brace, Arham Khan, Khalid Hossain, Yadu Babuji, Nicholas Chia, Venkatram Vishwanath, Arvind Ramanathan, Rick Stevens, Ian Foster, Robert Underwood

AdaParse: An Adaptive Parallel PDF Parsing and Resource Scaling Engine

|Mission City Ballroom

AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds

|Mission City Ballroom

Presenters: Yinfang Chen, Manish Shetty, Gagan Somashekar, Minghua Ma, Yogesh Simmhan, Jonathan Mace, Chetan Bansal, Rujia Wang, S R

AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds

|Mission City Ballroom

Presenters: Yinfang Chen, Manish Shetty, Gagan Somashekar, Minghua Ma, Yogesh Simmhan, Jonathan Mace, Chetan Bansal, Rujia Wang, S R

APOLLO: SGD-like Memory, AdamW-level Performance

|Mission City Ballroom

Presenters: Hanqing Zhu, Zhenyu Zhang, Wenyan Cong, Xi Liu, Sem Park, Vikas Chandra, Bo Long, David Pan, Atlas Wang, Jinwon Lee

APOLLO: SGD-like Memory, AdamW-level Performance

|Mission City Ballroom

Presenters: Hanqing Zhu, Zhenyu Zhang, Wenyan Cong, Xi Liu, Sem Park, Vikas Chandra, Bo Long, David Pan, Atlas Wang, Jinwon Lee

Balancing Pipeline Parallelism with Vocabulary Parallelism

|Mission City Ballroom

Presenters: Man Tsung Yeung, Penghui Qi, Min Lin, Xinyi Wan

Balancing Pipeline Parallelism with Vocabulary Parallelism

|Mission City Ballroom

Presenters: Man Tsung Yeung, Penghui Qi, Min Lin, Xinyi Wan

COMET: Fine-grained Computation-communication Overlapping for Mixture-of-Experts

|Mission City Ballroom

Presenters: Shulai Zhang, Ningxin Zheng, Haibin Lin, Ziheng Jiang, Wenlei Bao, Chengquan Jiang, Qi Hou, Weihao Cui, Size Zheng, Li-Wen Chang, Quan Chen, Xin Liu

COMET: Fine-grained Computation-communication Overlapping for Mixture-of-Experts

|Mission City Ballroom

Presenters: Shulai Zhang, Ningxin Zheng, Haibin Lin, Ziheng Jiang, Wenlei Bao, Chengquan Jiang, Qi Hou, Weihao Cui, Size Zheng, Li-Wen Chang, Quan Chen, Xin Liu

Context Parallelism for Scalable Million-Token Inference

|Mission City Ballroom

Presenters: Amy Yang, Jingyi Yang, Aya Ibrahim, Xinfeng Xie, Bangsheng Tang, Grigory Sizov, Jongsoo Park, Jianyu Huang

Context Parallelism for Scalable Million-Token Inference

|Mission City Ballroom

Presenters: Amy Yang, Jingyi Yang, Aya Ibrahim, Xinfeng Xie, Bangsheng Tang, Grigory Sizov, Jongsoo Park, Jianyu Huang

DiffServe: Efficiently Serving Text-to-Image Diffusion Models with Query-Aware Model Scaling

|Mission City Ballroom

Presenters: Sohaib Ahmad, Qizheng Yang, Haoliang Wang, Ramesh Sitaraman, Hui Guan

DiffServe: Efficiently Serving Text-to-Image Diffusion Models with Query-Aware Model Scaling

|Mission City Ballroom

Presenters: Sohaib Ahmad, Qizheng Yang, Haoliang Wang, Ramesh Sitaraman, Hui Guan

Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Masking

|Mission City Ballroom

Presenters: Marco Federici, Davide Belli, Mart van Baalen, Amir Jalalirad, Andrii Skliar, Bence Major, Markus Nagel, Paul Whatmough

Efficient LLM Inference using Dynamic Input Pruning and Cache-Aware Masking

|Mission City Ballroom

Presenters: Marco Federici, Davide Belli, Mart van Baalen, Amir Jalalirad, Andrii Skliar, Bence Major, Markus Nagel, Paul Whatmough

Efficient On-Device Machine Learning with a Biologically-Plausible Forward-Only Algorithm

|Mission City Ballroom

Presenters: Baichuan Huang, Amir Aminifar

Efficient On-Device Machine Learning with a Biologically-Plausible Forward-Only Algorithm

|Mission City Ballroom

Presenters: Baichuan Huang, Amir Aminifar

Enabling Unstructured Sparse Acceleration on Structured Sparse Accelerators

|Mission City Ballroom

Presenters: Geonhwa Jeong, Po-An Tsai, Abhimanyu Rajeshkumar Bambhaniya, Stephen Keckler, Tushar Krishna

Enabling Unstructured Sparse Acceleration on Structured Sparse Accelerators

|Mission City Ballroom

Presenters: Geonhwa Jeong, Po-An Tsai, Abhimanyu Rajeshkumar Bambhaniya, Stephen Keckler, Tushar Krishna

FastTree: Optimizing Attention Kernel and Runtime for Tree-Structured LLM Inference

|Mission City Ballroom

Presenters: Zaifeng Pan, Yitong Ding, Yue Guan, Zheng Wang, Zhongkai Yu, Xulong Tang, Yida Wang, Yufei Ding

FastTree: Optimizing Attention Kernel and Runtime for Tree-Structured LLM Inference

|Mission City Ballroom

Presenters: Zaifeng Pan, Yitong Ding, Yue Guan, Zheng Wang, Zhongkai Yu, Xulong Tang, Yida Wang, Yufei Ding

FedProphet: Memory-Efficient Federated Adversarial Training via Robust and Consistent Cascade Learning

|Mission City Ballroom

Presenters: Minxue Tang, Yitu Wang, Jingyang Zhang, Louis DiValentin, Aolin Ding, Amin Hass, Yiran Chen, Hai Li

FedProphet: Memory-Efficient Federated Adversarial Training via Robust and Consistent Cascade Learning

|Mission City Ballroom

Presenters: Minxue Tang, Yitu Wang, Jingyang Zhang, Louis DiValentin, Aolin Ding, Amin Hass, Yiran Chen, Hai Li

FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving

|Mission City Ballroom

Presenters: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze

FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving

|Mission City Ballroom

Presenters: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze

FlexAttention: A Programming Model for Generating Fused Attention Variants.

|Mission City Ballroom

Presenters: Juechu Dong, BOYUAN FENG, Driss Guessous, Yanbo Liang, Horace He

FlexAttention: A Programming Model for Generating Fused Attention Variants.

|Mission City Ballroom

Presenters: Juechu Dong, BOYUAN FENG, Driss Guessous, Yanbo Liang, Horace He

FlexInfer: Flexible LLM Inference with CPU Computations

|Mission City Ballroom

Presenters: Seonjin Na, Geonhwa Jeong, Byung Hoon Ahn, Aaron Jezghani, Jeffrey Young, Christopher Hughes, Tushar Krishna, Hyesoon Kim

FlexInfer: Flexible LLM Inference with CPU Computations

|Mission City Ballroom

Presenters: Seonjin Na, Geonhwa Jeong, Byung Hoon Ahn, Aaron Jezghani, Jeffrey Young, Christopher Hughes, Tushar Krishna, Hyesoon Kim

FLStore: Efficient Federated Learning Storage for non-training workloads

|Mission City Ballroom

Presenters: Ahmad Faraz Khan, Samuel Fountain, Ahmed Mohamed Abdelmoniem Sayed, Ali R. Butt, Ali Anwar

FLStore: Efficient Federated Learning Storage for non-training workloads

|Mission City Ballroom

Presenters: Ahmad Faraz Khan, Samuel Fountain, Ahmed Mohamed Abdelmoniem Sayed, Ali R. Butt, Ali Anwar

Graph Learning at Scale: Characterizing and Optimizing Pre-Propagation GNNs

|Mission City Ballroom

Presenters: Zichao Yue, Chenhui Deng, Zhiru Zhang

Graph Learning at Scale: Characterizing and Optimizing Pre-Propagation GNNs

|Mission City Ballroom

Presenters: Zichao Yue, Chenhui Deng, Zhiru Zhang

GSplit: Scaling Graph Neural Network Training on Large Graphs via Split-Parallelism

|Mission City Ballroom

Presenters: Sandeep Polisetty, Juelin Liu, Yi Fung, Seung-Hwan Lim, Hui Guan, Marco Serafini

GSplit: Scaling Graph Neural Network Training on Large Graphs via Split-Parallelism

|Mission City Ballroom

Presenters: Sandeep Polisetty, Juelin Liu, Yi Fung, Seung-Hwan Lim, Hui Guan, Marco Serafini

HyC-LoRA: Memory Efficient LoRA Fine-tuning with Hybrid Activation Compression

|Mission City Ballroom

Presenters: Yujin Wang, Shunan Dong, Zongle Huang, Yichen You, Liu He, Huazhong Yang, Yongpan Liu, Hongyang Jia

HyC-LoRA: Memory Efficient LoRA Fine-tuning with Hybrid Activation Compression

|Mission City Ballroom

Presenters: Yujin Wang, Shunan Dong, Zongle Huang, Yichen You, Liu He, Huazhong Yang, Yongpan Liu, Hongyang Jia

Interference-aware Edge Runtime Prediction with Conformal Matrix Completion

|Mission City Ballroom

Presenters: Tianshu Huang, Arjun Ramesh, Emily Ruppel, Nuno Pereira, Anthony Rowe, Carlee Joe-Wong

Interference-aware Edge Runtime Prediction with Conformal Matrix Completion

|Mission City Ballroom

Presenters: Tianshu Huang, Arjun Ramesh, Emily Ruppel, Nuno Pereira, Anthony Rowe, Carlee Joe-Wong

Know Where You’re Uncertain When Planning with Multimodal Foundation Models: A Formal Framework

|Mission City Ballroom

Presenters: Neel P. Bhatt, Yunhao Yang, Rohan Siva, Daniel Milan, Ufuk Topcu, Atlas Wang

Know Where You’re Uncertain When Planning with Multimodal Foundation Models: A Formal Framework

|Mission City Ballroom

Presenters: Neel P. Bhatt, Yunhao Yang, Rohan Siva, Daniel Milan, Ufuk Topcu, Atlas Wang

LAVA: Lifetime-Aware VM Allocation with Learned Distributions and Adaptation to Mispredictions

|Mission City Ballroom

Presenters: Jianheng Ling, Pratik Worah, Yawen Wang, Yunchuan Kong, Chunlei Wang, Clifford Stein, Diwakar Gupta, Jason Behmer, Logan Bush, Prakash Ramanan, Rajesh Kumar, Thomas Chestna, Yajing Liu, Ying Liu, Ye Zhao, Kathryn S. McKinley, Meeyoung Park, Martin Maas

LAVA: Lifetime-Aware VM Allocation with Learned Distributions and Adaptation to Mispredictions

|Mission City Ballroom

LeanAttention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers

|Mission City Ballroom

Presenters: Rya Sanovar, Srikant Bharadwaj, Renée St. Amant, Victor Ruehle, Saravan Rajmohan

LeanAttention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers

|Mission City Ballroom

Presenters: Rya Sanovar, Srikant Bharadwaj, Renée St. Amant, Victor Ruehle, Saravan Rajmohan

Lightweight Software Kernels and Hardware Extensions for Efficient Sparse Deep Neural Networks on Microcontrollers

|Mission City Ballroom

Presenters: Francesco Daghero, Daniele Jahier Pagliari, Francesco Conti, Luca Benini, Massimo Poncino, Alessio Burrello

Lightweight Software Kernels and Hardware Extensions for Efficient Sparse Deep Neural Networks on Microcontrollers

|Mission City Ballroom

Presenters: Francesco Daghero, Daniele Jahier Pagliari, Francesco Conti, Luca Benini, Massimo Poncino, Alessio Burrello

LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

|Mission City Ballroom

Presenters: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han

LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

|Mission City Ballroom

Presenters: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han

Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training

|Mission City Ballroom

Presenters: Mingyu Liang, Hiwot Kassa, Wenyin Fu, Brian Coutinho, Louis Feng, Christina Delimitrou

Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training

|Mission City Ballroom

Presenters: Mingyu Liang, Hiwot Kassa, Wenyin Fu, Brian Coutinho, Louis Feng, Christina Delimitrou

Marconi: Prefix Caching for the Era of Hybrid LLMs

|Mission City Ballroom

Presenters: Rui Pan, Zhuang Wang, Zhen Jia, Can Karakus, Luca Zancato, Tri Dao, Yida Wang, Ravi Netravali

Marconi: Prefix Caching for the Era of Hybrid LLMs

|Mission City Ballroom

Presenters: Rui Pan, Zhuang Wang, Zhen Jia, Can Karakus, Luca Zancato, Tri Dao, Yida Wang, Ravi Netravali

MAS-ATTENTION: MEMORY-AWARE STREAM PROCESSING FOR ATTENTION ACCELERATION ON RESOURCE-CONSTRAINED EDGE DEVICES

|Mission City Ballroom

Presenters: Mohammadali Shakerdargah, Shan Lu, Chao Gao, Di Niu

MAS-ATTENTION: MEMORY-AWARE STREAM PROCESSING FOR ATTENTION ACCELERATION ON RESOURCE-CONSTRAINED EDGE DEVICES

|Mission City Ballroom

Presenters: Mohammadali Shakerdargah, Shan Lu, Chao Gao, Di Niu

MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs

|Mission City Ballroom

Presenters: Abhishek Moitra, Arkapravo Ghosh, Shrey Agrawal, Aporva Amarnath, Karthik Swaminathan, Priyadarshini Panda

MEADOW: Memory-efficient Dataflow and Data Packing for Low Power Edge LLMs

|Mission City Ballroom

Presenters: Abhishek Moitra, Arkapravo Ghosh, Shrey Agrawal, Aporva Amarnath, Karthik Swaminathan, Priyadarshini Panda

MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators

|Mission City Ballroom

Presenters: Beichen Huang, Yueming Yuan, Zelei Shao, Minjia Zhang

MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators

|Mission City Ballroom

Presenters: Beichen Huang, Yueming Yuan, Zelei Shao, Minjia Zhang

NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference

|Mission City Ballroom

Presenters: Xuanlin Jiang, Yang Zhou, Shiyi Cao, Ion Stoica, Minlan Yu

NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference

|Mission City Ballroom

Presenters: Xuanlin Jiang, Yang Zhou, Shiyi Cao, Ion Stoica, Minlan Yu

On Distributed Larger-Than-Memory Subset Selection With Pairwise Submodular Functions

|Mission City Ballroom

Presenters: Maximilian Böther, Abe Sebastian, Pranjal Awasthi, Ana Klimovic, Srikumar Ramalingam

On Distributed Larger-Than-Memory Subset Selection With Pairwise Submodular Functions

|Mission City Ballroom

Presenters: Maximilian Böther, Abe Sebastian, Pranjal Awasthi, Ana Klimovic, Srikumar Ramalingam

Optimizing LLM Queries in Relational Data Analytics Workloads

|Mission City Ballroom

Presenters: Shu Liu, Asim Biswal, Audrey Cheng, Amog Kamsetty, Luis Gaspar Schroeder, Liana Patel, Shiyi Cao, Xiangxi Mo, Ion Stoica, Joseph Gonzalez, Matei Zaharia

Optimizing LLM Queries in Relational Data Analytics Workloads

|Mission City Ballroom

Presenters: Shu Liu, Asim Biswal, Audrey Cheng, Amog Kamsetty, Luis Gaspar Schroeder, Liana Patel, Shiyi Cao, Xiangxi Mo, Ion Stoica, Joseph Gonzalez, Matei Zaharia

Photon: Federated LLM Pre-Training

|Mission City Ballroom

Presenters: Lorenzo Sani, Alex Iacob, Zeyu Cao, Royson Lee, Bill Marino, Yan Gao, Wanru Zhao, Dongqi Cai, Zexi Li, Xinchi Qiu, Nic Lane

Photon: Federated LLM Pre-Training

|Mission City Ballroom

Presenters: Lorenzo Sani, Alex Iacob, Zeyu Cao, Royson Lee, Bill Marino, Yan Gao, Wanru Zhao, Dongqi Cai, Zexi Li, Xinchi Qiu, Nic Lane

PipeFill: Using GPUs During Bubbles in Pipeline-parallel LLM Training

|Mission City Ballroom

Presenters: Daiyaan Arfeen, Zhen Zhang, Xinwei Fu, Gregory R. Ganger, Yida Wang

PipeFill: Using GPUs During Bubbles in Pipeline-parallel LLM Training

|Mission City Ballroom

Presenters: Daiyaan Arfeen, Zhen Zhang, Xinwei Fu, Gregory R. Ganger, Yida Wang

ProtoRAIL: A Risk-cognizant Imitation Agent for Adaptive vCPU Oversubscription In the Cloud

|Mission City Ballroom

Presenters: Lu Wang, Mayukh Das, Fangkai Yang, Bo Qiao, Hang Dong, Si Qin, Victor Ruehle, Chetan Bansal, Eli Cortez, Íñigo Goiri, S R, Qingwei Lin, Dongmei Zhang

ProtoRAIL: A Risk-cognizant Imitation Agent for Adaptive vCPU Oversubscription In the Cloud

|Mission City Ballroom

Presenters: Lu Wang, Mayukh Das, Fangkai Yang, Bo Qiao, Hang Dong, Si Qin, Victor Ruehle, Chetan Bansal, Eli Cortez, Íñigo Goiri, S R, Qingwei Lin, Dongmei Zhang

QServe:W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

|Mission City Ballroom

Presenters: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han

QServe:W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

|Mission City Ballroom

Presenters: Yujun Lin, Haotian Tang, Shang Yang, Zhekai Zhang, Guangxuan Xiao, Chuang Gan, Song Han

Radius: Range-based Gradient Sparsity for Large Foundation Model Pre-training

|Mission City Ballroom

Presenters: Mingkai Zheng, Zhao Zhang

Radius: Range-based Gradient Sparsity for Large Foundation Model Pre-training

|Mission City Ballroom

Presenters: Mingkai Zheng, Zhao Zhang

ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation

|Mission City Ballroom

Presenters: Zhiyu Mei, WEI FU, Kaiwei Li, Guangju Wang, Huanchen Zhang, Yi Wu

ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation

|Mission City Ballroom

Presenters: Zhiyu Mei, WEI FU, Kaiwei Li, Guangju Wang, Huanchen Zhang, Yi Wu

Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving

|Mission City Ballroom

Presenters: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen

Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving

|Mission City Ballroom

Presenters: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen

Rubick: Exploiting Job Reconfigurability for Deep Learning Cluster Scheduling

|Mission City Ballroom

Presenters: Xinyi Zhang, Hanyu Zhao, Wencong Xiao, Xianyan Jia, Fei Xu, Yong Li, Wei Lin, Fangming Liu

Rubick: Exploiting Job Reconfigurability for Deep Learning Cluster Scheduling

|Mission City Ballroom

Presenters: Xinyi Zhang, Hanyu Zhao, Wencong Xiao, Xianyan Jia, Fei Xu, Yong Li, Wei Lin, Fangming Liu

SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention

|Mission City Ballroom

Presenters: Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Xiuhong Li, Guanyu Feng, Xin Lv, Xiao Chuanfu, Dahua Lin, Chao Yang

SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention

|Mission City Ballroom

Presenters: Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Xiuhong Li, Guanyu Feng, Xin Lv, Xiao Chuanfu, Dahua Lin, Chao Yang

ScaleFusion: Scalable Inference of Spatial-Temporal Diffusion Transformers for High-Resolution Long Video Generation

|Mission City Ballroom

Presenters: Jiacheng Yang, Jun Wu, Zhen Zhang, Xinwei Fu, Zhiying Xu, Zhen Jia, Yida Wang, Gennady Pekhimenko

ScaleFusion: Scalable Inference of Spatial-Temporal Diffusion Transformers for High-Resolution Long Video Generation

|Mission City Ballroom

Presenters: Jiacheng Yang, Jun Wu, Zhen Zhang, Xinwei Fu, Zhiying Xu, Zhen Jia, Yida Wang, Gennady Pekhimenko

Scaling Deep Learning Training with MPMD Pipeline Parallelism

|Mission City Ballroom

Presenters: Anxhelo Xhebraj, Sean Lee, Hanfeng Chen, Vinod Grover

Scaling Deep Learning Training with MPMD Pipeline Parallelism

|Mission City Ballroom

Presenters: Anxhelo Xhebraj, Sean Lee, Hanfeng Chen, Vinod Grover

Seesaw: High-throughput LLM Inference via Model Re-sharding

|Mission City Ballroom

Presenters: Qidong Su, Wei Zhao, Xin Li, Muralidhar Andoorveedu, Chenhao Jiang, Zhanda Zhu, Kevin Song, Christina Giannoula, Gennady Pekhimenko

Seesaw: High-throughput LLM Inference via Model Re-sharding

|Mission City Ballroom

Presenters: Qidong Su, Wei Zhao, Xin Li, Muralidhar Andoorveedu, Chenhao Jiang, Zhanda Zhu, Kevin Song, Christina Giannoula, Gennady Pekhimenko

Self-Data Distillation for Recovering Quality in Pruned Large Language Models

|Mission City Ballroom

Presenters: Vithursan Thangarasa, Ganesh Venkatesh, Mike Lasby, Nish Sinnadurai, Sean Lie

Self-Data Distillation for Recovering Quality in Pruned Large Language Models

|Mission City Ballroom

Presenters: Vithursan Thangarasa, Ganesh Venkatesh, Mike Lasby, Nish Sinnadurai, Sean Lie

SOLA: Optimizing SLO Attainment for Large Language Model Serving with State-Aware Scheduling

|Mission City Ballroom

Presenters: Ke Hong, Xiuhong Li, Lufang Chen, Qiuli Mao, Guohao Dai, Xuefei Ning, Shengen Yan, Yun Liang, Yu Wang

SOLA: Optimizing SLO Attainment for Large Language Model Serving with State-Aware Scheduling

|Mission City Ballroom

Presenters: Ke Hong, Xiuhong Li, Lufang Chen, Qiuli Mao, Guohao Dai, Xuefei Ning, Shengen Yan, Yun Liang, Yu Wang

SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations

|Mission City Ballroom

Presenters: Md Saidul Hoque Anik, Ariful Azad

SparseTransX: Efficient Training of Translation-Based Knowledge Graph Embeddings Using Sparse Matrix Operations

|Mission City Ballroom

Presenters: Md Saidul Hoque Anik, Ariful Azad

Supply-Chain Attacks in Machine Learning Frameworks

|Mission City Ballroom

Presenters: Yue Gao, Ilia Shumailov, Kassem Fawaz

Supply-Chain Attacks in Machine Learning Frameworks

|Mission City Ballroom

Presenters: Yue Gao, Ilia Shumailov, Kassem Fawaz

SwiftVI: Time-Efficient Planning and Learning with MDPs

|Mission City Ballroom

Presenters: Kasper Overgaard Mortensen, Konstantinos Skitsas, Emil Morre Christensen, Mohammad Sadegh Talebi, Andreas Pavlogiannis, Davide Mottin, Panagiotis Karras

SwiftVI: Time-Efficient Planning and Learning with MDPs

|Mission City Ballroom

Presenters: Kasper Overgaard Mortensen, Konstantinos Skitsas, Emil Morre Christensen, Mohammad Sadegh Talebi, Andreas Pavlogiannis, Davide Mottin, Panagiotis Karras

The Hidden Bloat in Machine Learning Systems

|Mission City Ballroom

Presenters: Huaifeng Zhang, Ahmed Ali-Eldin Hassan

The Hidden Bloat in Machine Learning Systems

|Mission City Ballroom

Presenters: Huaifeng Zhang, Ahmed Ali-Eldin Hassan

ThunderServe: High-performance and Cost-efficient LLM Serving in Cloud Environments

|Mission City Ballroom

Presenters: YOUHE JIANG, Fangcheng Fu, Xiaozhe Yao, Taiyi Wang, Bin CUI, Ana Klimovic, Eiko Yoneki

ThunderServe: High-performance and Cost-efficient LLM Serving in Cloud Environments

|Mission City Ballroom

Presenters: YOUHE JIANG, Fangcheng Fu, Xiaozhe Yao, Taiyi Wang, Bin CUI, Ana Klimovic, Eiko Yoneki

TileLink: Generating Efficient Compute-Communication Overlapping Kernels using Tile-Centric Primitives

|Mission City Ballroom

Presenters: Size Zheng, Jin Fang, Xuegui Zheng, Qi Hou, Wenlei Bao, Ningxin Zheng, Ziheng Jiang, Dongyang Wang, Jianxi Ye, Haibin Lin, Li-Wen Chang, Xin Liu

TileLink: Generating Efficient Compute-Communication Overlapping Kernels using Tile-Centric Primitives

|Mission City Ballroom

Presenters: Size Zheng, Jin Fang, Xuegui Zheng, Qi Hou, Wenlei Bao, Ningxin Zheng, Ziheng Jiang, Dongyang Wang, Jianxi Ye, Haibin Lin, Li-Wen Chang, Xin Liu

Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer

|Mission City Ballroom

Presenters: Jinghan Yao, Sam Jacobs, Masahiro Tanaka, Olatunji Ruwase, Hari Subramoni, Dhabaleswar Panda

Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer

|Mission City Ballroom

Presenters: Jinghan Yao, Sam Jacobs, Masahiro Tanaka, Olatunji Ruwase, Hari Subramoni, Dhabaleswar Panda

TurboAttention: Efficient attention approximation for high throughputs llm

|Mission City Ballroom

Presenters: Hao Kang, Srikant Bharadwaj, James Hensman, Tushar Krishna, Victor Ruehle, Saravan Rajmohan

TurboAttention: Efficient attention approximation for high throughputs llm

|Mission City Ballroom

Presenters: Hao Kang, Srikant Bharadwaj, James Hensman, Tushar Krishna, Victor Ruehle, Saravan Rajmohan

Venn: Resource Management For Collaborative Learning Jobs

|Mission City Ballroom

Presenters: Jiachen Liu, Fan Lai, Eric Ding, Yiwen Zhang, Mosharaf Chowdhury

Venn: Resource Management For Collaborative Learning Jobs

|Mission City Ballroom

Presenters: Jiachen Liu, Fan Lai, Eric Ding, Yiwen Zhang, Mosharaf Chowdhury

VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution

|Mission City Ballroom

Presenters: Chendong Wang, Anlan Zhang, Yifan Yang, Lili Qiu, Yuqing Yang, XINYANG JIANG, Feng Qian, Suman Banerjee

VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution

|Mission City Ballroom

Presenters: Chendong Wang, Anlan Zhang, Yifan Yang, Lili Qiu, Yuqing Yang, XINYANG JIANG, Feng Qian, Suman Banerjee

XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models

|Mission City Ballroom

Presenters: Yixin Dong, Charlie Ruan, Yaxing Cai, Ziyi Xu, Yilong Zhao, Ruihang Lai, Tianqi Chen

XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models

|Mission City Ballroom

Presenters: Yixin Dong, Charlie Ruan, Yaxing Cai, Ziyi Xu, Yilong Zhao, Ruihang Lai, Tianqi Chen

Youmu: Efficient Columnar Data Pipeline for LLM Training

|Mission City Ballroom

Presenters: Tianle Zhong, Jiechen Zhao, Qiang Su, Geoffrey Fox

Youmu: Efficient Columnar Data Pipeline for LLM Training

|Mission City Ballroom

Presenters: Tianle Zhong, Jiechen Zhao, Qiang Su, Geoffrey Fox

Poster Session

Poster Session and Reception - Young Professional Symposium

May 12, 2025 · 4:00 PM |Mission City Ballroom |2.0 hr