葡京娱乐

学术报告
我的位置在: 葡京娱乐 > 学术报告 > 正文
亚四比特大模型压缩算法和系统优化
浏览次数:日期:2024-12-03编辑:科研办

报 告 人:褚晓文,香港科技大学(广州),教授

报告时间:20241210 下午1500 -17:00

报告地点:葡京娱乐 624会议室


报告摘要: The upscaling of LLMs has yielded impressive advances in natural language processing, yet it also poses significant deployment challenges. Weight quantization has emerged as a widely embraced solution to reduce memory and computational demands. This talk first gives an overview of LLM compression, and then focuses on the presentation of BitDistiller, an LLM compression framework that synergizes Quantization Aware Training (QAT) with Knowledge Distillation (KD) to boost the performance of LLMs at ultra-low precisions (sub-4-bit). BitDistiller incorporates a tailored asymmetric quantization and clipping technique to maximally preserve the fidelity of quantized weights, and proposes a Confidence-Aware Kullback-Leibler Divergence (CAKLD) objective, which is employed in a self-distillation manner to enable faster convergence and superior model performance. Empirical evaluations demonstrate that BitDistiller significantly surpasses existing methods in both 3-bit and 2-bit configurations on general language understanding and complex reasoning benchmarks. At the end of the talk, we will briefly discuss the design of a sub-1 bit Post-Training Quantization (PTQ) model compression system STBLLM, which combines structural binarization and N:M sparsity to break the 1-bit barrier.

LLM 的升级在自然语言处理方面取得了令人瞩目的进步,但也带来了重大的部署挑战。权重量化已成为一种广泛接受的解决方案,可以减少内存和计算需求。本次演讲首先概述了 LLM 压缩,然后重点介绍了 BitDistiller,这是一个 LLM 压缩框架,它将量化感知训练知识蒸馏相结合,以提高超低精度(低于 4 位)下 LLM 的性能。BitDistiller 采用量身定制的非对称量化和剪辑技术,最大限度地保持量化权重的保真度,并提出了一种置信度感知 Kullback-Leibler 散度目标,该目标以自蒸馏的方式使用,以实现更快的收敛和卓越的模型性能。实证评估表明,BitDistiller 在一般语言理解和复杂推理基准上显著超越了 3 位和 2 位配置中的现有方法。在演讲的最后,我们将简要讨论低于 1 位的训练后量化 (PTQ) 模型压缩系统 STBLLM 的设计,它结合结构二值化和 N:M 稀疏性来打破 1 位障碍。


报告人简介: 褚晓文,香港科技大学(广州)数据科学与分析学域主任和正教授。他于1999年在清华大学获得计算机科学学士学位,并于2003年在香港科技大学获得计算机科学博士学位。他目前的研究兴趣包括GPU计算、分布式机器学习、云计算等。他在国际期刊和会议论文集中发表了250余篇学术论文,曾六次获得国际会议的最佳论文奖,包括2021年IEEE INFOCOM。褚教授担任或曾经担任IEEE Transactions on Cloud Computing、IEEE Transactions on Network Science and Engineering、IEEE Transactions on Big Data、IEEE IoT Journal、IEEE Network、IEEE Transactions on Industrial Informatics等期刊的副主编或客座编辑。


邀请人:李肯立


联系人:胡靖阳