Hyppää sisältöön
    • FI
    • ENG
  • FI
  • /
  • EN
OuluREPO – Oulun yliopiston julkaisuarkisto / University of Oulu repository
Näytä viite 
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
  •   OuluREPO etusivu
  • Oulun yliopisto
  • Avoin saatavuus
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Opt-GPTQ: An Optimized GPTQ Combining Sparse Attention and Quantization Techniques

Kong, Jie; Zhang, Junxiang; Xu, Jiheng; Li, Yalong; Zhang, Shouhua; Zhou, Jiehan; Liu, Yuhai; Liang, Peng; Zhang, Quan; Jiang, Luohan (2026-03-20)

 
Avaa tiedosto
nbnfioulu-202603032020.pdf (507.5Kt)
Lataukset: 

URL:
https://doi.org/10.1109/SWC65939.2025.00187

Kong, Jie
Zhang, Junxiang
Xu, Jiheng
Li, Yalong
Zhang, Shouhua
Zhou, Jiehan
Liu, Yuhai
Liang, Peng
Zhang, Quan
Jiang, Luohan
IEEE
20.03.2026

J. Kong et al., "Opt-GPTQ: An Optimized GPTQ Combining Sparse Attention and Quantization Techniques," 2025 IEEE Smart World Congress (SWC), Calgary, AB, Canada, 2025, pp. 1176-1181, doi: 10.1109/SWC65939.2025.00187

https://rightsstatements.org/vocab/InC/1.0/
© 2026 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.
https://rightsstatements.org/vocab/InC/1.0/
doi:https://doi.org/10.1109/swc65939.2025.00187
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202603032020
Tiivistelmä
Abstract

In the field of deep learning, traditional attention mechanisms face significant challenges related to high computational complexity and large memory consumption when processing long sequence data. To address these limitations, we propose Opt-GPTQ, an optimized Gradient-based Post Training Quantization (GPTQ) combining the Grouped Query Attention (GQA) mechanism with paging memory management, optimizing the traditional Multi-Head Attention (MHA) mechanism by grouping query heads and sharing key-value vectors. Optimized GQA (Opt-GQA) effectively reduces computational complexity, minimizes memory fragmentation, and enhances memory utilization for large-scale models. Opt-GPTQ is optimized for Data Center Units (DCUs) and integrated into the vLLM model to maximize hardware efficiency. It customizes GPU kernels to further enhance attention computation by reducing memory access latency and boosting parallel computing capabilities. Opt-GQA integrates Attention with Linear Biases (ALiBi) to reduce overhead and enhance long-sequence processing. Experimental results show that Opt-GPTQ significantly reduces computation time and memory usage while improving model performance.
Kokoelmat
  • Avoin saatavuus [42045]
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen
 

Selaa kokoelmaa

NimekkeetTekijätJulkaisuajatAsiasanatUusimmatSivukartta

Omat tiedot

Kirjaudu sisäänRekisteröidy
oulurepo@oulu.fiOulun yliopiston kirjastoOuluCRISLaturiMuuntaja
SaavutettavuusselosteTietosuojailmoitusYlläpidon kirjautuminen