speculative decoding에대해서
speculative decoding(Assisted Generation, 보조 생성) 자연어 생성 모델의 레이턴시 문제를 해결하기 위한 새로운 디코딩 방법인 "보조 생성(assisted generation)"에 대해서 알아보겠습니다. 자연어 생성은 기본적으로 모델의 순방향 전파(forward pass) 과정을 반복하여 이루어지는데, 이 과정에서 가장 시간이 많이 소요됩니다. 이러한 레이턴시(지연) 문제를 해결하기 위해 보조 생성 방법을 도입하여, 기존의 모델을 보조하여 더 빠르고 효율적인 텍스트 생성을 가능케 합니다. 기존의 자연어 생성 과정에서는 모델이 다음 토큰의 확률 분포를 예측하는 과정에서 레이턴시 문제가 발생합니다. 이 과정은 주로 모델의 순방향 전파 연산에 의해 지배되며, 특히 메모리 대역폭..
2024.02.26