최근 ChatGPT, Gemini, LLama 등이 등장하면서 LLM(Large Language Model, 대규모 언어 모델)에 대한 관심이 폭발하고 있습니다.현재 대부분의 LLM이 트랜스포머(Transformer) 구조를 기반으로 하고 있는 만큼, 트랜스포머에 대해서 이해하지 않고는 LLM과 관련된 기술을 정확히 이해하기 어렵습니다.따라서, 이번 글에서는 트랜스포머의 구조에 대해서 알아보고 Pytorch로 구현해보도록 하겠습니다. 1. What?트랜스포머 아키텍쳐는 2017년 구글에서 처음 발표하였습니다.※ 매우 유명한 논문이니 읽어보는 것을 권장드립니다.https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence tr..