개념

Transformer는 현대 언어 AI의 핵심이 된 딥러닝 구조이다. 핵심 아이디어는 self-attention으로, 문장 안의 각 단어가 다른 단어와 어떤 관계를 맺는지 계산해 문맥을 반영한다.

Scaled dot-product attention은 다음과 같다.

왜 중요한가

Transformer는 긴 문맥을 더 잘 처리하고 병렬 처리에도 유리하다. 그래서 LLM과 생성형 AI의 기반 구조가 되었다.

AI 발전에서의 위치

AlexNet이미지 데이터 처리에서 딥러닝의 가능성을 보여주었다면, Transformer는 언어 처리에서 딥러닝의 가능성을 크게 확장했다.