개념
LLM은 Large Language Model, 즉 대규모 언어 모델이다. 많은 텍스트를 학습해 문맥에 맞는 단어와 문장을 생성하고, 질문 답변, 요약, 번역, 코딩, 추론 형태의 작업을 수행한다.
자기회귀 언어 모델은 문장 전체의 확률을 이전 토큰에 조건부인 다음 토큰 확률의 곱으로 나타낸다.
Transformer와의 관계
현대 LLM의 핵심 구조는 대체로 Transformer에 기반한다. Transformer는 self-attention을 이용해 문장 안 단어들이 서로 어떤 관계를 가지는지 계산한다.
추론과 한계
LLM은 CoT처럼 문제 풀이 과정을 단계적으로 표현할 수 있다. 하지만 실제로 이해하는지, 통계적 패턴을 잘 사용하는 것인지에 대해서는 논쟁이 있다. 또한 환각을 만들 수 있어 검증이 필요하다.