LLM 정의와 개요: 파라미터, 학습 방식, 그리고 확장성 이해

게시일: 2024-09-03 마지막 업데이트 날짜: 2025-09-12 버전: 0

1.1 ์ •์˜์™€ ๊ฐœ์š”

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM, Large Language Model)์€ ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•œ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜์˜ ์ฒจ๋‹จ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์ˆ˜์–ต์—์„œ ์ˆ˜์กฐ ๊ฐœ์— ์ด๋ฅด๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ(parameter)๋ฅผ ํ†ตํ•ด ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๊ณ , ์‚ฌ๋žŒ์ฒ˜๋Ÿผ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ์„ ๋งŒ๋“ค์–ด๋‚ด๋ฉฐ, ๋ณต์žกํ•œ ์–ธ์–ด ์ž‘์—…๊นŒ์ง€ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์•ž์„  ์„น์…˜ "LLM์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€: ์ •์˜, ์—ญํ• , ๊ทธ๋ฆฌ๊ณ  ๊ธฐ๊ณ„ํ•™์Šต๊ณผ์˜ ์ฐจ์ด"์—์„œ๋Š” LLM์˜ ๊ฐœ๋…๊ณผ ๊ธฐ์กด ๊ธฐ๊ณ„ํ•™์Šต ๋ชจ๋ธ๊ณผ์˜ ์ฐจ์ด๋ฅผ ์†Œ๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ ์„น์…˜์—์„œ๋Š” LLM์˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ๋ฅผ ์กฐ๊ธˆ ๋” ๊นŠ์ด ์‚ดํŽด๋ณด๋ฉฐ, ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์˜๋ฏธ, ํ•™์Šต ๋ฐฉ์‹, ๊ทธ๋ฆฌ๊ณ  ํ™•์žฅ์„ฑ์— ๋Œ€ํ•ด ๋‹ค๋ฃน๋‹ˆ๋‹ค.

ํŒŒ๋ผ๋ฏธํ„ฐ๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์‹ ๊ฒฝ๋ง ์•ˆ์—์„œ ํ•™์Šต ๊ณผ์ • ์ค‘ ์กฐ์ •๋˜๋Š” ๋ณ€์ˆ˜๋กœ, ๋ฐ์ดํ„ฐ ์† ํŒจํ„ด์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

  • ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ทœ๋ชจ: LLM์€ ๊ธฐ์กด ๋ชจ๋ธ์„ ํ›จ์”ฌ ๋›ฐ์–ด๋„˜๋Š” ๊ทœ๋ชจ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด:
    • GPT-3: 1,750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ
    • BERT: ์ˆ˜์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ
  • ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์—ญํ• : ์ด๋Ÿฌํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ฏธ๋ฌ˜ํ•œ ์–ธ์–ด ํŒจํ„ด๊ณผ ๋ฌธ๋งฅ์  ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•˜์—ฌ, ์ผ๊ด€๋˜๊ณ  ์ •ํ™•ํ•œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ํ•ต์‹ฌ ์š”์†Œ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์ „ ํ•™์Šต๊ณผ ํŒŒ์ธํŠœ๋‹

LLM์˜ ํ•™์Šต ๊ณผ์ •์€ ํฌ๊ฒŒ ๋‘ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

  • ์‚ฌ์ „ ํ•™์Šต(Pre-training): ๋ฐฉ๋Œ€ํ•œ ํ…์ŠคํŠธ๋ฅผ ํ†ตํ•ด ์–ธ์–ด์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ, ๋ฌธ๋ฒ•, ์–ดํœ˜, ๋ฌธ๋งฅ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฌธ์žฅ์—์„œ ๊ฐ€๋ ค์ง„ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์ด ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ํŒŒ์ธํŠœ๋‹(Fine-tuning): ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๊ฐ์ • ๋ถ„์„, ์งˆ์˜์‘๋‹ต, ์š”์•ฝ ๋“ฑ ํŠน์ • ์ž‘์—…์— ๋งž๊ฒŒ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ผ๋ฐ˜ ๋ชจ๋ธ์„ ํŠน์ • ๋„๋ฉ”์ธ์— ๋งž๊ฒŒ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ 2๋‹จ๊ณ„ ํ•™์Šต ๋ฐฉ์‹ ๋•๋ถ„์— LLM์€ ๋ฒ”์šฉ์ ์œผ๋กœ ํ™œ์šฉ ๊ฐ€๋Šฅํ•˜๋ฉด์„œ๋„ ๋‹ค์–‘ํ•œ ๊ณผ์ œ์— ์‰ฝ๊ฒŒ ์ ์‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ž๊ธฐ ์ง€๋„ ํ•™์Šต(Self-Supervised Learning)์˜ ์ค‘์š”์„ฑ

LLM์„ ํ•™์Šต์‹œํ‚ค๋Š” ํ•ต์‹ฌ ๊ธฐ๋ฒ•์€ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต์ž…๋‹ˆ๋‹ค.

  • ํ…์ŠคํŠธ ๋งˆ์Šคํ‚น: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์ผ๋ถ€๋ฅผ ๊ฐ€๋ฆฌ๊ณ , ๋ชจ๋ธ์ด ๊ทธ ๋ถ€๋ถ„์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค.
  • ์žฅ์ : ๋ณ„๋„์˜ ๋ผ๋ฒจ๋ง ์ž‘์—… ์—†์ด ๋ฐฉ๋Œ€ํ•œ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์–ด ํ•™์Šต ํšจ์œจ์„ฑ๊ณผ ํ™•์žฅ์„ฑ์ด ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค.

์ด ๋ฐฉ์‹์„ ํ†ตํ•ด LLM์€ ์ตœ์†Œํ•œ์˜ ์‚ฌ๋žŒ ๊ฐœ์ž…์œผ๋กœ๋„ ์–ธ์–ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ™•์žฅ์„ฑ๊ณผ ๋ชจ๋ธ์˜ ์ง„ํ™”

LLM์€ ๊ทœ๋ชจ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. ๊ตฌ๊ธ€์˜ BERT, ์˜คํ”ˆAI์˜ GPT ์‹œ๋ฆฌ์ฆˆ๋Š” ์ด๋Ÿฌํ•œ ํ™•์žฅ์˜ ๋Œ€ํ‘œ์  ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.

  • ํ™•์žฅ์„ฑ: ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚ ์ˆ˜๋ก ๋ฌธ๋งฅ ์ดํ•ด์™€ ๋ณต์žกํ•œ ์ž‘์—… ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์ด ๊ฐ•ํ™”๋ฉ๋‹ˆ๋‹ค.
  • ์‘์šฉ: GPT-3์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์€ ํ…์ŠคํŠธ ์ƒ์„ฑ, ๋ฒˆ์—ญ, ์š”์•ฝ, ์งˆ์˜์‘๋‹ต ๋“ฑ์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
  • ์˜๋ฏธ: ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ NLP ๋ถ„์•ผ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ƒˆ๋กญ๊ฒŒ ์ •์˜ํ•˜๋ฉฐ, ์ „๋ก€ ์—†๋Š” ์ •ํ™•์„ฑ๊ณผ ๋ฒ”์šฉ์„ฑ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ ์„น์…˜ "NLP์—์„œ์˜ LLM์˜ ์—ญํ• "์—์„œ๋Š” ์‹ค์ œ๋กœ LLM์ด ์–ด๋–ป๊ฒŒ ๋ฒˆ์—ญ, ์š”์•ฝ, ์งˆ์˜์‘๋‹ต, ํ…์ŠคํŠธ ์ƒ์„ฑ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ํ™œ์šฉ๋˜๋Š”์ง€ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.



SHO
SHO
RECEIPTROLLER์˜ CTO์ด์ž ์ฐฝ๋ฆฝ์ž. ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ, ํ˜์‹  ์ง€ํ–ฅ, ํ•ญ์ƒ ํ˜ธ๊ธฐ์‹ฌ ๋งŽ์€ ์‚ฌ๋žŒ.