1.1 ์ ์์ ๊ฐ์
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM, Large Language Model)์ ๋ฐฉ๋ํ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ฒจ๋จ ์์คํ ์ ๋๋ค. ์์ต์์ ์์กฐ ๊ฐ์ ์ด๋ฅด๋ ํ๋ผ๋ฏธํฐ(parameter)๋ฅผ ํตํด ๋ฌธ๋งฅ์ ์ดํดํ๊ณ , ์ฌ๋์ฒ๋ผ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ์ ๋ง๋ค์ด๋ด๋ฉฐ, ๋ณต์กํ ์ธ์ด ์์ ๊น์ง ์ํํ ์ ์์ต๋๋ค.
์์ ์น์ "LLM์ด๋ ๋ฌด์์ธ๊ฐ: ์ ์, ์ญํ , ๊ทธ๋ฆฌ๊ณ ๊ธฐ๊ณํ์ต๊ณผ์ ์ฐจ์ด"์์๋ LLM์ ๊ฐ๋ ๊ณผ ๊ธฐ์กด ๊ธฐ๊ณํ์ต ๋ชจ๋ธ๊ณผ์ ์ฐจ์ด๋ฅผ ์๊ฐํ์ต๋๋ค. ์ด๋ฒ ์น์ ์์๋ LLM์ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ์กฐ๊ธ ๋ ๊น์ด ์ดํด๋ณด๋ฉฐ, ํ๋ผ๋ฏธํฐ์ ์๋ฏธ, ํ์ต ๋ฐฉ์, ๊ทธ๋ฆฌ๊ณ ํ์ฅ์ฑ์ ๋ํด ๋ค๋ฃน๋๋ค.
ํ๋ผ๋ฏธํฐ๋ ๋ฌด์์ธ๊ฐ?
ํ๋ผ๋ฏธํฐ๋ ์ ๊ฒฝ๋ง ์์์ ํ์ต ๊ณผ์ ์ค ์กฐ์ ๋๋ ๋ณ์๋ก, ๋ฐ์ดํฐ ์ ํจํด์ ์ผ๋ง๋ ์ ํฌ์ฐฉํ ์ ์๋์ง๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
- ํ๋ผ๋ฏธํฐ์ ๊ท๋ชจ: LLM์ ๊ธฐ์กด ๋ชจ๋ธ์ ํจ์ฌ ๋ฐ์ด๋๋ ๊ท๋ชจ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด:
- GPT-3: 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ
- BERT: ์์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ
- ํ๋ผ๋ฏธํฐ์ ์ญํ : ์ด๋ฌํ ํ๋ผ๋ฏธํฐ๋ ๋ฏธ๋ฌํ ์ธ์ด ํจํด๊ณผ ๋ฌธ๋งฅ์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ์ฌ, ์ผ๊ด๋๊ณ ์ ํํ ํ ์คํธ๋ฅผ ์์ฑํ๋ ํต์ฌ ์์๋ก ์๋ํฉ๋๋ค.
์ฌ์ ํ์ต๊ณผ ํ์ธํ๋
LLM์ ํ์ต ๊ณผ์ ์ ํฌ๊ฒ ๋ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
- ์ฌ์ ํ์ต(Pre-training): ๋ฐฉ๋ํ ํ ์คํธ๋ฅผ ํตํด ์ธ์ด์ ๊ธฐ๋ณธ ๊ตฌ์กฐ, ๋ฌธ๋ฒ, ์ดํ, ๋ฌธ๋งฅ์ ํ์ตํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ฌธ์ฅ์์ ๊ฐ๋ ค์ง ๋จ์ด๋ฅผ ์์ธกํ๊ฑฐ๋ ๋ค์ ๋จ์ด๋ฅผ ์์ฑํ๋ ๋ฐฉ์์ด ํ์ฉ๋ฉ๋๋ค.
- ํ์ธํ๋(Fine-tuning): ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ์ ๋ถ์, ์ง์์๋ต, ์์ฝ ๋ฑ ํน์ ์์ ์ ๋ง๊ฒ ์กฐ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ผ๋ฐ ๋ชจ๋ธ์ ํน์ ๋๋ฉ์ธ์ ๋ง๊ฒ ์ต์ ํํ ์ ์์ต๋๋ค.
์ด๋ฌํ 2๋จ๊ณ ํ์ต ๋ฐฉ์ ๋๋ถ์ LLM์ ๋ฒ์ฉ์ ์ผ๋ก ํ์ฉ ๊ฐ๋ฅํ๋ฉด์๋ ๋ค์ํ ๊ณผ์ ์ ์ฝ๊ฒ ์ ์ํ ์ ์์ต๋๋ค.
์๊ธฐ ์ง๋ ํ์ต(Self-Supervised Learning)์ ์ค์์ฑ
LLM์ ํ์ต์ํค๋ ํต์ฌ ๊ธฐ๋ฒ์ ์๊ธฐ ์ง๋ ํ์ต์ ๋๋ค.
- ํ ์คํธ ๋ง์คํน: ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ผ๋ถ๋ฅผ ๊ฐ๋ฆฌ๊ณ , ๋ชจ๋ธ์ด ๊ทธ ๋ถ๋ถ์ ์์ธกํ๋๋ก ํ์ต์ํต๋๋ค.
- ์ฅ์ : ๋ณ๋์ ๋ผ๋ฒจ๋ง ์์ ์์ด ๋ฐฉ๋ํ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์์ด ํ์ต ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ์ด ๋ฐ์ด๋ฉ๋๋ค.
์ด ๋ฐฉ์์ ํตํด LLM์ ์ต์ํ์ ์ฌ๋ ๊ฐ์ ์ผ๋ก๋ ์ธ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ดํดํ๊ณ ์์ฑํ ์ ์์ต๋๋ค.
ํ์ฅ์ฑ๊ณผ ๋ชจ๋ธ์ ์งํ
LLM์ ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค. ๊ตฌ๊ธ์ BERT, ์คํAI์ GPT ์๋ฆฌ์ฆ๋ ์ด๋ฌํ ํ์ฅ์ ๋ํ์ ์ฌ๋ก์ ๋๋ค.
- ํ์ฅ์ฑ: ํ๋ผ๋ฏธํฐ ์๊ฐ ๋์ด๋ ์๋ก ๋ฌธ๋งฅ ์ดํด์ ๋ณต์กํ ์์ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ด ๊ฐํ๋ฉ๋๋ค.
- ์์ฉ: GPT-3์ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ํ ์คํธ ์์ฑ, ๋ฒ์ญ, ์์ฝ, ์ง์์๋ต ๋ฑ์์ ํ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
- ์๋ฏธ: ์ด๋ฌํ ๋ชจ๋ธ๋ค์ NLP ๋ถ์ผ์ ๊ฐ๋ฅ์ฑ์ ์๋กญ๊ฒ ์ ์ํ๋ฉฐ, ์ ๋ก ์๋ ์ ํ์ฑ๊ณผ ๋ฒ์ฉ์ฑ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
๋ค์ ์น์ "NLP์์์ LLM์ ์ญํ "์์๋ ์ค์ ๋ก LLM์ด ์ด๋ป๊ฒ ๋ฒ์ญ, ์์ฝ, ์ง์์๋ต, ํ ์คํธ ์์ฑ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ํ์ฉ๋๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.