Introduction to LLM

This page provides an easy-to-understand guide on LLMs (Large Language Models) from basics to applications for AI enthusiasts.

Total of 20 articles available. | Currently on page 1 of 1.

제17장 — 미래의 위협과 새롭게 등장하는 방어

자율 에이전트의 폭발 반경, 멀티모달 표면이 넓히는 인젝션 채널, 합성 신원과 AI 대 AI 동역학, 그리고 LLM Primer 시리즈의 마지막 마무리.

2026-05-26

제15장 — 안전한 AI 조직 구축

기술 통제가 시간과의 접촉을 살아남게 하는 층 — 문화, 레드팀, 벤더 위험 평가, 지속 평가, 그리고 장기적 모델 스튜어드십.

2026-05-24

제16장 — 프로덕션의 비용 절감 전략

지난달 청구서의 3분의 1이나 절반으로 복리로 쌓이는 서로 독립적인 수의 카탈로그.

2026-05-08

제15장 — 서버리스 API 대 전용 인프라

손익분기 산수를 테이블에 올리고, 대부분의 팀에게 답을 뒤집는 플랫폼 엔지니어링 라인 아이템에 이름을 붙이는 장.

2026-05-07

제12장 — 분리 서빙과 쿠버네티스

프리필과 디코드를 별도 GPU 풀로 나누고, 파드가 인터커넥트의 올바른 쪽에 안착하도록 하는 쿠버네티스 프리미티브를 걷는 장.

2026-05-04

제8장 — 차세대 KV 캐시 관리

운영체제의 페이징 통찰을 추론 엔진으로 옮겨 오는 장 — KV 캐시를 예약된 바이트 슬래브에서 공유·축출·프리픽스 캐시가 가능한 자원으로 바꿉니다.

2026-04-30

제2장 — KV 캐시라는 과제

KV 캐시는 산술을 메모리와 맞바꿉니다 — 그리고 그 메모리는 배치, 시퀀스 길이, 레이어 수, 헤드 수, 헤드 차원에 동시에 비례합니다. 그래서 서빙 클러스터는 다른 어떤 자원보다 VRAM이 먼저 떨어집니다.

2026-04-24

LLM Primer VI — 시리즈 서문 및 목차

LLM Primer VI — AI 시스템 확장하기의 16개 챕터를 하루 한 편씩 걷는 워크스루의 서문입니다. 메모리 대역폭, 스케줄링, 그리고 청구서가 만나는 지점에서 LLM 추론을 엔지니어링 학문으로 다룹니다.

2026-04-22

제8장 — 성능, 서빙, 비용 최적화

프로덕션 LLM 경제학을 층진 규율로 다루는 장. 가장 저렴한 호출은 결코 이루어지지 않는 호출이고, 아래 각 층은 다음 호출을 저렴하게 만들어 주는 층입니다.

2026-04-21

제1장 — AI 엔지니어링이라는 학문

데모는 잘 돌아가는데 프로덕션 시스템이 무너지는 이유는 모델 문제가 아니라 엔지니어링 문제입니다. 제1장은 확률적 코어 주위를 감싸는 결정적 래퍼를 세우고, 신뢰성·품질·성능·비용·진화라는 다섯 기둥으로 그 학문을 그립니다.

2026-04-14

제14장 — 벤치마킹, 테스트, 성능

LLM Primer IV 워크스루의 열다섯 번째이자 마지막 글입니다. 실제 서버 위의 MCP-Universe 벤치마크, 그것이 드러낸 두 가지 시스템적 실패 모드, 세션당 요청과 공유 세션 풀 사이의 10배 처리량 격차, 그리고 제5권으로의 다리를 살핍니다.

2026-04-12

제9장 — 주의력 예산 관리

LLM Primer IV 워크스루의 아홉 번째 글입니다. 컨텍스트 부패, 가운데에서 잃어버린 절벽, 도구 로드아웃 부패, 그리고 모델의 빠진 지식이 실제로 어디에 속하는지에 대한 세 가지 아키텍처적 답 — MCP, RAG, 파인튜닝 — 을 살핍니다.

2026-04-07

제8장 — 아키텍처 배포 레이아웃

LLM Primer IV 워크스루의 여덟 번째 글입니다. MCP 생태계에서 떠오른 세 가지 배포 레이아웃 — 재사용 가능한 에이전트, 엄격한 순수성, 하이브리드 — 과 어느 것이 어느 프로젝트에 맞는지 결정하는 네 가지 묶이는 제약을 살핍니다.

2026-04-06

제7장 — 고급 협업 및 동적 패턴

LLM Primer IV 워크스루의 일곱 번째 글입니다. 라운드테이블 합의, 핸드오프 라우팅, 마젠틱 오케스트레이션 — 토폴로지가 요청별로 만들어져야 할 때 떠오르는 패턴들과 더 단순한 패턴이 피하는 실패 모드(비종료, 잘못된 라우팅, 폭주 계획)를 살핍니다.

2026-04-05

제6장 — 기초 오케스트레이션 전략

LLM Primer IV 워크스루의 여섯 번째 글입니다. 두 기초 오케스트레이션 모양 — 순차 파이프라인과 동시 산-수집 — 과 모든 팀이 먼저 물어야 할 선행 질문을 살핍니다. 다중 에이전트 시스템이 정말 알맞은 답인가?

2026-04-04

제4장 — 클라이언트 프리미티브: 에이전트형 행동과 제어

LLM Primer IV 워크스루의 네 번째 글입니다. 샘플링, 루트, 일리시테이션은 MCP가 호스트-서버 벽에 뚫는 세 개의 작고 제어된 구멍입니다 — 각각 호스트가 서버에 빌려주는 능력이며, 각각 사용자를 대신해 받아들이는 위험입니다.

2026-04-02

LLM Primer IV — 시리즈 소개 및 인덱스

LLM Primer 시리즈 제4권의 챕터별 워크스루를 여는 글입니다. 에이전트가 데모를 넘어 확장되려면 왜 프로토콜 층이 필요한지, 누구를 위해 이 책을 썼는지, 그리고 3월 30일부터 4월 12일까지 이어질 열네 편의 포스트 일정을 정리합니다.

2026-03-29

제11장 — 지속적 업데이트와 파이프라인 최적화

LLM Primer III 워크스루의 열한 번째이자 마지막 글입니다. 파이프라인은 끝나지 않습니다 — 문서가 바뀌고, 쿼리가 옮겨 가며, 모델이 교체됩니다 — 그리고 그것을 소유한 팀은 세 시간 척도를 한꺼번에 생각하는 법을 배웁니다.

2026-03-28

제8장 — RAG 파이프라인의 데이터 비식별화

LLM Primer III 워크스루의 여덟 번째 글입니다. 모델이 데이터를 보기 전에 비식별화할 것인가, 사용자가 출력을 보기 전에 할 것인가. 답은 파이프라인의 모든 것을 바꾸고, 규제 체계가 보통 그 답을 골라 줍니다.

2026-03-25

제1장 — RAG 아키텍처의 진화

LLM Primer III 워크스루의 첫 번째 글입니다. RAG의 네 가지 아키텍처 자세 — 나이브, 어드밴스드, 모듈러, 에이전틱 — 를 한 결정씩 LLM에게 권한을 더 넘겨주는 이야기로 읽고, 검색보다 파인튜닝이 더 나은 도구가 되는 자리를 솔직하게 짚습니다.

2026-03-18