컨텍스트 엔지니어링 | 2026 AI 100: 슈퍼휴먼의 슈퍼워크

프롬프트 엔지니어링에서 컨텍스트 엔지니어링으로

2023년 2월, AI와의 대화는 마치 서로 다른 외국어로 대화하는 느낌이었다. 같은 질문을 해도 매번 다른 답이 나오고, 내가 원하는 것과는 전혀 다른 결과물이 나왔다. 특히 한국어로 질문할 때와 영어로 질문할 때의 결과 차이가 너무 컸다. 영어로 물어보면 상세하고 구체적인 답이 나오는데, 한국어로는 표면적이고 일반적인 답변만 돌아왔다.

초기 3개월간 하루에 최소 8시간씩 AI와 대화했지만, 실패작들만 쌓여갔다. 마케팅 카피를 요청하면 교과서 같은 딱딱한 문장만 나오고, 사업계획서를 부탁하면 너무 일반적이고 뻔한 내용만 생성되었다. 그때까지는 단순히 '프롬프트를 더 잘 쓰면 된다'고 생각했다. 질문을 더 명확하게 하고, 예시를 더 많이 주고, 원하는 형식을 상세히 설명하면 언젠가는 좋은 결과가 나올 것이라고 믿었다.

하지만 문제는 프롬프트가 아니었다. 매번 대화를 새로 시작할 때마다 같은 맥락을 반복해서 설명해야 했고, AI는 이전 대화를 전혀 기억하지 못했다. 내 회사의 상황, 목표, 제약사항, 선호하는 스타일을 매번 다시 알려줘야 했다. 그것도 충분히 상세하게. 어제 A라는 프로젝트에 대해 논의했다가 오늘 B 프로젝트를 이야기하면, AI는 A가 무엇인지 까맣게 잊어버린 상태였다.

전환점은 2024년 6월, Claude Projects 기능을 발견하면서였다. 이것은 단순히 대화 기록을 저장하는 것을 넘어서는 무언가였다. ChatGPT의 GPTs가 한 번 설정하면 고정되는 '특화된 도구'였다면, Projects는 내가 자료를 추가할 때마다 함께 성장하는 '파트너'에 가까웠다. 프로젝트 공간에 내 상황, 회사 정보, 목표를 체계적으로 정리해두니, AI가 마치 오랜 협업 파트너처럼 맥락을 이해하고 대응하기 시작했다.

나는 즉시 4개의 프로젝트를 만들었다. "옥소폴리틱스 리부트"는 회사 부활을 위한 전략 프로젝트였고, "개인 브랜딩 전략"은 유호현 개인의 사업가 브랜드를 구축하기 위한 공간이었다. "AI 컨설팅 사업"은 새로운 수익원 개발을 위한 실험실이었고, "학습 및 성장"은 지속적인 자기계발을 계획하는 곳이었다. 각 프로젝트마다 관련 문서, 아이디어, 대화 기록이 쌓이기 시작했다.

7월부터 시작한 매일 아침 9시 'AI와의 아침 미팅'은 일상이 되었다. 마치 가장 유능한 참모와 하루 일정을 논의하는 것과 같았다. 어제 한 일에 대한 피드백을 받고, 오늘 할 일의 우선순위를 정하고, 예상되는 문제점들과 해결방안까지 미리 논의했다. 혼자 일하는 것이지만 전혀 외롭지 않았다. 오히려 지금까지 경험한 어떤 팀워크보다 효율적이었다.

프롬프트 엔지니어링을 마스터했다고 느낀 순간은, 내가 원하는 결과물을 대부분 첫 번째 시도에서 얻을 수 있게 되었을 때였다. 더 중요한 것은 AI가 내가 생각하지 못했던 더 좋은 아이디어까지 제안해주기 시작했다는 점이었다. "이 접근법도 고려해보셨나요?"라고 물으면서 내가 놓친 관점을 짚어주는 일이 잦아졌다.

하지만 이것은 시작에 불과했다. 프롬프트를 잘 쓰는 것만으로는 부족했다. 진짜 변화는 단발성 프롬프트가 아니라, AI가 내 상황과 맥락을 이해하도록 만드는 '컨텍스트'에 있었다.

이 경험을 가장 극적으로 확인한 것은 순수하게 호기심과 재미로 시작한 K-pop Demon Hunters 인터랙티브 팬픽션 제작에서였다. 복잡한 세계관, 8명의 캐릭터, 한국 전통 신화까지 얽힌 이 프로젝트는 컨텍스트 엔지니어링의 진가를 시험하는 완벽한 실험장이었다. AI에게 단순히 "이런 스토리를 써줘"라고 요청하는 것이 아니라, 해당 도메인의 전체 맥락을 체계적으로 학습시키는 과정이었다.

컨텍스트 엔지니어링은 AI가 특정 도메인에서 인간 전문가 수준의 이해도를 갖도록 배경 지식, 암묵적 룰, 문화적 맥락을 체계적으로 전달하는 과정이다. 단순히 지시를 잘 내리는 것을 넘어, AI가 내 업무의 맥락, 우리 조직의 문화, 해당 산업의 관습을 이해하고 내재화하도록 만드는 것이 핵심이다.

컨텍스트 구축 프로세스: 3단계

컨텍스트 엔지니어링은 단순히 정보를 나열하는 것이 아니다. AI를 도메인 전문가로 키우는 체계적 과정이다. 나는 K-pop Demon Hunters 프로젝트를 진행하면서 이 과정을 3단계로 체계화할 수 있었다.

Loading diagram...

1단계: 기본 지식 수집

첫 단계는 해당 도메인의 기본적인 사실들을 수집하는 것이다. 이 단계에서 중요한 것은 완벽함이 아니라 범위다. 모든 것을 다 알 필요는 없다. 오히려 해당 도메인의 전체 지형을 빠르게 파악하는 것이 목표다. 어떤 개념들이 존재하는지, 어떤 관계들이 있는지, 어떤 용어들이 자주 쓰이는지를 대략적으로 이해하는 것만으로도 충분하다. 세부사항은 다음 단계에서 채워나가면 된다.

2단계: 심화 맥락 구축

두 번째 단계는 표면적인 정보를 넘어서 숨겨진 디테일과 문화적 배경을 발굴하는 과정이다. 이 단계에서 AI는 단순한 정보 검색기에서 도메인 전문가로 변화한다. K-pop Demon Hunters 프리퀄 제작 당시 나는 각 캐릭터의 배경 스토리를 깊이 파고들었다. 셀린의 판소리 배경과 한국 전통 샤머니즘의 연결고리, 진우의 과거 트라우마와 현재 행동 패턴의 연관성, 미라와 조이의 관계에서 드러나는 K-pop 산업의 현실을 하나씩 정리했다. 특히 루미 아버지의 악령화 과정과 한국 전통 신화의 연결점을 찾아내는 과정은 흥미로웠다. 공식 스토리에는 명시되지 않았지만, 한국 신화의 원혼(怨魂) 개념과 연결하면 캐릭터의 동기가 훨씬 더 깊이 있게 이해되었다. 이런 숨겨진 연결고리들을 찾아내고 문서화하는 것이 2단계의 핵심이다.

3단계: 암묵적 룰 전달

세 번째 단계는 가장 어렵지만 가장 중요하다. 해당 도메인에서 '당연하게' 여겨지지만 명시되지 않은 규칙들을 AI에게 학습시키는 것이다. 이것이 AI의 창작물을 '그럴듯하게' 만드는 핵심이다. K-pop 팬픽션에는 수많은 암묵적 룰이 있다. 캐릭터 간 로맨스를 어느 선까지 표현할 것인가? 한국 전통 무기를 현대적으로 재해석할 때 어디까지가 허용 범위인가? 팬들이 받아들일 수 있는 캐릭터 성격의 변주는 어느 정도인가?

이런 암묵적 룰은 명시적 문서에는 없다. 팬 커뮤니티의 반응, 인기 있는 2차 창작의 패턴, 논란이 된 팬픽의 사례 등을 종합적으로 분석해야 파악할 수 있다. 나는 수백 개의 팬 이론을 수집하고, 좋은 평가를 받은 팬픽과 비판받은 팬픽을 비교 분석했다. "원작의 세계관을 확장하되 모순되지 않게", "캐릭터의 본질은 유지하되 새로운 면모를 보여주게", "한국 전통 요소를 존중하되 판타지적 자유를 잃지 않게" 같은 미묘한 균형점들을 찾아냈다.

이 3단계를 완료하고 나니, AI는 단순히 내 지시를 따르는 도구가 아니라 함께 스토리를 만들어가는 공동 창작자가 되었다. "이 장면에서 미영이가 이렇게 행동하는 것은 1화의 복선과 모순됩니다"라고 지적하거나, "셀린의 판소리 스타일을 고려하면 이 대사를 이렇게 바꾸면 어떨까요"라고 제안하는 수준까지 도달했다.

도메인별 적용 패턴

컨텍스트 엔지니어링은 도메인마다 고유한 패턴이 있다. 어떤 산업은 숫자와 정밀성이 생명이고, 어떤 산업은 금지 목록이 핵심이다. 대표적인 4가지 도메인을 살펴보자.

마케팅: 균형의 예술

마케팅의 핵심은 상충하는 목표 사이의 균형이다. 1단계는 타겟 고객 데이터, 경쟁사 분석, 시장 현황. 2단계는 브랜드 톤앤매너, 고객 페르소나, 구매 여정. 3단계는 업계 관습과 문화적 센서티비티다. "친환경을 강조하되 그린워싱으로 비춰지지 않게", "가성비를 어필하되 저가 이미지는 피하게" 같은 미묘한 균형점이 컨텍스트의 핵심이다.

개발: 팀 철학의 코드화

개발 도메인은 팀마다 다른 철학이 있다. 1단계는 기술 스택, 아키텍처 문서, API 스펙. 2단계는 코딩 컨벤션, 디자인 패턴, 성능 요구사항. 3단계는 팀 문화다. "이 팀은 성능보다 가독성을 우선시한다", "테스트 커버리지 80% 이하는 머지 불가" 같은 암묵적 기준을 명시화하는 것이 핵심이다.

제조업: 숫자와 조건문의 세계

제조업에서는 "대략"이나 "보통"이 없다. 1단계는 제품 스펙, 허용 오차, 측정 기준. 2단계는 품질 판정 로직, 불량 기준, 재검사 조건. 3단계는 고객사별 허용 범위다. "제품 A 두께 2.45~2.55mm(공차 ±0.05mm), 4개 지점 측정, 2개 이상 이탈 시 불량 판정"처럼 컨텍스트가 숫자와 조건문의 조합이어야 AI가 판단할 수 있다.

금융/의료: 금지 목록이 핵심

규제 산업에서 AI의 실수는 법적 책임으로 이어진다. 컨텍스트에 "하지 말아야 할 것"이 "해야 할 것"보다 많다. 금융에서는 "승인 가능성 단언, 금리 할인 약속" 같은 절대 금지 항목을, 의료에서는 "~병입니다", "이 약을 드세요" 같은 진단/처방 표현을 명확히 금지해야 한다. 역할 한계("당신은 의료인이 아니라 정보 제공 도우미입니다")를 명시하는 것도 필수다.

좋은 컨텍스트의 4대 기준과 실전 사례

컨텍스트 문서에 숫자, 예시, 예외조건이 많을수록 AI 출력의 품질이 높아진다. 반대로 "혁신적", "창의적", "고객중심" 같은 추상적 단어만 있으면 AI는 일반적인 답변만 생성한다. 나는 여러 프로젝트를 진행하며 컨텍스트 품질을 평가하는 4대 기준을 만들었다.

첫째, 특정성(Specificity). "우리는 고객 중심 회사입니다"는 나쁜 예다. "고객 문의는 2시간 이내 1차 응답, 24시간 이내 해결 완료. 응답률 96%, 만족도 4.7/5.0"이 좋은 예다.

둘째, 실행가능성(Actionability). "우리 브랜드는 혁신적입니다"는 행동 지침이 없다. "마케팅 카피는 기존 관행에 도전하는 질문으로 시작. 예: '왜 신발끈이 있어야 할까요?'"처럼 패턴과 예시가 있어야 한다.

셋째, 예외처리(Exception Handling). "불만 고객에게 친절하게"는 경계 케이스를 다루지 못한다. "욕설 고객: 1차 경고 후 종료. 환불: 30일 이내 즉시 승인, 이후 팀장 승인"처럼 상황별 대응을 명시해야 한다.

넷째, 검증가능성(Verifiability). "좋은 보고서를 작성하세요"는 측정 불가다. "A4 3장 이내, 핵심 3가지, 각 항목에 근거 데이터 첨부"처럼 명확한 기준이 있어야 평가하고 개선할 수 있다.

Before/After 사례

마케팅 블로그: "AI 기술에 관한 블로그를 이해하기 쉽게, 전문적으로 써주세요"(나쁨) → "목적: IT 비전공 중소기업 대표의 AI 도입 결정 유도. 독자: 40-55세, 제조/유통업, AI 지식 제로. 구조: 문제 제기 → 사례 2개 → ROI 계산 → 실행 3단계 → CTA. 금지: 전문 용어 미설명 사용"(좋음). 결과: 첫 시도 성공률 상승, 수정 횟수 감소.

코드 리뷰: "베스트 프랙티스를 따르고 성능 최적화해주세요"(나쁨) → "우선순위: 1. 보안, 2. 가독성, 3. 성능. 철학: '나중에 최적화'보다 '처음부터 명확하게'. 예외: 프로토타입은 속도 우선"(좋음). 결과: 개발자들이 "시니어 개발자 리뷰 수준"이라고 평가.

핵심은 "AI가 멍청해"가 아니라 "내 컨텍스트가 불명확해"다. 이 관점 전환이 첫걸음이다.

실패에서 배우는 교훈

가장 큰 깨달음은 실패에서 왔다. 성공보다 실패가 더 많은 것을 가르쳐준다. 첫 번째 큰 실패는 컨텍스트 과부하였다. 한 법률사무소가 계약서 검토 AI를 만들려고 했다. 변호사들이 30년간 축적한 판례, 가이드라인, 체크리스트를 모두 컨텍스트에 넣었다. 총 150페이지 분량의 문서였다. 결과는 참담했다. AI는 계약서 한 장을 검토하는 데 15분이 걸렸다. 그것도 "더 많은 정보가 필요합니다"라는 답변만 반복했다. 컨텍스트가 너무 많아서 AI가 무엇이 중요한지 구분하지 못한 것이다.

해결책은 컨텍스트 계층화였다. 핵심 원칙 10개를 최상위에 두고, 그 아래에 카테고리별 상세 가이드를 배치하고, 가장 아래에 예외 케이스 데이터베이스를 만들었다. AI가 필요할 때만 심화 컨텍스트를 참조하도록 설계했다. 검토 시간은 15분에서 3분으로 단축되었다. 교훈은 명확했다. 많은 컨텍스트보다 구조화된 컨텍스트가 중요하다.

두 번째 실패는 암묵지 누락이었다. 제조업체가 품질관리 보고서 자동화를 시도했다. 검사 기준, 불량 판정 기준 등 모든 매뉴얼을 입력했다. AI가 생성한 보고서는 기술적으로는 정확했지만, 실무자들은 "이상하다"고 했다. 예를 들어 "미세한 스크래치 3개"를 불량으로 판정했는데, 실무에서는 "고객사 A는 관대하지만 B는 매우 엄격"하다는 암묵적 기준이 있었다. 매뉴얼에는 없지만 모두가 알고 있는 룰이었다.

해결책은 고객사별 허용 기준표를 만들고, 과거 클레임 데이터를 컨텍스트에 추가하는 것이었다. "고객사 B의 경우 스크래치 1개도 클레임 가능성 있음"처럼 명시적으로 작성했다. 교훈: "당연하다고 생각하는 것"을 모두 적어야 한다. 인간에게는 상식이지만 AI에게는 전혀 자명하지 않다.

세 번째 실패는 구식 컨텍스트였다. 스타트업이 고객 응대 챗봇을 만들었다. 초기 컨텍스트는 완벽했다. 6개월 후, 챗봇이 "현재 지원하지 않는 기능"을 계속 안내했다. 원인은 간단했다. 제품은 매주 업데이트되는데 컨텍스트는 6개월째 그대로였다. 신규 기능은 추가됐지만, 폐기된 기능은 컨텍스트에서 제거하지 않았다. 해결책은 컨텍스트 업데이트를 제품 배포 프로세스에 포함시키는 것이었다. 매주 금요일 "컨텍스트 검증 체크리스트" 실행. 변경 사항을 자동으로 추적하는 시스템을 구축했다. 교훈: 컨텍스트는 살아있는 문서다. 정기적 업데이트가 필수다.

컨텍스트가 곧 경쟁력이다

2025년 현재, AI는 누구나 쓸 수 있는 도구가 되었다. ChatGPT, Claude, Gemini는 무료로 사용할 수 있다. 같은 AI를 쓰는데 왜 어떤 사람은 놀라운 결과를 내고, 어떤 사람은 "AI가 별로네"라고 말하는가? 차이는 컨텍스트다. AI 자체가 아니라, AI에게 무엇을 어떻게 가르치느냐가 결과를 결정한다.

프롬프트 엔지니어링이 "한 번의 대화를 잘하는 기술"이라면, 컨텍스트 엔지니어링은 "AI를 도메인 전문가로 키우는 기술"이다. 프롬프트는 일회성이지만 컨텍스트는 누적된다. 프롬프트는 개인적이지만 컨텍스트는 조직적이다. 프롬프트는 즉흥적이지만 컨텍스트는 체계적이다.

컨텍스트 엔지니어링은 단순한 기술이 아니다. 내가 하는 일을 깊이 이해하고, 그것을 명확히 언어화하는 과정이다. AI에게 가르치려면 먼저 내가 정확히 알아야 한다. 많은 사람들이 컨텍스트를 만들면서 "내가 이 일을 제대로 이해하지 못하고 있었구나"를 깨닫는다. 10년 경력 마케터가 "우리 브랜드가 추구하는 것이 정확히 뭐지?"라고 자문하게 되고, 20년 경력 영업맨이 "내가 어떻게 신뢰를 구축하는지 말로 설명할 수 있나?"라고 고민하게 된다.

AI를 더 잘 쓰게 되는 것도 좋지만, 그 과정에서 나 자신이 하는 일을 더 깊이 이해하게 된다. 암묵지가 명시지로 전환되고, 직관이 체계로 정리되고, 경험이 지식으로 축적된다. 그 지식을 AI와 공유하면, AI는 내 경험의 확장판이 되고 내 전문성의 증폭기가 된다.

앞으로 개인과 조직의 경쟁력은 "얼마나 좋은 컨텍스트를 구축했는가"로 판가름 날 것이다. 같은 AI 모델을 쓰더라도, 축적된 컨텍스트의 품질이 결과의 질을 결정한다. 컨텍스트 라이브러리를 체계적으로 구축한 조직에서는 신입사원도 AI를 활용해 훨씬 높은 수준의 결과물을 낼 수 있게 된다. 조직의 암묵지가 명시지로 전환되면서, AI는 그 지식을 모든 구성원이 접근할 수 있게 만드는 도구가 되는 것이다.

지금 당장 시작하라. Claude Project를 열고, 3단계를 밟아라. 1주차는 기본 지식 수집 (내가 하는 일, 주요 고객, 자주 하는 작업 3가지만). 2주차는 심화 맥락 구축 (AI가 모르는 순간을 포착해 암묵적 룰 추가). 3주차는 예외 케이스 정복 ("만약 ~라면?" 10개 이상). 4주차에는 동료와 공유해 피드백을 받아라. 한 달이면 AI는 단순한 도구에서 파트너로 진화한다. 그것이 슈퍼휴먼으로 가는 첫걸음이다.