Chapter 11 · 05/12 ~ 05/18
상담 모니터링 시스템
상담 과정을 체계적으로 추적하면 치료 효과는 어떻게 달라지는가?
이번 주 읽기: 측정하면 치료가 달라진다
병원에 가면 의사가 매번 혈압을 재듯이, 상담에서도 매 회기 내담자(상담을 받는 사람)의 상태를 측정하는 방법이 있다. 이걸 ROM(Routine Outcome Monitoring, 루틴 성과 모니터링)이라고 부른다. 쉽게 말해, 매번 상담 전후로 간단한 설문을 통해 “지난주보다 나아졌나?”를 숫자로 확인하는 것이다.Gainer(2025)는 이것을 “상담의 과학적 기반을 현장에서 실현하는 가장 강력한 도구”라고 부른다.
왜 측정이 필요할까? 상담은 보통 주 1회, 50분씩 진행된다. 10회기면 500분, 약 8시간이다. 그 8시간 동안 내담자가 나아지고 있는지, 제자리인지, 오히려 나빠지고 있는지를 어떻게 알까? “느낌적으로 좋아지는 것 같은데요”라는 주관적 판단만으로는 부족하다. 의사가 환자에게 “좀 나아진 것 같으시죠?”라고만 물으면서 혈압을 재지 않는다면 어떨까? 아무도 그런 의사를 신뢰하지 않을 것이다.
이 개념을 처음 본격적으로 정립한 사람은Michael J. Lambert라는 심리학자다. Lambert(2013)는 OQ-45라는 설문지를 만들었다. 45개 문항으로 내담자의 증상, 대인관계, 사회적 기능을 추적하는 도구다. Lambert가 발견한 핵심은 이것이다 — 상담사에게 “이 내담자, 예상보다 안 좋아지고 있어요”라는 피드백을 실시간으로 주면, 치료 실패율이 20%에서 6%로 뚝 떨어졌다. 반대로 피드백 없이 자기 감(직관)에만 의존한 상담사의 90%는 내담자가 나빠지고 있다는 걸 미리 알아차리지 못했다.
이 수치를 잘 보자. 90%의 상담사가 내담자 악화를 눈치채지 못했다. 상담사가 무능해서가 아니다. 인간의 인지적 편향 때문이다. 확증 편향 (confirmation bias, 자기가 믿고 싶은 것만 보는 현상)이 작용한다. 상담사는 “내가 잘 하고 있을 거야”라고 무의식적으로 믿고 싶기 때문에, 내담자의 미세한 악화 신호를 놓치게 된다. Lambert의 OQ-45는 이 편향을 숫자로 교정해준다.

마이클 램버트
치료 성과를 실시간으로 추적하고 상담사에게 피드백을 제공하면, 내담자의 조기 탈락과 치료 실패를 현저히 줄일 수 있다. 측정은 임상적 판단의 적이 아니라 동반자다.
— Lambert (2013)
제이콥 닐슨
데이터 없이 의사결정하는 것은, 눈을 감고 운전하는 것과 같다. 사용자에게 무엇이 효과적인지는 측정해야만 알 수 있다.
— Nielsen (2000)왜 이런 일이 생길까? 상담사도 사람이다. 매주 여러 내담자를 만나다 보면, 미세한 변화를 놓치기 쉽다. “지난주보다 조금 우울해 보이는데... 그냥 피곤해서 그런 건가?” 이런 애매한 상황에서 숫자가 도움이 된다. 점수가 3점 떨어졌다는 객관적 데이터가 있으면, “오늘 컨디션이 좀 다른 것 같은데, 이야기해볼까요?”라고 자연스럽게 대화를 시작할 수 있다. 숫자가 대화를 대체하는 게 아니라, 대화의 시작점을 만들어주는 것이다.
PCOMS: 1분짜리 설문이 바꾸는 상담
ROM을 실제로 가장 쉽게 사용하는 방법이 PCOMS(Partners for Change Outcome Management System)다. Miller 등(2015)이 만든 이 시스템은 딱 두 개의 초간단 설문으로 구성된다. ORS(Outcome Rating Scale)는 상담 시작할 때 4문항으로 “요즘 전반적으로 어때요?”를 묻는다. SRS(Session Rating Scale)는 상담 끝날 때 4문항으로 “오늘 상담 어땠어요?”를 묻는다. 각각 1분도 안 걸린다.
ORS는 네 가지 영역을 10cm 시각 아날로그 척도(Visual Analogue Scale, 줄 위에 점을 찍어 표시하는 방식)로 측정한다. 개인적 안녕감(나 자신은 어떤가?), 대인관계(주변 사람들과 어떤가?), 사회적 기능(학교나 직장에서 어떤가?), 전반적 안녕감(전체적으로 어떤가?). 네 줄에 점을 찍으면 끝이다. 총점은 40점 만점이고, 25점 이하면 임상적 수준(전문 도움이 필요한 수준)으로 본다.
PCOMS의 진짜 힘은 설문 자체가 아니라, 그 결과를 가지고 나누는 대화에 있다. 상담사가 “지난주보다 대인관계 점수가 2점 낮아졌네요. 무슨 일이 있었나요?”라고 물으면, 내담자 입장에서는 “아, 이 사람이 내 상태를 꼼꼼히 보고 있구나”라고 느낀다. SRS 점수가 낮으면 상담사가 “오늘 불편한 점 있었으면 말씀해 주세요. 제 방식을 조정할 수 있어요”라고 초대한다. 이 과정에서 설문은 관계를 강화하는 도구가 된다.
SRS의 역할에 대해 좀 더 생각해보자. 내담자가 상담에 불만이 있어도, 상담사한테 직접 말하기는 어렵다. “선생님 방식이 저한테 안 맞아요” 라고 하면 관계가 어색해질까 봐 걱정된다. SRS는 이 어색함을 줄여준다. 종이 위의 숫자로 표현하면, 직접 말하는 것보다 부담이 적다. 상담사가 “이 점수가 좀 낮은데, 오늘 제가 다른 방식을 시도해볼까요?” 라고 먼저 물으면, 내담자는 “네, 사실은...”이라고 마음을 열 수 있다. 측정이 솔직한 대화의 문을 여는 것이다.
PCOMS의 효과는 연구로도 검증되었다. Miller 등(2015)의 메타분석에 따르면, PCOMS를 사용한 상담은 사용하지 않은 상담보다 효과 크기(effect size)가 0.48 더 높았다. 0.48이라는 숫자가 와닿지 않을 수 있다. 비유하면 이렇다 — 기존 상담에서 100명 중 50명이 개선되었다면, PCOMS를 추가하면 100명 중 68명이 개선된다는 뜻이다. 1분짜리 설문 두 개를 추가했을 뿐인데, 치료 성공률이 36% 올라간 것이다.

앨리슨 다시
측정은 치료를 방해하는 것이 아니라, 치료적 대화를 더 정확하게 만드는 도구다. 내담자의 경험을 숫자로 가시화하면, 상담사와 내담자가 같은 지도를 보며 대화할 수 있다.
— Darcy (2020)측정에 대한 저항: 상담사들은 왜 꺼리나
ROM의 효과가 이렇게 분명한데, 왜 많은 상담사가 실제로는 잘 안 쓸까? 상담사들의 저항에는 몇 가지 이유가 있다. “설문이 상담 분위기를 깬다”는 것이 가장 흔한 반응이다. 내담자가 힘든 이야기를 하려는데, 먼저 종이에 점수를 매기라고 하면 차갑게 느껴진다는 걱정이다. 또 “내담자를 숫자로 환원하는 것 같다”는 철학적 저항도 있다.Rogers적 인본주의 관점에서는 내담자를 점수로 평가하는 것 자체에 거부감을 느낄 수 있다.
하지만 Lambert의 연구는 이 저항이 근거 없음을 보여준다. 측정을 사용한 상담에서 내담자의 만족도가 떨어지지 않았다. 오히려 “상담사가 내 상태를 진지하게 추적해준다”는 느낌 때문에 치료 동맹(therapeutic alliance, 상담사와 내담자 사이의 신뢰와 협력 관계)이 강화되었다. 핵심은 측정을 “평가”가 아닌 “대화의 도구”로 사용하는 태도다.

칼 로저스
상담의 모든 도구는 인간 대 인간의 만남을 촉진하기 위한 수단이어야 한다. 도구 자체가 목적이 되는 순간, 우리는 관계의 본질을 잃는다.
— Rogers (1961)AI가 모니터링을 어떻게 바꾸나
기존 ROM의 가장 큰 문제는 시간이었다. 매 회기 설문을 실시하고, 점수를 계산하고, 그래프를 그리고, 해석하는 데 회기당 15~20분이 추가로 필요했다. 상담사가 50분 상담하고 나서 또 20분을 쓴다? 현실적으로 힘들다. 종이 설문지를 쓰는 경우 점수를 일일이 더하고, 엑셀에 입력하고, 그래프를 그리는 과정이 번거롭다. 결국 많은 상담사가 ROM의 효과를 알면서도 “시간이 없어서” 안 하게 된다. AI 기반 모니터링 시스템은 이 귀찮은 과정을 자동화한다. 내담자가 태블릿으로 설문에 답하면 점수가 자동 계산되고, 그래프가 실시간으로 업데이트된다.
Gainer(2025)는 AI가 가져오는 세 가지 변화를 정리한다. 첫째, 점수가 갑자기 떨어지면 “이건 자연적인 변동인가, 진짜 나빠진 건가?”를 AI가 통계적으로 판단해준다. 이걸 “통계적 유의성 검증”이라고 하는데, 쉽게 말해 “이 정도 변화는 우연일 수 있어요” vs “이 정도 변화는 진짜 나빠진 거예요”를 구분해주는 것이다. 둘째, 설문 점수뿐 아니라 수면 패턴, 앱 사용 빈도 같은 다양한 데이터를 하나의 대시보드에 모아준다. 셋째, 과거 데이터를 보고 앞으로 2~3회기 후 이 내담자가 어떻게 될지 예측해준다. 다만 Gainer는 분명히 경고한다 — AI의 예측이 상담사의 판단을 “대체”하는 게 아니라 “참고 자료”에 머물러야 한다고.
예측 기능에 대해 좀 더 생각해보자. AI가 “이 내담자는 3회기 후에 점수가 더 나빠질 확률이 70%입니다”라고 예측한다고 하자. 이 정보를 어떻게 써야 할까? 상담사가 “AI가 나빠질 거라 했으니 약물 상담을 의뢰하자”라고 AI 예측만으로 결정하면 위험하다. 반대로 “경고 신호가 있으니 다음 회기에서 좀 더 주의 깊게 관찰하자”라고 쓰면 유용하다. AI 예측은 네비게이션의 교통 정보와 비슷하다. “앞에 정체가 예상됩니다”라고 알려주지만, 최종 운전은 사람이 한다.

안드레이 카르파시
AI는 패턴 인식에서 인간을 압도한다. 수천 개의 데이터 포인트에서 이상 신호를 잡아내는 일은 기계가 훨씬 잘한다. 하지만 그 신호가 무엇을 의미하는지 해석하는 건 여전히 사람의 몫이다.
— Karpathy (2024)정리하면, ROM은 상담의 “계기판”이다. 자동차를 운전할 때 속도계, 연료계, 엔진 경고등을 보면서 운전하듯이, 상담사도 내담자의 상태를 숫자로 확인하면서 상담을 진행할 수 있다. AI는 이 계기판을 더 정확하고, 더 편리하고, 더 풍부하게 만들어준다. 하지만 계기판이 운전을 대신하지 않듯이, AI 모니터링도 상담을 대신하지 않는다. 다음 강의에서는 SOAP 기록, PHQ-9, 시계열 그래프, 알림 시스템을 살펴본다.
상담 기록의 세 가지 형식: SOAP, DAP, BIRP
상담 기록은 “오늘 상담에서 무슨 일이 있었는지”를 체계적으로 적는 것이다. 의사가 진료 기록을 남기듯, 상담사도 매 회기 기록을 남긴다. 법적 문서이기도 하고, 다음 상담을 준비하는 자료이기도 하다. 수퍼비전을 받을 때 수퍼바이저가 가장 먼저 보는 것도 상담 기록이다. 기록이 없으면 “지난 회기에 무슨 이야기를 했지?”를 기억에만 의존해야 한다. 가장 많이 쓰는 세 가지 형식이 있다.
SOAP은 의료 현장에서 온 형식이다. S(Subjective)는 내담자가 말한 것 — “이번 주에 세 번 공황 발작을 겪었어요”. O(Objective)는 상담사가 관찰한 것 — “말할 때 손을 떨었고, PHQ-9 점수 18점”. A(Assessment)는 상담사의 판단 — “우울 증상 지속, 약간 악화”. P(Plan)는 다음 계획 — “이완 훈련 추가, 다음 주 약물 상담 의뢰 고려”. 보험 청구가 필요한 곳에서 많이 쓴다.
SOAP의 장점은 구조가 명확해서 빠뜨리는 내용이 적다는 것이다. S와 O를 분리함으로써, “내담자가 말한 것”과 “상담사가 본 것”을 구분한다. 이 구분이 중요한 이유가 있다. 내담자가 “이번 주 괜찮았어요”라고 말했지만(S), 상담사가 보기에 눈이 충혈되고 말이 느려졌다면(O), 이 불일치 자체가 중요한 임상 정보다. SOAP 형식이 이 불일치를 자연스럽게 드러내준다.
DAP은 SOAP의 간단한 버전이다. S와 O를 D(Data) 하나로 합친다. 내담자가 말한 것과 상담사가 관찰한 것을 한꺼번에 적는다. 학교 상담이나 지역 상담센터처럼 빠르게 기록해야 하는 곳에서 효율적이다. 하루에 10명 이상의 학생을 만나는 학교 상담사에게 SOAP 형식으로 일일이 기록하라는 건 현실적으로 어렵다. DAP은 이 현실적 제약을 반영한 형식이다.
BIRP는 상담사가 “무엇을 했는지”에 초점을 맞춘 형식이다. B(Behavior)는 내담자의 행동, I(Intervention)은 상담사가 사용한 기법, R(Response)는 그에 대한 내담자의 반응, P(Plan)은 후속 계획이다. 수퍼비전(선배 상담사가 후배의 상담을 점검하는 것)에 유용하다. 왜냐하면 수퍼바이저가 가장 알고 싶은 건 “너 거기서 뭘 했니?”이기 때문이다. I(Intervention) 칸에 “소크라테스식 질문으로 자동적 사고를 탐색했다”라고 적으면, 수퍼바이저는 그 개입이 적절했는지를 바로 평가할 수 있다.

칼 로저스
상담사가 진심으로 내담자의 세계에 들어가면, 기록은 자연스럽게 풍부해진다. 좋은 상담 기록은 형식이 만드는 것이 아니라, 관계 속 관찰이 만드는 것이다.
— Rogers (1961)표준화 측정 도구: PHQ-9, GAD-7, OQ-45
상담에서 자주 사용하는 설문 도구 세 가지를 알아보자. PHQ-9은 우울 증상을 재는 9문항 설문이다. “지난 2주간 얼마나 자주 기분이 가라앉았나요?” 같은 질문에 0(전혀 아님)~3(거의 매일)으로 답한다. 총점 0~27점인데, 10점 이상이면 우울증을 의심해봐야 한다. 3분이면 끝나고, 무료로 쓸 수 있어서 전 세계 40개 이상 언어로 번역되어 있다.
PHQ-9의 9번째 문항은 특별하다. “자해하거나 죽고 싶은 생각을 한 적이 있나요?”라는 질문이다. 이 문항에 1점 이상으로 응답하면, 상담사는 반드시 자살 위험 평가를 추가로 진행해야 한다. AI 기반 모니터링 시스템에서는 이 문항의 점수가 자동으로 위기 경보와 연결될 수 있다. 점수가 올라가면 상담사에게 알림이 가는 것이다.
GAD-7은 불안 증상을 재는 7문항 설문이다. 구조는 PHQ-9과 비슷하고, 10점 이상이면 중등도 이상의 불안이다. PHQ-9과 GAD-7을 세트로 쓰면 우울과 불안이 동시에 있는지(공존 이환, comorbidity)를 파악할 수 있다. 공존 이환이 중요한 이유는, 우울만 있는 경우와 우울+불안이 함께 있는 경우 치료 전략이 다르기 때문이다. 공존하는 경우 치료 기간이 더 길고, 약물 치료 병행이 필요할 가능성이 높다.
Lambert(2013)의 OQ-45는 45문항으로 좀 더 넓게 — 증상, 대인관계, 사회적 역할 — 을 측정한다. 총점 63점 이상이면 “임상적 수준”(전문 도움이 필요한 수준)이고, 치료 후 이 아래로 떨어지면 “의미 있는 변화”로 본다. 14점 이상 변화해야 측정 오차를 넘는 진짜 변화다. 이 “14점”이라는 기준을 RCI(Reliable Change Index, 신뢰로운 변화 지수)라고 부른다. 쉽게 말해, “이 정도 변하면 우연이 아니라 진짜 나아진 거예요”라고 말할 수 있는 최소 기준이다.

마이클 램버트
상담사에게 내담자의 진행 상황을 실시간으로 피드백하면, 치료 실패율이 3분의 1로 줄어든다. 측정 없는 상담은, 나침반 없는 항해와 같다.
— Lambert (2013)시계열 그래프: 변화를 눈으로 보기
모니터링의 핵심은 그래프다. x축에 회기 번호, y축에 점수를 놓으면 내담자의 변화를 한눈에 볼 수 있다. 여기에 세 가지를 추가하면 훨씬 유용해진다. 첫째, 임상적 기준선 — PHQ-9에서 10점에 빨간 점선을 그으면, 점수가 이 선 위에 있는지 아래에 있는지 바로 보인다. 둘째, 예상 회복 곡선 — “보통 이 정도 증상의 사람은 몇 회기 만에 이만큼 좋아진다”는 평균 곡선과 비교하면, 이 내담자가 잘 가고 있는지 뒤처지는지 알 수 있다. 셋째, 의미 있는 변화 경계선 — 점수가 3점 떨어졌을 때, 그게 그냥 기분 탓인지 진짜 나빠진 건지를 구분하는 선이다.
이 그래프를 내담자와 함께 보는 것도 치료적으로 의미가 있다. 우울한 내담자는 “나는 하나도 안 나아지고 있어”라고 느끼는 경우가 많다. 하지만 그래프를 보면 “3회기 전보다 점수가 5점 내려갔네요. 천천히 나아지고 있어요”라는 객관적 근거를 제시할 수 있다.Beck의 인지치료에서 말하는 “증거 기반 논박”이 바로 이것이다 — 부정적 자동적 사고를 객관적 데이터로 교정하는 것이다.
그래프 해석에서 주의할 점도 있다. 점수가 올라갔다고 반드시 나빠진 건 아니다. 상담 중에 억눌린 감정을 처음 표현하면, 일시적으로 불안이나 우울 점수가 올라갈 수 있다. 이걸 “치료적 악화(therapeutic deterioration)”라고 부르는데, 회복 과정의 자연스러운 부분이다. 마치 상처가 나을 때 딱지가 가렵듯이, 마음의 상처도 치유 과정에서 일시적으로 불편할 수 있다. 상담사는 점수 변동만 보지 말고, 그 맥락을 함께 고려해야 한다.

아론 T. 벡
인지치료에서 측정은 치료의 일부다. 내담자가 자신의 변화를 숫자로 확인하면, '나아지고 있다'는 추상적 희망이 구체적 사실이 된다.
— Beck (1979)AI 기반 SOAP 자동 작성의 가능성
최근 AI 기술의 발전으로, 상담 녹음을 텍스트로 변환(Speech-to-Text)한 뒤 AI가 자동으로 SOAP 노트를 작성하는 시도가 등장하고 있다. AI가 50분 축어록을 읽고, S(내담자가 말한 핵심 호소), O(관찰 가능한 행동과 점수), A(임상적 판단), P(다음 회기 계획)으로 자동 분류해주는 것이다. 상담사가 처음부터 쓰는 대신 AI가 만든 초안을 수정하면, 기록 시간을 60% 이상 줄일 수 있다.
하지만 A(Assessment) 칸을 AI가 쓰는 건 논란이 있다. Assessment는 상담사의 임상적 판단이다. “이 내담자의 우울 증상이 악화되고 있다”는 판단을 AI가 대신할 수 있을까? Gainer(2025)는 S와 O는 AI가 초안을 쓸 수 있지만, A는 반드시 상담사가 직접 작성해야 한다고 주장한다. P(Plan)도 마찬가지다. 치료 계획은 내담자와의 관계, 치료 목표, 기관의 자원 등을 종합적으로 고려한 판단이기 때문이다.
알림 시스템: 위기를 놓치지 않는 방법
좋은 모니터링 시스템은 그냥 기록만 하는 게 아니라, 필요할 때 알려준다.Gainer(2025)는 최소 세 단계의 알림을 권고한다. 첫째, 일상 알림 — “내일 상담 예약이 있습니다” 같은 리마인더. 무단 결석을 줄여준다. 둘째,임상 경고 — PHQ-9 점수가 15점을 넘거나, 예상보다 나빠지고 있을 때 상담사에게 보내는 경고. Lambert의 “실패 경보”를 디지털로 구현한 것이다. 셋째, 위기 경보 — 내담자가 자해나 자살 관련 표현을 했을 때 즉시 작동하는 긴급 알림. 상담사에게 알림이 가는 동시에, 내담자에게는 위기상담 전화번호(1393, 109)가 자동으로 안내된다.
자동 알림의 한 가지 주의점은 “경보 피로(alert fatigue)”다. 거짓 경보가 너무 자주 울리면, 상담사가 진짜 위기 때도 “또 오작동 이겠지” 하고 넘기게 된다. 병원에서도 같은 문제가 있다. 모니터가 너무 자주 삐삐 울리면 간호사가 경보 소리에 둔감해진다. 반대로 너무 보수적이면 진짜 위기를 놓칠 수 있다. 이 균형을 맞추는 것이 AI 기반 모니터링 시스템 설계의 핵심 과제다.
경보 피로를 줄이는 방법 중 하나는 “단계적 경보”다. 모든 경보를 같은 수준으로 울리지 말고, 위험 수준에 따라 차등화하는 것이다. 예를 들어, PHQ-9 점수가 1~2점 올라간 경우는 대시보드에 노란색으로 표시만 하고(상담사가 확인할 때 참고), 5점 이상 급등하면 문자 알림을 보내고, 자살 관련 표현이 감지되면 즉시 전화를 거는 식이다. 이렇게 하면 상담사는 “알림이 오면 진짜 중요한 거”라는 신뢰를 유지할 수 있다.

세네카 R. 게이너
모니터링 시스템의 가치는 데이터를 모으는 데 있지 않다. 적시에, 적절한 강도로, 적절한 사람에게 알림을 보내는 데 있다. 과잉 알림은 알림이 없는 것만큼 위험하다.
— Gainer (2025, Chapter 11)모니터링 대시보드 설계: 상담사 뷰 vs 내담자 뷰
상담 모니터링 대시보드를 만들 때 가장 먼저 고려할 점은, 누가 보느냐에 따라 화면이 달라야 한다는 것이다. 내담자가 자기 점수 그래프를 봤는데 빨간색 경고 배지가 뜨면 불안해질 수 있다. 그래서 내담자용 화면은 간결하고 긍정적인 프레이밍이 필요하다. 반면 상담사용 화면은 임상적 정보가 한눈에 들어와야 한다.
두 화면의 차이를 구체적으로 보자. 내담자용 화면에서는 “이번 주 기분 점수: 28점 (지난주보다 2점 올랐어요)”처럼 긍정적인 변화를 강조한다. 점수가 떨어졌을 때는 “오늘은 조금 힘든 날이었나 봐요. 다음 상담에서 함께 이야기해봐요”처럼 따뜻한 톤으로 전달한다. 반면 상담사용 화면에서는 같은 데이터를 “ORS 28점 (전주 대비 -2, 임상 기준선 이하, 3회 연속 하락 추세)”처럼 임상적으로 정확하게 표시한다. 빨간 경고 배지, 추세선, 예상 회복 곡선과의 비교가 모두 포함된다.

제이콥 닐슨
좋은 인터페이스는 사용자가 현재 상태를 항상 파악할 수 있게 한다. 시스템이 무엇을 하고 있는지, 내 데이터가 어디에 있는지를 사용자에게 늘 보여줘야 한다.
— Nielsen (1994)Jakob Nielsen의 사용성 원칙을 상담 모니터링에 적용하면 이렇다. 첫째, 대시보드 상단에 현재 상태(측정 완료/미완료, 다음 상담까지 남은 일수, 최근 점수 변화)를 한 줄로 요약한다. 둘째, 점수 입력할 때 범위 밖의 값(예: PHQ-9에서 28 이상)을 자동으로 막아준다. 셋째, 화면을 최대한 단순하게 만든다. 정신건강 도구의 사용자는 인지적으로 지친 상태일 수 있으니까, 복잡한 화면은 그 자체가 부담이다.
Nielsen의 “오류 방지(error prevention)” 원칙도 적용해보자. 내담자가 설문에 답할 때 실수로 “0”을 “00”으로 입력하거나, 척도를 거꾸로 이해해서 높은 점수를 매기는 경우가 있다. 이런 실수를 미리 방지하는 UI가 필요하다. 예를 들어 슬라이더(막대를 좌우로 밀어서 점수를 매기는 도구)를 쓰면 범위 밖의 값을 입력할 수 없다. 각 문항 아래에 “0 = 전혀 아님, 3 = 거의 매일” 같은 안내를 항상 보여주면 척도 혼란도 줄일 수 있다.
SOAP 노트 입력 폼 만들기
Replit에서 SOAP 노트 입력 폼을 직접 만들어보자. Replit Agent에게 “상담 모니터링 대시보드를 만들어줘. SOAP 노트 입력 폼, 증상 점수 변화 그래프, 목표 달성률 차트를 포함해줘”라고 프롬프트를 입력한다. SOAP의 네 칸(S, O, A, P)을 각각 텍스트 입력 영역으로 만들되, 빈 칸에 가이드를 넣어준다. S 칸에는 “내담자가 보고한 내용 (예: 수면 상태, 감정 변화)”, A 칸에는 “상담사의 임상적 판단 (예: 증상 변화 방향)” 같은 안내 문구를 넣는다.
각 칸의 크기도 중요하다. S 칸은 내담자의 이야기를 충분히 적을 수 있도록 넉넉하게(5~8줄), O 칸은 관찰 기록이므로 중간 크기(3~5줄), A와 P는 간결하게(2~3줄)가 적당하다. 형식이 내용을 결정하기 때문이다. 칸이 너무 작으면 중요한 내용을 빠뜨리게 되고, 너무 크면 불필요한 내용을 과도하게 적게 된다.
가상 내담자 데이터를 5회기분 만든다. 회기 번호, 날짜, PHQ-9 점수, GAD-7 점수, 주요 호소 문제, SOAP 노트를 포함한다. 이 데이터로 PHQ-9 점수 변화를 꺾은선 그래프로 그리고, 10점에 빨간 점선(임상적 기준선)을 표시한다. 점수가 기준을 넘는 회기에는 경고 아이콘을 추가한다. 가상 데이터를 만들 때 현실적인 패턴을 반영하자. 보통 상담 초기 2~3회기는 점수가 유지되거나 살짝 올라가고(내담자가 자기 문제를 직시하면서), 중반부터 서서히 내려가는 패턴이 자연스럽다.

앨런 쿠퍼
소프트웨어는 사용자의 목표를 이해하고 그 목표를 달성하도록 도와야 한다. 상담사의 목표는 기록 자체가 아니라, 내담자를 더 잘 돕는 것이다.
— Cooper (2014)SMART 목표와 진행률 시각화
모니터링 대시보드에 SMART 목표 추적 기능도 넣어보자. SMART는 Specific(구체적), Measurable(측정 가능), Achievable(달성 가능), Relevant(관련 있는), Time-bound(기한 있는)의 약자다. “불안을 줄이겠다”는 SMART가 아니다. “4주 안에 GAD-7 점수를 15점에서 10점 이하로 줄이겠다”가 SMART 목표다. 각 목표의 진행률을 progress bar나 레이더 차트로 시각화하면, 내담자와 상담사가 “어디까지 왔고, 어디로 가야 하는지”를 함께 확인할 수 있다.
레이더 차트(방사형 그래프)가 SMART 목표 시각화에 적합한 이유가 있다. 여러 목표를 동시에 보여줄 수 있기 때문이다. 예를 들어 “수면 개선” “불안 감소” “대인관계 향상” “자기 돌봄” 네 가지 목표가 있다면, 레이더 차트의 네 축에 각각의 달성률을 표시할 수 있다. 한눈에 “수면은 많이 좋아졌는데, 대인관계는 아직 부족하구나”를 파악할 수 있다. 상담사와 내담자가 함께 이 차트를 보면서 “다음 회기에서는 어떤 목표에 집중할까요?”라는 대화를 자연스럽게 나눌 수 있다.

마이클 램버트
치료 목표가 명확할수록 치료 성과가 좋다. 측정 가능한 목표를 세우고 매 회기 진행 상황을 확인하는 것이 치료적 변화의 핵심 동력이다.
— Lambert (2013)참고 문헌
- Cameron, S., & Turtle-Song, I. (2002). Learning to write case notes using the SOAP format. Journal of Counseling & Development, 80(3), 286–292.
- Gainer, S. R. (2025). The counseling singularity: AI integration in therapeutic practice. Professional Publishing.
- Jacobson, N. S., & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59(1), 12–19.
- Kroenke, K., Spitzer, R. L., & Williams, J. B. W. (2001). The PHQ-9: Validity of a brief depression severity measure. Journal of General Internal Medicine, 16(9), 606–613.
- Lambert, M. J. (2013). Outcome in psychotherapy: The past and important advances. Psychotherapy, 50(1), 42–51.
- Miller, S. D., Bargmann, S., Chow, D., Seidel, J., & Maeschalck, C. (2015). The Partners for Change Outcome Management System (PCOMS). Journal of Clinical Psychology, 71(2), 155–164.
- Wampold, B. E. (2015). Routine outcome monitoring: Coming of age—With the usual developmental challenges. Psychotherapy, 52(4), 458–462.