Chapter 7 · 04/14 ~ 04/20

심리검사 플랫폼

표준화 심리검사의 실시-채점-해석을 자동화할 때, 임상적 판단의 역할은 무엇인가?

이번 주 읽기: 심리검사, 종이에서 화면으로

심리검사는 상담심리학의 핵심 도구다. 정해진 질문을 주고, 답을 숫자로 바꾸고, 다른 사람들의 평균과 비교해서 이 사람의 심리 상태가 어떤지 파악한다. 여기서 “표준화”란 검사를 실시하고, 채점하고, 해석하는 절차가 항상 같다는 뜻이다. “규준(norm)”이란 비교 기준이 되는 집단의 평균 점수 분포다.

왜 표준화가 중요할까? 비유하자면 체온계와 같다. 체온계는 누가 재든, 언제 재든 같은 방식으로 측정한다. 36.5도라는 숫자가 의미를 갖는 건 측정 방법이 표준화되어 있기 때문이다. 만약 A 병원은 겨드랑이로, B 병원은 이마로 재는데 같은 기준으로 비교하면 혼란스러울 것이다. 심리검사도 마찬가지다. 문항 순서, 실시 시간, 채점 방식이 항상 같아야 결과를 비교할 수 있다.

Gainer(2025)는 심리검사의 디지털화를 세 단계로 나눈다. “실시-채점-해석” 중 실시(문항을 화면에 보여주는 것)와 채점(점수를 계산하는 것)은 완전히 자동화할 수 있다. 하지만 해석은 상담사의 고유 영역이다. 왜냐하면 해석은 단순히 “점수가 높다/낮다”가 아니라, 이 사람이 처한 상황, 검사 당시 컨디션, 문화적 배경, 다른 검사 결과를 종합적으로 고려하는 임상적 판단(clinical judgment)이기 때문이다.

세네카 R. 게이너

세네카 R. 게이너

심리검사의 자동화는 상담사의 전문성을 위협하는 것이 아니라, 상담사가 가장 중요한 일 — 내담자와의 관계 속에서 결과를 의미 있게 전달하고 치료 계획에 통합하는 것 — 에 집중할 수 있게 해준다.

Gainer (2025, p. 245)

심리검사의 디지털 전환은 역사적으로 세 단계를 거쳤다. 1단계(1960~80년대)는 컴퓨터 채점 — OMR(광학 판독기)로 답안지를 읽고 점수를 산출했다. 수작업 채점의 실수(역채점 누락, 합산 오류)를 없앤 것이다. 2단계(1990~2010년대)는 컴퓨터 실시 — 종이 대신 모니터에서 검사를 받는 것이다. 응답 시간 측정, 문항 순서 무작위화 같은 기능이 가능해졌다. 3단계(2020년대~)는 AI 해석 보조 — 검사 결과를 AI가 분석해서 서술형 보고서 초안을 만들어주되, 최종 해석은 상담사가 검토하는 모델이다.

각 단계의 전환에는 실무적 이유가 있었다. 1단계에서는 대형 병원이 하루에 수백 장의 답안지를 채점해야 했는데, 사람이 손으로 하면 오류율이 3~5%였다. OMR 도입 후 오류율은 0.1% 이하로 떨어졌다. 2단계에서는 종이 검사의 물류 문제가 컸다. 검사지 인쇄, 배포, 회수, 보관에 드는 비용과 시간이 디지털 전환으로 대폭 줄었다. 3단계에서는 상담사 1인당 담당 내담자 수가 증가하면서 보고서 작성 시간을 줄여야 한다는 현실적 필요가 AI 도입을 촉진했다.

쿠르트 크뢴케

쿠르트 크뢴케

선별 검사의 가치는 진단의 정확도만이 아니라, 전문적 도움이 필요한 사람을 조기에 발견하는 데 있다. 디지털 실시는 이 조기 발견의 범위를 극적으로 넓힌다.

Kroenke et al. (2001)

주요 심리검사 도구 알아보기

Aaron T. Beck은 인지행동치료(CBT, 생각을 바꾸면 감정이 바뀐다는 치료법)의 창시자이면서, 심리검사 역사에서 가장 영향력 있는 검사들을 만든 학자다.BDI-II(Beck Depression Inventory-II)는 21개 문항으로 지난 2주간의 우울 증상을 측정한다. 각 문항 0~3점, 총점 0~63점이다. 심각도 분류는 0~13점(최소), 14~19점(경도), 20~28점(중등도), 29~63점(중증)이다.

BDI-II가 측정하는 우울의 차원은 다양하다. 슬픔, 비관, 과거 실패감, 즐거움 상실, 죄책감, 벌 받는 느낌, 자기 혐오, 자기 비난, 자살 사고, 울음, 초조, 흥미 상실, 결단력 부족, 무가치감, 활력 상실, 수면 변화, 짜증, 식욕 변화, 집중 곤란, 피로, 성적 흥미 감소. 이 21가지 영역을 각각 측정함으로써 단순히 “우울하다/아니다”가 아니라, “어떤 종류의 우울인가”를 파악할 수 있다.

아론 T. 벡

아론 T. 벡

우울은 현실의 왜곡이 아니라, 현실을 해석하는 인지 구조의 문제다. 검사는 그 인지 구조를 숫자로 보여주는 창이다.

Beck (1976)

BAI(Beck Anxiety Inventory)는 21문항으로 지난 1주간의 불안 증상을 측정한다. 같은 0~3점 척도, 총점 0~63점이다. BAI의 특징은 심장 두근거림, 손 떨림 같은 신체적 증상에 초점을 맞춰서 우울과 불안을 구분하는 데 유용하다는 것이다. BDI-II와 BAI를 함께 쓰면 우울과 불안이 같이 나타나는 패턴(공존)을 파악할 수 있다.

우울과 불안은 자주 함께 나타난다. 연구에 따르면 우울 환자의 약 60%가 불안 증상을 동시에 보인다. 그래서 BDI-II와 BAI를 함께 실시하면 “이중 프로파일(dual profile)”을 만들 수 있다. 예를 들어 BDI-II 점수는 높고 BAI 점수는 낮은 사람은 인지적 우울(부정적 생각 중심)이 두드러진 것이고, 반대로 BDI-II는 낮고 BAI가 높은 사람은 신체적 불안(심장 박동, 호흡 곤란 등)이 핵심 문제인 것이다. 이런 구분이 치료 방향을 결정하는 데 도움이 된다.

MMPI-2(다면적 인성검사)는 567문항의 대형 검사다. 10개 임상 척도와 여러 타당도 척도를 포함한다. 디지털화할 때 특히 주의할 건 저작권이다. MMPI-2와 BDI-II는 저작권이 있어서 문항을 무단으로 웹에 올리면 안 된다. 반면 PHQ-9과 GAD-7은 무료 공개 도구라 누구나 쓸 수 있다. 우리 수업 실습에서는 저작권 문제가 없는 PHQ-9과 GAD-7을 중심으로 구현한다.

PHQ-9(Patient Health Questionnaire-9)은 9문항으로 구성된 우울 선별 도구다.Kroenke등(2001)이 개발했으며, 일차 진료(primary care, 동네 병원) 환경에서 빠르게 우울을 선별하기 위해 만들어졌다. 2분 안에 실시할 수 있고, 절단점(cutoff score, 이 점수 이상이면 추가 평가가 필요하다는 기준선)은 10점이다. GAD-7(Generalized Anxiety Disorder-7)은 7문항으로 범불안을 선별한다. 두 검사 모두 무료이고, 한국어 번역본이 표준화되어 있어서 실습에서 안전하게 쓸 수 있다.

세네카 R. 게이너

세네카 R. 게이너

디지털 심리검사에서 가장 간과되는 문제는 '검사 환경의 통제'다. 상담실에서는 조용하고 집중할 수 있는 환경을 만들어주지만, 내담자가 집에서 스마트폰으로 검사를 받을 때는 TV를 보면서, 밥을 먹으면서 할 수 있다.

Gainer (2025, p. 251)

T점수: 내 점수가 높은 건지 낮은 건지 아는 법

BDI-II에서 25점을 받았다고 하자. 이게 높은 건지 낮은 건지는 비교 기준이 있어야 판단할 수 있다. 이때 쓰는 게 T점수(T-score)다. T점수는 평균을 50점, 표준편차를 10점으로 맞춘 표준 점수다. 쉽게 말해, 원래 점수를 “전체에서 내가 어디쯤인지”로 바꿔주는 것이다.

일상적인 비유를 들어보자. 수능에서 수학 70점, 영어 85점을 받았다고 하자. 수학이 영어보다 낮으니까 수학을 못한 걸까? 꼭 그렇지 않다. 수학 평균이 50점이고 영어 평균이 90점이면, 수학 70점이 오히려 상대적으로 더 잘한 것이다. T점수가 바로 이런 “상대적 위치”를 알려주는 도구다.

T점수 70이면 평균보다 2표준편차 위 — 전체의 상위 약 2.3%에 해당한다. 대부분의 심리검사에서 T점수 70을 “임상적으로 의미 있는 수준”의 기준선으로 쓴다. T점수 65는 상위 약 6.7%(경계 수준), T점수 50은 평균이다. T점수의 장점은 서로 다른 검사 결과를 같은 잣대로 비교할 수 있다는 것이다. BDI-II T점수 65, BAI T점수 72라면 “이 사람은 우울보다 불안이 더 두드러진다”고 볼 수 있다.

T점수를 계산하는 공식은 간단하다. T = 50 + 10 x (개인 점수 - 집단 평균) / 표준편차. 예를 들어 어떤 검사에서 평균이 20점, 표준편차가 5점인데 내가 30점을 받았으면, T = 50 + 10 x (30 - 20) / 5 = 70이 된다. 디지털 플랫폼에서는 이 계산을 자동으로 해주니까, 상담사는 계산보다 해석에 집중할 수 있다.

다만, 규준 집단이 누구인지가 중요하다.Kroenke 등의 PHQ-9은 미국 일차 진료 환자를 대상으로 만들어졌다. 이걸 한국 대학생에게 그대로 적용하면 문화적 차이 때문에 점수 의미가 달라질 수 있다. 한국판 표준화 연구가 있는 검사를 쓰는 게 가장 좋고, 없으면 해석할 때 이 한계를 분명히 밝혀야 한다. 예를 들어 PHQ-9의 “지난 2주 동안 흥미나 즐거움이 거의 없었다”라는 문항이 한국 문화에서는 미국과 다른 의미로 해석될 수 있다. 한국에서는 이런 감정을 솔직하게 보고하지 않는 경향이 있어서, 실제보다 점수가 낮게 나올 가능성이 있기 때문이다.

아론 T. 벡

아론 T. 벡

검사 점수는 그 자체로 진단이 아니다. 점수는 대화의 시작점이다. 상담사가 내담자와 함께 그 숫자의 의미를 탐색할 때, 비로소 검사는 치료적 도구가 된다.

Beck et al. (1996)

심리검사 자동화: 문항 제시 → 응답 수집 → 채점

웹 기반 심리검사 플랫폼의 핵심 과정은 세 단계다. 문항을 화면에 보여주고 (문항 제시), 답을 모으고(응답 수집), 점수를 계산한다(채점). 각 단계에서 신경 써야 할 것들을 살펴보자.

문항 제시에서 중요한 건 한 화면에 몇 문항을 보여줄 건가다. BDI-II는 21문항인데, 21개를 한꺼번에 보여주면 내담자가 압도당할 수 있다. 한 문항씩 보여주면 전체 진행 상황을 모르겠다. 5~7개를 한 그룹으로 묶고, 상단에 진행률 표시줄을 넣는 게 균형 잡힌 방법이다. 또한 문항 순서는 원래 검사의 순서를 그대로 유지해야 한다. 심리검사의 문항 배치는 앞 문항이 뒤 문항에 미치는 영향을 고려해서 만든 것이므로, 순서를 바꾸면 검사의 정확도가 떨어진다.

문항 제시와 관련해 한 가지 더 고려할 점은 “반응 세트(response set)”다. 이건 내담자가 문항 내용과 상관없이 습관적으로 같은 답을 고르는 경향이다. 예를 들어 모든 문항에 “그렇다”를 누르거나, 가운데 값만 계속 선택하는 것이다. 디지털 플랫폼에서는 이런 패턴을 자동으로 감지할 수 있다. 5개 연속 같은 답이 나오면 “각 문항을 천천히 읽고 답해주세요”라는 안내 메시지를 보여주는 것도 방법이다.

역채점(reverse scoring)은 자동 채점에서 흔한 오류 원인이다. 일부 검사에서는 특정 문항의 답을 반대로 변환해야 한다. 예를 들어 5점 척도에서 원래 답이 4이면 역채점 후 1이 된다. 왜 역채점 문항을 넣을까? 모든 문항이 같은 방향이면 내담자가 생각 없이 같은 답만 고를 수 있기 때문이다. 방향을 섞으면 진짜로 읽고 생각해서 답할 가능성이 높아진다.Beck의 BDI-II는 역채점 문항이 없어서 비교적 단순하지만, MMPI-2 같은 검사에서는 역채점 문항 목록을 정확히 관리해야 한다. 코드에서 역채점 목록을 하드코딩(직접 숫자로 적어넣는 것)하면 실수가 생기기 쉬우니, 설정 파일로 분리하는 게 안전하다.

아론 T. 벡

아론 T. 벡

검사 도구의 가치는 질문의 정교함에 있다. 올바른 질문을 올바른 순서로, 올바른 방식으로 묻는 것 — 이것이 표준화의 본질이다.

Beck et al. (1996)

타당도 확인도 필요하다. 모든 문항에 같은 답을 고른 경우(전부 0 또는 전부 3), 응답 시간이 비정상적으로 짧은 경우(문항당 2초 미만), 빈 문항이 많은 경우 — 이런 패턴이 나타나면 결과를 신뢰하기 어렵다. 웹 플랫폼에서 이런 응답 패턴 분석을 추가 구현하면 결과의 신뢰성을 높일 수 있다.

응답 시간 데이터는 종이 검사에서는 얻을 수 없는 정보다. 디지털 검사의 장점 중 하나가 바로 이 “메타데이터(데이터에 대한 데이터)”를 수집할 수 있다는 것이다. 예를 들어 한 내담자가 19번 문항(자살 관련)에서 유독 오래 머물렀다면, 그 자체가 임상적으로 의미 있는 정보가 될 수 있다. 상담사가 “19번 문항에서 좀 오래 생각하셨더라고요. 그 질문이 어떤 느낌이었나요?”라고 물을 수 있는 것이다.

제이콥 닐슨

제이콥 닐슨

사용자는 시스템이 어디까지 진행되었는지를 항상 알 수 있어야 한다. 진행률 표시줄은 단순한 장식이 아니라, 사용자의 불안을 줄이고 완료 의지를 높이는 핵심 요소다.

Nielsen (1994)

검사 결과 시각화: 차트로 보여주기

검사 결과를 차트로 보여주는 건 세 가지 목적이 있다. 첫째, 상담사가 전체 패턴을 한눈에 파악한다. 둘째, 내담자에게 결과를 설명할 때 시각적 보조 자료로 쓴다. 셋째, 시간에 따른 변화를 추적해서 상담이 효과가 있는지 확인한다.

시각화가 중요한 이유를 일상적 예로 들어보자. 건강 앱에서 “이번 달 걸음 수: 평균 7,823보”라고 숫자만 보여주는 것과, 30일간의 걸음 수 그래프를 보여주는 건 정보 전달력이 완전히 다르다. 그래프에서는 월요일마다 걸음 수가 떨어지는 패턴, 비 오는 날 급감하는 패턴 등을 한눈에 볼 수 있다. 심리검사 결과도 마찬가지다.

막대 차트(bar chart)는 각 척도의 점수와 기준선(절단점)을 비교하는 데 적합하다.Kroenke등(2001)의 PHQ-9처럼 절단점이 명확한 도구에서는, 막대 위에 기준선을 그어 “정상 범위”와 “주의 필요 수준”을 시각적으로 구분한다. 색상(초록-노랑-주황-빨강)으로 심각도를 직관적으로 전달할 수도 있다. 다만 색맹 사용자를 위해 색상만이 아니라 텍스트 라벨도 함께 쓰는 게 접근성 원칙에 맞다.

레이더 차트(radar chart)는 여러 차원을 동시에 보여줄 때 유용하다. MMPI-2의 10개 임상 척도를 하나의 다각형으로 표현하면, 어떤 척도가 상대적으로 높거나 낮은지 패턴을 직관적으로 파악할 수 있다.꺾은선 차트(line chart)는 시간에 따른 변화를 추적할 때 쓴다. 매 상담 회기마다 검사를 실시해서 점수 변화를 그래프로 보여주면, 상담 효과를 데이터로 확인할 수 있다. 이것을 “성과 모니터링 (outcome monitoring)”이라고 한다.

성과 모니터링은 상담 분야에서 점점 더 주목받고 있다.Lambert의 연구에 따르면, 매 회기 검사를 실시하고 결과를 상담사에게 피드백해주면 상담 효과가 유의미하게 높아진다. 특히 호전이 없거나 악화되고 있는 내담자를 조기에 발견해서 치료 방향을 조정할 수 있다. 디지털 플랫폼은 이런 반복적 검사와 자동 시각화를 쉽게 구현할 수 있어서, 성과 모니터링에 매우 적합하다.

쿠르트 크뢴케

쿠르트 크뢴케

PHQ-9은 2분 안에 실시하고, 즉시 채점하며, 치료 반응을 추적할 수 있다. 이 간결함이 전 세계 일차 진료 환경에서 표준 도구가 된 이유다.

Kroenke et al. (2001)

차트 디자인에서 자주 하는 실수가 있다. 너무 많은 정보를 하나의 차트에 넣으려는 것이다. 10개 척도를 전부 하나의 막대 차트에 넣으면 오히려 읽기 어렵다. 핵심 척도 3~5개를 골라서 보여주고, 나머지는 “상세 보기” 버튼 뒤에 숨기는 게 좋다.Krug의 “Don't Make Me Think” 원칙처럼, 사용자가 생각할 필요 없이 직관적으로 이해할 수 있어야 한다. 차트의 제목을 “BDI-II 총점: 25/63”처럼 구체적으로 적고, 색상의 의미를 범례(legend)로 명확히 표시하자.

AI로 검사 보고서 초안 만들기

검사 결과 보고서는 점수 데이터를 서술형 문장으로 바꾼 문서다. 숙련된 상담사도 1건당 30분~1시간이 걸린다. AI를 활용하면 “이 내담자의 우울 척도는 T=72로 임상적 유의미 수준(T≥70)에 해당하며, 지난 검사(T=65) 대비 7점 상승하여 증상 악화가 시사됩니다” 같은 초안을 몇 초 만에 만들 수 있다.

보고서 자동 생성이 특히 유용한 상황이 있다. 대학 상담센터처럼 한 상담사가 주당 20~30명의 내담자를 담당하는 곳에서는 보고서 작성에만 주당 10시간 이상을 쓴다. AI가 초안을 만들어주면, 상담사는 그 시간을 실제 상담에 투자할 수 있다. 보고서의 품질도 일정하게 유지된다. 사람은 피곤하면 보고서 품질이 떨어지지만, AI는 항상 같은 구조와 문체로 작성한다.

Gainer(2025)는 AI 보고서에 반드시 지켜야 할 세 가지 원칙을 제시한다. 첫째,“초안” 표시 — AI가 만든 보고서에는 반드시 “검토 필요” 딱지를 붙인다. 상담사 확인 없이 내담자에게 전달하면 안 된다. 둘째, 맥락 한계 고지 — AI는 검사 당시 내담자의 컨디션(피곤했는지, 긴장했는지)이나 생활 상황(최근에 무슨 일이 있었는지)을 모른다. 그래서 “이 해석은 검사 점수만을 기반으로 하며, 최종 해석은 상담사와 논의해 주세요”라는 문구를 꼭 넣는다. 셋째,일관된 구조 — 보고서 형식(검사 정보 → 점수 요약 → 척도별 해석 → 종합 소견 → 권고 사항)을 항상 같게 유지해서, 상담사가 효율적으로 검토할 수 있게 한다.

AI 보고서를 사용할 때 주의해야 할 현상이 있다. “자동화 편향 (automation bias)”이다. 이건 사람이 컴퓨터나 AI가 내린 판단을 과도하게 신뢰하는 경향을 말한다. 일상적 예를 들면, 네비게이션이 “우회전”이라고 안내하면 눈앞에 막다른 길이 보여도 우회전하는 것과 비슷하다. 상담사가 AI 보고서의 “이 내담자는 경도 우울” 이라는 결론을 검토 없이 받아들이면, AI가 놓친 맥락(최근 실연, 취업 실패 등)이 반영되지 않는 해석이 내담자에게 전달될 위험이 있다.

세네카 R. 게이너

세네카 R. 게이너

AI 보고서의 가장 큰 위험은 '자동화 편향'이다. 상담사가 AI의 초안을 너무 신뢰해서 제대로 검토하지 않고 그대로 쓰는 것 — 이것이 검사 해석에서 가장 경계해야 할 상황이다.

Gainer (2025, p. 262)

Replit + Chart.js로 심리검사 플랫폼 만들기

이번 주에는 6주차에 만든 접수 시스템에 심리검사 기능을 추가한다. 우울 검사 모듈을 구현하고, Chart.js(자바스크립트 차트 라이브러리)로 결과를 시각화하고, AI로 보고서 초안까지 만들어본다. 다섯 단계로 진행한다.

실습을 시작하기 전에 전체 흐름을 머릿속에 그려보자. 내담자가 웹 페이지에 접속하면, 검사 안내 화면이 나온다. “시작” 버튼을 누르면 문항이 5~7개씩 그룹으로 나타난다. 모든 문항에 답하면 자동으로 점수가 계산되고, 차트와 함께 결과가 표시된다. 이 전체 과정을 한 페이지 안에서 구현하는 것이 목표다.

1단계: 검사 문항 폼. Replit에서 “BDI-II와 비슷한 구조의 우울 설문지를 만들어줘. 21문항, 각 문항 0~3점”이라고 입력한다. 실습용이므로 BDI-II의 실제 문항 대신 연습용 문항을 쓴다(저작권 때문). PHQ-9을 확장해서 우울의 여러 측면(인지적, 정서적, 신체적, 행동적)을 포괄하는 연습용 문항 세트를 구성하면 된다. 문항을 5~7개씩 그룹으로 나눠서 단계별로 보여주고, 진행률 표시줄을 추가한다.

문항 폼을 만들 때 주의할 점이 있다. 리커트 척도(Likert scale, 동의 정도를 숫자로 표시하는 방식)의 라벨을 명확하게 적어야 한다. 단순히 “0, 1, 2, 3”만 보여주면 내담자가 각 숫자의 의미를 모를 수 있다. “0 = 전혀 아니다, 1 = 약간 그렇다, 2 = 상당히 그렇다, 3 = 매우 심하다”처럼 텍스트 라벨을 함께 보여주자. 모바일에서도 터치하기 쉬운 크기로 버튼을 만드는 것이 중요하다.

2단계: 자동 채점. 각 문항의 답을 합산해서 총점을 낸다.Beck의 BDI-II 기준으로 총점 0~63점, 심각도 분류는 0~13점(최소), 14~19점(경도), 20~28점(중등도), 29~63점(중증). 색상 코드(초록-노랑-주황-빨강)로 심각도를 시각적으로 구분한다. 검증 테스트: 모든 문항 0 선택 → 총점 0, 모든 문항 3 선택 → 총점 63이 나오는지 확인한다.

채점 로직을 구현할 때, 하위 영역별 점수도 함께 계산하면 좋다. 예를 들어 1~7번 문항은 “인지적 우울”(부정적 생각), 8~14번은 “정서적 우울”(슬픔, 무기력), 15~21번은 “신체적 우울”(수면, 식욕, 피로)로 구분하면 된다. 이렇게 하면 총점뿐 아니라 “어떤 영역의 우울이 두드러지는가”를 파악할 수 있다.

세네카 R. 게이너

세네카 R. 게이너

AI 보고서는 반드시 '초안(draft)'이라고 표시해야 한다. 상담사의 검토 없이 내담자에게 전달되면 안 된다. 숫자 뒤에 있는 사람의 삶의 맥락은 AI가 알 수 없다.

Gainer (2025, p. 260)

3단계: Chart.js로 시각화. “검사 결과를 막대 차트로 시각화해줘. 절단점 선도 표시해줘”라고 Replit Agent에 입력한다. Chart.js의 bar chart로 총점과 하위 영역 점수를 표시하고, 심각도 구간별 배경 색상을 추가한다. 시간이 되면 레이더 차트를 추가해서 우울의 인지적· 정서적·신체적·행동적 영역별 점수를 다차원으로 보여줄 수도 있다.

Chart.js는 HTML 캔버스(canvas, 그림을 그리는 영역) 위에 차트를 렌더링(rendering, 화면에 그리는 것)한다. 막대 차트에 절단점 선을 추가하려면 Chart.js의 annotation 플러그인을 사용한다. Replit Agent에게 “chartjs-plugin-annotation을 설치하고, PHQ-9 절단점(5, 10, 15, 20)을 수평선으로 표시해줘”라고 요청하면 된다. 각 구간에 라벨(“정상”, “경도”, “중등도”, “중등증”, “중증”)도 함께 표시하자.

4단계: 해석 문구 자동 출력. 심각도별로 미리 정해둔 해석 문구를 자동으로 보여준다. 예: “최소 수준(0~13점): 현재 우울 증상이 거의 없거나 최소 수준입니다”, “중등도(20~28점): 전문 상담사와의 상담을 권장합니다”. 이 문구에는 반드시 “이 결과는 선별 검사이며, 정식 진단을 대체하지 않습니다”라는 면책 문구를 넣는다.

해석 문구를 작성할 때 중요한 원칙이 있다. 내담자를 겁주지 않으면서도 필요한 정보를 정확히 전달해야 한다. “당신은 중증 우울입니다” 대신 “응답 결과가 전문가와 상의가 필요한 수준입니다. 아래 연락처로 상담을 예약해 보세요”라고 쓰는 것이다.Nielsen의 UX 원칙에 따르면, 오류 메시지나 경고 메시지는 사용자를 비난하지 않고, 해결 방법을 함께 제시해야 한다.

5단계: AI 보고서 초안(선택). 시간이 되면, 검사 결과를 AI(ChatGPT 또는 Claude)에 넣어서 서술형 보고서 초안을 만들어본다. 프롬프트 예시: “다음 심리검사 결과로 임상 보고서 초안을 작성해줘. [검사 데이터]. 구조: (1) 검사 개요, (2) 결과 요약, (3) 영역별 분석, (4) 권고 사항. 이 보고서는 초안이며 상담사 검토가 필요합니다.” AI가 생성한 보고서를 읽어보고, 임상적으로 적절한지 평가해보자.

실습 팁: 흔한 실수와 해결법

지금까지 수업을 진행하면서 학생들이 자주 하는 실수가 몇 가지 있다. 첫째, 모든 문항을 한 페이지에 보여주는 것이다. 21문항이 한꺼번에 나오면 스크롤이 길어지고, 내담자가 피로를 느껴서 뒤쪽 문항에 대충 답할 가능성이 높아진다. 반드시 단계별로 나눠서 보여주자.

둘째, 결과 페이지에 숫자만 덩그러니 보여주는 것이다. “총점: 22”라고만 쓰면 내담자는 이게 뭘 의미하는지 모른다. 차트, 색상 코드, 해석 문구, 면책 고지를 함께 보여줘야 한다. 셋째, 면책 문구를 빼먹는 것이다. 실습용 도구라도 “이 결과는 참고용이며 전문적 진단을 대체하지 않습니다”라는 문구는 반드시 들어가야 한다. 실무에서는 이 문구가 없으면 법적 문제가 될 수 있다.

아론 T. 벡

아론 T. 벡

검사 결과의 해석에서 가장 위험한 건 '숫자의 권위'에 빠지는 것이다. T점수 72가 객관적 사실로 읽히는 순간, 그 점수 뒤에 있는 개인의 삶의 맥락이 사라진다.

Beck (1996)
쿠르트 크뢴케

쿠르트 크뢴케

PHQ-9의 9번 문항은 자해 사고를 묻는다. 이 문항에서 1점 이상이 나오면, 총점과 관계없이 즉각적인 임상적 주의가 필요하다.

Kroenke et al. (2001)

참고 문헌

  • Beck, A. T., Steer, R. A., & Brown, G. K. (1996). BDI-II: Beck Depression Inventory manual (2nd ed.). Psychological Corporation.
  • Beck, A. T., Epstein, N., Brown, G., & Steer, R. A. (1988). An inventory for measuring clinical anxiety: Psychometric properties. Journal of Consulting and Clinical Psychology, 56(6), 893–897.
  • Butcher, J. N., Dahlstrom, W. G., Graham, J. R., Tellegen, A., & Kaemmer, B. (2001). MMPI-2: Manual for administration and scoring (Rev. ed.). University of Minnesota Press.
  • Derogatis, L. R. (1994). SCL-90-R: Administration, scoring and procedures manual (3rd ed.). NCS Pearson.
  • Gainer, S. R. (2025). The counseling singularity: AI integration in therapeutic practice. Professional Publishing.
  • Graham, J. R. (2012). MMPI-2: Assessing personality and psychopathology (5th ed.). Oxford University Press.
  • Lambert, M. J. (2013). The efficacy and effectiveness of psychotherapy. In M. J. Lambert (Ed.), Bergin and Garfield's handbook of psychotherapy and behavior change (6th ed., pp. 169–218). Wiley.
  • 한국심리학회. (2020). 심리검사 사용 및 보고 지침.