AI 가상 고객이 진짜 설문을 대체하나요?

아니요, 대체가 아니라 '앞단 깔때기'예요. 후보가 10개 있을 때 설문·인터뷰 대상을 2~3개로 좁혀주는 도구죠. AI 페르소나는 사람보다 호의적으로 답하는 편향이 있어서 '몇 %가 살 거다' 같은 절대 수치는 믿으면 안 돼요. 진짜 사람 검증은 그대로 필요하고, 이건 그 비용을 아껴주는 단계예요.

코딩을 전혀 몰라도 할 수 있나요?

원작자는 Claude Code(말로 시키는 AI 코딩 도구)로 리서치부터 보고서까지 한 번에 처리했어요. 즉 직접 코드를 짜기보다 'AI에게 시키는' 방식이라, 비개발자도 따라 할 여지가 있어요. 다만 '무엇을 어떤 순서로 시킬지' 설계하는 머리는 필요해서, 처음엔 작은 주제로 연습하는 걸 추천해요.

어떤 데이터나 도구가 필요해요?

원작자는 NVIDIA가 공개한 Nemotron-Personas라는 인물 데이터에서 한국·미국 각 200명을 뽑아 썼어요. 공개 데이터 + AI 모델 + Claude Code 정도 조합이에요. 우리 가게라면 거창한 데이터셋 없이 'AI에게 우리 손님 같은 가상 인물 여러 명을 만들어 반응을 시켜봐' 수준으로 가볍게 시작해도 돼요.

결과를 어디까지 믿어도 되나요?

절대치는 버리고 '상대 순위'만 쓰세요. 모든 후보를 똑같은 조건에서 물어보면, 누가 1등이고 누가 꼴찌인지 순위 비교는 쓸 만해요. 실제로 원작자도 '바로 결제 71%' 같은 수치는 비현실적이라 버리고, 포맷 간 순위만 활용했어요.

작은 가게·1인 사업자도 가능해요?

오히려 작을수록 유용해요. 설문 돌릴 모객력도 예산도 부족하니까요. '신메뉴 A·B·C 중 뭘 먼저 낼까'를 정식으로 묻기 전에, AI 가상 손님들한테 먼저 반응을 떠보고 후보를 좁히는 용도로 딱이에요.

내 사업 정보를 AI에 넣어도 괜찮나요? (보안)

가상 고객 반응 테스트는 보통 '상품 설명·가격 같은 공개해도 되는 정보'만 넣어도 돌아가요. 매출 원장이나 고객 개인정보까지 넣을 필요는 없어요. 민감한 숫자는 빼고, 검증하려는 '제안(오퍼)' 문장만 넣는 걸 추천해요.

AI 가상 고객으로 신상품 검증하기 — 설문 없이 페르소나 3,400건 돌린 실전법

커버 — AI 가상 고객 3,400명한테 신상품을 물어본 뽀짝이

안녕하세요, 뽀짝이입니다 🐈‍⬛

신메뉴를 낼까, 새 클래스를 열까, 가격을 어떻게 묶을까 — 후보는 잔뜩인데, 이런 고민 한 번쯤 해보셨죠?

“설문 돌리자니 사람 모으기도 일이고, 결과 나올 때쯤이면 이미 늦고… 그냥 감으로 지를까?”

저도 그게 늘 막막했어요 😹 그런데 지피터스에 윤누리님(Product Manager)이 올린 글 하나가 눈에 확 들어왔어요. 제목이 “설문 없이 가상 고객 반응 3,400건”이거든요. 신규 포맷 10개를 빠르게 검증하려고, 실제 설문 대신 AI 가상 고객(합성 페르소나)을 써서 반응 3,400건을 모은 실전기예요 (원문 보기).

읽어보니 이건 개발자만의 얘기가 아니라, “뭘 먼저 밀지” 고민하는 모든 사장님한테 쓸모가 있더라고요. 그래서 원작자 방식을 존중하면서, 사장님이 따라 할 수 있게 풀어 정리했어요.

오늘 정리할 것:

AI 가상 고객(합성 페르소나)이 한마디로 뭔지
왜 ‘설문’ 대신 ‘AI 페르소나’를 먼저 돌리는지
가장 중요한 함정 — 숫자를 그대로 믿으면 안 되는 이유
어떻게 했는지 (핵심 트릭 2개 포함)
사장님은 이걸 어떻게 써먹는지 (활용 예시)

🤔 AI 가상 고객이 뭔가요?

처음 들으시는 분께 한 줄로 — 합성 페르소나(synthetic persona)는 “진짜 사람 대신 AI가 연기하는 가상의 고객”이에요. “30대 직장맘”, “가격에 민감한 자취생”처럼 성격·상황이 다른 인물을 여러 명 만들어, 각자에게 “이 상품 어때요?”를 물어보는 거죠.

윤누리님은 여기에 진짜 데이터를 붙였어요. NVIDIA가 공개한 Nemotron-Personas라는 인물 데이터에서 한국·미국 인물 각 200명을 뽑아, 포맷별로 반응을 받아 총 3,400건을 모았어요. 작업은 Claude Code(말로 시키는 AI 코딩 도구) 한 세션에서 리서치부터 보고서까지 끝냈고요.

쉽게 말하면 — 길거리 설문조사를 나가는 대신, “손님 같은 가상 인물 400명을 컴퓨터 안에 세워두고 한 명씩 물어본” 거예요.

🎯 왜 ‘설문’ 대신 ‘AI 페르소나’를 먼저 돌리나요?

이유는 단순해요. 설문은 비싸고 느린데, 검증할 후보는 많기 때문이에요.

신규 포맷 후보가 10개라고 쳐봐요. 이걸 전부 사람 설문으로 돌리면 모객·시간·비용이 10배로 들죠. 그렇다고 감으로 3개만 골라 설문하면, 버린 7개 중에 진짜 대박이 섞여 있었을지 영영 모르고요.

그래서 윤누리님은 순서를 이렇게 잡았어요.

AI 가상 고객으로 10개 후보 전부를 싸고 빠르게 떠본다 → 상위 2~3개로 좁힌다
좁혀진 후보만 진짜 사람으로 정밀 검증한다

핵심은 AI는 ‘예측’이 아니라 ‘깔때기’라는 거예요. 많은 후보 중에서 사람한테 물어볼 대상을 추려주는 거지, AI가 정답을 맞히는 게 아니에요. 이렇게만 써도 설문 비용을 확 아낄 수 있죠.

⚠️ 가장 중요한 함정 — “숫자를 그대로 믿지 마세요”

이 글에서 제일 중요한 대목이라 따로 떼어 강조할게요. AI 페르소나는 사람보다 후하게 답하는 편향이 있어요.

실제로 초기 결과에서 “바로 결제하겠다”가 71%나 나왔대요. 신나서 “대박이네!” 할 뻔했는데, 분포를 뜯어보니 AI 페르소나가 “그냥 창 닫고 나가겠다”를 0~3%밖에 안 골랐던 거예요. 현실에서 광고 보고 그냥 닫는 사람이 그것밖에 안 될 리가 없잖아요? 즉 절대 수치 자체가 비현실적이었던 거죠.

그래서 원작자가 세운 원칙이 명쾌해요.

“절대치는 버리고, 상대 순위만 쓴다.”

AI가 다 후하게 답하더라도, 똑같은 조건에서 10개 후보를 줄 세우면 “A가 B보다 낫다” 같은 순위 비교는 유효하다는 거예요. 모두에게 같은 편향이 걸려 있으니, 그 편향을 빼고 등수만 보면 된다는 논리죠. 이건 사장님이 AI한테 뭘 물어보든 써먹을 수 있는 사고법이에요 — “몇 %?”가 아니라 “셋 중 누가 1등?”으로 물어라.

🛠️ 어떻게 했나요? (핵심 트릭 2개)

전체 흐름은 ①과거 데이터로 기준선 잡기 → ②경쟁사 4곳 병렬 조사 → ③포맷 후보 정리 → ④가상 고객 반응 수집 → ⑤점수화 → ⑥순위 정리, 이렇게 6단계였어요. 여기서 비개발자도 알아두면 좋은 트릭 두 개만 콕 집을게요.

① “태도” 말고 “행동”을 물었다 — “이거 마음에 드세요?”(태도)는 다들 좋다고 답해서 변별이 안 돼요. 대신 “결제할래요 / 찜만 할래요 / 무료 대안 찾을래요 / 그냥 창 닫을래요”처럼 행동 선택지로 물으면 진짜 속내가 갈려요. 사장님도 손님 반응 떠볼 때 “좋아요?” 대신 “지금 사실래요, 나중에요?”로 물으면 훨씬 정확해요.
② 자유 답변을 ‘의미 거리’로 점수화했다 — 가상 고객이 자유롭게 쓴 문장을, “당장 신청”부터 “관심 없음”까지 기준 문장과 얼마나 가까운지(의미 유사도)로 점수를 매겼어요. 객관식이 아니라 자연스러운 말을 받아서 수치로 바꾼 거죠.

재밌는 디테일 하나 — 기준 문장의 단어 하나만 바꿔도 순위가 뒤집혔다고 해요. 그만큼 “어떻게 묻느냐(측정 설계)“가 결과를 좌우한다는 뜻이라, 한 번에 끝내지 말고 질문을 바꿔가며 교차 검증하는 게 중요해요.

🌏 흥미로운 발견 — 한국 vs 미국, 같은 ‘보증금’ 다른 반응

데이터가 진짜였다는 증거로, 문화 차이까지 잡혔어요. 환불형 보증금(돌려받는 예치금)을 붙였을 때 신청 의향 변화가 이렇게 갈렸대요.

구분	보증금 붙였을 때 신청 의향 변화	왜?
한국	약 −3.5%p (거의 안 빠짐)	“어차피 돌려받는 돈”으로 따로 계산
미국	약 −19.5%p (확 빠짐)	“지금 내는 총액”으로 합산해서 봄

같은 제도인데 한국은 “돌려받는 돈”이라 분리해서 보고, 미국은 “당장 나가는 총액”으로 합산해서 본 거예요. 만약 한국 고객 대상 서비스라면 환불형 보증금이 생각보다 거부감이 적다는 힌트가 되죠. 이런 결은 절대 수치가 아니라 “국가 간 상대 비교”라서 신뢰할 만한 발견이에요.

🙆 사장님은 이걸 어떻게 써먹나요?

거창한 데이터셋 없이도, 아이디어는 그대로 빌려올 수 있어요. 업종별로 그림을 그려볼게요.

① 카페·식당 — 신메뉴 줄 세우기 신메뉴 후보 5개를 정하고, AI에게 “우리 단골 같은 손님 유형 여러 명을 만들어서, 이 5개 중 ‘지금 주문할 것 / 다음에 / 안 시킴’을 골라달라”고 시켜요. 정식 시식 이벤트는 상위 2개만 돌리면 비용이 확 줄죠.

② 학원·클래스 — 어떤 커리큘럼을 먼저 열까 새 강좌 후보들을 가상 수강생들에게 “결제 / 찜 / 무료영상으로 대체 / 관심없음”으로 물어요. “좋아 보여요?”가 아니라 “등록할래요?”로 묻는 게 포인트예요.

③ 이커머스·1인 사업 — 오퍼·가격 묶음 테스트 “무료배송 vs 10% 할인 vs 사은품” 같은 제안(오퍼) 변형을 가상 고객 순위로 떠본 뒤, 광고를 태울 한두 개만 추려요.

공통 원칙은 하나예요 — AI한테는 “몇 퍼센트?”를 묻지 말고 “이 중에 누가 1등이야?”를 물어라. 그리고 1등 후보는 꼭 진짜 사람으로 한 번 더 확인하기. AI는 후보를 좁혀주는 깔때기지, 최종 결정권자가 아니니까요.

🚀 뽀짝이 한 줄 정리

이 글의 핵심은 “AI가 고객 마음을 다 안다”가 아니에요. 정반대로, AI 답은 후하니까 절대치는 버리고 순위만 써라, 그리고 진짜 검증은 사람으로 하라는 겸손한 사용법이에요. 그 절제 덕분에 오히려 신뢰할 수 있는 도구가 된 거죠.

후보는 많은데 다 검증할 여력은 없는 사장님이라면, “지르기 전에 AI 가상 손님한테 먼저 줄 세워보기” — 이 한 단계만 끼워 넣어도 헛발질이 확 줄어요 🐾 더 깊은 원리가 궁금하면 원작자 글을 직접 읽어보시길 추천해요.

🔗 더 읽어보면 좋은 글 (다음 스텝)

설문 없이 가상 고객 반응 3,400건 (윤누리, 지피터스 원문) — 이 칼럼의 바탕이 된 실전기 전문
수업 22화 — 에이전트가 혼자 자라난다고요? — AI를 ‘시켜서’ 일하게 하는 기본기

📎 이 글이 참고한 자료 (근거)

지피터스 윤누리님의 실전 공유 글을 바탕으로, 핵심 방법론을 사장님 눈높이로 재구성했어요 — 원문: “설문 없이 가상 고객 반응 3,400건” (작성자 윤누리)