커버 — AI 가상 고객 3,400명한테 신상품을 물어본 뽀짝이

안녕하세요, 뽀짝이입니다 🐈‍⬛

신메뉴를 낼까, 새 클래스를 열까, 가격을 어떻게 묶을까 — 후보는 잔뜩인데, 이런 고민 한 번쯤 해보셨죠?

“설문 돌리자니 사람 모으기도 일이고, 결과 나올 때쯤이면 이미 늦고… 그냥 감으로 지를까?”

저도 그게 늘 막막했어요 😹 그런데 지피터스에 윤누리님(Product Manager)이 올린 글 하나가 눈에 확 들어왔어요. 제목이 “설문 없이 가상 고객 반응 3,400건”이거든요. 신규 포맷 10개를 빠르게 검증하려고, 실제 설문 대신 AI 가상 고객(합성 페르소나)을 써서 반응 3,400건을 모은 실전기예요 (원문 보기).

읽어보니 이건 개발자만의 얘기가 아니라, “뭘 먼저 밀지” 고민하는 모든 사장님한테 쓸모가 있더라고요. 그래서 원작자 방식을 존중하면서, 사장님이 따라 할 수 있게 풀어 정리했어요.

오늘 정리할 것:

  • AI 가상 고객(합성 페르소나)이 한마디로 뭔지
  • 왜 ‘설문’ 대신 ‘AI 페르소나’를 먼저 돌리는지
  • 가장 중요한 함정 — 숫자를 그대로 믿으면 안 되는 이유
  • 어떻게 했는지 (핵심 트릭 2개 포함)
  • 사장님은 이걸 어떻게 써먹는지 (활용 예시)

🤔 AI 가상 고객이 뭔가요?

처음 들으시는 분께 한 줄로 — 합성 페르소나(synthetic persona)“진짜 사람 대신 AI가 연기하는 가상의 고객”이에요. “30대 직장맘”, “가격에 민감한 자취생”처럼 성격·상황이 다른 인물을 여러 명 만들어, 각자에게 “이 상품 어때요?”를 물어보는 거죠.

윤누리님은 여기에 진짜 데이터를 붙였어요. NVIDIA가 공개한 Nemotron-Personas라는 인물 데이터에서 한국·미국 인물 각 200명을 뽑아, 포맷별로 반응을 받아 총 3,400건을 모았어요. 작업은 Claude Code(말로 시키는 AI 코딩 도구) 한 세션에서 리서치부터 보고서까지 끝냈고요.

쉽게 말하면 — 길거리 설문조사를 나가는 대신, “손님 같은 가상 인물 400명을 컴퓨터 안에 세워두고 한 명씩 물어본” 거예요.


🎯 왜 ‘설문’ 대신 ‘AI 페르소나’를 먼저 돌리나요?

이유는 단순해요. 설문은 비싸고 느린데, 검증할 후보는 많기 때문이에요.

신규 포맷 후보가 10개라고 쳐봐요. 이걸 전부 사람 설문으로 돌리면 모객·시간·비용이 10배로 들죠. 그렇다고 감으로 3개만 골라 설문하면, 버린 7개 중에 진짜 대박이 섞여 있었을지 영영 모르고요.

그래서 윤누리님은 순서를 이렇게 잡았어요.

  1. AI 가상 고객으로 10개 후보 전부를 싸고 빠르게 떠본다 → 상위 2~3개로 좁힌다
  2. 좁혀진 후보만 진짜 사람으로 정밀 검증한다

핵심은 AI는 ‘예측’이 아니라 ‘깔때기’라는 거예요. 많은 후보 중에서 사람한테 물어볼 대상을 추려주는 거지, AI가 정답을 맞히는 게 아니에요. 이렇게만 써도 설문 비용을 확 아낄 수 있죠.


⚠️ 가장 중요한 함정 — “숫자를 그대로 믿지 마세요”

이 글에서 제일 중요한 대목이라 따로 떼어 강조할게요. AI 페르소나는 사람보다 후하게 답하는 편향이 있어요.

실제로 초기 결과에서 “바로 결제하겠다”가 71%나 나왔대요. 신나서 “대박이네!” 할 뻔했는데, 분포를 뜯어보니 AI 페르소나가 “그냥 창 닫고 나가겠다”를 0~3%밖에 안 골랐던 거예요. 현실에서 광고 보고 그냥 닫는 사람이 그것밖에 안 될 리가 없잖아요? 즉 절대 수치 자체가 비현실적이었던 거죠.

그래서 원작자가 세운 원칙이 명쾌해요.

“절대치는 버리고, 상대 순위만 쓴다.”

AI가 다 후하게 답하더라도, 똑같은 조건에서 10개 후보를 줄 세우면 “A가 B보다 낫다” 같은 순위 비교는 유효하다는 거예요. 모두에게 같은 편향이 걸려 있으니, 그 편향을 빼고 등수만 보면 된다는 논리죠. 이건 사장님이 AI한테 뭘 물어보든 써먹을 수 있는 사고법이에요 — “몇 %?”가 아니라 “셋 중 누가 1등?”으로 물어라.


🛠️ 어떻게 했나요? (핵심 트릭 2개)

전체 흐름은 ①과거 데이터로 기준선 잡기 → ②경쟁사 4곳 병렬 조사 → ③포맷 후보 정리 → ④가상 고객 반응 수집 → ⑤점수화 → ⑥순위 정리, 이렇게 6단계였어요. 여기서 비개발자도 알아두면 좋은 트릭 두 개만 콕 집을게요.

  • ① “태도” 말고 “행동”을 물었다 — “이거 마음에 드세요?”(태도)는 다들 좋다고 답해서 변별이 안 돼요. 대신 “결제할래요 / 찜만 할래요 / 무료 대안 찾을래요 / 그냥 창 닫을래요”처럼 행동 선택지로 물으면 진짜 속내가 갈려요. 사장님도 손님 반응 떠볼 때 “좋아요?” 대신 “지금 사실래요, 나중에요?”로 물으면 훨씬 정확해요.
  • ② 자유 답변을 ‘의미 거리’로 점수화했다 — 가상 고객이 자유롭게 쓴 문장을, “당장 신청”부터 “관심 없음”까지 기준 문장과 얼마나 가까운지(의미 유사도)로 점수를 매겼어요. 객관식이 아니라 자연스러운 말을 받아서 수치로 바꾼 거죠.

재밌는 디테일 하나 — 기준 문장의 단어 하나만 바꿔도 순위가 뒤집혔다고 해요. 그만큼 “어떻게 묻느냐(측정 설계)“가 결과를 좌우한다는 뜻이라, 한 번에 끝내지 말고 질문을 바꿔가며 교차 검증하는 게 중요해요.


🌏 흥미로운 발견 — 한국 vs 미국, 같은 ‘보증금’ 다른 반응

데이터가 진짜였다는 증거로, 문화 차이까지 잡혔어요. 환불형 보증금(돌려받는 예치금)을 붙였을 때 신청 의향 변화가 이렇게 갈렸대요.

구분보증금 붙였을 때 신청 의향 변화왜?
한국약 −3.5%p (거의 안 빠짐)“어차피 돌려받는 돈”으로 따로 계산
미국약 −19.5%p (확 빠짐)“지금 내는 총액”으로 합산해서 봄

같은 제도인데 한국은 “돌려받는 돈”이라 분리해서 보고, 미국은 “당장 나가는 총액”으로 합산해서 본 거예요. 만약 한국 고객 대상 서비스라면 환불형 보증금이 생각보다 거부감이 적다는 힌트가 되죠. 이런 결은 절대 수치가 아니라 “국가 간 상대 비교”라서 신뢰할 만한 발견이에요.


🙆 사장님은 이걸 어떻게 써먹나요?

거창한 데이터셋 없이도, 아이디어는 그대로 빌려올 수 있어요. 업종별로 그림을 그려볼게요.

① 카페·식당 — 신메뉴 줄 세우기 신메뉴 후보 5개를 정하고, AI에게 “우리 단골 같은 손님 유형 여러 명을 만들어서, 이 5개 중 ‘지금 주문할 것 / 다음에 / 안 시킴’을 골라달라”고 시켜요. 정식 시식 이벤트는 상위 2개만 돌리면 비용이 확 줄죠.

② 학원·클래스 — 어떤 커리큘럼을 먼저 열까 새 강좌 후보들을 가상 수강생들에게 “결제 / 찜 / 무료영상으로 대체 / 관심없음”으로 물어요. “좋아 보여요?”가 아니라 “등록할래요?”로 묻는 게 포인트예요.

③ 이커머스·1인 사업 — 오퍼·가격 묶음 테스트 “무료배송 vs 10% 할인 vs 사은품” 같은 제안(오퍼) 변형을 가상 고객 순위로 떠본 뒤, 광고를 태울 한두 개만 추려요.

공통 원칙은 하나예요 — AI한테는 “몇 퍼센트?”를 묻지 말고 “이 중에 누가 1등이야?”를 물어라. 그리고 1등 후보는 꼭 진짜 사람으로 한 번 더 확인하기. AI는 후보를 좁혀주는 깔때기지, 최종 결정권자가 아니니까요.


🚀 뽀짝이 한 줄 정리

이 글의 핵심은 “AI가 고객 마음을 다 안다”가 아니에요. 정반대로, AI 답은 후하니까 절대치는 버리고 순위만 써라, 그리고 진짜 검증은 사람으로 하라겸손한 사용법이에요. 그 절제 덕분에 오히려 신뢰할 수 있는 도구가 된 거죠.

후보는 많은데 다 검증할 여력은 없는 사장님이라면, “지르기 전에 AI 가상 손님한테 먼저 줄 세워보기” — 이 한 단계만 끼워 넣어도 헛발질이 확 줄어요 🐾 더 깊은 원리가 궁금하면 원작자 글을 직접 읽어보시길 추천해요.


🔗 더 읽어보면 좋은 글 (다음 스텝)

📎 이 글이 참고한 자료 (근거)

지피터스 윤누리님의 실전 공유 글을 바탕으로, 핵심 방법론을 사장님 눈높이로 재구성했어요 — 원문: “설문 없이 가상 고객 반응 3,400건” (작성자 윤누리)