
안녕하세요, 뽀짝이입니다 🐈⬛
해외 출장, 외국인 손님 응대, 외국어 화상회의… 이럴 때 이런 생각 한 번쯤 해보셨죠?
“통역 앱 켜봤는데, 한 사람이 말 끝낼 때까지 기다렸다가 번역이 나오니까 대화가 뚝뚝 끊겨서 영 어색하더라고요.”
저도 그게 제일 답답했어요 😹 그런데 2026년 6월 9일, 구글이 그 ‘뚝뚝 끊김’을 정조준한 걸 내놨어요. 제미나이 3.5 라이브 번역(Gemini 3.5 Live Translate) — 말하는 도중에 통역 음성이 계속 흘러나오는, 거의 실시간 음성통역 모델이에요.
이 글은 기능 자랑만 늘어놓는 글이 아니라, “이게 뭐가 다르고, 나는 지금 어디서 쓸 수 있나”를 한자리에 정리한 칼럼이에요. 구글 공식 발표를 직접 읽고, 실제 데모 영상까지 가져와서 정리했어요.
오늘 정리할 것:
- 제미나이 3.5 라이브 번역이 한마디로 뭔지
- 기존 통역 앱이랑 뭐가 다른지 (끊김 없는 동시통역의 비밀)
- 지금 나도 쓸 수 있는지 (번역 앱 · 구글 미트 · 개발자 API)
- 폰을 귀에 대면 통역이 흘러나오는 새 기능 (직접 영상으로)
- 가짜 음성 걱정은 어떻게 막는지
🌐 제미나이 3.5 라이브 번역, 한마디로 뭔가요?
한마디로 “거의 실시간으로 말을 통역해 음성으로 들려주는 AI”예요. 구글이 만든 최신 오디오 모델이고, 70개가 넘는 언어를 자동으로 감지해서 자연스러운 통역 음성을 만들어내요.
핵심은 ‘자연스러움’이에요. 딱딱한 기계 번역 음성이 아니라, 말한 사람의 억양·말 속도·목소리 높낮이까지 살려서 통역해줘요. 구글은 20년 전 번역을 머신러닝 실험으로 시작해, 지금은 매달 1조 단어 넘게 번역하고 있다고 하는데, 이번 건 그 흐름의 ‘다음 한 수’라고 소개했어요.
구글은 이걸 “사람과 사람을 잇는 마법(magic of human connection)“이라고 표현했어요. 언어 장벽 때문에 못 나눴던 대화를, 이제 거의 실시간으로 한다는 거죠.
🎧 기존 통역 앱이랑 뭐가 다른데요?
여기가 이번 발표의 진짜 알맹이예요. 기존 통역과 결정적으로 다른 점은 ‘기다리지 않는다’는 거예요.
- 기존 방식 (번갈아 말하기) — 한 사람이 말을 다 끝낼 때까지 기다렸다가 번역을 시작해요. 그래서 대화에 자꾸 빈 공백이 생기고 어색하죠.
- 제미나이 3.5 라이브 번역 (연속 생성) — 말하는 도중에 통역 음성을 계속 만들어내요. 말하는 사람보다 몇 초만 뒤처질 뿐, 어색한 멈춤 없이 흘러가요.
기술적으로는 “문맥을 더 기다려서 품질을 높일까 vs 바로 통역해서 속도를 맞출까”라는 줄다리기를, 모델이 알아서 균형 잡는다고 해요. 덕분에 자연스러운 통역 음성이 끊김 없이 이어져요.
게다가 소음에 강하게 만들어서 시끄럽고 예측 안 되는 환경에서도 버티고, 미리 ‘무슨 언어’인지 설정하지 않아도 여러 언어가 섞인 입력을 알아서 처리해요. 회의·수업·방송·통화 같은 실시간 상황을 노린 거예요.
자연스러운 통역 음성이 어느 정도인지 직접 들어보세요 👇
🎬 영상이 안 보이면 → Fluid, natural voice translation (YouTube)
📱 그래서 지금 나도 쓸 수 있나요?
출시는 오늘(6월 9일)부터 세 갈래로 굴러가기 시작했어요. 내가 어디에 속하는지 보세요.
| 누구에게 | 어디서 | 상태 |
|---|---|---|
| 모두 | 구글 번역(Google Translate) 앱 — 안드로이드·아이폰 | 지금 전 세계 출시 중 |
| 기업 | 구글 미트(Google Meet) | 이달부터 일부 기업에 비공개 프리뷰 |
| 개발자 | Gemini Live API · 구글 AI 스튜디오 | 공개 프리뷰 |
일반 사용자라면 구글 번역 앱이 제일 빠른 길이에요. 아래에서 하나씩 볼게요.
🗣️ 폰을 귀에 대면 통역이 흘러나와요 (새 ‘리스닝 모드’)
구글 번역 앱에서 ‘라이브 번역’ 기능을 켜고 이어폰만 연결하면, 상대의 말이 내 언어로, 게다가 상대의 말투를 살린 채로 흘러들어와요. 70개 넘는 언어가 대상이에요.
여기에 안드로이드용으로 새 ‘리스닝 모드(listening mode)‘가 추가됐는데, 이게 꽤 영리해요. 이어폰이 없어도, 폰을 그냥 전화받듯 귀에 갖다 대면 통역된 음성이 귀에 대는 스피커(이어피스)로 바로 흘러나와요. 옆 사람에게 안 들리게, 조용히 통역을 듣고 싶을 때 딱이죠.
아래는 구글이 공개한 실제 데모예요. 스페인어 가이드 투어를, 폰을 귀에 댄 채로 영어 통역으로 듣는 장면이에요. (자동으로 재생돼요. 음량 버튼 🔊을 누르면 통역 음성까지 들을 수 있어요)
여행지에서 가이드 설명을, 식당에서 점원 말을, 이어폰을 못 챙겼어도 폰 하나로 알아듣는다고 생각하면 활용처가 확 와닿죠.
💼 화상회의에서 70개 언어가 동시에 (구글 미트)
외국 거래처와 화상회의 해보신 분은 아실 거예요. 말이 안 통하면 회의가 두 배로 길어지죠. 구글 미트의 음성 번역이 곧 이 모델로 업그레이드되는데, 달라지는 게 큼직해요.
- 지원 언어: 5개 → 70개 이상으로 대폭 확대
- 한 회의에서 2,000개 넘는 언어 조합 가능 (예전엔 영어를 꼭 거쳐야 했는데, 이제 그럴 필요 없어요)
- 통역 기능에 바로 접근할 수 있게 화면도 개편
다만 이건 일부 비즈니스용 구글 워크스페이스 고객에게 이달부터 비공개 프리뷰로 먼저 열리고, 더 넓은 출시는 올해 후반 예정이에요. 당장 모두가 쓰는 건 아니라는 점만 기억해두세요.
🎬 영상이 안 보이면 → Speech translation in Google Meet (YouTube)
🛠️ 개발자라면 — 라이브 API로 직접 붙인다
내 서비스에 실시간 통역을 넣고 싶은 분께도 길이 열렸어요. Gemini Live API와 구글 AI 스튜디오로 공개 프리뷰가 시작됐고, 음성을 스트리밍하는 즉시 처리하는 구조라 더 매끄러운 다국어 연결이 가능해요.
좋은 소식은, 복잡한 실시간 미디어 스트리밍 인프라를 직접 안 짜도 된다는 거예요. Agora · Fishjam · LiveKit · Pipecat · Vision Agents 같은 플랫폼들이 이미 연동돼 있어서, 그 위에서 음성 통역 앱을 비교적 쉽게 만들 수 있어요.
실제로 동남아 차량호출 서비스 그랩(Grab)은 픽업 때 기사–승객 사이 실시간 다국어 소통에 이 모델을 테스트 중이에요. 이들이 그랩으로 거는 음성 통화가 월 1,000만 건이 넘는다니, 규모가 실감 나죠. CJ ENM, LiveKit 같은 곳도 통역 품질·정확도·낮은 지연에 긍정적인 초기 평가를 남겼어요.
개요가 궁금하면 이 영상 하나로 정리돼요 👇
🎬 영상이 안 보이면 → Introducing Gemini 3.5 Live Translate (YouTube)
🔒 AI가 만든 가짜 음성, 걱정은 안 되나요?
실시간으로 자연스러운 음성을 만들어낸다니, 악용 걱정이 드는 게 당연해요. 구글은 이 모델이 만든 모든 오디오에 ‘SynthID’ 워터마크를 새긴다고 밝혔어요.
이 워터마크는 사람 귀로는 전혀 들리지 않게 음성 안에 짜여 들어가요. 대신 나중에 “이건 AI가 만든 음성”이라고 식별할 수 있어서, 가짜 음성으로 허위정보를 퍼뜨리는 걸 막는 안전장치 역할을 해요.
🐈⬛ 그래서 우리는 뭘 하면 되나요?
길게 정리했지만, 여러분이 지금 챙길 건 딱 세 가지예요.
- 당장 써볼 거라면 → 폰에 구글 번역 앱을 최신으로 업데이트하고 ‘라이브 번역’을 켜보세요. 안드로이드면 이어폰 없이 폰을 귀에 대는 ‘리스닝 모드’도 곧 들어와요. 해외 출장·외국인 응대에 바로 써먹을 수 있어요.
- 외국어 회의가 잦다면 → 구글 미트 업그레이드를 기다려볼 만해요. 5개→70개 언어, 영어를 안 거쳐도 되는 건 회의 흐름을 확 바꿔요. (단, 아직 일부 기업 프리뷰)
- 서비스에 붙일 거라면 → Gemini Live API + 연동 플랫폼(LiveKit 등)으로 실시간 통역 기능을 직접 얹을 수 있어요.
아직 ‘프리뷰’ 단계라 환경에 따라 들쭉날쭉할 수 있다는 점은 솔직하게 감안하세요. 그래도 “말 끝나길 기다리던 통역”에서 “말하는 중에 흘러나오는 통역”으로 넘어간 건 분명한 변화예요. 언어의 벽이 또 한 칸 낮아졌네요 🐾