
안녕하세요, 뽀짝이입니다 🐈⬛
오늘은 좀 신기한 소식이에요. 이런 상상 해보신 적 있으세요?
“내 AI 비서한테, 채팅 말고 그냥 전화를 걸어서 물어볼 순 없나? 운전 중인데 손은 못 쓰고…”
일레븐랩스(ElevenLabs) 개발팀이 바로 그걸 글로 정리해서 올렸어요 — “코딩 에이전트한테 전화를 걸어 통화하기”요. 헤르메스(Hermes) 같은 코딩 에이전트에 일레븐랩스 음성 에이전트(ElevenAgents)를 붙이면, 책상 앞이 아니어도 전화로 내 에이전트와 대화하고 일을 시킬 수 있다는 거예요.
이 글은 “이게 대체 뭔 소리고, 나한테 쓸모가 있고, 어떻게 연결하는지”를 비개발자 눈높이에서 한자리에 정리한 칼럼이에요. 원문(영문)을 직접 읽고, 화면 캡처까지 같이 풀어드릴게요.
오늘 정리할 것:
- “에이전트한테 전화 건다”가 정확히 무슨 뜻인지
- 어떤 구조로 굴러가는지 (음성은 누가, 두뇌는 누가)
- 이게 사장님·실무자한테 왜 쓸모 있는지 (활용 그림)
- 실제 연결 4단계 (복붙 가능한 코드와 함께)
- 시작 전에 알아둘 것 (요금·보안·프리뷰의 솔직한 명암)
📞 “에이전트한테 전화를 건다”가 무슨 뜻이에요?
한마디로 — 내 AI 에이전트가 전화를 받는다는 뜻이에요.
원문이 든 예시가 와닿아요. “책상에서 떨어져 있는데 어젯밤 돌려놓은 테스트가 통과(green)했는지 궁금하다. 아니면 운전하면서 ‘리팩터링 하나 돌려놔’라고 시켜두고 싶다.” 지금까지는 노트북을 열고 채팅창에 타이핑해야 했죠. 그런데 에이전트한테 전화번호를 붙여두면, 그냥 전화를 걸어 말로 물어보고 시키는 게 돼요.
처음 보는 분을 위해 짧게 — 헤르메스(Hermes)는 내 컴퓨터·서버에 상주하면서 일을 대신 해주는 오픈소스 AI 에이전트예요. 도구를 쓰고, 기억을 쌓고, 스킬을 늘리는 “자라는 비서”죠. 원래도 일레븐랩스의 음성 읽기(TTS)·받아쓰기(STT)는 내장돼 있었는데, 진짜 통화처럼 주거니 받거니 하려면 ElevenAgents(일레븐랩스의 대화형 음성 에이전트)가 필요해요. 이 둘을 연결하면 헤르메스가 전화를 받습니다.
🧩 어떤 구조로 굴러가요?
역할을 딱 둘로 나누면 이해가 쉬워요. 음성은 일레븐랩스가, 두뇌는 헤르메스가 맡아요.

그림을 왼쪽부터 따라가면 이런 흐름이에요.
| 단계 | 누가 | 무슨 일을 하나 |
|---|---|---|
| 전화번호 | Twilio | 진짜 전화가 걸려오는 입구 |
| 음성 처리 | ElevenAgents | 말 알아듣기·말하기, 말 끊기(턴테이킹), 끼어들기 처리 |
| 연결 규격 | /chat/completions | 둘을 잇는 공용 통로 (OpenAI 호환) |
| 두뇌 | 헤르메스 에이전트 | 실제 도구·스킬·터미널·기억으로 일 처리 |
핵심은 가운데 /chat/completions예요. 일레븐랩스는 통화 한 마디 한 마디를 “OpenAI 호환 Chat Completions”라는 표준 규격으로 헤르메스에 넘겨요. 즉 일레븐랩스 입장에선 헤르메스가 그냥 평범한 AI 모델처럼 보이는데, 그 뒤에는 도구·기억·스킬을 다 갖춘 진짜 에이전트가 돌고 있는 거죠. 그래서 “전화로 물어봤더니 알아서 파일을 뒤지고 작업까지 해주는” 그림이 가능해져요.
🙆 이게 왜 쓸모 있어요? (활용 그림)
“개발자나 쓰는 거 아냐?” 싶지만, 한 꺼풀 벗기면 손이 묶여 있을 때 말로 일 시키기예요. 업종별로 그려볼게요.
① 1인 개발·바이브코딩 사장님 밤새 돌려둔 작업이 잘 끝났는지 출근길에 전화로 “어제 그거 다 됐어?”라고 물어봐요. 됐으면 “그럼 다음 거 시작해줘”라고 말로 시켜두고요. 노트북 열 필요가 없어요.
② 자동화 걸어둔 운영자 매일 도는 자동화가 멈췄는지, 에러는 없는지 이동 중에 음성으로 확인해요. “지금 상태 한 줄로 알려줘” 한마디면 끝이에요.
③ 손이 바쁜 모든 사람 요리·운전·이동처럼 화면을 못 볼 때, 전화로 메모를 시키거나 자료를 찾아두라고 해놔요. 돌아와서 결과만 확인하면 되죠.
공통점은 — “채팅창 앞에 앉아 있어야만 시킬 수 있던 일”을 전화 한 통으로 푸는 것이에요. 거창한 코딩이 아니라, 평소 전화로 부탁하듯 말하는 거예요.
⚙️ 헤르메스 전화 연결 방법 (복붙 코드 4단계)
크게 네 걸음이에요. 아래 코드는 그대로 복사해서 본인 키·주소만 바꿔 쓰면 돼요. (시작 전 준비물: 일레븐랩스 계정 · 모델이 연결된 헤르메스 에이전트 · ngrok · 실제 번호를 붙일 거면 Twilio 계정)
🧑💻 원문 팁: 이 글(영문 원문)을 그대로 코딩 에이전트한테 붙여넣으면, 아래 단계 중 상당수를 에이전트가 대신 처리해줘요. “직접 vs 에이전트한테 시키기” 둘 다 길이 있다는 뜻이에요.
1단계 — 헤르메스에 ‘OpenAI 호환 API 서버’ 켜기
헤르메스 설정 파일 ~/.hermes/.env에 아래 값을 넣어요. API_SERVER_KEY는 예시 그대로 두지 말고 길고 강력한 키를 새로 만들어 넣으세요(보안 핵심).
API_SERVER_ENABLED="true"
API_SERVER_HOST="127.0.0.1"
API_SERVER_PORT="8642"
API_SERVER_KEY="YOUR_RANDOM_HERMES_API_SERVER_KEY"
API_SERVER_MODEL_NAME="hermes-agent"
그다음 게이트웨이를 설치·실행해요.
hermes gateway install
hermes gateway start
API 서버가 잘 떴는지 확인해요. 아래처럼 나오면 성공이에요.
curl -sS http://127.0.0.1:8642/health
# {"status": "ok", "platform": "hermes-agent"}
2단계 — ngrok으로 바깥에서 들어올 주소 만들기
방금 켠 서버는 내 컴퓨터 안(127.0.0.1)에만 있어요. 일레븐랩스가 바깥에서 찾아오려면 공개 주소가 필요하죠. ngrok이 8642 포트를 인터넷에 열어줘요.
ngrok http 8642
# → https://your-ngrok-subdomain.ngrok-free.app
이 주소 뒤에 /v1을 붙인 게(https://...ngrok-free.app/v1) 다음 단계에서 일레븐랩스가 부를 주소예요. ngrok 창은 통화하는 동안 계속 켜두세요.
3단계 — 일레븐랩스에 ‘커스텀 LLM’으로 헤르메스 붙이기
방법이 두 가지예요. (A) 대시보드에서 클릭으로, 또는 (B) 코드(API)로. 손에 익은 쪽을 고르세요.
(A) 대시보드 — 대화형 에이전트 설정에서 LLM을 Custom LLM으로 바꿔요.

그리고 Server URL에 ngrok 주소 + /v1을 넣고, API 키(아까 만든 API_SERVER_KEY)로 인증을 걸어요.

(B) 코드 — 클릭이 번거롭거나 코딩 에이전트한테 대신 시키고 싶으면, 아래 두 번의 요청이면 끝이에요. 먼저 키를 안전하게 보관할 시크릿을 만들어요.
curl -X POST https://api.elevenlabs.io/v1/convai/secrets \
-H "xi-api-key: YOUR_ELEVENLABS_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"type": "new",
"name": "hermes_gateway_token",
"value": "YOUR_RANDOM_HERMES_API_SERVER_KEY"
}'
응답으로 secret_id가 와요. 이걸 다음 요청에 써요.
# 응답 예시
{ "type": "stored", "secret_id": "abc123...", "name": "hermes_gateway_token" }
이제 그 secret_id와 ngrok 주소로 전화 받을 에이전트를 만들어요.
curl -X POST https://api.elevenlabs.io/v1/convai/agents/create \
-H "xi-api-key: YOUR_ELEVENLABS_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"name": "Hermes Voice Agent",
"conversation_config": {
"agent": {
"language": "en",
"first_message": "Hello, how can I help?",
"prompt": {
"llm": "custom-llm",
"prompt": "You are Hermes Agent speaking through ElevenLabs in a live voice conversation. Be warm, conversational, and concise. Use Hermes tools when they are clearly needed, then summarize results naturally.",
"custom_llm": {
"url": "https://YOUR_NGROK_URL.ngrok-free.app/v1",
"api_type": "chat_completions",
"api_key": { "secret_id": "RETURNED_SECRET_ID" }
}
}
}
}
}'
💡 한국어로 통화하고 싶으면 위
"language": "en"을"ko"로,first_message도 한국어로 바꾸면 돼요.
이렇게 하면 일레븐랩스가 통화 한 마디 한 마디를 헤르메스로 넘기고, 헤르메스는 도구·스킬을 써서 처리한 뒤 음성으로 답해요.
4단계 — 전화번호 붙이기
여기서부터가 재미있어요. Twilio에서 번호를 사고(SID·Auth Token 복사), 일레븐랩스 에이전트의 Phone 섹션에서 Twilio 계정을 연결한 뒤 그 번호를 가져와(Import) 에이전트에 붙여요.

번호를 에이전트에 붙이는 순간 — 이제 그 번호로 전화하면 헤르메스가 받습니다. 끝이에요.
⚠️ 시작 전에 알아둘 것
좋은 점만 적으면 광고지 정보가 아니니, 솔직하게 짚을게요.
- 요금은 따로예요. 헤르메스·ngrok은 무료로 시작할 수 있지만, 일레븐랩스 음성/통화는 사용량 요금이 있고 Twilio 번호도 유료예요. 가볍게 테스트부터 하고 규모를 늘리는 게 안전해요.
- ngrok은 내 컴퓨터를 잠깐 인터넷에 여는 통로예요. 그래서 강력한 API 키로 잠그고, 안 쓸 땐 터널을 꺼두세요. 민감한 파일·계정을 다루는 에이전트라면 권한을 좁혀두는 습관이 필요해요.
- “전화 받는 비서”는 감독이 필요해요. 말로 시키면 알아서 한다는 게 장점이자 위험이에요. 파일을 지우거나 외부로 메시지를 보내는 작업은 확인 단계를 두는 게 좋아요.
- 아직 새 조합이에요. 음성 에이전트 × 코딩 에이전트는 막 나오는 분야라, 매끄럽지 않은 부분이 있을 수 있어요. 중요한 업무에 바로 올리기보다 덜 중요한 것부터 손에 익히세요.
🚀 뽀짝이 한 줄 정리
이번 소식의 핵심은 “음성 기능이 생겼다”가 아니라 AI 에이전트의 ‘입구’가 또 하나 늘었다예요. 터미널 → 데스크탑 앱에 이어, 이제 전화까지. 화면 앞에 앉아 있어야만 시킬 수 있던 비서를, 이동 중에도 전화 한 통으로 부르는 시대가 된 거죠 🐾
에이전트가 “어떻게 알아서 자라고 일하는지” 원리가 궁금하면 수업 22화부터, 헤르메스를 클릭으로 시작하는 법은 헤르메스 데스크탑 앱 총정리, 다른 에이전트와의 차이는 헤르메스 vs 클로드코드 vs 오픈클로에서 이어보세요.
🔗 더 읽어보면 좋은 글 (다음 스텝)
- 헤르메스 데스크탑 앱 총정리 — 설치·무료·오픈클로 비교 — 헤르메스를 클릭으로 시작하기
- 헤르메스 vs 클로드코드 vs 오픈클로 — 어떤 에이전트를 고를지
- 수업 22화 — 에이전트가 혼자 자라난다고요? — 에이전트가 “자라는” 원리
📎 이 글이 참고한 자료 (근거)
일레븐랩스 개발팀(@ElevenLabsDevs)이 X에 올린 아티클을 직접 읽고 정리했어요 — Call Your Hermes Agent over the phone using ElevenAgents (화면 캡처 출처: 동일 아티클).