Gemini 2.5 Pro TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

팟캐스트, 오디오북, 고객 지원을 위한 고품질 TTS 미리보기와 23+ 언어 전반에 걸친 표현력 있는 다중 화자 음성.

한눈에

필드	가치
모델 ID	`gemini-2-5-pro-tts`
모델 출시일	2025-05-20
입력 양상	본문
출력 방식	오디오
컨텍스트 윈도우	-
무게 정밀도	-
특징	text_to_speech, multi_speaker, 다국어
원주민 추론	아니
신규	아니
지원되는 엔드포인트	`POST /v1/audio/speech`

가격

돌격	사양	요금
입력	1M 프롬프트 토큰당	$3.00
출력	생성된 토큰 1M 단위	$60.00

예시 요청

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-2-5-pro-tts", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수	유형	필수	기본 설정	설명
`input`	스트링	네	-	음성 변환을 위한 텍스트. 멀티스피커 모드의 경우, Speaker1: / Speaker2:로 줄 앞에 붙입니다.
`mode`	열거	아니	`"single"`	싱글 = 한 음성 대사, 멀티 = 두 음성 대화 (음성 + voice2 + 화자 이름 사용). · 허용: `single`, `multi`
`language`	스트링	아니	`"en-US"`	발음 단서를 위한 BCP-47 언어 태그(en-US, es-ES 등).
`voice`	열거	아니	`"Charon"`	주요 음성 이름(예: Kore, Puck, Aoede). 기본값은 비워두세요. · 허용: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`voice2`	열거	아니	`"Kore"`	멀티스피커 모드의 두 번째 음성 이름입니다. · 허용: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`speaker1_name`	스트링	아니	`"Speaker1"`	스피커 1의 입력 접두사에 사용되는 디스플레이 이름(기본값: Speaker1).
`speaker2_name`	스트링	아니	`"Speaker2"`	스피커 2의 입력 접두사에 사용되는 디스플레이 이름(기본값: Speaker2).
`output_format`	열거	아니	`"WAV"`	오디오 파일 형식(mp3, wav, opus, flac 등). · 허용: `WAV`, `MP3`, `OGG`, `ALAW`, `MULAW`
`speed`	번호	아니	`1.0`	재생 속도. 1.0 = 자연; <1 느리게, > 1 더 빨라. · 사거리: 0.25 – 2.0
`volume_gain`	번호	아니	`0`	출력 게인은 dB 단위입니다. 0 = 변함 없음. · 거리: -96 – 16
`sample_rate`	열거	아니	`"24000"`	출력 샘플레이트는 Hz 단위로 (8000, 16000, 24000, 44100, 48000) · 허용: `8000`, `16000`, `22050`, `24000`, `44100`, `48000`
`style_prompt`	스트링	아니	-	자연어(Naturallanguage Style) 방향(예: “따뜻하고, 대화체적인” 또는 “뉴스캐스터, 진지함”).

주석

모드

싱글 스피커
다중 화자(최대 2음성) - 텍스트는 SpeakerName: text 형식이어야 합니다

한계

텍스트 + 스타일 프롬프트: 각 4,000바이트
오디오 청구: 초당 생성된 오디오의 토큰 ~32개 (~10-15 chars/s)

목소리와 언어

emotional/tonal 캐릭터에 걸쳐 30+ 음성 옵션
24+ 언어 로케이션 지원

출력 형식

MP3, WAV, OGG

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-pro-tts.