Gemini 2.5 Pro TTS

Gemini 2.5 Pro TTS
Google · Audio Generation
POST /v1/audio/speech

팟캐스트, 오디오북, 고객 지원을 위한 고품질 TTS 미리보기와 23+ 언어 전반에 걸친 표현력 있는 다중 화자 음성.

한눈에

필드가치
모델 IDgemini-2-5-pro-tts
모델 출시일2025-05-20
입력 양상본문
출력 방식오디오
컨텍스트 윈도우-
무게 정밀도-
특징text_to_speech, multi_speaker, 다국어
원주민 추론아니
신규아니
지원되는 엔드포인트POST /v1/audio/speech

가격

돌격사양요금
입력1M 프롬프트 토큰당$3.00
출력생성된 토큰 1M 단위$60.00

예시 요청

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-2-5-pro-tts", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수유형필수기본 설정설명
input스트링-음성 변환을 위한 텍스트. 멀티스피커 모드의 경우, Speaker1: / Speaker2:로 줄 앞에 붙입니다.
mode열거아니"single"싱글 = 한 음성 대사, 멀티 = 두 음성 대화 (음성 + voice2 + 화자 이름 사용). · 허용: single, multi
language스트링아니"en-US"발음 단서를 위한 BCP-47 언어 태그(en-US, es-ES 등).
voice열거아니"Charon"주요 음성 이름(예: Kore, Puck, Aoede). 기본값은 비워두세요. · 허용: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2열거아니"Kore"멀티스피커 모드의 두 번째 음성 이름입니다. · 허용: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_name스트링아니"Speaker1"스피커 1의 입력 접두사에 사용되는 디스플레이 이름(기본값: Speaker1).
speaker2_name스트링아니"Speaker2"스피커 2의 입력 접두사에 사용되는 디스플레이 이름(기본값: Speaker2).
output_format열거아니"WAV"오디오 파일 형식(mp3, wav, opus, flac 등). · 허용: WAV, MP3, OGG, ALAW, MULAW
speed번호아니1.0재생 속도. 1.0 = 자연; <1 느리게, > 1 더 빨라. · 사거리: 0.25 – 2.0
volume_gain번호아니0출력 게인은 dB 단위입니다. 0 = 변함 없음. · 거리: -96 – 16
sample_rate열거아니"24000"출력 샘플레이트는 Hz 단위로 (8000, 16000, 24000, 44100, 48000) · 허용: 8000, 16000, 22050, 24000, 44100, 48000
style_prompt스트링아니-자연어(Naturallanguage Style) 방향(예: “따뜻하고, 대화체적인” 또는 “뉴스캐스터, 진지함”).

주석

모드

  • 싱글 스피커
  • 다중 화자(최대 2음성) - 텍스트는 SpeakerName: text 형식이어야 합니다

한계

  • 텍스트 + 스타일 프롬프트: 각 4,000바이트
  • 오디오 청구: 초당 생성된 오디오의 토큰 ~32개 (~10-15 chars/s)

목소리와 언어

  • emotional/tonal 캐릭터에 걸쳐 30+ 음성 옵션
  • 24+ 언어 로케이션 지원

출력 형식

  • MP3, WAV, OGG

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-pro-tts.