Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

내레이션, 어시스턴트, 음성 앱 전반에 걸쳐 정밀한 스타일, 톤, 속도, 전달을 위한 새로운 오디오 태그를 통해 매우 제어가 가능한 TTS입니다.

한눈에

필드가치
모델 IDgemini-3-1-flash-tts
모델 출시일2026-04-13
입력 양상본문
출력 방식오디오
컨텍스트 윈도우-
무게 정밀도-
특징text_to_speech, multi_speaker, 다국어
원주민 추론아니
신규
지원되는 엔드포인트POST /v1/audio/speech

가격

돌격사양요금
입력1M 프롬프트 토큰당$2.60
출력생성된 토큰 1M 단위$52.00

예시 요청

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수유형필수기본 설정설명
input스트링-음성 변환을 위한 텍스트. 멀티스피커 모드의 경우, Speaker1: / Speaker2:로 줄 앞에 붙입니다.
mode열거아니"single"싱글 = 한 음성 대사, 멀티 = 두 음성 대화 (음성 + voice2 + 화자 이름 사용). · 허용: single, multi
language스트링아니"en-US"발음 단서를 위한 BCP-47 언어 태그(en-US, es-ES 등).
voice열거아니"Charon"주요 음성 이름(예: Kore, Puck, Aoede). 기본값은 비워두세요. · 허용: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2열거아니"Kore"멀티스피커 모드의 두 번째 음성 이름입니다. · 허용: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_name스트링아니"Speaker1"스피커 1의 입력 접두사에 사용되는 디스플레이 이름(기본값: Speaker1).
speaker2_name스트링아니"Speaker2"스피커 2의 입력 접두사에 사용되는 디스플레이 이름(기본값: Speaker2).
output_format열거아니"WAV"오디오 파일 형식(mp3, wav, opus, flac 등). · 허용: WAV, MP3, OGG, ALAW, MULAW
speed번호아니1.0재생 속도. 1.0 = 자연; <1 느리게, > 1 더 빨라. · 사거리: 0.25 – 2.0
volume_gain번호아니0출력 게인은 dB 단위입니다. 0 = 변함 없음. · 거리: -96 – 16
sample_rate열거아니"24000"출력 샘플레이트는 Hz 단위로 (8000, 16000, 24000, 44100, 48000) · 허용: 8000, 16000, 22050, 24000, 44100, 48000
style_prompt스트링아니-자연어(Naturallanguage Style) 방향(예: “따뜻하고, 대화체적인” 또는 “뉴스캐스터, 진지함”).

주석

지금까지 가장 조작이 쉬운 제미니 TTS입니다.

한계

  • 텍스트 + 스타일 프롬프트: 각 4,000바이트(합산 8,000바이트)
  • 최대 출력: ~10분
  • 오디오 요금: 초당 ~25 토큰 (~15 chars/s)
  • 언어는 자동 감지됩니다; 언어 설정은 제약이 아니라 힌트일 뿐입니다

인라인 오디오 태그 (제어 전달)

  • 감정: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry] 등.
  • 속도: [slow], [fast], [extremely fast], [normal pace]
  • 멈춤: [short pause], [long pause], [breath]
  • 강조: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.