Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

내레이션, 어시스턴트, 음성 앱 전반에 걸쳐 정밀한 스타일, 톤, 속도, 전달을 위한 새로운 오디오 태그를 통해 매우 제어가 가능한 TTS입니다.

한눈에

필드	가치
모델 ID	`gemini-3-1-flash-tts`
모델 출시일	2026-04-13
입력 양상	본문
출력 방식	오디오
컨텍스트 윈도우	-
무게 정밀도	-
특징	text_to_speech, multi_speaker, 다국어
원주민 추론	아니
신규	네
지원되는 엔드포인트	`POST /v1/audio/speech`

가격

돌격	사양	요금
입력	1M 프롬프트 토큰당	$2.60
출력	생성된 토큰 1M 단위	$52.00

예시 요청

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수	유형	필수	기본 설정	설명
`input`	스트링	네	-	음성 변환을 위한 텍스트. 멀티스피커 모드의 경우, Speaker1: / Speaker2:로 줄 앞에 붙입니다.
`mode`	열거	아니	`"single"`	싱글 = 한 음성 대사, 멀티 = 두 음성 대화 (음성 + voice2 + 화자 이름 사용). · 허용: `single`, `multi`
`language`	스트링	아니	`"en-US"`	발음 단서를 위한 BCP-47 언어 태그(en-US, es-ES 등).
`voice`	열거	아니	`"Charon"`	주요 음성 이름(예: Kore, Puck, Aoede). 기본값은 비워두세요. · 허용: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`voice2`	열거	아니	`"Kore"`	멀티스피커 모드의 두 번째 음성 이름입니다. · 허용: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`speaker1_name`	스트링	아니	`"Speaker1"`	스피커 1의 입력 접두사에 사용되는 디스플레이 이름(기본값: Speaker1).
`speaker2_name`	스트링	아니	`"Speaker2"`	스피커 2의 입력 접두사에 사용되는 디스플레이 이름(기본값: Speaker2).
`output_format`	열거	아니	`"WAV"`	오디오 파일 형식(mp3, wav, opus, flac 등). · 허용: `WAV`, `MP3`, `OGG`, `ALAW`, `MULAW`
`speed`	번호	아니	`1.0`	재생 속도. 1.0 = 자연; <1 느리게, > 1 더 빨라. · 사거리: 0.25 – 2.0
`volume_gain`	번호	아니	`0`	출력 게인은 dB 단위입니다. 0 = 변함 없음. · 거리: -96 – 16
`sample_rate`	열거	아니	`"24000"`	출력 샘플레이트는 Hz 단위로 (8000, 16000, 24000, 44100, 48000) · 허용: `8000`, `16000`, `22050`, `24000`, `44100`, `48000`
`style_prompt`	스트링	아니	-	자연어(Naturallanguage Style) 방향(예: “따뜻하고, 대화체적인” 또는 “뉴스캐스터, 진지함”).

주석

지금까지 가장 조작이 쉬운 제미니 TTS입니다.

한계

텍스트 + 스타일 프롬프트: 각 4,000바이트(합산 8,000바이트)
최대 출력: ~10분
오디오 요금: 초당 ~25 토큰 (~15 chars/s)
언어는 자동 감지됩니다; 언어 설정은 제약이 아니라 힌트일 뿐입니다

인라인 오디오 태그 (제어 전달)

감정: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry] 등.
속도: [slow], [fast], [extremely fast], [normal pace]
멈춤: [short pause], [long pause], [breath]
강조: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.