SoulX Podcast | EmpirioLabs AI Docs

Soul AI Lab · Audio Generation

POST /v1/audio/speech

긴 형식의 다중 화자 팟캐스트 대화를 위한 오픈 소스 음성 모델로, 초언어적 제어(웃음, 한숨)와 제로 샷 음성 복제가 가능합니다.

한눈에

필드	가치
모델 ID	`soulx-podcast`
모델 출시일	2025-10-29
입력 양상	텍스트, 오디오
출력 방식	오디오
컨텍스트 윈도우	-
무게 정밀도	-
특징	voice_cloning, multi_speaker, 방언, 팟캐스트
원주민 추론	네
신규	아니
지원되는 엔드포인트	`POST /v1/audio/speech`

가격

돌격	사양	요금
기지	1,000자 단위로	$0.015
방언	1,000자 단위로	$0.015

예시 요청

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

매개변수

매개변수	유형	필수	기본 설정	설명
`input`	스트링	네	-	팟캐스트 대본. 다중 스피커를 위한 경우 [S1] / [S2] / [S3] / [S4] 태그 또는 ‘Speaker N:’ 라인을 사용하세요. 지원하는 준언어 태그: <\|웃음\|>, <\|한숨\|>, <\|숨결\|>, <\|기침\|>.
`voice_model`	열거	아니	`"base"`	기본 기준: 영어 + 만다린. 방언: 쓰촨어, 허난어, 광둥어가 추가됩니다. · 허용: `base`, `dialect`
`voice_s1`	열거	아니	`"arthur"`	[시즌 1]의 목소리. lj = 엠마. custom_s1 voice_s1_audio_url 필요해. · 허용: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s1`
`voice_s2`	열거	아니	`"lj"`	[시즌 2]의 목소리. lj = 엠마. · 허용: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s2`
`voice_s3`	열거	아니	`"james"`	[시즌 3]의 목소리. · 허용: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s3`
`voice_s4`	열거	아니	`"xiaomei"`	[시즌 4]의 목소리. · 허용: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s4`
`voice_s1_audio_url`	스트링	아니	-	[S1] 맞춤 음성 복제를 위한 참고 오디오 URL. 발언자는 동의 문구를 소리 내어 말해야 합니다.
`voice_s2_audio_url`	스트링	아니	-	[S2] 맞춤 음성 복제를 위한 참고 오디오 URL.
`voice_s3_audio_url`	스트링	아니	-	[S3] 맞춤 음성 복제를 위한 참고 오디오 URL.
`voice_s4_audio_url`	스트링	아니	-	[S4] 맞춤 음성 복제를 위한 참고 오디오 URL.
`temperature`	번호	아니	`0.6`	샘플링 온도. · 범위: 0.1 – 2.0
`top_k`	번호	아니	`100`	탑-k 샘플링 캡. · 사거리: 1 – 500
`top_p`	번호	아니	`0.9`	핵 샘플링. · 범위: 0.1 – 1.0
`repetition_penalty`	번호	아니	`1.25`	높은 값은 반복적인 표현을 억제합니다. · 범위: 1.0 – 2.0
`seed`	스트링	아니	`"42"`	재현성 시드(상류별 문자열).
`output_format`	열거	아니	`"mp3"`	출력 미디어 파일 형식(엔드포인트에 따라 mp3, wav, mp4, png, jpg 등)을 선택할 수 있습니다. · 허용: `mp3`, `wav`
`language`	스트링	아니	`""`	팟캐스트 모델이 올바른 voice/dialect 계층을 선택할 수 있도록 상류(패스스루)로 전달합니다.

주석

긴 형식의 다중 화자 팟캐스트 대화를 위한 오픈 소스 음성 모델로, 준언어적 제어와 제로 샷 음성 복제가 가능합니다.

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.