SoulX Podcast

Soul AI Lab · Audio Generation

POST /v1/audio/speech

Open-Source-Sprachmodell für langformatige, mehrsprachige Podcast-Dialoge mit paralinguistischer Kontrolle (Lachen, Seufzen) und Zero-Shot-Sprachklonen.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`soulx-podcast`
Modell-Veröffentlichungsdatum	2025-10-29
Eingabemodalitäten	Text, Audio
Ausgabemodalitäten	Audio
Kontextfenster	-
Gewichtspräzision	-
Merkmale	voice_cloning, multi_speaker, Dialekt, Podcast
Native Schlussfolgerung	Ja
Neu	Nein
Unterstützte Endpunkte	`POST /v1/audio/speech`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Basis	pro 1.000 Zeichen	$0.015
Dialekt	pro 1.000 Zeichen	$0.015

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`input`	String	Ja	-	Podcast-Skript. Verwenden Sie [S1] / [S2] / [S3] / [S4]-Tags oder ‘Speaker N:’-Zeilen für Multi-Speaker-Leitungen. Paralinguistische Tags werden unterstützt: <\|Lachen\|>, <\|Seufz\|>, <\|atmen\|>, <\|Husten\|>.
`voice_model`	ENUM	Nein	`"base"`	Basis: Englisch + Mandarin. Dialekt: fügt Sichuan, Henan und Kantonesisch hinzu. · Erlaubt: `base`, `dialect`
`voice_s1`	ENUM	Nein	`"arthur"`	Stimme für [S1]. lj = Emma. custom_s1 erfordert voice_s1_audio_url. · Erlaubt: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s1`
`voice_s2`	ENUM	Nein	`"lj"`	Stimme für [S2]. lj = Emma. · Erlaubt: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s2`
`voice_s3`	ENUM	Nein	`"james"`	Stimme für [S3]. · Erlaubt: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s3`
`voice_s4`	ENUM	Nein	`"xiaomei"`	Stimme für [S4]. · Erlaubt: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s4`
`voice_s1_audio_url`	String	Nein	-	Referenz auf Audio-URL für [S1] benutzerdefiniertes Sprachklonen. Der Sprecher muss die Einverständnisphrase laut aussprechen.
`voice_s2_audio_url`	String	Nein	-	Referenz auf Audio-URL für [S2] benutzerdefiniertes Sprachklonen.
`voice_s3_audio_url`	String	Nein	-	Referenz auf Audio-URL für [S3] benutzerdefiniertes Sprachklonen.
`voice_s4_audio_url`	String	Nein	-	Referenz auf Audio-URL für [S4] benutzerdefiniertes Sprachklonen.
`temperature`	Anzahl	Nein	`0.6`	Temperatur wird geprochen. · Reichweite: 0,1 – 2,0
`top_k`	Anzahl	Nein	`100`	Top-K-Stichprobenobergrenze. · Reichweite: 1 – 500
`top_p`	Anzahl	Nein	`0.9`	Kernprobenahme. · Reichweite: 0,1 – 1,0
`repetition_penalty`	Anzahl	Nein	`1.25`	Höhere Werte entmutigen wiederholte Formulierungen. · Reichweite: 1,0 – 2,0
`seed`	String	Nein	`"42"`	Reproduzierbarkeitsseed (String pro Upstream).
`output_format`	ENUM	Nein	`"mp3"`	Ausgabe des Mediendateiformats (mp3, wav, mp4, png, jpg usw., je nach Endpunkt). · Erlaubt: `mp3`, `wav`
`language`	String	Nein	`""`	Weitergeleitet an Upstream (Passthrough), damit das Podcast-Modell die richtige voice/dialect Tier auswählen kann.

Anmerkungen

Open-Source-Sprachmodell für langformatige, mehrsprachige Podcast-Dialoge mit paralinguistischer Kontrolle und Zero-Shot-Sprachklonen.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.