SoulX Podcast

SoulX Podcast
Soul AI Lab · Audio Generation
POST /v1/audio/speech

Open-Source-Sprachmodell für langformatige, mehrsprachige Podcast-Dialoge mit paralinguistischer Kontrolle (Lachen, Seufzen) und Zero-Shot-Sprachklonen.

Auf einen Blick

SpielfeldWert
Modell-IDsoulx-podcast
Modell-Veröffentlichungsdatum2025-10-29
EingabemodalitätenText, Audio
AusgabemodalitätenAudio
Kontextfenster-
Gewichtspräzision-
Merkmalevoice_cloning, multi_speaker, Dialekt, Podcast
Native SchlussfolgerungJa
NeuNein
Unterstützte EndpunktePOST /v1/audio/speech

Preisgestaltung

BerechnenSpezifikationZinssatz
Basispro 1.000 Zeichen$0.015
Dialektpro 1.000 Zeichen$0.015

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
inputStringJa-Podcast-Skript. Verwenden Sie [S1] / [S2] / [S3] / [S4]-Tags oder ‘Speaker N:’-Zeilen für Multi-Speaker-Leitungen. Paralinguistische Tags werden unterstützt: <|Lachen|>, <|Seufz|>, <|atmen|>, <|Husten|>.
voice_modelENUMNein"base"Basis: Englisch + Mandarin. Dialekt: fügt Sichuan, Henan und Kantonesisch hinzu. · Erlaubt: base, dialect
voice_s1ENUMNein"arthur"Stimme für [S1]. lj = Emma. custom_s1 erfordert voice_s1_audio_url. · Erlaubt: arthur, james, lj, xiaomei, zhigang, custom_s1
voice_s2ENUMNein"lj"Stimme für [S2]. lj = Emma. · Erlaubt: arthur, james, lj, xiaomei, zhigang, custom_s2
voice_s3ENUMNein"james"Stimme für [S3]. · Erlaubt: arthur, james, lj, xiaomei, zhigang, custom_s3
voice_s4ENUMNein"xiaomei"Stimme für [S4]. · Erlaubt: arthur, james, lj, xiaomei, zhigang, custom_s4
voice_s1_audio_urlStringNein-Referenz auf Audio-URL für [S1] benutzerdefiniertes Sprachklonen. Der Sprecher muss die Einverständnisphrase laut aussprechen.
voice_s2_audio_urlStringNein-Referenz auf Audio-URL für [S2] benutzerdefiniertes Sprachklonen.
voice_s3_audio_urlStringNein-Referenz auf Audio-URL für [S3] benutzerdefiniertes Sprachklonen.
voice_s4_audio_urlStringNein-Referenz auf Audio-URL für [S4] benutzerdefiniertes Sprachklonen.
temperatureAnzahlNein0.6Temperatur wird geprochen. · Reichweite: 0,1 – 2,0
top_kAnzahlNein100Top-K-Stichprobenobergrenze. · Reichweite: 1 – 500
top_pAnzahlNein0.9Kernprobenahme. · Reichweite: 0,1 – 1,0
repetition_penaltyAnzahlNein1.25Höhere Werte entmutigen wiederholte Formulierungen. · Reichweite: 1,0 – 2,0
seedStringNein"42"Reproduzierbarkeitsseed (String pro Upstream).
output_formatENUMNein"mp3"Ausgabe des Mediendateiformats (mp3, wav, mp4, png, jpg usw., je nach Endpunkt). · Erlaubt: mp3, wav
languageStringNein""Weitergeleitet an Upstream (Passthrough), damit das Podcast-Modell die richtige voice/dialect Tier auswählen kann.

Anmerkungen

Open-Source-Sprachmodell für langformatige, mehrsprachige Podcast-Dialoge mit paralinguistischer Kontrolle und Zero-Shot-Sprachklonen.


Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.