Qwen3.5 Omni Flash

POST /v1/chat/completions

Kosteneffizientes omnimodales Modell verarbeitet Text, Bild, Audio und Video, mit bis zu 3 Stunden Audio und 1 Stunde Video in 90+ Sprachen.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`qwen3-5-omni-flash`
Modell-Veröffentlichungsdatum	2026-03-30
Eingabemodalitäten	Text, Bild, Video, Audio
Ausgabemodalitäten	Text, Audio
Kontextfenster	256.000
Gewichtspräzision	-
Maximale Ausgabetoken	32,768
Region	Singapur
Merkmale	Vision, audio_in, audio_out, mehrsprachig
Native Schlussfolgerung	Nein
Neu	Nein
Unterstützte Endpunkte	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/audio/speech`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	pro 1M Prompt-Tokens $0.40; pro 1M Prompt-Token $3.00
Ausgabe	pro 1 Million generierter Token	pro 1 Million generierte Token $2.20; pro 1 Million generierte Token $11.90
Websuche	auf Wunsch	$0.015

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-omni-flash", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`temperature`	Anzahl	Nein	`0.7`	Temperatur wird geprochen. 0 = deterministisch, 2 = maximale Zufälligkeit. · Reichweite: 0 – 2
`top_p`	Anzahl	Nein	`0.9`	Kernprobenwahrscheinlichkeitsmasse. Niedriger = fokussierter. · Reichweite: 0 – 1
`max_tokens`	Anzahl	Nein	`4096`	Maximale Token in der Antwort. · Reichweite: 1 – 32768
`output_mode`	ENUM	Nein	`"text"`	Ausgabeformatmodus. Text = nur Text, Audio = Synthetisierte Sprache enthalten. · Erlaubt: `text`, `text_audio`
`voice`	String	Nein	`"Tina"`	Sprachbezeichnung für Audioausgabe (wenn output_mode = Audio).
`tool_web_search`	Boolean	Nein	falsch	Erlauben Sie dem Modell, bei Bedarf Websuchen durchzuführen.
`video_fps`	Anzahl	Nein	`2`	Bilder pro Sekunde, die aus Eingabevideo zur Analyse abgeschnitten wurden. · Reichweite: 0,1 – 10
`vl_high_resolution_images`	Boolean	Nein	Stimmt	Verwenden Sie für Eingabebilder eine höhere Auflösung. Bessere Details zu höheren Kosten.
`max_pixels`	Anzahl	Nein	`2621440`	Maximale Pixel pro Eingabebild. Größer = mehr Details, aber langsamer / mehr Token. · Reichweite: 1 – 99999999

Anmerkungen

Audioabrechnung

Audio wird mit einem höheren Token-Satz als text/image/Video abgerechnet.
Wenn Audioausgabe aktiviert ist, wird der Ausgabetext NICHT berechnet – nur Audio-Tokens

Stimme und Sprache

Verfügbare 55-Stimm-Timbres
Audioausgabe unterstützt 29 Sprachen und 7 Dialekte.

Pro-Werkzeug-Abrechnung (usage.tool_usage)

Wenn dieses Modell Werkzeuge (Websuche, Code-Interpreter usw.) innerhalb einer einzigen Anfrage aufruft, trägt die Antwort eine normalisierte usage.tool_usage Map neben den Token-Zählungen. Das untenstehende Beispiel zeigt die Form – genaue Feldnamen, Einheiten und welche Werkzeuge erscheinen, können je nach Anbieter leicht variieren:

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

Die Anzahl der Werkzeuge ist bereits in cost_usd einbezogen – sie sind zur Transparenz sichtbar, damit man die Rechnungsabrechnung pro Tool prüfen kann. Das Feld wird weggelassen, wenn keine Werkzeuge aktiviert wurden.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/qwen3-5-omni-flash.