Qwen3.5 Omni Plus

POST /v1/chat/completions

Modèle omni-modal phare pour le texte, l’image, l’audio et la vidéo. 3 heures audio, 1 main vidéo, 90+ entrées et 30+ sorties, 55 timbres vocaux.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`qwen3-5-omni-plus`
Date de sortie du modèle	2026-03-30
Modalités d’entrée	Texte, Image, Vidéo, Audio
Modalités de sortie	Texte, Audio
Fenêtre de contexte	256K
Précision du poids	-
Jetons de sortie max	32,768
Région	Singapour
Caractéristiques	vision, audio_in, audio_out, multilingue
Inférence autochtone	Non
Nouveau	Non
Points de terminaison pris en charge	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/audio/speech`

Tarification

Charge	Spec	Taux
Entrée	par 1M de jetons d’invite	par 1M de jetons d’invite $1.40; par 1M de jetons d’invite $11.00
Production	par 1M de jetons générés	par 1 million de jetons générés $8.30; par 1M de jetons générés $44.00
Recherche Web	à la demande	$0.015

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-omni-plus", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`temperature`	Nombre	non	`0.7`	Température d’échantillonnage. 0 = déterministe, 2 = aléatoire maximal. · Plage: 0 – 2
`top_p`	Nombre	non	`0.9`	Probabilité d’échantillonnage du noyau, masse. Plus bas = plus concentré. · Répartition: 0 – 1
`max_tokens`	Nombre	non	`4096`	Maximum de jetons dans la réponse. · Répartition: 1 – 32768
`output_mode`	enum	non	`"text"`	Mode format de sortie. Texte = texte uniquement, audio = inclure la parole synthétisée. · Autorisé: `text`, `text_audio`
`voice`	Corde	non	`"Tina"`	Nom vocal pour la sortie audio (quand output_mode = audio).
`tool_web_search`	Booléen	non	faux	Permettre au modèle d’effectuer des recherches web lorsque cela est nécessaire.
`video_fps`	Nombre	non	`2`	Images par seconde échantillonnées à partir de la vidéo d’entrée pour analyse. · Plage: 0,1 – 10
`vl_high_resolution_images`	Booléen	non	Vrai	Utilisez une résolution plus élevée pour les images d’entrée. Un meilleur détail à un coût plus élevé.
`max_pixels`	Nombre	non	`2621440`	Nombre maximal de pixels par image d’entrée. Plus grand = plus de détails mais plus lent / plus de jetons. · Répartition: 1 – 99999999

Notes

Facturation audio

L’audio est facturé à un débit de jeton plus élevé que text/image/vidéo
Lorsque la sortie audio est activée, le texte de sortie n’est PAS facturé - seulement les jetons audio

Voix et langage

55 timbres vocaux disponibles
La sortie audio supporte 29 langues, 7 dialectes

Facturation par outil (usage.tool_usage)

Lorsque ce modèle invoque des outils (recherche web, interpréteur de code, etc.) dans une seule requête, la réponse porte une carte de usage.tool_usage normalisée à côté des comptes de tokens. L’exemple ci-dessous montre la forme - les noms exacts des champs, les unités et les outils qui apparaissent peuvent varier légèrement selon le fournisseur:

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

Le nombre d’outils est déjà pris en compte dans cost_usd - ils sont présentés pour la transparence afin que vous puissiez auditer la facturation par outil. Le champ est omis lorsqu’aucun outil n’a été invoqué.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/qwen3-5-omni-plus.