Qwen3.5 Omni Plus

Qwen3.5 Omni Plus
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Modelo omni-modal principal para texto, imagem, áudio e vídeo. 3h áudio, 1h vídeo, 90+ idiomas de entrada e 30+ de saída, 55 timbres de voz.

De um olhar

CampoValor
ID do modeloqwen3-5-omni-plus
Data de lançamento do modelo2026-03-30
Modalidades de entradaTexto, Imagem, Vídeo, Áudio
Modalidades de saídaTexto, Áudio
Janela de contexto256K
Precisão do peso-
Tokens de saída máxima32,768
RegiãoSingapura
Característicasvisão, audio_in, audio_out, multilíngue
Inferência nativaNão
NovoNão
Endpoints suportadosPOST /v1/chat/completions, POST /v1/responses, POST /v1/messages, POST /v1/audio/speech

Precificação

CargaEspecificaçãoTaxa
Entradapor 1M de tokens de promptpor token de prompt de 1M $1.40; por 1M de tokens de prompt $11.00
Produçãopor 1M de tokens geradospor 1M de tokens gerados $8.30; por 1M de tokens gerados $44.00
Busca na Webpor pedido$0.015

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-5-omni-plus", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
temperatureNúmeroNão0.7Temperatura de amostragem. 0 = determinística, 2 = aleatoriedade máxima. · Intervalo: 0 – 2
top_pNúmeroNão0.9Amostragem do núcleo com a probabilidade de massa. Menor = mais focado. · Intervalo: 0 – 1
max_tokensNúmeroNão4096Fichas máximas na resposta. · Intervalo: 1 – 32768
output_modeenumNão"text"Modo formato de saída. texto = apenas texto, áudio = incluir fala sintetizada. · Permitido: text, text_audio
voiceStringNão"Tina"Nome da voz para saída de áudio (quando output_mode = áudio).
tool_web_searchBooleanoNãofalsoPermita que o modelo realize buscas na web quando necessário.
video_fpsNúmeroNão2Frames por segundo amostrados a partir do vídeo de entrada para análise. · Alcance: 0,1 – 10
vl_high_resolution_imagesBooleanoNãoVerdadeUse resolução maior para as imagens de entrada. Melhor detalhamento a um custo maior.
max_pixelsNúmeroNão2621440Máximo de pixels por imagem de entrada. Maior = mais detalhes, mas mais lento / mais fichas. · Intervalo: 1 – 99999999

Notas

Faturamento de áudio

  • O áudio é cobrado com uma taxa de token maior que text/image/vídeo
  • Quando a saída de áudio está ativada, o texto de saída NÃO é carregado - apenas tokens de áudio

Voz e linguagem

  • 55 timbres de voz disponíveis
  • A saída de áudio suporta 29 idiomas, 7 dialetos

Faturamento por ferramenta (usage.tool_usage)

Quando esse modelo invoca ferramentas (busca web, interpretador de código, etc.) dentro de uma única requisição, a resposta carrega um mapa de usage.tool_usage normalizado junto com as contagens de tokens. O exemplo abaixo mostra a forma - nomes exatos de campos, unidades e quais ferramentas aparecem podem variar ligeiramente de acordo com o provedor:

1"usage": {
2 "prompt_tokens": 123,
3 "completion_tokens": 456,
4 "cost_usd": 0.0042,
5 "tool_usage": {"web_search": 3, "code_interpreter": 1}
6}

A contagem de ferramentas já está em conta cost_usd - elas são apresentadas para transparência, permitindo auditar o faturamento por ferramenta. O campo é omitido quando nenhuma ferramenta foi invocada.


Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/qwen3-5-omni-plus.