Tongyi Embedding Vision Plus

Tongyi Embedding Vision Plus
Alibaba Cloud · Embeddings
POST /v1/embeddings

Incorporação multimodal produzindo vetores independentes para entradas, texto, imagem e vídeo.

De um olhar

CampoValor
ID do modelotongyi-embedding-vision-plus
Data de lançamento do modelo2025-09-23
Modalidades de entradaTexto, Imagem, Vídeo
Modalidades de saídaIncorporação
Janela de contexto1024
Precisão do peso-
RegiãoSingapura
CaracterísticasVetores multimodais e independentes
Inferência nativaNão
NovoSim
Endpoints suportadosPOST /v1/embeddings

Precificação

CargaEspecificaçãoTaxa
Entrada de textopor 1M de tokens$0.09
Entrada de imagem / vídeopor 1M de tokens$0.09

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/embeddings \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tongyi-embedding-vision-plus", "input": [{"type":"text","text":"Embed me."},{"type":"image","url":"https://media.empiriolabs.ai/example.jpg"}]}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
inputStringsim-Ou um [{type:'image',url:...},{type:'text',text:...}] de matrizes de peças no estilo OpenAI, ou uma lista nativa de peças {contents:[{image:'...'},{text:'...'}]}. Até 8 imagens a 3 MB cada, vídeo até 10 MB, texto até 1024 tokens.
userStringNão-Identificador opcional de chamador.

Notas

Saída

  • Vetor fixo de 1152-dim por entrada (sem fusão entre modalidades)

Limites por entrada

  • Texto: até 1.024 tokens
  • Imagem: até 8 por requisição, 3 MB cada (JPG, PNG, BMP)
  • Vídeo: até 10 MB por arquivo (MP4, MPEG, MOV, MPG, WEBM, AVI, FLV, MKV)

Idiomas

  • Chinês, Inglês

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/tongyi-embedding-vision-plus.