Tongyi Embedding Vision Plus | EmpirioLabs AI Docs

POST /v1/embeddings

Incorporação multimodal produzindo vetores independentes para entradas, texto, imagem e vídeo.

De um olhar

Campo	Valor
ID do modelo	`tongyi-embedding-vision-plus`
Data de lançamento do modelo	2025-09-23
Modalidades de entrada	Texto, Imagem, Vídeo
Modalidades de saída	Incorporação
Janela de contexto	1024
Precisão do peso	-
Região	Singapura
Características	Vetores multimodais e independentes
Inferência nativa	Não
Novo	Sim
Endpoints suportados	`POST /v1/embeddings`

Precificação

Carga	Especificação	Taxa
Entrada de texto	por 1M de tokens	$0.09
Entrada de imagem / vídeo	por 1M de tokens	$0.09

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/embeddings \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tongyi-embedding-vision-plus", "input": [{"type":"text","text":"Embed me."},{"type":"image","url":"https://media.empiriolabs.ai/example.jpg"}]}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`input`	String	sim	-	Ou um `[{type:'image',url:...},{type:'text',text:...}]` de matrizes de peças no estilo OpenAI, ou uma lista nativa de peças `{contents:[{image:'...'},{text:'...'}]}`. Até 8 imagens a 3 MB cada, vídeo até 10 MB, texto até 1024 tokens.
`user`	String	Não	-	Identificador opcional de chamador.

Notas

Saída

Vetor fixo de 1152-dim por entrada (sem fusão entre modalidades)

Limites por entrada

Texto: até 1.024 tokens
Imagem: até 8 por requisição, 3 MB cada (JPG, PNG, BMP)
Vídeo: até 10 MB por arquivo (MP4, MPEG, MOV, MPG, WEBM, AVI, FLV, MKV)

Idiomas

Chinês, Inglês

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/tongyi-embedding-vision-plus.