Tongyi Embedding Vision Plus

Tongyi Embedding Vision Plus
Alibaba Cloud · Embeddings
POST /v1/embeddings

Incrustación multimodal que produce vectores independientes para entradas, texto, imagen y vídeo.

A simple vista

CampoValor
ID de modelotongyi-embedding-vision-plus
Fecha de lanzamiento del modelo2025-09-23
Modalidades de entradaTexto, Imagen, Vídeo
Modalidades de salidaIncrustación
Ventana de contexto1024
Precisión del peso-
RegiónSingapur
CaracterísticasVectores multimodales e independientes
Inferencia nativaNo
Nuevo
Puntos finales soportadosPOST /v1/embeddings

Precios

CargaEspecificacionesTarifa
Entrada de textopor cada 1M de fichas$0.09
Entrada de imagen / vídeopor cada 1M de fichas$0.09

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/embeddings \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tongyi-embedding-vision-plus", "input": [{"type":"text","text":"Embed me."},{"type":"image","url":"https://media.empiriolabs.ai/example.jpg"}]}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
inputCuerda-O bien un [{type:'image',url:...},{type:'text',text:...}] de matriz de piezas al estilo OpenAI o una lista de piezas nativa {contents:[{image:'...'},{text:'...'}]}. Hasta 8 imágenes de 3 MB cada una, vídeo de hasta 10 MB, texto de hasta 1024 tokens.
userCuerdano-Identificador opcional de llamante.

Notas

Salida

  • Vector fijo de 1152 dim por entrada (sin fusión entre modalidades)

Límites por entrada

  • Texto: hasta 1.024 fichas
  • Imagen: hasta 8 por solicitud, 3 MB cada uno (JPG, PNG, BMP)
  • Vídeo: hasta 10 MB por archivo (MP4, MPEG, MOV, MPG, WEBM, AVI, FLV, MKV)

Idiomas

  • Chino, inglés

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/tongyi-embedding-vision-plus.