Tongyi Embedding Vision Plus | EmpirioLabs AI Docs

POST /v1/embeddings

Incrustación multimodal que produce vectores independientes para entradas, texto, imagen y vídeo.

A simple vista

Campo	Valor
ID de modelo	`tongyi-embedding-vision-plus`
Fecha de lanzamiento del modelo	2025-09-23
Modalidades de entrada	Texto, Imagen, Vídeo
Modalidades de salida	Incrustación
Ventana de contexto	1024
Precisión del peso	-
Región	Singapur
Características	Vectores multimodales e independientes
Inferencia nativa	No
Nuevo	Sí
Puntos finales soportados	`POST /v1/embeddings`

Precios

Carga	Especificaciones	Tarifa
Entrada de texto	por cada 1M de fichas	$0.09
Entrada de imagen / vídeo	por cada 1M de fichas	$0.09

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/embeddings \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tongyi-embedding-vision-plus", "input": [{"type":"text","text":"Embed me."},{"type":"image","url":"https://media.empiriolabs.ai/example.jpg"}]}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`input`	Cuerda	Sí	-	O bien un `[{type:'image',url:...},{type:'text',text:...}]` de matriz de piezas al estilo OpenAI o una lista de piezas nativa `{contents:[{image:'...'},{text:'...'}]}`. Hasta 8 imágenes de 3 MB cada una, vídeo de hasta 10 MB, texto de hasta 1024 tokens.
`user`	Cuerda	no	-	Identificador opcional de llamante.

Notas

Salida

Vector fijo de 1152 dim por entrada (sin fusión entre modalidades)

Límites por entrada

Texto: hasta 1.024 fichas
Imagen: hasta 8 por solicitud, 3 MB cada uno (JPG, PNG, BMP)
Vídeo: hasta 10 MB por archivo (MP4, MPEG, MOV, MPG, WEBM, AVI, FLV, MKV)

Idiomas

Chino, inglés

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/tongyi-embedding-vision-plus.