MiMo V2.5

Xiaomi · Text Generation
POST /v1/chat/completions1Mの文脈上でネイティブな視覚・聴覚理解を持つマルチモーダルモデルで、エージェントワークフローのモダリティ間で推論し行動することを目的としています。
一目で
価格設定
例示リクエスト
パラメータ
注記
テキスト出力はオムニモーダル入力(テキスト、画像、映像、音声)です。ウェブ検索($0.015/call)は、呼び出した場合にのみ料金が発生します。キャッシュされた入力トークンは大幅な割引価格で請求されます。
ツールごとの請求(usage.tool_usage)
このモデルが単一のリクエスト内でツール(ウェブ検索、コードインタプリタなど)を呼び出す場合、レスポンスにはトークン数とともに正規化されたusage.tool_usageマップが伴います。以下の例は形状を示しています。正確なフィールド名、単位、表示されるツールはプロバイダーによって若干異なります。
ツール数はすでにcost_usdに含まれており、透明性を保つためにツールごとの請求を監査できるように表示されています。道具が使われていない場合はフィールドが省略されます。
Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/mimo-v2-5。
