Fugu Ultra | EmpirioLabs AI Docs

Sakana AI · Text Generation

POST /v1/chat/completions

मल्टी-एजेंट कंडक्टर जो 1M संदर्भ, छवि इनपुट और वेब खोज के साथ कठिन तर्क, कोडिंग और अनुसंधान के लिए सीमांत विशेषज्ञ मॉडल का आयोजन करता है।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`fugu-ultra`
मॉडल रिलीज की तारीख	2026-06-21
इनपुट तौर-तरीके	पाठ, छवि
आउटपुट के तौर-तरीके	टेक्स्ट
संदर्भ विंडो	1 मी
वजन परिशुद्धता	-
अधिकतम आउटपुट टोकन	131,072
सुविधाऐं	रीजनिंग, मल्टीमोडल, web_search, function_calling, structured_output, agentic_coding, कैश
मूल अनुमान	नहीं
नया	हाँ
समर्थित समापन बिंदु	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	<=272K $7.50; >272K $15.00
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	<=272K $45.00; >272K $67.50
अंतर्निहित कैश पढ़ा गया	प्रति 1M कैश्ड इनपुट टोकन	<=272K $1.50; >272K $3.00

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "fugu-ultra", "messages": [{"role":"user","content":"Hello"}]}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`max_tokens`	पूर्ण संख्‍या	नहीं	`32768`	अंतिम उत्तर के लिए आउटपुट टोकन की अधिकतम संख्या। कंडक्टर को काम करने के लिए कमरे की आवश्यकता होती है, इसलिए बहुत छोटे मान खाली आउटपुट वापस कर सकते हैं। · रेंज: 1 - 131072
`reasoning_effort`	एनम	नहीं	`"high"`	कितने कठिन Fugu Ultra कारण हैं। रीजनिंग हमेशा चालू रहती है। डिफ़ॉल्ट उच्च है; Xhigh और MAX एक ही अधिकतम प्रयास के उपनाम हैं (उच्च की तुलना में अधिक गहन और धीमा)। · अनुमति: `high`, `xhigh`, `max`
`tool_web_search`	बूलियन	नहीं	गलत	अंतर्निहित वेब खोज सक्षम करें। कोई अलग शुल्क नहीं है; खोज लागत अनुरोध के लिए बिल किए गए ऑर्केस्ट्रेशन टोकन में परिलक्षित होती है।
`tools`	सरणी	नहीं	`[]`	OpenAI-संगत फ़ंक्शन कॉलिंग टूल परिभाषाएँ।
`tool_choice`	वस्तु	नहीं	-	OpenAI-संगत उपकरण विकल्प नियंत्रण।
`response_format`	वस्तु	नहीं	-	संरचित आउटपुट के लिए OpenAI-संगत JSON मोड।

Fugu Ultra एक बहु-एजेंट कंडक्टर है: प्रत्येक अनुरोध विशेषज्ञ मॉडल के एक पूल का समन्वय करता है और उनके काम को एक ही उत्तर में लिखता है।

विलंबता और स्ट्रीमिंग

जटिल संकेतों पर प्रतिक्रियाओं में कुछ सेकंड से लेकर कुछ मिनट तक का समय लग सकता है।
मॉडल समाप्त होने पर पूरा उत्तर एक ही बार में वापस कर दिया जाता है, टोकन द्वारा टोकन नहीं। स्ट्रीमिंग स्वीकार की जाती है, लेकिन यह टोकन को स्ट्रीमिंग करने के बजाय अंत में पूरी प्रतिक्रिया प्रदान करता है क्योंकि वे उत्पन्न होते हैं।
उदार max_tokens हेडरूम छोड़ दें, क्योंकि बहुत छोटी सीमाएं उत्तर को छोटा या खाली कर सकती हैं।

क्षमताएं

पाठ और छवि इनपुट, 1M टोकन संदर्भ के साथ।
हमेशा तर्क पर। उच्च डिफ़ॉल्ट है; Xhigh और MAX एक ही अधिकतम प्रयास हैं।
फ़ंक्शन कॉलिंग, JSON मोड, और अंतर्निहित वेब खोज जो उपलब्ध होने पर अपने स्रोतों का हवाला देती है (कोई अलग शुल्क नहीं)।

बिलिंग

पूर्ण टोकन उपयोग पर बिल किया जाता है, जिसमें ऑर्केस्ट्रेशन टोकन भी शामिल है जो मॉडल आंतरिक रूप से उपयोग करता है, इसलिए छोटे संकेतों में भी कुछ लागत आती है।
संदर्भ-स्तरीय: 272K कुल इनपुट टोकन से ऊपर के अनुरोध दिखाई गई उच्च दर का उपयोग करते हैं।

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/fugu-ultra।

एक नजर में

मूल्य निर्धारण

उदाहरण अनुरोध

पैरामीटर

टिप्पणियाँ