DeepSeek V4 Flash

DeepSeek · Text Generation
POST /v1/chat/completions총 284B / 활성 매개변수 13B, 네이티브 1M 컨텍스트를 가진 경량 MoE 모델로, 저지연 시간과 비용 효율적인 고동시성 사용에 최적화되어 있습니다.
한눈에
| 필드 | 가치 |
|---|---|
| 모델 ID | deepseek-v4-flash |
| 모델 출시일 | 2026-04-24 |
| 입력 양상 | 본문 |
| 출력 방식 | 본문 |
| 컨텍스트 윈도우 | 1M |
| 무게 정밀도 | - |
| 최대 출력 토큰 | 393,216 |
| 지역 | 독일 |
| 특징 | 이유 |
| 원주민 추론 | 아니 |
| 신규 | 네 |
| 지원되는 엔드포인트 | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
가격
| 돌격 | 사양 | 요금 |
|---|---|---|
| 입력 | 1M 프롬프트 토큰당 | $0.14 |
| 출력 | 생성된 토큰 1M 단위 | $0.28 |
| 웹 검색 (Linkup) | 호출 시 통화당 | $0.013 |
예시 요청
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "deepseek-v4-flash", "messages": [{"role":"user","content":"Hello"}]}'
매개변수
| 매개변수 | 유형 | 필수 | 기본 설정 | 설명 |
|---|---|---|---|---|
temperature | 번호 | 아니 | 0.7 | 샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2 |
top_p | 번호 | 아니 | 0.9 | 핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1 |
max_tokens | 번호 | 아니 | 4096 | 최대 출력 토큰. · 사거리: 1 – 393216 |
stop | 스트링 | 아니 | - | 최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다. |
enable_thinking | 불리언 | 아니 | 맞아요 | 답변하기 전에 step-by-step 추론을 가능하게 하세요. |
thinking_budget | 번호 | 아니 | 32768 | 추론 과정을 위해 최대 토큰을 예약했습니다. 393216까지. · 사거리: 1 – 393216 |
reasoning_effort | 열거 | 아니 | "medium" | 추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: none, low, medium, high, max |
web_search_linkup | 불리언 | 아니 | 거짓 | Linkup이 제공하는 선택적 웹 검색. 활성화되면 최신 웹 소스를 쿼리로 최신 사용자 메시지를 검색하여 모델에 추가 맥락으로 제공합니다. 모델의 일반 토큰 비용 외에 요청당 고정 $0.013을 추가합니다. 기본적으로 비활성화되어 있습니다. |
disable_formatting | 불리언 | 아니 | 거짓 | 활성화되면 게이트웨이는 Linkup 웹 검색을 사용한 어시스턴트 응답에 “Sources” 풋을 추가하지 않습니다. 모델 출력이 장식이 전혀 예상되지 않는 다른 시스템으로 전송될 때 유용합니다. |
변형 모델
:variant1
| 필드 | 가치 |
|---|---|
| 모델 ID | deepseek-v4-flash:variant1 |
| 모델 출시일 | 2026-04-24 |
| 지역 | 싱가포르 |
| 컨텍스트 윈도우 | 1M |
| 무게 정밀도 | - |
| 최대 출력 토큰 | 393,216 |
| 특징 | 이유가 web_search |
| 원주민 추론 | 아니 |
| 지원되는 엔드포인트 | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
가격 책정
| 돌격 | 사양 | 요금 |
|---|---|---|
| 입력 | 1M 프롬프트 토큰당 | $0.20 |
| 출력 | 생성된 토큰 1M 단위 | $0.40 |
| 웹 검색 | 활성화된 경우의 요청당 | $0.02 |
매개변수
| 매개변수 | 유형 | 필수 | 기본 설정 | 설명 |
|---|---|---|---|---|
temperature | 번호 | 아니 | 0.7 | 샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2 |
top_p | 번호 | 아니 | 0.9 | 핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1 |
max_tokens | 번호 | 아니 | 4096 | 최대 출력 토큰. · 사거리: 1 – 393216 |
stop | 스트링 | 아니 | - | 최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다. |
enable_thinking | 불리언 | 아니 | 맞아요 | 답변하기 전에 step-by-step 추론을 가능하게 하세요. |
thinking_budget | 번호 | 아니 | 32768 | 추론 과정을 위해 최대 토큰을 예약했습니다. 393216까지. · 사거리: 1 – 393216 |
reasoning_effort | 열거 | 아니 | "medium" | 추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: none, low, medium, high, max |
tool_web_search | 불리언 | 아니 | 거짓 | 실시간 웹 검색을 활성화하세요. 활성화 시 요청 비용에 $0.02 추가 요금이 추가됩니다. |
:variant2
| 필드 | 가치 |
|---|---|
| 모델 ID | deepseek-v4-flash:variant2 |
| 모델 출시일 | 2026-04-24 |
| 지역 | 중국 |
| 컨텍스트 윈도우 | 1M |
| 무게 정밀도 | - |
| 최대 출력 토큰 | 384,000 |
| 특징 | 추론, function_calling, web_search, 캐시 |
| 원주민 추론 | 아니 |
| 지원되는 엔드포인트 | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
가격 책정
| 돌격 | 사양 | 요금 |
|---|---|---|
| 입력 | 1M 프롬프트 토큰당 | $0.138 ($0.14였다) |
| 출력 | 생성된 토큰 1M 단위 | $0.275 ($0.28였다) |
| 암묵적 캐시 읽기 | 1M 캐시된 입력 토큰당 | $0.028 |
| 웹 검색 | 활성화된 경우의 요청당 | $0.01 |
매개변수
| 매개변수 | 유형 | 필수 | 기본 설정 | 설명 |
|---|---|---|---|---|
temperature | 번호 | 아니 | 0.7 | 샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2 |
top_p | 번호 | 아니 | 0.9 | 핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1 |
max_tokens | 번호 | 아니 | 4096 | 최대 출력 토큰. · 사거리: 1 – 393216 |
stop | 스트링 | 아니 | - | 최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다. |
enable_thinking | 불리언 | 아니 | 맞아요 | 답변하기 전에 step-by-step 추론을 가능하게 하세요. |
thinking_budget | 번호 | 아니 | 32768 | 추론 과정을 위해 최대 토큰을 예약했습니다. 393216까지. · 사거리: 1 – 393216 |
reasoning_effort | 열거 | 아니 | "medium" | 추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: none, low, medium, high, max |
tool_web_search | 불리언 | 아니 | 거짓 | 실시간 웹 검색을 활성화하세요. 활성화 시 요청 비용이 $0.01 증가합니다. |
Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/deepseek-v4-flash.
