모델 ID:
qwen/qwen3.5-35b-a3b | 파라미터: 35B (A3B MoE) | 출시일: 2026-02-26개요
Qwen 3.5 35B (A3B)는 강력한 성능과 효율적인 추론을 제공하도록 설계된 Mixture-of-Experts (MoE) 대규모 언어 모델입니다. 토큰당 파라미터의 일부만 활성화하는 희소 활성화 방식을 사용하여 능력과 서빙 비용 간의 최적 균형을 달성합니다. 9B 모델 대비 추론, 코딩, 분석 성능이 향상되어 더 복잡한 워크로드에 적합합니다. 최대 262K 토큰의 긴 컨텍스트 추론과 멀티모달 입력(텍스트 및 이미지)을 지원하여 고급 어시스턴트, 백엔드 자동화, 멀티모달 이해, 대규모 추론 시스템에 적합합니다.Air API Playground
플레이그라운드에서 모델을 체험하세요.
AIR Container로 배포
AIR Container로 배포하세요.
API 사용 가이드
API 사용법을 알아보세요.
가격
| 입력 | 출력 |
|---|---|
| $0.1625 / 1M 토큰 | $1.3 / 1M 토큰 |
주요 기능
- Mixture-of-Experts (MoE, A3B) 아키텍처로 희소 활성화를 통한 효율적 스케일링
- 9B 모델 대비 강화된 추론 및 코딩 성능
- 최대 262,144 토큰의 긴 컨텍스트 추론 지원
- 텍스트 및 이미지 입력을 지원하는 멀티모달 능력 (요청당 최대 1장, 2장 이상 전송 시 400 에러)
- 강력한 다국어 이해 및 생성
- 희소 전문가 활성화를 통한 효율적 추론
- vLLM 등 고처리량 서빙 엔진과 호환
- 효율적인 배포를 위한 FP8 포맷 제공
활용 사례
복잡한 Q&A
복잡한 다단계 추론 및 분석 쿼리를 처리합니다.고급 코드 생성
프로덕션 수준의 코드 및 시스템 설계 설명을 생성합니다.심층 분석 및 요약
문서에 대한 심층적 이해와 인사이트 추출을 수행합니다.시각적 이해
멀티모달 추론을 통해 이미지를 분석하고 인사이트를 추출합니다.파라미터
| 파라미터 | 타입 | 필수 | 기본값 | 설명 |
|---|---|---|---|---|
messages | array | 필수 | - | 채팅 기반 생성을 위한 메시지 목록 |
max_tokens | integer | 선택 | - | 생성할 최대 토큰 수 |
temperature | number | 선택 | 1 | 샘플링 온도 (0.0-2.0) |
top_p | number | 선택 | 1 | 핵 샘플링 임계값 |
frequency_penalty | number | 선택 | 0 | 토큰 빈도 페널티 |
presence_penalty | number | 선택 | 0 | 토큰 존재 페널티 |
stream | boolean | 선택 | false | 스트리밍 응답 활성화 |
모델 세부정보
| 속성 | 값 |
|---|---|
| 컨텍스트 길이 | 262,144 |
| 최대 출력 길이 | 262,144 |
| 양자화 | fp8 |
| 입력 모달리티 | text, image (요청당 최대 1장) |
| 출력 모달리티 | text |
| 지원 기능 | tools, reasoning, streaming, vision, json_mode, logprobs |
| 샘플링 파라미터 | min_p, temperature, presence_penalty, repetition_penalty, stop, top_p, top_k, frequency_penalty, seed |
시작하기
API 키 발급하기
AirCloud 계정에서 API 키를 발급받습니다.
태그
open-source conversational 35B reasoning multilingual moe high-performance
