메인 콘텐츠로 건너뛰기
모델 ID: qwen/qwen3.5-35b-a3b | 파라미터: 35B (A3B MoE) | 출시일: 2026-02-26

개요

Qwen 3.5 35B (A3B)는 강력한 성능과 효율적인 추론을 제공하도록 설계된 Mixture-of-Experts (MoE) 대규모 언어 모델입니다. 토큰당 파라미터의 일부만 활성화하는 희소 활성화 방식을 사용하여 능력과 서빙 비용 간의 최적 균형을 달성합니다. 9B 모델 대비 추론, 코딩, 분석 성능이 향상되어 더 복잡한 워크로드에 적합합니다. 최대 262K 토큰의 긴 컨텍스트 추론과 멀티모달 입력(텍스트 및 이미지)을 지원하여 고급 어시스턴트, 백엔드 자동화, 멀티모달 이해, 대규모 추론 시스템에 적합합니다.

Air API Playground

플레이그라운드에서 모델을 체험하세요.

AIR Container로 배포

AIR Container로 배포하세요.

API 사용 가이드

API 사용법을 알아보세요.

가격

입력출력
$0.1625 / 1M 토큰$1.3 / 1M 토큰

주요 기능

  • Mixture-of-Experts (MoE, A3B) 아키텍처로 희소 활성화를 통한 효율적 스케일링
  • 9B 모델 대비 강화된 추론 및 코딩 성능
  • 최대 262,144 토큰의 긴 컨텍스트 추론 지원
  • 텍스트 및 이미지 입력을 지원하는 멀티모달 능력 (요청당 최대 1장, 2장 이상 전송 시 400 에러)
  • 강력한 다국어 이해 및 생성
  • 희소 전문가 활성화를 통한 효율적 추론
  • vLLM 등 고처리량 서빙 엔진과 호환
  • 효율적인 배포를 위한 FP8 포맷 제공

활용 사례

복잡한 Q&A

복잡한 다단계 추론 및 분석 쿼리를 처리합니다.
Compare transformer-based models and mixture-of-experts models
in terms of scalability and efficiency.

고급 코드 생성

프로덕션 수준의 코드 및 시스템 설계 설명을 생성합니다.
Design a scalable distributed task queue system using Python
and explain key components.

심층 분석 및 요약

문서에 대한 심층적 이해와 인사이트 추출을 수행합니다.

시각적 이해

멀티모달 추론을 통해 이미지를 분석하고 인사이트를 추출합니다.

파라미터

파라미터타입필수기본값설명
messagesarray필수-채팅 기반 생성을 위한 메시지 목록
max_tokensinteger선택-생성할 최대 토큰 수
temperaturenumber선택1샘플링 온도 (0.0-2.0)
top_pnumber선택1핵 샘플링 임계값
frequency_penaltynumber선택0토큰 빈도 페널티
presence_penaltynumber선택0토큰 존재 페널티
streamboolean선택false스트리밍 응답 활성화

모델 세부정보

속성
컨텍스트 길이262,144
최대 출력 길이262,144
양자화fp8
입력 모달리티text, image (요청당 최대 1장)
출력 모달리티text
지원 기능tools, reasoning, streaming, vision, json_mode, logprobs
샘플링 파라미터min_p, temperature, presence_penalty, repetition_penalty, stop, top_p, top_k, frequency_penalty, seed

시작하기

1

API 키 발급하기

AirCloud 계정에서 API 키를 발급받습니다.
2

코드 실행하기

아래 코드에서 YOUR_API_KEY 자리에 실제 발급받은 키를 넣어 실행하세요. 언어별(Python, cURL, Node.js) 코드 예시를 선택할 수 있습니다.
import requests

response = requests.post(
    "https://external.aieev.cloud:5007/ai/api/v1/chat/completions",
    headers={
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json"
    },
    json={
        "model": "qwen/qwen3.5-35b-a3b",
        "messages": [{"role": "user", "content": "Hello!"}],
        "temperature": 0.7
    }
)

result = response.json()
print(result["choices"][0]["message"]["content"])

태그

open-source conversational 35B reasoning multilingual moe high-performance