Qwen3.5-35B-A3B - AirCloud

모델 ID: qwen/qwen3.5-35b-a3b | 파라미터: 35B (A3B MoE) | 출시일: 2026-02-26

개요

Qwen 3.5 35B (A3B)는 강력한 성능과 효율적인 추론을 제공하도록 설계된 Mixture-of-Experts (MoE) 대규모 언어 모델입니다. 토큰당 파라미터의 일부만 활성화하는 희소 활성화 방식을 사용하여 능력과 서빙 비용 간의 최적 균형을 달성합니다. 9B 모델 대비 추론, 코딩, 분석 성능이 향상되어 더 복잡한 워크로드에 적합합니다. 최대 262K 토큰의 긴 컨텍스트 추론과 멀티모달 입력(텍스트 및 이미지)을 지원하여 고급 어시스턴트, 백엔드 자동화, 멀티모달 이해, 대규모 추론 시스템에 적합합니다.

Air API Playground

플레이그라운드에서 모델을 체험하세요.

AIR Container로 배포

AIR Container로 배포하세요.

API 사용 가이드

API 사용법을 알아보세요.

가격

입력	출력
$0.1625 / 1M 토큰	$1.3 / 1M 토큰

주요 기능

Mixture-of-Experts (MoE, A3B) 아키텍처로 희소 활성화를 통한 효율적 스케일링
9B 모델 대비 강화된 추론 및 코딩 성능
최대 262,144 토큰의 긴 컨텍스트 추론 지원
텍스트 및 이미지 입력을 지원하는 멀티모달 능력 (요청당 최대 1장, 2장 이상 전송 시 400 에러)
강력한 다국어 이해 및 생성
희소 전문가 활성화를 통한 효율적 추론
vLLM 등 고처리량 서빙 엔진과 호환
효율적인 배포를 위한 FP8 포맷 제공

활용 사례

복잡한 Q&A

복잡한 다단계 추론 및 분석 쿼리를 처리합니다.

Compare transformer-based models and mixture-of-experts models
in terms of scalability and efficiency.

고급 코드 생성

프로덕션 수준의 코드 및 시스템 설계 설명을 생성합니다.

Design a scalable distributed task queue system using Python
and explain key components.

심층 분석 및 요약

문서에 대한 심층적 이해와 인사이트 추출을 수행합니다.

시각적 이해

멀티모달 추론을 통해 이미지를 분석하고 인사이트를 추출합니다.

파라미터

파라미터	타입	필수	기본값	설명
`messages`	array	필수	-	채팅 기반 생성을 위한 메시지 목록
`max_tokens`	integer	선택	-	생성할 최대 토큰 수
`temperature`	number	선택	1	샘플링 온도 (0.0-2.0)
`top_p`	number	선택	1	핵 샘플링 임계값
`frequency_penalty`	number	선택	0	토큰 빈도 페널티
`presence_penalty`	number	선택	0	토큰 존재 페널티
`stream`	boolean	선택	false	스트리밍 응답 활성화

모델 세부정보

속성	값
컨텍스트 길이	262,144
최대 출력 길이	262,144
양자화	fp8
입력 모달리티	text, image (요청당 최대 1장)
출력 모달리티	text
지원 기능	tools, reasoning, streaming, vision, json_mode, logprobs
샘플링 파라미터	min_p, temperature, presence_penalty, repetition_penalty, stop, top_p, top_k, frequency_penalty, seed

시작하기

API 키 발급하기

AirCloud 계정에서 API 키를 발급받습니다.

코드 실행하기

아래 코드에서 YOUR_API_KEY 자리에 실제 발급받은 키를 넣어 실행하세요. 언어별(Python, cURL, Node.js) 코드 예시를 선택할 수 있습니다.

import requests

response = requests.post(
    "https://external.aieev.cloud:5007/ai/api/v1/chat/completions",
    headers={
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json"
    },
    json={
        "model": "qwen/qwen3.5-35b-a3b",
        "messages": [{"role": "user", "content": "Hello!"}],
        "temperature": 0.7
    }
)

result = response.json()
print(result["choices"][0]["message"]["content"])

모델

​개요

Air API Playground

AIR Container로 배포

API 사용 가이드

​가격

​주요 기능

​활용 사례

​복잡한 Q&A

​고급 코드 생성

​심층 분석 및 요약

​시각적 이해

​파라미터

​모델 세부정보

​시작하기

​태그

개요

가격

주요 기능

활용 사례

복잡한 Q&A

고급 코드 생성

심층 분석 및 요약

시각적 이해

파라미터

모델 세부정보

시작하기

태그