DeepSeek의 Janus Pro: 기능, 비교 및 ​​작동 방법

CometAPI
AnnaMay 31, 2025
DeepSeek의 Janus Pro: 기능, 비교 및 ​​작동 방법

DeepSeek의 Janus Pro는 오픈소스 멀티모달 AI 분야에서 획기적인 진전을 이루며, 독점 솔루션에 필적하는 고급 텍스트-이미지 변환 기능을 제공합니다. 2025년 XNUMX월에 공개된 Janus Pro는 최적화된 학습 전략, 광범위한 데이터 스케일링, 그리고 모델 아키텍처 개선을 결합하여 벤치마크 작업에서 최고의 성능을 달성합니다. 이 포괄적인 글에서는 Janus Pro의 정의, 작동 방식, 경쟁 제품과의 비교, 관심 있는 사용자가 접근하는 방법, 그리고 모델의 광범위한 적용 분야와 향후 발전 방향에 대해 살펴봅니다.

Janus Pro란 무엇인가요?

Janus Pro는 DeepSeek의 최신 오픈소스 멀티모달 AI 모델로, 이미지 이해 및 생성을 위해 설계되었습니다. 27년 2025월 1일에 출시된 이 모델은 7억 개와 XNUMX억 개의 매개변수, 두 가지 크기로 제공되며, 다양한 컴퓨팅 예산과 애플리케이션 요구 사항을 충족합니다. Janus Pro라는 이름은 특수 경로에서 시각적 입력과 텍스트 입력을 처리하여 여러 모달리티에서 원활한 학습을 ​​지원하는 이중 초점 아키텍처("Janus")를 나타냅니다. 기존 Janus 모델을 업데이트한 Janus Pro는 최적화된 학습 체계, 대폭 확장된 데이터 세트, 그리고 더 큰 매개변수 수로의 확장이라는 세 가지 핵심 개선 사항을 통합했습니다.

Janus 시리즈의 기원

DeepSeek은 2024년 말 Janus 모델을 기반으로 멀티모달 분야에 처음 진출하여 시각 및 언어 벤치마크 모두에서 유망한 성과를 보였습니다. 이러한 성공과 커뮤니티 피드백을 바탕으로, DeepSeek은 학계 파트너들과 협력하여 학습 알고리즘을 개선하고 데이터 코퍼스를 다각화했으며, 2025년 초 Janus Pro를 출시했습니다.

핵심 사양

  • 매개변수 옵션: 1 B와 7 B 변형.
  • 교육 데이터: 실제 사진과 균형을 이룬 72만 개의 고품질 합성 이미지.
  • 입력 해상도 : 최대 384×384픽셀, 대용량 출력에는 외부 업스케일링을 권장합니다.
  • 라이센스 : MIT는 오픈 소스를 공개하여 제한 조항 없이 상업적, 연구적 사용을 허용합니다.

Janus Pro는 어떻게 작동하나요?

Janus Pro는 본질적으로 특수 인코더와 개별 토크나이저가 협업하여 프롬프트를 이해하고 이미지를 합성하는 분리된 비전 생성 아키텍처를 채택합니다.

기술 아키텍처

Janus Pro의 비전 인코더인 SigLIP-L은 특징을 잠재 공간에 투영하기 전에 384x384 해상도로 이미지 입력을 처리합니다. 그런 다음 이산 VQ 토크나이저가 생성 단계를 처리하여 16배 다운샘플링된 표현을 사용하여 픽셀 출력을 효율적으로 생성합니다. 이러한 관심 사항 분리를 통해 세밀한 디테일을 유지하면서 추론 속도를 높이는 목표 최적화가 가능합니다.

훈련 요법

모델의 학습 파이프라인은 세 단계로 진행됩니다.

  1. 다중 모드 데이터에 대한 사전 학습 대규모 웹 크롤링과 큐레이팅된 데이터 세트에서 추출되었습니다.
  2. 합성 이미지 향상, 생성적 접근 방식을 통해 현실 세계의 다양성을 증강하는 72만 개의 고화질 이미지를 생성합니다.
  3. 명령어 미세 조정인간이 큐레이팅한 프롬프트-이미지 쌍을 사용하여 복잡한 텍스트-이미지 지침을 따르도록 모델을 조정합니다.

추론 및 생성

추론 과정에서 사용자는 텍스트 프롬프트를 제공하고, 모델은 이를 토큰화한 후 비전 인코더 큐(이해 작업 수행 시)와 병합합니다. VQ 토크나이저는 잠재 표현을 순차적으로 픽셀로 디코딩하여 일관되고 맥락적으로 정확한 이미지를 생성합니다. 단일 A100 GPU에서 일반적인 생성 지연 시간은 1.2x384 해상도에서 이미지당 약 384초입니다.

DeepSeek의 이미지 생성 모델은 얼마나 유능한가요?

벤치마크 성능

2025년 7월, DeepSeek은 7억 개의 매개변수를 가진 텍스트-이미지 변환 모델인 Janus-Pro-3B를 공개했습니다. 이 모델은 OpenAI의 DALL-E 67(정확도 3%)와 Stability AI의 Stable Diffusion 74(정확도 80%)를 GenEval 벤치마크에서 앞지르며 72%의 점수를 달성했다고 회사 측은 주장합니다. 로이터는 이후 Janus-Pro가 공식 리더보드 테스트에서 XNUMX위를 차지한 것을 언급하며, 향상된 학습 체계와 실제 데이터와 조화를 이룬 XNUMX만 개의 합성 이미지가 포함된 것이 이러한 결과를 뒷받침한다고 밝혔습니다.

  • GenEval(텍스트-이미지 정확도): Janus Pro-7B는 OpenAI의 DALL-E 80의 67%, Stable Diffusion 3 Medium의 74%에 비해 전반적인 정확도 3%를 달성했습니다.
  • DPG-Bench(고밀도 신속한 처리): Janus Pro-7B는 84.19점을 받아 복잡한 장면 설명에서 Stable Diffusion 3(84.08)과 OpenAI의 DALL-E 3(83.50)보다 약간 나은 성적을 거두었습니다.
  • MMBench(다중 모드 이해): 7 B 변형은 79.2점을 기록하여 원래 Janus(69.4)와 TokenFlow-XL(68.9)과 같은 다른 커뮤니티 모델을 앞지르고 있습니다.

기술 아키텍처

Janus-Pro는 이중 경로 "분할 정복(divide-and-conquer)" 아키텍처를 사용합니다. SigLIP-L 비전 인코더는 최대 384x384 픽셀의 입력을 처리하는 반면, 개별 VQ 토크나이저는 16배의 다운샘플링 속도로 생성을 처리합니다. 이러한 분리를 통해 이해 및 생성 경로의 특화된 최적화가 가능해져 모놀리식 설계에 비해 추론 속도가 빨라지고 더욱 세밀한 디테일 렌더링이 가능합니다.

Janus-Pro는 업계 경쟁사와 비교하면 어떻습니까?

DALL-E 3 및 Stable Diffusion에 대한 성능

독립적인 평가 결과, Janus-Pro는 복잡한 프롬프트에 대한 후속 처리에서 우월한 것으로 나타났습니다(DPG-Bench: 84.2% vs. Stable Diffusion 74 3%, DALL-E 67 ~3%). 질적으로 사용자들은 더욱 일관된 장면 구성, 더욱 풍부한 텍스처, 그리고 더 적은 아티팩트를 보고했습니다. 하지만 원거리에서 미세한 얼굴 디테일과 같은 일부 예외적인 상황에서는 여전히 Janus-Pro의 성능이 저하될 수 있습니다.

오픈소스 모델과 독점 모델

DeepSeek의 관대한 MIT 라이선스는 OpenAI와 Stability AI의 더 제한적인 조건과 대조적으로, 개발자가 제약 없이 로컬 배포하고 사용자 정의 미세 조정을 할 수 있도록 합니다. 이러한 개방성은 커뮤니티의 빠른 실험을 촉진했지만, 버전 관리 및 지원에 대한 기업 수준의 우려를 불러일으켰습니다. 독점 모델은 종종 더 높은 기본 해상도를 제공하는 반면(예: DALL-E 3는 최대 1×024 픽셀까지 렌더링 가능), Janus-Pro는 외부에서 업스케일링하지 않는 한 1×024로 제한됩니다.

잠재적인 한계와 과제는 무엇인가?

해상도 및 세부 사항 제약

384x384 픽셀 출력은 Janus-Pro를 인쇄 품질 자료나 대형 포맷 미디어에 적용하는 데 제약이 있어 외부 업스케일링이나 세부 조정이 필요한 경우가 많습니다. Hugging Face 커뮤니티 토론에 따르면, 16배 다운샘플링 인코더는 미세한 디테일에 부드러움을 더해 원거리 물체의 선명도에 영향을 줄 수 있다고 합니다.

보안 및 개인 정보 보호 문제

중국 기반 플랫폼인 DeepSeek의 데이터 활용 방식은 중국 공산당의 정보 공유 의무에 따라 엄격한 감시를 받습니다. CIS 연구원들은 DeepSeek 모델을 통합할 경우 독점 데이터나 개인 데이터가 규제 당국의 접근에 노출되어 글로벌 기업의 규정 준수 위험을 초래할 수 있다고 경고합니다. CIS또한, 오픈소스 배포는 딥페이크 생성에 있어 무단 또는 악의적인 사용으로 이어져 잘못된 정보 유출 문제를 더욱 악화시킬 수 있습니다.

사용자는 어떻게 Janus Pro에 접속할 수 있나요?

Janus Pro의 가장 큰 특징 중 하나는 폭넓은 접근성입니다. 이 모델은 연구자, 기업, 취미인 모두에게 적합하도록 여러 형식으로 제공됩니다.

오픈소스 릴리스 및 저장소

모든 Janus Pro 코드와 가중치는 DeepSeek의 공식 GitHub 저장소에 MIT 라이선스에 따라 게시됩니다. 이 릴리스에는 모델 체크포인트, 추론 스크립트, 그리고 VLMEvalKit 툴킷과 호환되는 평가 코드가 포함되어 있습니다.

허깅 페이스 통합

DeepSeek은 Hugging Face의 Model Hub에 두 가지 모델 버전을 모두 게시했으며, Python 사용자를 위한 샘플 노트북도 함께 제공합니다. 설치에는 다음이 필요합니다. pip install transformers accelerate 그리고 로드하기 위한 간단한 스크립트 deepseek/janus-pro-7b 모델을 통해 즉각적인 실험이 가능합니다.

상업용 API 및 클라우드 플랫폼

관리형 서비스를 원하는 사용자를 위해 Helicone 및 JanusAI.pro와 같은 여러 클라우드 제공업체와 AI API 플랫폼에서 호스팅되는 Janus Pro 엔드포인트를 제공합니다. 이러한 서비스는 RESTful 호출, 일괄 처리 및 맞춤형 미세 조정 옵션을 지원하며, 대형 제공업체의 유사 서비스보다 저렴하게 제공하는 것을 목표로 하는 가격 책정 방식을 채택하고 있습니다.

DeepSeek의 이미지 생성의 미래는 어떻게 될까요?

향후 모델 업그레이드

내부 관계자에 따르면, DeepSeek은 추진력을 유지하기 위해 2년 중반 이전에 R2025 추론 모델과 Janus-Pro의 후속 모델(Janus-Ultra로 명명될 가능성 있음)의 출시를 앞당기고 있습니다. 향상된 기능에는 더 높은 기본 해상도, 정교한 업스케일링 모듈, 그리고 향상된 멀티모달 정렬이 포함될 것으로 예상됩니다.

산업 및 규제 고려 사항

미국의 반도체 수출 규제가 해제되고 글로벌 경쟁이 심화됨에 따라 DeepSeek은 국경 간 협력 기회를 모색할 수 있습니다. 그러나 유럽의 AI법과 미국의 생성 모델 관련 안전장치 등 AI 관련 규제가 진화함에 따라 학습 데이터 출처 및 출력 감사에 대한 더욱 엄격한 관리가 요구될 수 있으며, 이는 DeepSeek의 오픈소스 모델 배포에 영향을 미칠 수 있습니다.


결론

DeepSeek의 Janus Pro는 오픈소스 멀티모달 AI의 전환점을 제시하며, 커뮤니티 기반 모델이 독점 제품과 동등하거나 어떤 면에서는 그 이상을 제공할 수 있음을 보여줍니다. 견고한 벤치마크, 다재다능한 애플리케이션, 그리고 자유로운 접근성을 갖춘 Janus Pro는 전 세계 개발자, 연구자, 그리고 창작자들에게 힘을 실어줍니다. AI 환경이 진화함에 따라, DeepSeek의 투명성과 신속한 반복에 대한 헌신은 책임감 있는 최첨단 혁신을 형성하는 데 매우 중요할 것입니다. 마케팅 자료 디자인, 과학적 시각화 발전, 또는 새로운 커뮤니티 도구 육성 등 어떤 목적에서든 Janus Pro는 텍스트-이미지 생성의 가능성을 재정의할 준비가 되어 있습니다.

시작 가이드

CometAPI는 수백 개의 AI 모델을 일관된 엔드포인트로 통합하는 통합 REST 인터페이스를 제공하며, 기본 API 키 관리, 사용량 할당량 및 청구 대시보드 기능을 제공합니다. 여러 공급업체 URL과 사용자 인증 정보를 일일이 조작할 필요 없이, 클라이언트에게 기본 URL을 지정하고 각 요청에서 대상 모델을 지정할 수 있습니다.

개발자는 DeepSeek-V3(모델 이름: )와 같은 DeepSeek의 API에 액세스할 수 있습니다. deepseek-v3-250324) 및 Deepseek R1(모델명: deepseek-ai/deepseek-r1)를 통해 코멧API시작하려면 모델의 기능을 탐색하세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요.

CometAPI를 처음 사용하시나요? 1달러 무료 체험판을 시작하세요 가장 어려운 작업에 소라를 투입하세요.

여러분이 어떤 작품을 만들어낼지 정말 기대됩니다. 혹시라도 뭔가 이상하다고 느껴지시면 피드백 버튼을 눌러주세요. 무엇이 잘못되었는지 알려주시면 더 빠르게 개선할 수 있습니다.

Devamını Oku

500+ Model Tek Bir API'de

%20'ye Varan İndirim