DeepSeek AI

현재 웹에서 사용시 무료입니다.

DeepThink (R1) 버튼 클릭하면 추론 모델을 사용할 수 있습니다.

V3의 경우 오픈소스로 공개하고 있네요.

초기버전인 R1 ZERO는 기존 LLM 학습에서 필수적이었던 SFT 단계를 완전히 생략 후 V3 모델을 기반으로 순수하게 강화학습만을 적용했다고 합니다.

현재 R1은 한계를 보완하기 위해 아래 4가지를 진행한다 하네요.
Cold Start: 수천 개의 고품질 데이터로 초기 미세조정
추론 강화학습: GRPO를 통한 대규모 강화학습
거부 샘플링과 지도 미세조정
다양한 강화학습

DeepThink로 추론 후 Claude Sonnet에게 문제를 풀게 했을 때 o1을 능가한다는 벤치마크도 있습니다.

무료이기도 하니 적극적으로 사용해봅시다.

Pika - 이미지에 움직임을 주고 싶을 때 (1)	2024.12.23
Flux - 이미지 생성 AI (0)	2024.12.23

양오리님의 블로그