현재 웹에서 사용시 무료입니다.
DeepThink (R1) 버튼 클릭하면 추론 모델을 사용할 수 있습니다.
V3의 경우 오픈소스로 공개하고 있네요.
초기버전인 R1 ZERO는 기존 LLM 학습에서 필수적이었던 SFT 단계를 완전히 생략 후 V3 모델을 기반으로 순수하게 강화학습만을 적용했다고 합니다.
현재 R1은 한계를 보완하기 위해 아래 4가지를 진행한다 하네요.
Cold Start: 수천 개의 고품질 데이터로 초기 미세조정
추론 강화학습: GRPO를 통한 대규모 강화학습
거부 샘플링과 지도 미세조정
다양한 강화학습
DeepThink로 추론 후 Claude Sonnet에게 문제를 풀게 했을 때 o1을 능가한다는 벤치마크도 있습니다.
무료이기도 하니 적극적으로 사용해봅시다.
'AI 서비스 > 사용기' 카테고리의 다른 글
Pika - 이미지에 움직임을 주고 싶을 때 (1) | 2024.12.23 |
---|---|
Flux - 이미지 생성 AI (0) | 2024.12.23 |