link 세부 정보
정보 바로가기 : [글로벌] "초당 4만 토큰 처리"...엔비디아, 라마4 추론 최적화 기술 공...
[글로벌] "초당 4만 토큰 처리"...엔비디아, 라마4 추론 최적화 기술 공...[카테고리 설정이 아직되어 있지 않습니다.]
라마4 시리즈는 메타가 처음으로 전문가혼합(Mixture of Experts, MoE) 아키텍처를 적용한 모델로, 상황에 따라 다른 하위 전문가 모듈을 선택해 계산 자원의 효율성을 극대화하는 구조를 가집니다. 엔비디아는 이를...