Amazon Web Services (AWS)가 자체 개발한 인공지능(AI) 칩을 탑재한 새로운 데이터 센터 서버를 출시하며 Nvidia의 시장 지배력에 도전장을 내밀었습니다. 애플이 이 새로운 Trainium2 칩을 사용할 고객으로 확인되었습니다. AWS 클라우드 부문은 화요일 발표를 통해 이 서버들이 수십만 개의 칩으로 구성된 대규모 슈퍼컴퓨터의 일부가 될 것이라고 밝혔습니다.
AWS의 Trainium2 칩으로 구동되는 이 슈퍼컴퓨터는 AI 스타트업 Anthropic이 첫 번째로 사용하게 됩니다. 신뢰할 수 있고 해석 가능한 AI 시스템 개발로 알려진 Anthropic은 이 컴퓨팅 파워를 활용해 자사 AI 모델의 성능을 향상시킬 예정입니다.
애플의 임원인 Benoit Dupin도 Trainium2 칩을 사용하고 있다고 인정하며, AWS의 새로운 제품이 중요한 채택을 얻고 있음을 시사했습니다.
AWS의 최고경영자인 Matt Garman은 더 나아가 회사가 이미 AI 칩의 다음 진화인 Trainium3 개발에 착수했으며, 내년에 데뷔할 예정이라고 밝혔습니다.
AWS Trainium2를 탑재한 새로운 Amazon Elastic Compute Cloud (Amazon EC2) 인스턴스가 현재 일반적으로 사용 가능하며, Trn2 UltraServers를 도입했습니다. 이 UltraServers는 대규모 언어 모델(LLM)과 기초 모델(FM)을 포함한 현대적인 AI 모델의 훈련과 배포에 있어 뛰어난 성능과 비용 효율성을 제공하도록 설계되었습니다.
Trn2 인스턴스는 현재의 GPU 기반 EC2 인스턴스보다 30-40% 향상된 가격 대비 성능을 제공하며, 16개의 Trainium2 칩으로 20.8 피크 페타플롭스의 컴퓨팅 성능을 자랑합니다. 이는 수십억 개의 매개변수를 가진 AI 워크로드를 처리하는 데 이상적입니다.
더 높은 수준의 AI 작업을 위해 Trn2 UltraServers는 64개의 상호 연결된 Trainium2 칩을 갖춘 새로운 EC2 서비스를 제공하여 최대 83.2 피크 페타플롭스의 컴퓨팅 성능을 제공합니다. 이 설정은 단일 인스턴스의 컴퓨팅, 메모리, 네트워킹 능력을 4배로 늘려 세계에서 가장 큰 AI 모델의 훈련과 배포를 가능하게 합니다.
AWS와 Anthropic의 협력 프로젝트인 Project Rainier는 Trn2 UltraServers로 구성된 EC2 UltraCluster를 구축하는 것을 목표로 하며, 완성 시 세계 최대의 AI 컴퓨팅 클러스터가 될 예정입니다.
AWS는 또한 3나노미터 공정 노드를 사용하여 제조될 예정인 Trainium3 칩을 강조했으며, 이는 현재 Trn2 UltraServers의 성능을 4배로 향상시킬 것으로 기대됩니다.
AWS Neuron 소프트웨어 개발 키트(SDK)는 AI 모델을 Trainium 칩에서 실행되도록 최적화하는 데 도움을 주며, JAX와 PyTorch와 같은 인기 있는 프레임워크를 지원하고 100,000개 이상의 모델을 호스팅하는 Hugging Face 모델 허브와 통합되어 있습니다.
Trn2 인스턴스는 현재 미국 동부(오하이오) AWS 리전에서 사용 가능하며, 곧 다른 리전으로 확장될 예정입니다. 한편, Trn2 UltraServers는 현재 프리뷰 단계에서 제공되고 있습니다.
이 기사는 인공지능의 도움을 받아 번역됐습니다. 자세한 내용은 이용약관을 참조하시기 바랍니다.