Tesla AI Day: 자율주행차의 미래를 위해 기대할 수 있는 것. Tesla는 AI Day 행사에서 신경망 훈련을 위한 Dojo D1 칩을 공개했다. 구글번역:AI넷

Tesla의 AI Day는 8월 19일에 열렸으며, 자율주행차 모델의 훈련을 함께 발전시킬 기계 학습 및 신경망 훈련을 위한 자동차 칩, 시스템 및 소프트웨어의 도입을 특징으로 했습니다.

Elon Musk와 그의 칩 및 시스템 디자이너 팀은 여기에서 볼 수 있는 3시간 이상의 프레젠테이션에서 이러한 솔루션에 대해 자세히 설명했습니다 . 다음은 하이라이트입니다.

신경망

Tesla는 신경망 훈련에 맞게 조정된 유연하고 확장 가능한 분산 컴퓨터 아키텍처를 설계했습니다. Tesla의 아키텍처는 각각 강력한 CPU가 있는 354개의 교육 노드가 있는 D1 특수 목적 칩으로 시작합니다. 이러한 훈련 노드 CPU는 고성능 기계 학습 및 신경망 작업을 위해 설계되었으며 32비트 부동 소수점 연산에 대해 최대 64기가플롭의 성능을 제공합니다.

354개의 CPU가 있는 D1 칩의 경우 최대 성능은 32비트 부동 소수점 산술의 경우 22.6테라플롭입니다. 16비트 부동 소수점 계산의 경우 D1 최대 성능은 362Tflops로 점프합니다.

Tesla는 신경망 훈련을 위해 훈련 타일과 ExaPOD라는 두 가지 시스템을 도입했습니다. 훈련 타일에는 다중 칩 패키지에 25개의 연결된 D1 칩이 있습니다. 25개의 D1 칩이 있는 훈련 타일은 8,850개의 훈련 노드로 구성되며 각 노드에는 위에 요약된 고성능 CPU가 있습니다. 훈련 타일의 최대 성능은 32비트 부동 소수점 계산의 경우 565Tflops입니다.

ExaPOD는 120개의 교육 타일을 시스템에 연결하거나 106만 2000개의 교육 노드가 있는 3,000개의 D1 칩을 연결합니다. ExaPOD의 최대 성능은 32비트 부동 소수점 계산의 경우 67.8Pflops입니다.

Tesla 신경망 발표 세부정보

D1 칩과 Dojo 신경망 훈련 시스템의 도입은 Tesla의 방향성을 보여줍니다. 이러한 제품을 생산하기 위한 R&D 투자는 의심할 여지 없이 매우 높습니다. Tesla는 이 기술을 다른 회사와 공유하여 다른 OEM에 판매된 배터리 EV(BEV) 크레딧과 유사한 수익원을 창출할 가능성이 높습니다.

아래 표는 Tesla의 신경망 제품 발표의 특징을 나열한 것입니다. 데이터는 8월 행사 영상에서 추출했습니다. 나는 몇 군데에서 칩과 시스템 아키텍처에 대한 나의 이해를 추가했습니다.

Tesla의 설계 목표는 칩과 시스템 전반에 걸쳐 컴퓨팅 성능, 고대역폭, 컴퓨팅 노드 간의 저지연 통신이라는 세 가지 시스템 특성을 확장하는 것이었습니다. 고대역폭과 짧은 대기 시간은 항상 수백 또는 수천 개의 컴퓨팅 노드로 확장하기 어려웠습니다. Tesla는 연결된 2D 메쉬 형식으로 구성된 세 가지 매개변수를 모두 성공적으로 확장한 것 같습니다.

훈련 노드

훈련 노드는 D1 칩에서 가장 작은 훈련 단위입니다. 4방향 스칼라 및 4방향 다중 스레드 프로그램 실행을 지원하는 64비트 프로세서가 있습니다. 또한 CPU에는 8 × 8 벡터 곱셈을 사용하는 양방향 벡터 데이터 경로가 있습니다.
CPU의 명령어 세트 아키텍처는 기계 학습 및 신경망 훈련 작업에 맞게 조정됩니다. CPU는 32비트(FP32), 16비트(BFP16) 및 8비트(구성 가능한 FP8 또는 CFP8)와 같은 여러 부동 소수점 형식을 지원합니다.

프로세서에는 프로그램 및 데이터 저장을 위한 1.25MB 고속 SRAM이 있습니다. 메모리는 신뢰성 향상을 위해 오류 수정 코드를 사용합니다.

훈련 노드 사이의 짧은 대기 시간을 얻기 위해 Tesla는 2GHz 이상의 클록 주파수의 한 주기에서 신호가 이동할 수 있는 가장 먼 거리를 선택했습니다. 이것은 훈련 노드가 얼마나 가까이 있어야 하고 CPU와 지원 전자 장치가 얼마나 복잡해야 하는지를 정의했습니다. 또한 이러한 매개변수를 통해 CPU는 512Gbps로 인접한 4개의 교육 노드와 통신할 수 있습니다.

훈련 노드의 최대 성능은 사용된 산술에 따라 다릅니다. 부동 소수점 성능은 일반적으로 비교에 사용됩니다. 최대 학습 타일 32비트 부동 소수점 성능(FP32)은 64Gflops입니다. BFP16 또는 CFP8 산술의 최대 성능은 1,024Gflops입니다.

D1 칩

인상적인 Tesla D1 칩은 신경망 훈련을 위한 특수 목적 설계입니다. 7nm 공정으로 제조된 D1은 645mm2 크기의 다이에 500억 개의 트랜지스터를 포장합니다. 이 칩은 11마일 이상의 전선과 400W 범위의 전력 소비를 가지고 있습니다.

D1 칩에는 칩을 둘러싸고 있는 총 576개의 레인인 고속, 저전력 SerDes가 있는 I/O 링이 있습니다. 각 레인의 전송 속도는 112Gbps입니다. 최대 D1 온칩 전송 속도는 10Tbps입니다. 최대 오프보드 전송 속도는 칩의 각 면에 대해 4Tbps입니다.

1.25MB의 SRAM이 있는 D1 칩의 354개 CPU 각각을 사용하면 최대 442MB 이상의 SRAM이 추가됩니다. D1 칩의 최대 성능도 354개의 훈련 노드로 구성된 CPU 어레이를 기반으로 합니다.

32비트 부동 소수점 계산을 위한 D1 최대 성능은 22.6Tflops에 이릅니다. 16비트
부동 소수점 계산의 최대 성능 은 362Tflops입니다.

훈련 타일

Tesla의 교육 타일은 AI 교육 시스템을 확장하기 위한 빌딩 블록입니다. 트레이닝 타일은 25개의 D1 다이를 웨이퍼에 통합하고 멀티칩 모듈(MCM)로 패키징됩니다. Tesla는 이것이 칩 업계에서 가장 큰 MCM이 될 수 있다고 믿습니다.

훈련 타일은 훈련 타일의 대역폭을 유지하는 고대역폭 커넥터를 통해 다른 훈련 타일에 연결할 수 있는 대형 칩으로 패키징됩니다.

교육 타일 패키징에는 전원 및 제어, 전류 분배, 컴퓨팅 플레인(25 D1 칩) 및 냉각 시스템의 여러 레이어가 포함됩니다. 교육 타일은 자율 주행 차량이 아닌 IT 센터에서 사용하기 위한 것입니다.

훈련 타일은 단일 D1 칩의 25배 성능 또는 16비트 부동 소수점 계산의 경우 최대 9페타플롭, 32비트 부동 소수점 계산의 경우 최대 565Tflops를 제공합니다.

2 × 3 × 2 구성의 12개의 훈련 타일을 Tesla는 훈련 매트릭스라고 부르는 캐비닛에 포장할 수 있습니다.

엑사팟

Tesla가 설명한 가장 큰 시스템은 ExaPOD입니다. 최대 3,000개의 D1 칩과 106만 2000개의 교육 노드를 추가하는 120개의 교육 타일로 제작되었습니다. 10개의 캐비닛에 들어갈 수 있으며 분명히 IT 센터용으로 제작되었습니다. ExaPOD의 최대 성능은 16비트 부동 소수점 계산의 경우 1.09엑사플롭, 32비트
부동 소수점 계산의 경우 67.8엑플롭입니다 .

Dojo 소프트웨어 및 DPU

Dojo 소프트웨어는 크고 작은 신경망 훈련을 지원하도록 설계되었습니다. Tesla에는 교육 노드, D1 칩, 교육 타일 및 ExaPOD 시스템의 구조와 기능을 활용하는 소프트웨어 코드를 생성하는 컴파일러가 있습니다. D1 칩과 Dojo 시스템 아키텍처를 활용하는 확장 기능이 있는 PyTorch 오픈 소스 머신 러닝 라이브러리를 사용합니다.

이러한 기능을 통해 대규모 신경망을 분할하고 매핑하여 모델, 그래프 및 데이터 병렬 처리를 추출하여 대규모 신경망 교육 속도를 높일 수 있습니다. 컴파일러는 병렬 처리를 추출하기 위해 여러 기술을 사용합니다. 데이터 모델 그래프 병렬화 기술을 사용하여 세분화된 병렬화를 달성하도록 네트워크를 변환할 수 있으며 메모리 풋프린트를 줄이기 위해 최적화할 수 있습니다.

Dojo 인터페이스 프로세서는 IT 및 데이터 센터의 호스트 컴퓨터와 통신하는 데 사용됩니다. PCIe 4.0과 연결하여 컴퓨터를 호스트하고 위에서 설명한 고대역폭을 통해 D1 기반 시스템에 연결합니다. 인터페이스 프로세서는 D1 시스템을 위한 고대역폭 DRAM 공유 메모리도 제공합니다.

D1 기반 시스템은 Dojo 처리 장치(DPU)라는 단위로 세분화되고 분할될 수 있습니다. DPU는 하나 이상의 D1 칩, 인터페이스 프로세서 및 하나 이상의 컴퓨터 호스트로 구성됩니다. DPU 가상 시스템은 실행 중인 신경망에 따라 필요에 따라 확장 또는 축소할 수 있습니다.

Tesla의 트레이닝 타일 시스템 (출처: Tesla )

결론

Tesla 신경망 훈련 칩, 시스템 및 소프트웨어는 매우 인상적입니다.

칩에서 시스템으로 엄청난 대역폭과 짧은 대기 시간을 유지하는 것과 같은 많은 혁신이 있습니다. 전력 및 냉각을 위한 교육용 타일의 패키징도 혁신적으로 보입니다.

신경망 훈련 시스템은 데이터 센터용이며 Tesla의 AV 소프트웨어를 개선하는 데 확실히 사용될 것입니다. 다른 회사에서도 이러한 Tesla 신경망 교육 시스템을 사용할 가능성이 높습니다.

핵심 질문은 신경망 시스템이 AV에서 애플리케이션을 추론하는 데 어떻게 사용되는지입니다. 교육 타일의 전력 소비가 현재 버전에서 자동 사용하기에는 너무 높아 보입니다. 프레젠테이션의 한 사진에는 교육용 타일에 대한 "15KW 열 제거" 레이블이 있습니다. D1 칩은 슬라이드에 나열된 400W TDP 범위에 있을 것입니다.

Tesla는 이 신경망 교육 혁신에 따라 Autopilot을
카메라 기반 센서만으로 L3 또는 L4 가능 시스템 으로 만들기를 희망하고 있는 것 같습니다 . 좋은 내기인가요? 시간이 말해줄 것이지만, 지금까지 Elon Musk의 대부분의 베팅은 비록 약간의 지연이 있긴 했지만 잘 이루어졌습니다.

이 기사는 원래 EE Times에 게시되었으며 EE Times Europe Magazine의 최신판에 실렸습니다 .