'gpu 컴퓨트'에 해당되는 글 1건

  1. 2016.12.14 25TFLOPS 슈퍼 GPU, AMD 베가를 GPU 컴퓨트 시장에 투입 by 랩터 인터내셔널

Radeon Instinct 이니셔티브로 GPU 컴퓨트 시장을 겨냥

AMD는 1장의 카드로 25TFLOPS(FP16)의 성능을 실현하는 새로운 GPU "Radeon Instinct MI25"를 GPU 컴퓨트에 투입한다. 차세대 GPU 아키텍처 "베가(Vega)" 베이스의 GPU다. 등장하면 NVIDIA의 파스칼 베이스의 "Tesla P100(GP100)"의 21TFLOPS(FP16)을 넘어선다.


AMD가 GPU 컴퓨트를 위한 포괄적 전략과 하드웨어 제품 계열 소프트웨어 플랫폼을 발표했다. 뜨거워진 머신 러닝(AMD는 Machine Intelligence(MI)라고 부른다)에 초점을 맞추고 GPU 컴퓨트에 대한 새로운 제품 브랜드 "Radeon Instinct"을 투입한다. Radeon Instinct는 머신 러닝 액셀러레이터를 메인 타깃으로 한 GPU 제품으로 내년(2017년)전반에 시장에 투입된다. 앞으로는 이런 GPU 컴퓨트 제품도 Radeon 브랜드의 서브 브랜드가 된다.


Radeon Instinct에는 현재의 "Polaris","Fiji" 아키텍처 GPU 뿐 아니라 차세대 "Vega" 아키텍처 GPU도 라인 업되고 있다. 새로운 아키텍처 Vega 기반의 "Radeon Instinct MI25"에서는 SIMD 포맷의 FP16(16-bit 부동 소수점 연산)이 지원되는 것도 공식적으로 밝혀졌다.


1_s.png
2_s.png
3_s.png


AMD는 Radeon Instinct에 맞추어 오픈 소스 머신 러닝용 라이브러리 "MIOpen"을 내년(2017년) 1분기에 제공한다. 또한 AMD는 올해(2016년) 4월에 Radeon 상에 GPU 컴퓨트 소프트웨어 플랫폼 "Radeon Open Compute Platform(ROCm)"을 발표하고 있다. ROCm은 멀티 프로그래밍 언어 대응의 오픈 소스 GPU 컴퓨팅 플랫폼이다. HSA(Heterogeneous System Architecture)의 AMD GPU 용 확장 구현의 플러스 알파로 Radeon Instinct에 맞추어 AMD는 ROCm을 확장하는 딥 러닝 프레임워크로 최적화했다.


4_s.png
5_s.png
6_s.png
7_s.png
8_s.png
9_s.png
10_s.png
11_s.png
12_s.png

또 AMD의 Lisa Su(리사수, President and CEO, AMD)는 Radeon Instinct 배경으로 "컴퓨팅이 몰입적(Immersive)에서 본능적(Instinctive)화 되고 있다"고 설명하며 그런 시대에는 데이터 센터가 변화할 필요가 있으며 고성능 CPU 뿐 아니라 고성능 GPU와 CPU를 연계시키는 구조가 필요하다는 것이었다. 그 양쪽을 갖춘 것은 AMD 뿐이라는 주장이다.


13_s.png
14_s.png
15_s.png
16_s.png
17_s.png


만반의 준비를 하고 GPU 컴퓨트 시장에 참여하는 AMD

Radeon Instinct 이니셔티브는 한마디로 AMD의 GPU 컴퓨트 시장 "재" 참가 선언이다. GPU를 범용에 사용 GPU 컴퓨트는 현재 NVIDIA의 거의 독무대다. NVIDIA의 대항마는 지금까지는 AMD GPU가 아니라 인텔의 "Knights Landing(나이츠 랜딩:KNL)"과 FPGA(Field-Programmable Gate Array) 전용 엑셀러레이터다. AMD는 이 시장에 몇번 시도했으나 별다른 성공은 거두지 못하고 있다. 원인은 몇가지 있다.


하나는 2년전까지 AMD가 CPU와 GPU를 다이상에서 통합된 "APU(Accelerated Processing Unit)"에 초점을 맞추고 디스크리트 GPU를 적극적으로 GPU 컴퓨트에 추진하지 않은 것. GPU컴퓨트를 위한 소프트웨어 플랫폼을 "HSA"로 타사가 펼치겠다고 해서 책정에 시간이 걸린 것. 그리고 아마도 GPU 컴퓨트 시장의 급속한 확대를 예측하지 못한 것이다.


그러나 상황은 달라졌다. 현재 AMD는 APU를 모든 시장에 적용하는 전략을 세우고 하이엔드 CPU와 GPU는 각각 독립적인 전략으로 전환한 것으로 보인다. 두 프로세서 사이는 간섭성 인터 커넥트로 접속할 방침을 전하고 있다. 소프트웨어는 AMD는 GPU을 오픈화하는 "GPUOpen" 이니셔티브를 1년 전에 만들어 오픈 소스화를 추진하고 그 성과가 이제 나타나기 시작했다. 한편 GPU 컴퓨트는 머신 러닝의 발전으로 HPC(High Performance Computing)시장뿐 아니라 폭넓은 시장으로 급속히 보급되고 있다. 데이터 센터 뉴럴 네트워크의 "학습(Training)"과 에지 측에서 "추론(inference)"에 GPU가 사용된다.



18_s.png
19_s.png


현재 AMD는 머신 러닝의 물결에 대응한 GPU 컴퓨트 제품 투입을 요구 받고 있다. 여기서 뒤지면 HPC라는 상대적으로 좁은(금액은 크지만 노드가 적은)시장 뿐 아니라 "모든 데이터 센터에 GPU가 들어가는" 이란 절호의 기회를 치명적으로 놓치게 된다. AMD 역시 디스크리트 GPU의 센트릭 한 방향으로 전환하고 소프트웨어 토대도 오픈 소스 커뮤니티의 힘을 빌리게 되었다. 더욱이 FinFET 프로세스와 적층 DRAM에 의해서 GPU 자체의 성능도 급격히 오르면서 머신 러닝용으로 확장한 새로운 GPU "베가(Vega)"의 투입이라는 타이밍도 맞는다. Radeon Instinct는 이러한 상황에서 투입된다.


20_s.png
21_s.png


학습 페이즈에 Vega, 추론 페이즈에 Polaris

Radeon Instinct의 라인 업은 3세대의 AMD GPU에 걸치고 있다. 성능과 전력 차례대로 "MI6","MI8","MI25"다. MI는 기계 지능에서 유래 된 것으로 보인다. 숫자는 FP16 연산시 TFLOPS 수를 나타내는 것으로 추측된다. 참고로 MI6은 007이 소속됐던 영국 첩보 기관 MI6(Military Intelligence section 6)와 같은 명칭이다.


MI6는 패시브 냉각으로 5.7TFLOPS, 224GB/sec의 메모리 대역에서 150W 이하의 전력이다.스펙부터 14nm FinFET 프로세스의 "Polaris 10(그래픽 제품에는 Radeon RX 480)" 인 것으로 추측할 수 있다.


22_s.png


MI8은 스몰 폼 팩터에 8.2TFLOPS, 512GB/sec의 메모리 대역에서 175W 이하의 전력 스펙부터 28nm 공정의 "Fiji XT(그래픽 제품에는 Radeon R9 Nano)"인 것으로 추측할 수 있다. Fiji 아키텍처의 저전력판이다.


MI25가 Radeon Instinct의 차세대 Vega 구조 베이스로 패시브 냉각이다. 그림에서는 2배의 연산이며 AMD는 Q&A로 SIMD 포맷의 FP16(16-bit 부동 소수점)이라고 설명하고 있다. AMD GPU는 FP32(32-bit 부동 소수점) 연산에 최적화 된 파이프 라인을 갖추고 있다. 그러나 Vega는 32-bit 파이프에서 16-bit 부동 소수점 연산을 2병렬 SIMD(Single Instruction, Multiple Data)형식으로 행하여 FP16시 FP32의 2배 성능을 낼 수 있다.


이는 머신 러닝 학습 페이즈에서 데이터 밀도를 낮춘 FP16 이용이 진행되고 있는 상황에 대응한 것이다. 현재의 GPU 컴퓨트는 기계 학습 때문에 저 정도의 서포트 경쟁이 되고 있으며 NVIDIA도 Pascal(파스칼)에서는 FP16에 대응하고 있다.


AMD는 머신 러닝 시장에서 이 3개 제품이 나뉜다고 설명한다. 인식을 하는 추론 페이즈 전용은 Polaris의 MI6에서 MI8도 추론 페이즈를 위해 자리 매김된다. 반면 MI25는 학습 페이즈와 대형 추론용이라고 AMD는 설명한다. 데이터 센터에서 학습과 대형 스케일의 추론에 쓰이는 것은 MI25다.


23_s.png


오픈 전략을 추진하는 AMD

AMD의 Radeon Instinct GPU 컴퓨트 전략의 열쇠는 오픈화다.


"Radeon Instinct는 단순한 제품이 아니라 완전히 새로운 이니셔티브다. 기존 컴퓨트 인프라 스트럭처는 호모지니어스(Homogeneous) 프로세서에 전용화 된 엑셀러레이터, 인터커넥트, 엑셀러레이터 소프트웨어가 남는 세계였다. 그러나 차세대 컴퓨팅 인프라에서는 헤테로지니어스(Heterogeneous:이종 혼합) 프로세서로 오픈 소스 소프트웨어 계층, 개방적인 인터커넥트와 액셀러레이터가 된다".


AMD의 Raja Koduri(라자 코두리, Senior Vice President and Chief Architect, Radeon Technologies Group, AMD)는 Radeon Instinct에서 이렇게 말한다. 오픈화와 확장성이 열쇠가 될 것이라 보는 것이 AMD의 사상이다.


24_s.png
25_s.png


AMD는 우선 딥 러닝과 하드웨어 가상화에 의한 멀티 유저 GPU(Multiuser GPU:MxGPU)는 궁합이 좋다고 설명한다. GPU를 여러 클라이언트에서 원활히 공유할 수 있으며 하드웨어 콘텍스트 스위칭 베이스의 멀티 유저 GPU를 AMD GPU는 서포트하고 있다. 이 기능을 통하여 복수의 추론 인스턴스를 가상 GPU 상에서 PCI 디바이스의 가상화 "Single Root I/O Virtualization(SR-IOV)"에 의해 효율적으로 실현된다.


멀티 GPU에서는 ROCm 소프트웨어 인프라에서 "Remote Direct Memory Access(RDMA)"에 의한 멀티 GPU간 의사 소통이 가능하고 "Coarse-Grain Shared Virtual Memory"도 지원한다.


또한, AMD는 프로세서간 간섭성 인터커넥트의 표준 규격화에도 참여하고 있다. 현재 "OpenCAPI" "CCIX(Cache Coherent Interconnect for Accelerators)" "Gen-Z"의 3개 컨소시엄이 있는데 AMD는 모두 참여하고 있다.


26_s.png
27_s.png
28_s.png


서버 벤더도 Radeon Instinct 서버 제품을 준비한다. 모두 Radeon Instinct MI25 베이스의 시스템이다. MI25가 16유닛 시스템에서 400TFLOPS, 4유닛 시스템에서 100TFLOPS이다. 서두에 말했듯이 MI25가 25TFLOPS 정도로 예정된 것으로 나타났다. 최대 규모의 MI25 120 유닛의 시스템은 무려 총 3PFLOPS다. 단 모두 FP16의 값이다.


29_s.png
30_s.png
31_s.png
32_s.png


AMD는 내년(2017년), 새로운 CPU Zen과 새로운 GPU 베가, 2개의 대형 아키텍처 투입을 앞두고 있다. Zen 투입후 Zen+Vega의 조합의 Radeon Instinct 플랫폼을 앞세울 것이라 보인다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1034800.html

반응형
Posted by 랩터 인터내셔널