'amd 베가'에 해당되는 글 3건

  1. 2017.05.13 HBM2 탑재 AMD 베가, 20000대 미만 출시 가능성? by 랩터 인터내셔널
  2. 2017.01.06 AMD 베가 GPU 아키텍처 개요 (HBM2, NCU, 캐시등) by 랩터 인터내셔널
  3. 2016.03.16 AMD 베가, 나비 등 향후 3세대 GPU 로드맵 발표 by 랩터 인터내셔널

TweakTown(http://www.tweaktown.com)에 따르면, AMD는 HBM2의 낮은 수율로 인해 차세대 베가(Vega) GPU는 어려움을 겪고 20000대 미만이 선적 될 가능성이 있다고 언급했다. HBM2 메모리는 현행의 GDDR5 대비 압도적인 대역을 자랑하지만 단가 도한 높고, 수율 문제 해결이 쉽지 않은 것으로 전해지고 있다.


또한 TweakTown에서 공개한 자료에 의하면 HBM2를 탑재한 베가의 프로토타입 제품 중 하나의 성능은 지포스 1070과 큰 차이가 없어 실망적인 것으로 예상되고 있으나 정확한 정보는 추후 밝혀질 것으로 보인다.




반응형
Posted by 랩터 인터내셔널
03_s.jpg


6년만에 아키텍처가 쇄신 된 베가

AMD의 차세대 GPU 아키텍처 "Vega(베가)"의 개요를 밝힌다. Vega는 AMD의 FinFET 세대의 플래그십 GPU다. 큰 특징은 GPU 마이크로 아키텍처를 쇄신하고 하이 퍼포먼스 하이엔드 GPU에 도입되는 것이다.


AMD는 서던 아일랜드(Southern Islands) 패밀리의 "Radeon HD 7900(Tahiti)"에서 "GCN(Graphics Core Next)"을 도입한 이후 GPU의 컴퓨트 유닛"CU(Compute Unit)"의 메이저 업그레이드는 진행하지 않았다. 베이스 아키텍처는 GCN 상태에서 상대적으로 마이너적인 확장을 가해 왔다. 그러나 이번 Vega는 마이크로 아키텍처를 일신해 CU 뿐 아니라 세이더의 제어 및 메모리 계층까지 모두 크게 변혁한다. AMD에게는 6년만의 GPU 아키텍처의 대변혁이다.


AMD는 FinFET 3D 트랜지스터 프로세스는 지난해(2016년) 퍼포먼스 GPU "Polaris"에 도입했다. 그러나 Polaris의 하이엔드 GPU는 공석이었으며 Vega 세대 "Vega 10"은 AMD에게 2년 만의 하이엔드 GPU다.


Vega 아키텍처는 그래픽스, 컴퓨트, 메모리 용량과 모든 면에서 퍼포먼스를 비약시킨다. 컴퓨트에서는 딥 러닝 대응과 FinFET 프로세스를 활용한 마이크로 아키텍처로의 전환. 딥 러닝용 데이터 밀도 도입과 GPU의 동작 클럭을 대폭 올린 아키텍처를 향했다.


그래픽에서는 지오 메트리 파이프 라인의 제어를 바꿨다. 새로운 Primitive Shader를 도입, 지오 메트리 처리량을 2배로 끌어올린다. 또 래스터라이저도 일신하고 설계 가능한 메소드를 도입했다. 이어 온 칩 메모리 계층에서는 백엔드도 L2로 캐시하도록 했다.


메모리 계층은 GPU에서 처음으로 비휘발성 메모리의 도입을 전제로 한 메모리 제어를 도입한다. 이는 가까운 장래에 약진할 것이라 기대되는 새로운 비휘발성 메모리 기술을 감안한 대응이다. 이 메모리 아키텍처는 AMD가 엑사플롭 슈퍼 컴퓨터의 메모리 모델로서 제안하고 있는 것과 같다. 또한 데이터 이동의 최적화를 함으로써 데이터의 쓸데없는 트래픽도 없앤다.


AMD의 Vega는 이처럼 그래픽 뿐만 아니라 컴퓨트와 비주얼 라이제이션까지 퍼포먼스를 강화한 새로운 아키텍처다.



마이크로 아키텍처가 바뀐 컴퓨트 유닛

Vega의 CU(Compute Unit)는 "Next-Generation Compute Unit(NCU)"로 내부 마이크로 아키텍처가 일신된다. 아직 자세한 것은 밝혀지지 않았지만 핵심 차이는 밝혀졌다.


현재의 CU에서는 32-bit의 주산 16유닛으로 1개의 벡터 유닛을 구성하고 있다. 1개의 CU에는 4개의 벡터 유닛이 있어 합계 64의 32-bit 유닛을 갖춘다. 각 유닛이 평균 1클럭에 2작업 처리량이기 때문에 CU는 32-bit, 작업은 클럭당 128이 된다.


AMD GPU는 64스레드 배치인 Wavefront 단위로 처리 한다. 각 벡터 유닛은 16유닛으로 4사이클까지 Wavefront를 처리하는 구조다.


NCU에서는 새로운 저 데이터 밀도의 SIMD(Single Instruction, Multiple Data) 연산이 도입된다. 구체적으로는 2-way의 16-bit SIMD 연산과 4-way의 8-bit SIMD 연산이 가세한다. 이는 저 데이터 정밀도가 요구되는 머신 러닝 애플리케이션에 맞춘 확장이다.


AMD도 다른 GPU 제조 업체 같이 연산 유닛의 기본 데이터 밀도는 32-bit다. 그러나 딥 러닝에서는 성능을 올리기 위해 보다 정밀도가 낮은 16-bit와 8-bit가 사용되고 있다. AMD는 그러한 트렌드에 대응해 연산 유닛을 대폭 개편했다.



23_s.jpg
24_s.jpg
25_s.jpg


16-bit시 처리량은 32-bit시 2배, 8-bit시에는 처리량은 4배나 많다. AMD는 이미 Vega10 기반 GPU 컴퓨트용 "Radeon Instinct MI25"에서 하나의 카드로 16-bit 부동 소수점 연산에서 25TFLOPS를 달성하겠다고 밝혔다. NVIDIA의 Pascal(파스칼) 기준 "Tesla P100(GP100)"의 21TFLOPS(FP16)를 넘는다. 8-bit 운영은 더 배가되는 성능의 계산이다.


팩크드형 16-bit와 8-bit 연산 도입

AMD의 현재 아키텍처에서는 32-bit시 예측에 의해 조건 분기에 대응하고 있다. 단 벡터 유닛 속의 32-bit 각 레인은 같은 명령을 실행하는데 각각이 마스크 레지스터로 분기 패스만 실행되어 개별적으로 컨트롤 흐름이 제어된다. 그래서 32-bit시에는 외관상 독립된 스레드로 각 레인이 동작한다.


반면 이번에 도입된 16-bit와 8-bit의 연산은 팩크드(packed)형, 즉 SIMD다. 32-bit의 1레인에서 16-bit시에는 2데이터가, 8-bit시에는 4데이터가 포장되고 같은 명령을 실행한다. 16-bit와 8-bit는 각각 다른 분기 패스를 실행할 수 없다. 그러나 딥 러닝 용도의 경우 팩크드로 대응할 수 있기 때문에 연산 성능이 향상하는 만큼 성능이 올라간다.


GPU에 대한 팩크드 포맷의 저 데이터 밀도 연산의 도입은 딥 러닝 시대에 들어 트렌드다. NVIDIA도 대응을 추진하고 있고 Imagination Technologies의 PowerVR 등도 대응하고 있다.



02_s.jpg


Vega NCU의 또 한가지 중요한 특징은 고클럭화다. AMD는 클럭을 높이기 위해 파이프 라인을 변경했다고 본다. 파이프 라인 단수가 2배가 되면 원리적으로는 GPU 코어의 동작 주파수를 두배 가까이 올릴 수 있게 된다. 이것도 FinFET 프로세스 시대에 들어선 GPU 코어의 트렌드가 되고 있다.


26_s.jpg



FinFET에서는 리크 전류(Leakage)가 크게 떨어지면서 동작 주파수의 액티브 전력도 낮출 수 있다. 그래서 파이프 라인의 세분화에 의한 고클럭화를 행하는 것이 가능하게 된다. 전력 하락분을 고클럭화로 돌리는 것이다.


파이프 라인 단수를 늘리면 파이프 라인 중인 데이터를 유지하는 래치 회로가 늘어난다. 래치는 논리 회로 중의 큰 전력 소비원이기 때문에 누설 전류(Leakage)가 많은 프로세스에서는 파이프 라인 단수를 늘리기 어려웠다. 그러나 Vega는 저 누설 전류(Leakage)의 14nm FinFET 프로세스로 제조되기 때문에 파이프 라인 단수를 늘릴 수 있다.



폭발하는 데이터양에 대응하기 위한 메모리 계층

GPU는 현재 취급하는 데이터 양의 폭발적인 증대에 직면하고 있다. 게임 설치 크기는 격증했고 영화 제작 등 전문 그래픽 데이터 양도 급격히 대형화되고 빅 데이터 분석과 머신 러닝에 의해 컴퓨트의 데이터량은 천문학적인 숫자로 불어나고 있다.


문제는 GPU의 메모리 용량이 그러한 데이터량의 증대 및 GPU 연산 성능의 증대에 걸맞게 늘지 않는다는 것이다. 거기서 Vega는 새로운 메모리 계층의 어프로치를 도입한다. GPU 메모리를 광대역 캐시로 취급하고 GPU 외부의 메모리를 빠짐없이 다룰 수 있도록 한다.


구체적으로는 Vega는 스택 DRAM "HBM2"를 GPU 메모리로 도입한다. Vega10에서는 2스택이다. 그러나 GPU 패키지 인터포즈 위에 올라간 HBM2 만 아니라 오프 패키지의 메모리도 GPU가 다루도록 한다. HBM2는 마치 캐시처럼 다루는, 하드웨어 제어에서 태그 RAM을 갖춘 캐시가 아니라 메모리 제어로서 워킹 메모리로 다루는 이미지다.


비휘발성 메모리(NVRAM)를 포함한 메모리를 GPU가 직접 챙기면서 혹은 직접 다루고 있는 것 같이 할 수 있는 구조를 준비한다. GPU의 DRAM 용량을 그냥 늘리는 것이 아니라 어드레싱할 수 있는 메모리를 다양화하는 것으로 대용량화되는 데이터에 대응한다. 그래서 Vega10에서는 512TB까지 가상 주소 공간을 지원한다. 그리고 계층화된 메모리 간에 효율적으로 메모리를 얼로케이트함으로써 고성능으로 저전력 메모리를 실현한다.


14_s.jpg
15_s.jpg
16_s.jpg


새로운 세이더 스테이지와 래스터 라이저, 캐시 계층의 개량

지오 메트리 파이프 라인은 버텍스 세이더(Vertex Shader)와 함께 지오 메트리 세이더(Geometry Shader)을 거친다. Vega는 새로운 지오 메트리 경로로 Primitive Shader를 도입한다. Primitive 단위로 취급함으로써 피크 처리량을 높인다. 또 렌더링 파이프 라인 전체 워크 로드의 제어도 지능화된다.


AMD 아키텍쳐는 렌더링 백엔드와 텍스처 액세스는 일관되지 않는다. 그래서 렌더링 투 텍스처에 텍스처를 쓰는 경우에는 GPU 내부 캐시 계층을 쓰지 못했다. Vega는 렌더링 백엔드도 L2 캐시로 캐싱 되며 L2에서 캐시 하는 텍스쳐와 일관되며 지오 메트리에서 픽셀에 대한 래스터 라이즈도 스마트화됐다. 이는 VR(Virtual Reality) 같은 두가지 관점의 어플리케이션으로 효과를 발휘할 것으로 보인다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1037849.html

반응형
Posted by 랩터 인터내셔널

4.jpg


AMD 미국 샌프란시스코 행사

AMD는 올해(2016년) 투입하는 차세대 GPU 아키텍처 "Polaris(폴라리스)"의 플래그십 GPU "Polaris 10"과 "Polaris 11"의 실제 칩 시연을 공개했다. 또 Polaris에 이어"Vega(베가)"와 "Navi(나비)"까지 로드맵을 밝혔다. 또 Fiji(피지)를 2칩 장착한 16TFLOPS의 하이엔드 제품 "라데온 프로 듀오를 발표했다. AMD APU를 탑재한 획기적인 올인원 VR(Virtual Reality)/AR(Augmented Reality)헤드셋"Sulon Q"도 소개했다.

 

AMD는 "CAPSAICIN"이란 컨퍼런스를 미국 샌프란시스코에서 개최했다. 새로운 GPU 로드맵과 함께 폴라리스 시연과 파트너들의 VR 콘텐츠 등 다채로운 내용을 소개했다. 회의에는 라데온 제품 그룹 총괄 Raja Koduri(라자 코두리)(Senior Vice President and Chief Architect, Radeon Technologies Group, AMD)뿐 만 아니라 AMD를 이끄는 Lisa Su(리사수)(President and CEO, AMD)도 등단했다. 또 회장에는 기술 면의 톱인 Mark Papermaster(마크 페이퍼마스터)(Senior Vice President and Chief Technology Officer, AMD)도 등단해 올 스타 멤버로서 이번 발표에 AMD가 힘을 쏟고 있음을 나타냈다.


5.jpg


7.jpg

 


별 시리즈가 된 AMD GPU 아키텍처 코드 네임

AMD GPU는 드디어 FinFET 3D 트랜지스터 세대에 돌입한다. 4년 이상 지속된 28nm프로세스에서 벗어나 전력당 성능을 크게 향상시킨다. FinFET의 첫 세대가 되는 폴라리스 패밀리는 올해(2016년)등장한다. 폴라리스는 28nm세대의 GPU에 대한 성능/전력이 2.5배로 높아진다는. 이는 FinFET에서 트랜지스터가 입체 구조로 되어 채널이 바디에서 거의 분리되며, 게이트 면적이 늘어남으로써 누설 전류(Leakage)의 억제가 쉽게 되기 때문이다. 성능/전력은 어떤 제품을 비교하느냐에 의해서 바뀌므로 2.5배라는 숫자는 최대 2.5배로 생각하는 게 좋을 것이다. 그래도 극적으로 전력 효율이 올라가는 것은 틀림 없다. 또한 AMD는 글로벌 파운드리의 14nm LPP 프로세스를 채용할 것으로 보인다.


AMD, GPU 아키텍처의 코드 네임은 향후 세대는 별 이름이다. FinFET의 첫세대의 Polaris(북극성)이 천구의 지침이 되는 별임은 향후 방향성을 나타내는 것을 암시하는 것으로 보인다. 2세대 베가(거문고 자리 α)는 밝게 빛나고 1등성으로 보다 성능이 올라가는 것과 관계될 것으로 보인다. 참고로, 3세대 나비(카시오페아 자리 γ)는 변칙적인 변광성으로 신비적인 거성이다. 나비라는 이름은 비운의 우주 비행사 가스 그리송(아폴로 1호 사고로 사망)의 이름을 지었다.


10.jpg



 

 

HBM2와 확장형 인터커넥트 시기가 분명히

이번에 폴라리스 세대는 메모리가 HBM2가 아니라 HBM1세대에 있는 것으로 드러났다. HBM2 메모리로 변하는 것은 폴라리스에 이은 베가다. AMD 차트는 폴라리스와 베가 발매 시기가 근접하고 있다. 이는 이 2개의 GPU 아키텍처가 비교적 근사한 것으로 추측된다. GPU마이크로 아키텍처적으로 베가는 폴라리스의 발전형으로 메모리 대역이 최대 2배로 오를 것으로 예상된다.

 

HBM2가 되면 메모리의 핀에 전송 속도가 2배가 될 뿐 만 아니라 메모리 채널의 효율이 크게 높아진다. 또 DRAM 다이의 용량이 2G-bit에서 8G-bit로 오르기 때문에 메모리 용량도 대폭 늘어난다. 현재의 HBM1 채용 GPU 피지는 4스택 구성으로 메모리 용량이 4GB지만 HBM2가 되면 메모리 용량은 최대 32GB로 8배가 늘어난다. 그래서 서버 시장에서도 매력적이다.


나비는 "Scalability(확장성)"과 "Nexgen Memory(차세대 메모리)" 2개가 타이틀이다. 확장성에 대해서는 Raja Koduri가 지난해(2015년)개요를 밝히고 있다. 그에 따르면 확장성은 멀티 GPU를 효율적으로 동작시키기 위한 플랫폼으로 GPU에 최적화한 초 광대역 인터커넥트를 도입한다. 새 인터커넥트로 GPU 뿐 만 아니라 CPU와 FPGA등도 접속할 수 있다. 또 메모리코히렌시도 이뤄질 전망이다. 작년의 단계에서 그는 도입 시기를 밝히지 않았지만 이번에 나비 세대에서 도입될 것으로 밝혀졌다. 차세대 메모리에 대해서는 현 시점에서 아직 밝혀지지 않았지만 새 메모리로는 HBM의 확장 규격, GDDR5의 후계 규격 등이 현재 거론되고 있다.


나비의 제조 공정 기술에 대해서는 로드맵상 10nm프로세스도 이용할 수 있지만 최근에는 새 프로세스를 GPU에 적용하는 것은 늦어지기 때문에 정확하지 않다.


12.jpg


 

 

올인원의 VR/AR기기가 실현

AMD는 이번 CAPSAICIN 컨퍼런스에서 GPU의 향후 적용 분야로서 VR/AR분야를 특히 중시하고 있음을 거듭 강조했다. 그런 노선의 최신 제품으로 AMD가 소개한 것은 "Sulon Q"다. 캐나다의 스타트 업 Sulon Technologies가 개발하는 Sulon Q는 얼핏 다른 VR 헤드셋처럼 보이지만 실태는 헤드셋 내에 컴퓨터를 내장한 PC가 불필요한 올인원 VR/AR기기다.

 

내장하는 것은 Carrizo(카리조)APU(Accelerated Processing Unit)기반의 "AMD FX-8800P"에 윈도우10이 운영되는 모바일 컴퓨터다. 256GB SSD에 8GB DRAM을 내장하고 디스플레이는 2560×1440의 유기 LED, 카메라도 내장하며 카메라의 화상을 끌어들임으로써 AR기기가 된다. 그것도 기존의 AR처럼 카메라 영상에 단지 오버랩하는 것이 아니라 넣은 화상에서 "공간 처리(Spatial Processing)"를 한다. "Spatial Processing Unit" 이라고 부르는 유닛을 탑재하고 있으며 실시간으로 현실 세계를 3D 매핑하고 CG와 합성한다.


AMD의 컨퍼런스에서는 Sulon의 CEO인 Dhan Balachand가 등단해 Sulon Q를 사용한 AR시연을 보였다. 시연에서는 Sulon 사무실에 AR에서 서로 겹쳐지는 마법서가 등장했다. 마법서에서 뿌려진 씨앗이 사무실의 지붕을 뚫고 덩굴을 편다. 그 지붕의 틈에서 거인이 들여다보면 Sulon Q의 유저를 잡아 올린다.


AMD GPU는 FinFET 세대의 폴라리스 이후는 저전압시 특성이 크게 높아진다. 그 때문에 이러한 올인원 VR/AR기기는 더 만들기 쉽다.


19.jpg


 

 

듀얼 GPU 솔루션의 최고봉 Radeon Pro DUO가 등장

AMD는 이번에 피지를 2칩 장착한 라데온 프로 듀오(Radeon Pro Duo)를 발표했다. Fiji는 HBM 메모리이므로 메모리 자체는 온 패키지로 듀얼 칩보드에서도 실장 면적은 그 만큼 크지 않다. 이러한 듀얼 GPU 솔루션도 확장형 인터커넥트를 갖춘 나비 이후에는 크게 바뀐다. GPU 들을 광대역 인터커넥트로 직결하는 것이 가능하고 확장성 면에서 크게 진화한다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20160316_748463.html

랩터 인터내셔널 - http://raptor-hw.net

반응형
Posted by 랩터 인터내셔널