'HBM2'에 해당되는 글 11건

  1. 2019.02.08 AMD 라데온7 16GB 성능 벤치마크 (Radeon VII) by 랩터 인터내셔널
  2. 2018.04.01 HBM 메모리 시장 현황) 인텔 등이 이끄는 차세대 HBM3 by 랩터 인터내셔널
  3. 2017.12.08 엔비디아 타이탄V 발표, 볼타 아키텍처+HBM2 탑재 by 랩터 인터내셔널
  4. 2017.08.15 AMD 라데온RX 베가 56 & 64 성능 확인 by 랩터 인터내셔널
  5. 2017.07.01 AMD 라데온 베가 프론티어 에디션 16GB 성능 공개 by 랩터 인터내셔널
  6. 2017.04.16 인텔 카비레이크G 연내투입 - HBM2, AMD GPU 통합 by 랩터 인터내셔널
  7. 2017.01.06 AMD 베가 GPU 아키텍처 개요 (HBM2, NCU, 캐시등) by 랩터 인터내셔널
  8. 2016.06.21 엔비디아 파스칼 기반 테슬라 P100 발표, HBM2 탑재 by 랩터 인터내셔널
  9. 2016.04.22 DRAM 다이당 대역폭을 4배로 끌어올린 HBM2 by 랩터 인터내셔널
  10. 2016.03.16 AMD 베가, 나비 등 향후 3세대 GPU 로드맵 발표 by 랩터 인터내셔널

 

 

AMD의 신형 라데온7이 마침내 발매 되었습니다.


 

 


라데온7은 GPU 측면으로 종합 16GB HBM2 메모리가 장착되어 있습니다.


aHR0cDovL21lZGlhLmJlc3RvZm1pY3JvLmNvbS9D

라데온7의 GPGPU 연산 성능은 FP16과 FP32 모두 RTX 2080보다 떨어지며 FP64는 앞섭니다.


aHR0cDovL21lZGlhLmJlc3RvZm1pY3JvLmNvbS9T


라데온7의 아키텍처 다이어그램 입니다.


T1.jpg


라데온7의 GPU 아키텍처는 베가20 입니다. 세이더는 3840 유닛, 텍스처 240 유닛, 베이스 클럭 1400, 부스트 클럭 1750, 4096비트 16GB HBM2를 장착하고 있습니다. 또한 ROP는 64 유닛, L2캐시는 4MB, 트랜지스터는 13.2B, 다이사이즈는 331mm2이며 TDP는 300와트 입니다. 추가적인 텐서 코어와 RT 코어 또한 없습니다.



 




카드 구성입니다.


Ashes of the Singularity - FPS - 2560x1440, DX12, 4x MSAA Crazy


Battlefield V - FPS - 2560x1440, DX12 Ultra


Destiny 2 - FPS - 2560x1440, DX11, SMAA Highest


Far Cry 5 - FPS - 2560x1440, DX11 Ultra



Grand Theft Auto V - FPS - 2560x1440, DX11, 4x MSAA Very High


Metro  Last Light - FPS - 2560x1440, DX11, SSAA Very High


Rise of the Tomb Raider - FPS - 2560x1440, DX12, SSAA Very High


Tom Clancy\'s The Division - FPS - 2560x1440, DX12 Ultra


Tom Clancy\'s Ghost Recon - FPS - 2560x1440, DX11 Very High


The Witcher 3 - FPS - 2560x1440, DX11 Ultra


Wolfenstein II  The New Colossus - FPS - 2560x1440, Vulkan Ãber, TSSAA (8TX)


Ashes of the Singularity - FPS - 3840x2160, DX12 Extreme


Battlefield V - FPS - 3840x2160, DX12 Ultra


Destiny 2 - FPS - 3840x2160, DX11 Highest


Far Cry 5 - FPS - 3840x2160, DX11 Ultra


Grand Theft Auto V - FPS - 3840x2160, DX11 Very High

Metro  Last Light - FPS - 3840x2160, DX11 Very High


Rise of the Tomb Raider - FPS - 3840x2160, DX12 Very High


Tom Clancy\'s The Division - FPS - 3840x2160, DX12 Ultra


Tom Clancy\'s Ghost Recon - FPS - 3840x2160, DX11 Very High


The Witcher 3 - FPS - 3840x2160, DX11 Ultra


Wolfenstein II  The New Colossus - FPS - 3840x2160, Vulkan Ultra, TSSAA (8TX)


aHR0cDovL21lZGlhLmJlc3RvZm1pY3JvLmNvbS9S


aHR0cDovL21lZGlhLmJlc3RvZm1pY3JvLmNvbS9S



y side.


AMD Radeon VII

Nvidia GeForce RTX 2080 FE

Maximum Fan Speed, Open Test Bench

2,927 RPM (Gaming workload)

1,907 RPM (Gaming workload)

Average Fan Speed, Open Test Bench

2,911 RPM (Warmed up)

1,887 RPM  (Warmed up)

Maximum Fan Speed, Closed Case

2,949 RPM (Gaming workload)

1,959 RPM (Gaming workload)

Average Fan Speed, Closed Case

2,927 RPM (Warmed up)

1,942 RPM (Warmed up)

Peak Noise Measurements (Gaming workload) 

49.2 dB(A), Closed case

39.6 dB(A), Closed case

Idle Noise Measurements

32.1 dB(A)

31.3 dB(A)


출처 - https://www.tomshardware.com

 

반응형
Posted by 랩터 인터내셔널

광대역 및 대용량으로 흔든 제 2세대 HBM2

HBM2는 DRAM 자체가 고가에 기본 논리 다이도 필요하고 실장에 있어서는 CPU-GPU 사이의 배선에 인터포징이 필요하다. 그래서 칩 벤더에게 고비용 솔루션이 되고 있으며 결과적으로 채용할 수 있는 것은 고가 제품에만 한정되어 버렸다. NVIDIA를 예로 들면 HBM2는 하이엔드 컴퓨팅을 위한 GPU에 채용하며 그래픽용으로 설계한 GPU의 대부분에는 GDDR 시스템 메모리를 채용하고 있다.


그러나 고비용에도 불구하고 HBM2는 수요가 점점 확대되고 있다. 그것은 딥-러닝(심층 학습)의 융성으로 GPU 등 액셀러레이터 류의 수요가 서버 측에서 높아졌기 때문이다. 결과적으로 서버용 GPU와 고성능 컴퓨팅(HPC)용 액셀러레이터/FPGA가 채용한 HBM2 메모리의 수요도 점점 확대됐다.


현재 HBM2는 DRAM 벤더에게 높은 가격에도 팔리는 고마운 상품이 됐다. 그리고 그 수요는 하이엔드 활용에 집중됐다. HBM2에 대한 현재의 시장 요구는 더 광대역, 그리고 더 큰 용량이다. 뉴럴 네트워크 베이스의 딥 러닝과 IoT(The Internet of Things) 등으로 가속되는 빅 데이터라는 요소가 있고, 메모리 대역으로 메모리 용량에 대한 압박은 갈수록 심화되고 있다.


스택 DRAM의 니어 메모리는 1TB/s를 넘은 메모리 대역이 요구되고 있으며 메모리 용량도 가능하면 32GB가 달리는 흐름이다. SK hynix가 이번에 발표한 제 2세대 HBM2는 바로 그러한 수요에 부응한 아키텍처다. 데이터 전송 속도는 2.66Gbps까지 오르며 하이엔드 GPU(HBM2가 4스택) 메모리 대역은 1.36TB/s. 그리고 아마도 1TB/s 급 메모리 대역으로 32GB의 메모리 용량을 양립시킬 수 있다.



14_l.jpg
15_l.jpg
16_l.jpg
17_l.jpg


삼성도 제 2세대 HBM2 메모리 AquaBolt 발표

사실은 HBM2를 공급하는 또 하나인 삼성도 SK hynix와 마찬가지로 제 2세대 HBM2를 발표하고 있다. 이쪽은 아직 학계에서도 자세한 기술 발표는 없지만 "AquaBolt(아쿠아 볼트)"라는 코드네임으로 1월 공식 발표되고 있다. Samsung의 AquaBolt HBM2는 제품으로서 데이터 전송 속도를 2.4Gbps로 끌어올린다. 1스택당 메모리 대역은 307GB/s, 4개의 스택을 사용하는 하이엔드 GPU에서는 1.23TB/s의 메모리 대역이다.


Samsung은 제 1세대 HBM2 "Flarebolt(플레어 볼트)"에서 보통 1.2V 구동에서는 1.6Gbps의 전송 속도로 제품화, 2Gbps는 1.35V 구동이라고 했다. 2016년 ISSCC에서 발표시("A 1.2V 20nm 307GB/s HBM DRAM with At-Speed Wafer-Level I/O Test Scheme and Adoptive Refresh Considering Temperature Distribution"K. Sohn, et al., ISSCC)은 2.4Gbps까지 가능했지만 제품이 어려웠다고 본다.


그러나 제 2세대 AquaBolt에서는 1.2V로 2.4Gbps를 달성할 수 있다는 것. Samsung의 제 2세대 HBM2의 목적도 SK hynix의 그것과 같은 선상에 있다. 그래서 Samsung의 AquaBolt HBM2도 4Hi/8Hi에 최적화 될 가능성이 있다.



1_l.jpg



흐지부지 된 소비자용 HBM

이러한 HBM2의 방향 전환은 실은 HBM2 세대에서만 머무르지 않는다. 향후의 스택도 DRAM 메모리 전체의 방향에 영향을 주고 있다. 구체적으로는 HBM 3세대 HBM도 어느 정도 비슷한 양상을 보이고 있다.


포스트 HBM2 에서는 당초 더 광대역화 된 규격과 가전 시장에 저비용으로 조명하는 규격의 2개 플랜이 나타나고 있었다. 후자의 가전용 HBM에서는 비용을 크게 낮추고, 비용이 문제가 되는 소비자 시장으로 침투할 계획이었다.


구체적으로는 염가 HBM은 인터페이스 버전을 HBM/HBM2의 절반인 512-bit으로 줄인다. I/O을 좁히고 다이 간 TSV도 줄인다. 또 HBM/HBM2 에서는 DRAM 다이군 아래에 베이스 로직 다이가 있지만 이것도 불 필요하게 한다. DRAM 다이 사이에 마스터/슬레이브 구성을 취하고, 현재의 HBM2 8GB 용량에 1GB의 ECC를 탑재하고 있지만 이것도 취소한다. HBM/HBM2)에서는 비싼 실리콘 인터포저를 필요로 하지만 가전용 HBM에서는 저비용 인터포저 등으로 가능하게 한다는 제안이었다.



2_l.jpg
3_l.jpg



그러나 이쪽의 가전 제품용 HBM 계획은 최소되어 현재는 검토되지 않는다. 한 JEDEC(반도체 표준화 단체) 관계자는 "DRAM 벤더는 규격의 분열을 싫어한다. 가전용으로 다른 하나의 DRAM을 만드는 것은 벤더 측에게 어렵다. 그래서 하나의 규격으로 통일하게 됐다" 고 밝힌다.


그러나 다른 업계 관계자는 배경에는 고객 측의 사정도 있다고 설명한다. "사실 가전용 HBM은 게임기로 채용을 상정하고 있었다. 막대한 대수의 게임기에 채용되면 시장이 쉽게 일어서기 때문이다. 하지만 게임기 벤더 측이 가전용 HBM의 채용을 꺼렸다. 그래서 규격 자체가 흐지부지됐다"


만약 가전용 HBM이 "PLAYSTATION 5(PS5)" 같은 차세대 게임기에 채용된다고 하면 제품화는 순조롭게 된다. 수천만 모듈의 HBM 수요가 한꺼번에 태어나기 때문이다. 반대로 말하면 그 만큼의 시장이 확실해지지 않으면 가전용 HBM은 만들기 어려운 상황이라는 것을 알 수 있다. 즉, 가전 시장에서 광대역 메모리 수요가 보이고 시장이 어느 정도 일어서지 않으면 메모리는 높은 가격으로 띈다. 하면 더욱 시장이 성장하기 어려워진다는 부정적인 악순환에 빠지게 되기 때문에 그것을 타파할 만한 고객을 확보하지 못하면 가전용 HBM은 어려울 것으로 보인다.



인텔 등이 이끄는 차세대 HBM

DRAM 벤더 측에게는 현재 HBM2는 고가에서도 잘 팔리고 있기 때문에 굳이 가전용 HBM에 주력할 필요가 적다는 사정도 있다. 딥 러닝(기계 학습)과 빅 데이터에 의한 하이엔드 시장에서 광대역 메모리의 수요 확대가 HBM2 수요를 견인하고 있다. 하이엔드 GPU 같은 고성능 엑셀러레이터에서는 HBM을 사용하는 것이 당연하게 되고 있다.


HBM계 DRAM은 원래 넓은 시장으로 침투하고 비용도 가격도 싸질 것으로 예상되고 있었다. 그러나 예상보다 고비용이기 때문에 침투는 한정되어 있었다. 그래서 시장이 좁아 고전한다고 여겨졌던 것이 초 광대역 메모리를 필요로 하는 시장 자체가 급격히 확대됐기 때문에 HBM2 메모리도 예상보다 급 성장하게 됐다. 


무엇보다 HBM3에 해당하는 차세대 HBM에서는 어느 정도 범위의 시장을 커버하는 것은 검토되고 있다. 초대 HBM은 사실상 AMD와 SK hynix에서 시작한 규격이다. 그러나 HBM2에서는 고객 측에서 이끄는 기업들이 엔비디아와 인텔로 바뀌었다. 그리고 차세대 HBM에서도 여전히 인텔이 점차 이끌고 있는 것으로 보인다. 인텔은 HBM2는 매우 열심히고, 자사 플랫폼에서 HBM2를 사용하기 위해 AMD GPU를 채용한 "Kaby Lake-G"를 개발했을 정도다.



18_l.jpg



현재는 HBM3도 인텔이 줄줄이 요구 사양을 내걸고 DRAM 벤더 측이 그 사양에 응해 검토하겠다고 하는 흐름으로 나타나고 있다. 인텔은 최종적으로 PC에도 HBM 시스템 메모리를 채용하려 한다. 인텔은 자사 개발의 eDRAM 칩을 광대역 버퍼로 올린 CPU를 만들고 있다. 이 eDRAM을 HBM으로 바꾸는 것이 인텔의 목적 중 하나닫. 물론 하이엔드 액셀러레이터에서도 HBM의 채용을 확대할 것이라고 보인다.


인텔은 그 때문에 PC에서 HPC까지 범위를 위한 사양을 요구하고 있다고 추측된다. 그 중에는 사양대로 만들면 제조 비용적으로 어려워질 것과 기술적으로 고난도의 것도 포함된다고 한다. 그 때문에 차세대 HBM 사는 아직 흔들리고 있다.



HBM2의 저비용화에서 인텔이 선두를 달려

광대역으로 가는 스택 DRAM, 그러면 저비용화는 어떻게 할 것인가. 이에 대해서는 복수의 솔루션이 나타나고 있다. 현재 HBM2에 대해서는 우선 비용이 높은 실리콘 인터포저보다 저비용 기술로 대체하는 수단이 개발되고 있다.


인텔은 8세대 Intel Core Processors with Radeon RX Vega M Graphic과 상표로 설정한 Kaby Lake-G에서 자체 개발한 패키지 기술 "Embedded Multi-die Interconnect Bridge(EMIB)"를 채용했다. 비용이 높은 실리콘 인터포저를 쓰지 않고 HBM2 메모리 접속을 가능하게 하는 2.5D통합 기술이다.



19_l.jpg



또 삼성은 지난해(2017년)의 Arm 기술 콘퍼런스 "ARM Techcon"에서 실리콘 이외의 재료 "Redistribution Layer(RDL)"에 의해 HBM 메모리를 서포트하는 플랜을 발표했다. 다만 RDL에서 지원에 어떤 제약이 생길 수 있다.



20_l.jpg
21_l.jpg



현재 HBM2는 DRAM 자체가 고가임이 문제라고 HBM에 주력하는 AMD의 Mark Papermaster(Chief Technology Officer and Senior Vice President, Technology and Engineering, AMD)가 설명한다. DRAM 자체의 가격은 HBM 계열 메모리 시장이 넓어져 볼륨이 늘고, 양산 효과가 안 나오면 해결이 어렵다. 스택 DRAM에서는 테스트 등의 비용도 높지만 이는 DRAM 자체의 기능으로 경감시킬 수 있다.


더 광범위한 보급에는 아직 과제가 많은 HBM 메모리지만 그 장래성을 의심하는 목소리는 적다. 그것은 프로세서의 성능 향상에 대해 충분한 메모리 대역을 제한된 전력 소비 범위 내에서 제공할 수 있는 기술이 현재 스택 DRAM 말고는 보이지 않기 때문이다.


이러한 상황으로부터 미래에는 메모리 스토리지 계층에서 워킹 메모리는 프로세서의 근처(동일 패키지 내)로 삼는 "니어 메모리(Near Memory)"와 확장 메모리 슬롯의 "파 메모리(Far Memory)"로 양분되는 방향으로 향할 것이 예상된다. DDR5와 비휘발성 메모리의 DIMM 류(NVDIMM, 3D Xpoint DIMM 등)도 중요하며 메모리는 향후 더욱 복잡해질 것으로 보인다.


출처 - https://pc.watch.impress.co.jp/docs/column/kaigai/1112395.html

반응형
Posted by 랩터 인터내셔널


NVIDIA는 7일(미국 시간) "NIPS 2017"에서 새로운 비디오 카드 "TITAN V"를 발표, 판매를 시작했다. 가격은 2999달러.


TITAN V는 딥 러닝 등의 인공지능 처리 외 고성능 컴퓨팅을 필요로 하는 연구자용 비디오 카드로 코어는 NVIDIA용으로 커스터마이즈 된 TSMC의 12nm FFN 방식으로 제조되고 있으며 메모리는 12GB의 HBM2를 채용한다. GV100 코어를 채용하고 있다고 보이며 컨슈머 제품으로는 엔비디아의 첫 HBM2 탑재 비디오 카드가 된다.


스트리밍 다중 처리 장치는 대폭 재설계하여 파스칼 GPU 보다 에너지 효율이 2배가 향상되어 대폭적인 향상을 강조하고 있다. Tensor 코어는 딥 러닝용으로 최적화되며 최대 9배의 TFLOPS 성능을 발휘한다. 또 L1 데이터 캐시와 공유 메모리 유닛을 조합함으로써 성능의 대폭적 향상과 프로그래밍을 용이하게 하고 있다.


제품TITAN VTesla V100 (PCIe 버전)TITAN Xp
아키텍처VoltaPascal
프로세스TSMC 12nm FFNTSMC 16nm FinFET
트랜지스터211억120억
CUDA 코어수5,1203,840
베이스 클럭1,200MHz?
부스트 클럭1,455MHz1,370MHz1,582MHz
Tensor 코어수640-
Tensor 연산 성능110TFLOPS112 TFLOPs-
메모리12GB HBM216GB HBM212GB GDDR5X
메모리 클럭850MHz879MHz1,426MHz
메모리 인터페이스3072bit4,096bit384bit
메모리 대역652.8GB/s900GB/s547.6GB/s
텍스처 성능384GTexels/s438.4 GTexel/s-
인터페이스DisplayPort×3, HDMI-DisplayPort 1.4×3, HDMI 2.0b
전원 핀6+8-6+8
TDP250W
가격2999달러-1199달러


출처 - https://pc.watch.impress.co.jp/docs/news/1095906.html

반응형
Posted by 랩터 인터내셔널
AMD Radeon RX Series Specification Comparison
 AMD Radeon RX Vega 64 LiquidAMD Radeon RX Vega 64AMD Radeon RX Vega 56AMD Radeon R9 Fury X
Stream Processors4096
(64 CUs)
4096
(64 CUs)
3584
(56 CUs)
4096
(64 CUs)
Texture Units256256224256
ROPs64646464
Base Clock1406MHz1247MHz1156MHzN/A
Boost Clock1677MHz1546MHz1471MHz1050MHz
Memory Clock1.89Gbps HBM21.89Gbps HBM21.6Gbps HBM21Gbps HBM
Memory Bus Width2048-bit2048-bit2048-bit4096-bit
VRAM8GB8GB8GB4GB
Transistor Count12.5B12.5B12.5B8.9B
Board Power345W295W210W275W
(Typical)
Manufacturing ProcessGloFo 14nmGloFo 14nmGloFo 14nmTSMC 28nm
ArchitectureVega
(GCN 5)
Vega
(GCN 5)
Vega
(GCN 5)
GCN 3
GPUVega 10Vega 10Vega 10Fiji
Launch Date08/14/201708/14/201708/28/201706/24/2015
Launch Price$699*$499/599*$399/499*$649



라데온 베가는 크게 64모델과 56모델로 구분, 64모델은 수냉 버전과 공냉 버전으로 나뉘며 수냉 버전의 동작 클럭은 1406MHz(베이스) - 1677MHz(부스트)로 공냉 버전  1247MHz(베이스) - 1546MHz(부스트)보다 높으며 그 외 스펙은 4096 스트림 프로세서(공통), 256 텍스처(공통), 2048비트 8GB 용량의 1.89Gbps HBM2 메모리, 12.5B 트랜지스터, TDP 345와트(공랭 모델은 295와트). 


라데온 베가 56모델은 3584 스트림 프로세서, 224 텍스처, 1156MHz(베이스) - 1471MHz(부스트) 클럭, 2048비트 8GB 용량의 1.6Gbps HBM2 메모리, TDP는 210와트.


라데온 베가 시리즈의 가격은 베가 64 수냉 버전이 $699, 공냉 버전이 $499/599, 베가 56 공랭 버전이 $399/499.


그 외 내용은 바로 아래 게시글 내용 확인


Summer 2017 GPU Pricing Comparison (Crypto-Crazy Edition)
AMDPriceNVIDIA
Radeon RX Vega 64$499GeForce GTX 1080
 $449GeForce GTX 1070
Radeon RX Vega 56$399 
Radeon RX 580 (8GB)$299GeForce GTX 1060 (6GB)

 

AMD는 엔비디아의 지포스GTX 1080TI 및 타이탄과 같은 플래그십에 대응할 수 있는 모델이 없는 상황


[ 테스트 시스템 ]


CPU:Intel Core i9-7820X @ 4.3GHz
Motherboard:Gigabyte X299 AORUS Gaming 7
Power Supply:Corsair AX860i
Hard Disk: OCZ Toshiba RD400 (1TB)
Memory:G.Skill TridentZ DDR4-3200 4 x 8GB (16-18-18-38)
Case:NZXT Phantom 630 Windowed Edition
Monitor:LG 27UD68P-B
Video Cards:AMD Radeon RX Vega 64 (Air Cooled)
AMD Radeon RX Vega 56
AMD Radeon RX 580
AMD Radeon R9 Fury X
NVIDIA GeForce GTX 1080 Ti Founders Edition
NVIDIA GeForce GTX 1080 Founders Edition
NVIDIA GeForce GTX 1070 Founders Edition
Video Drivers:NVIDIA Release 384.65
AMD Radeon Software Crimson Press Beta 17.30.1051
OS:Windows 10 Pro (Creators Update)



Battlefield 1

Battlefield 1 - 3840x2160 - Ultra QualityBattlefield 1 - 2560x1440 - Ultra QualityBattlefield 1 - 1920x1080 - Ultra Quality

 

Battlefield 1 - 99th Percentile - 3840x2160 - Ultra QualityBattlefield 1 - 99th Percentile - 2560x1440 - Ultra QualityBattlefield 1 - 99th Percentile - 1920x1080 - Ultra Quality

Battlefield 1's DX11 render path was used for all cards.



Ashes of the Singularity: Escalation

Ashes of the Singularity: Escalation - 3840x2160 - Extreme QualityAshes of the Singularity: Escalation - 2560x1440 - Extreme QualityAshes of the Singularity: Escalation - 1920x1080 - Extreme Quality

 

Ashes: Escalation - 99th Percentile - 3840x2160 - Extreme QualityAshes: Escalation - 99th Percentile - 2560x1440 - Extreme QualityAshes: Escalation - 99th Percentile - 1920x1080 - Extreme Quality



Doom

Doom - 3840x2160 - Ultra QualityDoom - 2560x1440 - Ultra QualityDoom - 1920x1080 - Ultra Quality

 

Doom - 99th Percentile - 3840x2160 - Ultra QualityDoom - 99th Percentile - 2560x1440 - Ultra QualityDoom - 99th Percentile - 1920x1080 - Ultra Quality



Ghost Recon Wildlands

Ghost Recon Wildlands - 3840x2160 - Very High QualityGhost Recon Wildlands - 2560x1440 - Very High QualityGhost Recon Wildlands - 1920x1080 - Very High Quality



Dawn of War III

A note on the 1080p results: further testing revealed that Dawn of War III at 1080p was rather CPU-bound on our testbed, resulting in anomalous performance. Due to the extreme time constraints, we discovered and determined this very late in the process. For the sake of transparency, the graphs will remain as they were at the time of the original posting.

Dawn of War III - 3840x2160 - Ultra QualityDawn of War III - 2560x1440 - Ultra QualityDawn of War III - 1920x1080 - Ultra Quality

 

Dawn of War III - 99th Percentile - 3840x2160 - Ultra QualityDawn of War III - 99th Percentile - 2560x1440 - Ultra QualityDawn of War III - 99th Percentile - 1920x1080 - Ultra Quality



Deus Ex: Mankind Divided

Deus Ex: Mankind Divided - 3840x2160 - Ultra QualityDeus Ex: Mankind Divided - 2560x1440 - Ultra QualityDeus Ex: Mankind Divided - 1920x1080 - Ultra Quality



Grand Theft Auto V

Grand Theft Auto V - 3840x2160 - Very High QualityGrand Theft Auto V - 2560x1440 - Very High QualityGrand Theft Auto V - 1920x1080 - Very High Quality

 

Grand Theft Auto V - 99th Percentile - 3840x2160 - Very High QualityGrand Theft Auto V - 99th Percentile - 2560x1440 - Very High QualityGrand Theft Auto V - 99th Percentile - 1920x1080 - Very High Quality



F1 2016

F1 2016 - 3840x2160 - Ultra QualityF1 2016 - 2560x1440 - Ultra QualityF1 2016 - 1920x1080 - Ultra Quality



Total War: Warhammer

Total War: Warhammer - 3840x2160 - Ultra QualityTotal War: Warhammer - 2560x1440 - Ultra QualityTotal War: Warhammer - 1920x1080- Ultra Quality

Total War: Warhammer - 99th Percentile - 3840x2160 - Ultra QualityTotal War: Warhammer - 99th Percentile - 2560x1440 - Ultra QualityTotal War: Warhammer - 99th Percentile - 1920x1080 - Ultra Quality

To note: the DX12 render path was used for AMD cards. Generally, we'd like to use the best performing API for a given card. In this case, while there was improved performance at higher resolutions, we noticed a potential regression in 1080p performance. Unfortunately, due to time constraints, we weren't able to investigate further.


Idle Power ConsumptionLoad Power Consumption - Battlefield 1Load Power Consumption - FurMark


출처 - http://www.anandtech.com


라데온 베가 64 성능 = 지포스GTX 1080

라데온 베가 56 성능 = 지포스GTX 1070보다 약간 우위


전력소모

라데온 베가 64 = 지포스GTX 1080보다 149와트 더 많은 소모

라데온 베가 56 = 지포스GTX 1070보다 78와트 더 많은 소모


결론 : 라데온 신형 베가 아키텍처는 HBM2까지 적용했으나 성능은 엔비디아의 지포스 1080 수준에 머무르며 전력소모당 성능은 최악

반응형
Posted by 랩터 인터내셔널



 Vega Frontier EditionTitan XpGTX 1080 TiTitan X (Pascal)GTX 1080TITAN XGTX 980R9 Fury XR9 Fury
GPUVegaGP102GP102GP102GP104GM200GM204Fiji XTFiji Pro
GPU Cores409638403584358425603072204840963584
Base Clock1382 MHz1480 MHz1480 MHz1417 MHz1607 MHz1000 MHz1126 MHz1050 MHz1000 MHz
Boost Clock1600 MHz1582 MHz1582 MHz1480 MHz1733 MHz1089 MHz1216 MHz--
Texture Units?224224224160192128256224
ROP Units649688966496646464
Memory16GB12GB11GB12GB8GB12GB4GB4GB4GB
Memory Clock1890 MHz11400 MHz11000 MHz10000 MHz10000 MHz7000 MHz7000 MHz1000 MHz1000 MHz
Memory Interface2048-bit HBM2384-bit G5X352-bit384-bit G5X256-bit G5X384-bit256-bit4096-bit (HBM)4096-bit (HBM)
Memory Bandwidth483 GB/s547.7 GB/s484 GB/s480 GB/s320 GB/s336 GB/s224 GB/s512 GB/s512 GB/s
TDP300 watts250 watts250 watts250 watts180 watts250 watts165 watts275 watts275 watts
Peak Compute13.1 TFLOPS12.0 TFLOPS10.6 TFLOPS10.1 TFLOPS8.2 TFLOPS6.14 TFLOPS4.61 TFLOPS8.60 TFLOPS7.20 TFLOPS
Transistor Count?12.0B12.0B12.0B7.2B8.0B5.2B8.9B8.9B
Process Tech14nm16nm16nm16nm16nm28nm28nm28nm28nm
MSRP (current)$999$1200$699$1,200$599$999$499$649$549


AMD의 가장 최신 기술로 개발된 신형 GPU 라데온 베가 프론티어 에디션 16GB. 스펙은 기존 R9 Fury X와 비슷하며(4096 코어) 동작 클럭 상승, 16GB 2048-bit HBM2 적용, 글로벌 파운드리 14나노 공정, TDP는 300와트, 가격은 999달러


베가 프론티어 에디션 외형


View Full Size


View Full Size


View Full Size


View Full Size




테스트 시스템



 PC Perspective GPU Testbed
ProcessorIntel Core i7-5960X Haswell-E
MotherboardASUS Rampage V Extreme X99
MemoryG.Skill Ripjaws 16GB DDR4-3200
StorageOCZ Agility 4 256GB (OS)
Adata SP610 500GB (games)
Power SupplyCorsair AX1500i 1500 watt
OSWindows 10 x64
DriversAMD: 17.6 (Vega)
NVIDIA: 382.53







Radeon Vega Frontier Edition 16GB (300W), Average FPS Comparisons, Dirt Rally
 GTX 1080 TiGTX 1080GTX 1070R9 Fury X
2560x1440-37%-11%+2%+15%
3840x2160-37%-5%  


더트 랠리 : 베가 프론티어 에디션은 지포스GTX 1070 급 성능





Radeon Vega Frontier Edition 16GB (300W), Average FPS Comparisons, Fallout 4
 GTX 1080 TiGTX 1080GTX 1070R9 Fury X
2560x1440-32%-8%+10%+27%
3840x2160-39%-13%  


폴아웃4 : 베가 프론티어 에디션은 지포스GTX 1070 보다 10% 높은 성능





Radeon Vega Frontier Edition 16GB (300W), Average FPS Comparisons, Grand Theft Auto V
 GTX 1080 TiGTX 1080GTX 1070R9 Fury X
2560x1440-33%-31%-19%+16%
3840x2160-50%-31%  


GTA5 : 베가 프론티어 에디션은 지포스GTX 1070 보다 -19% 낮은 성능





Radeon Vega Frontier Edition 16GB (300W), Average FPS Comparisons, Hitman
 GTX 1080 TiGTX 1080GTX 1070R9 Fury X
2560x1440-30%-14%+32%+27%
3840x2160-33%-16%  


히트맨 : 베가 프론티어 에디션은 지포스GTX 1070 보다 32% 높은 성능





Radeon Vega Frontier Edition 16GB (300W), Average FPS Comparisons, Rise of the Tomb Raider
 GTX 1080 TiGTX 1080GTX 1070R9 Fury X
2560x1440-38%-13%+11%+46%
3840x2160-38%-14%  


톰레이더 : 베가 프론티어 에디션은 지포스GTX 1070 보다 11% 높은 성능





Radeon Vega Frontier Edition 16GB (300W), Average FPS Comparisons, The Witcher 3
 GTX 1080 TiGTX 1080GTX 1070R9 Fury X
2560x1440-38%-17%+1%+16%
3840x2160-40%-17%  


위처3 : 베가 프론티어 에디션은 지포스GTX 1070 급  성능


전력 소모

View Full Size


베가 프론티어 에디션의 전력소모는 테스트 카드 중 단연 1위

3DMark, Unigine Heaven

Let's look at a set of tests from more standard benchmarks like Unigine Heaven and the new 3DMark benchmark. 

I consider these tests to be somewhat of a "best case" for all the cards in our comparison.  We aren't using our frame capture system, we aren't measuring frame latency, nothing like that; I think this should give you an idea of graphics performance if each vendor had the best result for each game.

View Full Size


View Full Size


Looking at the synthetic benchmarks, we start with the classic 3DMark Fire Strike tests. The Extreme run shows a pretty reasonable performance edge from the Vega FE to the GTX 1080 of 6%, the closest gap we have seen so far. The Vega FE is even 14% faster than the GTX 1070 here. Looking at the Ultra preset, the GTX 1080 only has a 3% advantage.

View Full Size


Unigine Heaven continues to be a sore spot for Radeon graphics cards. With a score of 64.7 FPS, the Vega Frontier Edition is only 12% faster than the Fury X! That also leaves it 8.5% slower than the GTX 1070…



3DS Max Viewset (3dsmax-05)


View Full Size


The 3dsmax-05 viewset was created from traces of the graphics workload generated by 3ds Max 2016 using the default Nitrous DX11 driver.

The models for this viewset came from the SPECapc for 3ds Max 2015 benchmark and other sources. In order to best approximate real-world use cases, several tests incorporate multiple viewsets on screen, each using a different rendering method. The styles of rendering in the viewset reflect those most commonly used in major markets, including realistic, shaded and wireframe. Some lesser-used but interesting rendering modes such as facets, graphite and clay are also incorporated. The animations in the viewset are a combination of model spin and camera fly-through, depending on the model.


View Full Size


The Vega FE has a good showing on this viewset, producing a score 92% higher than the Radeon Pro Duo (single GPU) and coming within 20% of the Titan Xp.

CATIA Viewset (Catia-04)


View Full Size


The catia-04 viewset was created from traces of the graphics workload generated by the CATIA V6 R2012 application from Dassault Systemes. Model sizes range from 5.1 to 21 million vertices.

The viewset includes numerous rendering modes supported by the application, including wireframe, anti-aliasing, shaded, shaded with edges, depth of field, and ambient occlusion


View Full Size


The two Radeon cards scale well with Catia, with the Vega Frontier Edition getting a win over the Titan Xp by 25% or so. But notice that the Quadro P5000, which is essentially identical hardware to the GTX 1080, is noticeably faster than the Titan Xp, indicate work and improvement from the Quadro driver stack.

Creo viewset (Creo-01)


View Full Size


The creo-01 viewset was created from traces of the graphics workload generated by the Creo 2™ application from PTC. Model sizes range from 20 to 48 million vertices.

The viewset includes numerous rendering modes supported by the application, including wireframe, anti-aliasing, shaded, shaded with edges, and shaded reflection modes.


View Full Size


Creo uses a super high poly count model for a portion of its workload and the Radeon Vega Frontier Edition does exceedingly well, besting the Titan Xp by 48%.

Energy Viewset (Energy-01)


View Full Size


The energy-01 viewset is representative of a typical volume rendering application in the seismic and oil and gas fields. Similar to medical imaging such as MRI or CT, geophysical surveys generate image slices through the subsurface that are built into a 3D grid. Volume rendering provides a 2D projection of this 3D volumetric grid for further analysis and interpretation.

At every frame, depending on the viewer position, a series of coplanar slices aligned with the viewing angle are computed on the CPU and then sent to the graphics hardware for texturing and further calculations such as transfer function lookup, lighting and clipping to reveal internal structures. Finally, the slices are blended together before the image is displayed.


View Full Size


The Energy viewset gives the Radeon Vega FE another win over the Titan Xp as well as the Quadro P5000.

Maya viewset (maya-04)


View Full Size


The maya-04 viewset was created from traces of the graphics workload generated by the Maya 2013 application from Autodesk. Model size is 727,500 vertices.

The viewset includes numerous rendering modes supported by the application, including shaded mode, ambient occlusion, multi-sample anti aliasing, and transparency.


View Full Size


The Maya workload shows good scaling from the single GPU Radeon Pro duo test to the Vega FE (75%) though the Titan Xp still has a significant advantage over the rest of the field.

Medical Viewset (Medical-01)


View Full Size


The medical-01 viewset is representative of a typical volume rendering application that renders a 2D projection of a 3D volumetric grid. A typical 3D grid in this viewset is a group of 3D slices acquired by a scanner (such as CT or MRI).

At every frame, depending on the viewer position, a series of coplanar slices aligned with the viewing angle are computed on the CPU and then sent to the graphics hardware for texturing and further calculations, such as transfer function lookup, lighting and clipping to reveal internal structures. Finally, the slices are blended together before the image is displayed.


View Full Size


Using the Medical viewset swaps the win back in favor of AMD, with the Radeon Vega FE card providing a 40% advantage over the Titan Xp.

Showcase Viewset (showcase-01)


View Full Size


The showcase-01 viewset was created from traces of Autodesk’s Showcase 2013 application. The model used in the viewset consists of 8 million vertices.

The viewset is the first viewset in SPECviewperf to feature DX rendering. Rendering modes included in the viewset include shading, projected shadows, and self-shadows.


View Full Size


The Showcase viewset utilizes DX11 for rendering and the advantages that the GeForce products offer here stand out. The Titan Xp is 47% faster than the Vega FE.

Siemens NX (snx-02)


View Full Size


The snx-02 viewset was created from traces of the graphics workload generated by the NX 8.0 application from Siemens PLM. Model sizes range from 7.15 to 8.45 million vertices.


View Full Size


The scores for the Radeon Pro Duo and the Titan Xp, in contrast with the scores from the Quadro and Vega cards, indicate there is a significant software difference between these driver configurations. The Vega Frontier Edition does impressively well, coming within 30% of the Quadro P5000.

Solidworks viewset (sw-03)


View Full Size


The sw-03 viewset was created from traces of Dassault Systemes’ SolidWorks 2013 SP1 application. Models used in the viewset range in size from 2.1 to 21 million vertices.

The viewset includes numerous rendering modes supported by the application, including shaded mode, shaded with edges, ambient occlusion, shaders, and environment maps.


View Full Size


Finally, the Solidworks viewset has the Radeon Vega FE well ahead of the Titan Xp (73%) but falling shore of all three of the Quadro family of products.

LuxMark 3.1


View Full Size


GPGPU compute performance is a big part of any modern GPU design, especially in the workstation environment. LuxMark is a long-standing OpenCL benchmark, based on the LuxRender engine and provides a good look at how different GPU architectures compare in typical OpenCL workloads. Today we are testing our field of graphics cards in the most compute intensive scene, Hotel.


View Full Size


With a score of 4690, the Radeon Vega Frontier Edition performs 41% faster than the Quadro P5000 (GTX 1080 equivalent) and than the Radeon Pro Duo running on a single GPU (essentially a Fury X). That’s a big shift from the gaming results we just went through on the preceding pages. NVIDIA’s Titan Xp though was able to bring a score of 5800, giving it a 23% advantage over AMD’s middle-level pro-sumer graphics offering.

Cinebench R15 OpenGL

The performance depends on various factors, such as the GPU processor on your hardware, on the drivers used. The graphics card has to display a huge amount of geometry (nearly 1 million polygons) and textures, as well as a variety of effects, such as environments, bump maps, transparency, lighting and more to evaluate the performance across different disciplines and give a good average overview of the capabilities of your graphics hardware. The result is measured in frames per second (fps). The higher the number, the faster your graphics card is.


View Full Size


We quickly tossed in CineBench R15 as an OpenGL rending test and the Radeon Vega Frontier Edition does very well, scoring 151.85 FPS compared to the Titan Xp at 144.19 FPS. 

We do plan to run a more extensive set of professional application tests as time permits. For this review, we focused most of our available time on the gaming angle of this architecture.


출처 - https://www.pcper.com


AMD의 신형 라데온 베가 프론티어 에디션은 16GB 용량의 HBM2 기술까지 적용했으나 성능은 엔비디아의 지포스 1070 ~ 1080 중간에 위치하며 1070에 가까운 성능이다. TDP는 무려 300와트로 매우 낮은 와트당 성능을 나타내며 엔비디아와 AMD 간의 GPU 기술 격차가 더욱 확대되고 있다.

반응형
Posted by 랩터 인터내셔널

인텔 Kaby Lake-G의 의문

인텔은 적층 DRAM "HBM2"를 CPU 패키지로 통합한 "Kaby Lake-G"를 연내에 투입한다. 기존 eDRAM 버전 CPU와 마찬가지로 CPU 패키지 내에 HBM2의 DRAM이 탑재되고 있다. 다만 몇가지 큰 차이가 있다. 이미 소문으로 보도되고 있듯이 GPU 코어는 인텔의 내장 코어가 아닌 서드 파티의 디스크리트 GPU 다이다.


인텔이 AMD GPU를 CPU 패키지에 도입하는 이야기는 오래전부터 소문이 돌고 있었다. 보드 벤더 뿐 아니라 소프트웨어 개발자에게도 "서드 파티의 디스크리트 GPU와 HBM2"를 탑재하는 "G" 형식 번호의 Kaby Lake를 낸다고 설명하고 있었다고 한다. 사실 인텔은 지난해(2016년) 전반에 메모리에 대해서 업계 관계자에게 설명을 했으며 그 때는 HBM2의 채용은 2017년 중에는 하지 않을 예정이었다. 그 뒤 HBM2 채용 계획의 변경과 함께 AMD GPU의 채용과 Kaby Lake-G가 떠올랐다.


Kaby Lake-G의 패키지에는 쿼드 코어 버전 Kaby Lake 다이, AMD 디스크리트 GPU 다이, 그리고 HBM2가 1스택 탑재되고 있다. HBM2 스택의 다이 층수는 모르지만 HBM2는 풀 대역을 실현하려면 최저 2다이의 적층이 필요하므로 2다이나 4다이 중 하나라고 추측된다. 메모리 용량은 2GB 또는 4GB 어느 쪽이 된다.



1_s.png
2_s.png
3_s.png
4_s.png


Kaby Lake 다이와 AMD GPU 다이의 사이는 온 패키지 PCI Express로 연결되어 있다고 보이고 AMD GPU 다이와 HBM2 스택의 사이는 인텔의 새로운 2.5D 솔루션 "Embedded Multi-die Interconnect Bridge(EMIB)"로 연결되어 있다고 본다. EMIB는 작은 실리콘 조각을 사용한 초고밀도 배선에 의해 기존보다 저비용으로 HBM2의 구현을 가능하게 한다.


인텔은 작년 상반기 단계에서는 2017년 중 HBM2의 도입은 생각하지 않았다. 2018년까지는 eDRAM 만이 인텔의 메인 스트림 PC에서 메모리 통합 솔루션이 될 예정이었다. 인텔 실리콘의 스케줄, HBM2 대응의 CPU 다이 투입은 2018년이기 때문이다. 그것을 AMD 다이를 도입하고 앞당기려는건 상당히 이례적인 일이다.


물론 CPU 제품 경쟁력 강화 때문이라고도 생각된다. 그러나 원래 Kaby Lake-G의 상대는 GPU 통합형 CPU인 AMD의 APU(Accelerated Processing Unit) "Raven Ridge(레이븐 릿지)" 세대인 셈인데 거기에 AMD GPU로 대항하는 이유를 알수없다. 그러나 이 제품화가 HBM2와 EMIB의 도입을 앞당기기 위해서라고 생각하면 납득이 간다.


EMIB는 이미 인텔 파운드리 서비스로서 제공되어 알테라 FPGA의 옵션으로 제공되고 있다. 그러나 가전 제품의 양산이라는 점에서는 아직 시작하지 않고 있다. 러닝 커브를 거두려면 먼저 양산을 시작해 EMIB와 HBM2의 플랫폼을 최대한 빨리 만드는 것이 좋다. Kaby Lake-G가 인텔의 패키지 기술의 선도적인 제품이라고 생각하면 여러가지 의문이 풀린다.



인텔의 2.5D 패키지 전략의 선도가 된 Kaby Lake-G

Kaby Lake-G에는 3가지의 큰 의미가 있다.
하나는 인텔이 "2.5D" 패키지 솔루션으로 본격적인 방향을 튼것. 2.5D 즉 1개의 칩 패키지에 여러 칩의 다이를 올린 타입의 적층 기술이다. 지금까지도 패키지에 복수 다이를 올린 "MCM(Multi-Chip Module)"은 인텔에도 다수의 제품이 있다고 생각할 수 있지만 이번 2.5D는 그것과는 얘기가 다르다.


이번 Kaby Lake-G는 HBM2를 채용하여 여러 광대역 인터페이스로 이어진다. HBM2는 1024-bit 대역의 인터페이스에서 2Gtps때 1스택당 256GB/sec의 대역을 실현한다. 고밀도 배선으로 이어 다이들을 광대역으로 접속하는 2.5D화가 이번의 흐름이다.



5_s.png
6_s.png


시작은 메모리의 HBM2지만 인텔은 커뮤니케이션 기능의 다이 등 메모리 이외의 다이간 CPU 다이와 광대역 접속한다. Kaby Lake-G는 그 선행 사례인 칩이다. 사실 인텔은 이러한 이기종 다이의 통합 계획을 발표하고 있다. 가까운 장래에 인텔의 칩은 복수의 다이가 고밀도 배선의 2.5D에 패키징 된 SIP(System in Package)가 일반적으로 될지도 모른다.


7_s.png


두번째는 인텔의 PC 프로세서가 메모리 대역 바인드에서 해방되는 것이다. 인텔과 AMD는 CPU 코어와 GPU 코어의 통합을 추진하고 있는데 현재의 DDR4 등의 메모리 모듈형 솔루션에서는 메모리 대역이 GPU 코어에 대해 모자르다. 그러나 CPU는 메모리 용량과 비용 증설성 면에서 이점이 있는 DRAM 모듈을 버리는 것이 어렵다. 디스크리트 GPU 같은 힘으로 메모리 대역을 확장하기 힘든 것이 메인 스트림 CPU의 약점이 되고 있었다.


그러나 인텔의 패키지 기술 EMIB는 저비용으로 적층 DRAM의 구현을 가능하게 한다. 초고밀도 배선에 의해 수백 GB/s의 광대역 메모리를 실현한다. 그래서 메인 스트림 디스크리트 GPU 수준의 메모리 대역을 메모리 모듈로 사용한 CPU형 제품으로 실현할 수 있다. 메모리 대역 때문에 성능을 제약 받지 않고 내장 GPU 코어를 대형화할 수 있게 된다. 이는 장래에 예상되는 뉴럴 네트워크(액셀러레이터 코어) CPU에 대한 통합에도 중요한 요소다.


세번째는 메모리/스토리지 계층의 변혁이 시작되는 것이다. Kaby Lake-G는 아직 외부 디스크리트 GPU 다이를 사용한다. 그러나 인텔의 본명은 자사의 CPU에 HBM2 인터페이스를 통합하는 세대다. 그 세대가 되면 EMIB로 연결된 HBM2는 CPU의 메모리/스토리지 계층의 일부로 완전히 통합된다.


새 메모리/스토리지 계층의 메모리 대역은 온 패키지 스택 DRAM으로 메모리 용량은 DIMM소켓의 DRAM 모듈에서 벌어진다. 또 DIMM 소켓에 비휘발성 메모리 모듈을 타고 더 대용량의 메모리 탑재가 가능하다. 이를 위한 기술의 변화가 Kaby Lake-G에서 시작된다고 추측된다.



AMD의 움직임에 맞서 움직이기 시작한 인텔의 광대역 메모리 계획

광대역 메모리의 CPU 통합이라는 측면에서 보면 Kaby Lake-G 에는 복잡한 사정이 있었다. 광대역 DRAM의 CPU 패키지 탑재는 원래 AMD가 먼저 움직이기 시작하고 있었다. AMD는 CPU와 GPU의 통합을 진행하고 메모리 대역이 문제가 될 것이라고 생각하여 DRAM 벤더와 "HBM" 스택 DRAM 개발을 진행시키고 있었다. 당초 AMD 구상에서는 하이엔드 GPU 뿐 아니라 메인 스트림 GPU나 APU에도 HBM을 조기에 채용할 터였다.


한편 인텔은 밀접한 관계에 있는 Micron Technology의 스택 DRAM "HMC"의 구상에 타고 있었다. 그러나 HMC는 성격상 서버나 하이엔드 그래픽용 솔루션이 될 전망이었다. 반면 당초 구상의 HBM은 보다 저비용으로 될 예정이어서 HMC와는 다른 레이어가 될 전망이었다. 그래서 인텔은 HMC와 별도로 메인 스트림 PC에 적용할 수 있는 광대역 메모리 솔루션이 필요했다.


거기서 인텔은 자체 기술로 개발한 eDRAM을 사용, 광대역의 eDRAM 칩을 자사에서 제조하고 CPU 패키지에 탑재하는 방향으로 나아갔다. 커스텀 eDRAM으로써 광대역, 고 효율의 데이터 전송을 실현하고 메모리 킬러인 GPU 코어를 내장하는 진행 방향이다. 그러나 인텔의 eDRAM은 DRAM 셀 크기가 커서 다중 뱅크 구성한 것도 있고, 대용량 화가 어렵다. 이 eDRAM은 본질적으로 논리 칩에 혼재하는 기술로 인텔은 캐시로 채용도 검토했다고 한다. eDRAM 다이는 경제적인 치수에서는 메모리 용량이 한정되므로 용도가 한정되고 만다. eDRAM 다이는 대용량 스택 DRAM이 보급되기까지의 중간적인 솔루션에 불과하다.



8_s.png

9_s.png


그래서 인텔은 eDRAM 버전의 Haswell을 도입하는 한편, JEDEC(반도체 표준화 단체)에서 스택 DRAM "HBM2"의 규격화에 참여, HBM2 스펙을 CPU에 채용하기 쉬운 것으로 바꿨다. 핍박하는 메모리 대역 문제 해결 때문에 eDRAM으로 바꾸고 HBM2를 채택하는 것은 인텔에게 포함된 전략이었다. 실제로 인텔은 DRAM 업체에 대해 HBM2의 채용 예정을 당초부터 설명하고 있다.


HBM2의 준비는 했지만 Intel CPU의 준비가 되지 않았다

그러나 HBM 규격은 도중에 베이스 로직 다이가 필요한 구성으로 바뀌면서 비용이 예상보다 상승했다. 또 실리콘 관통 전극(TSV:Through Silicon Via) 실리콘 인터포저의 비용이 예상대로 빠르게 떨어지지 않았다. 


10_s.png


이 상황에서 DRAM 업계는 TSV 인터포저를 쓰지 않는 HBM 솔루션을 모색하고 있었다. 조밀 배선을 가능하게 하는 인텔의 EMIB는 바로 HBM에 응용할 수 있는 기술이다. 작은 실리콘 조각밖에 쓰지 않는 EMIB는 큰 실리콘 다이에 TSV기술을 사용하는 TSV 인터포저와 비교해 현격하게 비용을 낮출 수 있다. 저비용인 EMIB를 사용하면 TSV 인터포저를 쓰기 위해 고비용으로 메인 스트림 CPU에 적용할 수 없는 HBM을 보급 가격대로 가져올 수 있다. TSV 인터포저의 대체 기술은 또 개발되고 있지만 인텔의 EMIB는 가장 유력한 기술의 한가지다.


11_s.png
12_s.png
13_s.png
15_s.png
14_s.png


인텔은 이처럼 우선 HBM2의 스펙 수립에 참가하여 HBM2를 메인 스트림 PC에 채용하기 쉬운 규격으로 했다. 다음으로 HBM2를 기존보다 저비용으로 통합할 수 있는 EMIB를 실용화했다. HBM2의 생산이 순조롭게 가기 시작하면서 HBM2 채용의 기회가 무르익고 있었다. 그런데 이 스케줄을 따라잡지 못한 것이 한가지 있었다. 그것은 인텔 자신의 HBM2 대응 칩이다.


HBM2 인터페이스를 구현하게 되면 CPU 다이는 현재의 것과는 다른 다이를 새로 설계할 필요가 있다. 인텔의 CPU 로드맵이 자주 변경되고 HBM2 대응이 좀처럼 보이지 않는 상황이었기 때문에 HBM2와 EMIB가 부인 되더라도 인텔 자신이 그것을 활용할 수 있는 칩이(FPGA 이외에는) 없는 상태였다.


Kaby Lake-G은 이 딜레마를 "울트라 C"에서 해결하는 방법이었다고 본다. 타사 다이를 사용하면서 조기에 EMIB 기반의 HBM2 메모리 솔루션을 세운다. 러닝 커브를 높이고 다음 단계에서는 보다 널리 보급한다. 


여기서 나오는 의문은 AMD 측의 이익은 무엇인가라는 점이다. AMD에도 상응하는 대가가 없으면 여기까지 이러한 제품 계획은 실현되지 않을 전망이다. 어쨌든 현재 쟁점이 되는 것은 프로세서 제품 그 자체가 아니다. 패키징 기술과 광대역 메모리가 초점으로써 Kaby Lake-G 뒤에는 그 부분에서 인텔의 움직임을 감지할 수 있다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1054618.html


반응형
Posted by 랩터 인터내셔널
03_s.jpg


6년만에 아키텍처가 쇄신 된 베가

AMD의 차세대 GPU 아키텍처 "Vega(베가)"의 개요를 밝힌다. Vega는 AMD의 FinFET 세대의 플래그십 GPU다. 큰 특징은 GPU 마이크로 아키텍처를 쇄신하고 하이 퍼포먼스 하이엔드 GPU에 도입되는 것이다.


AMD는 서던 아일랜드(Southern Islands) 패밀리의 "Radeon HD 7900(Tahiti)"에서 "GCN(Graphics Core Next)"을 도입한 이후 GPU의 컴퓨트 유닛"CU(Compute Unit)"의 메이저 업그레이드는 진행하지 않았다. 베이스 아키텍처는 GCN 상태에서 상대적으로 마이너적인 확장을 가해 왔다. 그러나 이번 Vega는 마이크로 아키텍처를 일신해 CU 뿐 아니라 세이더의 제어 및 메모리 계층까지 모두 크게 변혁한다. AMD에게는 6년만의 GPU 아키텍처의 대변혁이다.


AMD는 FinFET 3D 트랜지스터 프로세스는 지난해(2016년) 퍼포먼스 GPU "Polaris"에 도입했다. 그러나 Polaris의 하이엔드 GPU는 공석이었으며 Vega 세대 "Vega 10"은 AMD에게 2년 만의 하이엔드 GPU다.


Vega 아키텍처는 그래픽스, 컴퓨트, 메모리 용량과 모든 면에서 퍼포먼스를 비약시킨다. 컴퓨트에서는 딥 러닝 대응과 FinFET 프로세스를 활용한 마이크로 아키텍처로의 전환. 딥 러닝용 데이터 밀도 도입과 GPU의 동작 클럭을 대폭 올린 아키텍처를 향했다.


그래픽에서는 지오 메트리 파이프 라인의 제어를 바꿨다. 새로운 Primitive Shader를 도입, 지오 메트리 처리량을 2배로 끌어올린다. 또 래스터라이저도 일신하고 설계 가능한 메소드를 도입했다. 이어 온 칩 메모리 계층에서는 백엔드도 L2로 캐시하도록 했다.


메모리 계층은 GPU에서 처음으로 비휘발성 메모리의 도입을 전제로 한 메모리 제어를 도입한다. 이는 가까운 장래에 약진할 것이라 기대되는 새로운 비휘발성 메모리 기술을 감안한 대응이다. 이 메모리 아키텍처는 AMD가 엑사플롭 슈퍼 컴퓨터의 메모리 모델로서 제안하고 있는 것과 같다. 또한 데이터 이동의 최적화를 함으로써 데이터의 쓸데없는 트래픽도 없앤다.


AMD의 Vega는 이처럼 그래픽 뿐만 아니라 컴퓨트와 비주얼 라이제이션까지 퍼포먼스를 강화한 새로운 아키텍처다.



마이크로 아키텍처가 바뀐 컴퓨트 유닛

Vega의 CU(Compute Unit)는 "Next-Generation Compute Unit(NCU)"로 내부 마이크로 아키텍처가 일신된다. 아직 자세한 것은 밝혀지지 않았지만 핵심 차이는 밝혀졌다.


현재의 CU에서는 32-bit의 주산 16유닛으로 1개의 벡터 유닛을 구성하고 있다. 1개의 CU에는 4개의 벡터 유닛이 있어 합계 64의 32-bit 유닛을 갖춘다. 각 유닛이 평균 1클럭에 2작업 처리량이기 때문에 CU는 32-bit, 작업은 클럭당 128이 된다.


AMD GPU는 64스레드 배치인 Wavefront 단위로 처리 한다. 각 벡터 유닛은 16유닛으로 4사이클까지 Wavefront를 처리하는 구조다.


NCU에서는 새로운 저 데이터 밀도의 SIMD(Single Instruction, Multiple Data) 연산이 도입된다. 구체적으로는 2-way의 16-bit SIMD 연산과 4-way의 8-bit SIMD 연산이 가세한다. 이는 저 데이터 정밀도가 요구되는 머신 러닝 애플리케이션에 맞춘 확장이다.


AMD도 다른 GPU 제조 업체 같이 연산 유닛의 기본 데이터 밀도는 32-bit다. 그러나 딥 러닝에서는 성능을 올리기 위해 보다 정밀도가 낮은 16-bit와 8-bit가 사용되고 있다. AMD는 그러한 트렌드에 대응해 연산 유닛을 대폭 개편했다.



23_s.jpg
24_s.jpg
25_s.jpg


16-bit시 처리량은 32-bit시 2배, 8-bit시에는 처리량은 4배나 많다. AMD는 이미 Vega10 기반 GPU 컴퓨트용 "Radeon Instinct MI25"에서 하나의 카드로 16-bit 부동 소수점 연산에서 25TFLOPS를 달성하겠다고 밝혔다. NVIDIA의 Pascal(파스칼) 기준 "Tesla P100(GP100)"의 21TFLOPS(FP16)를 넘는다. 8-bit 운영은 더 배가되는 성능의 계산이다.


팩크드형 16-bit와 8-bit 연산 도입

AMD의 현재 아키텍처에서는 32-bit시 예측에 의해 조건 분기에 대응하고 있다. 단 벡터 유닛 속의 32-bit 각 레인은 같은 명령을 실행하는데 각각이 마스크 레지스터로 분기 패스만 실행되어 개별적으로 컨트롤 흐름이 제어된다. 그래서 32-bit시에는 외관상 독립된 스레드로 각 레인이 동작한다.


반면 이번에 도입된 16-bit와 8-bit의 연산은 팩크드(packed)형, 즉 SIMD다. 32-bit의 1레인에서 16-bit시에는 2데이터가, 8-bit시에는 4데이터가 포장되고 같은 명령을 실행한다. 16-bit와 8-bit는 각각 다른 분기 패스를 실행할 수 없다. 그러나 딥 러닝 용도의 경우 팩크드로 대응할 수 있기 때문에 연산 성능이 향상하는 만큼 성능이 올라간다.


GPU에 대한 팩크드 포맷의 저 데이터 밀도 연산의 도입은 딥 러닝 시대에 들어 트렌드다. NVIDIA도 대응을 추진하고 있고 Imagination Technologies의 PowerVR 등도 대응하고 있다.



02_s.jpg


Vega NCU의 또 한가지 중요한 특징은 고클럭화다. AMD는 클럭을 높이기 위해 파이프 라인을 변경했다고 본다. 파이프 라인 단수가 2배가 되면 원리적으로는 GPU 코어의 동작 주파수를 두배 가까이 올릴 수 있게 된다. 이것도 FinFET 프로세스 시대에 들어선 GPU 코어의 트렌드가 되고 있다.


26_s.jpg



FinFET에서는 리크 전류(Leakage)가 크게 떨어지면서 동작 주파수의 액티브 전력도 낮출 수 있다. 그래서 파이프 라인의 세분화에 의한 고클럭화를 행하는 것이 가능하게 된다. 전력 하락분을 고클럭화로 돌리는 것이다.


파이프 라인 단수를 늘리면 파이프 라인 중인 데이터를 유지하는 래치 회로가 늘어난다. 래치는 논리 회로 중의 큰 전력 소비원이기 때문에 누설 전류(Leakage)가 많은 프로세스에서는 파이프 라인 단수를 늘리기 어려웠다. 그러나 Vega는 저 누설 전류(Leakage)의 14nm FinFET 프로세스로 제조되기 때문에 파이프 라인 단수를 늘릴 수 있다.



폭발하는 데이터양에 대응하기 위한 메모리 계층

GPU는 현재 취급하는 데이터 양의 폭발적인 증대에 직면하고 있다. 게임 설치 크기는 격증했고 영화 제작 등 전문 그래픽 데이터 양도 급격히 대형화되고 빅 데이터 분석과 머신 러닝에 의해 컴퓨트의 데이터량은 천문학적인 숫자로 불어나고 있다.


문제는 GPU의 메모리 용량이 그러한 데이터량의 증대 및 GPU 연산 성능의 증대에 걸맞게 늘지 않는다는 것이다. 거기서 Vega는 새로운 메모리 계층의 어프로치를 도입한다. GPU 메모리를 광대역 캐시로 취급하고 GPU 외부의 메모리를 빠짐없이 다룰 수 있도록 한다.


구체적으로는 Vega는 스택 DRAM "HBM2"를 GPU 메모리로 도입한다. Vega10에서는 2스택이다. 그러나 GPU 패키지 인터포즈 위에 올라간 HBM2 만 아니라 오프 패키지의 메모리도 GPU가 다루도록 한다. HBM2는 마치 캐시처럼 다루는, 하드웨어 제어에서 태그 RAM을 갖춘 캐시가 아니라 메모리 제어로서 워킹 메모리로 다루는 이미지다.


비휘발성 메모리(NVRAM)를 포함한 메모리를 GPU가 직접 챙기면서 혹은 직접 다루고 있는 것 같이 할 수 있는 구조를 준비한다. GPU의 DRAM 용량을 그냥 늘리는 것이 아니라 어드레싱할 수 있는 메모리를 다양화하는 것으로 대용량화되는 데이터에 대응한다. 그래서 Vega10에서는 512TB까지 가상 주소 공간을 지원한다. 그리고 계층화된 메모리 간에 효율적으로 메모리를 얼로케이트함으로써 고성능으로 저전력 메모리를 실현한다.


14_s.jpg
15_s.jpg
16_s.jpg


새로운 세이더 스테이지와 래스터 라이저, 캐시 계층의 개량

지오 메트리 파이프 라인은 버텍스 세이더(Vertex Shader)와 함께 지오 메트리 세이더(Geometry Shader)을 거친다. Vega는 새로운 지오 메트리 경로로 Primitive Shader를 도입한다. Primitive 단위로 취급함으로써 피크 처리량을 높인다. 또 렌더링 파이프 라인 전체 워크 로드의 제어도 지능화된다.


AMD 아키텍쳐는 렌더링 백엔드와 텍스처 액세스는 일관되지 않는다. 그래서 렌더링 투 텍스처에 텍스처를 쓰는 경우에는 GPU 내부 캐시 계층을 쓰지 못했다. Vega는 렌더링 백엔드도 L2 캐시로 캐싱 되며 L2에서 캐시 하는 텍스쳐와 일관되며 지오 메트리에서 픽셀에 대한 래스터 라이즈도 스마트화됐다. 이는 VR(Virtual Reality) 같은 두가지 관점의 어플리케이션으로 효과를 발휘할 것으로 보인다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1037849.html

반응형
Posted by 랩터 인터내셔널


미국 NVIDIA는 19일(현지시간) "GeForce GTX 1080"등과 같은 파스칼 아키텍처를 채용한 슈퍼 컴퓨터용 GPU "테슬라 P100"을 발표했다.

Tesla P100은 NVIDIA 자체 고속 인터 커넥트 "NVLink"을 위한 카드형과 통상의 PCI Express카드형 2종류를 준비. 일반용과 달리 메모리에 적층형 HBM2를 채용하고, 메모리 대역은 최대 720GB/sec을 실현한다. NVLink 용은 반정밀도 21TFLOPS, 단정밀도 10.6TFLOPS, 배정밀도 5.3TFLOPS, PCI Express 형은 반정밀도 18.7TFLOPS, 단정밀도 9.3TFLOPS, 배정밀도 4.7TFLOPS의 성능이다. 메모리 용량은 16GB로 PCI Express 형에는 밴드위스 540GB/sec의 12GB 모델도 마련된다.

최근 NVIDIA가 주력하는 기계 학습용 GPU로 기계 학습에 특화된 SDK도 제공하며 Cray, Dell, IBM, Hewlett-Packard 등이 4분기에 탑재 시스템을 출하할 예정.



반응형
Posted by 랩터 인터내셔널

획기적인 새 모드가 추가 된 2세대 HBM

올해(2016년)은 HBM(High Bandwidth Memory)이 본격적으로 전개된다. HBM은 지난해(2015년) AMD의 Radeon R9 Fury(Fiji)계의 제품 패밀리에 채용됐다. 그러나 DRAM 벤더는 SK 하이닉스 한곳에서 채용도 AMD 하나, 그것도 하이엔드 제품에만 채용됐다. 메모리 대역도 GDDR5 베이스의 384GB/sec(512-bit 인터페이스)에 비해 HBM1은 512GB/sec로 33% 증가에 그쳤고 메모리 용량도 GDDR5의 최대 8GB에 비해 HBM 기반 Radeon R9 Fury(Fiji)는 최대 4GB로 반대로 적어졌다. 그 때문에 임팩트는 그리 크지 않았다. 저전력으로 컴팩트 한 Radeon R9 Nano가 빛을 발했지만 HBM이 신기술로 갈채를 받는 일까지는 없었다.

     

1_s.jpg
DRAM 버스폭 전환              


그러나 올해는 2세대 HBM2 기술을 기반으로 한 DRAM이 등장한다. DRAM 제조벤더도 복수, 채용 업체도 AMD 뿐 아니라 NVIDIA 등 여러 업체로 확산된다. 메모리 대역은 1GB/sec로 증가하여 메모리 용량은 최대 32GB(4스택)로 함께 증가한다. 제품 라인도 HBM2 세대에서 퍼포먼스 라인 전체에 확산되기 시작할 가능성이 높다.


HBM규격은 1,024-bit 초 광대역 메모리 인터페이스를 쓴 적층 DRAM 기술이다. HBM1은 전송 속도가 1Gbps였지만 HBM2는 전송 속도가 2Gbps로 오른다. HBM은 DRAM을 적층한 스택 단위로 다룬다. 4스택의 메모리 대역은 HBM1에서 512GB/sec, HBM2는 1TB/sec로 배가된다.


     

2_s.jpg
HBM과 CPU/GPU와의 접속           


뿐만 아니라 HBM1에서는 1다이당 DRAM 용량이 2G-bit지만 HBM2는 8G-bit 다이가 중심이 된다. 또, 스택은 HBM1이 DRAM 다이를 4개까지 적층했던 것이 HBM2에서는 8개까지 적층 된다. 또, 레이턴시 저감과 대역 확장에 효과가 있는 "Pseudo Channel" 모드도 가세한다. 또 ECC 버전이 HBM에 추가된다.

 

간단히 말하면 HBM은 2세대가 되고 성능은 증가하여 기능이 충실하며 제조 측면에서도 채용이 진전되지만 그것 뿐만이 아니다. HBM2는 시장을 더 넓힐 수 있는 새 요소가 추가된다. 그것은 1다이당 메모리 대역을 4배까지 향상시킨 모드다.



2개의 다이에 8채널 1,024-bit의 메모리 인터페이스를 지원


AMD의 Joe Macri(Corporate vice president, Product CTO, Corporate Fellow, AMD)는 지난해 12월 Radeon Technologies Group(RTG)Tech Summit시에 다음과 같이 HBM2에 대해서 설명하고 있다.

 

"HBM의 이점은 폼 팩터와 전력에서 제곱mm당의 대역을 현저하게 증대시키는데 있다. HBM2는 그러한 HBM의 이점을 더욱 발전시킨 규격으로, 2배의 전송 속도다. 그러나 HBM1에서 HBM2로의 변화는 대역만이 아니다. 가장 훌륭한 변화는 스택의 계층 수를 줄일 수 있게 된 것이다. HBM1에서는 4-Hi(4층)스택이 아니면 풀 메모리 대역을 얻지 못 했다. 반면 HBM2에서는 2-Hi(2층)의 스택으로 풀 대역을 얻을 수 있다. 대역 때문에 4-Hi에서 DRAM 다이를 4층으로 해야 한다는 제약이 없어졌다. 더 유연하게 넓은 범위의 제품에 대응할 수 있게 됐다"


왜 HBM1에서는 4-Hi 스택이 아니면 풀 대역을 달성하지 못했는가, 그것은 HBM DRAM의 다이당 채널 폭이 2채널이었다. HBM은 128-bit 너비의 독립된 메모리 채널을 8채널 묶은 사양으로 되어 있다. 128-bit의 채널이 8채널에서 합계 1,024-bit로 이를 1Gbps에서 구동하고 128GB/sec의 대역을 얻는다.



 

3_s.jpg
HBM의 4-Hi스택의 메모리 채널 구성             



그러나 HBM1에서 1개의 DRAM 다이는 2채널까지만 지원할 수 없다. 그래서 4개의 DRAM다이를 적층한 4-Hi 스택이 아니면 1스택당 128GB/sec의 대역을 얻을 수 없다. 2-Hi 스택에서는 절반인 4채널 밖에 적용되지 않기 때문에 메모리 대역은 64GB/sec다. HBM2는 이 부분을 개량했다고 한다.


"HBM2에서도 기본은 4개의 다이로 8채널 폭이다. 그러나 HBM2는 2-Hi 스택의 경우는 2개의 다이에서도 8채널 폭이 가능하도록 했다. HBM1은 8채널 폭에는 반드시 4개의 다이가 필요했다. 여기가 큰 차이로 적은 DRAM 다이 개수로 풀 대역을 얻을 수 있게 된다"



      

4_s.jpg
예상되는 HBM2의 2-Hi 스택의 메모리 채널 구성



2-Hi 스택으로 풀 대역의 구성은 지난해 10월 메모리 콘퍼런스 memcon에서 SK 하이닉스가 밝히고 있다. SK 하이닉스의 슬라이드에서 2-Hi 스택에서도 2Gbps 메모리 대역은 256GB/sec다. 기존의 스펙이라면 2-Hi 스택의 대역은 128GB/sec 이다.



     

5_s.jpg
HBM을 이끌SK hynix의 제품 구성 라인 업


기존의 설계 변경을 최소화한 2-Hi 스택

DRAM 벤더가 2-Hi 스택에서 풀 대역 구성 형태에 대해 이야기하기 시작한 것은 지난해 후반부터다. 처음에는 그런 설명은 하지 않았고 이후에 추가된 사양임을 알 수 있다. HBM2 제품은 처음부터 2-Hi 구성 형태가 지원된다. Macri는 DRAM 벤더 측에 대응하도록 설계를 쉽게 했다고 한다.

 

"메모리 벤더는 DRAM 제조에서 위험을 싫어한다. 그래서 설계에 있어 변경을 최소화하고 또 설계를 공통화함으로써 리스크를 낮출 필요가 있었다. (2-Hi와 4-Hi) 2개의 설계를 1개로 하는 것으로 HBM 설계의 위험을 줄였다. (2-Hi 스택으로 풀 대역은) 아직 정식(JEDEC) 스펙으로는 되지는 않았다. 정식으로 되지 않는 것은 이 사양이 불 필요하다고 생각하고 있는 사람들도 있기 때문이다. 그러나 DRAM 벤더는 이미 대응한 설계로 진행했다"

 

HBM2에서 1다이에 2채널 구성과 4채널 구성에서 HBM DRAM의 다이 자체는 마찬가지가 될 것으로 보인다. 그렇다면 DRAM 벤더들은 2가지의 다른 DRAM 다이를 설계&제작할 필요가 없어지고 투자와 위험이 적어진다. 단, 다이의 메모리 뱅크 수는 바뀌지 않을 것으로 보인다. 그 경우 채널당 메모리 뱅크 수는 반감될 가능성이 있다.

 

그러나 HBM2에는 Pseudo Channel 기능이 있고 원래 뱅크를 분할하고 2개의 Pseudo Channel 에 할당하여 쓸 수 있다. HBM2는 레거시 모드에서 1채널당 16뱅크로 Pseudo Channel 모드에서는 1 Pseudo Channel 당 16채널이다. 1다이에 4채널 모드시에는 이 기능을 조합함으로써 뱅크 충돌을 낮출 수 있다. 이러한 HBM2는 처음부터 기능을 잘 사용하면서 공통 설계화하고 설계와 제조 비용을 낮추는 방법을 취했다고 추측된다.



 

6_s.jpg
HBM1의 뱅크 아키텍처
7_s.jpg
8_s.jpg
HBM2 Pseudo Channel 아키텍처



HBM2는 핀당 전송 속도는 HBM1의 2배가 되었다. 더불어 다이당 채널 수도 배가하는 구성이 가능했다. 그래서 다이당 전송 대역은 HBM1의 피크에서 2배에 이른다.

 

"HBM1에서는 4개의 DRAM 다이를 사용한 1개의 4-Hi 스택으로 메모리 대역은 128GB/sec였다. HBM2는 전송 속도가 HBM1의 1Gbps에서 2Gbps로 2배로 올랐다. 그 위에 2-Hi 스택으로 풀 대역을 얻을 수 있게 되었기 때문에 4개의 DRAM 다이를 사용한 2개의 2-Hi 스택에서 512GB/sec의 메모리 대역을 얻을 수 있다. 다시 말하면 HBM2의 다이당 메모리 대역은 HBM1의 4배다. 같은 수의 DRAM 다이로 4배의 대역이 달성된다. 놀라운 메모리 대역 효율이다. 그리고 다이수가 적으면 그 만큼 비용이 낮아진다. 그래서 HBM2는 대역당 비용 면에서도 효율적이다"(Macri)


 

HBM2를 CPU 나 APU 캐시에 채용하는 길이 열려

HBM2의 2-Hi 스택 구성이 중요한 것은 HBM2를 미들 레인지 GPU 제품이나 최종적으로는 APU(Accelerated Processing Unit)에도 채용할 수 있는 길이 열린 것이다. 보다 작은 메모리 입도에서 광대역이 가능하므로 제품 가격을 생각한 카테고리의 제품이나 캐시적인 방법을 사용하는 제품에도 확대할 수 있게 된다.

 

HBM1에서는 DRAM의 다이당 용량은 2G-bit 였기 때문에 4-Hi 스택에서 스택 용량이 1GB, 4개의 스택에서 합계 4GB로 용량이 고정되어 있었다. 반면 HBM2는 DRAM 다이당 용량은 현재 8G-bit다. 따라서 4-Hi 스택을 4개 사용하면 스택당 4GB 용량으로 합계 16GB 용량이다. 16GB 밖에 선택할 수 없다고 한다면 그래픽 용도에서는 도입이 불편하다.



 

9_s.jpg
HBM2의 메모리 용량


그러나 HBM2에서는 2Hi 스택으로 풀 대역을 갖는다. 그래서 2-Hi 스택을 4개 사용한 1TB/sec으로 8GB의 메모리 구성도 가능하다. 혹은 2Hi 스택을 2개 사용한 512GB/sec로 4GB 메모리 구성의 GPU도 가능하다. 그것은 2Hi 스택 하나만 256GB/sec로 2GB로서 APU 캐시적인 사용법의 구성을 취하는 것도 가능하다. HBM은 2세대 만에 시장 범위를 넓힐 수 있게 된다.

 

"HBM에서는 메모리 대역을 메모리 용량보다 우선하여 설계했다. HBM1은 웬만한 메모리 용량에서 매우 넓은 대역이 되었다. 하지만 향후의 HBM에서는 2-Hi에서 저용량도 있고 능력이 필요한 경우에는 스택을 8-Hi로 거듭함으로 늘릴 수 있다. 그래서 용량보다 대역을 우선하는 소비자 시장에서 용량을 중시하는 HPC나 워크스테이션 시장까지 넓게 커버할 수 있게 됐다"고 AMD의 Macri는 말한다.

 

실제로 HBM2가 먼저 확산되는 곳은 GPU 컴퓨팅 등의 시장이 될 것이다. HPC(High Performance Computing)의 슈퍼 컴퓨터 시장 및 초 광대역이 요구되는 네트워크 시스템 등의 임베디드 기기 등이 최초의 HBM2 시장으로 예상된다. 하지만 HBM2는 사양은 보다 넓은 시장으로 확대될 수 있게 됐다.

 

출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20160128_740790.html

 

반응형
Posted by 랩터 인터내셔널

4.jpg


AMD 미국 샌프란시스코 행사

AMD는 올해(2016년) 투입하는 차세대 GPU 아키텍처 "Polaris(폴라리스)"의 플래그십 GPU "Polaris 10"과 "Polaris 11"의 실제 칩 시연을 공개했다. 또 Polaris에 이어"Vega(베가)"와 "Navi(나비)"까지 로드맵을 밝혔다. 또 Fiji(피지)를 2칩 장착한 16TFLOPS의 하이엔드 제품 "라데온 프로 듀오를 발표했다. AMD APU를 탑재한 획기적인 올인원 VR(Virtual Reality)/AR(Augmented Reality)헤드셋"Sulon Q"도 소개했다.

 

AMD는 "CAPSAICIN"이란 컨퍼런스를 미국 샌프란시스코에서 개최했다. 새로운 GPU 로드맵과 함께 폴라리스 시연과 파트너들의 VR 콘텐츠 등 다채로운 내용을 소개했다. 회의에는 라데온 제품 그룹 총괄 Raja Koduri(라자 코두리)(Senior Vice President and Chief Architect, Radeon Technologies Group, AMD)뿐 만 아니라 AMD를 이끄는 Lisa Su(리사수)(President and CEO, AMD)도 등단했다. 또 회장에는 기술 면의 톱인 Mark Papermaster(마크 페이퍼마스터)(Senior Vice President and Chief Technology Officer, AMD)도 등단해 올 스타 멤버로서 이번 발표에 AMD가 힘을 쏟고 있음을 나타냈다.


5.jpg


7.jpg

 


별 시리즈가 된 AMD GPU 아키텍처 코드 네임

AMD GPU는 드디어 FinFET 3D 트랜지스터 세대에 돌입한다. 4년 이상 지속된 28nm프로세스에서 벗어나 전력당 성능을 크게 향상시킨다. FinFET의 첫 세대가 되는 폴라리스 패밀리는 올해(2016년)등장한다. 폴라리스는 28nm세대의 GPU에 대한 성능/전력이 2.5배로 높아진다는. 이는 FinFET에서 트랜지스터가 입체 구조로 되어 채널이 바디에서 거의 분리되며, 게이트 면적이 늘어남으로써 누설 전류(Leakage)의 억제가 쉽게 되기 때문이다. 성능/전력은 어떤 제품을 비교하느냐에 의해서 바뀌므로 2.5배라는 숫자는 최대 2.5배로 생각하는 게 좋을 것이다. 그래도 극적으로 전력 효율이 올라가는 것은 틀림 없다. 또한 AMD는 글로벌 파운드리의 14nm LPP 프로세스를 채용할 것으로 보인다.


AMD, GPU 아키텍처의 코드 네임은 향후 세대는 별 이름이다. FinFET의 첫세대의 Polaris(북극성)이 천구의 지침이 되는 별임은 향후 방향성을 나타내는 것을 암시하는 것으로 보인다. 2세대 베가(거문고 자리 α)는 밝게 빛나고 1등성으로 보다 성능이 올라가는 것과 관계될 것으로 보인다. 참고로, 3세대 나비(카시오페아 자리 γ)는 변칙적인 변광성으로 신비적인 거성이다. 나비라는 이름은 비운의 우주 비행사 가스 그리송(아폴로 1호 사고로 사망)의 이름을 지었다.


10.jpg



 

 

HBM2와 확장형 인터커넥트 시기가 분명히

이번에 폴라리스 세대는 메모리가 HBM2가 아니라 HBM1세대에 있는 것으로 드러났다. HBM2 메모리로 변하는 것은 폴라리스에 이은 베가다. AMD 차트는 폴라리스와 베가 발매 시기가 근접하고 있다. 이는 이 2개의 GPU 아키텍처가 비교적 근사한 것으로 추측된다. GPU마이크로 아키텍처적으로 베가는 폴라리스의 발전형으로 메모리 대역이 최대 2배로 오를 것으로 예상된다.

 

HBM2가 되면 메모리의 핀에 전송 속도가 2배가 될 뿐 만 아니라 메모리 채널의 효율이 크게 높아진다. 또 DRAM 다이의 용량이 2G-bit에서 8G-bit로 오르기 때문에 메모리 용량도 대폭 늘어난다. 현재의 HBM1 채용 GPU 피지는 4스택 구성으로 메모리 용량이 4GB지만 HBM2가 되면 메모리 용량은 최대 32GB로 8배가 늘어난다. 그래서 서버 시장에서도 매력적이다.


나비는 "Scalability(확장성)"과 "Nexgen Memory(차세대 메모리)" 2개가 타이틀이다. 확장성에 대해서는 Raja Koduri가 지난해(2015년)개요를 밝히고 있다. 그에 따르면 확장성은 멀티 GPU를 효율적으로 동작시키기 위한 플랫폼으로 GPU에 최적화한 초 광대역 인터커넥트를 도입한다. 새 인터커넥트로 GPU 뿐 만 아니라 CPU와 FPGA등도 접속할 수 있다. 또 메모리코히렌시도 이뤄질 전망이다. 작년의 단계에서 그는 도입 시기를 밝히지 않았지만 이번에 나비 세대에서 도입될 것으로 밝혀졌다. 차세대 메모리에 대해서는 현 시점에서 아직 밝혀지지 않았지만 새 메모리로는 HBM의 확장 규격, GDDR5의 후계 규격 등이 현재 거론되고 있다.


나비의 제조 공정 기술에 대해서는 로드맵상 10nm프로세스도 이용할 수 있지만 최근에는 새 프로세스를 GPU에 적용하는 것은 늦어지기 때문에 정확하지 않다.


12.jpg


 

 

올인원의 VR/AR기기가 실현

AMD는 이번 CAPSAICIN 컨퍼런스에서 GPU의 향후 적용 분야로서 VR/AR분야를 특히 중시하고 있음을 거듭 강조했다. 그런 노선의 최신 제품으로 AMD가 소개한 것은 "Sulon Q"다. 캐나다의 스타트 업 Sulon Technologies가 개발하는 Sulon Q는 얼핏 다른 VR 헤드셋처럼 보이지만 실태는 헤드셋 내에 컴퓨터를 내장한 PC가 불필요한 올인원 VR/AR기기다.

 

내장하는 것은 Carrizo(카리조)APU(Accelerated Processing Unit)기반의 "AMD FX-8800P"에 윈도우10이 운영되는 모바일 컴퓨터다. 256GB SSD에 8GB DRAM을 내장하고 디스플레이는 2560×1440의 유기 LED, 카메라도 내장하며 카메라의 화상을 끌어들임으로써 AR기기가 된다. 그것도 기존의 AR처럼 카메라 영상에 단지 오버랩하는 것이 아니라 넣은 화상에서 "공간 처리(Spatial Processing)"를 한다. "Spatial Processing Unit" 이라고 부르는 유닛을 탑재하고 있으며 실시간으로 현실 세계를 3D 매핑하고 CG와 합성한다.


AMD의 컨퍼런스에서는 Sulon의 CEO인 Dhan Balachand가 등단해 Sulon Q를 사용한 AR시연을 보였다. 시연에서는 Sulon 사무실에 AR에서 서로 겹쳐지는 마법서가 등장했다. 마법서에서 뿌려진 씨앗이 사무실의 지붕을 뚫고 덩굴을 편다. 그 지붕의 틈에서 거인이 들여다보면 Sulon Q의 유저를 잡아 올린다.


AMD GPU는 FinFET 세대의 폴라리스 이후는 저전압시 특성이 크게 높아진다. 그 때문에 이러한 올인원 VR/AR기기는 더 만들기 쉽다.


19.jpg


 

 

듀얼 GPU 솔루션의 최고봉 Radeon Pro DUO가 등장

AMD는 이번에 피지를 2칩 장착한 라데온 프로 듀오(Radeon Pro Duo)를 발표했다. Fiji는 HBM 메모리이므로 메모리 자체는 온 패키지로 듀얼 칩보드에서도 실장 면적은 그 만큼 크지 않다. 이러한 듀얼 GPU 솔루션도 확장형 인터커넥트를 갖춘 나비 이후에는 크게 바뀐다. GPU 들을 광대역 인터커넥트로 직결하는 것이 가능하고 확장성 면에서 크게 진화한다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/20160316_748463.html

랩터 인터내셔널 - http://raptor-hw.net

반응형
Posted by 랩터 인터내셔널