'서밋릿지'에 해당되는 글 2건

  1. 2016.08.19 AMD 젠 아키텍처 공개, 인텔을 넘어설까? (서밋릿지) by 랩터 인터내셔널
  2. 2016.04.25 AMD CPU 로드맵, 데스크탑용 브리스톨릿지는 6월 발표? by 랩터 인터내셔널

Zen의 세부 사항은 다음주 회의에서 발표

AMD는 고성능 CPU 시장 점유율을 탈환하기 위한 수단으로 차세대 x86 CPU "젠(Zen)"을 투입한다. Zen은 현재의 불도저계 CPU 코어 "Excavator(엑스카베이터)" 보다 40%의 클럭당 정수 명령 실행 성능이 높아진다. 또 AMD의 CPU에서는 처음으로 SMT(Simultaneous Multithreading)를 지원하여 2쓰레드를 1코어로 실행 가능하다. 14nm FinFET 프로세스에서 제조되기 때문에 AMD의 28nm 현행 APU와 40nm의 현행 CPU보다 성능/전력이 비약적으로 향상된다.


AMD는 미국 샌프란시스코에서 프레스 컨퍼런스를 개최, Lisa Su(리사수, President and Chief Executive Officer, AMD)와 기술 부분을 이끄는 Mark Papermaster(마크 페이퍼마스터, Senior Vice President and Chief Technology Officer, AMD)이 등장하여 젠을 발표했다. 이 회사는 다음주 칩 컨퍼런스 "Hot Chips"에서 젠의 상세 내용을 발표할 예정이지만 그 개요를 조기 공개했다.


젠은 현행 불도저계 CPU와는 달리 완전히 처음부터 설계된 새로운 CPU 코어다. Bulldozer에서는 2CPU 코어가 1모듈이 되고 있지만 젠은 독립된 CPU 코어 구성을 이룬다. AMD는 Zen 코어를 우선 8코어 CPU 제품 "Summit Ridge(서밋 릿지)"로 제공한다. 또 32코어 "Naples"도 서버 시장에 투입한다. AMD의 하이엔드 데스크탑&서버 CPU는 오랫동안 신제품 부재의 상황이었지만 젠 기반 제품 패밀리로 단번에 만회한다.

정공법, 마이크로 아키텍처로 공격하는 Zen 프로세서

AMD는 젠 아키텍처를 높은 성능, 산출량, 효율을 염두하고 설계했다고 설명했다. 기존 Bulldozer형 아키텍처는 싱글 스레드 성능을 어느 정도 막고 전력과 다이 면적당 성능을 추구했다. 반면 Zen은 싱글 스레드 성능을 추구하면서 성능 효율을 높인 점이 다르다.



1_s.png
Zen의 설계 사상


CPU 아키텍처를 보면 그 설계 사상을 알 수 있다. Zen은 스트레이트 포워드 즉, 정공법으로 아키텍처를 조립하고 있다. 4명령/사이클의 명령 해독기에서 x86/x64 명령을 내부 명령 Micro-Op/uOP에 디코드, uOP를 정수와 부동 소수점 연산계로 크게 2개로 나누어진 스케줄러에서 처리한다. 처리 대역은 최대 6 uOPS/사이클이다.


정수 계열은 4연산 파이프와 2주소 생성 파이프, FP계는 SIMD(Single Instruction, Multiple Data)의 FP곱하기와 FP가산의 쌍이 2개 4파이프. 메모리 계층은 64KB의 L1 명령 캐시와 32KB의 L1 데이터 캐시, 512KB의 L2 캐시와 코어 사이에서 공유하는 8MB의 L3 캐시에 추가 명령 디코더의 하류에 uOP 캐시를 갖춘다. 아키텍처적으로는 Intel CPU와 설계가 비슷한 부분도 많다.


Bulldozer계의 CPU코어는 쓰레드당 정수 연산 파이프가 2개였다. 그것에 비해 젠은 정수 연산 파이프는 4개로 배가량 늘었다. AMD의 현재 CPU코어 "Excavator" 보다 클럭당 정수 계열의 명령 실행 성능 IPC(Instruction-per-Clock)는 40%나 높아진다. 참고로 K10 까지의 옛 AMD 아키텍처는 정수 연산 파이프가 3개다. 4개의 정수 연산 파이프는 AMD 아키텍처에서는 처음이다.


Micro-Op/uOP 캐시를 갖춘 Zen 프론트 엔드

Zen의 프론트 엔드는 L1명령 캐시는 64KB의 4-way에 L1으로부터 명령 페치는 32바이트 폭이다. 명령 해독기는 4-way로 최대 4개의 x86/x64 명령을 디코딩 할 수 있다. 종래대로 명령 퓨전을 장착하고 있다면 분기 명령 등을 융합시키는 것으로 최대 5명령 부분을 디코딩 하는 것이 된다. x86/x64 명령을 디코딩 하여 생성된 내부 명령 Micro-Op/uOP는 큐에서 큐잉되고 프론트 엔드에서는 분기 예측도 강화됐다.


Zen의 프론트 엔드에서 기존 AMD 아키텍처에 없던 것은 "uOPs Cache"로 디코딩 한 uOPs를 캐시한다. 가변 길이로 다양한 명령 형식이기 때문에 명령 디코딩이 복잡하게 되는 x86/x64명령의 디코딩을 생략하고, 디코딩을 마친 uOPs를 캐시 함으로써 효율적인 명령 피드를 실현한다. 전력 소비가 많은 명령 디코딩을 건너 뛰기 때문에 전력 절약 측면에서의 효과도 크다. AMD는 큰 uOP 캐시라고 설명하고 있기 때문에 수십 명령 정도의 루프 캐시가 아니라는 것을 알 수 있다.


인텔도 같은 구조를 가지고 있으며 uOPs 캐시의 태그가 L1 명령 캐시의 태그와 연결되고 있다. L1 명령 캐시를 매핑하는 히트 로직을 채용하는 것으로, 트레이스 빌드 등을 하지 않는 심플한(단, 소모도 많다)제어를 하고 있다. 현재의 스카이레이크의 경우 uOP 캐시 메모리에는 64바이트 분량의 L1 명령 캐시 페치 윈도우를 매핑하고 있다.



2_s.png
Zen 아키텍처



Micro-Op/uOP 큐에서는 1사이클에 6개의 uOPs를 스케줄러에서 처리할 수 있다. 만약 명령 해독기가 4 uOPs/사이클 밖에 디코딩을 못하면 복호화 대역으로 벗어나게 된다. 더구나 uOP캐시에서 페치가 최대 6 uOPs의 가능성도 있다. 인텔의 스카이레이크도 Micro-Op/uOP 캐시로 히트한 경우 최대 6 uOPs를 페치 할 수 있다. 기존의 Bulldozer계 CPU 코어는 스케줄에 대해 4 uOPs 처리기 때문에 AMD는 Zen이 1.5배의 명령 대역이라고 설명했다.


그리고 x86/x64 CISC(Complex Instruction Set Computer)명령을 실행하는 AMD CPU는 기존에는 마이크로 오퍼레이션을 복합시킨 Macro-OP를 스케줄 단계에서 운영 단위의 Micro-OP로 변환하는 스타일을 취했다. 내부적으로도 CISC 형태였다. Zen의 경우는 아직 어떤 uOPs로 구성되어 있는지는 모른다.




3_s.png
Zen 코어 마이크로 아키텍처


4개의 정수 연산 파이프의 Zen 정수 코어

Zen의 정수 코어 구성은 4개의 정수 연산 파이프에 2개의 로드/스토어 파이프의 구성, 기존 Bulldozer계 코어는 2개의 정수 연산 파이프와 2개의 로드/스토어 파이프다. 그래서 AMD는 Zen에는 실행 자원이 1.5배가 되었다고 주장하고 있다. 파이프를 늘렸을 뿐만 아니라 AMD는 명령의 스케줄링 윈도우도 1.75배로 했다. 다만 이는 1코어당 비교일 가능성이 있다. AMD는 Zen에서 보다 큰 1코어에서 2쓰레드를 실행하는 구조여서 쉽게 비교할 수 없다. 더 자세히 보면 Zen 코어는 스택 오퍼레이션을 위한 하드웨어 엔진을 갖는 Move 명령의 엘리미네이션도 한다.



4_s.png



FP 연산 파이프에 대해서는 아직 모른다. AMD는 Zen에서 부동 소수점 연산 성능도 크게 향상된다고 설명했다. AMD 슬라이드 상에서의 구성은 곱셈 유닛이 2개에 가산 유닛이 2개. 곱셈 유닛과 가산 유닛을 조합함으로써 주산 명령을 실행할 것으로 보인다. SIMD(Single Instruction, Multiple Data)유닛이지만 SIMD폭은 아직 모르지만 256-bit 4유닛으로 예상된다.



5_s.png



로드/스토어는 주소 생성 유닛이 2유닛. 다만 2로드와 1스토어를 병렬 실행할 수 있다고 생각되고 있다. L1 데이터 캐시는 32KB로 8-way. 데이터 캐시 메모리에는 프리페처가 있는데 Zen 에서는 이것이 대폭 강화됐다. 더 복잡한 데이터 패턴을 선반입할 것으로 예상된다.


스레드 병렬을 SMT(Simultaneous Multithreading)로 전환한 Zen

캐시 계층은 L0에 해당하는 uOP 캐시라 웬만한 용량의 L1, 상대적으로 작은 L2, 대용량으로 코어 간에서 공유 L3의 4단계 구성이다. L2를 줄이면서 L2 접속 레이턴시는 크게 단축됐다고 보인다. 캐시 계층은 Intel CPU 캐시 계층과 거의 비슷하다. 캐시 대역은 L1 명령 캐시에서 페치가 32-byte(256-bit)/사이클. L1 데이터 캐시에서 2개 16-byte(128-bit) 로드와 1개 16-byte(128-bit) 스토어를 병렬 실행 가능하다. L2의 대역은 L1 명령 캐시와 L1 데이터 캐시가 각각 32-byte(256-bit)/사이클.L3와 L2 사이도 32-byte(256-bit)/사이클이다.



6_s.png



스레드 병렬성에서 Zen은 SMT(Simultaneous Multithreading)를 구현하여 2쓰레드를 혼재 실행할 수 있다. Bulldozer형 아키텍처에서 스레드마다 독립된 정수 코어를 갖춤으로써 2쓰레드를 병렬 실행했다. Bulldozer계에서는 FP 유닛과 L2 캐시를 2스레드에서 공유하고, 메인 정수 유닛은 스레드마다 독립시킨 구성이었다. 반면 Zen에서는 큰 싱글 코어에서 2쓰레드를 병렬 실행한다. 인텔의 Hyper-Threading과 기본적인 부분은 같다.


2개의 스레드는 각각 독립된 프로그램 카운터를 갖고 아키텍처 레지스터 파일도 개별된다. 실제로 아키텍처 레지스터는 물리 레지스터 파일에 리네이밍 장치에서 매핑한다. 각각의 스레드 명령은 아웃 오브 오더 실행 엔진에서 병렬 실행된다.



7_s.png


데스크탑용은 8코어 Summit Ridge

Zen의 제조 공정 기술은 14nm 노드. 글로벌 파운드리의 14LPP 로 보인다. AMD의 CPU나 APU(Accelerated Processing Unit)에서는 첫 FinFET 3D 트랜지스터 프로세스가 된다. AMD는 APU가 28nm, CPU가 40nm 프로세스였으므로 14nm의 FinFET 프로세스로의 이행은 큰 점프다. 누설 전류(Leakage)가 떨어질 뿐 아니라 일정한 동작 주파수때 액티브 전류도 떨어지기 때문에 큰 폭으로 전력 절약이 된다.



8_s.png



AMD는 동작 주파수당 전력 소비는 현재의 CPU 코어 Excavator과 동등하며 IPC(Instruction-per-Clock)가 40% 나 오른다고 강조한다. 또 AMD는 앞으로 Zen 코어를 발전시키며 더 실행 효율을 높인 "Zen+"가 예정되어 있다.



9_s.png
10_s.png



먼저 제품화되는 것은 하이엔드 데스크탑용 "Summit Ridge(서밋 릿지)". 8코어에 16스레드의 CPU 제품이다. 소켓 플랫폼은 "AM4", 메모리는 DDR4, I/O는 PCI Express gen3, 아직은 공개되지 않은 칩간 인터커넥트를 갖춘다. 게이밍과 VR(Virtual Reality), 워크 스테이션 등의 시장을 노린다.



11_s.png
12_s.png
13_s.png
14_s.png



또 AMD는 32코어 서버 SoC(System on a Chip) "Naples"도 공개했다. SMT로 64스레드의 몬스터 CPU다. 구성을 감안하면 4개의 Summit Ridge 다이를 연결할 가능성도 있다. AMD가 공개한 것은 Naples의 2소켓 서버였다.



15_s.png
16_s.png
32코어 Naples


또 AMD는 앞으로 Zen 베이스의 APU(Accelerated Processing Unit)도 투입한다. 메인 스트림의 데스크톱과 노트북 PC 또 임베디드까지 Zen을 가져온다. AMD에게 지금까지는 획기적인 CPU나 APU가 없는 어려운 시기였지만 Zen의 투입으로 상황을 바꾸려 하고 있다.


출처 - http://pc.watch.impress.co.jp/docs/column/kaigai/1015633.html

반응형
Posted by 랩터 인터내셔널

 

2014년~2017년 AMD 프로세서 로드맵


우선 지난번부터 현재 시점 사이의 주요 제품에 대한 업데이트다. 올해 2월 AMD는 "A10-7860K"APU와 "Athlon X4 845"를 발표했다.

 

이 중 A10-7860K는 갓다버려(Godavari) 즉, Kaveri 기반 제품이지만 Athlon X4 845는 Carrizzo코어 GPU를 무효화한 제품이다.

 

Carrizo 코어 자체는 연재 294회에서 해설했는데 여기서 쓴 대로 본래 Carrizo와 그 바탕이 되는 Excavator 코어는 Kaveri/Godavari 에서 뽑던 Steamroller 코어를 저전력용으로 부여함으로써 성능/소비 전력비를 개선했다.(반대로 말하면 절대 성능이 안 올라갔다)

 

그 Carrizo를 채용한 하이엔드 제품은 모바일 "FX-8800P"로 CPU코어는 정격 2.1GHz/부스트 3.4GHz, GPU는 8CU(512SP)에서 800MHz라는 구성이 35W로 유지되며 성능/소비 전력비가 높은 것으로 나타났다.

 

이 FX-8800P의 GPU를 무효화, 동작 주파수를 정격 3.5GHz/부스트 3.8GHz까지 끌어올리고 TDP 65W의 Athlon X4 840(정격 3.1GHz/부스트 3.8GHz)보다 미묘하게 작동 주파수를 상승시키는데 성공했다. 다만 2차 캐시는 반감되고 있으므로 성능적으로는 위치가 미묘한 것이다.

 

AMD는 왜 이런 제품을 낸 것일까? 아마도 Carrizo 코어의 재고 처분으로 보인다. 후술 하지만 Carrizo 세대의 APU는 모바일을 타겟으로 했지만 그리 많이 팔지는 못했다.

 

그리고 곧 AMD는 플랫폼을 일신했기 때문에 구세대 APU를 파는 것이 매우 어려워진다. 그래서 어떻게든 판다는 것이다.

 

그리고 이와 관련될지는 모르지만 "A8-7690K"는 결국 나오지 않기로 된 것 같다.

 

이어 3월에는 "A10-7890K"가 발표되었다. 이 A10-7890K가 Godavari 세대 하이엔드이자 마지막 제품이 된다.


 

 

A10-7890K


"A10-7850K"에서 2년여만에 겨우 정격으로 4GHz에 달하는 곳까지 끌고 온 것은(28SHP가 사실상 AMD전용 프로세스지만)팹리스 상태에서 잘했다고 봐야한다.



2014년~2017년 AMD 프로세서 로드맵


데스크탑용 Bristol Ridge는 6월 발표?

여기에서는 앞으로의 얘기가 된다. 이미 보고한 대로 AMD는 올해 4월에 브리스톨릿지 기반의 APU 존재를 발표했다. 우선 HP ENVY x360에 채용되면서 올해 COMPUTEX에서 공식 발표하겠다고 밝혔다.

 

이 발표에서는 어디까지나 모바일 제품만 언급되고 있었지만 원래 AMD 제품 로드맵에는 올해 데스크탑용으로도 브리스톨릿지를 투입하겠다고 밝혔고, COMPUTEX의 시점에서 적어도 데스크탑용 발표가 이루어지는 것은 틀림 없다고 생각한다.


 

 

AMD의 친숙한 로드맵


왜냐하면 메인보드 벤더도 이 시점에서 Socket AM4 메인보드를 발표한다고 했으니 그렇게 되면 CPU의 발표가 없다는 것은 있을 수 없기 때문이다.

 

그리고 데스크탑용 브리스톨릿지의 라인업도 나오고 있다. 제품 이름은 수상하지만 9000번대는 틀림 없다. 라인업으로는 4P+8CU의 A10등급이 2제품, 4P+6CU의 A8등급 2제품, 2P+4CU의 A6등급 1제품, GPU 없이 Athlon X4전용 3제품으로 라인업되고 있다.

 

작동 주파수는 낮았고, 하이엔드(그림에서는 A10-9850K?라고 표시)가 정격 3.6GHz/부스트 4GHz로 대체로 Kaveri의 A10-7850K와 동등하다. GPU는 948MHz로 구동되며 전체 성능에서는 A10-7890K을 다소 웃돌것으로 전망된다. 그 최대의 이유는 DDR4 지원이다.

 

이는 일련의 Bulldozer 시리즈 코어 전체 이야기도 있지만 어느 정도 처리량을 목표로 한 코어기 때문에 메모리 접속 대역이 부족하면 성능이 나오지 않는다.

 

Kaveri는 그 때문에 재빨리 DDR3-1866과 DDR3-2133을 지원해 성능 향상을 이루었고 GPU코어와 메모리 대역의 쟁탈이 된다는 APU의 기본적인 제약도 없었다.

 

이 제약 자체는 브리스톨릿지도 변하지 않지만 Socket AM4는 DDR3와 DDR4 두가지 대응이 되어 있으며 이미 DDR4-2400 모듈은 일반적으로 입수가 가능한 상황이다.

 

실제로 모바일은 오버클럭 요소도 없어 정규로 입수할 수 있는 DDR4-2400 단계에서 제품 발표가 진행되겠지만 데스크탑용은 더 빠른 DDR4-2666까지 지원 할 가능성도 있다.

 

DDR4-2666이면 DDR3-1866과 비교해 43% 정도 대역이 향상되는 것으로 이는 CPU측의 성능 향상에도 효과적일 것이다. 물론 GPU측에서도 대역 증가는 성능 향상에 뛰어난 효과가 있다.

 

브리스톨릿지는 CPU 코어 구성이 기본 Carrizo와 같아 2차 캐시는 2MB로 축소됐으며 이로인해 성능이 떨어지는 부분도 있겠지만 전체적으로는 Godavari 세대보다 성능 향상이 가능할 전망이다.


그리고 그 이후의 이야기는 아직 분명치 않다. Zen에 대해서는 최초의 샘플이 이미 나오고 평가가 시작 중이라는 이야기도 나오고 있고, 실제 시기적으로는 보이지 않는다는 이상한 점도 있다.

 

당초 동작 주파수는 3GHz 전후 같지만 이는 연재 333회에 쓴 숫자와 거의 일치하며 일단 타당한 범위라고 생각된다. 문제는 이것이 어디까지 오를 것이냐는 점이다.

 

이 주파수의 상승이 걸린다는 말은 연재 338회에서 해설한 대로다. FinFET 세대의 경우 어쨌든 코어의 최적화에 막대한 시간을 필요로 하고 있어 이를 단축하기 위해서는 막대한 비용과 인력이 소요된다.

 

어디까지나 현재 나오는 있는 것은 정말 초기 샘플일 뿐이며 예를들어 브로드컴이 초기 2.5GHz에서 이를 최종본 3GHz 구동까지 가져가는데 반년이 걸렸다.

 

지금은 95W 소비 전력으로 3GHz(정격만,부스트 없이)라는 스펙은 "뭐 그저 그런 것"이라는 것이 솔직한 느낌이고, 이를 출하 시기까지 예를 들면 95W에서 정격 3.5GHz/부스트 4GHz에 가지고 갈 수 있을지는 여기부터 반년 정도의 작업이 걸린다.

 

소문에는 10월에 서밋릿지(Summit Ridge) 기반의 AMD FX가 공개된다는 이야기가 있지만 개인적으로는 다소 너무 낙관적인것 같다. 빠르면 크리스마스 근처 아닐까.

 

2017년에는 이 Zen 코어에 GPU을 조합한 8세대 APU가 나오게 되는데 개인적으로는 이 GPU 코어에는 Polaris 11이 통합될 수도 있을 것이다. 그때쯤 GPU는 다음의 Vega 아키텍처가 투입되는 시기여서 "APU는 1세대 전의 GPU 코어를 통합한다"는 AMD의 룰이 있기 때문이다.

 


나쁜 실적을 발표해도 중국 IP 라이센스 공여로 주가 상승

 

로드맵의 이야기는 여기까지지만 마지막으로 지난주 발표된 AMD의 2016년 1분기 실적 발표 이야기에 대해 언급하고 싶다.

 

우선 실적 자체적으로는 좋지 않다. 쉽게 요약하면 다음과 같다.


 

 

AMD의 2016년 1분기 실적 발표. 4월 21일자 Earning Call 슬라이드


매출은 문자 그대로 매출이고, 이익률은 요컨대 무언가를 팔고 남은 것이다. AMD는 이것이 30% 대로 꽤 낮다. 인텔의 경우 올해 1분기 실적 보고에 의하면 59.3%로 평균 60% 가까운 이익율이다.

 

대부분의 반도체 업체들의 경우 총 이익률이 40% 이하에서는 꽤 어렵고 50%를 넘는 경우 안정이라는 느낌이어서 다소 어려운 숫자다.

 

실제 8억 3200만달러를 팔아도 매출 총 이익률이 32%여서 총 이익은 2억 6600만달러 가량에 지나지 않는다. 그런데 영업 비용이 3억달러 이상 들었다면 그것은 적자인 셈이다.

 

참고로 이 숫자는 GAPP(Generally Accepted Accounting Principle:미국 회계 기준)에 준거하지 않은 것으로 GAPP에 준거한 자료는 좀 더 숫자가 나빠지는데 이것은 본질이 아니므로 여기서는 생략한다.

 

그럼에도 불구하고 이 발표를 한 AMD CFO의 발언은 낙관적이었다. 물론 매출이 다소 낮은 것은 세미 커스텀 SoC 매출이 늘지 않아 모바일 프로세서 매출도 늘지 않았던 것이 주 요인이지만 영업 비용에 포함되는 개발비(말할 필요도 없이 Zen이나 Polaris/Vega의 개발비)가 이후로는 줄어들기 때문에 다소 자금 사정이 개선된다는 이야기와 다른 하나는 중국에 대한 IP 라이센스 이야기가 있었기 때문이다.

 

그 IP 라이센스의 이야기가 아래의 사진이다. AMD는 중국 텐진에 본사를 둔 THATIC(Tianjin Haiguang Advanced Technology Investment Co., Ltd.)와 공동으로 조인트 벤처를 설립, AMD는 이 조인트 벤처와 CPU 코어를 IP 라이센스로 공여하고 SoC 제조 디자인 서비스를 제공한다. 조인트 벤처는 이 IP을 바탕으로 중국내 서버용 칩을 제조 판매한다.


중국에 IP 라이센스를 공여. 이 발표로 실적 결과가 좋지 않음에도 AMD의 주가는 급등


이 계약에 있어서 AMD는 조인트 벤처에서 총 2억 9300만달러의 라이센스 등의 비용을 얻고 실제로 제품이 출하될 때마다 로열티도 받게 되어 있다.

 

그리고 계약의 상세 내용은 알수 없지만 IP로서 Zen 코어도 제공한다는 정보가 있다. 이것의 구체적인 내용이 컴퓨텍스 타이밍에서 드러날지는 분명치 않다.

 


출처 - http://ascii.jp

반응형
Posted by 랩터 인터내셔널