'젠 아키텍처'에 해당되는 글 3건

  1. 2017.07.23 AMD 젠 아키텍처 분석 (프론트엔드, OP캐시, SMT, CCX 등) by 랩터 인터내셔널
  2. 2017.03.10 AMD의 새로운 32코어 서버 CPU '네이플스' 발표 by 랩터 인터내셔널
  3. 2017.03.04 AMD 라이젠 1800X vs 인텔 Core i7-5960X 성능 비교 by 랩터 인터내셔널


불도저 아키텍처 발표 이후 6년이 지난 2017년 3월, AMD는 마침내 새로운 시대의 서막을 알리는「 젠 마이크로 아키텍처(Zen Microarchitecture) 」를 발표했다. 이는 6년간 프로세서 시장을 사실상 독점한 인텔과 다시 한번 경쟁할 수 있는 기반이 마련된 것으로써 AMD의 강력한 "Sweet Spot" 될 가능성이 있는 젠 아키텍처를 세부적으로 살펴보도록 한다.


- 선행 구독

인텔 네할렘 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=108899

인텔 샌디브릿지 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109029

AMD 불도저 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109017

GPU 시장 분석) GPGPU 페르미 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109109  

반도체 아키텍처 분석) x86, HSA, HBM, TSV, 3D V-NAND

http://raptor-hw.net/xe/rapter_analysis/109695



먼저 젠 아키텍처의 프론트 엔드 스테이지 전반은 많은 변화가 진행되고 있다. 눈에 띄는 점은 완전히 재설계 된 SIMD 파이프 라인과 부동 소수점 유닛 부문이다. SIMD(Single Instruction, Multiple Data) 유닛과 부동 소수점 유닛은 128bit SIMD의 MUL/FMAD와 128bit SIMD의 ADD 유닛이 2세트로 총 4유닛이다. 128bit MUL/ADD가 2유닛, FMAD 2유닛으로 사이클당 최대 4명령 발행이 가능하며 디스패치는 최대 4마이크로 오퍼레이션이다. 명령 디코더는 사이클당 4명령을 내부 마이크로 오퍼레이션/OP 캐시에 디코드하며 스케줄러에서 정수와 부동 소수점 연산계로 나누어 연산한다. 캐시는 64KB의 L1 명령 캐시와 32KB L1 데이터 캐시, 512KB L2 캐시와 코어간 공유하는 8MB L3 캐시, 명령 디코더의 하단에 새롭게 추가된 OP 캐시를 갖춘다. 캐시 대역은 L1 명령 캐시가 32byte(256bit)/사이클, L1 데이터 캐시에서 2개의 16byte(128bit) 로드와 하나의 16byte(128bit) 스토어를 병렬로 실행할 수 있으며 L2 대역은 L1 명령 캐시/L1 데이터 캐시가 각각 32byte(256bit)/사이클이며 L3 - L2 구간도 32byte(256bit)/사이클.


마이크로 오퍼레이션(OP) : 명령 포맷이 복잡하고 가변 길이 형태인 x86 명령과 달리 명령 포맷이 단순한 고정 길이/고정 포맷형태로써 RISC와 같이 비교적 간단하게 실행



4개의 정수 연산 유닛은 일반적으로는 같은 기능을 갖지만 Multiply, Divide, CRC32 3가지 기능은 1유닛씩 각각 다른 정수 파이프에 할당되어 있다. 이것은 하나의 ALU만이 Multiply가 가능하고 다른 하나의 ALU가 Divide, 또 다른 하나의 ALU가 CRC32를 처리할 수 있는 것이며 그 외의 일반적인 연산은 4개 ALU가 모두 동일하다. 또한 물리 레지스터 파일은 통합된 하나의 168엔트리 구조로 변경되고 있다. 불도저가 스레드당 96엔트리, 2개의 유닛이 총 192엔트리로 많아 보이지만 불도저는 정수 유닛이 물리적으로 분리되어 있기 때문에 차별성이 있다. 정수 스케줄러는 6개의 명령 포트로 각각 14단 큐에서 합계 84엔트리, 불도저는 각 스레드마다 40엔트리로 2개의 정수 코어, 합계 80엔트리로 젠 아키텍처의 스케줄링은 불도저보다 깊다.



정수 파이프는 2개의 ALU 파이프가 각각 개별적인 브랜치 유닛과 접속하고 있다. 2개 분기는 같은 스레드에 속하는 분기 명령이나 다른 스레드에 속하는 분기 명령이라도 모두 실행이 가능한 2분기/사이클이다. 2병렬 브랜치 유닛은 2스레드일 경우 각각의 브랜치 명령을 동시에 실행할 수 있고, 1스레드 중 복수의 브랜치 명령도 1주기로 실행하여 더 많은 브랜치를 1사이클에 처리할 수 있기 때문에 연속 코드의 실행 효율이 향상되고 있다.


젠 아키텍처도 브랜치 퓨전(Branch Fusion)을 도입하고 있다. 이것은 비교형 명령과 점프 명령을 융합시키는 것으로써 2개의 명령은 디스패치 단계에서 하나의 마이크로 오퍼레이션으로 융합되고 융합된 브랜치 퓨전 마이크로 오퍼레이션은 하나의 마이크로 오퍼레이션으로 리타이어(Retire)까지 다룬다. 실행시에도 2개의 마이크로 오퍼레이션으로 분리되지 않는다.



디스패치 유닛은 최대 6마이크로 오퍼레이션을 1사이클에 발행한다. 이것은 In-Order 에서 Out-of-Order 로 사이클당 최대 6마이크로 오퍼레이션으로 보내는 것이며 제어 할 수 있는 총 마이크로 오퍼레이션의 수는 192개다.(불도저 128개) Out-of-Order 가 발행한 6마이크로 오퍼레이션을 8마이크로 오퍼레이션을 수용하는 리타이어 큐가 최대한 빠르게 리타이어 시키는 구조.


기존 불도저 아키텍처는 모듈 내에 정수 코어가 물리적으로 2개로 분리되어 병렬 스레드로 처리했다. 이 설계의 이점은 각 모듈(코어)가 정수 유닛 자원을 경쟁없이 원할하게 2개의 병렬로 실행하여 멀티스레드 성능 향상을 도모할 수 있으나 반대로 물리적인 강제 분리에 따라 싱글 스레드 성능이 낮아지기 때문에 불도저의 싱글 스레드 성능은 경쟁사 대비 처참했다. 그에 따라 AMD는 젠 아키텍처에 보다 전통적인 SMT(Simultaneous Multithreading) 기술을 도입하여 대부분의 자원을 스레드에서 공유하는 다중 스레드 설계로 전환했다. 젠 아키텍처의 정수 연산은 4파이프, 로드/스토어 주소 생성이 2파이프로써 불도저 대비 2배 상승한 스레드당 정수 연산 병렬성을 나타내고 있다.



부동 소수점 연산 파이프는 MUL/ADD가 각각 2개지만 실제로는 MUL 파이프에 ADD 유닛이 포함되어 있고, FMAD 유닛으로 실행된다. 이론적으로는 FMAD에서 MUL/ADD 파이프를 동시에 움직일 수 있지만 실제로는 레지스터 파일의 리드 포트 제약 때문에 MUL/ADD는 동시에 진행할 수 없다. 4개의 SIMD 파이프 라인과 부동 소수점 유닛은 각각 2개의 레지스터 리드 포트를 갖추며 1사이클에 각 유닛에서 2개 소스의 오퍼랜드(Operand) 리드가 가능하다. MUL/FMAD는 3개의 소스 오퍼랜드가 필요하다. 레지스터 파일에서 읽을 경우 리드 포트가 부족하기 때문에 약간의 트릭을 사용하고 있다. MUL/FMAD는 ADD 파이프에서 레지스터 파일의 리드 포트를 하나 차용하고 있다. MUL/FMAD는 ADD 유닛은 사용하지 않기 때문에 ADD 유닛 자체가 비어 ADD는 스케줄러가 차단한다. 이것은 MUL/FMAD 유닛과 ADD 유닛 자체는 분리되어 있지만 레지스터 리드 포트 수가 한정되어 있기 때문에 두 가지를 동시에 실행 수 없는 것이며 FP 레지스터 파일 전체는 128bit 리드 포트가 각 유닛에 2개씩 총 8포트로 구성되고 있다.


부동 소수점 유닛의 마이크로 오퍼레이션 큐 사인은 NSQ(Non-Scheduling Queue)와 스케줄 큐(Scheduler Queue) 2단계로 진행된다. 스케줄러 큐는 각 실행 유닛에 대한 마이크로 오퍼레이션을 발행할 때까지 대기시킨 스케줄링한 큐를 말하며 Out-of-Order 의 일반적인 스케줄이다. 반면 전단부에 추가된 NSQ는 단순한 마이크로 오퍼레이션의 버퍼로 볼 수 있지만 NSQ에 FP 마이크로 오퍼레이션이 대기하고 있는 동안 정수 유닛 쪽에 발행된 다른 마이크로 오퍼레이션이 실행된다. 상대적으로 레이턴시가 긴 마이크로 오퍼레이션이 실행 되는 사이 FP 마이크로 오퍼레이션은 NSQ에서 스케줄 큐로 옮겨지며 이후 FP 마이크로 오퍼레이션이 연산 파이프에서 처리되는 시점에는 오퍼랜드의 데이터가 레지스터에 로딩되어 있다.


이러한 2단계 큐로 구성함으로써 스케줄링의 자원을 절약하고 있다. 큐잉의 전반은 자원 체크 등의 스케줄링을 하지 않아 로드 레이턴시를 은폐하기 때문에 마이크로 오퍼레이션을 완충할 수 있다. 이것에 의해 스케줄링의 자원을 억제하며 큐잉을 효율적으로 할 수 진행할 수 있기 때문에 정수/부동 소수점 연산 큐잉의 균형을 잡을 수 있다.
 
또한 젠 아키텍처는 AVX2의 256bit SIMD 명령을 지원한다. 256bit 명령은 2개의 피스로 분리하여 각각 독립적으로 실행한다. 128bit의 연산 유닛을 2개 결합시켜 실행하는 형태가 아니며 2개의 128bit 운영은 완전히 독립된 마이크로 오퍼레이션으로써 2개의 마이크로 오퍼레이션을 Out-of-Order 에서 실행할 수도 있다. 즉 256bit AVX 명령은 디스패치 스테이지에서 세분화 된 마이크로 오퍼레이션으로 분리되고 개별적인 128bit 마이크로 오퍼레이션으로 진행되며 레지스터도 각각 128bit 레지스터를 사용하는 것.



프론트 엔드 스테이지에는 최대 특징 중 하나로 디코딩한 내부 명령인 Micro-OP(마이크로 오퍼레이션)을 캐시하는 OP 캐시가 추가되고 있다. x86 프로세서의 강력함은 x86 명령에 있지만 복잡하고 장기간에 걸쳐 확장이 진행된 x86 명령 디코딩 자체가 프로세서를 짓누르는 전력 소모의 근원이자 퍼포먼스에 직결되는 부문이기 때문에 x86 CPU의 성능을 결정짓는 핵심적인 요소가 되고 있다. 과거 인텔은 이러한 문제를 해결하기 위해 샌디브릿지 아키텍처에 uOP 캐시(uOP Cache)를 도입했다. 인텔의 uOP 캐시는 트레이스(추적)을 생성하지 않고, L1 명령 캐시와 같이 주소 기준으로 확인하는 16byte 명령 페치 라인을 2개 연결하여 32byte의 마이크로 오퍼레이션을 uOP 캐시 라인에 격납하는 형태다. 인텔의 uOP와 같이 AMD 젠의 OP 캐시는 비슷한 맥락으로 보이지만 트레이스 캐시적인 구조는 아닌 것으로 보이며 L1 명령 캐시와 OP 캐시는 분리된 캐시로써 OP 캐시는 전용 캐시 태그를 갖추며 마이크로 태그(Micro-tags)로 L1 명령 캐시 및 OP 캐시 중 히트한 방향을 확인한다.


일반적인 x86 프로세서의 마이크로 오퍼레이션은 명령 디코딩시 CISC(Complex Instruction Set Computer)의 복합 명령을 내부적으로 RISC(Reduced Instruction Set Computer)형태와 같은 단순 분리된 마이크로 오퍼레이션 명령으로 변환하여 실행한다. 그러나 현행의 x86 프로세서는 CISC의 복합 명령을 어느 정도 유지한 채 In-Order 구간에서 전체적으로 핸들링하여 실제로 처리가 진행되는 Out-of-Order 구간에서 단순한 마이크로 오퍼레이션으로 변환되고 있다. 젠 아키텍처의 명령 디코딩은 복합 마이크로 오퍼레이션 Macro-OP, 단순 분리된 마이크로 오퍼레이션의 2단계 구성이다. 이러한 2단계 구성은 x86, x64 명령을 1:1 고밀도 마이크로 오퍼레이션으로 변환하는 형태이며 젠 아키텍처의 명령 디코더는 디스패치까지 전체적으로 확장되는 형태로 보인다. 주로 명령 디코더가 디코딩을 진행 하지만 어느 정도의 디코딩은 마이크로 오퍼레이션 큐의 후단에도 발생한다. 여기서 OP 캐시가 적용됐기 때문에 마이크로 오퍼레이션 큐에 저장된 OP는 상당히 고밀도이며 그것이 처리되는 단계에서는 보다 전통적인 마이크로 오퍼레이션으로 전개된다. 
 

젠 아키텍처는 인텔의 uOP 캐시와 흡사한 OP 캐시를 도입했지만 명령 디코딩의 플로우는 인텔과 다르다. 이전 불도저 아키텍처의 명령 디코딩은 하나의 OP로 변환되는 패스트 패스 싱글(Fast Path Single), 2개의 OP로 변환되는 패스트 패스 더블(Fast Path Double), 그 이상의 OP로 변환되는 마이크로 코드(Microcode) 3가지 디코딩 타입이 적용됐으나 젠 아키텍처는 명령 디코더에서 명령 바운드리을 검색하여 x86, x64 명령을 분리하고, 마이크로 오퍼레이션으로 변환한 뒤 마이크로 오퍼레이션 큐로 전송한다. 이때의 마이크로 오퍼레이션은 매우 고밀도로써 AMD가 패스트 패스 더블이라고 부르는 명령도 하나의 고밀도 마이크로 오퍼레이션이 되고 있기 때문에 처리 스테이지까지 그대로인 형태다.



이것은 기존 불도저 아키텍처의 패스트 패스 더블 형태를 젠 아키텍처는 x86 명령을 분리하지 않고, 하나의 내부 명령으로 매핑하는 고밀도 마이크로 오퍼레이션으로 처리한다는 것을 의미한다. 불도저 아키텍처는 매우 복잡한 x86 명령은 마이크로 코드 ROM에서 마이크로 오퍼레이션으로 전개하며 2개까지의 마이크로 오퍼레이션으로 변환되는 명령은 일반적인 병렬 디코더, 3개 이상의 마이크로 오퍼레이션으로 변환되는 명령은 마이크로 코드 순으로 이어지며 디코딩 단계에서 마이크로 코드 엔진에서 3개 이상의 마이크로 오퍼레이션으로 변환된다.


여기서 젠 아키텍처는 복잡한 구간을 마이크로 코드 ROM 주소를 저장한 뒤 고밀도 마이크로 오퍼레이션으로 변환하고, 마이크로 오퍼레이션 큐에 기록한다. 마이크로 코드 ROM의 마이크로 오퍼레이션은 큐에는 저장되지 않지만 마이크로 코드 ROM의 주소를 매핑하여 고밀도 마이크로 오퍼레이션을 마지막 단계까지 전개하지 않고, ROM이 필요한 마이크로 오퍼레이션은 디스패치의 타이밍에 맞게 설정된 Kicking Sequence에서 마이크로 코드 ROM으로 보낸다.


AMD는 불도저 아키텍처에서 비교형 명령과 점프 명령을 융합시킨 브랜치 퓨전을 도입했다. 이는 연계성이 있는 2개의 명령을 조합하여 하나의 마이크로 오퍼레이션으로 하나의 실행 파이프에서 실행한다. 명령 수를 줄인다는 의미에서는 최초 명령 디코더 단계부터 퓨전을 하는 것이 효율적으로 보이지만 젠 아키텍처는 처리 단계에서 퓨전을 진행하고 있다. 디코더에서 연계성이 있는 2개의 마이크로 오퍼레이션이 처리 단계에서 하나의 마이크로 오퍼레이션으로 퓨전되는 것으로 처리 단계에서 디스패치는 6개의 마이크로 오퍼레이션을 상한으로 퓨전하여 하나로 만든다.


따라서 젠 아키텍처의 명령 디코딩 스테이지는 x86 명령을 CISC적인 특성을 어느 정도 유치한 채 고밀도 마이크로 오퍼레이션으로 분리하고 정리한다. 이후 마이크로 오퍼레이션을 저장한 OP 캐시를 OP 큐가 취급하고 Out-of-Order 단계에서 한번에 마이크로 오퍼레이션으로 전개하며 이것은 처리 후단에서 진행하는 것으로 보인다. 복합 명령을 1:1로 하나의 고밀도 마이크로 오퍼레이션으로 변환하는 형태로써 일정량으로 정해져있는 작은 OP 캐시에 최대한의 마이크로 오퍼레이션을 저장할 수 있는 최적화를 도모하고 있는 것으로써 젠 아키텍처의 전체적인 명령 디코딩 플로우는 새롭게 도입된 OP 캐시에 초점을 맞춰 설계했다고 볼 수 있다.



젠 아키텍처는 새로운 뉴럴 네트워크 분기 예측 기술이 탑재되고 있다. 이 기술은 소니 플레이스테이션과 같은 콘솔 시장을 타겟으로 하는 AMD의 기존 재규어(Jaguar)에도 탑재되고 있는 기술이지만 AMD는 이에 대한 세부적인 알고리즘을 공개하지 않았다. 분기 예측은 말 그대로 분기를 예측하는 것으로써 정확도가 높을수록 파이프 라인은 손실을 줄이고 효율적인 처리가 가능하기 때문에 전력 효율 감소로 이어지는 중요할 기술이다. 젠 아키텍처의 Branch Target Buffer(BTB)는 L1명령 캐시와 통합된 연관성이 있으며 1엔트리에 2브랜치를 1사이클에 예측, 브랜치 히스토리 테이블(Branch History Table)의 사이즈를 2배로 증가시켰다는 점만 확인할 수 있다. 



전체적인 코어 디자인은 새로운 CCX(Core Complex)로 설계되고 있다. CCX는 4개의 물리 코어가 하나의 집단(1CCX)을 이루는 형태로 각각의 코어는 8MB L3 캐시를 공유한다. 캐시 계층은 L3 캐시가 L2에 대한 익스클러시브 방식으로 L2 캐시 데이터는 L3 캐시에 존재하지 않고, 캐시 스누프에서 L3가 미스한 경우 각 CPU 코어의 L2 캐시도 스누프한다. 또한 스누프 트래픽을 경감하기 위한 L2 캐시 태그의 사본을 L3에 저장한다.


CCX는 회로 설계도 강화되고 있다. 디지털 LDO(Low Drop-Out)에 의한 전압 제어는 VRM에서 CPU 코어의 가장 높은 VID로 입력된 코어 전압인 RVDD를 각 코어별로 VDD에 흡수하여 부하에 맞춰 최적의 전압과 주파수로 조정하며 1300개 이상의 크리티컬 패스 모니터와 파워 서플라이 모니터, 서멀 다이오드, 루프 디텍더 등을 배치하여 전압의 변동이나 다이 온도 상승, 크리티컬 패스의 딜레이 등을 세부적으로 확인하여 최적의 동작 주파수를 검증하고, AVFS(Adaptive Frequency and Voltage Scaling)는 보다 디테일 한 25MHz 단위로 주파수를 조정, 구동 전압도 각 코어 단위로 개별적으로 제어하며 전압 제어를 위해 배선층에 다수의 MIMCap를 심고 있다. 이 기술들은 젠 아키텍처의 XFR(Xtended Frequency Range) 기술로 이어져 프로세서의 쿨링 상황에 따라 보장된 터보 클럭 이상의 클럭으로 동작하는 기능도 제공한다.




젠 아키텍처는 이러한 CCX가 2개로 구성된 2CCX 설계로 각각의 CCX는 새로운 인터커넥트 기술인 인피니티 패브릭(Infinity Fabric)으로 연결된다. 인피니티 패브릭은 데이터 전송을 위한 Infinity Scalable Data Fabric(SDF)와 제어 신호를 전달하는 Infinity Scalable Control Fabric(SCF)의 2계통으로써 의미대로 SDF가 데이터 제어, SCF가 앞서 설명한 다양한 CCX 내부 센서 외 클럭, 전원, 초기화, 보안 등의 다양한 제어 신호를 총괄한다. AMD는 인피니피 패브릭을 젠 아키텍처 뿐 만 아니라 향후 개발되는 프로세서, GPU, 서버, 모바일 등의 제품군에 공통으로 사용한다고 밝혔다. 이것은 새로운 제품 개발에 각각 별도의 인터커넥트 기술을 개발하지 않고, 일관된 IP를 사용함으로써 제품 개발에 소요되는 시간과 노력, 비용 등을 절감하기 위함이다.

  


지금까지 살펴 본 AMD의 젠 마이크로 아키텍처는 불도저 아키텍처와 달리 근본부터 재설계한 완전히 새로운 아키텍처임을 다시 한번 확인할 수 있었다. 전체적인 아키텍처 디자인은 AMD 만의 차별성도 있으나 인텔 아키텍처를 닮아가고 있는 인상을 주고 있으며  그에 따른 퍼포먼스는 이전 프로세서 대비 40% 향상된 IPC로 인텔의 턱밑까지 추격하는데 성공하여 소비자들에게 다양한 시스템을 구성할 수 있는 선택의 폭을 넓혀주고 있다.


AMD 젠 아키텍처 성능 - http://raptor-hw.net/xe/benchmark

반응형
Posted by 랩터 인터내셔널



AMD가 새로운 젠 아키텍처 기반의 PC 시장용 라이젠 프로세서에 이어 젠 아키텍처 기반의 서버용 프로세서 네이플스(Naples)를 발표했다. 제품 출하는 2분기부터 시작.


새로운 네이플스는 최대 물리 32코어, 128레인 PCI Ex 3.0, 2소켓 멀티 CPU 구성에 대응하는 고성능 프로세서로 1소켓당 8채널 DDR4-2400 메모리 컨트롤러 지원으로 2소켓 시스템으로 64코어/128스레드, 최대 4TB의 DDR4 컴퓨트 모듈을 구축할 수 있고, 각각의 프로세서는 독자적인 인피니티 패브릭(Infinity Fabric) 버스로 접속된다.


AMD는 인텔이 제공하고 있는 2소켓용 제온 E5-2699A v4(최대 44코어/88스레드)와 비교해 45% 많은 코어, 60% 많은 I/O, 그리고 122% 넓은 메모리 대역을 제공할 수 있다고 주장하고 있으며 AMD가 고성능 x86 서버 시장에 다시 진출할 수 있을지 관심을 받고 있다. 

반응형
Posted by 랩터 인터내셔널
i01_s.png

Ryzen 7 1800X


ZEN 마이크로 아키텍처를 채용한 AMD의 새로운 CPU "Ryzen 7". 그 최상위 모델인 "Ryzen 7 1800X"를 발매 전 차용 기회를 얻어 벤치마크 테스트로 그 실력을 확인했다.


8코어 16스레드 CPU "Ryzen 7 1800X"

Ryzen 7 1800X는 새로운 CPU 브랜드인 Ryzen 7로 먼저 투입되는 CPU 3가지 제품의 정점에 위치하는 모델이다. Ryzen 7 브랜드의 CPU 3제품은 모두 ZEN 마이크로 아키텍처를 바탕으로 14nm FinFET 프로세스에서 제조된 8코어 16스레드의 CPU다.


2011년 투입한 "Bulldozer" 마이크로 아키텍처를 개량하면서 CPU를 설계한 AMD는 "Summit Ridge" Ryzen 7에서 채용한 "Zen" 마이크로 아키텍처는 Bulldozer와는 연결선이 없는 완전히 새롭게 설계된 CPU 마이크로 아키텍처다.


Bulldozer의 마지막 CPU 마이크로 아키텍처인 "Excavator"부터 동작 클럭당 명령 실행 수(IPC)를 52% 향상시키고 싱글스레드 성능을 크게 향상시키면서 동시에 멀티스레딩 기능(SMT)을 채용하여 1스레드에서 2스레드 처리가 가능하며 멀티 쓰레드 성능도 향상시켰다.


Ryzen 7 1800X의 동작 클럭은 베이스 클럭이 3.6GHz, 부스트시 최대 4GHz에 이른다. CPU 내장 메모리 컨트롤러는 최대 DDR4-2666 듀얼 채널 동작을 지원한다.


TDP는 95W지만 이는 CPU의 tCase 온도(다이와 히트 스프레더 접합부 최대 온도)에서 tAmbient 온도(CPU 냉각팬의 공기 장치 최대 온도)를 뺀 수치를 AMD가 정한 CPU 쿨러의 열 저항으로 나눈 것으로 소비 전력과는 관계 없는 수치다. 또한 부스터 동작 동작 기준이 되는 CPU의 소비 전력 기준(파워 리미트)는 128W로 설정되어 있다.


Ryzen 7의 주요 사양
모델 넘버Ryzen 7 1800XRyzen 7 1700XRyzen 7 1700
제조 프로세스14nm FinFET
마이크로 아키텍쳐ZEN
개발 코드 네임Summit Ridge
코어 개수8
스레드 수16
베이스 클럭3.6GHz3.4GHz3GHz
부스터 클럭4GHz3.8GHz3.7GHz
대응 메모리DDR4-2666
TDP95W65W
대응 소켓Socket AM4
i02_s.jpg
i03_s.jpg
i04.png


이번에 AMD에게 차용한 Ryzen 7 1800X의 리뷰어용 테스트 키트는 Ryzen 7 1800X 본체와 ASUS의 AMD X370 칩셋 탑재 메인보드 "ROG CROSSHAIR VI HERO", Corsair DDR4-3000 대응 메모리 "CMK16GX4M2B3000C15", 녹투아 CPU 쿨러 "NH-U12S SE-AM4".


여기에 그래픽 카드로 ZOTAC "GeForce GTX 1080 AMP Extreme"을 추가하고 벤치마크 테스트를 진행했다.



i05_s.jpg
ASUS ROG CROSSHAIR VI HERO
i06_s.jpg
Corsair CMK16GX4M2B3000C15
i07_s.jpg
NH-U12S SE-AM4
i08_s.jpg
ZOTAC GeForce GTX 1080 AMP Extreme


또한 Corsair CMK16GX4M2B3000C15 메모리는 본래 "DDR4-3000/15-17-17-35/1.35V"라는 사양의 메모리지만 AMD에서 "DDR4-2666/16-16-16-36/1.30V" 라는 권장 설정이 제시됐기 때문에 AMD 권장 설정으로 테스트를 진행했다.


Ryzen 7 1800X의 비교 대상에는 Haswell-E 기반의 8코어 16스레드 CPU, Intel "Core i7-5960X Extreme Edition"을 준비했다.


최신 세대의 Broadwell-E를 준비하지 못했기 때문에 사용했지만 기본적인 아키텍처가 공통적인 Haswell-E와 Broadwell-E는 동작 클럭의 차이가 성능 차이의 주요 요소다. 클럭의 차이를 감안하면 Broadwell-E 기반의 8코어 16스레드 CPU인 Core i7-6900K과의 차이를 평가할때 참고할 수 있을 것이다.


또한 이번 테스트는 AMD의 요청에 따라 Windows 10의 "전원 관리" 설정을 표준 "균형"에서 "고성능"으로 변경했다. 이는 CPU의 부스터 기능을 효과적으로 하는 것을 목적으로 한 것으로 형평성을 위해 Core i7-5960X 환경에서도 같은 설정을 했다.


테스트 장비 목록
CPURyzen 7 1800XCore i7-5960X
메인보드ASUS ROG CROSSHAIR VI HEROASUS X99-A II
메모리DDR4-2666 8GB×2 (2ch/16-16-16-36/1.3V)DDR4-2133 CL15 4GB×4 (4ch/15-15-15-35/1.2V)
GPUZOTAC GeForce GTX 1080 AMP Extreme
스토리지OCZ VTR180-25SAT3-480G (480GB SSD/SATA 6Gbps)
파워KRPW-TI700W/94+ (700W 80PLUS Titanium)
그래픽 드라이버GEFORCE GAME READY DRIVER 378.66
OSWindows 10 Pro 64bit (1607)


벤치마크 결과

이번에 진행한 벤치마크 테스트는 "CINEBENCH R15", "x264 FHD Benchmark", "HWBOT x265 Benchmark", "TMPGEnc Video Mastering Works 6", "PCMark 8", "SiSoftware Sandra 2016 SP3", "3DMark", "파이널 판타지 XIV 벤치마크", "Ashes of the Singularity", "오버워치", "Watch Dogs 2".


우선 CPU의 성능을 체크하는 벤치마크 소프트웨어의 결과부터 확인한다.


CPU로 3DCG 렌더링을 했을 때의 성능을 측정하는 CINEBENCH R15는 Ryzen 7 발표시 점수가 공개된 벤치마크 테스트로 Core i7-6900K를 능가하는 스코어로 많은 주목을 끌었다.


이번 테스트 환경에서도 Core i7-5960X의 싱글스레드로 약 16%, 멀티쓰레드에서는 약 23% 차이로 제쳐 싱글스레드, 멀티스레드 모두 뛰어난 성능을 나타냈다.


l01_s.png
CINEBENCH R15


H.264 형식으로 동영상 인코딩 성능을 측정한 x264 FHD Benchmark에서도 Ryzen 7 1800X가 Core i7-5960X을 약 21% 웃도는 속도로 테스트를 마쳐 CINEBENCH R15에서 보였던 멀티스레드 성능의 우위를 유감 없이 발휘하고 있다.


l02_s.png
x264 FHD Benchmark v1.0.1


H.265에 대한 동영상 인코딩 성능을 측정한 HWBOT x265 Benchmark에서는 앞의 x264 FHD Benchmark와는 달라져 Ryzen 7 1800X가 Core i7-5960X에 밀리는 결과가 됐다. 그 차이는 불과 2% 정도지만 CINEBENCH R15 등에서 보였던 20%의 성능 차이가 뒤집힌 것은 놀랍다.


l03_s.png
HWBOT x265 Benchmark v2.0.0


"x264 FHD Benchmark"과 "HWBOT x265 Benchmark"에서 다루는 동영상 형식이 다른 것 외에 AVX2 확장 명령에 대한 대응의 유무라고 하는 차이가 있고 AVX2는 x264 FHD Benchmark에서는 지원되지 않았다.


거기서 TMPGEnc Video Mastering Works 6에서는 H.264 형식과 H.265 형식으로 동영상 인코딩 테스트 외에 AVX2 확장 명령을 이용한 경우와 무효화한 경우의 성능을 측정했다.


테스트 결과 AVX2를 유효하게 한 상태에서도 H.264 형식의 인코딩에서는 Ryzen 7 1800X가 약 17% 고속의 결과를 보였는데 H.265 형식 인코딩에서는 Core i7-5960X가 약 4% 고속을 나타냈다.


한편 AVX2 확장 명령을 무효화한 경우 H.264, H.265 모두 Ryzen 7 1800X가 고속이며 약 21~25% 정도의 차이가 있다.


흥미로운 것은 AVX2를 무효화함으로써 H.265 형식으로 인코딩 시간이 현저하게 증가한 Core i7-5960X에 비해 Ryzen 7 1800X는 어떤 형식의 인코딩이라도 AVX2 유효시보다 고속으로 처리를 완료하고 있다는 점이다.


l04_s.png
TMPGEnc Video Mastering Works 6 (er.6.2.0.27)


이어 PC의 종합 성능 체크하는 PCMark 8의 결과다. 여기에서는 Ryzen 7 1800X가 Core i7-5960X을 약 3~5% 넘는 스코어를 기록했다. 단순히 CPU 성능 차이만이 스코어에 반영되는 테스트가 아니기 때문에 점수 차이는 비교적 작은 것이다.


l05_s.png
PCMark 8 (version 2.7.613)


CPU의 계산 능력을 측정하는 Sandra의 "Processor Arithmetic"에서는 정수 연산에서 약 13~17%, 부동 소수 점 연산에서는 12~20%의 차이로 Ryzen 7 1800X가 앞섰다. 이는 CINEBENCH R15의 다중 스레드 테스트의 결과에 가까운 모습이다.


그런데 CPU가 갖춘 확장 명령 세트를 활용하여 멀티 미디어 처리 성능을 측정하는 "Processor Multi-Media"에서는 Ryzen 7 1800X가 Core i7-5960X에 20% 가까이 뒤지고 있다. 일단 4배 정도의 연산에서는 Ryzen 7 1800X가 역전하고 있지만 이 부분의 성능 특성이 AVX2 확장 명령 이용시 인코딩 성능이 부진한 원인이 되고 있을 가능성이 높다.


암호화 처리 성능을 측정하는 "Cryptography"에서는 Hashing Bandwidth의 스코어로 Core i7-5960X에 2배 이상의 차이를 내며 압도했다. 이는 Ryzen 7 1800X가 HSA 확장 명령을 지원한데 따른 것이다.


l06_s.png
l07_s.png
l08_s.png


메인 메모리 대역폭을 측정하는 "Memory Bandwidth"에서는 DDR4-2666 메모리의 듀얼 채널 동작을 지원하는 Ryzen 7 1800X가 약 31GB/s라는 속도를 달성하고 있다.


DDR4-2133 메모리의 쿼드 채널에 대응하는 Core i7-5960X의 46~47GB/s라는 대역을 넘지 못하지만 어느정도 메모리 대역이 확보되어 있다.


l09_s.png
Sandra 2016 SP3 (22.35) - Memory Bandwidth


Sandra Cache Bandwidth에서는 CPU가 내장하는 캐시 메모리 대역폭을 측정하는데 AMD에 따르면 Sandra와 AIDA64 등의 벤치마크 소프트웨어로는 ZEN 마이크로 아키텍처의 캐시 대역을 적절히 측정할 수 없다며 독자적으로 측정한 결과를 보내왔다.


i09.png


AMD가 측정한 데이터와 Sandra의 결과를 비교하면 확실히 AMD가 공표하는 속도와 차이가 있지만 L2에서 L3캐시 영역에는 Core i7-5960X 보다 넓은 대역이 확보되어 있어 보인다. 현재 AMD는 Sandra와 AIDA64의 개발원과 협력하여 ZEN 마이크로 아키텍처에서 캐시 속도를 제대로 측정하는 방법을 준비중이라고 하며 차세대 버전에서는 보다 정확한 벤치마크가 가능할 것이다.


l10_s.png
Sandra 2016 SP3 (22.35) - Cache Bandwidth
l11_s.png
Sandra 2016 SP3 (22.35) - Cache & Memory Latency(nsec)
l12_s.png
Sandra 2016 SP3 (22.35) - Cache & Memory Latency(Clock)


이번엔 게임 벤치마크 결과를 확인한다.


단골 3DMark에서는 DirectX 12대응 "Time Spy"와 DirectX 11대응 "Fire Strike"에서 스코어를 취득했다. Fire Strike에서는 4K 해상도(3840×2160)의 "Fire Strike Ultra"와 풀HD 해상도(1920×1080)의 "Fire Strike" 2가지를 실행했다.


결과로서 Time Spy의 스코어는 거의 호각. Fire Strike Ultra와 Fire Strike에서는 종합 스코어는 호각이면서 CPU 스코어인 Physics Score에서는 약 15~19% 앞서고 있다.


l13_s.png
3DMark - Time Spy
l14_s.png
3DMark - Fire Strike Ultra
l15_s.png
3DMark - Fire Strike


파이널 판타지 XIV에서는 DirectX 11 최고 품질 설정에서 4K와 풀HD 2해상도에서 테스트를 실행했다. 4K 해상도의 스코어는 거의 막상막하지만 풀HD 해상도에서는 Core i7-5960X에 약 13% 뒤지고 있다.


l16_s.png


Ashes of the Singularity에서 화면 해상도는 풀HD, API는 DirectX 12로 설정하고 2종류의 렌더링 품질로 테스트를 실행했다.


"Average Framerate"은 실제로 벤치마크 중에 기록된 프레임 레이트의 평균치로 "Average CPU Framerate"는 GPU가 병목이 되지 않으면 CPU가 어디까지 프레임 레이트를 높일 수 있느냐는 가정의 평균치다.


Ryzen 7 1800X는 실제 프레임 레이트와 가정 CPU 프레임 레이트의 차이가 거의 없는데 이는 CPU가 GPU의 병목이 되고 있음을 의미하며 실제 프레임 레이트는 Core i7-5960X에 15~33% 정도 뒤지고 있다.


l17_s.png
Ashes of the Singularity: Benchmark


FPS 게임인 오버워치에서는 풀HD 해상도에서 렌더링 품질을 표준적인 Normal과 최대한의 Epic에서 프레임 레이트의 측정을 실행했다. 결과로서 Normal과 Epic에서 거의 호각의 프레임 레이트를 기록했으며 여기에서는 두 CPU사이에 차이는 없다.


l18_s.png


Watch Dogs 2에서는 풀HD 해상도에서 렌더링 품질을 "중"과 "최대"에서 프레임 레이트를 측정했다. Watch Dogs 2는 최대 12스레드를 활용하여 다중 스레드로 최적화된 게임 타이틀이기에 Ryzen 7 1800X의 멀티 쓰레드 성능이 발휘될 것으로 기대됐지만 결과로는 Core i7-5960X에 렌더링 품질 "중"에서 약 30%, "최대"에서는 약 18% 뒤지고 있다.


l19b.png
Watch Dogs 2


마지막으로 소비 전력 측정 결과를 소개한다.


아이들시 소비전력은 Ryzen 7 1800X 환경이 43W로 Core i7-5960X 환경의 57W보다 10W 이상 낮은 것으로 나타났다. 메인보드의 사양이나 메모리의 매수/동작 전압의 차이 등도 있기 때문에 모든 것이 CPU의 차이라는 것은 아니지만 낮은 전력을 기록하는 것은 좋은 것이다.


한편, 벤치마크 실행 중인 피크 전력은 160W 정도가 한계인 Ryzen 7 1800X와 달리 Core i7-5960X는 160~190W에 육박하고 있다. 테스트에 의해서 성능 차이는 다르지만 대체로 Ryzen 7 1800X의 전력 효율은 Core i7-5960X 보다 뛰어나다.


3D계 벤치마크 실행 중인 피크 전력에서도 Core i7-5960X 쪽이 높아지고 있지만 이는 GPU의 성능을 더 끌어낸 결과 높은 전력이 되고 있는 점도 있으므로 일률적으로 Ryzen 7 1800X가 유리하다고 설명하기 어렵다.


l20_s.png


인텔의 하이엔드 CPU와 경쟁할 실력을 가진 Ryzen 7 1800X

이상과 같이 Ryzen 7 1800X와 Core i7-5960X의 비교를 진행했다. CINEBENCH R15 나 H.264 형식 동영상 인코딩에서 뛰어난 성능을 발휘하는 한편 AVX2 확장 명령 이용이나 게임에서는 Core i7-5960X에게 밀리는 등 테스트에 따라 장단점이 나뉘는 결과가 나타났다.


하지만 Ryzen 7 1800X는 완전히 새롭게 설계된 CPU 마이크로 아키텍처인 "ZEN"을 채용하고, 동시 멀티 스레딩 기능에 의해 8코어 16스레드를 실현한 CPU로써 당연히 기존 게임이나 벤치마크 테스트에서는 어플리케이션 측에서 최적화된 것이 없는 상황에서 Ryzen 7 1800X의 성능이 주춤한 부분도 앞으로 최적화가 진행된다면 본래의 성능을 발휘하게 될수도 있을 것이다.


주변 환경이 갖추어지지 않은 상황에서 Ryzen 7 1800X가 이만한 성능을 499달러라는 가격으로 실현하고 있다는 사실은 경이롭고 Ryzen 7의 등장은 인텔의 제품 라인업에 영향을 미치며 고성능 CPU 시장에 경쟁을 가져오는 존재가 될 것이다.


출처 - http://pc.watch.impress.co.jp/docs/topic/review/1047474.html

반응형
Posted by 랩터 인터내셔널