'2017/07'에 해당되는 글 39건

  1. 2017.07.30 HPE, Xeon-SP 탑재 Gen10 서버 시리즈 발매 by 랩터 인터내셔널
  2. 2017.07.30 AMD 실적 발표, 1600만 달러의 적자 기록 by 랩터 인터내셔널
  3. 2017.07.30 차기 아이폰 A11 프로세서의 엄청난 성능 by 랩터 인터내셔널
  4. 2017.07.30 EagleTree Capital, 5억 2500만달러에 커세어 인수 by 랩터 인터내셔널
  5. 2017.07.29 델의 8K 디스플레이 UP3218K 드디어 발매 by 랩터 인터내셔널
  6. 2017.07.29 차세대 홀로렌즈는 인공지능을 실현할 수 있는 HPU 2.0 탑재 by 랩터 인터내셔널
  7. 2017.07.29 USB 3.0 Promoter Group, 속도를 2배로 늘린 USB 3.2 책정 by 랩터 인터내셔널
  8. 2017.07.29 AMD 라이젠3 1300X, 1200 성능 by 랩터 인터내셔널
  9. 2017.07.29 인텔 실적 발표, 190% 증가한 "어닝 서프라이즈" by 랩터 인터내셔널
  10. 2017.07.23 AMD 젠 아키텍처 분석 (프론트엔드, OP캐시, SMT, CCX 등) by 랩터 인터내셔널



HPE는 인텔 제온 프로세서(Xeon-SP)를 탑재하는 차세대 x86 서버 제품군으로 HPE Generation10(Gen10)서버 플랫폼을 발표했다.


이번에 발표된 것은 1U/2소켓 서버 ProLiant DL360 Gen10, 2U/2 소켓 서버 DL380 Gen10, 2U/4소켓 서버 DL560 Gen10, 12U 섀시에 24노드를 탑재할 수 있는 고밀도 서버 Apollo 6000 Gen10 System, 서버 노드 XL230k Gen10, 통합 인프라 제품 HPE Synergy 전용 서버 노드 Synergy 480 Gen10 및 Synergy 660 Gen10, HPE Blade System 서버 블레이드 ProLiant BL460c Gen10의 총 7가지 모델이다.


Gen10 서버군 모두 차세대(스카이레이크 아키텍처)의 Xeon-SP를 탑재하고 있으며 퍼포먼스와 메모리 탑재 용량 등이 강화되고 있다. 예를 들어 1U/2소켓 서버의 DL360 Gen10도 최대 56코어(28코어 ×2CPU), 3TB DDR4 메모리를 탑재할 수 있다. HPE 고유의 기능으로는 인텔과 공동 개발한 새로운 서버 튜닝 기술 세트 HPE Intelligent System Tuning(워크 로드 자동 설정 기능)이 있다. 이는 워크로드마다 서버 리소스를 자동적으로 최적화하는 퍼포먼스를 향상시키는 것으로 워크 로드 최적 설정/CPU 안정화/CPU부스터 기능이 포함된다.


또한 기존 8GB 용량이였던 NVDIMM(비휘발성 메모리, DRAM + NAND 플래시) 모듈에 16GB 모델이 새로이 등장하여 예를 들어 2소켓 서버는 최대 192GB 탑재에 대응하고 있다.


새로운 테라 바이트 규모의 고속 메모리 환경을 실현하는 HPE Scalable Persistent Memory 솔루션도 발표되고 있다. Scalable Persistent Memory는 DRAM+SSD에 의한 데이터 유지를 서버 BIOS 수준에서 제어함으로써 NVDIMM으로 실현될 수 없는 규모의 대용량 비휘발성 메모리 환경(2소켓 서버에서 1TB)을 실현하고, 인 메모리 데이터베이스와 실시간 분석 환경 등의 대폭적인 고속화에 기여한다고 밝혔다.

반응형
Posted by 랩터 인터내셔널



AMD (NASDAQ : AMD)가 2017년 2분기 실적을 발표했습니다. 총 매출액은 12억 2000만 달러, 영업 이익은 2500만 달러, 순 손실이 1600만 달러, 비 GAAP 기준 영업 이익은 4900만 달러, 순이익은 1900만 달러, 주당 순이익은 0.02달러를 기록했습니다.


세부적인 실적을 보면,
1. 
컴퓨팅 및 그래픽 부문의 매출은 GPU 및 라이젠 데스크톱 프로세서에 의한 수요에 힘 입어 전년 대비 51% 증가한 6억 5900만 달러를 기록했습니다.
2. 영업 이익은 전년 8100만 달러의 영업 손실에서 개선되었습니다.
3. 고객 평균 판매 가격(ASP)은 데스크톱 프로세서 라이젠 프로세서에 의해 전년 대비 크게 증가했고, GPU ASP도 전년 대비 증가했습니다.
4.
엔터프라이즈, 임베디드 및 세미 커스텀 세그먼트 매출은 5억 3천 3백만 달러로 주로 세미 커스텀 SoC 판매 감소로 인해 5%가 감소했습니다. 
5. 전년 대비 영업 이익 감소는 매출 감소와 데이터 센터 관련 R&D 투자 증가에 기인합니다.


GAAP Financial Results
       
  Q2-17 Q1-17 Q2-16
Revenue $1.22B $984M $1.03B
Operating income (loss) $25M $(29)M $(8)M
Net income (loss) $(16)M $(73)M $69M
Earnings (loss) per share $(0.02) $(0.08) $0.08


Non-GAAP Financial Results
       
  Q2-17 Q1-17 Q2-16
Revenue $1.22B $984M $1.03B
Operating income (loss) $49M $(6)M $3M
Net income (loss) $19M $(38)M $(40)M
Earnings (loss) per share $0.02 $(0.04) $(0.05)


반응형
Posted by 랩터 인터내셔널
A11(iPhone 7s/8)4300〜46007000〜8500
A10 Fusion(iPhone 7)34005500
A9(iPhone 6s)23004000
A8(iPhone 6)14002400


Ice universe(@UniverseIce)라는 유저가 차기 아이폰 시리즈에 탑재되는 A11 프로세서의 동작 주파수는 최대 3.0GHz로 Heterogeneous Multi-Processing를 채용한다고 밝혔습니다.


HMP(Heterogeneous Multi-Processing)는 고성능이지만 소비 전력이 큰 CPU 코어와 저전력 CPU코어를 조합해 작업 부하에 맞추어 CPU 코어를 변환하는 방식으로 아이폰7 시리즈에 탑재되고 있는 A10 Fusion 프로세서도 같은 구조가 채용되고 있으며 A11도 같은 구조가 채용되는 것으로 보이고 있습니다.


그는 A11 프로세서의 Geekbench 4 벤치마크 스코어도 공개했는데 싱글 코어가 4300~4600, 멀티 코어가 7000~8500으로 현존하는 모든 스마트폰과 비교할 수 없는 높은 성능을 나타내고 있습니다. 현행 아이폰7 시리즈의 A10 Fusion 프로세서의 벤치마크 스코어는 싱글 코어에서 3400, 멀티 코어에서 5500 정도, 아이패드 프로 시리즈의 A10X Fusion 프로세서는 싱글 코어에서 3800, 멀티 코어에서 9100 정도이기 때문입니다.


애플은 신규 스마트폰에서 AP 성능을 계속 향상시키며 A 시리즈 프로세서의 경쟁 상대는 자사의 AP 밖에 없는 상황을 만들면서 압도적인 스마트폰 AP 기술을 어필하고 있습니다.

반응형
Posted by 랩터 인터내셔널

미 투자 회사 EagleTree Capital은 26일(현지시간) 메모리나 게이밍 디바이스를 다루는 커세어(Corsair) 주식 대다수를 Francisco Partners 및 소수 주주로부터 구매한 최대 주주가 됐다고 밝혔다. 시장 가치는 5억 2500만달러에 이른다.


현 Corsair의 창업자 겸 최고 경영 책임자인 Andy Paul은 지분을 유지하고 CEO로서의 역할을 계속한다. Corsair는 2013년 5월 Francisco Partners로부터 7500만달러의 전략적 투자를 받았으며 Andy는 과거 파트너십에 대해 "제품 포트폴리오 확대와 글로벌 풋 프린트 실현, 브랜드 강화와 집중, 그리고 재무 체질 강화를 실현할 수 있는 아주 훌륭한 것이었다" 고 평가했다. 새로운 EagleTree와의 제휴에 대해서는 "컨슈머 제품 전문 지식을 구사하고, 진보를 더 가속할 기회를 얻었다" 고 밝혔다.

반응형
Posted by 랩터 인터내셔널

델은 31.5형 8K 해상도의 액정 디스플레이 시리즈 UP3218K 31.5인치 8K 모니터를 발매했다.


주요 사양은 해상도가 7680×4320(8K), 표시색 수 10억 7천만색, 휘도 400cd, 응답 속도가 6ms(중간색), 명암비 1300:1, 시야각은 상하, 좌우 모두 178도. 구동 방식은 IPS, 색 영역 커버율은 Adobe RGB 100%, sRGB 100%, Rec709 100%, DCI-P3 98%. 또 X-Rite 광도계에 의한 보정에 대응한다.


인터페이스는 DisplayPort 1.4 ×2로 8K 60p 표시에는 비디오 카드에서 DisplayPort 1.4 ×2로 동시에 연결할 필요가 있다. 이 밖에 USB 3.0 ×4의 Hub도 탑재한다.


본체 크기는 720.5×222×498.4~618mm(폭×두께×높이), 무게는 6.52kg.


출처 - http://pc.watch.impress.co.jp/docs/news/1073066.html


반응형
Posted by 랩터 인터내셔널



미국 Microsoft는 23일 차기(정확히는 버전 2) 홀로렌즈(HoloLens)에 독자 개발 "HPU 2.0"을 탑재한다고 발표했다.


딥 뉴럴 네트워크(DNN)을 통해서 물체나 사물을 인식하는 "딥 러닝"이 주목을 끌고 있지만 기존의 프로세서나 메모리 아키텍처는 DNN에 적합하지 않아 대규모 GPU와 FPGA를 이용하는 것이 주류가 되고 있으며 이들은 클라우드 측에서 실장되는 것이었다.


한편 HoloLens는 가상현실과 현실을 연결하는 "Mixed Reality"를 표방하며 헤드 트래킹이나 적외선 카메라로부터 입력된 주위의 수심 정보를 고속·저소비 전력으로 연산을 행할 수 있는 커스텀 프로세서 "Holographics Processing Unit:HPU"가 탑재되고 있다.


마이크로소프트의 인공지능/리서치 그룹에서 바이스 프레지던트를 맡고 있는 Harry Shum은 차기 HoloLens에서 HPU를 2.0으로 버전업시키며 DNN을 넣어 인공지능을 실현하는 코 프로세서로서 동작할 계획이라고 "CVPR 2017"에서 밝혔다.


칩은 프로그래머블로 다양한 레이어 타입에 대응한다.

반응형
Posted by 랩터 인터내셔널

USB 3.0 Promoter Group은 멀티 레인 기술로 최대 2GB/s 전송 속도를 실현한 USB 3.2 규격을 발표했다. 9월에 미국에서 열리는 USB Developer Days에서 정식 발표.


기존의 USB는 1개의 레인을 사용하여 데이터를 전송했으나 USB 3.2는 최대 2개의 레인을 채용하여 1레인당 5Gbps 또는 10Gbps 전송함으로써 2GB/s를 넘는 전송 속도를 실현한다. 이미 USB Type-C 규격이 시장에 도입되어 기존의 Type-C 케이블을 그대로 사용하고 속도를 2배로 올리며 USB 3.0을 기반으로 한 물리 레이어와 데이터 인코딩 기술도 답습한다.



반응형
Posted by 랩터 인터내셔널


AMD Ryzen SKUs
 Cores/
Threads
Base/
Turbo
XFRL3TDPRetail
7/27
Cooler
Ryzen 7 1800X8/163.6/4.0+10016 MB95 W$419-
Ryzen 7 1700X8/163.4/3.8+10016 MB95 W$299-
Ryzen 7 17008/163.0/3.7+5016 MB65 W$279Spire
RGB
Ryzen 5 1600X6/123.6/4.0+10016 MB95 W$229-
Ryzen 5 16006/123.2/3.6+10016 MB65 W$209Spire
Ryzen 5 1500X4/83.5/3.7+20016 MB65 W$189Spire
Ryzen 5 14004/83.2/3.4+508 MB65 W$159Stealth
Ryzen 3 1300X4/43.5/3.7+2008 MB65 W$129Stealth
Ryzen 3 12004/43.1/3.4+508 MB65 W$109Stealth



새롭게 등장한 라이젠3 1300X, 1200은 모두 4코어 4스레드 제품으로 1300X가 베이스 3.5 클럭, 부스트 3.7클럭, 1200이 베이스 3.1 클럭, 부스트 3.4 클럭, L3캐시는 8MB, TDP 65와트


Comparison: AMD Ryzen 3 1300X
FeaturesIntel
Core i3-7100
AMD
Ryzen 3 1300X
Intel
Core i3-7300
PlatformZ270, B250X370, B350, A320Z270, B250
SocketLGA1151AM4LGA1151
Cores/Threads2 / 44 / 42 / 4
Base/Turbo/XFR3.9 GHz3.4 / 3.7 / 3.9 GHz4.0 GHz
GPU PCIe 3.0x16x16x16
L2 Cache256 KB/core512 KB/core256 KB/core
L3 Cache3 MB8 MB4 MB
TDP51W65W51W
Retail Price (7/28)$115$129$149


인텔 7100 모델과 라이젠 1300X 스펙비교, 인텔은 2코어 4스레드, 3MB 캐시에 51와트, 1300X는 4코어 4스레드에 8MB 캐시, 65와트


Comparison: AMD Ryzen 3 1200
FeaturesIntel
Pentium G4560
Intel
Pentium G4620
AMD
Ryzen 3 1200
Intel
Core i3-7100
Platform200-series200-series300-series200-series
SocketLGA 1151LGA1151AM4LGA1151
Cores/Threads2 / 42 / 44 / 42 / 4
Base/Turbo3.5 GHz3.7 GHz3.1 / 3.4 GHz3.9 GHz
GPU PCIe 3.0x16x16x16x16
L2 Cache256 KB/core256 KB/core512 KB/core256 KB/core
L3 Cache3 MB3 MB8 MB3 MB
TDP54 W51W65W51W
Retail (7/28)$80$105$109$115

 

테스트 시스템


Test Setup
ProcessorAMD Ryzen 3 1300X (4C/4T, 3.4G, 65W)
AMD Ryzen 3 1200 (4C/4T, 3.1G, 65W)
MotherboardsASUS Crosshair VI Hero
CoolingNoctua NH-U12S SE-AM4
Power SupplyCorsair AX860i
MemoryCorsair Vengeance DDR4-3000 C15 2x8GB
Memory SettingsDDR4-2400 C15
Video CardsMSI GTX 1080 Gaming X 8GB
ASUS GTX 1060 Strix 6GB
Sapphire Nitro R9 Fury 4GB
Sapphire Nitro RX 480 8GB
Sapphire Nitro RX 460 4GB (CPU Tests)
Hard DriveCrucial MX200 1TB
Optical DriveLG GH22NS50
CaseOpen Test Bed
Operating SystemWindows 10 Pro 64-bit


FCAT Processing: link

One of the more interesting workloads that has crossed our desks in recent quarters is FCAT - the tool we use to measure stuttering in gaming due to dropped or runt frames. The FCAT process requires enabling a color-based overlay onto a game, recording the gameplay, and then parsing the video file through the analysis software. The software is mostly single-threaded, however because the video is basically in a raw format, the file size is large and requires moving a lot of data around. For our test, we take a 90-second clip of the Rise of the Tomb Raider benchmark running on a GTX 980 Ti at 1440p, which comes in around 21 GB, and measure the time it takes to process through the visual analysis tool.

System: FCAT Processing ROTR 1440p GTX1080 Data

3D Movement Algorithm Test v2.1: link

This is the latest version of the self-penned 3DPM benchmark. The goal of 3DPM is to simulate semi-optimized scientific algorithms taken directly from my doctorate thesis. Version 2.1 improves over 2.0 by passing the main particle structs by reference rather than by value, and decreasing the amount of double->float->double recasts the compiler was adding in. It affords a ~25% speed-up over v2.0, which means new data.

System: 3D Particle Movement v2.1

DigiCortex v1.20: link

Despite being a couple of years old, the DigiCortex software is a pet project for the visualization of neuron and synapse activity in the brain. The software comes with a variety of benchmark modes, and we take the small benchmark which runs a 32k neuron/1.8B synapse simulation. The results on the output are given as a fraction of whether the system can simulate in real-time, so anything above a value of one is suitable for real-time work. The benchmark offers a 'no firing synapse' mode, which in essence detects DRAM and bus speed, however we take the firing mode which adds CPU work with every firing.

System: DigiCortex 1.20 (32k Neuron, 1.8B Synapse)

Agisoft Photoscan 1.0: link

Photoscan stays in our benchmark suite from the previous version, however now we are running on Windows 10 so features such as Speed Shift on the latest processors come into play. The concept of Photoscan is translating many 2D images into a 3D model - so the more detailed the images, and the more you have, the better the model. The algorithm has four stages, some single threaded and some multi-threaded, along with some cache/memory dependency in there as well. For some of the more variable threaded workload, features such as Speed Shift and XFR will be able to take advantage of CPU stalls or downtime, giving sizeable speedups on newer microarchitectures.

System: Agisoft Photoscan 1.0 Total Time


Corona 1.3: link

Corona is a standalone package designed to assist software like 3ds Max and Maya with photorealism via ray tracing. It's simple - shoot rays, get pixels. OK, it's more complicated than that, but the benchmark renders a fixed scene six times and offers results in terms of time and rays per second. The official benchmark tables list user submitted results in terms of time, however I feel rays per second is a better metric (in general, scores where higher is better seem to be easier to explain anyway). Corona likes to pile on the threads, so the results end up being very staggered based on thread count.

Rendering: Corona Photorealism

Blender 2.78: link

For a render that has been around for what seems like ages, Blender is still a highly popular tool. We managed to wrap up a standard workload into the February 5 nightly build of Blender and measure the time it takes to render the first frame of the scene. Being one of the bigger open source tools out there, it means both AMD and Intel work actively to help improve the codebase, for better or for worse on their own/each other's microarchitecture.

Rendering: Blender 2.78

LuxMark v3.1: Link

As a synthetic, LuxMark might come across as somewhat arbitrary as a renderer, given that it's mainly used to test GPUs, but it does offer both an OpenCL and a standard C++ mode. In this instance, aside from seeing the comparison in each coding mode for cores and IPC, we also get to see the difference in performance moving from a C++ based code-stack to an OpenCL one with a CPU as the main host.

Rendering: LuxMark CPU C++Rendering: LuxMark CPU OpenCL

POV-Ray 3.7.1b4: link

Another regular benchmark in most suites, POV-Ray is another ray-tracer but has been around for many years. It just so happens that during the run up to AMD's Ryzen launch, the code base started to get active again with developers making changes to the code and pushing out updates. Our version and benchmarking started just before that was happening, but given time we will see where the POV-Ray code ends up and adjust in due course.

Rendering: POV-Ray 3.7

Cinebench R15: link

The latest version of CineBench has also become one of those 'used everywhere' benchmarks, particularly as an indicator of single thread performance. High IPC and high frequency gives performance in ST, whereas having good scaling and many cores is where the MT test wins out.

Rendering: CineBench 15 SingleThreadedRendering: CineBench 15 MultiThreaded


SunSpider 1.0.2: link

The oldest web-based benchmark in this portion of our test is SunSpider. This is a very basic javascript algorithm tool, and ends up being more a measure of IPC and latency than anything else, with most high-performance CPUs scoring around about the same. The basic test is looped 10 times and the average taken. We run the basic test 4 times.

Web: SunSpider on Chrome 56

Mozilla Kraken 1.1: link

Kraken is another Javascript based benchmark, using the same test harness as SunSpider, but focusing on more stringent real-world use cases and libraries, such as audio processing and image filters. Again, the basic test is looped ten times, and we run the basic test four times.

Web: Mozilla Kraken 1.1 on Chrome 56

Google Octane 2.0: link

Along with Mozilla, as Google is a major browser developer, having peak JS performance is typically a critical asset when comparing against the other OS developers. In the same way that SunSpider is a very early JS benchmark, and Kraken is a bit newer, Octane aims to be more relevant to real workloads, especially in power constrained devices such as smartphones and tablets.

Web: Google Octane 2.0 on Chrome 56

WebXPRT 2015: link

While the previous three benchmarks do calculations in the background and represent a score, WebXPRT is designed to be a better interpretation of visual workloads that a professional user might have, such as browser based applications, graphing, image editing, sort/analysis, scientific analysis and financial tools.

Web: WebXPRT 15 on Chrome 56


7-Zip 9.2: link

One of the freeware compression tools that offers good scaling performance between processors is 7-Zip. It runs under an open-source licence, is fast, and easy to use tool for power users. We run the benchmark mode via the command line for four loops and take the output score.

Encoding: 7-Zip

WinRAR 5.40: link

For the 2017 test suite, we move to the latest version of WinRAR in our compression test. WinRAR in some quarters is more user-friendly that 7-Zip, hence its inclusion. Rather than use a benchmark mode as we did with 7-Zip, here we take a set of files representative of a generic stack (33 video files in 1.37 GB, 2834 smaller website files in 370 folders in 150 MB) of compressible and incompressible formats. The results shown are the time taken to encode the file. Due to DRAM caching, we run the test 10 times and take the average of the last five runs when the benchmark is in a steady state.

Encoding: WinRAR 5.40

AES Encoding

Algorithms using AES coding have spread far and wide as a ubiquitous tool for encryption. Again, this is another CPU limited test, and modern CPUs have special AES pathways to accelerate their performance. We often see scaling in both frequency and cores with this benchmark. We use the latest version of TrueCrypt and run its benchmark mode over 1GB of in-DRAM data. Results shown are the GB/s average of encryption and decryption.

Encoding: AES

HandBrake v1.0.2 H264 and HEVC: link

As mentioned above, video transcoding (both encode and decode) is a hot topic in performance metrics as more and more content is being created. First consideration is the standard in which the video is encoded, which can be lossless or lossy, trade performance for file-size, trade quality for file-size, or all of the above can increase encoding rates to help accelerate decoding rates. Alongside Google's favorite codec, VP9, there are two others that are taking hold: H264, the older codec, is practically everywhere and is designed to be optimized for 1080p video, and HEVC (or H265) that is aimed to provide the same quality as H264 but at a lower file-size (or better quality for the same size). HEVC is important as 4K is streamed over the air, meaning less bits need to be transferred for the same quality content.

Handbrake is a favored tool for transcoding, and so our test regime takes care of three areas.

Low Quality/Resolution H264: He we transcode a 640x266 H264 rip of a 2 hour film, and change the encoding from Main profile to High profile, using the very-fast preset.

Encoding: Handbrake H264 (LQ)

High Quality/Resolution H264: A similar test, but this time we take a ten-minute double 4K (3840x4320) file running at 60 Hz and transcode from Main to High, using the very-fast preset.

Encoding: Handbrake H264 (HQ)

HEVC Test: Using the same video in HQ, we change the resolution and codec of the original video from 4K60 in H264 into 4K60 HEVC.

Encoding: Handbrake HEVC (4K)


PCMark8: link

Despite originally coming out in 2008/2009, Futuremark has maintained PCMark8 to remain relevant in 2017. On the scale of complicated tasks, PCMark focuses more on the low-to-mid range of professional workloads, making it a good indicator for what people consider 'office' work. We run the benchmark from the commandline in 'conventional' mode, meaning C++ over OpenCL, to remove the graphics card from the equation and focus purely on the CPU. PCMark8 offers Home, Work and Creative workloads, with some software tests shared and others unique to each benchmark set.

Office: PCMark8 Creative (non-OpenCL)

Office: PCMark8 Home (non-OpenCL)

SYSmark 2014 SE: link

SYSmark is developed by Bapco, a consortium of industry CPU companies. The goal of SYSmark is to take stripped down versions of popular software, such as Photoshop and Onenote, and measure how long it takes to process certain tasks within that software. The end result is a score for each of the three segments (Office, Media, Data) as well as an overall score. Here a reference system (Core i3-6100, 4GB DDR3, 256GB SSD, Integrated HD 530 graphics) is used to provide a baseline score of 1000 in each test.

A note on context for these numbers. AMD left Bapco in the last two years, due to differences of opinion on how the benchmarking suites were chosen and AMD believed the tests are angled towards Intel processors and had optimizations to show bigger differences than what AMD felt was present. The following benchmarks are provided as data, but the conflict of opinion between the two companies on the validity of the benchmark is provided as context for the following numbers.


3D Particle Movement v1

3DPM is a self-penned benchmark, taking basic 3D movement algorithms used in Brownian Motion simulations and testing them for speed. High floating point performance, MHz and IPC wins in the single thread version, whereas the multithread version has to handle the threads and loves more cores. This is the original version, written in the style of a typical non-computer science student coding up an algorithm for their theoretical problem, and comes without any non-obvious optimizations not already performed by the compiler, such as false sharing.

Legacy: 3DPM v1 Single Threaded

Legacy: 3DPM v1 MultiThreaded

CineBench 11.5 and 10

Cinebench is a widely known benchmarking tool for measuring performance relative to MAXON's animation software Cinema 4D. Cinebench has been optimized over a decade and focuses on purely CPU horsepower, meaning if there is a discrepancy in pure throughput characteristics, Cinebench is likely to show that discrepancy. Arguably other software doesn't make use of all the tools available, so the real world relevance might purely be academic, but given our large database of data for Cinebench it seems difficult to ignore a small five-minute test. We run the modern version 15 in this test, as well as the older 11.5 and 10 due to our back data.

Legacy: CineBench 11.5 Single ThreadedLegacy: CineBench 11.5 MultiThreadedLegacy: CineBench 10 Single ThreadedLegacy: CineBench 10 MultiThreaded

x264 HD 3.0

Similarly, the x264 HD 3.0 package we use here is also kept for historic regressional data. The latest version is 5.0.1, and encodes a 1080p video clip into a high-quality x264 file. Version 3.0 only performs the same test on a 720p file, and in most circumstances the software performance hits its limit on high-end processors, but still works well for mainstream and low-end. Also, this version only takes a few minutes, whereas the latest can take over 90 minutes to run.

Legacy: x264 3.0 Pass 1Legacy: x264 3.0 Pass 2


example of a mid-game setup at our settings.

At both 1920x1080 and 4K resolutions, we run the same settings. Civilization 6 has sliders for MSAA, Performance Impact and Memory Impact. The latter two refer to detail and texture size respectively, and are rated between 0 (lowest) to 5 (extreme). We run our Civ6 benchmark in position four for performance (ultra) and 0 on memory, with MSAA set to 2x.

For reviews where we include 8K and 16K benchmarks (Civ6 allows us to benchmark extreme resolutions on any monitor) on our GTX 1080, we run the 8K tests similar to the 4K tests, but the 16K tests are set to the lowest option for Performance.

For all our results, we show the average frame rate at 1080p first. Mouse over the other graphs underneath to see 99th percentile frame rates and 'Time Under' graphs, as well as results for other resolutions. All of our benchmark results can also be found in our benchmark engine, Bench.

MSI GTX 1080 Gaming 8G Performance

89130.png
 


For our benchmark, we run a fixed v2.11 version of the game due to some peculiarities of the splash screen added after the merger with the standalone Escalation expansion, and have an automated tool to call the benchmark on the command line. (Prior to v2.11, the benchmark also supported 8K/16K testing, however v2.11 has odd behavior which nukes this.)

At both 1920x1080 and 4K resolutions, we run the same settings. Ashes has dropdown options for MSAA, Light Quality, Object Quality, Shading Samples, Shadow Quality, Textures, and separate options for the terrain. There are several presents, from Very Low to Extreme: we run our benchmarks at Extreme settings, and take the frame-time output for our average, percentile, and time under analysis.

For all our results, we show the average frame rate at 1080p first. Mouse over the other graphs underneath to see 99th percentile frame rates and 'Time Under' graphs, as well as results for other resolutions. All of our benchmark results can also be found in our benchmark engine, Bench.

MSI GTX 1080 Gaming 8G Performance

89142.png
 


The title has an in-game benchmark, for which we run with an automated script implement the graphics settings, select the benchmark, and parse the frame-time output which is dumped on the drive. The graphics settings include standard options such as Graphical Quality, Lighting, Mesh, Motion Blur, Shadow Quality, Textures, Vegetation Range, Depth of Field, Transparency and Tessellation. There are standard presets as well.

We run the benchmark at 1080p and a native 4K, using our 4K monitors, at the Ultra preset. Results are averaged across four runs and we report the average frame rate, 99th percentile frame rate, and time under analysis. 

For all our results, we show the average frame rate at 1080p first. Mouse over the other graphs underneath to see 99th percentile frame rates and 'Time Under' graphs, as well as results for other resolutions. All of our benchmark results can also be found in our benchmark engine, Bench.

MSI GTX 1080 Gaming 8G Performance

89156.png
 


#1 Geothermal Valley

MSI GTX 1080 Gaming 8G Performance

89161.png
 


#2 Prophet's Tomb 

MSI GTX 1080 Gaming 8G Performance

89170.png
 

#3 Spine of the Mountain 

MSI GTX 1080 Gaming 8G Performance

89172.png
 


The graphics settings for Rocket League come in four broad, generic settings: Low, Medium, High and High FXAA. There are advanced settings in place for shadows and details; however, for these tests, we keep to the generic settings. For both 1920x1080 and 4K resolutions, we test at the High preset with an unlimited frame cap.

For all our results, we show the average frame rate at 1080p first. Mouse over the other graphs underneath to see 99th percentile frame rates and 'Time Under' graphs, as well as results for other resolutions. All of our benchmark results can also be found in our benchmark engine, Bench.

MSI GTX 1080 Gaming 8G Performance

89181.png
 


There are no presets for the graphics options on GTA, allowing the user to adjust options such as population density and distance scaling on sliders, but others such as texture/shadow/shader/water quality from Low to Very High. Other options include MSAA, soft shadows, post effects, shadow resolution and extended draw distance options. There is a handy option at the top which shows how much video memory the options are expected to consume, with obvious repercussions if a user requests more video memory than is present on the card (although there’s no obvious indication if you have a low end GPU with lots of GPU memory, like an R7 240 4GB).

To that end, we run the benchmark at 1920x1080 using an average of Very High on the settings, and also at 4K using High on most of them. We take the average results of four runs, reporting frame rate averages, 99th percentiles, and our time under analysis.

For all our results, we show the average frame rate at 1080p first. Mouse over the other graphs underneath to see 99th percentile frame rates and 'Time Under' graphs, as well as results for other resolutions. All of our benchmark results can also be found in our benchmark engine, Bench.

MSI GTX 1080 Gaming 8G Performance

89184.png
 


Power Consumption

For our power consumption readings, we run a Prime 95 load and slowly ramp up the number of threads in play, taking power data from the internal CPU registers that report for when turbo modes or thermal modes should activate. Depending on the CPU access, we can get data that varies from the full package down to individual cores, uncore, integrated graphics and DRAM controllers.

For the Ryzen CPUs, the API pulls out the total package power consumption first.

 Power: Total Package (Idle)Power: Total Package (1T)Power: Total Package (Full Load)

At idle, all the CPUs are pretty much equivalent. The cores are fully idle here, leaving the rest of the chip active enough for tick-over. As we ramp up the load, the higher-frequency Ryzen CPUs move towards their 65W TDP, with the Ryzen 3 1300X almost being spot on at 64.2W. The Intel CPUs are clocked higher, but only have two cores to contend with.  The Ryzen 3 1200 is clocked lower than the Ryzen 3 1300X, hitting a better efficiency point in the Zen design. This ultimately bodes well for upcoming quad-core SKUs in laptops.

Power: Cores Only (1T Load)Power: Cores Only (Full Load)

One of the odd things about the power consumption of the Ryzen 3 CPUs is the difference between how much power the cores internally measure compared to the full power consumption of the package measured as a whole, including the Infinity Fabric, DRAM controllers, IO and such. For the Ryzen 3 1200 for example, at full load the package has a power consumption of 40.43 W total, but the cores only count for 23.05W, leaving 17.38W on the table for the non-core elements in the chip. If we compare that to the Ryzen 5 1500X, we have 68.79W for the package and 49.69W for the cores, a 19.1W difference. For the Ryzen 7 1700X, it becomes 81.51W for the package and 62.10W for the cores, a 19.4W difference.



AMD CPU의 경우 1300X 및 1500X는 기본 / 터보 주파수 (3400/3700 대 3500/3700)에 가까워 거의 같으며 Ryzen 3 1200은 3100/3400에서 약 13 % 낮아집니다.

Intel CPU는 3.5 GHz의 Pentium G4560과 Core i3의 3.9 GHz, 4.0 GHz 및 4.1 GHz에서 차별화 된 커브를 보여줍니다. Core i5 7400의 기저 주파수는 3.0 GHz이고 터보는 3.5 GHz입니다.


For the multi-thread performance:


Ryzen 3 1200은 다시 -12% 정도로 낮아지는 반면 동시 다중 스레딩을 사용하는 Ryzen 5 1500X는 1300X보다 +40% 증가합니다. Ryzen 3 1200과 Core i3 - 7300은 밀접하게 매치되었지만 Ryzen은 ~ 40달러 저렴하게 가격에 이긴다하더라도 모든 듀얼 코어 인텔 제품은 AMD의 쿼드 코어에 비해 뒤쳐져 있습니다. Core i5-7400은 Ryzen 3 1300X와 경쟁하며 쿼드 코어이므로 IPC가 높기 때문에 주파수는 낮지만 인텔은 $50 + 프리미엄으로 제공됩니다.

결합 된 올인원 그래프의 경우 혼합 된 작업 부하 데이터를 포함하고 단일 : 다중 : 혼합 스레드 작업 부하에 대해 결과에 40:50:10을 가중했습니다.


첫째, Ryzen 3 1200은 매력적인 옵션이 아닙니다. 펜티엄의 +2 -3%을 수행하지만 30달러가 더 비쌉니다. 코어 i3-7100은 10달러 이하의 비용으로 8%를 상회합니다.

다음 Ryzen 3 1300X는 코어 i3 - 7300 / 7320과 코어 i5 - 7400에 비해 달러당 성능에 분명히 승리합니다. Core i3 - 7100과 비교했을때는 10 - 15% 정도의 성능 향상을 보였는데 이는 비용의 10% 미만입니다. 예산에 따라 각 옵션은 매력적인 옵션일 수 있습니다.


출처 - http://www.anandtech.com

반응형
Posted by 랩터 인터내셔널


인텔 코퍼레이션 (Intel Corporation)이 2분기 실적을 발표했습니다. 2분기 매출은 전년 대비 9% 증가한 148억 달러, 영업 이익은 전년 대비 무려 190% 증가한 38억 달러를 나타냈습니다. 비 GAAP 영업 이익은 42억 달러로 30% 증가했으며 EPS는 0.58 달러로 전년 대비 115% 증가, 비 GAAP EPS는 22% 증가한 0.72 달러로 2분기에 인텔은 어닝 서프라이즈 실적을 기록했습니다.

또한 약 47억 달러의 현금을 창출하여 13억 달러의 배당금을 지불하고 3600만주의 주식을 환매하기 위해 13억 달러를 사용했으며 자사의 EPS 전망을 2.66달러 (GAAP)로, 3.00달러 (비 GAAP)로 상향시켰습니다. 이는 이전보다 15% 증가한 것입니다.

인텔 CEO 브라이언 크르자니크 (Brian Krzanich)는 "2분기는 작년에 비해 두 자릿수의 매출과 이익을 기록한 뛰어난 분기였다. 우리는 또한 새로운 인텔 코어, 제온 및 메모리 제품을 출시하여 성능 리더십을 다시 한번 입증했으며 인공지능 및 자율 주행과 같은 분야에서 고객의 추진력을 얻고 있다. 업계를 선도하는 제품과 상반기 실적 덕분에 우리는 다른 해와 다른 확실한 길을 걷고 있다."


경쟁업체인 인텔과 AMD의 상황을 보면 경쟁사인 AMD는 2분기에도 1600만 달러의 적자 실적을 기록한 것과 달리 인텔은 어닝 서프라이즈를 기록하면서 두 기업간의 차이는 매우 크게 확대되고 있습니다.

반응형
Posted by 랩터 인터내셔널


불도저 아키텍처 발표 이후 6년이 지난 2017년 3월, AMD는 마침내 새로운 시대의 서막을 알리는「 젠 마이크로 아키텍처(Zen Microarchitecture) 」를 발표했다. 이는 6년간 프로세서 시장을 사실상 독점한 인텔과 다시 한번 경쟁할 수 있는 기반이 마련된 것으로써 AMD의 강력한 "Sweet Spot" 될 가능성이 있는 젠 아키텍처를 세부적으로 살펴보도록 한다.


- 선행 구독

인텔 네할렘 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=108899

인텔 샌디브릿지 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109029

AMD 불도저 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109017

GPU 시장 분석) GPGPU 페르미 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109109  

반도체 아키텍처 분석) x86, HSA, HBM, TSV, 3D V-NAND

http://raptor-hw.net/xe/rapter_analysis/109695



먼저 젠 아키텍처의 프론트 엔드 스테이지 전반은 많은 변화가 진행되고 있다. 눈에 띄는 점은 완전히 재설계 된 SIMD 파이프 라인과 부동 소수점 유닛 부문이다. SIMD(Single Instruction, Multiple Data) 유닛과 부동 소수점 유닛은 128bit SIMD의 MUL/FMAD와 128bit SIMD의 ADD 유닛이 2세트로 총 4유닛이다. 128bit MUL/ADD가 2유닛, FMAD 2유닛으로 사이클당 최대 4명령 발행이 가능하며 디스패치는 최대 4마이크로 오퍼레이션이다. 명령 디코더는 사이클당 4명령을 내부 마이크로 오퍼레이션/OP 캐시에 디코드하며 스케줄러에서 정수와 부동 소수점 연산계로 나누어 연산한다. 캐시는 64KB의 L1 명령 캐시와 32KB L1 데이터 캐시, 512KB L2 캐시와 코어간 공유하는 8MB L3 캐시, 명령 디코더의 하단에 새롭게 추가된 OP 캐시를 갖춘다. 캐시 대역은 L1 명령 캐시가 32byte(256bit)/사이클, L1 데이터 캐시에서 2개의 16byte(128bit) 로드와 하나의 16byte(128bit) 스토어를 병렬로 실행할 수 있으며 L2 대역은 L1 명령 캐시/L1 데이터 캐시가 각각 32byte(256bit)/사이클이며 L3 - L2 구간도 32byte(256bit)/사이클.


마이크로 오퍼레이션(OP) : 명령 포맷이 복잡하고 가변 길이 형태인 x86 명령과 달리 명령 포맷이 단순한 고정 길이/고정 포맷형태로써 RISC와 같이 비교적 간단하게 실행



4개의 정수 연산 유닛은 일반적으로는 같은 기능을 갖지만 Multiply, Divide, CRC32 3가지 기능은 1유닛씩 각각 다른 정수 파이프에 할당되어 있다. 이것은 하나의 ALU만이 Multiply가 가능하고 다른 하나의 ALU가 Divide, 또 다른 하나의 ALU가 CRC32를 처리할 수 있는 것이며 그 외의 일반적인 연산은 4개 ALU가 모두 동일하다. 또한 물리 레지스터 파일은 통합된 하나의 168엔트리 구조로 변경되고 있다. 불도저가 스레드당 96엔트리, 2개의 유닛이 총 192엔트리로 많아 보이지만 불도저는 정수 유닛이 물리적으로 분리되어 있기 때문에 차별성이 있다. 정수 스케줄러는 6개의 명령 포트로 각각 14단 큐에서 합계 84엔트리, 불도저는 각 스레드마다 40엔트리로 2개의 정수 코어, 합계 80엔트리로 젠 아키텍처의 스케줄링은 불도저보다 깊다.



정수 파이프는 2개의 ALU 파이프가 각각 개별적인 브랜치 유닛과 접속하고 있다. 2개 분기는 같은 스레드에 속하는 분기 명령이나 다른 스레드에 속하는 분기 명령이라도 모두 실행이 가능한 2분기/사이클이다. 2병렬 브랜치 유닛은 2스레드일 경우 각각의 브랜치 명령을 동시에 실행할 수 있고, 1스레드 중 복수의 브랜치 명령도 1주기로 실행하여 더 많은 브랜치를 1사이클에 처리할 수 있기 때문에 연속 코드의 실행 효율이 향상되고 있다.


젠 아키텍처도 브랜치 퓨전(Branch Fusion)을 도입하고 있다. 이것은 비교형 명령과 점프 명령을 융합시키는 것으로써 2개의 명령은 디스패치 단계에서 하나의 마이크로 오퍼레이션으로 융합되고 융합된 브랜치 퓨전 마이크로 오퍼레이션은 하나의 마이크로 오퍼레이션으로 리타이어(Retire)까지 다룬다. 실행시에도 2개의 마이크로 오퍼레이션으로 분리되지 않는다.



디스패치 유닛은 최대 6마이크로 오퍼레이션을 1사이클에 발행한다. 이것은 In-Order 에서 Out-of-Order 로 사이클당 최대 6마이크로 오퍼레이션으로 보내는 것이며 제어 할 수 있는 총 마이크로 오퍼레이션의 수는 192개다.(불도저 128개) Out-of-Order 가 발행한 6마이크로 오퍼레이션을 8마이크로 오퍼레이션을 수용하는 리타이어 큐가 최대한 빠르게 리타이어 시키는 구조.


기존 불도저 아키텍처는 모듈 내에 정수 코어가 물리적으로 2개로 분리되어 병렬 스레드로 처리했다. 이 설계의 이점은 각 모듈(코어)가 정수 유닛 자원을 경쟁없이 원할하게 2개의 병렬로 실행하여 멀티스레드 성능 향상을 도모할 수 있으나 반대로 물리적인 강제 분리에 따라 싱글 스레드 성능이 낮아지기 때문에 불도저의 싱글 스레드 성능은 경쟁사 대비 처참했다. 그에 따라 AMD는 젠 아키텍처에 보다 전통적인 SMT(Simultaneous Multithreading) 기술을 도입하여 대부분의 자원을 스레드에서 공유하는 다중 스레드 설계로 전환했다. 젠 아키텍처의 정수 연산은 4파이프, 로드/스토어 주소 생성이 2파이프로써 불도저 대비 2배 상승한 스레드당 정수 연산 병렬성을 나타내고 있다.



부동 소수점 연산 파이프는 MUL/ADD가 각각 2개지만 실제로는 MUL 파이프에 ADD 유닛이 포함되어 있고, FMAD 유닛으로 실행된다. 이론적으로는 FMAD에서 MUL/ADD 파이프를 동시에 움직일 수 있지만 실제로는 레지스터 파일의 리드 포트 제약 때문에 MUL/ADD는 동시에 진행할 수 없다. 4개의 SIMD 파이프 라인과 부동 소수점 유닛은 각각 2개의 레지스터 리드 포트를 갖추며 1사이클에 각 유닛에서 2개 소스의 오퍼랜드(Operand) 리드가 가능하다. MUL/FMAD는 3개의 소스 오퍼랜드가 필요하다. 레지스터 파일에서 읽을 경우 리드 포트가 부족하기 때문에 약간의 트릭을 사용하고 있다. MUL/FMAD는 ADD 파이프에서 레지스터 파일의 리드 포트를 하나 차용하고 있다. MUL/FMAD는 ADD 유닛은 사용하지 않기 때문에 ADD 유닛 자체가 비어 ADD는 스케줄러가 차단한다. 이것은 MUL/FMAD 유닛과 ADD 유닛 자체는 분리되어 있지만 레지스터 리드 포트 수가 한정되어 있기 때문에 두 가지를 동시에 실행 수 없는 것이며 FP 레지스터 파일 전체는 128bit 리드 포트가 각 유닛에 2개씩 총 8포트로 구성되고 있다.


부동 소수점 유닛의 마이크로 오퍼레이션 큐 사인은 NSQ(Non-Scheduling Queue)와 스케줄 큐(Scheduler Queue) 2단계로 진행된다. 스케줄러 큐는 각 실행 유닛에 대한 마이크로 오퍼레이션을 발행할 때까지 대기시킨 스케줄링한 큐를 말하며 Out-of-Order 의 일반적인 스케줄이다. 반면 전단부에 추가된 NSQ는 단순한 마이크로 오퍼레이션의 버퍼로 볼 수 있지만 NSQ에 FP 마이크로 오퍼레이션이 대기하고 있는 동안 정수 유닛 쪽에 발행된 다른 마이크로 오퍼레이션이 실행된다. 상대적으로 레이턴시가 긴 마이크로 오퍼레이션이 실행 되는 사이 FP 마이크로 오퍼레이션은 NSQ에서 스케줄 큐로 옮겨지며 이후 FP 마이크로 오퍼레이션이 연산 파이프에서 처리되는 시점에는 오퍼랜드의 데이터가 레지스터에 로딩되어 있다.


이러한 2단계 큐로 구성함으로써 스케줄링의 자원을 절약하고 있다. 큐잉의 전반은 자원 체크 등의 스케줄링을 하지 않아 로드 레이턴시를 은폐하기 때문에 마이크로 오퍼레이션을 완충할 수 있다. 이것에 의해 스케줄링의 자원을 억제하며 큐잉을 효율적으로 할 수 진행할 수 있기 때문에 정수/부동 소수점 연산 큐잉의 균형을 잡을 수 있다.
 
또한 젠 아키텍처는 AVX2의 256bit SIMD 명령을 지원한다. 256bit 명령은 2개의 피스로 분리하여 각각 독립적으로 실행한다. 128bit의 연산 유닛을 2개 결합시켜 실행하는 형태가 아니며 2개의 128bit 운영은 완전히 독립된 마이크로 오퍼레이션으로써 2개의 마이크로 오퍼레이션을 Out-of-Order 에서 실행할 수도 있다. 즉 256bit AVX 명령은 디스패치 스테이지에서 세분화 된 마이크로 오퍼레이션으로 분리되고 개별적인 128bit 마이크로 오퍼레이션으로 진행되며 레지스터도 각각 128bit 레지스터를 사용하는 것.



프론트 엔드 스테이지에는 최대 특징 중 하나로 디코딩한 내부 명령인 Micro-OP(마이크로 오퍼레이션)을 캐시하는 OP 캐시가 추가되고 있다. x86 프로세서의 강력함은 x86 명령에 있지만 복잡하고 장기간에 걸쳐 확장이 진행된 x86 명령 디코딩 자체가 프로세서를 짓누르는 전력 소모의 근원이자 퍼포먼스에 직결되는 부문이기 때문에 x86 CPU의 성능을 결정짓는 핵심적인 요소가 되고 있다. 과거 인텔은 이러한 문제를 해결하기 위해 샌디브릿지 아키텍처에 uOP 캐시(uOP Cache)를 도입했다. 인텔의 uOP 캐시는 트레이스(추적)을 생성하지 않고, L1 명령 캐시와 같이 주소 기준으로 확인하는 16byte 명령 페치 라인을 2개 연결하여 32byte의 마이크로 오퍼레이션을 uOP 캐시 라인에 격납하는 형태다. 인텔의 uOP와 같이 AMD 젠의 OP 캐시는 비슷한 맥락으로 보이지만 트레이스 캐시적인 구조는 아닌 것으로 보이며 L1 명령 캐시와 OP 캐시는 분리된 캐시로써 OP 캐시는 전용 캐시 태그를 갖추며 마이크로 태그(Micro-tags)로 L1 명령 캐시 및 OP 캐시 중 히트한 방향을 확인한다.


일반적인 x86 프로세서의 마이크로 오퍼레이션은 명령 디코딩시 CISC(Complex Instruction Set Computer)의 복합 명령을 내부적으로 RISC(Reduced Instruction Set Computer)형태와 같은 단순 분리된 마이크로 오퍼레이션 명령으로 변환하여 실행한다. 그러나 현행의 x86 프로세서는 CISC의 복합 명령을 어느 정도 유지한 채 In-Order 구간에서 전체적으로 핸들링하여 실제로 처리가 진행되는 Out-of-Order 구간에서 단순한 마이크로 오퍼레이션으로 변환되고 있다. 젠 아키텍처의 명령 디코딩은 복합 마이크로 오퍼레이션 Macro-OP, 단순 분리된 마이크로 오퍼레이션의 2단계 구성이다. 이러한 2단계 구성은 x86, x64 명령을 1:1 고밀도 마이크로 오퍼레이션으로 변환하는 형태이며 젠 아키텍처의 명령 디코더는 디스패치까지 전체적으로 확장되는 형태로 보인다. 주로 명령 디코더가 디코딩을 진행 하지만 어느 정도의 디코딩은 마이크로 오퍼레이션 큐의 후단에도 발생한다. 여기서 OP 캐시가 적용됐기 때문에 마이크로 오퍼레이션 큐에 저장된 OP는 상당히 고밀도이며 그것이 처리되는 단계에서는 보다 전통적인 마이크로 오퍼레이션으로 전개된다. 
 

젠 아키텍처는 인텔의 uOP 캐시와 흡사한 OP 캐시를 도입했지만 명령 디코딩의 플로우는 인텔과 다르다. 이전 불도저 아키텍처의 명령 디코딩은 하나의 OP로 변환되는 패스트 패스 싱글(Fast Path Single), 2개의 OP로 변환되는 패스트 패스 더블(Fast Path Double), 그 이상의 OP로 변환되는 마이크로 코드(Microcode) 3가지 디코딩 타입이 적용됐으나 젠 아키텍처는 명령 디코더에서 명령 바운드리을 검색하여 x86, x64 명령을 분리하고, 마이크로 오퍼레이션으로 변환한 뒤 마이크로 오퍼레이션 큐로 전송한다. 이때의 마이크로 오퍼레이션은 매우 고밀도로써 AMD가 패스트 패스 더블이라고 부르는 명령도 하나의 고밀도 마이크로 오퍼레이션이 되고 있기 때문에 처리 스테이지까지 그대로인 형태다.



이것은 기존 불도저 아키텍처의 패스트 패스 더블 형태를 젠 아키텍처는 x86 명령을 분리하지 않고, 하나의 내부 명령으로 매핑하는 고밀도 마이크로 오퍼레이션으로 처리한다는 것을 의미한다. 불도저 아키텍처는 매우 복잡한 x86 명령은 마이크로 코드 ROM에서 마이크로 오퍼레이션으로 전개하며 2개까지의 마이크로 오퍼레이션으로 변환되는 명령은 일반적인 병렬 디코더, 3개 이상의 마이크로 오퍼레이션으로 변환되는 명령은 마이크로 코드 순으로 이어지며 디코딩 단계에서 마이크로 코드 엔진에서 3개 이상의 마이크로 오퍼레이션으로 변환된다.


여기서 젠 아키텍처는 복잡한 구간을 마이크로 코드 ROM 주소를 저장한 뒤 고밀도 마이크로 오퍼레이션으로 변환하고, 마이크로 오퍼레이션 큐에 기록한다. 마이크로 코드 ROM의 마이크로 오퍼레이션은 큐에는 저장되지 않지만 마이크로 코드 ROM의 주소를 매핑하여 고밀도 마이크로 오퍼레이션을 마지막 단계까지 전개하지 않고, ROM이 필요한 마이크로 오퍼레이션은 디스패치의 타이밍에 맞게 설정된 Kicking Sequence에서 마이크로 코드 ROM으로 보낸다.


AMD는 불도저 아키텍처에서 비교형 명령과 점프 명령을 융합시킨 브랜치 퓨전을 도입했다. 이는 연계성이 있는 2개의 명령을 조합하여 하나의 마이크로 오퍼레이션으로 하나의 실행 파이프에서 실행한다. 명령 수를 줄인다는 의미에서는 최초 명령 디코더 단계부터 퓨전을 하는 것이 효율적으로 보이지만 젠 아키텍처는 처리 단계에서 퓨전을 진행하고 있다. 디코더에서 연계성이 있는 2개의 마이크로 오퍼레이션이 처리 단계에서 하나의 마이크로 오퍼레이션으로 퓨전되는 것으로 처리 단계에서 디스패치는 6개의 마이크로 오퍼레이션을 상한으로 퓨전하여 하나로 만든다.


따라서 젠 아키텍처의 명령 디코딩 스테이지는 x86 명령을 CISC적인 특성을 어느 정도 유치한 채 고밀도 마이크로 오퍼레이션으로 분리하고 정리한다. 이후 마이크로 오퍼레이션을 저장한 OP 캐시를 OP 큐가 취급하고 Out-of-Order 단계에서 한번에 마이크로 오퍼레이션으로 전개하며 이것은 처리 후단에서 진행하는 것으로 보인다. 복합 명령을 1:1로 하나의 고밀도 마이크로 오퍼레이션으로 변환하는 형태로써 일정량으로 정해져있는 작은 OP 캐시에 최대한의 마이크로 오퍼레이션을 저장할 수 있는 최적화를 도모하고 있는 것으로써 젠 아키텍처의 전체적인 명령 디코딩 플로우는 새롭게 도입된 OP 캐시에 초점을 맞춰 설계했다고 볼 수 있다.



젠 아키텍처는 새로운 뉴럴 네트워크 분기 예측 기술이 탑재되고 있다. 이 기술은 소니 플레이스테이션과 같은 콘솔 시장을 타겟으로 하는 AMD의 기존 재규어(Jaguar)에도 탑재되고 있는 기술이지만 AMD는 이에 대한 세부적인 알고리즘을 공개하지 않았다. 분기 예측은 말 그대로 분기를 예측하는 것으로써 정확도가 높을수록 파이프 라인은 손실을 줄이고 효율적인 처리가 가능하기 때문에 전력 효율 감소로 이어지는 중요할 기술이다. 젠 아키텍처의 Branch Target Buffer(BTB)는 L1명령 캐시와 통합된 연관성이 있으며 1엔트리에 2브랜치를 1사이클에 예측, 브랜치 히스토리 테이블(Branch History Table)의 사이즈를 2배로 증가시켰다는 점만 확인할 수 있다. 



전체적인 코어 디자인은 새로운 CCX(Core Complex)로 설계되고 있다. CCX는 4개의 물리 코어가 하나의 집단(1CCX)을 이루는 형태로 각각의 코어는 8MB L3 캐시를 공유한다. 캐시 계층은 L3 캐시가 L2에 대한 익스클러시브 방식으로 L2 캐시 데이터는 L3 캐시에 존재하지 않고, 캐시 스누프에서 L3가 미스한 경우 각 CPU 코어의 L2 캐시도 스누프한다. 또한 스누프 트래픽을 경감하기 위한 L2 캐시 태그의 사본을 L3에 저장한다.


CCX는 회로 설계도 강화되고 있다. 디지털 LDO(Low Drop-Out)에 의한 전압 제어는 VRM에서 CPU 코어의 가장 높은 VID로 입력된 코어 전압인 RVDD를 각 코어별로 VDD에 흡수하여 부하에 맞춰 최적의 전압과 주파수로 조정하며 1300개 이상의 크리티컬 패스 모니터와 파워 서플라이 모니터, 서멀 다이오드, 루프 디텍더 등을 배치하여 전압의 변동이나 다이 온도 상승, 크리티컬 패스의 딜레이 등을 세부적으로 확인하여 최적의 동작 주파수를 검증하고, AVFS(Adaptive Frequency and Voltage Scaling)는 보다 디테일 한 25MHz 단위로 주파수를 조정, 구동 전압도 각 코어 단위로 개별적으로 제어하며 전압 제어를 위해 배선층에 다수의 MIMCap를 심고 있다. 이 기술들은 젠 아키텍처의 XFR(Xtended Frequency Range) 기술로 이어져 프로세서의 쿨링 상황에 따라 보장된 터보 클럭 이상의 클럭으로 동작하는 기능도 제공한다.




젠 아키텍처는 이러한 CCX가 2개로 구성된 2CCX 설계로 각각의 CCX는 새로운 인터커넥트 기술인 인피니티 패브릭(Infinity Fabric)으로 연결된다. 인피니티 패브릭은 데이터 전송을 위한 Infinity Scalable Data Fabric(SDF)와 제어 신호를 전달하는 Infinity Scalable Control Fabric(SCF)의 2계통으로써 의미대로 SDF가 데이터 제어, SCF가 앞서 설명한 다양한 CCX 내부 센서 외 클럭, 전원, 초기화, 보안 등의 다양한 제어 신호를 총괄한다. AMD는 인피니피 패브릭을 젠 아키텍처 뿐 만 아니라 향후 개발되는 프로세서, GPU, 서버, 모바일 등의 제품군에 공통으로 사용한다고 밝혔다. 이것은 새로운 제품 개발에 각각 별도의 인터커넥트 기술을 개발하지 않고, 일관된 IP를 사용함으로써 제품 개발에 소요되는 시간과 노력, 비용 등을 절감하기 위함이다.

  


지금까지 살펴 본 AMD의 젠 마이크로 아키텍처는 불도저 아키텍처와 달리 근본부터 재설계한 완전히 새로운 아키텍처임을 다시 한번 확인할 수 있었다. 전체적인 아키텍처 디자인은 AMD 만의 차별성도 있으나 인텔 아키텍처를 닮아가고 있는 인상을 주고 있으며  그에 따른 퍼포먼스는 이전 프로세서 대비 40% 향상된 IPC로 인텔의 턱밑까지 추격하는데 성공하여 소비자들에게 다양한 시스템을 구성할 수 있는 선택의 폭을 넓혀주고 있다.


AMD 젠 아키텍처 성능 - http://raptor-hw.net/xe/benchmark

반응형
Posted by 랩터 인터내셔널