'샌디브릿지'에 해당되는 글 2건

  1. 2017.02.10 쿼드코어 샌디브릿지 2600K vs 듀얼코어 카비레이크 7350K 성능 대결 by 랩터 인터내셔널
  2. 2016.04.23 인텔 샌디브릿지 아키텍처 분석 (링버스,AVX,SSE,uOP 캐시) by 랩터 인터내셔널


흥미로운 한판, 샌디브릿지 2600K vs 카비레이크 7350K 성능 대결 by http://www.anandtech.com


CPU Die Size Comparison
Numbers in table are to nearest degree of known accuracy
Data from Intel or Trusted Sources (Chipworks/PCWatch)
CPUYearProcess
Node
Die Size
2C or 2+2
Die Size
4C or 4+2
Die Size
4+3/e
(no eDRAM)
Die Size
(other)
Intel Kaby Lake201714+nm98.68126.15- 
Intel Skylake201514nm98.57122.40234-
Intel Broadwell201414nm82***241.50133 (2+3)
246.24 (10C)
306.18 (15C)
456.12 (24C)
Intel Haswell201322nm130177264181 (2+3)
355.52 (8C)
492 (12C)
662 (18C)
Intel Ivy Bridge201222nm118.09159.82-256.5 (6C)
341 (10C)
541 (15C)
Intel Sandy Bridge201132nm149216-435 (8C)
Intel Westmere
(GPU on 45nm)
200932nm81 (Core)
195* (+GPU)
276**-248 (6C)
513 (10C)
Intel Nehalem200845nm-263-296 (HEDT)
684 (8C)
Intel Yorkfield200745nm107220--
Intel Kentsfield200765nm-280--
Intel Conroe200665nm145---



인텔의 세대별 프로세서 구분, 샌디브릿지는 2011년 발표된 32나노 공정, 다이사이즈는 216 / 카비레이크는 2017년 발표된 14나노 플러스 공정, 다이사이즈는 126.15


Intel Kaby Lake S SKUs
 Cores/
Threads
Base/
Turbo
IGPL3eDRAMTDPCost
OEM
i7-7700K4/84.2/4.5HD 6308 MB-91 W$339
i7-77004/83.6/4.2HD 6308 MB-65 W$303
i7-7700T4/82.9/3.8HD 6308 MB-35 W$303
i5-7600K4/43.8/4.2HD 6306 MB-91 W$242
i5-76004/43.5/4.1HD 6306 MB-65 W$213
i5-7600T4/42.8/3.7HD 6306 MB-35 W$213
i5-75004/43.4/3.8HD 6306 MB-65 W$192
i5-7500T4/42.7/3.3HD 6306 MB-35 W$192
i5-74004/43.0/3.5HD 6306 MB-65 W$182
i5-7400T4/42.4/3.0HD 6306 MB-35 W$182
i3-7350K2/44.2HD 6304 MB-60 W$168
i3-73202/44.1HD 6304 MB-51 W$149
i3-73002/44.0HD 6304 MB-51 W$138
i3-7300T2/43.5HD 6304 MB-35 W$138
i3-71002/43.9HD 6303 MB-51 W$117
i3-7100T2/43.4HD 6303 MB-35 W$117
G46202/43.7HD 6303 MB-51 W$86
G46002/43.6HD 6303 MB-51 W$75
G4600T2/43.0HD 6303 MB-35 W$75
G45602/43.5HD 6103 MB-54 W$64
G4560T2/42.9HD 6103 MB-35 W$64
G39502/23.0HD 6102 MB-51 W$52
G39302/22.9HD 6102 MB-51 W$42
G3930T2/22.7HD 6102 MB-35 W$42



인텔 카비레이크 프로세서 라인업

i3-7350K는 듀얼코어에 SMT 지원으로 4스레드 동작, 배수락 해제, 4.2 동작클럭, L3 캐시 4MB, HD 630 내장그래픽, TDP 60와트, 가격은 168달러


Intel%20Core%20i3-7350K.jpg?_ga=1.142900


7350K CPU-Z 확인, 상기 스펙 동일


Kaby Lake i3 vs Sandy Bridge i7 Comparison
Launch Pricing
CPUYearCores
Threads
FreqTurboL3IGPDRAMTDPPrice
Core i3-7350K20172/44.2-4MBHD 630DDR4-240060W$168
Core i7-2600K20114/83.43.88MBHD 3000DDR3-133395W$317



샌디브릿지 2600K는 과거의 하이엔드 프로세서로 4코어 8스레드, 3.4 동작클럭, L3 캐시 8MB, TDP 95W, 가격은 317달러, 7350K는 반값 정도인 168달러


[ 테스트 시스템 ]


Test Setup
Processor Intel Core i3-7350K (ES, Retail Stepping), 60W, $157
2 Cores, 4 Threads, 4.2 GHz
Motherboards MSI Z270 Gaming M7
Cooling Cooler Master Nepton 140XL
Power Supply OCZ 1250W Gold ZX Series
Corsair AX1200i Platinum PSU
Memory G.Skill Ripjaws 4 DDR4-2400 C15 2x16 GB 1.2V
Memory Settings DDR4-2400 C15
Video Cards ASUS GTX 980 Strix 4GB
MSI R9 290X Gaming 8GB
ASUS R7 240 2GB
Hard Drive Crucial MX200 1TB
Optical Drive LG GH22NS50
Case Open Test Bed
Operating System Windows 7 64-bit SP1


WinRAR 5.0.1: link

Our WinRAR test from 2013 is updated to the latest version of WinRAR at the start of 2014. We compress a set of 2867 files across 320 folders totaling 1.52 GB in size – 95% of these files are small typical website files, and the rest (90% of the size) are small 30 second 720p videos.

WinRAR 5.01, 2867 files, 1.52 GB

WinRAR is more geared towards a variable threaded environment but also memory speed. The fact that the Core i5 is above the Core i3 shows that having actual cores helps, regardless of frequency - the additional hyperthreads for the Core i7-2600K also gives it the win, despite the memory frequency difference.

3D Particle Movement v2

3DPM is a self-penned benchmark, taking basic 3D movement algorithms used in Brownian Motion simulations and testing them for speed. High floating point performance, MHz and IPC wins the day. This is the second variant of this benchmark, fixing for false sharing in the first version, and lending itself to better multithreaded performance.

3D Particle Movement v2.0 beta-1

3DPMv2 is still new, so we don’t have too many results for it so far - but again this is another situation where having actual cores helps. This is typically when the threads are 'heavy', i.e. spill out into various caches and require more than 1/2 the cache shared within a core each. In the case of the Kaby Lake, this means that each core has 32KB of L1 - or 32KB per thread for the i5 but only 16KB per thread in the i3.

SYSMark 2014

Engineered by BAPco (to which Intel is a consortium member), this set of tests are designed to be an office/data/media/financial range of tests using common well-known CAD, image editing, web browsing and other tools to put out a score, where a score of 1000 is attributed to an old Core i3 using a mechanical harddrive. Here we report the overall score, however the test breakdowns can be found in Bench.

SYSmark 2014 - Overall

Because SYSMark is a variety of tests that rely on response and throughput, here is where the Core i3 comes into play over the i5 and i7-2600K. With the i5 it's about equal, but the years of IPC increases put the i7-2600K now behind the Kaby i3.

Web Benchmarks

On the lower end processors, general usability is a big factor of experience, especially as we move into the HTML5 era of web browsing.  For our web benchmarks, we take well-known tests with Chrome as installed by SYSMark as a consistent browser.

Mozilla Kraken 1.1

Kraken 1.1

Kraken favors high frequency and IPC, so the i3 takes a large lead over the i7-2600K for this sort of workload



Agisoft Photoscan – 2D to 3D Image Manipulation: link

Agisoft Photoscan creates 3D models from 2D images, a process which is very computationally expensive. The algorithm is split into four distinct phases, and different phases of the model reconstruction require either fast memory, fast IPC, more cores, or even OpenCL compute devices to hand. Agisoft supplied us with a special version of the software to script the process, where we take 50 images of a stately home and convert it into a medium quality model. This benchmark typically takes around 15-20 minutes on a high-end PC on the CPU alone, with GPUs reducing the time.

Here we report the overall time to complete the test – sub-test results can be found in Bench.

Agisoft PhotoScan Benchmark - Total Time

Photoscan is a mix of single and multi-threaded segments, but overall the extra cores in the i5/i7 beat the Core i3, but not by much.

Cinebench R15

Cinebench is a benchmark based around Cinema 4D, and is fairly well known among enthusiasts for stressing the CPU for a provided workload. Results are given as a score, where higher is better.

Cinebench R15 - Single Threaded

All the Kaby Lake processors seem to do well in CB15 single threaded performance, given that all the K-processors can reach 4.2 GHz or higher one way or another. Nonetheless, the age of the Core i7-2600K is showing here.

Cinebench R15 - Multi-Threaded

Turning the tables with actual cores, and the Core i7-2600K gets a significant leg up here. The Core i5 also sits above the Core i3.

HandBrake v0.9.9: link

For HandBrake, we take two videos (a 2h20 640x266 DVD rip and a 10min double UHD 3840x4320 animation short) and convert them to x264 format in an MP4 container.  Results are given in terms of the frames per second processed, and HandBrake uses as many threads as possible.

HandBrake v0.9.9 LQ Film

HandBrake v0.9.9 2x4K

For video conversion, having small frames puts all three CPUs in a similar spot. But ramp up the frame size and we see the Kaby Lake i5 pull ahead due to IPC and instructions. The Core i3 has enough oomph to match the extra threads on the Core i7-2600K though.

Hybrid x265

Hybrid is a new benchmark, where we take a 4K 1500 frame video and convert it into an x265 format without audio. Results are given in frames per second.

Hybrid x265, 4K Video

With a different video conversion tool and render, the extra cores and threads of the Core i7 is more than enough to give it a 30% advantage over the Core i3-7350K. It makes me wonder if another +30% frequency would help the Core i3.


Cinebench R10

The R10 version of Cinebench is one of our oldest benchmarks, with data going back more than a few generations. The benchmark is similar to that of the newest R15 version, albeit with a simpler render target and a different strategy for multithreading.

Cinebench R10 - Single Threaded Benchmark

With high frequency in tow, the Core i3-7350K makes its mark.

Cinebench R10 - Multi-Threaded Benchmark

When more threads come to play, the Core i5-7400 and Core i7-2600K battle it out in terms of four cores and IPC vs hyperthreading. The Core i3-7350K sits around ~25% behind.

Cinebench R11.5

CB11.5 has been popular for many years as a performance test, using easy to read and compare numbers that aren’t in the 1000s. We run the benchmark in an automated fashion three times in single-thread and multi-thread mode and take the average of the results.

Cinebench 11.5 - Single Threaded

Cinebench 11.5 - Multi-Threaded

Similar to CB10, the single thread results show that a 4.2 GHz Kaby Lake is nothing to be sniffed at. In the multithreaded test, CB11.5 is more able to leverage the hyperthreads, showing that a Core i7-2600K will run rings around the low end Kaby i5, but is bested by the higher frequency Kaby i5-K. The Core i3 still has that dual core deficit.

7-zip

As an open source compression/decompression tool, 7-zip is easy to test and features a built-in benchmark to measure performance. As a utility, similar to WinRAR, high thread counts, frequency and UPC typically win the day here.

7-zip Benchmark

The difference between the i3-7350K and the i5-7400 shows that 7-zip prefers cores over threads, but the Core i7-2600K results show it can use both to good effect, even on older microarchitectures, scoring almost double the i3-7350K.

POV-Ray

Ray-tracing is a typical multithreaded test, with each ray being a potential thread in its own right ensuring that a workload can scale in complexity easily. This lends itself to cores, frequency and IPC: the more, the better.

POV-Ray 3.7 Beta RC4

POV-Ray is a benchmark that is usually touted as liking high IPC, high frequency and more threads. The i7-2600K, despite having double the resources of the Core i3-7350K, is only 30% ahead. 

AES via TrueCrypt

Despite TrueCrypt no longer being maintained, the final version incorporates a good test to measure different encryption methodologies as well as encryption combinations. When TrueCrypt was in full swing, the introduction of AES accelerated hardware dialed the performance up a notch, however most of the processors (save the Pentiums/Celerons) now support this and get good speed. The built-in TrueCrypt test does a mass encryption on in-memory data, giving results in GB/s.

TrueCrypt 7.1 Benchmark (AES Performance)



Alien: Isolation

If first person survival mixed with horror is your sort of thing, then Alien: Isolation, based off of the Alien franchise, should be an interesting title. Developed by The Creative Assembly and released in October 2014, Alien: Isolation has won numerous awards from Game Of The Year to several top 10s/25s and Best Horror titles, ratcheting up over a million sales by February 2015. Alien: Isolation uses a custom built engine which includes dynamic sound effects and should be fully multi-core enabled.

Alien Isolation on ASUS GTX 980 Strix 4GB ($560)

Alien Isolation on MSI R9 290X Gaming LE 4GB ($380)

Alien Isolation on MSI GTX 770 Lightning 2GB ($245)

Alien Isolation on MSI R9 285 Gaming 2GB ($240)

Alien Isolation on Integrated Graphics

Aside from a small dip by the Core i7-2600K when using the R9 285, the i3-7350K matches the other CPUs in Alien Isolation.



Total War: Attila

The Total War franchise moves on to Attila, another The Creative Assembly development, and is a stand-alone strategy title set in 395AD where the main story line lets the gamer take control of the leader of the Huns in order to conquer parts of the world. Graphically the game can render hundreds/thousands of units on screen at once, all with their individual actions and can put some of the big cards to task.

For low end graphics, we test at 720p with performance settings, recording the average frame rate. With mid and high range graphics, we test at 1080p with the quality setting. In both circumstances, unlimited video memory is enabled and the in-game scripted benchmark is used.

Total War: Attila on ASUS GTX 980 Strix 4GB ($560)

Total War: Attila on MSI R9 290X Gaming LE 4GB ($380)

Total War: Attila on MSI GTX 770 Lightning 2GB ($245)

Total War: Attila on MSI R9 285 Gaming 2GB ($240)

Total War: Attila on ASUS R7 240 DDR3 2GB ($70)

Total War: Attila on Integrated Graphics

Similar to Alien Isolation, the only discrete GPU there seems to be much of a difference between the i3 and i7 is on the R9 285, where the newer microarchitecture has the advantage. The integrated graphics in Sandy Bridge were laughable, and the Core i3 offers over double the performance here.


Grand Theft Auto V

The highly anticipated iteration of the Grand Theft Auto franchise finally hit the shelves on April 14th 2015, with both AMD and NVIDIA in tow to help optimize the title. GTA doesn’t provide graphical presets, but opens up the options to users and extends the boundaries by pushing even the hardest systems to the limit using Rockstar’s Advanced Game Engine. Whether the user is flying high in the mountains with long draw distances or dealing with assorted trash in the city, when cranked up to maximum it creates stunning visuals but hard work for both the CPU and the GPU.

For our test we have scripted a version of the in-game benchmark, relying only on the final part which combines a flight scene along with an in-city drive-by followed by a tanker explosion. For low end systems we test at 720p on the lowest settings, whereas mid and high end graphics play at 1080p with very high settings across the board. We record both the average frame rate and the percentage of frames under 60 FPS (16.6ms).

Grand Theft Auto V on ASUS GTX 980 Strix 4GB ($560)

Grand Theft Auto V on MSI R9 290X Gaming LE 4GB ($380)

Grand Theft Auto V on MSI GTX 770 Lightning 2GB ($245)

Grand Theft Auto V on MSI R9 285 Gaming 2GB ($240)

Grand Theft Auto V on ASUS R7 240 DDR3 2GB ($70)

Grand Theft Auto V on Integrated Graphics

The older Core i7-2600K eeks out a small ~5 FPS advantage over the Core i3 when running a GTX 980 at 1080p maximum settings, but with all other GPUs the differences are minimal. With integrated graphics, the Core i3 shows it can pummel the older IGP into the ground.


GRID Autosport

No graphics tests are complete without some input from Codemasters and the EGO engine, which means for this round of testing we point towards GRID: Autosport, the next iteration in the GRID and racing genre. As with our previous racing testing, each update to the engine aims to add in effects, reflections, detail and realism, with Codemasters making ‘authenticity’ a main focal point for this version.

GRID’s benchmark mode is very flexible, and as a result we created a test race using a shortened version of the Red Bull Ring with twelve cars doing two laps. The car is focus starts last and is quite fast, but usually finishes second or third. For low-end graphics we test at 1080p medium settings, whereas mid and high-end graphics get the full 1080p maximum. Both the average and minimum frame rates are recorded.

GRID: Autosport on ASUS GTX 980 Strix 4GB ($560)

GRID: Autosport on MSI R9 290X Gaming LE 4GB ($380)

GRID: Autosport on MSI GTX 770 Lightning 2GB ($245)

GRID: Autosport on MSI R9 285 Gaming 2GB ($240)

GRID: Autosport on ASUS R7 240 DDR3 2GB ($70)

GRID: Autosport on Integrated Graphics

GRID prefers a high frequency and high IPC, and so we see the Core i3-7350K getting noticably better frame rates over the 2600K at 1080p using all our high-end and mid-range GPUs - only at 720p using an R7 240 did we see a minimal difference. The integrated graphs are still amusing to look at.



Shadow of Mordor

The final title in our testing is another battle of system performance with the open world action-adventure title, Shadow of Mordor. Produced by Monolith using the LithTech Jupiter EX engine and numerous detail add-ons, SoM goes for detail and complexity to a large extent, despite having to be cut down from the original plans. The main story itself was written by the same writer as Red Dead Redemption, and it received Zero Punctuation’s Game of The Year in 2014.

For testing purposes, SoM gives a dynamic screen resolution setting, allowing us to render at high resolutions that are then scaled down to the monitor. As a result, we get several tests using the in-game benchmark. For low-end graphics we examine at 720p with low settings, whereas mid and high-end graphics get 1080p Ultra. The top graphics test is also redone at 3840x2160, also with Ultra settings, and we also test two cards at 4K where possible.

Shadow of Mordor on ASUS GTX 980 Strix 4GB ($560)

Shadow of Mordor on ASUS GTX 980 Strix 4GB ($560)

Shadow of Mordor on MSI R9 290X Gaming LE 4GB ($380)

Shadow of Mordor on MSI R9 290X Gaming LE 4GB ($380)

Shadow of Mordor on MSI GTX 770 Lightning 2GB ($245)

Shadow of Mordor on MSI R9 285 Gaming 2GB ($240)

Shadow of Mordor on ASUS R7 240 DDR3 2GB ($70)

Shadow of Mordor on Integrated Graphics

The only real difference here between the newer Core i3-7350K and the older Core i7-2600K is with our mid-range cards (GTX 770 and R9 285), whereby the older CPU seems to have a deficit 'in general' to the other CPUs we've tested. This might be CPU instruction related, although these results aren't seen on the other cards.


Power Delta (Long Idle to OCCT)



출처 - http://www.anandtech.com


싱글 스레드 퍼포먼스는 7350K가 모든 벤치마크에서 평균적으로 25% 높은 성능, 모든 코어를 활용하는 멀티 스레드 테스트에서는 7350K가 평균적으로 18% 낮은 성능, 전력소모는 7350K가 30와트 이상 적게 소모.

반응형
Posted by 랩터 인터내셔널

인텔의 Tick - Tock 전략에 따른 차세대 CPU 아키텍처 Sandy Bridge(샌디 브릿지)가 마침내 공개됐다. 인텔은 신형 아키텍처에 대해 매우 높은 자신감을 어필하며 2011년 프로세서 시장에 바로 투입할 예정이다. 따라서 신형 아키텍처의 구조와 특징에 대해 세부적으로 살펴보도록 한다. 


san.jpg


신형 Sandy Bridge의 라인업을 보면 클라이언트 PC를 위한  제품은 4코어와 2코어 2가지 버전으로 양쪽 모두 GPU 코어를 내장한다. Sandy Bridge 4코어의 경우 4개의 CPU 코어와 공유 LL캐시(Last Level Cache), 1블럭의 GPU 코어, DDR3 메모리 컨트롤러, PCI Express, DMI 버스, 디스플레이 인터페이스, 그리고 각 블럭을 제어하는 시스템 에이전트를 탑재한다. 공유 LL캐시는 4개의 슬라이스(Slice)에 분할되고 각각의 CPU 코어에 부속되어 있다. 1개의 CPU 코어와 1슬라이스의 LL캐시로 하나의 CPU&캐시 블럭을 구성하고 있다.


Sandy Bridge 아키텍처의 디자인적인 특징은 on-chip 인터커넥트 링버스를 채용하고 있는 점이다. Sandy Bridge 4코어의 경우는 4개의 CPU & 캐시 블럭과 GPU 코어, 그리고 시스템 에이전트가 링버스에 접속되고 있다. 이러한 링은 합계 6스톱으로 4중의 링으로 구성되고 있다.


Sandy Bridge 2코어의 경우는 CPU 코어 & 캐시 블럭이 2개로 감소하지만 링버스를 사용하는 구조는 같다. 링을 사용한 높은 접속성의 설계 적용으로 인텔은 CPU 코어수를 어느 정도 자유롭게 늘릴 수 있으며 4코어와 2코어 2가지 버전 외에 8코어 버전의 제품군(Sandy Bridge-EN/EP/EX)도 준비되고 있다. 상위 8코어 제품군은 GPU 코어를 갖추지 않는 대신 링버스에 8개의 CPU 코어 & 캐시 블럭을 접속하고 있다고 예상된다.


1.gif


Sandy Bridge CPU 코어의 기본 아키텍처는 네할렘 계열과 같이 코어 마이크로 아키텍처(Core MA)의 발전 계열이다. 그러나 새로운 명령 세트 확장 AVX(Advanced Vector Extensions)의 탑재 등 많은 확장이 이루어지고 있어 상당한 성능 향상이 도모되고 있다. 특별히 눈에 띄는 것은 AVX에 의한 벡터 연산 성능의 향상 뿐만이 아니라 싱글 스레드 성능의 향상에도 힘을 쓰고 있다는 점이다.


CPU 코어로 확장된 포인트는 프론트엔드 클러스터로의 uOP 캐시 추가, 실행 엔진 클러스터에 AVX 유닛의 탑재와 재구성, 물리 레지스터 파일의 이행과 스케줄링 자원 강화, 메모리 클러스터의 로드/스토어 기능 강화로 크게 4가지로 볼 수 있다. 특히 프론트엔드에 추가된 uOP 캐시는 싱글 스레드 퍼포먼스의 향상에 크게 기여한다고 보이며 실행 클러스터와 메모리 클러스터의 강화는 주로 AVX의 벡터 연산 성능에 효과가 있는 것으로 보인다. 


2.gif


인텔은 이러한 마이크로 아키텍쳐 확장을 2가지로 나누고 있다. 첫번째의 마이크로 아키텍처 확장은 그 확장에 의해서 증가하는 전력 이상의 퍼포먼스 향상을 얻을 수 있는 것. 즉, 소비 전력이 10% 증가해도 10% 이상의 퍼포먼스가 향상되는 점이다. 인텔은 Nehalem 설계시 이 원칙을 만들어 전력 효율이 나쁜 아키텍처의 개량은 시행하지 않았다. 결과적으로 Nehalem에서는 전체의 소비 전력당 성능이 1.3배로 성장했다.


두번째의 마이크로 아키텍처 확장은 소비 전력을 줄이면서 퍼포먼스를 끌어올리는 것. 전력을 줄이고 퍼포먼스를 증가시키기 위해 와트당 성능을 크게 끌어 올리는 것으로 Sandy Bridge에서는 두번째의 경우를 더 중요시 한 아키텍처로 볼수 있다.


Sandy Bridge CPU 코어의 확장 중에서 소비전력을 낮추고 퍼포먼스를 끌어올리는데 중요한 점이 프론트엔드의 uOP(마이크로 오퍼레이션) 캐시(uOP Cache)다. 이유는 간단한데 uOP 캐시가 x86 명령의 디코드로 전력과 퍼포먼스 양쪽 모두의 병목현상을 회피할 수 있기 때문이다. 캐시의 후단 실행 엔진이 실행하는 uOPs가 uOP 캐시에 히트했을 경우 uOPs는 캐시로부터 읽어진다. 덩치가 큰 x86 명령 디코더는 아무것도 할 필요없이 sleeve 할 수 있거나 개별 스레드의 명령을 디코드할 수 있다.


실행 클러스터에는 기존의 128-bit 폭의 SIMD(Single Instruction, Multiple Data) 연산 유닛인 SSE 유닛이 추가되고, 256-bit 폭의 AVX 유닛이 탑재됐다. 인텔은 명령 세트를 256-bit 폭으로 확장해도 실행 유닛은 128-bit 폭인 채로 2 cycle throughput으로 AVX 명령을 실행할 수 있었다. 실제로 SSE는 처음에는 이러한 형태를 나타내지 않았으나 AVX는 최초부터 256-bit 폭으로 풀 스피드를 낼 수 있는 실행 유닛을 탑재했다.  
 

4.gif


또, AVX의 탑재에 맞춰 인텔은 실행 엔진 클러스터의 명령 스케줄링의 자원도 큰폭으로 확장했다. Sandy Bridge도 out-of-order 형태의 실행 엔진으로 다수의 명령을 병렬로 늘어놓고 바꿔 실행할 수 있다. Sandy Bridge에서는 보다 많은 명령을 배열해 많은 스토어와 로드를 버퍼 할 수 있기 때문에 엔진의 성능을 더 끌어낼 수 있게 됐다. 또, 레지스터 파일을 물리 레지스터 파일에 리네이밍 하는 방식으로 전환하는 것으로 데이터의 이동을 최소화하여 전력 감소와 성능 향상을 도모했다.


AVX로 SIMD 유닛의 연산 능력이 2배가 되면 2배의 데이터가 필요하다. 그 때문에 인텔은 메모리 클러스터의 핸들 기능을 높였다. 기존의 Nehalem은 로드와 스토어의 파이프라인이 분리되어 있었지만 Sandy Bridge는 로드/스토어의 양쪽 대응 유닛으로 바꿔 L1 데이터 캐시의 포트도 확장하고, 최대 2개의 16 bytes 로드와 1개의 16 bytes 스토어를 병렬로 처리할 수 있도록 했다.


이러한 개량의 결과로 Sandy Bridge는 정수 연산과 SIMD 부동 소수점 연산의 양쪽 모두 성능이 높은 아키텍처가 됐다.

 

5.gif




3.gif


Sandy Bridge CPU 코어의 프론트엔드 클러스터, 즉 명령을 메모리로부터 가져 오고 실행할 때까지의 부분은 매우 복잡하고 강력하다. 이것은 명령 세트가 복잡한 x86 CPU 에서는 명령의 실행 자체보다 명령의 패치와 디코드가 병목현상이 되기 쉽기 때문이다. 인텔은 Core MA로 이 부분을 매우 강화했는데 Nehalem이나 Sandy Bridge에서도 계속해서 강화되고 있다. 이미 말한 것처럼 그 중에서도 핵심은 uOP 캐시(uOP Cache)로 전력 소비를 줄이면서 퍼포먼스를 올릴 수 있었다.


대부분의 x86 계열 CPU는 x86 명령을 CPU 내부 명령 uOP에 디코드해 실행한다. x86 CPU에서는 x86 명령으로부터 uOP의 디코드가 매우 무거운 짐이며 CPU 중에서도 전력을 소비하는 근원이 되고 있다. 그 때문에 x86 명령 디코드 부분을 스킵 할 수 있으면 퍼포먼스도 상승하고, 전력 소비는 줄어든다. 인텔은 이 원칙에 따라 Sandy Bridge의 프론트엔드를 크게 개량했다. 즉, 디코드한 uOPs를 캐시해 버리는 것으로 디코드하지 않아도 생략하게 설계했다.

 

6.gif




7.gif


Sandy Bridge에서는 1.5K 분의 uOPs를 저장 및 유지할 수 있도록 uOP 캐시를 디코더의 후단에 대비하고 있다. 이것은 1.5KB 분의 명령이 아닌 약 1,500개분의 uOPs를 저장한다. 인텔은 이 1.5K 분 밖에 보관하지 않는 uOP 캐시로 80%의 캐시 히트율을 달성할 수 있다고 설명하고 있다. 명령 디코더를 20% 밖에 사용하지 않거나 또는 8할의 확률로 디코더를 생략할 수 있게 되면 CPU의 퍼포먼스는 현격히 오를 것이라는 점이 핵심이다. 특히 퍼포먼스 향상이 어려운 정수 연산의 향상을 기대할 수 있는 점이 크다. 다만 인텔은 아직 uOP 캐시로 80%의 근거가 되는 명확한 데이터는 밝히지 않았다. 현재대로라고 한다면 사이즈에 비해 효율이 좋은 캐시가 분명하다.


또, 이 uOP 캐시는 단순한 캐시가 아닌 명령 플로우 내의 분기를 넘어 명령 플로우를 연결시킬 수 있다. 즉, 실제로 실행되는 명령(분기 명령을 포함)의 트레이스에 따라서 캐시에 uOP를 저장할 수 있는 트레이스 캐시적인 구조가 되고 있다. 캐시 라인을 읽어내면 분기를 또 가져다 실행 트레이스로 uOP가 패치 되어 원리적으로는 효율이 오른다(조건 분기의 결과가 다르면 효율이 떨어진다). 원래 uOP가 캐시 되면 통상적인 명령 캐시와 같이 캐시 라인마다 메모리상의 정적인 명령 라인을 캐시하는 것은 아니다.


인텔이 uOPs를 캐시하는 시도는 이번이 3번째다. 우선 NetBurst(Pentium4) 아키텍처로 12K의 uOPs를 저장하는 트레이스 캐시를 L1명령 캐시 대신 적용, 다음에는 Nehalem에 28개의 uOPs를 저장하는 작은 루프 스트림 디텍터 버퍼(Loop Stream Detector Buffer)를 마련했다. 실제로는 캐시가 아니고 uOPs의 큐를 잘 이용하는 구조지만 uOPs의 재사용이라고 하는 점에서 목적이 같다.


또, 캐시의 개량에 맞춰 인텔은 Sandy Bridge의 분기 예측도 개선 했다고 설명하고 있다. 다만, 자세한 것은 거의 공개하고 않고, 분기 타겟의 버퍼가 2배가 된 것과 히스토리 버퍼가 보다 효율적으로 개선된 것등을 설명하고 있다.


8.gif


이렇게 보면 인텔은 여전히 프론트엔드 부분의 개량에 힘을 쏟고 있는 점을 확인할 수 있다. 펜티엄M(바니어스)에서는 Micro-Fusion으로 2개의 uOPs를 1개로 통합하고 내부 파이프라인으로 취급할 수 있도록 했다. Core MA에서는 매크로 퓨전(Macro-Fusion)을 도입하고, 특정의 2가지 명령을 1가지 명령에 융합시키는 것으로 명령어 인출 대역과 uOPs 대역을 실질적으로 늘렸다. 네할렘에서는 uOPs 베이스의 루프 디텍터로 루프시에 디코드 스테이지를 생략할 수 있도록 했다.


이 흐름을 보면 인텔은 향후로도 이 부분의 개량을 계속할 것으로 보인다. 명령어 인출과 디코드가 무거운 것은 x86 계열 명령이 복잡하기 때문이다. 인텔의 강력함은 x86 명령에 있지만 그것을 위한 부담이 CPU 프론트엔드를 무겁게 짓누르고 있다. 인텔은 강력함을 유지하기 위해 프론트 엔드의 개량에 계속해서 힘을 쏟고 있으며 아직까지 프론트엔드 개량의 여지가 있는 것은 확실해 보인다.

반응형
Posted by 랩터 인터내셔널