'랩터 애널리시스'에 해당되는 글 157건

  1. 2017.11.05 애플 실적 발표, 다가올 사상 최대 실적의 서막 by 랩터 인터내셔널
  2. 2017.09.09 IBM, 기업을 위한 블록 체인 네트워크 플랫폼 발표 by 랩터 인터내셔널
  3. 2017.08.19 AWS CloudTrail 및 Glue, EFS 등 서비스 개선 및 추가 by 랩터 인터내셔널
  4. 2017.08.19 소니, 딥러닝 통합 개발 환경 Neural Network Console 무상 제공 by 랩터 인터내셔널
  5. 2017.07.30 HPE, Xeon-SP 탑재 Gen10 서버 시리즈 발매 by 랩터 인터내셔널
  6. 2017.07.23 AMD 젠 아키텍처 분석 (프론트엔드, OP캐시, SMT, CCX 등) by 랩터 인터내셔널
  7. 2017.07.16 인공지능(AI) 및 클라우드, 5G를 위한 Xeon Scalable 출시 by 랩터 인터내셔널
  8. 2017.07.16 델 EMC, Xeon-SP 탑재 14세대 PowerEdge 서버 발매 by 랩터 인터내셔널
  9. 2017.07.02 전세계 게이머들의 CPU, GPU, S/W 등 사용 동향 by 랩터 인터내셔널
  10. 2017.06.07 A10 네트웍스, 차세대 ADC 제품 Thunder ADC 시리즈 발표 by 랩터 인터내셔널


미국 애플이 2017년(7월~9월) 실적 발표

실적 데이터 - 애플 프레스 릴리스 (괄호는 전년 동기 대비 비교폭)
이전 실적 확인 - http://raptor-hw.net/xe/news/148956


총합
매출액 : 525억 7900만 달러 (12% 증가)
순이익 : 107억 1400만 달러 (19% 증가)


각 제품별 판매량
아이폰 : 4667만 7000대 (3% 증가)
아이패드 : 1032만 6400대 (11% 증가)
맥PC : 538만 6000대 (10% 증가)


각 제품 및 서비스별 매출액
아이폰 : 288억 4600만 달러 (2% 증가)
아이패드 : 48억 3100만 달러 (14% 증가)
맥PC : 71억 7000만 달러 (25% 증가)
서비스 : 85억 100만 달러 (34% 증가)
기타 : 32억 3100만 달러 (36% 증가)


지역별 매출액
아메리카 : 230억 9900만 달러 (14% 증가)
유럽 : 130억 900만 달러 (20% 증가)
일본 : 38억 5800만 달러 (11% 감소)
중국 : 98억 100만 달러 (12% 증가)
아시아 태평양 : 28억 1200만 달러 (5% 증가)



NASDAQ : AAPL(Apple Inc.) - 11월 3일 오후 7:59 GMT-4
시가총액 : 8910.02억
시가 : 174.00 / 최고 : 174.26 / 최저 : 171.12
주가수익률 : 19.62 / 배당수익률 : 1.46%


애플 실적 요약 및 전망

매출, 순이익 모두 두 자릿수의 큰 폭 증가, 시장 기대치 상회

주요 사업(아이폰/아이패드/PC) 전체 판매량 및 매출 증가

아이패드 판매량 2분기 연속 증가, 중국에서 다시 시작된 상승세

플래그십 스마트폰 시장의 확고한 포지션, 아이폰 시리즈의 안정적 판매량 지속 

세계적 화두의 아이폰X 추가로 4분기~내년 1분기까지 창립 이래 사상 최대 실적 전망

반응형
Posted by 랩터 인터내셔널


IBM이 복수의 기업이나 단체가 블록 체인 네트워크를 신속하게 구축할 수 있는 플랫폼 서비스로 IBM Blockchain Platform 제공을 발표했다.


리눅스 파운데이션이 강조한 블록 체인 시스템 Hyperledger Fabric 1.0을 기반으로 한 IBM Cloud의 풀 관리 서비스로 IBM Blockchain의 베타 버전이 탑재되며 다양한 기능 외 블록 체인을 활용하는 아이디어를 바로 적용할 수 있는 애플리케이션 개발 환경 Hyperledger Composer, 컨소시엄형 블록 체인 네트워크 형성과 운영을 지원하는 툴 그룹, IBM Cloud 경유로 실전 이용에 요구되는 시스템 성능과 고도의 보안이 제공된다.

 

플랫폼은 컴퓨트 인스턴스 등을 선택할 수 있는 3종류의 플랜이 준비되며 실증 실험용 엔트리 플랜 / 실전 업무용 엔터프라이즈 플랜 / 보안과 성능 요건이 엄격한 업계용 엔터프라이즈·+·플랜이 IBM 클라우드 경유로 제공된다.

반응형
Posted by 랩터 인터내셔널


아마존 웹 서비스(Amazon Web Services)는 8월 14일 개최된 AWS Summit 2017 New York에서 새로운 서비스 및 신기능을 발표했다.


마이그레이션을 관리하는 AWS Migration Hub

AWS로의 이행 프로세스를 관리하는 새로운 서비스로 시스템 정보 검출과 수집 프로세스를 자동화하는 AWS Application Discovery Service, 클라우드에 대한 워크 로드 이행을 처리하는 AWS Server Migration Service, 릴레이셔널 데이터베이스, NoSQL 데이터베이스 등 데이터 하우스를 이행하는 AWS Database Migration Service, 서드 파티 이행 툴 등을 통합, 툴 접속을 제공하며 변화 과정을 가이드 하는 Migration Acceleration Program(MAP) 등


AWS CloudTrail을 전 사용자에게 적용

AWS 계정에 대한 활동 상황과 이벤트를 기록하는 AWS CloudTrail이 전 사용자에게 적용된다. AWS CloudTrail은 전 계정의 활동 이력 기록 및 열람, 검색, 최근 AWS 계정 활동 이력 다운로드, API 액션 이력, S3 버킷 로그 파일의 무결성을 검사, 로그 파일 암호화 등 다양한 기능을 갖는다.


ETL서비스 AWS Glue 일반 제공 개시

AWS Glue의 일반 제공이 개시됐다. AWS Glue는 ETL(extract, transform, load)서비스로 무한 궤도를 이용하여 다양한 데이터 소스나 파티션을 넘어 스키마를 자동 검출, 추측할 수 있으며 데이터에 포맷을 변환하기 위한 Python의 ETL스크립트를 자동 생성하는 것도 가능하다.

Glue의 무한 궤도와 ETL 작업, 개발 엔드 포인트는 DPU(Data Processing Unit) 시간으로 과금되며 미국 동부(버지니아 북부)에서 1DPU 시간 비용은 0.44USD. 1DPU 당 4vCPU와 16GB메모리를 이용할 수 있다.


Amazon EFS에서 데이터 암호화 서포트

Amazon Elastic File System에서 보관된 데이터의 암호화가 지원된다. 파일 시스템 생성시 AWS가 관리하는 빌트인 키나 AWS Key Management Service(KMS) 등을 이용하여 파일 이름, 디렉토리 이름, 디렉토리의 내용 등 파일의 메타 데이터는 AWS가 관리하는 키로 암호화된다. 암호화의 형식도 업계 표준 AES−256 알고리즘이 적용되며 보관 데이터의 암호화는 EFS가 지원되고 있는 전 범위에서 이용할 수 있고 추가 요금은 발생되지 않는다.

반응형
Posted by 랩터 인터내셔널



소니가 딥러닝 통합 개발 환경 Neural Network Console의 무상 제공을 시작했다.


딥러닝 프로그램 개발시에는 신경 회로망의 설계가 중요한 부분으로써 프로그램 개발에는 일반적으로 뉴럴 네트워크 구조를 프로그램 코드로 기술, 복수의 함수 블록을 조합하여 구축한다.

 

소니가 새로 개발한 콘솔 소프트웨어는 함수 블록의 개념을 그대로 GUI 개발 환경의 블록으로 표현하는 컴포넌트 형태로 구성, 함수 블록을 자유롭게 배치하여 신경 회로망을 구축할 수 있기 때문에 프로그램 개발 효율을 향상시킬 수 있다.


프로그램은 드래그 앤 드롭으로 네트워크 설계 완료 후에는 버튼 하나로 고속 학습, 학습한 이력의 집중 관리 등 편리한 기능들을 탑재하며 작성된 뉴럴 네트워크를 자동적으로 최적화하는 기능도 갖춘다.

 

소니는 2017년 6월 딥러닝 개발을 위한 코어 라이브러리 Neural Network Libraries를 오픈 소스화하고 콘솔 소프트웨어 공개로 또 다른 딥러닝 관련 활성화를 꾀하고 있다.


뉴럴 네트워크 콘솔 - https://dl.sony.com/

뉴럴 네트워크 라이브러리 - https://nnabla.org/

반응형
Posted by 랩터 인터내셔널



HPE는 인텔 제온 프로세서(Xeon-SP)를 탑재하는 차세대 x86 서버 제품군으로 HPE Generation10(Gen10)서버 플랫폼을 발표했다.


이번에 발표된 것은 1U/2소켓 서버 ProLiant DL360 Gen10, 2U/2 소켓 서버 DL380 Gen10, 2U/4소켓 서버 DL560 Gen10, 12U 섀시에 24노드를 탑재할 수 있는 고밀도 서버 Apollo 6000 Gen10 System, 서버 노드 XL230k Gen10, 통합 인프라 제품 HPE Synergy 전용 서버 노드 Synergy 480 Gen10 및 Synergy 660 Gen10, HPE Blade System 서버 블레이드 ProLiant BL460c Gen10의 총 7가지 모델이다.


Gen10 서버군 모두 차세대(스카이레이크 아키텍처)의 Xeon-SP를 탑재하고 있으며 퍼포먼스와 메모리 탑재 용량 등이 강화되고 있다. 예를 들어 1U/2소켓 서버의 DL360 Gen10도 최대 56코어(28코어 ×2CPU), 3TB DDR4 메모리를 탑재할 수 있다. HPE 고유의 기능으로는 인텔과 공동 개발한 새로운 서버 튜닝 기술 세트 HPE Intelligent System Tuning(워크 로드 자동 설정 기능)이 있다. 이는 워크로드마다 서버 리소스를 자동적으로 최적화하는 퍼포먼스를 향상시키는 것으로 워크 로드 최적 설정/CPU 안정화/CPU부스터 기능이 포함된다.


또한 기존 8GB 용량이였던 NVDIMM(비휘발성 메모리, DRAM + NAND 플래시) 모듈에 16GB 모델이 새로이 등장하여 예를 들어 2소켓 서버는 최대 192GB 탑재에 대응하고 있다.


새로운 테라 바이트 규모의 고속 메모리 환경을 실현하는 HPE Scalable Persistent Memory 솔루션도 발표되고 있다. Scalable Persistent Memory는 DRAM+SSD에 의한 데이터 유지를 서버 BIOS 수준에서 제어함으로써 NVDIMM으로 실현될 수 없는 규모의 대용량 비휘발성 메모리 환경(2소켓 서버에서 1TB)을 실현하고, 인 메모리 데이터베이스와 실시간 분석 환경 등의 대폭적인 고속화에 기여한다고 밝혔다.

반응형
Posted by 랩터 인터내셔널


불도저 아키텍처 발표 이후 6년이 지난 2017년 3월, AMD는 마침내 새로운 시대의 서막을 알리는「 젠 마이크로 아키텍처(Zen Microarchitecture) 」를 발표했다. 이는 6년간 프로세서 시장을 사실상 독점한 인텔과 다시 한번 경쟁할 수 있는 기반이 마련된 것으로써 AMD의 강력한 "Sweet Spot" 될 가능성이 있는 젠 아키텍처를 세부적으로 살펴보도록 한다.


- 선행 구독

인텔 네할렘 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=108899

인텔 샌디브릿지 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109029

AMD 불도저 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109017

GPU 시장 분석) GPGPU 페르미 아키텍처 분석

http://raptor-hw.net/xe/index.php?mid=rapter_analysis&page=2&document_srl=109109  

반도체 아키텍처 분석) x86, HSA, HBM, TSV, 3D V-NAND

http://raptor-hw.net/xe/rapter_analysis/109695



먼저 젠 아키텍처의 프론트 엔드 스테이지 전반은 많은 변화가 진행되고 있다. 눈에 띄는 점은 완전히 재설계 된 SIMD 파이프 라인과 부동 소수점 유닛 부문이다. SIMD(Single Instruction, Multiple Data) 유닛과 부동 소수점 유닛은 128bit SIMD의 MUL/FMAD와 128bit SIMD의 ADD 유닛이 2세트로 총 4유닛이다. 128bit MUL/ADD가 2유닛, FMAD 2유닛으로 사이클당 최대 4명령 발행이 가능하며 디스패치는 최대 4마이크로 오퍼레이션이다. 명령 디코더는 사이클당 4명령을 내부 마이크로 오퍼레이션/OP 캐시에 디코드하며 스케줄러에서 정수와 부동 소수점 연산계로 나누어 연산한다. 캐시는 64KB의 L1 명령 캐시와 32KB L1 데이터 캐시, 512KB L2 캐시와 코어간 공유하는 8MB L3 캐시, 명령 디코더의 하단에 새롭게 추가된 OP 캐시를 갖춘다. 캐시 대역은 L1 명령 캐시가 32byte(256bit)/사이클, L1 데이터 캐시에서 2개의 16byte(128bit) 로드와 하나의 16byte(128bit) 스토어를 병렬로 실행할 수 있으며 L2 대역은 L1 명령 캐시/L1 데이터 캐시가 각각 32byte(256bit)/사이클이며 L3 - L2 구간도 32byte(256bit)/사이클.


마이크로 오퍼레이션(OP) : 명령 포맷이 복잡하고 가변 길이 형태인 x86 명령과 달리 명령 포맷이 단순한 고정 길이/고정 포맷형태로써 RISC와 같이 비교적 간단하게 실행



4개의 정수 연산 유닛은 일반적으로는 같은 기능을 갖지만 Multiply, Divide, CRC32 3가지 기능은 1유닛씩 각각 다른 정수 파이프에 할당되어 있다. 이것은 하나의 ALU만이 Multiply가 가능하고 다른 하나의 ALU가 Divide, 또 다른 하나의 ALU가 CRC32를 처리할 수 있는 것이며 그 외의 일반적인 연산은 4개 ALU가 모두 동일하다. 또한 물리 레지스터 파일은 통합된 하나의 168엔트리 구조로 변경되고 있다. 불도저가 스레드당 96엔트리, 2개의 유닛이 총 192엔트리로 많아 보이지만 불도저는 정수 유닛이 물리적으로 분리되어 있기 때문에 차별성이 있다. 정수 스케줄러는 6개의 명령 포트로 각각 14단 큐에서 합계 84엔트리, 불도저는 각 스레드마다 40엔트리로 2개의 정수 코어, 합계 80엔트리로 젠 아키텍처의 스케줄링은 불도저보다 깊다.



정수 파이프는 2개의 ALU 파이프가 각각 개별적인 브랜치 유닛과 접속하고 있다. 2개 분기는 같은 스레드에 속하는 분기 명령이나 다른 스레드에 속하는 분기 명령이라도 모두 실행이 가능한 2분기/사이클이다. 2병렬 브랜치 유닛은 2스레드일 경우 각각의 브랜치 명령을 동시에 실행할 수 있고, 1스레드 중 복수의 브랜치 명령도 1주기로 실행하여 더 많은 브랜치를 1사이클에 처리할 수 있기 때문에 연속 코드의 실행 효율이 향상되고 있다.


젠 아키텍처도 브랜치 퓨전(Branch Fusion)을 도입하고 있다. 이것은 비교형 명령과 점프 명령을 융합시키는 것으로써 2개의 명령은 디스패치 단계에서 하나의 마이크로 오퍼레이션으로 융합되고 융합된 브랜치 퓨전 마이크로 오퍼레이션은 하나의 마이크로 오퍼레이션으로 리타이어(Retire)까지 다룬다. 실행시에도 2개의 마이크로 오퍼레이션으로 분리되지 않는다.



디스패치 유닛은 최대 6마이크로 오퍼레이션을 1사이클에 발행한다. 이것은 In-Order 에서 Out-of-Order 로 사이클당 최대 6마이크로 오퍼레이션으로 보내는 것이며 제어 할 수 있는 총 마이크로 오퍼레이션의 수는 192개다.(불도저 128개) Out-of-Order 가 발행한 6마이크로 오퍼레이션을 8마이크로 오퍼레이션을 수용하는 리타이어 큐가 최대한 빠르게 리타이어 시키는 구조.


기존 불도저 아키텍처는 모듈 내에 정수 코어가 물리적으로 2개로 분리되어 병렬 스레드로 처리했다. 이 설계의 이점은 각 모듈(코어)가 정수 유닛 자원을 경쟁없이 원할하게 2개의 병렬로 실행하여 멀티스레드 성능 향상을 도모할 수 있으나 반대로 물리적인 강제 분리에 따라 싱글 스레드 성능이 낮아지기 때문에 불도저의 싱글 스레드 성능은 경쟁사 대비 처참했다. 그에 따라 AMD는 젠 아키텍처에 보다 전통적인 SMT(Simultaneous Multithreading) 기술을 도입하여 대부분의 자원을 스레드에서 공유하는 다중 스레드 설계로 전환했다. 젠 아키텍처의 정수 연산은 4파이프, 로드/스토어 주소 생성이 2파이프로써 불도저 대비 2배 상승한 스레드당 정수 연산 병렬성을 나타내고 있다.



부동 소수점 연산 파이프는 MUL/ADD가 각각 2개지만 실제로는 MUL 파이프에 ADD 유닛이 포함되어 있고, FMAD 유닛으로 실행된다. 이론적으로는 FMAD에서 MUL/ADD 파이프를 동시에 움직일 수 있지만 실제로는 레지스터 파일의 리드 포트 제약 때문에 MUL/ADD는 동시에 진행할 수 없다. 4개의 SIMD 파이프 라인과 부동 소수점 유닛은 각각 2개의 레지스터 리드 포트를 갖추며 1사이클에 각 유닛에서 2개 소스의 오퍼랜드(Operand) 리드가 가능하다. MUL/FMAD는 3개의 소스 오퍼랜드가 필요하다. 레지스터 파일에서 읽을 경우 리드 포트가 부족하기 때문에 약간의 트릭을 사용하고 있다. MUL/FMAD는 ADD 파이프에서 레지스터 파일의 리드 포트를 하나 차용하고 있다. MUL/FMAD는 ADD 유닛은 사용하지 않기 때문에 ADD 유닛 자체가 비어 ADD는 스케줄러가 차단한다. 이것은 MUL/FMAD 유닛과 ADD 유닛 자체는 분리되어 있지만 레지스터 리드 포트 수가 한정되어 있기 때문에 두 가지를 동시에 실행 수 없는 것이며 FP 레지스터 파일 전체는 128bit 리드 포트가 각 유닛에 2개씩 총 8포트로 구성되고 있다.


부동 소수점 유닛의 마이크로 오퍼레이션 큐 사인은 NSQ(Non-Scheduling Queue)와 스케줄 큐(Scheduler Queue) 2단계로 진행된다. 스케줄러 큐는 각 실행 유닛에 대한 마이크로 오퍼레이션을 발행할 때까지 대기시킨 스케줄링한 큐를 말하며 Out-of-Order 의 일반적인 스케줄이다. 반면 전단부에 추가된 NSQ는 단순한 마이크로 오퍼레이션의 버퍼로 볼 수 있지만 NSQ에 FP 마이크로 오퍼레이션이 대기하고 있는 동안 정수 유닛 쪽에 발행된 다른 마이크로 오퍼레이션이 실행된다. 상대적으로 레이턴시가 긴 마이크로 오퍼레이션이 실행 되는 사이 FP 마이크로 오퍼레이션은 NSQ에서 스케줄 큐로 옮겨지며 이후 FP 마이크로 오퍼레이션이 연산 파이프에서 처리되는 시점에는 오퍼랜드의 데이터가 레지스터에 로딩되어 있다.


이러한 2단계 큐로 구성함으로써 스케줄링의 자원을 절약하고 있다. 큐잉의 전반은 자원 체크 등의 스케줄링을 하지 않아 로드 레이턴시를 은폐하기 때문에 마이크로 오퍼레이션을 완충할 수 있다. 이것에 의해 스케줄링의 자원을 억제하며 큐잉을 효율적으로 할 수 진행할 수 있기 때문에 정수/부동 소수점 연산 큐잉의 균형을 잡을 수 있다.
 
또한 젠 아키텍처는 AVX2의 256bit SIMD 명령을 지원한다. 256bit 명령은 2개의 피스로 분리하여 각각 독립적으로 실행한다. 128bit의 연산 유닛을 2개 결합시켜 실행하는 형태가 아니며 2개의 128bit 운영은 완전히 독립된 마이크로 오퍼레이션으로써 2개의 마이크로 오퍼레이션을 Out-of-Order 에서 실행할 수도 있다. 즉 256bit AVX 명령은 디스패치 스테이지에서 세분화 된 마이크로 오퍼레이션으로 분리되고 개별적인 128bit 마이크로 오퍼레이션으로 진행되며 레지스터도 각각 128bit 레지스터를 사용하는 것.



프론트 엔드 스테이지에는 최대 특징 중 하나로 디코딩한 내부 명령인 Micro-OP(마이크로 오퍼레이션)을 캐시하는 OP 캐시가 추가되고 있다. x86 프로세서의 강력함은 x86 명령에 있지만 복잡하고 장기간에 걸쳐 확장이 진행된 x86 명령 디코딩 자체가 프로세서를 짓누르는 전력 소모의 근원이자 퍼포먼스에 직결되는 부문이기 때문에 x86 CPU의 성능을 결정짓는 핵심적인 요소가 되고 있다. 과거 인텔은 이러한 문제를 해결하기 위해 샌디브릿지 아키텍처에 uOP 캐시(uOP Cache)를 도입했다. 인텔의 uOP 캐시는 트레이스(추적)을 생성하지 않고, L1 명령 캐시와 같이 주소 기준으로 확인하는 16byte 명령 페치 라인을 2개 연결하여 32byte의 마이크로 오퍼레이션을 uOP 캐시 라인에 격납하는 형태다. 인텔의 uOP와 같이 AMD 젠의 OP 캐시는 비슷한 맥락으로 보이지만 트레이스 캐시적인 구조는 아닌 것으로 보이며 L1 명령 캐시와 OP 캐시는 분리된 캐시로써 OP 캐시는 전용 캐시 태그를 갖추며 마이크로 태그(Micro-tags)로 L1 명령 캐시 및 OP 캐시 중 히트한 방향을 확인한다.


일반적인 x86 프로세서의 마이크로 오퍼레이션은 명령 디코딩시 CISC(Complex Instruction Set Computer)의 복합 명령을 내부적으로 RISC(Reduced Instruction Set Computer)형태와 같은 단순 분리된 마이크로 오퍼레이션 명령으로 변환하여 실행한다. 그러나 현행의 x86 프로세서는 CISC의 복합 명령을 어느 정도 유지한 채 In-Order 구간에서 전체적으로 핸들링하여 실제로 처리가 진행되는 Out-of-Order 구간에서 단순한 마이크로 오퍼레이션으로 변환되고 있다. 젠 아키텍처의 명령 디코딩은 복합 마이크로 오퍼레이션 Macro-OP, 단순 분리된 마이크로 오퍼레이션의 2단계 구성이다. 이러한 2단계 구성은 x86, x64 명령을 1:1 고밀도 마이크로 오퍼레이션으로 변환하는 형태이며 젠 아키텍처의 명령 디코더는 디스패치까지 전체적으로 확장되는 형태로 보인다. 주로 명령 디코더가 디코딩을 진행 하지만 어느 정도의 디코딩은 마이크로 오퍼레이션 큐의 후단에도 발생한다. 여기서 OP 캐시가 적용됐기 때문에 마이크로 오퍼레이션 큐에 저장된 OP는 상당히 고밀도이며 그것이 처리되는 단계에서는 보다 전통적인 마이크로 오퍼레이션으로 전개된다. 
 

젠 아키텍처는 인텔의 uOP 캐시와 흡사한 OP 캐시를 도입했지만 명령 디코딩의 플로우는 인텔과 다르다. 이전 불도저 아키텍처의 명령 디코딩은 하나의 OP로 변환되는 패스트 패스 싱글(Fast Path Single), 2개의 OP로 변환되는 패스트 패스 더블(Fast Path Double), 그 이상의 OP로 변환되는 마이크로 코드(Microcode) 3가지 디코딩 타입이 적용됐으나 젠 아키텍처는 명령 디코더에서 명령 바운드리을 검색하여 x86, x64 명령을 분리하고, 마이크로 오퍼레이션으로 변환한 뒤 마이크로 오퍼레이션 큐로 전송한다. 이때의 마이크로 오퍼레이션은 매우 고밀도로써 AMD가 패스트 패스 더블이라고 부르는 명령도 하나의 고밀도 마이크로 오퍼레이션이 되고 있기 때문에 처리 스테이지까지 그대로인 형태다.



이것은 기존 불도저 아키텍처의 패스트 패스 더블 형태를 젠 아키텍처는 x86 명령을 분리하지 않고, 하나의 내부 명령으로 매핑하는 고밀도 마이크로 오퍼레이션으로 처리한다는 것을 의미한다. 불도저 아키텍처는 매우 복잡한 x86 명령은 마이크로 코드 ROM에서 마이크로 오퍼레이션으로 전개하며 2개까지의 마이크로 오퍼레이션으로 변환되는 명령은 일반적인 병렬 디코더, 3개 이상의 마이크로 오퍼레이션으로 변환되는 명령은 마이크로 코드 순으로 이어지며 디코딩 단계에서 마이크로 코드 엔진에서 3개 이상의 마이크로 오퍼레이션으로 변환된다.


여기서 젠 아키텍처는 복잡한 구간을 마이크로 코드 ROM 주소를 저장한 뒤 고밀도 마이크로 오퍼레이션으로 변환하고, 마이크로 오퍼레이션 큐에 기록한다. 마이크로 코드 ROM의 마이크로 오퍼레이션은 큐에는 저장되지 않지만 마이크로 코드 ROM의 주소를 매핑하여 고밀도 마이크로 오퍼레이션을 마지막 단계까지 전개하지 않고, ROM이 필요한 마이크로 오퍼레이션은 디스패치의 타이밍에 맞게 설정된 Kicking Sequence에서 마이크로 코드 ROM으로 보낸다.


AMD는 불도저 아키텍처에서 비교형 명령과 점프 명령을 융합시킨 브랜치 퓨전을 도입했다. 이는 연계성이 있는 2개의 명령을 조합하여 하나의 마이크로 오퍼레이션으로 하나의 실행 파이프에서 실행한다. 명령 수를 줄인다는 의미에서는 최초 명령 디코더 단계부터 퓨전을 하는 것이 효율적으로 보이지만 젠 아키텍처는 처리 단계에서 퓨전을 진행하고 있다. 디코더에서 연계성이 있는 2개의 마이크로 오퍼레이션이 처리 단계에서 하나의 마이크로 오퍼레이션으로 퓨전되는 것으로 처리 단계에서 디스패치는 6개의 마이크로 오퍼레이션을 상한으로 퓨전하여 하나로 만든다.


따라서 젠 아키텍처의 명령 디코딩 스테이지는 x86 명령을 CISC적인 특성을 어느 정도 유치한 채 고밀도 마이크로 오퍼레이션으로 분리하고 정리한다. 이후 마이크로 오퍼레이션을 저장한 OP 캐시를 OP 큐가 취급하고 Out-of-Order 단계에서 한번에 마이크로 오퍼레이션으로 전개하며 이것은 처리 후단에서 진행하는 것으로 보인다. 복합 명령을 1:1로 하나의 고밀도 마이크로 오퍼레이션으로 변환하는 형태로써 일정량으로 정해져있는 작은 OP 캐시에 최대한의 마이크로 오퍼레이션을 저장할 수 있는 최적화를 도모하고 있는 것으로써 젠 아키텍처의 전체적인 명령 디코딩 플로우는 새롭게 도입된 OP 캐시에 초점을 맞춰 설계했다고 볼 수 있다.



젠 아키텍처는 새로운 뉴럴 네트워크 분기 예측 기술이 탑재되고 있다. 이 기술은 소니 플레이스테이션과 같은 콘솔 시장을 타겟으로 하는 AMD의 기존 재규어(Jaguar)에도 탑재되고 있는 기술이지만 AMD는 이에 대한 세부적인 알고리즘을 공개하지 않았다. 분기 예측은 말 그대로 분기를 예측하는 것으로써 정확도가 높을수록 파이프 라인은 손실을 줄이고 효율적인 처리가 가능하기 때문에 전력 효율 감소로 이어지는 중요할 기술이다. 젠 아키텍처의 Branch Target Buffer(BTB)는 L1명령 캐시와 통합된 연관성이 있으며 1엔트리에 2브랜치를 1사이클에 예측, 브랜치 히스토리 테이블(Branch History Table)의 사이즈를 2배로 증가시켰다는 점만 확인할 수 있다. 



전체적인 코어 디자인은 새로운 CCX(Core Complex)로 설계되고 있다. CCX는 4개의 물리 코어가 하나의 집단(1CCX)을 이루는 형태로 각각의 코어는 8MB L3 캐시를 공유한다. 캐시 계층은 L3 캐시가 L2에 대한 익스클러시브 방식으로 L2 캐시 데이터는 L3 캐시에 존재하지 않고, 캐시 스누프에서 L3가 미스한 경우 각 CPU 코어의 L2 캐시도 스누프한다. 또한 스누프 트래픽을 경감하기 위한 L2 캐시 태그의 사본을 L3에 저장한다.


CCX는 회로 설계도 강화되고 있다. 디지털 LDO(Low Drop-Out)에 의한 전압 제어는 VRM에서 CPU 코어의 가장 높은 VID로 입력된 코어 전압인 RVDD를 각 코어별로 VDD에 흡수하여 부하에 맞춰 최적의 전압과 주파수로 조정하며 1300개 이상의 크리티컬 패스 모니터와 파워 서플라이 모니터, 서멀 다이오드, 루프 디텍더 등을 배치하여 전압의 변동이나 다이 온도 상승, 크리티컬 패스의 딜레이 등을 세부적으로 확인하여 최적의 동작 주파수를 검증하고, AVFS(Adaptive Frequency and Voltage Scaling)는 보다 디테일 한 25MHz 단위로 주파수를 조정, 구동 전압도 각 코어 단위로 개별적으로 제어하며 전압 제어를 위해 배선층에 다수의 MIMCap를 심고 있다. 이 기술들은 젠 아키텍처의 XFR(Xtended Frequency Range) 기술로 이어져 프로세서의 쿨링 상황에 따라 보장된 터보 클럭 이상의 클럭으로 동작하는 기능도 제공한다.




젠 아키텍처는 이러한 CCX가 2개로 구성된 2CCX 설계로 각각의 CCX는 새로운 인터커넥트 기술인 인피니티 패브릭(Infinity Fabric)으로 연결된다. 인피니티 패브릭은 데이터 전송을 위한 Infinity Scalable Data Fabric(SDF)와 제어 신호를 전달하는 Infinity Scalable Control Fabric(SCF)의 2계통으로써 의미대로 SDF가 데이터 제어, SCF가 앞서 설명한 다양한 CCX 내부 센서 외 클럭, 전원, 초기화, 보안 등의 다양한 제어 신호를 총괄한다. AMD는 인피니피 패브릭을 젠 아키텍처 뿐 만 아니라 향후 개발되는 프로세서, GPU, 서버, 모바일 등의 제품군에 공통으로 사용한다고 밝혔다. 이것은 새로운 제품 개발에 각각 별도의 인터커넥트 기술을 개발하지 않고, 일관된 IP를 사용함으로써 제품 개발에 소요되는 시간과 노력, 비용 등을 절감하기 위함이다.

  


지금까지 살펴 본 AMD의 젠 마이크로 아키텍처는 불도저 아키텍처와 달리 근본부터 재설계한 완전히 새로운 아키텍처임을 다시 한번 확인할 수 있었다. 전체적인 아키텍처 디자인은 AMD 만의 차별성도 있으나 인텔 아키텍처를 닮아가고 있는 인상을 주고 있으며  그에 따른 퍼포먼스는 이전 프로세서 대비 40% 향상된 IPC로 인텔의 턱밑까지 추격하는데 성공하여 소비자들에게 다양한 시스템을 구성할 수 있는 선택의 폭을 넓혀주고 있다.


AMD 젠 아키텍처 성능 - http://raptor-hw.net/xe/benchmark

반응형
Posted by 랩터 인터내셔널


인텔은 미국 시간으로 7월 11일, 뉴욕에서 데이터 센터 전용의 최신 프로세서 패밀리 Xeon Scalable을 발표했다.


인텔이 5월초 발표한 Xeon Scalable은 최상위부터 플래티넘(Platinum), 골드(Gold), 실버(Silver), 브론즈(Bronze) 4가지 라인업으로 전개한다. Xeon Scalable이 상정하는 시장은 우선 클라우드 시장이다. 인텔에 따르면 10년간 퍼블릭/프라이빗 클라우드용 Xeon의 출하 수는 거의 배증하고 있기 때문에 2017년말 출하 수의 50%가 클라우드 전용으로 전망하고 있다. 인텔은 클라우드의 트렌드인 하이브리드 클라우드의 실현으로 퍼블릭 클라우드의 효율성 및 확장성, 온 프레미스의 신뢰성이나 안전성 등의 장점을 저울질 할 필요가 없다고 밝히며 향후 하이브리드 클라우드가 주류가 될 것으로 전망했다.


또한 클라우드와 함께 인공지능(AI)과 애널리틱스, 5G 트렌드가 도래함으로써 추가적인 처리 능력이 필요하다고 설명한다. 예를 들어 AI는 데이터가 수집되어 있지만 활용되고 있는 것은 1% 미만이기에 큰 기회가 있다. 또 5G는 그 동안 사람에서 물건이 연결되는 역할 뿐 아니라 지연은 10분의 1, 능력은 1000배가 향상되는 등 이러한 시장의 변화로 인텔은 과거 20년간의 기술과 지식을 바탕으로 제품을 근본부터 다시 개발했다고 밝혔다. 이 결과 1소켓당 28코어 시스템 메모리는 6TB(4소켓) 지원, 엔트리 수준에서 핵심 워크로드까지 커버할 수 있다는 것.


구체적으로 클라우드, AI, 5G의 3대 트렌드를 위한 성능, 안전성, 어질리티 3개 분야에서 다양한 강화나 새로운 기능이 추가됐다. 3가지에 대해 상세한 내용을 설명한 것은 바이스 프레지던트 겸 Intel Xeon 제품 담당 제너럴 매니저 리사 스펠먼(Lisa Spelman).


우선 성능은 전 세대에서 평균 1.65배 개선되고 전 세대보다 10년간 최고의 개선을 실현했다고 밝혔다. 이 배경에는 Intel AVX-512 명령 세트, 코어와 컨트롤러에서 데이터를 통신하는 새로운 On - chip 인터커넥트 기술 "인텔 메쉬 아키텍처(Intel Mesh Architecture), 소프트웨어 정의 인프라에서 암호화 및 압축을 가속화하는 Intel QuickAssist 등의 최신 기술이 있다. 이들은 클라우드, AI와 애널리틱스, 네트워크 3개 분야에서 각각 최고의 성능을 실현한다. 예를 들면 AI와 애널리틱스에서는 SAS에 의한 비즈니스 애널리틱스에서 기존 대비 2배를 기록하고 클라우드는 중국의 텐센트(Tencent)의 VR 콘텐츠 생성 서비스 속도가 1.72배 향상됐다고 밝혔다.


보안면에서도 데이터 보호의 성능이 전 세대보다 2배로 강화되어 새로운 레이어로서 암호 키를 소프트웨어 공격으로부터 보호하는 Intel Key Protection Technology 추가, 보존, 이동, 사용 중인 데이터를 보호하고 하드웨어 플랫폼 자체의 안전성도 강화했다. 암호화를 활성화했을때의 오버헤드를 0.37%까지 줄일 수 있다.


어질리티는 리스폰스 성이 높은 가동률이 높은 데이터 센터 아키텍처로 신속히 새로운 서비스를 도입·전달하기 위한 기능을 가리킨다. Xeon Scalable에서는 가상 머신 관련에서 모드별 실행을 도입하는 하이퍼 바이저가 신뢰성 있는 커널 레벨에서 코드의 인증과 일관성을 확보할 수 있다. 또 핵심 워크 로드용 RAS(신뢰성, 가용성, 편리성)기능인 Intel Run Sure Technology를 이용할 수 있는 하드웨어 설정을 증가시켰다. 또 가상화된 워크로드의 산출량도 4.2배로 확대하고 TCO도 65% 절감된다고 밝혔다.


인텔은 2016년 11월 Google Cloud Platform에서 Intel Xeon Scalable Platform기반의 클라우드 서비스를 제공하는 것을 발표했다. 2월에는 Xeon Scalable을 기반으로 한 클라우드를 제공 개시하고 이미 소매, 재무 서비스 등에 이용되고 있다. 영상에 등장한 Google Cloud Platform의 바이스 프레지던트 Bart Sano는 "고객은 과학적 모델링, 게놈 연구, 3D 렌더링 등으로 이용하고 있으며 많은 경우 성능은 40% 개선되고 있다"고 어필했다. AVX-512 전용으로 튜닝한 경우 2배 이상 개선된 고객도 있다고 어필한다.


클라우드 외 Xeon Scalable을 탑재한 시스템은 Dell EMC, HPE, 후지쯔, NEC 같은 서버나 스토리지 벤더로부터 등장하고 네트워크 장비도 에릭슨, 화웨이, 노키아 등이 채용을 결정했다. 채용을 계획하고 있는 제조 업체 수는 합계 480개 이상에 이른다.


또 Intel Select Solutions도 발표했다. 이는 워크로드에 최적화된 레퍼런스 아키텍처로 우선 "VMware vSAN""Microsoft SQL Server""Ubuntu NFVi" 등이 발표됐다. 이로써 데이터 센터와 네트워크 인프라의 실장을 간소화하고 시간을 단축할 수 있다. 제공 파트너로는 에릭슨, HPE, 화웨이, 레노버 등이 발표되고 있다.

반응형
Posted by 랩터 인터내셔널


델 EMC는 차세대 Xeon 프로세서(Xeon-SP)을 탑재하는 14세대 Dell EMC PowerEdge 서버 패밀리를 발표화 함께 주요 모델의 제공을 시작했다. 새로운 PowerEdge 패밀리는 신형 Xeon에 의한 퍼포먼스 향상이나 집약 밀도 향상, 광범위한 워크 로드의 대응 뿐 아니라 운용 관리의 자동화나 하드웨어 기반의 보안 강화 등 Dell EMC의 독자적 기술에 의한 기능이 개선되고 있다.


이번에 발표된 것은 1U/2 소켓 PowerEdge R640, 2U/2 소켓 R740, 2U/2 소켓에서 대용량 스토리지를 내장하는 R740xd, 3U/4 소켓의 R940, 2U 섀시에 2소켓 ×4 노드를 내장하는 고밀도 서버 C6420, 하프 사이즈 2소켓 서버 블레이드/모듈 M640 / FC640.


주력 모델의 스펙을 보면 예를 들어 2U R740은 전세대 R730과 비교해 2배의 DDR4 메모리 용량(최대 3TB)에 대응하며 탑재할 수 있는 GPU도 50% 증가했다.

 

또 최대 6TB의 메모리를 탑재하여 인 메모리 DB 및 애널리틱스 등의 용도에 적합한 R940은 전 세대 R930에서 4U 케이스가 3U로 컴팩트화 되면서도 탑재할 수 있는 NVMe 드라이브(Express Flash NVMe PCIe SSD)는 50% 증가한 최대 12드라이브를 지원한다. 더불어 새로운 Xeon-SP의 채용으로 코어 수는 27% 증가, 메모리 대역폭은 50% 증가, 프로세서 간 대역폭도 50% 증가했다.


또한 이번에 발표된 제품들은 25GbE(25기가비트 이더넷), NVDIMM(비휘발성 메인 메모리)와 같은 새로운 기술에 네이티브로 대응하고 있다.

반응형
Posted by 랩터 인터내셔널

전세계 게이머들이 집결하는 스팀(http://store.steampowered.com/)에서 2017년 6월 전세계 게이머들의 하드웨어 및 소프트웨어 사용 트렌드를 조사한 결과를 공개했다.

 


우선 GPU 점유율을 보면 상위부터 엔비디아가 63.61%, AMD 20.5%, 인텔 15.54%로 게이밍 시장에서 지포스 GPU의 높은 점유율을 확인할 수 있다. 또한 DX10 - DX11 - DX12로 분류해보면 게이머들은 윈도우10과 DX12 조합을 가장 많이 사용하고 있는 것으로 나타났다.


다음 CPU를 코어 숫자별로 분류하면 게이머들은 쿼드 코어 CPU (52.06%)를 가장 많이 사용하며 이어 듀얼 코어(42.23%)를 많이 사용하고 있다. 또한 애플의 맥PC 시장에서는 맥북 프로가 점유율 50.82%로 맥 시리즈 중에서는 게이밍에 가장 많이 사용되고, 이어 아이맥(21.94%), 맥북에어(21.38%) 순으로 이어지고 있다.

 


CPU 점유율을 보면 인텔이 80.99%, AMD가 19.01%로 큰 차이가 나타나고 있다. 흥미로운 점은 AMD가 3월에 새로운 라이젠 시리즈를 출시했으나 AMD의 CPU 점유율은 3월부터 계속 감소하여 4월 - 5월 - 6월에도 점유율이 꾸준히 감소하고 있다.


인텔 점유율 : 3월(79.53%) - 4월(79.68%) - 5월(80.11%) - 6월(80.92%)

AMD 점유율 : 3월(20.43%) - 4월(20.28%) - 5월(19.86%) - 6월(19.01%)


이미 여러 벤치마크 및 실 테스트에서 확인됐듯이 AMD의 라이젠 시리즈는 게이밍 성능에서 인텔의 코어i5 급에도 밀리는 결과를 보여주기 때문에 전세계 게이머들에게 어필하지 못한 점이 크게 작용하고 있는 것으로 보이며 점유율 격차가 계속 확대되고 있다. 



게이머용 가상현실 헤드셋 시장에서는 HTC 바이브가 60.82%의 점유율로 1위를 나타내며 이어 오큘러스 리프트가 34.57%, 오큘러스 DK2가 4.61%로 가상현실 헤드셋 시장은 HTC와 오큘러스의 2강체제로 나타나고 있다.


 

그 외 전세계 게이머들이 가장 많이 사용하는 항목들을 살펴보면 OS는 윈도우10 64비트 버전, 시스템 메모리는 8GB, CPU 동작 클럭은 2.3~2.69GHz, 그래픽 메모리는 1GB, 해상도는 1920 x 1080가 가장 많이 사용되고 있는 것으로 확인되고 있다.


GPU / CPU 데이터



반응형
Posted by 랩터 인터내셔널



A10 네트웍스는 6월 6일 SSL 암호 처리를 고속화하는 3세대 SSL/TLS 전용 하드웨어를 탑재한 Perfect Forward Secrecy(PFS), App Transport Security(ATS) 등의 암호 처리에 대응하는 차세대 ADC, Thunder ADC 시리즈 최신 모델을 발표했다.


고 부하 PFS/ATS 암호 스위트 처리를 고속화하여 구 모델 대비 약 10배, 경쟁 제품과 비교시 최대 2배의 처리 성능을 갖춘다. 이 3세대 SSL/TLS 전용 하드웨어의 최신 모델은 SSL 가시화 제품 Thunder SSLi(SSL Insight)과 방화벽/클라우드 프록시 제품 Thunder CFW(Convergent Firewall) 시리즈에서도 제공된다.


애플리케이션 배포와 서버·로드 밸런싱 기능은 처리 부하가 높은 SSL/TLS 처리를 웹 서버에서 오프 로드하여 애플리케이션 전달 속도를 고속화한다는 것. Thunder SSLi의 최신 모델은 40Gbps 이상의 암호화 트래픽을 가시화한다.


신 모델 개요

높은 암호 처리 성능
처리 부하가 높은 PFS/ATS 대응 암호화 스위트 처리 고속화
ex) TLS_ECDHE_ECDSA_WITH_AES_128_CBC_SHA256, TLS_ECDHE_RSA_WITH_AES_256_GCM_SHA384 등
확장 가능한 퍼포먼스와 합리적인 TCO


Thunder ADC시리즈
PFS/ATS 대응 암호 스위트의 SSL/TLS 통신에서 타사의 제품과 비교시 최대 2배의 커넥션/초(CPS)의 퍼포먼스를 저비용으로 실현
SSL 커넥션당 비용이 타사 제품과 비교시 절반 수준


Thunder SSLi시리즈:
PFS/ATS 대응 암호 스위트의 SSL/TLS 통신의 가시화에 40Gbps 이상의 트래픽 가능

대상 모델
Thunder ADC, Thunder SSLi 및 Thunder CFW 시리즈의 Thunder 3040S, 3230S, 3430S, 4440S, 5330S, 5440S, 5840S


3세대 SSL/TLS 전용 하드웨어 기반 Thunder 3040S, 4440S, 5440S, 5840S는 제공을 시작하며 모든 제품은 파트너 기업을 통해 오픈 프라이스로 제공.


※Thunder 3230S, 3430S, 5330S는 2017년 3분기부터 제공 예정 

반응형
Posted by 랩터 인터내셔널