a 0 · web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은...

14
CPU 기기 기 기기 기기 21세세세 세세세 세세세세 세세세 세세 세세세 세세세세세세 세세세세세 CPU 세세세 세세세세 세세세 세세세세. 1946세 2세세세세 세세 세세세 세세세세 세세세 24m 세세세 2.5m 세세, 세m세 세세 세세 ENIAC세세 10세 세세세 세세세 세세 CPU세 1971세 0.3cmX0.4cm 세세세 Intel 4004 세세세세세세세세세 세세세세, 1990세세 세 세세 세세세세 Cray 세세세세세세 세세세 세세세세 CPU세 1998세 세세 1.3cmX1.5cm세 세세 세세세세 세세세 Alpha 21264세 세세세세 세 1세세 세세세세 세세세 세세 세세세 UNIVAC I 세세 10세세 1세 세세세 세세세 세세/세세세세 세세 세세세 세세세 세 CPU 세세세 2000세세 세세세 세세세세 세세세 세세세 세세 세세세세세 . 세 1. 세세세 세세세 세세/세세세 세세 세세 기기기기 기기기 기기기기 기기 (adds/sec) Price (1998$) 기 UNIVAC 기기/기기기 1951 UNIVAC I EMCC 1.9K $5M 1 1965 PDP-8 DEC 330K $67K 12,876 1976 Cray-1 Cray 166M $8.5M 51,372 1981 IBM PC IBM 240K $4.2K 149,990 1991 HP9000 HP 50M $8.2K 13,157,500 1998 Alpha 264 Compaq/세세 3600M $10K(est.) 947,368,421 1

Upload: others

Post on 06-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

CPU 기술 및 시장 동향

21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후 세계 최초의 컴퓨터로 공개된 24m 길이에 2.5m 높이, 수m의 폭을 갖던 ENIAC보다 10배 이상의 성능을 갖춘 CPU가 1971년 0.3cmX0.4cm 크기의 Intel 4004 마이크로프로세서로 발표되고, 1990년대 큰 방을 점유하던 Cray 수퍼컴퓨터의 성능을 능가하는 CPU가 1998년 현재 1.3cmX1.5cm의 엄지 손톱만한 크기의 Alpha 21264로 작아지며 표 1에서 보여주듯 최초의 상용 컴퓨터 UNIVAC I 대비 10억대 1의 개벽에 가까운 가격/성능비의 기술 혁명을 성취해 온 CPU 기술이 2000년대 인류의 전자문명 시대를 선도해 가고 있는것이다 .

표 1. 컴퓨터 시스템 가격/성능비 향상 지표

발표년도 시스템 발표회사 성능 (adds/sec)

Price(1998$)

對 UNIVAC 가격/성능비

1951 UNIVAC I EMCC 1.9K $5M 11965 PDP-8 DEC 330K $67K 12,8761976 Cray-1 Cray 166M $8.5M 51,3721981 IBM PC IBM 240K $4.2K 149,9901991 HP9000 HP 50M $8.2K 13,157,5001998 Alpha 264 Compaq/삼성 3600M $10K(est.) 947,368,421

1

Page 2: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

현대 사회의 정보통신 기술은 국가 경쟁력의 척도가 되어가고 있다. 세계적인 헤지펀드들이 수퍼컴퓨터를 이용해 매분단위로 세계 자금의 흐름을 지켜보며 투자대상을 물색, 복잡한 알고리즘을 통해 투자 대상이 결정되면 자동 프로그램 매매기법에 의해 거대한 자금 이동이 초단위로 이루어지는 국제 금융 시장에서 컴퓨터는 이미 핵무기보다 더 가공할 타격을 국가간 주고받을 수 있는 경제 전쟁의 도구로 사용되고 있으며, 수십억달러를 넘나드는 신물질 분자 구조의 합성에서부터 자동차 수백만대 매출 이익과 맞먹는 수익을 단 몇개월만에 올리는 90분짜리 타이타닉이나 토이 스토리와 같은 영화를 제작할 수 있는 3차원 그래픽 애니메이션, 온갖 질병과 치료 방법을 즉석에서 진단해 줄 수 있는 휴대용 유전자 분석기나 태아의 일상 생활을 비디오 보듯 연결해주는 3차원 NMR등의 의료 기기등 이미 컴퓨터는 생활 필수품으로부터 치열한 경쟁에서의 우위 선점을 위한 필수적인 도구가 되어가고 있다.

여기에 더해 CPU의 비약적인 성능 향상에 힘입어 주목받고있는 가상 인간 애니메이션(Virtual Human Animation)[1]은 인간의 행동 양식과 감정까지 인공지능 기법을 활용, 이입시킨 가상 인간을 만들어내고있으며, 여기에 각 분야 기존 전문가들의 전문적 know-how를 집약시킨 가상 expert를 대량으로 가상 세계에서 활용하는 방안이 연구되어지며, 문명의 전분야에서 새로운 파라다임이 시작되고있다.

특히 생산성 경쟁력 부문에서 예를들면, 신제품을 개발하는데 통상 1,000번 정도의 설계 변경과 리뷰가 필요하다고 가정하고 A라는 컴퓨터를 이용, 10여명의 전문가가 1회 리뷰에 평균 8.7시간을 소요해 1년의 개발 기간이 필요하다면 1명의 보통사람이 A 컴퓨터대비 100배의 성능을 갖춘 B라는 컴퓨터에 10명의 컴퓨터내 가상 전문가를 둔 시스템을 이용, 4일만에 개발을 완료할 수 있다는 의미로서 이것이 곧 컴퓨터의 성능이 생산성의 향상에 절대적인 영향을 주고있으며, 기업의 경쟁력, 더 나아가서 새로운 전자 문명 시대의 국가 경쟁력을 좌우하고있음을 보여준다. 실제 아직도 사용되고있는 486급 컴퓨터와 1998년 현재 상용 CPU로 세계에서 성능이 가장 우수한 Alpha 21264는 기본 성능에서 100배 수준의 차이가 나며 Alpha가 주로 사용된 타이타닉 영화제작에 486급이 사용되었다면 1년대 4일과 같은 생산성의 직접 비교가 가능하며, 분초를 다투는 금융 시장의 복잡한 투자 알고리즘에서 분석 속도에 따른 엄청난 규모의 손익차이에서부터 일반 회사의 기업 업무 처리 속도에 따른 경쟁력에 이르기까지 사용자의 생산성이 컴퓨터의 성능에 비례함으로 Fast and Smart로 결정지워지는 21세기 기업, 사회, 국가의 경쟁력은 정보통신 기술에 좌우될 것이며 그 enabler가 곧 CPU 기술인 것이다.

본고에서는 CPU 의 핵심 기술인 성능 구성 요소, CPU 회사들의 성능 향상을 위한 반도체 및 컴퓨터 기술, 2000 년대를 선도해 갈 미래의 CPU 기술 방향들을 중심으로 CPU 기술 동향을 정리하고 1998 년 현재의 CPU 시장을 중심으로 향 후 5 년간 CPU 시장 동향을 살펴보며 국내 CPU 산업의 현황과 전망에 대해 소개하고자 한다.

1. CPU 기술 소개

2

Page 3: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

CPU의 성능은 통상 2년에 2배(100%) 정도로 향상되고있다. 이것은 1년에 평균 50%의 개선이 진행되며 1개월에 4%, 1주일에 1% 개선이 진행됨을 보여준다. 성능이 높아지는것은 크게 두가지 방향으로 진행된다. CPU칩의 동작 주파수를 높이는 방법과 CPU의 동작 주파수당 명령어 처리 개수를 높이는 신규 마이크로아키텍츄어 채택등의 두가지 방법으로 앞서 밝힌 486과 Alpha 21264를 비교하면 486의 동작 주파수 66MHz 대비 Alpha 21264가 600MHz임으로 약 10배의 성능이 향상되었고, 486의 단일 CISC 파이프라인의 주파수당 명령어 처리 개수 대비 Alpha 21264의 6-Way Out-of-Order 파이프라인에서 약 10배의 개선이 됨으로 기본 성능에서 100배의 차이가 가능해 진것이다. 표 2에서 보여주듯 지난 96년 이후 Intel Pentium II, Sun UltraSPARC, MIPS R10000등의 CPU들이 동작 주파수 향상에 치중, 성능을 향상시켜온데 비해, Alpha CPU는 동작 주파수 2배, 신규 마이크로아키텍츄어 적용 동작 주파수당 명령어 처리 개수를 2배로 향상시켜 2년에 2배의 통념에서 4배 이상 획기적인 성능 개선에 성공하였다.

표 2. CPU Performance Improvement

CPU SPECint95 in 1996 SPECint95 in 1998 Improv.(SPEC/주파수)Compaq/삼성 Alpha 2116421264

9 @ 333MHz 21.3 @ 667MHz35 @ 667MHz

137%/100%288%/100%

HP PA8X00 11 @ 180MHz 16.4 @ 240MHz 49%/33%Intel PentiumPro/II 8 @ 200MHz 15.8 @ 400MHz 98%/100%IBM/Motorola PowerPC 6 @ 180MHz 14 @ 332MHz 133%/84%Sun/TI UltraSPARC 6 @ 200MHz 12.8 @ 360MHz 113%/80%SGI/NEC/ToshibaMIPS R10000 8 @ 200MHz 14 @ 250MHz

75%/25%

이 표에는 현재 상용 CPU만을 열거한것으로 Intel의 차세대 Merced CPU는 2000년 중반에 상용화 될 전망임으로 현재의 추세를 적용하면 2000년 출시의 Merced가 0.18um 공정 기술을 사용, 동작 주파수 800MHz 내외에 50 SPECint95 수준을 갖는것으로 알려져 있음으로 2000년에 0.18um의 공정을 적용하여 1GHz 이상의 동작 속도를 가지며 1998년 성능대비 2배 이상을 향상 시킬것으로 기대되는 Alpha 21264는 80-90 SPECint95의 값을 가질것으로 전망되어 향 후 3-4년간 Alpha 21264의 성능이 가장 우수할 것으로 예상된다. Merced의 2배 성능을 갖는 차세대 McKinley는 2002년경 상용화될것임으로 Alpha와 X86 의 최상위 계열 CPU는 계속해서 2배 내외의 성능 차이를 갖게되며 차세대 CPU의 구비 요건이 앞서 지적하듯 Smart and Fast임에 비추어보아 Alpha는 타 CPU에 비해 월등한 잠재력을 갖고 있다고 볼 수 있다. 표 3에 1998년 현재 상용으로 판매중인 CPU들의 각종 지표를 소개하였다.

표 3. 상용 CPU 제원[*Source: Microprocessor Report, June 22,1998]

Compaq21264

Compaq 21164

IBM PPC604e*

Sun*Ultra-2*

HPPA-8200*

MIPSR10000*

IntelPentium II*

Clock rate 600MHz 667MHz 350MHz 360MHz 236MHz 250MHz 400MHzCache size 64K/64K 8K/8K/96K 32K/32K 16K/16K None 32K/32K 16K/16KIssue rate 4 issue 4 issue 4 issue 4 issue 4 issue 4 issue 3 issuePipe stages 7-9 7-9 6 6-9 7-9 5-7 12=14Out of Order 20 INST - 16 INST - 56 INST 32 INST 40 ROPsRename Reg. 80int/72fp - 12int/8fp - 56 total 32int/32fp 40 totalBHT entries L/G/C 30K 2KX2-bit 512X2-bit 512X2-bit 1KX2-bit 512X2-bit >512

3

Page 4: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

TLB entries 128I/128D 48I/64D 128I/128D 64I/64D 120 Uni 64 Uni 32I/64DMemory B/W 5.3GB/s 400MB/s 180MB/s 1.3GB/s 768MB/s 539MB/s 528MB/sPackage 587 CPGA 499 CPGA 255 CBGA 521 PBGA 1085 LGA 527 CPGA 528 PBGAIC Process 0.35um 6M 0.35um 4M 0.25um 5M 0.29um 4M 0.5um 4M 0.25um 4M 0.25um 4MDie Size 315 sq.mm 209 sq.mm 47 sq.mm 126 sq.mm 345 sq.mm 197 sq.mm 131 sq.mmTRs 15M 10M 5.1M 3.8M 3.9M 6.8M 7.5MPower > 50W 25W 7W 20W > 40W 16W 15WSPECint95 35 (est.) 21.3(est.) 14.0 12.8 16.4 14.1 15.8SPECfp95 50 (est.) 29.5(est.) 12.1 21.9 25.3 22.6 11.4

1) CPU 성능 분석

CPU 는 일반 논리회로로 설계되는 복잡한 기능들을 공통 기능 부분들을 최대화하여 일정한 명령어로 형식화시킨 중앙 처리 장치이다. 프로그래머는 이 명령어들과 주어진 부속 기능을 최대한 활용하여 주어진 알고리즘을 가장 빠르게, 경제적으로 실행 시켜주는 프로그램을 개발하게되며 컴퓨터의 성능은 이러한 프로그램들을 얼마나 빠르게 처리해 주느냐 하는 척도로서 예를들어 Microsoft PowerPoint 를 오픈하는데 300MHz Pentium II 에서 10 초의 시간이 걸린다면 실행 시간은 다음과 같이 구성된다.

10 Seconds/Program = 1.5 X 109 (Instructions/Program) * 2 (Clocks/Instruction) * 3.3 X 10-9(Seconds/Clock Cycle)

곧 PowerPoint 를 Windows 에 올리는데는 사이클당 3 개의 명령어를 이슈하는 Pentium II의 Out-of-Order 파이프라인이 한 명령어를 처리하는데 평균 2 사이클이 가정하고(CPI=2, CPI: Clocks Per Instruction), 300MHz 임으로 3.3nsec 의 사이클 타임을 적용하면 약 15억개의 명령어가 10 초 동안 단 한 명령어의 fail 도 없이 실행됨으로 완료된다. 이것을 성능이 약 4 배 정도 더 우수한 600MHz 21264 로 실행 할 경우 2.5 초가 소요될 수 있으며 다음과 같이 표현 될 수 있다.

2.5 Seconds/Program = 3 X 109 (Instructions/Program) * 0.5 (Clocks/Instruction=CPI) * 1.67 X 10-9(Seconds/Clock Cycle)

21264 는 4 개의 명령어를 동시에 이슈하는 Out-of-Order 파이프라인을 통해 한 개 명령어의 평균 처리 클럭 사이클을 0.5 로 낮추고있어 여기서 Pentium II 대비 4 배의 성능이 개선되며 동작 속도에서 2 배가 개선되어 모두 8 배 개선이 가능하다. 그러나 이 비교에서 알수 있듯 실행되는 명령어의 개수는 동일 작업을 하더라도 단순 명령어를 통해 더욱 세분화하여 보다 많은 명령어를 실행하는 Alpha 와 같은 RISC(Reduced Instruction Set Computer)에 비교하여 복잡한 명령어들을 위주로 큰 블록의 일을 처리함으로 적은 명령어를 실행하는 X86 과 같은 CISC(Complex Instruction Set Computer)에서 1/2 로 작아짐으로 전체 실행 성능은 4배 개선이 되고 있음을 알 수 있다.

일반적으로 Instructions/Program 은 CPU 의 아키텍츄어 설계 변수로서 명령어 세트, 컴파일러, OS 등에 따라 변화되며 동일한 아키텍츄어내에서도 다양한 path length reduction 기법 및 code optimization 을 통해 더욱 컴팩트한 명령어수를 얻을 수 있으나 통상 Alpha, SPARC, PowerPC, MIPS 등 RISC 계열의 명령어수는 동일한 일을 수행할때 X86, VAX 등의 CISC 계열의 명령어수에 비해 프로그램 크기(static code density)에서 1.1~1.2 배 더 크며 실행 시간(dynamic execution)에는 더욱 커지게된다.

Clock Cycles/Instruction 은 CPU 의 마이크로아키텍츄어 설계변수로서 파이프라인 하드웨어 구성에 크게 좌우된다. Pentium II 의 경우 3-way out-of-order issue, 21164 는 4-

4

Page 5: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

way in-order issue, 21264 는 6-way out-of-order execution 구조를 가지며, Alpha 21464 와 Intel-HP 의 Merced 는 8-way 이상의 동시 실행 파이프라인 구조를 갖는다. 그러나 파이프라인 효율은 분기 명령어 (branch), cache latency, memory latency, TLB miss, exception, context switching 등의 오버헤드 사이클에 크게 좌우되며 6-way 파이프라인이더라도 최대 6 개부터 최소 1 개 이하의 명령어가 단일 사이클에 처리된다. 마이크로아키텍츄어는 논리 회로 설계 기술 수준에 의해 복잡도와 경제성이 결정되나 CMOS 전기 회로의 구성 방식에 의해서도 상당한 차이를 보이며 종합적으로 논리 회로 설계, CMOS 회로 설계, 설계 검증 기술, CAD 기술등에 의존성이 높다.

Seconds/Cycle 은 500MHz 의 동작 주파수에서 2ns, 1GHz 의 경우 1ns 로 정해지는데 주로 반도체 공정 기술에 크게 의존하나 사용 회로의 스타일과 연결선의 설계상 처리 기법에 따라 더욱 개선 될 수 있는 부분이다. 한 사이클내 최대 지연 시간은 각 사이클의 최대 허용 게이트개수에 따라 결정된다. 예를들어 2ns 의 경우 단일 phase 1ns 에 허용될 수 있는 게이트 개수는 0.35um 에서 0.1ns 의 게이트당 지연 시간의 경우 0.2-0.3n 의 마진을 제외하고 7-8개에 해당되며 0.18um 공정을 이용, 50ps 로 게이트 지연을 줄일경우 1ns, 곧 1GHz 의 동작 속도가 가능해 진다. 그러나 이 경우 트랜지스터는 빨라지나 연결 금속선들에 의한 지연은 도리어 증가하여 반드시 2 배의 속도가 되지는 않기 때문에 공정 기술의 축소시에도 설계 부문의 개선이 동시에 이루어 져야 한다.

이 세가지 변수는 독립적이라기보다는 상호 연관되어 가장 최적화된 값들을 가지며 CPU 성능 경쟁의 정점을 지향한다. 예를들어 초기의 Alpha 구조에서 byte 단위의 load/store 명령어를 두지않음으로 바이트 데이터의 multiplex 시간을 제거하고(21164 이상의 Alpha CPU 는 바이트 단위 load/store 를 지원하고 있음), 복수개 명령어의 동시 수행을 가장 크게 제한하는 condition code 를 사용하지않음으로 imprecise interrupt 을 허용, 파이프라인 인터록은 물론 예외처리 구현 회로를 단순화 시키며, Memory Barrier 를 통해 strict 한 memory ordering 문제를 국부화시킴으로 복수개 프로세서 시스템에서 별도의 지연없이 초고속 메모리 전송을 가능하게 하는등의 Alpha 구조 설계 싯점부터 이미 Digital 의 가장 큰 장점인 초고속 CMOS 회로 설계의 장점을 최대한 활용할 수 있는 구현상의 잇점들을 포함시켜 설계되어있다.

2) CPU Architecture 기술 – Instructions/Program

CPU Architecture 의 기본적인 목표는 동일한 작업을 최소한의 자원과 시간내에 완료하는 것이다. Architecture 는 프로그래머에게 보여지는 명령어 세트와 부속 기능을 정의하는 Processor Architetcure 와 CPU 자체의 배치와 구성, S/W 와 연관지어 시스템 전체의 가격-성능비를 극대화시키는 System Architecture 의 두가지로 구분 할 수 있다. 여기서는 CPU 아키텍츄어의 구성 요소와 비교를 통해 Instructions/Program 의 최소화 기술에 대해 살펴본다. 표 3 에 주요 CPU 들을 RISC 9종, CISC 5종과 차세대 VLIW(Very Long Instruction Word)와 유사한 구조의 신종으로 분류될 수 있는 Intel IA-64 아키텍츄어를 RISC 그룹으로 정리하였으며 마지막 열의 “Odd” 개수는 각 RISC 와 CISC 그룹에서 변종의 정도를 의미한다.어느 프로그램의 명령어의 개수는 라이브러리를 포함한 어셈블리 프로그래머의 능력, 컴파일러의 성능등에 영향을 받는다. Intel IA-64 와 Alpha 21264 의 명령어 개수 및 실행 사이클 수를 비교하면 표 4 와 같으며 IA-64 대비 동일 클럭에서 21264 는 17% 더 빠르다.

표 3. Architecture 사양 비교

5

Page 6: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

CPU

명령

크기

개수

최대

명령

어 크

기Bi

ts어

드레싱

드 개

간접

어드레싱

메모

리 직

연산

여부

명령

어당

메모

리 어

드레

명령

어당

M

MU

요구

수In

tege

r 레

지스

터 개

Floa

ting

Poin

t레

지스

터 개

나이

Unal

igne

d Da

ta

지원

유무

Odd

Alpha 1 32 1 No No 1 1 32 32 6 No 0SPARC 1 32 2 No No 1 1 160

+32 12 No 0

MIPS 1 32 1 No No 1 1 32 32 12 No 0HP-PA 1 32 10 No No 1 1 32 32 15 No 1IBM RT 2 32 1 No No 1 1 16 8 12 No 3IBM POWER

1 32 4 No No 1 1 32 32 8 No 0

Intel i860 1 32 4 No No 1 1 32 16 9 No 0M88000 1 32 4 No No 1 1 32 INT 11 No 1AMD 29K 1 32 1 No No 1 1 256 8 11 No 1IA-64 1 12

8- No No 1 1 12

8128

-2 - 1

IBM3090 4 64 2 No Yes 2 4 16 4 32 Yes 280x86 12 128 15 No Yes 2 4 8 8 18 Yes 1NS 32x32 21 168 23 Yes Yes 2 4 8 8 16 Yes 0M680x0 11 352 44 Yes Yes 2 8 16 8 17 Yes 0uVAX 56 448 22 Yes Yes 6 24 16 INT 19 Yes 0

표에서 보여주듯 Alpha 21264 는 동일 코드를 실행하는데 더 적은 명령어 개수, 더 작은 분기 명령어 예측 오류, 더 적은 실행 사이클 수등 모든 면에서 IA-64 를 앞서고 있다. 이 프로그램 코딩예는 IA-64 의 가장 큰 특징인 분기 명령어 처리를 predication 을 사용, 가장 효과적으로 처리된 예를 Intel 이 1997 년 Microprocessor Forum 에서 발표된 예로, Compaq 이 1998 년 Microprocessor Forum 에서 동일한 코드에 대해 21264 의 처리 예를 보여줌으로서 동일 주파수에서 21264 의 성능이 Merced 보다 앞설 수 있으며 구조상으로도 Alpha 구조가 IA-64에 동등 이상의 수준임을 보여주고있다. 실제 1994 년에 시작된 21264 의 개발 싯점과 Merced의 개발 싯점이 동일함을 고려할 때 21264 가 2 년여 앞서 상용화에 성공하며 마이크로아키텍츄어, 구현 측면에서도 우월함을 보여주고있다.

표 4. Merced 대 Alpha 21264 명령어 개수 및 실행 사이클 수 비교[Source: Microprocessor Forum’98]

If ( (b[j]==true) && (a[l+j]==true) ) && (c[l-j+7]==true) )Merced IA-64 Alpha 21264Cycle Instruction Cycle Instruction1 R1=&b[j] 1 R1=&b[j]

R3=&a[l+j] R3=&a[l+j]R5=&c[l-j+7] R5=&c[l-j+7]

2 Ld R2=[R1] 2 Ld R2=[R1]Ld.s R4=R[3] Ld R4=R[3]

3 Ld.s R6=R[5] 3 Ld R6=R[5]4 P1, P2<-cmp(R2==true) 4 Cmoveq R4, R31, R25 <P1> Check R4 5 Cmoveq R6, R31, R2

<P1> P3,P4<-cmp(R4==true) 6 Beq R2, else

6

Page 7: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

6 <P3> Check R6<P3> P5,P6<-cmp(R6==true)

7 <P5> br thenMerced IA-64 Alpha 21264INST 12 INST 9Bytes 64 Bytes 36Branch

1 (Mispredict: 16%) Branch

1 (Mispredict: 13%)

Cycle 7 Cycle 6

Merced 의 최대 장점인 predication 기법은 분기 처리시 분기 가능한 패스 두개를 동시에 실행하고 최종 resolution 후 둘중의 한 결과만을 선택하는 방식으로 기본 CPU 들의 최대 난제인 분기 예측 오류시 선행 명령어 40-50 개의 실행 결과를 모두 포기해야하는 성능 손실을 최소화하는 방법이다. 표에서 보듯, Merced 는 predicate register(여기서는 P1-P5)를 이용하여 P 의 값이 항상 true 일때만 결과를 저장한다. Ld.s 는 예측 load 로서 데이터 사용전 Check 를 통해 정상 실행 여부를 판명한 후 데이터가 사용됨으로 오류 데이터를 갖고 분기시 일어나는 문제를 사전에 제거해준다. 프로그램 예는 a, b, c 세가지 조건이 모두 true 일 때 실행하는 코드로서 통상 일반 CPU 에서는 각 값을 체크하며 true 여부를 분기 혹은 연속 명령어로 실행 계속의 선택을 통해 처리해 나가는데 Alpha, SPARC V9, MIPS IV 에서는 조건 이동(cmov) 명령어를 이용해 분기를 없애며 위 예에서도 최종적으로 Beq 한 개를 사용해 최종 조건을 평가하도록 구성된다. cmov 만을 사용하는 RISC 에 비해 IA-64 는 보다 다양한 명령어에 적용이 가능한 유연성을 갖추고있으나 위의 예에서는 21264 가 IA-64 대비 56%의 명령어 바이트만으로 구현이 가능, 동일 작업을 위해 더 작은 명령어 캐쉬가 가능하고 실측 결과 더 적은 분기 예측 오류등으로 앞서 소개한바와 같이 17%정도 동일 주파수에서 성능이 더 좋다.

3) CPU Microarchitecture 기술 - Clock Cycles/Instruction

아키텍츄어의 수명이 보통 20-30 년이라고 한다면 마이크로아키텍츄어는 2-3 년을 주기로 신규 파이프라인 방식이 발표되며 주어진 아키텍츄어를 최대 성능으로 구현 할 수 있도록 연결시켜주는 고리에 해당되는 부분으로 파이프라인의 설계 방식을 통칭한다. 파이프라인 처리 방식은 그림 1 에서 보여주듯 제 1 세대 파이프라인에서 제 5 세대 파이프라인으로 발전 해 왔다.

7

Page 8: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

그림 1. 1 세대-5 세대 파이프라인 마이크로아키텍츄어

그림에서 볼 수 있듯, 제 1 세대는 파이프라인 개념없이 순차적인 실행을 하나 2 세대부터 파이프라인이 적용되었으며 제 3 세대는 두개 이상의 파이프라인을 동시에 실행해나가는 수퍼스칼라 방식을 통해 CPI 를 개선하고 있으며 2 세대와 3 세대 공히 명령어 실행 사이에 각종 상관성 (데이터 상관성, 명령어 순서 상관성, 기능 유닛 상관성등) 체크, 캐쉬 미스, TLB 미스, 예외처리, 분기예측 오류등 갖가지 파이프라인 stall 이 발생함으로 제 4 세대에서는 이와같은 stall 사이사이에 실행 유닛의 사용 효율을 최대화 시킬 수 있는 비순서(Out-of-Order) 실행 방식을 채택하고 있다. 제 5 세대에서 논의되고 있는 SMT(Simulataneous Multithreading), SMP(Single Chip Multiprocessor), IRAM(Intelligent RAM), Trace Cache 등을 이용한 대규모 수퍼스칼라들은 다음장에서 소개하기로 한다.

4) CPU 반도체 기술 - Seconds/Clock Cycle CPU 아키텍츄어, 특히 마이크로아키텍츄어의 비약적인 발전은 반도체의 집적도와 설계 기술의 영향이 크며 여기서는 주로 Seconds/Clock Cycle 단축에 대해 소개하기로 한다. CMOS 반도체의 기본 동작 속도는 게이트 지역을 통과하는 전자의 속도에 비례하며 전자의 속도는 다른 조건이 같을 경우 이동 거리, 곧 channel length 에 반비례함으로 일반적으로 그림 2 와

8

Page 9: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

같은 동작 속도 예측이 가능하다. 여기서 Alpha-I 는 이론적인 성능 향상 기대치이며 Alpha 는 0.35um 에서 최대 667MHz 를 기준으로 목표 동작 주파수를 보여주고있으며 X86-I 는 0.35um 에서 200MHz 에서 출발한 Pentium Pro 를 기준으로 X86 은 1999 년 출시 목표인 0.18um Tanner 의 700MHz 목표 동작 주파수를 보여주고있다. X86 계열이 이론적인 기대치보다 빨라지는 것은 Pentium Pro 의 마이크로아키텍츄어상 200MHz 의 초기 동작 속도에 상당한 마진이 있었음을 의미한다. 이것은 트랜지스터의 속도만을 고려했을때의 예상치이나 실제 반도체 칩상에서는 연결선의 지연이 상당한 문제가 되며 특히 공정 기술이 더욱 미세화되며 메탈 연결선의 저항값이 급격히 증가함으로 가늘어진 폭을 보완하기위해 메탈을 높게 만들게되나 결과적으로 인접 메탈선간의 간섭이 증가해 어느 수준 이상으로 개선하기는 어려워진다. 따라서 그림 3 과 같이 향 후 Cu 와 low-k dielctric 을 사용, 금속 연결선들에 의한 지연 시간 단축이 불가피하다. 표 5 와 6 에 CPU 회사들의 1998 년 현재의 공정 기술과 1999 년 개발 예정 기술을 요약하였다.

그림 2. CPU 동작 주파수-공정 기술 상관도

9

Page 10: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

그림 3. 연결선-게이트 지연 시간과 공정 기술 상관도

표 5. 1998 년 CPU 회사들의 공정 기술 현황

Proc

ess

Inte

l P8

56.5

IBM

CM

OS-

7S Mot

orol

a HI

P 5

AMD

CS44

E

Natio

nal

CMOS

8

TI 18C0

7

삼성

CSL8

Tech. 0.25um 0.22um 0.22um 0.25um 0.25um 0.18um 0.25umProduct Mendoci

.Lonestar G4 K6 MII UltraII 21264

1st Prod. 3Q98 3Q98 4Q98 4Q97 2Q98 3Q98 4Q98Vdd 2.0V 1.8V 1.8V 2.2V 2.5V 1.8V 2.0VVI/O 2.5V 3.3V 3.3V 3.3V 3.6V 3.3V 2.5VLgate 0.20um 0.16um 0.15um 0.18um 0.24um 0.18um 0.22um Tox 41A 35A 35A 37A 50A 40A 40AMetal 5 Al 6 Cu 6 Cu 5 Al 5 Al 6 Al 6 Al

10

Page 11: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

표 6. 1999 년 CPU 회사들의 공정 기술 계획

Proc

ess

IBM

7S

-SOI

IBM

CMOS

-8S M

otor

ola

HIP

6

AMD

C550

Natio

nal

CMOS

9

TI 15C0

5 Cu 삼

성CS

L9 C

u

Tech. 0.22um 0.18um 0.18um 0.18um 0.18um 0.15um 0.18umProduct Lonestar N/A G5 K7 M3D Ultra4 21264

Cu1st Prod. 1H99 2H99 1H00 2H99 4Q98 4Q00 1H00Vdd 1.8V 1.5V 1.5V 1.5V 1.8V 1.5V 1.5VVI/O 3.3V 2.5V 2.5V 2.5V 3.3V 3.3V 2.5VLgate 0.27um 0.21um 0.21um 0.23um N/A 0.11um 0.18umTox 35A < 30A 30A 25A 40A 27A 30AMetal 6 Cu 7 Cu 6 Cu 6 Cu 5 Cu 6-7 Cu 7 Cu

2. CPU Emerging Technology

CPU 기술은 10 년이내에 10 억개의 트랜지스터를 10GHz 로 동작시키는 초대규모/초고속의 단일 CPU칩 개발을 지향하고있다. 이러한 구현 기술에 바탕을 둔 향 후 유망 CPU 기술 분야에 대해 살펴본다. 우선 아키텍츄어 분야에서는 다음과 같은 8 개 분야를 들 수 있다.

Advanced Superscalar Superspeculative SMT (Simultaneous Multi-Threading) Trace Processor Vector IRAM CMP (Chip Multi-Processor) Raw Processor Walk-Time Techniques Multimedia 통합

반도체 기술 분야에서는 다음과 같은 challenging 한 기술 분야가 있다.

Advanced Dynamic CMOS circuit design & verification Cu Interconnection SOI Low-k dielectric Flip Chip package

11

Page 12: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

3. CPU 시장 현황과 전망

Dataquest 1997 년 자료에 의하면 1996 년 전세계 CPU 시장의 규모는 모두 167 억달러 였으며 판매 순위는 표 7 과 같다.

표 7. 세계 CPU 시장 현황 [Source: Dataquest, 1997]

Company 1996 Revenue ($M)

1996 Market Share (%)

1 Intel 14,675 88 2 IBM 613 4 3 AMD 300 2 4 Digital 235 1 5 TI 213 1 6 Motorola 209 1 7 Sun Micro 170 1 8 Cyrix 160 1 9 NEC 4010 Toshiba 3211 SGS-

Thomson8

12 IDT 3

CPU 마켓은 Intel 에 의해 독점 표준화 되어있으며 이것은 전 세계에서 사용되고있는 PC 가 이미 5 억대에 육박할것으로 추산됨으로 이와같은 규모의 PC 에서 사용되는 S/W 를 실행 시키지 못하는한은 RISC CPU 들의 시장 확장에는 한계가 있을 수밖에 없다. Intel 은 Intel Architecture Lab.을 통해 전세계의 PC 를 한테 묶는 global network 기술을 개발 중이며 multimedia 및 3 차원 그래픽 명령어를 차별화해 타 X86 clone 업체들로부터의 추격을 따돌리고있다. AMD 는 기대했던 K6 의 생산 문제로 인한 판매부진으로 1995 년 7 억 4천만달러에 달하던 매출에서 3 억달러 내외로 줄었다. IBM 의 경우 PowerPC 와 X86 clone 을 통해 6 억달러의 매출을 기록하고있다. 여기서 주목할 것은 세계 4 위 CPU 판매업체가 Digital 이었으며, 반도체 fab.을 인텔에 매각한 Digital 로서는 거의 전량을 Alpha 라이센스 업체인 삼성에서부터 구매 할 수 밖에 없음으로 삼성으로서는 향 후 수년간 CPU 판매에서 세계 4위권으로 진입하게 될 전망이다.

CPU 시장은 PC 에서의 Multimedia 전용 칩을 명령어 수준에서 지원하는 MMX 스타일의 명령어 도입에 의해 저가 고성능 Multimedia 통합이 가능해져 가고있다. 이것은 아키텍츄어상에서 약간의 오버헤드를 더함으로 Multimedia 프로세싱 성능을 현저히 향상시킬 수 있는 덕분이며, Intel 의 MMX, Sun 의 VIS, Alpha 의 MVI, MIPS 의 MDMX, HP 의 MDMX등의 명령어 그룹을 통해 아키텍츄어가 확장되고 있다. 표 8 에 1998 년에 상용화된 X86 계열 CPU 들의 Multimedia 및 3D 그래픽스 지원 현황을 정리하였다. PC 의 가격대가 최근 300MHz Pentium II, 32M, 4G disk 를 내장하고도 $500-$600 에 판매되고 있어, CPU 의 가격-성능 경쟁은 더욱 치열해 지고 있으며 최근 SGS-Thomson 은 486 코어와 Super Integration 을 통해 LCD controller 까지 단일칩에 내장함으로 $100 대 PC 를 가능하게 하고있다.

표 8. Multimedia X86 CPU 시장 현황

Intel Deschutes

IntelKatmai

AMDK6-3D

AMDK6+3D

CyrixCayenne

Introduc. Mid-1998 Late-1998 Q1 1998 Q3 1998 2H 1998Dual MMX

Yes Yes Yes Yes Yes

12

Page 13: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

3D Ext. MMX2 AMD-3D AMD-3D MMX-FPDirect 3D N/A Yes Yes Yes YesInterf. Slot 1/2 Slot 1/2 Socket 7 Socket 7 Socket 7 4. 국내 CPU 산업 현황과 전망

1997 년 12 월 Microprocessor Report 지의 편집자 머릿기사는 “Asian Vendors Take Up Alpha Torch - Mitsubishi, Samsung Show Hope Remains for Alpha in PC Market" 라는 제목으로 삼성과 Digital 이 차세대 21264 를 0.25um/0.18um 으로 스케일링한 PC derivative 를 공동 개발중이며 생산준비가 거의 완료되었다고 보도하고 있다. Mitsubishi 는 아직 0.25um 21164PC 도 준비가 되어있지 않으며 Digital 발표에 따르면 Mitsubishi 는 특별한 호재가 없는한 Alpha CPU 시장에 적극성을 띄지 않을것임으로 이 기사는 전적으로 삼성의 Alpha CPU 에 대한 기대감을 표시한 것으로 삼성의 21264 Alpha CPU 의 성능과 발표시기가 세계 CPU 업계의 촛점이 되고 있음을 보여주고있다. 삼성의 21264 Alpha CPU 가 세계 CPU 업계의 관심의 촛점이 되고 있는것은 앞서 소개한바와같이 초기 생산 단계에 있는 0.35um 21264 만으로 2000 년에 발표될 Intel-HP 의 차세대 0.18um Merced CPU 와 동등의 성능을 갖추고있으며 0.25um 으로 제작될 경우 1.5 배, 0.18um 으로 제작될 경우 2 배 이상의 성능을 갖게됨으로 Intel 진영에서도 Alpha 의 성능에 대응할 CPU 로 2001 년에나 개발될 Merced 의 차세대 McKinley 계획을 서둘러 발표하고 있을정도로 우수한 성능을 갖고있기 때문이다.

국내 CPU 산업은 이제 막 초기 생산 기술 확보 단계에서 조금씩 그 영역을 넓혀가고있다. 그러나 앞서 밝힌바와같이 21 세기 정보통신 기술의 핵심 기술로서 국가 경쟁력을 제고하기위해 초고성능 CPU 의 생산 기술로부터 설계, 시스템 기술로 확장되어야 한다.

CPU 는 전자 산업의 핵심 부품이자, 정보 통신 산업의 최첨단에 위치한 전략적 제품으로서 각종 소프트웨어에서 하드웨어에 이르기까지 전자, 통신, 정보 산업 전 분야 제품군의 시스템 동작 특성과 성능, 규격을 결정짓는 핵심 기술중의 핵심 부문에 해당된다. 또한 CPU 기술은 초고집적 초고속 반도체 기술의 최첨단 제품군으로서 여기서 파생되는 기술은 반도체 산업 전분야를 선도하게 된다. 1GHz Full Custom Dynamic CMOS 설계, deep submicron 공정, 초고속/대규모 핀/대열량 팩키지, 초고속 시험 기술, 초대규모 초고속 집적회로 설계 검증용 CAD, 시스템 verification 등의 기술력은 곧 최상의 경쟁력을 갖는 반도체 제품군 개발을 선도하게 됨으로 최고 성능의 CPU 개발은 국내 산업 전반에 걸쳐 핵심 역할을 담당하게 된다. CPU 산업의 발전을 통해 얻을 수 있는 국내 산업 발전의 부가효과를 정리하는것으로 본 원고를 맺고자한다.

1) 한국산 제품의 Brand Name 제고

최근까지도 국내 산업 전 분야 제품은 저가 제품의 이미지를 갖고 있으며 세계 최상위 제품에 대한 인지도에서는 삼성이 메모리 제품에서 세계 1 위의 위치를 수년간 지켜오며 반도체 분야의 독자적인 이미지 구축을 해왔으나, 여기에 더해 비메모리 반도체, 첨단 반도체중에서도 최첨단의 CPU, 그것도 금세기 최고의 성능을 갖는 CPU 의 개발, 공급을 통해 타 비메모리 제품에 대한 네임 브랜드의 고급화는 물론 한국산 제품들에 대한 이미지 제고를 통해 고부가가치 효과를 충분히 이용할 수 있도록 전략적인 차원에서의 활용이 가능하다. 실제로 영화 타이타닉의 그래픽 효과를 처리하는데 한국산 Alpha CPU 가 사용된 내용을 홍보할 경우 국내 기술력에 대한 세계인들의 인지도를 높일수 있으며 CPU 자체 가격이 수천달러대에 이름으로 초고가 고성능 제품에서의 한국 제품의 경쟁 가능성을 부각시키며 기타 산업 분야에서도 세계 1 등 제품군의 확산에 기여할 수 있다.

2) 반도체 제분야 경쟁력의 획기적 제고

13

Page 14: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

Alpha CPU 는 내부에 메모리 분야의 Cache SRAM 을 비롯해 비메모리 분야의 초고속 회로를 내장하는데, CPU 의 회로 기술은 초기의 Full Custom 에서 Cell 및 ASIC 기술을 활용한 Semi Custom 으로 발전되어왔으나, Alpha 의 경우 철저한 Full Custom 방식을 최적화 시켜, 단위 면적당 트랜지스터 내장 규모에서 경쟁 제품의 2 배 이상, 동작 속도 2 배 이상등, 성능-집적도 효율면에서 4-5 배의 Full Custom 설계 기술력과 고속 트랜지스터 및 interconnection 공정 기술을 사용함으로 최고 성능을 달성 해 왔다. 반도체 제분야에서 이와같은 최고성능의 CPU 에 사용된 기술들을 효율적으로 활용할 경우 메모리 및 비메모리 제품 경쟁력이 획기적으로 개선 될 수 있으며 특히 이러한 성능이 가능한데는 Digital 고유의 CAD 기술에 설계 및 공정의 많은 know-how 들이 expert tool 로서 집적됨으로 설계자의 독자적인 판단에 따른 설계 오류를 최대한 제거하는데 이러한 CAD tool 의 도입, 활용, 개선을 통해 21 세기 새로운 반도체 제품 경쟁력 확보가 가능해지는 원천 기술 확보가 가능하다.

3) 국내 전자 산업의 Vertical-Horizontal 제품군 경쟁력 제고

국내 전자산업은 monitor, keyboard, HDD, CD-ROM, network, cellualr, 통신, 인터넷, 콘텐츠등 광범위한 시스템들의 Vertical 시스템 산업 기반을 잘 갖추고 있음으로 이 산업 분야 전체를 연결시켜주는시너지 효과를 통해 제대로 결합 시킬 경우 세계 최정상의 이상적인 제품 경쟁력을 갖추게 된다. 이중에서 현재까지 시스템의 핵심을 담당하며 성능, 소프트웨어, 가격등 모든면에서 중앙에 위치하여 시스템 산업을 주도해온 마이크로프로세서의 국내 고유 기술화가 가능하게됨으로 Alpha CPU 기술을 바탕으로 Vertical System Integration 의 모든 component중 항상 부족해 온 마이크로프로세서에 국내 독자의 solution 을 갖추게되어 종속적으로 항상 외국을 copy 해 온 국내 전자 산업에 creative 한 신규 시장 창출을 앞서 제공할 수 있어 능동적으로 세계 전자 산업을 리드 해 갈 수 있는 기반을 구축한다. 여기에 마이크로프로세서를 중심으로 확산되는 관련 기술, Horizontal Technology 의 발전 - 시스템, 보드, OS, 컴파일러, 그래픽 S/W, 콘텐츠등의 멀티미디어 사업등을 유도하게되어 세계 전자 산업에서 한국의 현재 위치를 수동형, 저가형에서 창의형, 고부가가치형 사업으로의 Vertical -Horizontal 국가 전략 산업화를 가능하게 하는 핵심 기술로서의 가치를 갖는다.

4) 고부가가치 CPU 산업 육성

1997 년 GE 가 1400 억달러의 매출에 40 억달러의 순이익을 내는동안 CPU 의 대표적 회사인 Intel 은 200 억달러의 매출에 50 억달러의 순이익을 내는 가장 이상적인 고부가가치 사업을 일구어 냈다. Alpha CPU 를 이와같은 고수익 CPU 사업에 진출하기위한 기반 기술로서 압도적인 성능차이를 갖는 기술적 우위를 바탕으로 세계 CPU 산업계에 변화기를 이용, 고부가가치 고수익 반도체 제품 확보가 가능하다.

5) 인력 및 기술 축적에 의한 반도체 종합 서비스 산업 기반 구축

21 세기의 반도체 경쟁력은 동작 속도와 집적도로서, 메모리가 1G DRAM 으로 대표된다면 CPU 는 1GHz 의 동작 속도로 대표되며 1 억개 상당의 트랜지스터를 단일칩에 내장하여 최상의 성능을 얻는 경쟁이 되며 현재 개발되고 있는 CPU 기술을 제대로 소화하고 토착화 시킬 경우 ASIC 으로 대표되는 시스템의 반도체화 서비스 산업에서 최고 수준의 설계 기술과 공정 기술로서 최상급 반도체 설계 및 ASIC, 제품 foundry, 개발 공급등 고성능 고수익 종합 반도체 서비스 산업의 국내 기반 구축이 가능 하다.

그러나 무엇보다도 기술 보호주의에서 기술 패권주의에 의해 국가 경쟁력이 결정될 21 세기에 독자적인 초고성능 CPU 기술의 확보를 통한 최상급 시스템 확보를 하지못할경우 기술 보호주의에 의해 최상위급 수퍼 컴퓨터의 확보가 불가능하게 될 경우 앞서 소개한 국제 금융

14

Page 15: A 0 · Web view21세기를 주도할 정보통신 기술이 현재 수준에 이르게된것은 무엇보다도 CPU 기술의 비약적인 발전에 기인한다. 1946년 2차대전후

시장에서의 대책없는 패배에 의한 막대한 금융 손실, 비교될 수 없는 생산성 차이에의한 기술 종속, 경제 종속국이 될 수 밖에 없는 냉엄함 현실이 21 세기에 펼쳐질 것으로 예상됨으로 국내 독자의 CPU 기술은 현재의 Alpha CPU 기술을 바탕으로 반드시 최고성능을 계속 유지해 나갈 수 있도록 확보되어야 한다.

15