Přejít k hlavnímu obsahu

Procesory pro rok 2012

Procesory pro rok 2012

Čeká nás revoluce: přicházejí procesory s novými tranzistory a mobilní CPU se čtyřmi jádry zdvojnásobí výpočetní výkon mobilních zařízení i počítačů.
MARKUS MANDAU

Zmenšení výrobní technologie procesorů o 10 až 12 nm, kterého se dočkáme v roce 2012, bude pro počítačový průmysl znamenat vekou revoluci. Tak malé rozměry si lépe představíme při srovnání s tloušťkou lidského vlasu, která činí 100 000 nanometrů, nebo s nechvalně známou bakterií Escherichia coli (6 000 nm). Svou velikostí se tranzistory zase o něco víc přiblíží atomu křemíku, který má průměr 0,3 nm. Příští rok se tak tranzistory zmenší přibližně o třetinu: místo současných 32nm procesorů začne Intel vyrábět procesory 22nm. Procesory založené na technologii ARM, které se dnes skládají ze 40nm tranzistorů, budou sestavovány z tranzistorů 28nm. Důsledkem zmenšení výrobní technologie procesorů o 10 až 12 nm bude zdvojnásobení výkonu počítačů, tabletů a inteligentních telefonů.
Miniaturizace přinese snížení spotřeby procesorů, ze kterého budou profitovat především mobilní zařízení. Zvláště těm totiž výrazné prodloužení provozu na akumulátor umožní mnohem delší sledování filmů a hraní mobilních her.
Před nedávnem navíc Intel představil zcela novou kategorii zařízení – takzvané ultrabooky slibují extrémně nízkou energetickou náročnost a miniaturní rozměry. Podle Intelu vydrží ultrabooky pracovat na baterii několik dní a bude je možné napájet z miniaturních solárních panelů, takže budou moci i bez přístupu k elektrické zásuvce pracovat prakticky nepřetržitě. Pokud je to pravda, čekají nás opravdu zajímavé časy.

Malé tranzistory pracují rychleji

Všechny čipy se skládají z tranzistorů. Nejnovější CPU Intel Sandy Bridge obsahují skoro miliardu těchto miniaturních součástek, z nichž každá představuje jeden bit. Do dnešní doby platilo, že z čím menších tranzistorů je procesor složen, tím rychleji bude pracovat. V současnosti se vyrábějí procesory s minimální šířkou tranzistoru 32 nm, ale již tato velikost naráží při provozu na hranice kvantové mechaniky, a proto bude v nadcházející, 22nm generaci nutné změnit strukturu tranzistoru.
Až dodnes byla struktura tranzistoru vcelku jednoduchá: každý tranzistor se skládal ze dvou elektrod (označovaných jako Source a Drain neboli emitor a kolektor) a vstupní řídicí elektrody, zvané hradlo či brána (Gate). Emitor a kolektor jsou odděleny substrátem, který je od sebe navzájem izoluje. Tyto tři součásti tranzistoru (emitor, kolektor a brána) jsou vyrobeny z křemíku obsahujícího malé množství atomů jiných prvků. V případě emitoru a kolektoru to jsou fosfor a arzen, tedy látky, jejichž atomy mají o jeden elektron víc než křemík. Tento elektron se volně pohybuje a přenáší elektrický proud, čemuž se říká dotace nebo N-dopování (N-doping). Substrát je na rozdíl od emitoru a kolektoru dotován borem či hliníkem, tedy prvky, které "volný" elektron navíc nemají; této dotaci se říká P-dopování (P-doping). Mezi P- a N-dopovaným křemíkem se tak nachází ochuzená zóna, která brání toku elektronů.
Jakmile je na hradlo tranzistoru přiveden proud, otevře se v ochuzené zóně kanál, který spojí obě části tranzistoru a umožní průtok elektronů z emitoru do kolektoru. Přerušíte-li přívod elektrického proudu na hradle, tranzistor zůstane otevřený, ale nepotřebuje napájet. V tomto ohledu můžeme říci, že čím menší je struktura tranzistoru, tím složitější je zabránit protékání elektronů v případě, že jsou odpojeny. U nejnovějších procesorů bohužel tento efekt znamená, že nepracují tak efektivně, jak by měly.

Prosakování proudu zpomaluje procesory

Prosakující proud má na svědomí polovinu spotřeby procesoru, a čím menší jsou jeho tranzistory, tím vyšší je podíl této ztráty. Zamezit tomuto jevu je těžké, protože elektrické pole kolektoru a emitoru ovlivňuje substrát. Zvláště pak pole kolektoru je tak silné, že dramaticky snižuje účinnost hradla kanálu, který zůstává otevřen a elektrony jím protékají, i když k němu není přiváděn proud. Kromě tohoto jevu zvaného Drain Induced Barrier Lowering (DIBL) se dále setkáváme s vlivem tunelového jevu.
Kvantová mechanika totiž tvrdí, že polohu částic nelze určit přesně, ale pouze s určitou pravděpodobností. Pokud je bariéra stojící v cestě částice příliš tenká, zvyšuje se šance, že elektron může projít i zavřenou branou tranzistoru. Se zmenšováním tranzistorů se logicky zkracuje i bariéra mezi emitorem a kolektorem. Elektrony tak budou prosakovat nejen dielektrickou izolační vrstvou hradla, ale rovněž substrátem, který odděluje emitor od kolektoru.
Nárůst spotřeby elektrické energie způsobený DIBL a tunelovým jevem lze zkrotit, pouze pokud získáme efektivní kontrolu nad hradlem přehrazujícím kanál mezi emitorem a kolektorem. Výrobci procesorů přišli během posledních několika let se třemi možnými řešeními.

3D struktura utěsní tranzistor

Prvním krokem k zamezení nechtěného prosakování elektronů bylo vyztužení izolační vrstvy mezi hradlem a kanálem tranzistoru. Z tohoto důvodu musel Intel změnit materiál využívaný při produkci 45nm procesorů a přejít z oxidu křemičitého ke směsi hafnia. Materiál zvaný "high-k" zajistil vyšší efektivitu pole brány elektronového kanálu a lépe zabraňoval tunelovému jevu.
U tranzistorových struktur menších než 32 nm to ale nestačí, a proto se výrobci procesorů snaží lépe izolovat kanál od ostatních částí tranzistoru. Kvůli tomu je však nutné změnit strukturu tranzistoru způsobem, který nemá v desítkách let vývoje tranzistorů obdoby, a posunout ji do třetího rozměru. Kanál 3D tranzistorů je tak v podobě FinFET uložen tak, aby se klenul nad substrátem jako most. Brána či hradlo tranzistoru jej obepínají ze tří stran a tvoří okolo kanálu mnohem větší hradbu. Tímto způsobem dochází ke snížení prosakování elektrického proudu a je možná lepší kontrola nad tokem elektronů od emitoru ke kolektoru. Kromě toho je třeba zajistit, aby byl kanál tvořen čistějším materiálem a elektrony při jeho průchodu nic nezpomalovalo a aby se tranzistor mohl spínat rychleji.
Technologii FinFET vyvíjí Intel již deset let a do sériově vyráběných procesorů ji poprvé nasadí v roce 2012 u příští generace mobilních a desktopových procesorů s kódovým označením Ivy Bridge. Intel tvrdí, že nové Trigate procesory budou mít v porovnání s procesory Sandy Bridge při stejném výkonu o 50 % nižší spotřebu a při stejném příkonu budou propojovat tranzistory o 37 % rychleji. Rychlejší komunikace uvnitř procesoru bude zajišťovat až o 58 % vyšší výpočetní výkon nových procesorů.
Žádný z konkurenčních výrobců dodnes nezvládl složitou technologii FinFET přivést do fáze sériové výroby, takže Intel má zatím pořádný náskok. Společnost TSMC, která je jedním z největších nezávislých výrobců procesorů a mimo jiné vyrábí čipy s architekturou ARM, plánuje přechod na 14nm výrobní proces až po roce 2014.
AMD a IBM řeší problém s prosakujícími elektrony prozatím odlišným způsobem. Namísto vyvýšení kanálu nad substrát se jej rozhodly lépe izolovat. Tranzistory typu FD-SOI (Fully Depleted Silicon On Insulator) obsahují mezi kanálem a substrátem vrstvu oxidu křemičitého (BOx). Díky této vrstvě se minimalizují negativní jevy jako DIBL a materiál kanálu není třeba dopovat. Principálně vzato jsou díky tomu tranzistory FD-SOI stejně výkonné jako technologie Intel Trigate. Výroba waferů s těmito tranzistory ale naráží na problém v podobě většího množství tenkých vrstev. Tato technologie umožňuje zmenšení kanálu na úroveň 5 až 9 nm. Na rozdíl od tranzistorů Intel Trigate, které se již vyrábějí, se však sériová výroba waferů s tranzistory FD-SOI očekává nejdříve v příštím roce.

Vyšší výpočetní výkon a úspornější provoz

Intel plánuje využít tranzistory Trigate i v levnějších procesorech. Od začátku roku 2013 by se tak měly objevit i v čipech Atom, kterými v té době budou osazovány tablety a smartphony. Současné procesory Atom mají příliš vysokou spotřebu, a proto také naprostá většina mobilních zařízení typu smartphone a tablet využívá procesory typu ARM. Nejnovější generace procesorů ARM je při stejném výpočetním výkonu úspornější. Důvod spočívá v samotné architektuře procesorů Intel x86, které jsou složitější a používají mnohem víc příkazů než čipy architektury ARM, které si vystačí s menším množstvím příkazů. Příkazová sada architektury x86 je rozsáhlá, což je pro typicky "počítačové" procesory výhoda, jelikož zajistí díky optimalizaci kódu, který dokáže najednou zpracovat několik operací, vyšší výpočetní výkon. Tato architektura je ale bohužel i energeticky náročnější. Architektura x86 používá různě dlouhé příkazy v rozsahu od jednoho až do 32 bitů. Ke zpracování těchto příkazů slouží hardwarový dekodér, který složité příkazy analyzuje před posunutím do paměti pomocí řady mikrooperací.
Standardní příkazy architektury ARM mají shodnou 32bitovou délku a každý příkaz je nahráván pomocí paměťového přístupu, a nepotřebuje tedy složitou strukturu pipeline. Pipeline pomáhá během jediného taktu simultánně zpracovávat několik suboperací. Čím více je pipeline zaplněna, tím rychleji zpracovává procesor programový kód. Jádro procesoru ARM Cortex-A9, který je nejčastěji využíván ve smartphonech a tabletech, používá jednoduchou osmiúrovňovou pipeline, která mu bohatě stačí. ARM kód lze totiž snadno a efektivně zpracovávat pomocí podmínkových příkazů "If...then" bez složitého větvení, takže jejich pipeline může být vždy naplněna. Procesory architektury x86 na druhou stranu nepracují s podmínkovými příkazy, ale s predikcí výsledků zpracovávaných operací. Predikcí výsledků se procesory x86 snaží urychlit výpočet a nabídnout tak správný výsledek okamžitě ve chvíli, kdy je to třeba. Pokud ale predikce selže a ani jeden z potenciálních výsledků není správný, musí procesor vyprázdnit celý obsah 16úrovňové pipeline a začít od začátku. Z toho důvodu by bylo praktické, kdyby procesory typu x86 dokázaly změnit pořadí příkazů tak, aby se vyhnuly zbytečnému čekání.
U procesorů Atom nevyužil Intel metodu zpracování instrukcí "Out-of-order", tedy zpracování instrukcí v jiném pořadí, než jsou uloženy v operační paměti, protože ta by vyžadovala osazení větší kapacitou vyrovnávací paměti pro uložení a volání zpracovávaných příkazů, což by si ale vyžádalo vyšší spotřebu a navíc by se zvýšily výrobní náklady procesorů. Intel čelil problému integrovat do procesorů Atom více fyzických jader, ale prozatím nabízí v této kategorii pouze "dvoujádrové" modely, tedy čipy s jedním fyzickým a jedním virtuálním jádrem. Nejmodernější procesory ARM Tegra2 zpracovávají instrukce způsobem out-of-order, a to ve dvou fyzických jádrech, což jim umožňuje pracovat s nižší spotřebou. Údaj zvaný TDP (Thermal Design Power) značí míru tepla vyzařovaného procesorem, se kterým musí designéři počítat při vývoji zařízení a umístění procesoru do jeho nitra. Nejnovější tabletové verze procesorů Intel Atom mají TDP na úrovni 5 wattů, zatímco Tegra2 si vystačí s 2W TDP. Tento rozdíl se po uvedení 32nm Atomů, plánovaném na konec roku 2011, vyrovná, protože 32nm Atomy budou poprvé na jedné křemíkové destičce sdružovat všechny komponenty, a budou tak konstruovány systémem System-on-Chip (SoC), stejně jako procesory ARM.

Smartphony stejně rychlé jako PC

I když se jejich výkon zvýšil, i nejnovější generace procesorů ARM má stále co dohánět. Očekává se, že na konci roku se na trhu objeví 40nm procesory se čtyřmi jádry, jako například Tegra 3. Kmitočet tohoto čipu vzroste z 1,0 GHz na 1,5 GHz a v porovnání s předchozí generací bude Tegra 3 zvládat přehrávat HD filmy kompatibilní s profilem Blu-ray. Zpracování těchto filmů bude zajišťovat vylepšení instrukční sady NEON, které má na starosti simultánní výpočty shodných operací s plovoucí čárkou s různými hodnotami. Tyto výpočty jsou ideální právě pro dekódování videa, takže Tegra 3 bude mít nižší spotřebu než Tegra 2. Kromě nové instrukční sady NEON bude procesor vybaven i výkonnější GPU, takže plocha čipu se zvýší ze 49 mm2 na 80 mm2 a usnadní tak jeho chlazení.
Další majitelé licencí na výrobu procesorů ARM, jako jsou Qualcomm nebo Texas Instruments, také plánují čipy se čtyřmi jádry, ale s jejich uvedením čekají na přechod k 28nm výrobnímu procesu. Jejich uvedení se očekává na podzim, přičemž první takový čip představí společnost TSMC. Zmenšení výrobního procesu umožní nárůst výkonu zařízení plánovaných na polovinu roku 2012. Přechod na 28 nm zvýší propustnost procesoru, což bude užitečné pro speciální úlohy, jako jsou dekódování videa nebo zpracování 3D obrazu.
28nm tranzistory nové generace procesorů Cortex A15 umožní práci až na frekvenci 2,5 GHz a rozšíření vyrovnávací L2 paměti, ke které budou přistupovat všechna čtyři jádra, z 1 MB na 4 MB. Propustnost, a tedy i rychlost komunikace jednotlivých částí čipu s pamětí bude zdvojnásobena na 128 bitů.
Procesorové jádro Cortex A15 však nebylo vyvinuto pouze pro použití v mobilních zařízeních. Díky 40bitovému adresování dokáže pracovat až s 1 TB paměti a podporuje práci s virtuálními systémy, což je vhodné hlavně pro osobní počítače a servery. Někteří výrobci licencovaných procesorů ARM, jako je například nVidia, již dnes plánují produkci osmijádrových ARM CPU. Doba výhradní kombinace procesorů Intel a operačního systému Windows končí, a to i v kategorii notebooků a stolních počítačů. Konkurenční boj mezi architekturami ARM a Intel ale přináší výhody hlavně uživatelům, kteří se mohou těšit na uvedení nové generace úsporných a rychlých zařízení, která přijdou na trh již v příštím roce. Tou dobou již bude uvedena i finální verze operačního systému Windows 8, který bude podporovat obě platformy.
AUTOR@CHIP.CZ


SROVNÁNÍ VÝKONU
Tranzistory typu Trigate pracují o 37 procent rychleji a při shodné rychlosti mají poloviční příkon.


Problém s výkonností: Malé tranzistory ztrácejí napětí a pracují pomaleji
Otevřený tranzistor umožňuje průchod elektrického proudu kanálem, čímž tvoří bit. Při vypnutí tranzistoru přestává proud probíhat. Malé tranzistory se nevypínají a čím jsou menší, tím více proudu ztrácí.
PROBLÉM: Prosakující proud
Elektrony by měly probíhat kanálem tranzistoru ve směru od emitoru ke kolektoru pouze v případě, že je k bráně přiváděno napětí. Elektrony však protékají i odpojenými tranzistory. Existují proto čtyři důvody:
1. DIBL*  Elektrické pole emitoru a kolektoru proniká do substrátu, čímž snižuje účinnost brány a proud může protékat.
2. Podprahové protékání  Elektrony se šíří od emitoru ke kolektoru.
3. Protékání brány  Elektrony prochází tenkou ochrannou vrstvou brány do substrátu.
4. Junction leakage  Elektrony protékají od kolektoru a emitoru do substrátu.
ŘEŠENÍ INTELU: Trigate
Kanál je vyvýšen nad substrát a brána tak může pracovat efektivněji.
3D efekt  Brána uzavírá kanál ze tří stran a zabraňuje nechtěnému protékání proudu.
ŘEŠENÍ AMD: Izolace
Kanál tranzistorů FD-SOI (Fully Depleted Silicon On Insulator) je od substrátu izolován pomocí oxidu křemíku.
Izolovaný kanál  Účinnost brány urychluje tok elektronů.
Ochranná vrstva  Zabraňuje protékání proudu od emitoru, kolektoru a brány do substrátu.


ARM versus Atom: souboj mobilních procesorů budoucnosti
Pohled na dva odlišné přístupy k mobilnímu procesorům. ARM Tegra 2 momentálně poráží Intel Atom N450. Procesory Atom budou schopny konkurovat úspornějším a rychlejším CPU ARM až po roce 2013.
ATOM: N450
Atom je větší a generuje víc odpadního tepla. Obsahuje pouze jedno fyzické jádro, grafickou část a vyrovnávací paměť. Je méně výkonný.
ARM: Tegra 2
Menší a úspornější čip se dvěma jádry, vyrovnávací pamětí a čtyřmi procesory pro speciální úlohy.
VLASTNOSTI: menší, rychlejší a s menší spotřebou
Nižší spotřeba (TDP) a architektura s efektivnějšími instrukcemi (šířka pipeline) umožňuje procesorům ARM pracovat rychleji. Procesory Atom v těchto ohledech zaostávají.

Architektura ARM pro rok 2012: Zdvojnásobení výkonu smartphonů a tabletů
Mobilní zařízení, která budou uvedena příští rok, budou mít více výpočetních jader a dostatečný výkon pro 3D zobrazení a náročné hry. Pohled na dva procesory Texas Instruments vysvětlí proč.
2011 2jádrový čip OMAP 4430
Tento procesor využívají nejnovější smartphony a tablety, jako je například BlackBerry PlayBook od společnosti RIM.

ARM Cortex-A9 MPCore|ARM Cortex-A9 MPCore|IVA-3-videoakcelerátor
PowerVR SGX540 3D grafický procesor    |Procesor pro zpracová¬ní signálu obrazu
Sdílený paměťový řadič / DMA
Řadič čítačů a přerušení|L1-Cache|L2-Cache
Bootování/bezpečná ROM|L3-Cache|L4-Cache
Bezpečnostní technologie M-Shield : SHA-1/MDS, DES/3DES, RNG, AES, PAKA, secure WDT, Keys

MPCore CPU  Jádro Cortex A15 má dvakrát vyšší frekvenci než jádro Cortex A9
Akcelerátor videa  Nový akcelerátor videa disponuje dvakrát vyšším výkonem, než jaký je třeba pro zpracování 3D Blu-ray videa
PowerVR GPU  Procesor SGX544 nabízí pětkrát vyšší výkon pro zpracování her než SGX540
L2-Cache  Kapacita rychlé interní paměti je zdvojnásobena na 1 MB

2012 čtyřjádrový čip OMAP 5430
Větší počet jader zvýší výpočetní výkon a speciální procesory sníží energetickou náročnost.

Dynamická správa paměti|ARM Cortex-M4|ARM Cortex-M4
ARM Cortex-A15 MPCore|ARM Cortex-A15 MPCore|PowerVR SGX544-MPX 3D-GPU|C64xDSP | Videoaktelerátor IVA 3 HD
|2D grafický procesor|rocesor pro zpraco¬vání signálu obrazu
Sdílený paměťový řadič / DMA
Řadič čítačů a přerušení, systémová DMA|Zvukový čip
Bootování / bezpečná ROM L3 cache|
Bezpečnostní technologie M-Shield: SHA-1 / SHA-2 / MD5, DES / 3DES, RNG, AES, PKA, secure WDT, Keys, Crypto DMA
L2-Cache|Multi-pipe Display Sub-System (DSS)1
L4-Cache|

M4-CPU  Úsporné CPU s omezenou instrukční sadou pro speciální úkoly
C64x DSP  Dekodér pro zpracování multimediálních souborů
2D grafický procesor  Hardwarový akcelerátor 2D grafiky
Multi-pipe DSS  Kombinuje a zpracovává grafický obsah a videoobsah z několika zdrojů


Foto: 2011 Tranzistor Pohled na kovové brány klasického tranzistoru pod elektronovým mikroskopem.
Foto: 2012 Trigate Nové tranzistory Intel Trigate mají kanál vyvýšený nad vrstvu křemíkového substrátu, čímž je dosaženo lepšího kontaktu brány.