Athlon 64 X2 CPU的核心主要有Manchester和Toledo兩種,他們的二級(jí)緩存都是CPU內(nèi)部?jī)蓚€(gè)內(nèi)核具有互相獨(dú)立的二級(jí)緩存,其中,Manchester核心為每核心512KB,而Toledo核心為每核心1MB。處理器內(nèi)部的兩個(gè)內(nèi)核之間的緩存數(shù)據(jù)同步是依靠CPU內(nèi)置的System Request Interface(系統(tǒng)請(qǐng)求接口,SRI)控制,傳輸在CPU內(nèi)部即可實(shí)現(xiàn)。這樣一來(lái),不但CPU資源占用很小,而且不必占用內(nèi)存總線資源,數(shù)據(jù)延遲也比Intel的Smithfield核心和Presler核心大為減少,協(xié)作效率明顯勝過(guò)這兩種核心。不過(guò),由于這種方式仍然是兩個(gè)內(nèi)核的緩存相互獨(dú)立,從架構(gòu)上來(lái)看也明顯不如以Yonah核心為代表的Intel的共享緩存技術(shù)Smart Cache。2100433B
Intel的雙核心CPU主要有Pentium D、Pentium EE、Core Duo三種,其中Pentium D、Pentium EE的二級(jí)緩存方式完全相同。Pentium D和Pentium EE的二級(jí)緩存都是CPU內(nèi)部?jī)蓚€(gè)內(nèi)核具有互相獨(dú)立的二級(jí)緩存,其中,8xx系列的Smithfield核心CPU為每核心1MB,而9xx系列的Presler核心CPU為每核心2MB。這種CPU內(nèi)部的兩個(gè)內(nèi)核之間的緩存數(shù)據(jù)同步是依靠位于主板北橋芯片上的仲裁單元通過(guò)前端總線在兩個(gè)核心之間傳輸來(lái)實(shí)現(xiàn)的,所以其數(shù)據(jù)延遲問(wèn)題比較嚴(yán)重,性能并不盡如人意。
Core Duo使用的核心為Yonah,它的二級(jí)緩存則是兩個(gè)核心共享2MB的二級(jí)緩存,共享式的二級(jí)緩存配合Intel的“Smart cache”共享緩存技術(shù),實(shí)現(xiàn)了真正意義上的緩存數(shù)據(jù)同步,大幅度降低了數(shù)據(jù)延遲,減少了對(duì)前端總線的占用,性能表現(xiàn)不錯(cuò),是雙核心處理器上最先進(jìn)的二級(jí)緩存架構(gòu)。今后Intel的雙核心處理器的二級(jí)緩存都會(huì)采用這種兩個(gè)內(nèi)核共享二級(jí)緩存的“Smart cache”共享緩存技術(shù)。
CPU在緩存中找到有用的數(shù)據(jù)被稱(chēng)為命中,當(dāng)緩存中沒(méi)有CPU所需的數(shù)據(jù)時(shí)(這時(shí)稱(chēng)為未命中),CPU才訪問(wèn)內(nèi)存。從理論上講,在一顆擁有二級(jí)緩存的CPU中,讀取一級(jí)緩存的命中率為80%。也就是說(shuō)CPU一級(jí)緩存中找到的有用數(shù)據(jù)占數(shù)據(jù)總量的80%,剩下的20%從二級(jí)緩存中讀取。由于不能準(zhǔn)確預(yù)測(cè)將要執(zhí)行的數(shù)據(jù),讀取二級(jí)緩存的命中率也在80%左右(從二級(jí)緩存讀到有用的數(shù)據(jù)占總數(shù)據(jù)的16%)。那么還有的數(shù)據(jù)就不得不從內(nèi)存調(diào)用,但這已經(jīng)是一個(gè)相當(dāng)小的比例了。較高端的CPU中,還會(huì)帶有三級(jí)緩存,它是為讀取二級(jí)緩存后未命中的數(shù)據(jù)設(shè)計(jì)的—種緩存,在擁有三級(jí)緩存的CPU中,只有約5%的數(shù)據(jù)需要從內(nèi)存中調(diào)用,這進(jìn)一步提高了CPU的效率。
為了保證CPU訪問(wèn)時(shí)有較高的命中率,緩存中的內(nèi)容應(yīng)該按一定的算法替換。一種較常用的算法是“最近最少使用算法”(LRU算法),它是將最近一段時(shí)間內(nèi)最少被訪問(wèn)過(guò)的行淘汰出局。因此需要為每行設(shè)置一個(gè)計(jì)數(shù)器,LRU算法是把命中行的計(jì)數(shù)器清零,其他各行計(jì)數(shù)器加1。當(dāng)需要替換時(shí)淘汰行計(jì)數(shù)器計(jì)數(shù)值最大的數(shù)據(jù)行出局。這是一種高效、科學(xué)的算法,其計(jì)數(shù)器清零過(guò)程可以把一些頻繁調(diào)用后再不需要的數(shù)據(jù)淘汰出緩存,提高緩存的利用率。
CPU產(chǎn)品中,一級(jí)緩存的容量基本在4KB到64KB之間,二級(jí)緩存的容量則分為128KB、256KB、512KB、1MB、2MB等。一級(jí)緩存容量各產(chǎn)品之間相差不大,而二級(jí)緩存容量則是提高CPU性能的關(guān)鍵。二級(jí)緩存容量的提升是由CPU制造工藝所決定的,容量增大必然導(dǎo)致CPU內(nèi)部晶體管數(shù)的增加,要在有限的CPU面積上集成更大的緩存,對(duì)制造工藝的要求也就越高。
雙核心CPU的二級(jí)緩存比較特殊,和以前的單核心CPU相比,最重要的就是兩個(gè)內(nèi)核的緩存所保存的數(shù)據(jù)要保持一致,否則就會(huì)出現(xiàn)錯(cuò)誤,為了解決這個(gè)問(wèn)題不同的CPU使用了不同的辦法:
完全可以
二級(jí)緩存并不是越大越好,假如我們將CPU比作1個(gè)工廠,那CPU核心就是生產(chǎn)車(chē)間,緩存就是原料和半成品倉(cāng)庫(kù),當(dāng)生產(chǎn)需時(shí),原料先從近來(lái)的一級(jí)緩存中尋找,當(dāng)找不到時(shí)再到二級(jí)緩存中找。而內(nèi)存就可能原料產(chǎn)地,直...
今天介紹的是一種軟超法,就是利用軟件超頻,優(yōu)點(diǎn)是 AMD官方出品,品質(zhì)有保障,比較安全,不會(huì)因?yàn)轭l率一下超高了,導(dǎo)致電腦不能開(kāi)啟,缺點(diǎn)是,每次開(kāi)機(jī)都需要從新設(shè)置一下 2第一步,...
最早先的CPU緩存是個(gè)整體的,而且容量很低,英特爾公司從Pentium時(shí)代開(kāi)始把緩存進(jìn)行了分類(lèi)。當(dāng)時(shí)集成在CPU內(nèi)核中的緩存已不足以滿(mǎn)足CPU的需求,而制造工藝上的限制又不能大幅度提高緩存的容量。因此出現(xiàn)了集成在與CPU同一塊電路板上或主板上的緩存,此時(shí)就把 CPU內(nèi)核集成的緩存稱(chēng)為一級(jí)緩存,而外部的稱(chēng)為二級(jí)緩存。一級(jí)緩存中還分?jǐn)?shù)據(jù)緩存(Data Cache,D-Cache)和指令緩存(Instruction Cache,I-Cache)。二者分別用來(lái)存放數(shù)據(jù)和執(zhí)行這些數(shù)據(jù)的指令,而且兩者可以同時(shí)被CPU訪問(wèn),減少了爭(zhēng)用Cache所造成的沖突,提高了處理器效能。英特爾公司在推出Pentium 4處理器時(shí),用新增的一種一級(jí)追蹤緩存替代指令緩存,容量為12KμO(píng)ps,表示能存儲(chǔ)12K條微指令。
隨著CPU制造工藝的發(fā)展,二級(jí)緩存也能輕易的集成在CPU內(nèi)核中,容量也在逐年提升。再用集成在CPU內(nèi)部與否來(lái)定義一、二級(jí)緩存,已不確切。而且隨著二級(jí)緩存被集成入CPU內(nèi)核中,以往二級(jí)緩存與CPU大差距分頻的情況也被改變,此時(shí)其以相同于主頻的速度工作,可以為CPU提供更高的傳輸速度。
當(dāng)CPU要讀取一個(gè)數(shù)據(jù)時(shí),首先從緩存中查找,如果找到就立即讀取并送給CPU處理;如果沒(méi)有找到,就用相對(duì)慢的速度從內(nèi)存中讀取并送給CPU處理,同時(shí)把這個(gè)數(shù)據(jù)所在的數(shù)據(jù)塊調(diào)入緩存中,可以使得以后對(duì)整塊數(shù)據(jù)的讀取都從緩存中進(jìn)行,不必再調(diào)用內(nèi)存。
正是這樣的讀取機(jī)制使CPU讀取緩存的命中率非常高(大多數(shù)CPU可達(dá)90%左右),也就是說(shuō)CPU下一次要讀取的數(shù)據(jù)90%都在緩存中,只有大約10%需要從內(nèi)存讀取。這大大節(jié)省了CPU直接讀取內(nèi)存的時(shí)間,也使CPU讀取數(shù)據(jù)時(shí)基本無(wú)需等待??偟膩?lái)說(shuō),CPU讀取數(shù)據(jù)的順序是先緩存后內(nèi)存。
CPU緩存(Cache Memory)位于CPU與內(nèi)存之間的臨時(shí)存儲(chǔ)器,它的容量比內(nèi)存小但交換速度快。在緩存中的數(shù)據(jù)是內(nèi)存中的一小部分,但這一小部分是短時(shí)間內(nèi)CPU即將訪問(wèn)的,當(dāng)CPU調(diào)用大量數(shù)據(jù)時(shí),就可避開(kāi)內(nèi)存直接從緩存中調(diào)用,從而加快讀取速度。由此可見(jiàn),在CPU中加入緩存是一種高效的解決方案,這樣整個(gè)內(nèi)存儲(chǔ)器(緩存 內(nèi)存)就變成了既有緩存的高速度,又有內(nèi)存的大容量的存儲(chǔ)系統(tǒng)了。緩存對(duì)CPU的性能影響很大,主要是因?yàn)镃PU的數(shù)據(jù)交換順序和CPU與緩存間的帶寬引起的。
L1和L2都是計(jì)算機(jī)中緩存(cache memory)的等級(jí)。如果計(jì)算機(jī)的處理器可以在緩存中找到他下個(gè)運(yùn)算所需的數(shù)據(jù),它將省去了到隨機(jī)存儲(chǔ)器(RAM)中尋找這個(gè)數(shù)據(jù)的時(shí)間。L1是一級(jí)緩存,通常內(nèi)建于微處理芯片(Chip)中。比如,IntelMMX微處理器(microprocessor)本身是帶有一個(gè)有32Kb的一級(jí)緩存。
L2(就是二級(jí))緩存是在獨(dú)立芯片(有可能是在一個(gè)擴(kuò)展卡上),它的訪問(wèn)速度能比大的主存要快得多。通常一個(gè)二級(jí)緩存的大小為1024Kb(1Mb)。
格式:pdf
大?。?span id="9jvpjhs" class="single-tag-height">702KB
頁(yè)數(shù): 2頁(yè)
評(píng)分: 4.4
首款基于推土機(jī)架構(gòu)的AMDFX處理器擁有8個(gè)核心。 如果我們仔細(xì)觀察處理器的架構(gòu)可以發(fā)現(xiàn),這些核心由一系列模塊組成,并共享資源.比如前端數(shù)據(jù)處理單元和浮點(diǎn)運(yùn)算單元。
格式:pdf
大小:702KB
頁(yè)數(shù): 6頁(yè)
評(píng)分: 4.4
流水線結(jié)構(gòu)能大幅提高指令執(zhí)行速度,但是由于主存讀取速度過(guò)慢,系統(tǒng)性能的提升仍然受到限制?,F(xiàn)實(shí)現(xiàn)的Cache設(shè)計(jì),是流水線與主存間的高速緩沖器,它能有效地解決訪存的瓶頸問(wèn)題,使流水線功能得到充分發(fā)揮。文章首先分析流水線的結(jié)構(gòu)特點(diǎn),確定Cache的結(jié)構(gòu)功能,在此基礎(chǔ)上提出一個(gè)組相聯(lián)映射Cache的設(shè)計(jì)。分析Cache實(shí)現(xiàn)讀寫(xiě)操作的具體控制過(guò)程,并給出LRU(least recently used)替換算法的實(shí)現(xiàn)。最后通過(guò)介紹猝發(fā)取指操作著重討論了Cache與流水線間的配合機(jī)制。
CPU在Cache中找到有用的數(shù)據(jù)被稱(chēng)為命中,當(dāng)Cache中沒(méi)有CPU所需的數(shù)據(jù)時(shí)(這時(shí)稱(chēng)為未命中),CPU才訪問(wèn)內(nèi)存。從理論上講,在一顆擁有2級(jí)Cache的CPU中,讀取L1Cache的命中率為80%。也就是說(shuō)CPU從L1Cache中找到的有用數(shù)據(jù)占數(shù)據(jù)總量的80%,剩下的20%從L2Cache讀取。由于不能準(zhǔn)確預(yù)測(cè)將要執(zhí)行的數(shù)據(jù),讀取L2的命中率也在80%左右(從L2讀到有用的數(shù)據(jù)占總數(shù)據(jù)的16%)。那么還有的數(shù)據(jù)就不得不從內(nèi)存調(diào)用,但這已經(jīng)是一個(gè)相當(dāng)小的比例了。在一些高端領(lǐng)域的CPU中,我們常聽(tīng)到L3Cache,它是為讀取L2Cache后未命中的數(shù)據(jù)設(shè)計(jì)的-種Cache,在擁有L3Cache的CPU中,只有約5%的數(shù)據(jù)需要從內(nèi)存中調(diào)用,這進(jìn)一步提高了CPU的效率。
為了保證CPU訪問(wèn)時(shí)有較高的命中率,Cache中的內(nèi)容應(yīng)該按一定的算法替換。一種較常用的算法是"最近最少使用算法"(LRU算法),它是將最近一段時(shí)間內(nèi)最少被訪問(wèn)過(guò)的行淘汰出局。因此需要為每行設(shè)置一個(gè)計(jì)數(shù)器,LRU算法是把命中行的計(jì)數(shù)器清零,其他各行計(jì)數(shù)器加1。當(dāng)需要替換時(shí)淘汰行計(jì)數(shù)器計(jì)數(shù)值最大的數(shù)據(jù)行出局。這是一種高效、科學(xué)的算法,其計(jì)數(shù)器清零過(guò)程可以把一些頻繁調(diào)用后再不需要的數(shù)據(jù)淘汰出Cache,提高Cache的利用率。
Cache的替換算法對(duì)命中率的影響。 當(dāng)新的主存塊需要調(diào)入Cache并且它的可用空間位置又被占滿(mǎn)時(shí),需要替換掉Cache的數(shù)據(jù),這就產(chǎn)生了替換策略(算法)問(wèn)題。根據(jù)程序局部性規(guī)律可知:程序在運(yùn)行中,總是頻繁地使用那些最近被使用過(guò)的指令和數(shù)據(jù)。這就提供了替換策略的理論依據(jù)。 替換算法目標(biāo)就是使Cache獲得最高的命中率。Cache替換算法是影響代理緩存系統(tǒng)性能的一個(gè)重要因素,一個(gè)好的Cache替換算法可以產(chǎn)生較高的命中率。常用算法如下:
(1)隨機(jī)法(RAND法) 隨機(jī)替換算法就是用隨機(jī)數(shù)發(fā)生器產(chǎn)生一個(gè)要替換的塊號(hào),將該塊替換出去,此算法簡(jiǎn)單、易于實(shí)現(xiàn),而且它不考慮Cache塊過(guò)去、現(xiàn)在及將來(lái)的使用情況,但是沒(méi)有利用上層存儲(chǔ)器使用的"歷史信息"、沒(méi)有根據(jù)訪存的局部性原理,故不能提高Cache的命中率,命中率較低。
(2)先進(jìn)先出法(FIFO法) 先進(jìn)先出(First-In-First-Out,F(xiàn)IFO)算法。就是將最先進(jìn)入Cache的信息塊替換出去。FIFO算法按調(diào)入Cache的先后決定淘汰的順序,選擇最早調(diào)入Cache的字塊進(jìn)行替換,它不需要記錄各字塊的使用情況,比較容易實(shí)現(xiàn),系統(tǒng)開(kāi)銷(xiāo)小,其缺點(diǎn)是可能會(huì)把一些需要經(jīng)常使用的程序塊(如循環(huán)程序)也作為最早進(jìn)入Cache的塊替換掉,而且沒(méi)有根據(jù)訪存的局部性原理,故不能提高Cache的命中率。因?yàn)樽钤缯{(diào)入的信息可能以后還要用到,或者經(jīng)常要用到,如循環(huán)程序。此法簡(jiǎn)單、方便,利用了主存的"歷史信息", 但并不能說(shuō)最先進(jìn)入的就不經(jīng)常使用,其缺點(diǎn)是不能正確反映程序局部性原理,命中率不高,可能出現(xiàn)一種異常現(xiàn)象。
(3)近期最少使用法(LRU法) 近期最少使用(Least Recently Used,LRU)算法。這種方法是將近期最少使用的Cache中的信息塊替換出去。該算法較先進(jìn)先出算法要好一些。但此法也不能保證過(guò)去不常用將來(lái)也不常用。 LRU法是依據(jù)各塊使用的情況,總是選擇那個(gè)最近最少使用的塊被替換。這種方法雖然比較好地反映了程序局部性規(guī)律,但是這種替換方法需要隨時(shí)記錄Cache中各塊的使用情況,以便確定哪個(gè)塊是近期最少使用的塊。LRU算法相對(duì)合理,但實(shí)現(xiàn)起來(lái)比較復(fù)雜,系統(tǒng)開(kāi)銷(xiāo)較大。通常需要對(duì)每一塊設(shè)置一個(gè)稱(chēng)為計(jì)數(shù)器的硬件或軟件模塊,用以記錄其被使用的情況。