最早先的CPU緩存是個(gè)整體的,而且容量很低,英特爾公司從Pentium時(shí)代開始把緩存進(jìn)行了分類。當(dāng)時(shí)集成在CPU內(nèi)核中的緩存已不足以滿足CPU的需求,而制造工藝上的限制又不能大幅度提高緩存的容量。因此出現(xiàn)了集成在與CPU同一塊電路板上或主板上的緩存,此時(shí)就把 CPU內(nèi)核集成的緩存稱為一級(jí)緩存,而外部的稱為二級(jí)緩存。一級(jí)緩存中還分?jǐn)?shù)據(jù)緩存(Data Cache,D-Cache)和指令緩存(Instruction Cache,I-Cache)。二者分別用來(lái)存放數(shù)據(jù)和執(zhí)行這些數(shù)據(jù)的指令,而且兩者可以同時(shí)被CPU訪問(wèn),減少了爭(zhēng)用Cache所造成的沖突,提高了處理器效能。英特爾公司在推出Pentium 4處理器時(shí),用新增的一種一級(jí)追蹤緩存替代指令緩存,容量為12KμOps,表示能存儲(chǔ)12K條微指令。
隨著CPU制造工藝的發(fā)展,二級(jí)緩存也能輕易的集成在CPU內(nèi)核中,容量也在逐年提升。再用集成在CPU內(nèi)部與否來(lái)定義一、二級(jí)緩存,已不確切。而且隨著二級(jí)緩存被集成入CPU內(nèi)核中,以往二級(jí)緩存與CPU大差距分頻的情況也被改變,此時(shí)其以相同于主頻的速度工作,可以為CPU提供更高的傳輸速度。
當(dāng)CPU要讀取一個(gè)數(shù)據(jù)時(shí),首先從緩存中查找,如果找到就立即讀取并送給CPU處理;如果沒(méi)有找到,就用相對(duì)慢的速度從內(nèi)存中讀取并送給CPU處理,同時(shí)把這個(gè)數(shù)據(jù)所在的數(shù)據(jù)塊調(diào)入緩存中,可以使得以后對(duì)整塊數(shù)據(jù)的讀取都從緩存中進(jìn)行,不必再調(diào)用內(nèi)存。
正是這樣的讀取機(jī)制使CPU讀取緩存的命中率非常高(大多數(shù)CPU可達(dá)90%左右),也就是說(shuō)CPU下一次要讀取的數(shù)據(jù)90%都在緩存中,只有大約10%需要從內(nèi)存讀取。這大大節(jié)省了CPU直接讀取內(nèi)存的時(shí)間,也使CPU讀取數(shù)據(jù)時(shí)基本無(wú)需等待??偟膩?lái)說(shuō),CPU讀取數(shù)據(jù)的順序是先緩存后內(nèi)存。
CPU緩存(Cache Memory)位于CPU與內(nèi)存之間的臨時(shí)存儲(chǔ)器,它的容量比內(nèi)存小但交換速度快。在緩存中的數(shù)據(jù)是內(nèi)存中的一小部分,但這一小部分是短時(shí)間內(nèi)CPU即將訪問(wèn)的,當(dāng)CPU調(diào)用大量數(shù)據(jù)時(shí),就可避開內(nèi)存直接從緩存中調(diào)用,從而加快讀取速度。由此可見,在CPU中加入緩存是一種高效的解決方案,這樣整個(gè)內(nèi)存儲(chǔ)器(緩存 內(nèi)存)就變成了既有緩存的高速度,又有內(nèi)存的大容量的存儲(chǔ)系統(tǒng)了。緩存對(duì)CPU的性能影響很大,主要是因?yàn)镃PU的數(shù)據(jù)交換順序和CPU與緩存間的帶寬引起的。
cache 是什么意思 它包括的L1,L2,L3分別是什么東西?
CPU緩存緩存大小也是CPU的重要指標(biāo)之一,而且緩存的結(jié)構(gòu)和大小對(duì)CPU速度的影響非常大,CPU內(nèi)緩存的運(yùn)行頻率極高,一般是和處理器同頻運(yùn)作,工作效率遠(yuǎn)遠(yuǎn)大于系統(tǒng)內(nèi)存和硬盤。實(shí)際工作時(shí),CPU往往需要...
L1 Cache(一級(jí)緩存)是CPU第一層高速緩存,分為數(shù)據(jù)緩存和指令緩存。內(nèi)置的L1高速緩存的容量和結(jié)構(gòu)對(duì)CPU的性能影響較大,不過(guò)高速緩沖存儲(chǔ)器均由靜態(tài)RAM組成,結(jié)構(gòu)較復(fù)雜,在CPU管芯面積不能...
ache,一般指高速緩沖存儲(chǔ)器。高速緩沖存儲(chǔ)器(Cache)其原始意義是指存取速度比一般隨機(jī)存取記憶體(RAM)來(lái)得快的一種RAM,一般而言它不像系統(tǒng)主記憶體那樣使用DRAM技術(shù),而使用昂貴但較快速的...
L1和L2都是計(jì)算機(jī)中緩存(cache memory)的等級(jí)。如果計(jì)算機(jī)的處理器可以在緩存中找到他下個(gè)運(yùn)算所需的數(shù)據(jù),它將省去了到隨機(jī)存儲(chǔ)器(RAM)中尋找這個(gè)數(shù)據(jù)的時(shí)間。L1是一級(jí)緩存,通常內(nèi)建于微處理芯片(Chip)中。比如,IntelMMX微處理器(microprocessor)本身是帶有一個(gè)有32Kb的一級(jí)緩存。
L2(就是二級(jí))緩存是在獨(dú)立芯片(有可能是在一個(gè)擴(kuò)展卡上),它的訪問(wèn)速度能比大的主存要快得多。通常一個(gè)二級(jí)緩存的大小為1024Kb(1Mb)。
CPU在緩存中找到有用的數(shù)據(jù)被稱為命中,當(dāng)緩存中沒(méi)有CPU所需的數(shù)據(jù)時(shí)(這時(shí)稱為未命中),CPU才訪問(wèn)內(nèi)存。從理論上講,在一顆擁有二級(jí)緩存的CPU中,讀取一級(jí)緩存的命中率為80%。也就是說(shuō)CPU一級(jí)緩存中找到的有用數(shù)據(jù)占數(shù)據(jù)總量的80%,剩下的20%從二級(jí)緩存中讀取。由于不能準(zhǔn)確預(yù)測(cè)將要執(zhí)行的數(shù)據(jù),讀取二級(jí)緩存的命中率也在80%左右(從二級(jí)緩存讀到有用的數(shù)據(jù)占總數(shù)據(jù)的16%)。那么還有的數(shù)據(jù)就不得不從內(nèi)存調(diào)用,但這已經(jīng)是一個(gè)相當(dāng)小的比例了。較高端的CPU中,還會(huì)帶有三級(jí)緩存,它是為讀取二級(jí)緩存后未命中的數(shù)據(jù)設(shè)計(jì)的—種緩存,在擁有三級(jí)緩存的CPU中,只有約5%的數(shù)據(jù)需要從內(nèi)存中調(diào)用,這進(jìn)一步提高了CPU的效率。
為了保證CPU訪問(wèn)時(shí)有較高的命中率,緩存中的內(nèi)容應(yīng)該按一定的算法替換。一種較常用的算法是“最近最少使用算法”(LRU算法),它是將最近一段時(shí)間內(nèi)最少被訪問(wèn)過(guò)的行淘汰出局。因此需要為每行設(shè)置一個(gè)計(jì)數(shù)器,LRU算法是把命中行的計(jì)數(shù)器清零,其他各行計(jì)數(shù)器加1。當(dāng)需要替換時(shí)淘汰行計(jì)數(shù)器計(jì)數(shù)值最大的數(shù)據(jù)行出局。這是一種高效、科學(xué)的算法,其計(jì)數(shù)器清零過(guò)程可以把一些頻繁調(diào)用后再不需要的數(shù)據(jù)淘汰出緩存,提高緩存的利用率。
CPU產(chǎn)品中,一級(jí)緩存的容量基本在4KB到64KB之間,二級(jí)緩存的容量則分為128KB、256KB、512KB、1MB、2MB等。一級(jí)緩存容量各產(chǎn)品之間相差不大,而二級(jí)緩存容量則是提高CPU性能的關(guān)鍵。二級(jí)緩存容量的提升是由CPU制造工藝所決定的,容量增大必然導(dǎo)致CPU內(nèi)部晶體管數(shù)的增加,要在有限的CPU面積上集成更大的緩存,對(duì)制造工藝的要求也就越高。
雙核心CPU的二級(jí)緩存比較特殊,和以前的單核心CPU相比,最重要的就是兩個(gè)內(nèi)核的緩存所保存的數(shù)據(jù)要保持一致,否則就會(huì)出現(xiàn)錯(cuò)誤,為了解決這個(gè)問(wèn)題不同的CPU使用了不同的辦法:
Intel的雙核心CPU主要有Pentium D、Pentium EE、Core Duo三種,其中Pentium D、Pentium EE的二級(jí)緩存方式完全相同。Pentium D和Pentium EE的二級(jí)緩存都是CPU內(nèi)部?jī)蓚€(gè)內(nèi)核具有互相獨(dú)立的二級(jí)緩存,其中,8xx系列的Smithfield核心CPU為每核心1MB,而9xx系列的Presler核心CPU為每核心2MB。這種CPU內(nèi)部的兩個(gè)內(nèi)核之間的緩存數(shù)據(jù)同步是依靠位于主板北橋芯片上的仲裁單元通過(guò)前端總線在兩個(gè)核心之間傳輸來(lái)實(shí)現(xiàn)的,所以其數(shù)據(jù)延遲問(wèn)題比較嚴(yán)重,性能并不盡如人意。
Core Duo使用的核心為Yonah,它的二級(jí)緩存則是兩個(gè)核心共享2MB的二級(jí)緩存,共享式的二級(jí)緩存配合Intel的“Smart cache”共享緩存技術(shù),實(shí)現(xiàn)了真正意義上的緩存數(shù)據(jù)同步,大幅度降低了數(shù)據(jù)延遲,減少了對(duì)前端總線的占用,性能表現(xiàn)不錯(cuò),是雙核心處理器上最先進(jìn)的二級(jí)緩存架構(gòu)。今后Intel的雙核心處理器的二級(jí)緩存都會(huì)采用這種兩個(gè)內(nèi)核共享二級(jí)緩存的“Smart cache”共享緩存技術(shù)。
Athlon 64 X2 CPU的核心主要有Manchester和Toledo兩種,他們的二級(jí)緩存都是CPU內(nèi)部?jī)蓚€(gè)內(nèi)核具有互相獨(dú)立的二級(jí)緩存,其中,Manchester核心為每核心512KB,而Toledo核心為每核心1MB。處理器內(nèi)部的兩個(gè)內(nèi)核之間的緩存數(shù)據(jù)同步是依靠CPU內(nèi)置的System Request Interface(系統(tǒng)請(qǐng)求接口,SRI)控制,傳輸在CPU內(nèi)部即可實(shí)現(xiàn)。這樣一來(lái),不但CPU資源占用很小,而且不必占用內(nèi)存總線資源,數(shù)據(jù)延遲也比Intel的Smithfield核心和Presler核心大為減少,協(xié)作效率明顯勝過(guò)這兩種核心。不過(guò),由于這種方式仍然是兩個(gè)內(nèi)核的緩存相互獨(dú)立,從架構(gòu)上來(lái)看也明顯不如以Yonah核心為代表的Intel的共享緩存技術(shù)Smart Cache。2100433B
格式:pdf
大?。?span id="snvf32k" class="single-tag-height">593KB
頁(yè)數(shù): 5頁(yè)
評(píng)分: 4.6
CACHE是連接CPU與內(nèi)存的一種高速緩沖存儲(chǔ)器,用于提高系統(tǒng)的讀寫性能。本文中的CACHE正是借用了這個(gè)名詞,而非真正的CACHE,用內(nèi)存模擬CACHE來(lái)實(shí)現(xiàn)高速的數(shù)據(jù)緩沖。
格式:pdf
大小:593KB
頁(yè)數(shù): 6頁(yè)
評(píng)分: 4.4
流水線結(jié)構(gòu)能大幅提高指令執(zhí)行速度,但是由于主存讀取速度過(guò)慢,系統(tǒng)性能的提升仍然受到限制?,F(xiàn)實(shí)現(xiàn)的Cache設(shè)計(jì),是流水線與主存間的高速緩沖器,它能有效地解決訪存的瓶頸問(wèn)題,使流水線功能得到充分發(fā)揮。文章首先分析流水線的結(jié)構(gòu)特點(diǎn),確定Cache的結(jié)構(gòu)功能,在此基礎(chǔ)上提出一個(gè)組相聯(lián)映射Cache的設(shè)計(jì)。分析Cache實(shí)現(xiàn)讀寫操作的具體控制過(guò)程,并給出LRU(least recently used)替換算法的實(shí)現(xiàn)。最后通過(guò)介紹猝發(fā)取指操作著重討論了Cache與流水線間的配合機(jī)制。
CPU在Cache中找到有用的數(shù)據(jù)被稱為命中,當(dāng)Cache中沒(méi)有CPU所需的數(shù)據(jù)時(shí)(這時(shí)稱為未命中),CPU才訪問(wèn)內(nèi)存。從理論上講,在一顆擁有2級(jí)Cache的CPU中,讀取L1Cache的命中率為80%。也就是說(shuō)CPU從L1Cache中找到的有用數(shù)據(jù)占數(shù)據(jù)總量的80%,剩下的20%從L2Cache讀取。由于不能準(zhǔn)確預(yù)測(cè)將要執(zhí)行的數(shù)據(jù),讀取L2的命中率也在80%左右(從L2讀到有用的數(shù)據(jù)占總數(shù)據(jù)的16%)。那么還有的數(shù)據(jù)就不得不從內(nèi)存調(diào)用,但這已經(jīng)是一個(gè)相當(dāng)小的比例了。在一些高端領(lǐng)域的CPU中,我們常聽到L3Cache,它是為讀取L2Cache后未命中的數(shù)據(jù)設(shè)計(jì)的-種Cache,在擁有L3Cache的CPU中,只有約5%的數(shù)據(jù)需要從內(nèi)存中調(diào)用,這進(jìn)一步提高了CPU的效率。
為了保證CPU訪問(wèn)時(shí)有較高的命中率,Cache中的內(nèi)容應(yīng)該按一定的算法替換。一種較常用的算法是"最近最少使用算法"(LRU算法),它是將最近一段時(shí)間內(nèi)最少被訪問(wèn)過(guò)的行淘汰出局。因此需要為每行設(shè)置一個(gè)計(jì)數(shù)器,LRU算法是把命中行的計(jì)數(shù)器清零,其他各行計(jì)數(shù)器加1。當(dāng)需要替換時(shí)淘汰行計(jì)數(shù)器計(jì)數(shù)值最大的數(shù)據(jù)行出局。這是一種高效、科學(xué)的算法,其計(jì)數(shù)器清零過(guò)程可以把一些頻繁調(diào)用后再不需要的數(shù)據(jù)淘汰出Cache,提高Cache的利用率。
Cache的替換算法對(duì)命中率的影響。 當(dāng)新的主存塊需要調(diào)入Cache并且它的可用空間位置又被占滿時(shí),需要替換掉Cache的數(shù)據(jù),這就產(chǎn)生了替換策略(算法)問(wèn)題。根據(jù)程序局部性規(guī)律可知:程序在運(yùn)行中,總是頻繁地使用那些最近被使用過(guò)的指令和數(shù)據(jù)。這就提供了替換策略的理論依據(jù)。 替換算法目標(biāo)就是使Cache獲得最高的命中率。Cache替換算法是影響代理緩存系統(tǒng)性能的一個(gè)重要因素,一個(gè)好的Cache替換算法可以產(chǎn)生較高的命中率。常用算法如下:
(1)隨機(jī)法(RAND法) 隨機(jī)替換算法就是用隨機(jī)數(shù)發(fā)生器產(chǎn)生一個(gè)要替換的塊號(hào),將該塊替換出去,此算法簡(jiǎn)單、易于實(shí)現(xiàn),而且它不考慮Cache塊過(guò)去、現(xiàn)在及將來(lái)的使用情況,但是沒(méi)有利用上層存儲(chǔ)器使用的"歷史信息"、沒(méi)有根據(jù)訪存的局部性原理,故不能提高Cache的命中率,命中率較低。
(2)先進(jìn)先出法(FIFO法) 先進(jìn)先出(First-In-First-Out,F(xiàn)IFO)算法。就是將最先進(jìn)入Cache的信息塊替換出去。FIFO算法按調(diào)入Cache的先后決定淘汰的順序,選擇最早調(diào)入Cache的字塊進(jìn)行替換,它不需要記錄各字塊的使用情況,比較容易實(shí)現(xiàn),系統(tǒng)開銷小,其缺點(diǎn)是可能會(huì)把一些需要經(jīng)常使用的程序塊(如循環(huán)程序)也作為最早進(jìn)入Cache的塊替換掉,而且沒(méi)有根據(jù)訪存的局部性原理,故不能提高Cache的命中率。因?yàn)樽钤缯{(diào)入的信息可能以后還要用到,或者經(jīng)常要用到,如循環(huán)程序。此法簡(jiǎn)單、方便,利用了主存的"歷史信息", 但并不能說(shuō)最先進(jìn)入的就不經(jīng)常使用,其缺點(diǎn)是不能正確反映程序局部性原理,命中率不高,可能出現(xiàn)一種異常現(xiàn)象。
(3)近期最少使用法(LRU法) 近期最少使用(Least Recently Used,LRU)算法。這種方法是將近期最少使用的Cache中的信息塊替換出去。該算法較先進(jìn)先出算法要好一些。但此法也不能保證過(guò)去不常用將來(lái)也不常用。 LRU法是依據(jù)各塊使用的情況,總是選擇那個(gè)最近最少使用的塊被替換。這種方法雖然比較好地反映了程序局部性規(guī)律,但是這種替換方法需要隨時(shí)記錄Cache中各塊的使用情況,以便確定哪個(gè)塊是近期最少使用的塊。LRU算法相對(duì)合理,但實(shí)現(xiàn)起來(lái)比較復(fù)雜,系統(tǒng)開銷較大。通常需要對(duì)每一塊設(shè)置一個(gè)稱為計(jì)數(shù)器的硬件或軟件模塊,用以記錄其被使用的情況。