色婷婷av一区二区三区之红樱桃,三年中国片在线高清观看 ,欧美大屁股xxxx,日本大片在线看黄a∨免费,欧洲熟妇xxxxx欧洲少妇hd

Tegra4 GPU分析測試——末代GeForce ULP給力否

高通吧 ?

?

閱讀

  感謝文章作者ioncannon,該文章僅代表作者觀點,不代表安兔兔官方態(tài)度。

  首先介紹下架構(gòu):

  簡單看,T4的GPU在shader上,是Tegra3的6倍擴充,依舊采用分離的shader渲染架構(gòu),并且vertex shader和pixel shader數(shù)目保持在1:2。總的來說,就是6個VLIW4 (128bit) 頂點ALU,加上12個VLIW4(80bit)像素ALU單元。但是pixel shader部分的ALU組織采用了3-deep的形式,這個3-deep具體會咋樣,我們看下面的測試。

  

 

  

 

  

 

  算是頻率的提升,T4相比T3,shader性能達到了原來的8倍。像素和紋理填充率是原來的2.6倍。三角形生產(chǎn)率的部分則完全來自頻率提升的貢獻。T4i的話,規(guī)格上進一步縮水,并且VS和PS比例也不再是1:2了

  

 

  

 

  老黃偷偷把對比的T3換成了416MHz的版本。包括pixel fillrate和texel fillrate的部分,全部來自頻率提升的貢獻。

  

 

  shader性能看上去還是挺高

  實測的像素填充率、紋理填充率和三角形生成率

  

 

  

 

  填充率方面,相比T3的提升還是很明顯的,但是考慮到頻率優(yōu)勢,全部歸一化到500MHz時,可以發(fā)現(xiàn)T4在像素和紋理填充率方面,基本是T3的2倍。當(dāng)然,在像素填充率的測試中,Adreno 320確實能到3000M,接近3200M的理論值

  但Adreno 320的紋理填充率,實測只有像素填充率的一半,比T4和高頻Mali-400 MP4都低!雖然官方說紋理填充率也是3200M(每周期8個像素或者紋理),但估計有問題。個人感覺320的render backend確實能輸出8像素/周期,但TMU還是只有4個。

  

 

  三角形生成率測試:

  請注意,三角形的setup性能跟vertex shader并沒有直接關(guān)系……

  

 

  盡管T4的vertex shader比起T3擴充了6倍,但三角形生成的能力,在同頻下是一樣的。當(dāng)然我們可以看到,Mali-400是很弱的,即使跑600MHz,三角形生成率實際也只有10M——對于一個每幀畫面0.6M頂點的跑分測試,Mali是無論如何都到不了20FPS的——在頂點成為瓶頸的時候,720p onscreen和1080p offscreen就無所謂了—— 這就是GLbenchamrk 2.5/2.7里的現(xiàn)象。

  Vertex shader性能測試

  以下測試為 每個頂點4、8、16 ... 128個Vec4計算

  測試頂點輸出數(shù)量,單位為M

  

 

 

 

 

  

 

  很明顯,T4同頻是頂點shader性能是T3的6倍——還是很強勁的,至于Mali-400,同頻下的vertex shader性能只有Tegra3的一半:既然T3的頂點是1個vec4, 那我們只能認(rèn)為,Mali-400的GP的頂點ALU,是個vec2的(64bit)。所以Anandtech是對的Mali的像素部分是vec4,而頂點部分只有vec2。

  注意T4和Adreno 320曲線前面的平臺,是因為Vertex shader的計算能力超出了三角形生成率,所以在計算量比較小的時候,基本是由三角形生成率來決定到底能輸出多少三角形。只有當(dāng)計算量較大時,vertex shader計算才會成為三角形輸出的瓶頸

  當(dāng)然,Mali-400無論是三角形生成率,還是vertex shader計算能力,都很弱!

  Fragment shader計算能力

  每個pixel使用1、2、3、...128的Vec4 計算,計算量逐漸增加,精度為FP16 (mediump)

  Adreno 320還使用了highp精度(FP32)

  而Tegra、Mali-400都不支持FP32, 所以不測試(用FP32測試會發(fā)現(xiàn)不管計算量多大,輸出都是最大值——完全沒算!

  

 

  

 

  畫成對數(shù)坐標(biāo)后容易看

  

 

  很神奇的是,Tegra4 在1-3個vec4計算/像素,其輸出能力是一樣的。4-6個也是一樣,沒有下降——(曲線上的平臺)。換句話說,這個3-deep ALU,在同一條pipeline里,只能為同一個像素的計算服務(wù)。這樣效率似乎并不是很高……

  同樣,基本可以看到到,F(xiàn)P16下,adreno 320的shader輸出性能是FP32的2倍……都算到1GHz的頻率下

  

 

  T4的同頻性能基本也是T3的6倍

  

 

  最后,我們根據(jù)這次的實測值,計算下這幾個GPU的實際輸出shader計算能力,并且跟理論值比較下

  

 

  統(tǒng)一渲染架構(gòu)加上scalar shader(實際VLIW)的Adreno 320符合的還是比較好的。

  Tegra系列也還算接近,打八折吧??偟膩碚f,Tegra4我覺得表現(xiàn)一般……shield滿血風(fēng)扇核彈都只有這樣平淡的表現(xiàn),還是720p屏幕,很難想象手機里的Tegra4帶1080p屏幕會是啥表現(xiàn)——

  能比現(xiàn)在的S600 Adreno 320+ 1080p好多少?至于Adreno 330和Mali-T628 MP6,我想是打不過的。

原創(chuàng)文章,作者:hejie,如若轉(zhuǎn)載,請注明出處:http://www.fangsai.com.cn/doc/106035.htm

相關(guān)推薦

登錄后才能評論

評論列表 ( )

返回
頂部