日前,龍芯發布了用于服務器市場的的3D5000系列芯片,3D5000與3C5000屬于同一代CPU,是采用Chiplet技術把兩片3C5000芯片互聯和封裝在一起,進而獲得一片32核CPU,這種方式也被稱為“膠水32核”。
就性能而言,龍芯3D5000的IPC接近AMD Zen2的水平,全芯片性能與同主頻下的32核AMD Zen2架構CPU接近,就這個性能而言,對于大部分應用已經是夠用了。
在2023年,性能更強的龍芯6000系列CPU將要問世,龍芯在IPC上與英特爾、AMD的差距將會進一步縮小,真正阻礙龍芯在市場上推廣的要素將不再是CPU性能,而是軟件生態。
01
龍芯5000系列是自主CPU里程碑
2019年,龍芯3A4000四核處理器亮相。龍芯3A4000是繼3A3000之后的新一代處理器。3A4000既升級了新內核GS464V,IPC大幅提升;又通過在原有28nm工藝上深入磨合優化,改進電路和物理設計方法,在制造工藝與3A3000相同的情況下,將性能提升了一倍。就3A4000 的IPC而言,已經從3A3000的7/G達到了9.8/G,AMD的Zen大致也就在10/G水平,龍芯3A4000的GS464V是一款可以與第一代Zen匹敵的內核。
3A5000是的內核是基于GS464V進行小改,IPC為10.6/G,采用12nm工藝,主頻為2.2G至2.5G,后期流片的有2.7G主頻版本,SPEC06定點成績超過26(GCC,@2.5Ghz),這對于自主CPU而言已經是非常不錯了,即便和引進的CPU相比,其定點和浮點性能僅次于海光,超過其他引進的X86和ARM CPU。
龍芯3A5000與龍芯3C5000、3D5000屬于同一代CPU,3C5000采用LoongArch指令集,16核心單芯片unixbench分值9500以上,雙精度計算能力達560GFlops,16核處理器峰值性能與典型ARM 64核處理器的峰值性能相當,并支持最高16路互連,搭配新一代龍芯7A2000橋片,PCIe吞吐帶寬比上一代提升400%以上。就SPEC2006測試來看,單核定點浮點Base分均大于10/G,單芯片分值超過200。可滿足通用計算、大型數據中心、云計算中心的計算需求。該處理器通過芯片級安全機制可為等保2.0、可信計算、國密算法替代、網絡安全漏洞防護等提供CPU級內生支持。
3C5000最大特點是單核性能強,特別是unixbench這種看重單核和內存性能,多核加速比很低的測試,龍芯只用16核就能跑到9500,某ARM CPU即便有64核也跑不到這個成績。從公開的數據來看,3C5000的性能在信創市場足夠用了,而且16核的核心是使其部署比較靈活。
龍芯3D5000則是把兩個3C5000封裝到一起的膠水32核芯片,集成了64MB的L3 Cache,支持最多8個DDR4-3200 DRAM,可以通過HyperTransport接口構建至多四路處理器,因此單機可以支持多達128核。在性能方面,龍芯3D5000單路和雙路服務器的SPEC CPU2006 Base實測可以超過400分和800分,預計四路服務器的分值可以達到1600分。可以說,龍芯3D5000主要針對一些對性能有更高要求的場景,只要軟件生態跟得上,完全可以替換掉英特爾至強CPU。
02
龍芯6000性能將再次飛躍
相對于一些技術引進CPU在引進海外技術后CPU IPC增長緩慢,性能提高基本依靠購買更好的EDA工具和買臺積電更好的工藝。龍芯一直致力于提升CPU微結構設計水平來提升CPU的性能。沒有盲目去堆核心數量。這種穩扎穩打的做法使龍芯在過去10年中IPC提升了3-4倍,在桌面CPU上成效立竿見影。
CPU的IPC在過去10年中提升了3-4倍,這使龍芯可以在制造工藝上落后技術引進的某ARM CPU一代的情況下,依然可以依靠CPU微結構設計水平做到性能持平或略優于技術引進的某ARM CPU。當龍芯與引進的某ARM CPU采用相同工藝時,龍芯可以憑借其IPC上的優勢在性能上領先某ARM CPU。
龍芯3A5000
3A6000和3A5000采用相同制造工藝,龍芯依靠其設計能力把CPU性能大幅提升,主要是拉大框架,比如把4發射改成6發射等等。從此前公布的仿真成績看,定點相對于3A5000提升30%,浮點相對于3A5000提升60%,這種提升是非常駭人的——如果仿真成績與最終成績相當,那么,3A6000 SPEC06單核定點Base分大于13/G,浮點Base分大于16/G,基本達到AMD Zen2水平。如果3A5000為2.5G至2.8G,那么,3A6000的 SPEC06單核定點Base分大于35,浮點將大于45。
從公開信息看,在使用相同工藝的情況下,3A6000性能比3A5000提升40%—60%,芯片面積縮小20%,12nm的3A6000對標7nm的AMD Zen2。鐵流做最保守估算,3A6000 SPEC06單核定點Base分為32分(@2.5G)至35分(@2.8G)。這個性能對于信創和日常使用而言都已經明顯過剩了。
必須說明的是,仿真往往是不準確的,有的公司會高估,有的公司會低估,從龍芯這幾年發布的信息看,龍芯是偏保守的,實測成績只會比仿真成績好,以最近流片回來的2K2000來看,實測成績比龍芯仿真成績高了20%至30%,這大大超乎龍芯的預期。龍芯2k2000的LA364性能基本追平ARM A76,充分展示了自主路線的發展潛力和發展活力。
3C6000是16核服務器芯片,內核是LA664,與3A6000相同。3D6000則是兩片3C6000封裝在一起構成32核服務器CPU,可以匹敵搭載Zen2核心的AMD EPIC。只要軟件能跟上,商業市場已經沒有性能短板了。
龍芯下一代7000系列CPU,進一步提升CPU核性能,IPC瞄準Zen3和12代酷睿,計劃采用7nm工藝,SPEC06定點Base最保守估算是40分,屆時,會有24-32核的3D7000(7nm) 和48-64核3E7000(兩片封裝)。
03
Chiplet有利有弊 不宜神化
有文章認為:由于地緣政治的影響,中國的半導體行業受到了種種限制,尤其是開發自主知識產權的關鍵芯片(如國產CPU,或者之后有可能受到影響的其他高性能計算芯片)的公司難以使用最先進的半導體工藝節點。另一方面,中國的半導體fab同樣由于受到地緣政治的影響,難以快速追趕全球最先進的工藝節點,而目前只能主要生產成熟工藝節點(如28nm),或者是介于成熟工藝和先進工藝之間的工藝節點(例如SMIC今年剛開始大規模量產14nm,未來幾年可望做到10nm以下)。即使是介于成熟工藝和先進工藝之間的工藝節點,也會存在良率較低等問題,需要時間來解決。在這樣的情況下,國產自主知識產權芯片在受到地緣政治影響下只能使用較落后的工藝節點,那么使用Chiplet這樣的高級封裝技術就成為了突破工藝限制,或者說至少減少工藝對于芯片影響的一種重要技術。
鐵流認為,以上觀點總體是沒問題的,但不宜將Chiplet神化,畢竟封裝也是存在成本和良率問題,關鍵還是要看需求和場景。
當下,龍芯的最大短板是軟件生態,其次是制造工藝。就工藝而言,一方面是龍芯錢少,不可能和蘋果、高通這些巨無霸去搶臺積電最尖端工藝,何況當下臺積電尖端工藝還存在政治風險。正是因此,龍芯在制造工藝的選擇上往往是偏保守,基本與境內晶圓廠的最佳制造工藝同步,而彌補工藝差距的方式就是采用Chiplet技術。Chiplet是一種封裝技術,在制造工藝與臺積電有差距的情況下,可以通過使用先進封裝技術來彌補不足。
Chiplet技術并非是橫空出世的新技術,過去,AMD的64核和128核就是將8核的芯片和IO橋片封裝在一起的,這其實就是運用Chiplet構建多核和SoC主流的技術。Chiplet最大的優勢是降低成本和提升芯片集成度,可以使12nm芯片在集成度上媲美7nm芯片。由于片內互聯效率大幅高于片外互聯,將原來的板載芯片集成進來以后,可以大幅提升互聯速度。此外,Chiplet還可以實現不同制造工藝芯片的“混搭”,比如關鍵模塊采用14nm工藝,次要模塊采用28nm工藝,然后封裝到一起,這種SoC的性能和真正的14nm芯片相差無幾,但成本將低于14nm芯片,在性價比方面會更有優勢。
目前,龍芯的技術還屬于2D水平,其實并不算多強,現在主流已經開始向2.5D和3D發展。龍芯3D5000之所以沒上2.5D,主要是因為就目前龍芯的互聯速度,2D版本就足夠了,后續接口到16Gbps了就會采用2.5D。
必須說明的是,不宜把Chiplet神化,因為封裝也有成本的,還有良率的問題,也不是封得越多越好。關鍵還是看需求,Chiplet對服務器芯片有利,普通芯片盲目封裝沒太多好處。
04
展望未來
就性能而言,3A5000應對日常使用和單位辦公已經是性能過剩了,3A6000則是進一步性能過剩,7000系列CPU則能進入商業市場競爭。對于龍芯而言,性能已經不是最大短板,軟件生態和產業生態才是短板。
對此,龍芯措施是兩手抓,一方面用二進制翻譯兼容X86生態,另一方面推出自主編程框架。
以LATX來說,目前已經可以運行大量X86/Windows應用,預計還需要一年時間完善。以打印機來說,現在97%、98%以上的打印機龍芯不用遷移,可以直接用,這在X86和ARM上都沒有做到,凡是windows有的驅動龍芯都能跑。還有少量的2%、3%的問題,將逐步解決,也就是說在X86和ARM平臺上肯定很多打印機認不了,但在龍芯的平臺上,可以保證100%的打印機都能識別。
自主CPU和操作系統的整機產品之所以需要無休止的遷移適配,主要是因為這些系統是不在自主平臺上寫的,現有的應用都是基于別人的編程框架編出來的,自主編程框架是自主操作的重要特征,目前國產操作系統都不是真正意義上的自主操作系統,只是開源操作系統的自主發行版,APP開發者使用的自主編程框架進行編程才能徹底解決無休止的適配問題,所以龍芯在明年爭取推出自主編程框架。未來就像手機APP有蘋果版和安卓版,未來電腦的系統有龍芯版和windows版,這樣龍芯就有自己的生態了。
這個過程會非常漫長,也許5年,也許8年。軟件生態建設就是一場持久戰,只要堅持不懈,就能如同八年抗戰趕走日本鬼子那樣,構建成龍芯生態。
「 支持烏有之鄉!」
您的打賞將用于網站日常運行與維護。
幫助我們辦好網站,宣傳紅色文化!
歡迎掃描下方二維碼,訂閱烏有之鄉網刊微信公眾號
