省報告文學學會您現在的位置是:湖南作家網>湖南省作家協(xié)會>文學學會>省報告文學學會

龔盛輝:決戰(zhàn)崛起——中國超算強國之路(節(jié)選)

來源:   時間 : 2016-05-30

 

分享到:

  超級計算:高科技之“上甘嶺”

 

  對于超級計算在國家昌盛、民族崛起中的地位作用,有人形象生動地說:“高科技競爭是沒有硝煙的戰(zhàn)場,超級計算是這個戰(zhàn)場上的上甘嶺。”

  2005年,美國總統(tǒng)向屬下的信息技術咨詢委員會咨詢這一問題時,該委員會則這樣回答:“計算科學是確保美國21世紀戰(zhàn)略地位的重要手段,而超級計算機是實現計算科學的最重要的載體。”

  隨著人類認識的不斷拓展和深化,尤其是現代大科學、大工程、大數據的出現,以超級計算機為平臺的超級計算,在科技發(fā)展領域,已漸漸與科學理論、科學實驗“并肩而立”,成為“支撐現代科技大廈三大支柱”之一,是國家科技競爭力的重要標志。

  在當今時代,從事關國家安全的戰(zhàn)略領域研究,到人們日常生活條件的改善,都離不開超算技術的支撐。可以說,在現代社會,沒有哪一個學科像超級計算這樣在科學研究中運用如此廣泛、如此深入、如此前沿。正如國家超算天津中心主任劉光明所說:“超級計算機算天、算地、算人,算過去、算現在、算未來……運用超算給大地做CT,可以又快又準地找到石油;運用超算分析人類基因,能夠解讀生命的奧秘;運用超算做風洞,設計的飛機可以飛得更快、更高、更省油……”

  超級計算,現已走進各行各業(yè)、千家萬戶,人們的衣、食、住、行、樂,無時無刻不在分享著超級計算算出的“紅利”。比如食品,運用超級計算機進行以水稻、玉米、生豬等為主要對象的基因工程研究,讓糧食產量更高、味道更美、營養(yǎng)更豐富,使生豬長得更快、肉質更好、更有利于人類健康……,比如治病,超級計算讓各種新藥研制周期從數年甚至上十年縮短到一年以內甚至幾個月,讓需要化療、放療的癌癥病人的基因檢測過程由一兩個月縮短為幾分鐘……,比如天氣預報,超級計算能在幾秒內算出未來一周天氣情況,在一天內完成過去幾年甚至幾十年完成的計算工作,甚至可以預測地震、海嘯等自然災害……,比如娛樂,人們直呼“酷極”“過癮”的美國電影《阿凡達》《生化危機2》以及國產電影《關云長》、新版電視劇《西游記》等影視劇精彩絕倫的動漫渲染,都是依靠超級計算完成的……

  目前,有賴于超級計算機解決的挑戰(zhàn)性問題,如汽車、飛機、輪船制造如何改善空氣/流體動力學結構、減少燃料消耗和噪音、提高防撞強度和乘坐舒適度;防范和減輕氣候變化帶來的破壞;幫助人類尋找疾病治療的革命性方法;通過預警降低地震造成的生命和財產損失;地球物理學中的大數據處理與模擬;對天體演變進行建模和理論試驗;模擬影響社會健康和安全事件及尋找應對措施和規(guī)劃;發(fā)現高經濟價值的物質及其反應;尋找人類活動、社會發(fā)展規(guī)律……,這些問題涉及交通工具制造、氣象預報、生物信息、地震監(jiān)測、地球科學、天體物理、公共健康、材料科學、人類/組織系統(tǒng)研究等眾多學科,幾乎涵蓋科學研究的每一個領域和社會生活的方方面面。

  換言之,當今時代離開了超級計算,人類對高精尖科學問題的探索將舉步維艱,甚至寸步難行!

  超級計算機,是名副其實的“國之重器”“高科技之上甘嶺”!

  60年前,我志愿軍將士不畏強敵,在朝鮮上甘嶺地區(qū)與以美國為代表的聯(lián)合國軍展開生死決戰(zhàn)。60年后,我國科技尖兵以大無畏英雄氣概,又與以美國為代表的西方國家在超級計算機領域打響了“上甘嶺戰(zhàn)役”。

  這場科技戰(zhàn)役,一如當年上甘嶺決戰(zhàn),亦是一次實力懸殊、極不平等的較量!

  1946年2月14日,美國賓夕法尼亞大學教授莫奇利、講師??颂睾同F代計算機理論奠基人馮·諾依曼舉起香檳酒,慶賀他們研制成功世界上第一臺電子數字計算機時,中國的統(tǒng)治者蔣介石剛剛向他的愛將杜聿明下達了向中國共產黨東北民主聯(lián)軍發(fā)起進攻的命令,內戰(zhàn)進入白熱化階段。此后十年,中國的計算機工程又遲遲未能上馬。由此可見,中國對這一后來改變整個人類生活的新興科技的探索起步有多晚、差距有多大。

  但新中國有一支“胸懷祖國、志在高峰、團結協(xié)作、頑強拼搏”的計算機科技攻關隊伍——銀河團隊。他們不畏強國重重封鎖、層層壓制,躬身沖刺,奮起直追,先后研制出中國第一臺電子管專用計算機、第一臺晶體管通用計算機、第一臺每秒百萬次計算機、第一臺每秒億次向量巨型機、第一臺每秒10億次并行巨型機、第一臺每秒100億次超大規(guī)模并行巨型機……,創(chuàng)造了“中國芯”“中國麒麟”“中國第一網”等科學奇跡,發(fā)展壯大為“中國第一超算團隊”。

  21世紀初,隨著每秒100萬億次超級計算機技術高峰被成功攻克,人類對超級計算機技術的探索,面臨著一系列難以逾越的關鍵技術“高墻”,這意味著世界各國對新一代超級計算機的攻堅站在了同一起跑線上。

  銀河團隊抓住這一歷史機遇,果斷與世界強國展開決戰(zhàn),發(fā)起了超級計算機領域的“上甘嶺戰(zhàn)役”,率先突破新一代超級計算機主流技術——CPU+GPU異構融合體系結構技術。

  我軍英雄將士在上甘嶺不畏犧牲、浴血奮戰(zhàn),打出了軍威,打出了國威。

  中國科技尖兵在世界超級計算機領域打響的“上甘嶺戰(zhàn)役”,也打出了“中國自豪”“中國驕傲”:

  “天河一號”二期系統(tǒng),2010年成功登上世界超級計算機排名冠軍寶座,中國自鴉片戰(zhàn)爭以來第一次走上世界科技競賽最高領獎臺!

  “天河二號”,自2013年問世后,已連續(xù)5次蟬聯(lián)世界超級計算機排名冠軍,標志著中國在超級計算機領域已走在世界前列!

 

  決戰(zhàn)時機

 

  隨著21世紀之門向人類徐徐開啟,“并行計算時代”開始遭遇“寒流”。這股“寒流”的顯著標志,就是單芯片性能提升受到制備工藝限制而大大放緩。也就是說,科學家們提高超級計算機系統(tǒng)的整體性能,只能依賴于加大系統(tǒng)規(guī)模。這樣一來,系統(tǒng)性能在突破每秒千萬億次后,就會出現一系列難以逾越的“高墻”:

  比如體積,它將有幾個足球場那么大。

  比如功耗,需要建一個專用的發(fā)電站,才能滿足它的功耗。

  以日本“地球模擬器”為例。日本NEC公司于2004年6月推出的這臺機器,雖然峰值性能達到35.86TFLOPS,一度搶占國際TOP500排名第一。但它采用了5120個定制向量處理器,功耗高達12MW,其機房共有四層,機器存放在四樓,三樓布置了上百公里長的銅質電纜用于全局互連,二樓是空調房,一樓則是電力房,這樣布局的原因是由于它功耗太大。雖然“地球模擬器”在可編程性和系統(tǒng)實用效率方面有所變革,但其極高的功耗和硬件成本,使得該機器成為邁向高效能計算的反面典型。

  隨著體積急劇膨脹、功耗迅猛攀升,還出現了并行算法設計困難、通信存儲帶寬不足、運行維護成本大大增加、系統(tǒng)可靠性差、安全性能低……

  這一個個問題,都是難以攻克的技術瓶頸。

  超級計算機技術再跨越,需要新的體系結構理論來支撐。超級計算機純粹CPU超大規(guī)模并行計算技術路線,開始步入“冰封”時期。

  這意味著在高性能計算機新的技術高峰面前,中國等發(fā)展中國家的超級計算機發(fā)展,和美、日等發(fā)達國家都處于同一起跑線,我國在超級計算機領域決戰(zhàn)決勝、沖擊“珠峰”的時機已經來臨!

  為超級計算機技術“破冰”的東風是什么?

  超級計算機發(fā)展之路在何方?

  在超級計算機技術發(fā)展的十字路口,有人在期待,有人在徘徊,有人在觀望,更多的人在躬身探索。

  國防科技大學計算機學院大樓旁的銀河廣場上,一名身材魁梧、濃眉大眼、氣宇軒昂的中年軍人,時而慢慢踱步,時而駐足沉思,時而抬頭仰望一眼廣袤的太空。

  他就是銀河系列超級計算機總設計師楊學軍教授。

  楊學軍手上夾著香煙,一口接一口地抽著,一支接一支地點著。他的思緒,隨著緩緩吐出的煙霧,裊裊地飄向太空,飄向世界,飄向深邃的歷史……

  在人類計算機發(fā)展史上,無論電子管計算機時代、晶體管計算機時代、集成電路計算機時代、向量計算機時代、并行計算機時代,還是大規(guī)模、超大規(guī)模并行計算機時代,為什么美國都能成為世界領跑者?

  稍微留心考察一下便會發(fā)現,美國不僅研制成功世界上第一臺計算機,而且在此后60多年幾乎獨占了計算機重大基礎創(chuàng)新或理論創(chuàng)新成果。電子管、晶體管、集成電路、芯片等計算機元器件,還有向量計算、并行計算、大規(guī)模并行計算等計算機總體結構理論,特別是曾給人們對并行計算認識帶來三次飛躍的三個公式:計算性能加速比公式、Gustafson加速比公式、計算機效能模型框架,無一不是美國科學家的發(fā)明。這一個個首創(chuàng)產生的推動力,加上日益增長的計算機應用需求的牽引力,讓美國計算機技術開創(chuàng)了一個個“新紀元”“新時代”,也一次次把美國推向世界計算機發(fā)展乃至整個世界科技的先鋒潮頭。

  科技首創(chuàng),尤其是重大基礎技術、基礎理論首創(chuàng),是科技發(fā)展和經濟發(fā)展的強大引擎。在它的牽引下,英國在18世紀開啟了近代工業(yè)革命,美國在19世紀初實現了經濟強勢崛起,德國、日本在戰(zhàn)后迅速醫(yī)治戰(zhàn)敗創(chuàng)傷,重新躋身世界經濟強國……

  新中國成立尤其是改革開放后,國家重視科學事業(yè),技術進步日新月異。但其源頭動力大部分來自引進,或是引進后再創(chuàng)新,真正的技術首創(chuàng),特別是引領世界科學前沿、支撐國家產業(yè)變革的重大基礎技術、基礎理論首創(chuàng),與美國、日本及歐洲發(fā)達國家相比,依然“鳳毛麟角”。

  中國超級計算機技術發(fā)展始終處于“跟蹤”“追隨”狀態(tài),總是比別人慢那么“一點點”的原因,也正是因為首創(chuàng)不足。

  唯有突破首創(chuàng)性瓶頸,才能從制造大國邁向創(chuàng)造大國,才能真正實現中華民族的偉大復興!

  中國要在超級計算機技術領域由“跟蹤”“追隨”變?yōu)?ldquo;超越”“領跑”,必須在重大基礎技術、基礎理論上另辟蹊徑,在別人尚未涉足的荒草地上闖出一條新路!

  在世界超級計算機技術發(fā)展面臨困境之時,中國計算機科學家有責任、有義務為國家乃至為世界科技進步作出應有的貢獻!

  中國首次與世界首創(chuàng)

  什么樣的體系結構可以破除超大規(guī)模并行超級計算機面臨的“高大難”(功耗高、體積大、技術實現難)窘境呢?

  經過一番苦心思索、反復論證,楊學軍在世界上最早提出異構融合體系結構技術。

  所謂異構融合體系結構,就是在計算結點中包含兩種不同類型的處理器。一種是傳統(tǒng)通用處理器(CPU),用來處理常規(guī)任務,另一種是專用定制處理器,用來處理特定算法,這種處理器經過特別設計,處理特定算法時性能非常高,可以大大提升計算結點的整體性能。

  可什么樣的處理器能充當專用處理器、完成特定算法的使命呢?

  這時,美國斯坦福大學計算機系主任的Bill Dally提出的一種流處理器Imagine進入了楊學軍的視野。他憑著深厚的學術底蘊和多年率團攻關的實踐經驗,敏銳地意識到這種有著計算與訪存分離、顯式開發(fā)局部性等諸多創(chuàng)新思想的流處理器Imagine,是一種很有前景的體系結構。他打算把它與CPU一起用于超級計算機。

  可流處理器Imagine僅僅是一款研究性的原型芯片,一般也只用來處理流媒體相關的計算任務,究竟能不能用來處理科學與工程計算,還是個謎。

  為找到這個謎底,2006年,楊學軍帶領由自己學生組成的流處理器小組及硬件、軟件設計團隊,向用于科學計算流處理技術展開攻關。

  將流處理器與科學計算隔離開來的關鍵技術難題主要有三個:如何設計世界上第一款面向科學計算的64位流處理器?如何在這個流處理器上重寫或改寫應用程序?如何將這些應用程序高效地映射到處理器上執(zhí)行?

  這些問號,拽著楊學軍及其團隊成員的思緒快速且不停歇地運轉起來。

  身兼行政領導、型號總師等數職的楊學軍,無論工作有多忙,每周都要抽出兩天時間與大家交流討論學術問題,而且常常因此錯過吃飯時間。這時他就自掏腰包給大家改善伙食,在飯桌上邊吃邊繼續(xù)討論課題,經常有意想不到的收獲。

  平時,楊學軍和團隊成員身上都帶著兩塊手機電池。一旦有新發(fā)現,就打電話交流討論,常常一打就是一兩個小時,打到兩塊電池都沒電,打得手機燙耳朵。

  他們成功突破了體系結構設計、程序可流化理論構建、異構編程模型設計等一道道技術“高墻”,驗證了流處理器用于高性能計算的可行性,提出了可用于科學與工程計算的64位流處理器FT64,并成功應用于大規(guī)模并行系統(tǒng)的構建。

  這些研究成果,是名副其實的世界首創(chuàng)!

  2007年6月,楊學軍帶領團隊完成的流處理器研究論文《64位流處理器體系結構研究》,發(fā)表在國際計算機系統(tǒng)結構年會(ISCA)上,并被國際權威期刊《IEEE Transactions on Parallel and Distributed Systems》錄取。該論文介紹了國防科技大學自主設計的面向科學計算的64位流處理器和其編程方法。IEEE TPDS 2009期刊轉載該論文時,團隊又擴充了基于依賴關系的流化理論,流編譯優(yōu)化方法,以及擴充實驗數據和結果。

  這是國際計算機系統(tǒng)結構年會(ISCA)錄取的第一篇來自中國研究機構、由中國學者獨立完成的學術論文,也是計算機發(fā)展史上第一個由中國人提出的體系結構理論。

  論文發(fā)表后,在國內外計算機領域引起轟動。

  流處理器技術先驅、美國斯坦福大學計算機系主任William Dally認為:“該論文在面向科學計算的硬件設計上和編程方法的研究上為流處理器的發(fā)展取得了重要的進步。”

  美國藝術與科學學院院士、美國工程院院士、NVIDIA公司首席科學家、原Stanford大學計算機系主任Bill Dally稱贊:“該論文實現了世界上第一款用于科學計算的流處理器。”

  美國Wisconsin—Madison大學和Texas大學的學者在體系結構領域頂級會議MICRO’2008上發(fā)表文章,稱楊學軍關于流處理器研究論文“描述了一個面向科學計算應用的可擴展的流處理器”。

  CPU與64位流處理器異構融合體系結構,為世界超級計算機技術突破“冰封期”提供了嶄新的思路。

 

  “走鵑”打響決戰(zhàn)第一槍

 

  楊學軍的《64位流處理器體系結構研究》發(fā)表一年后,即2008年6月18日,美國突然宣布:IBM公司采用異構融合體系結構技術成功研制出一臺峰值速度每秒1.37578千萬億次,Linpack測試性每秒1.026千萬億次的機器,并將其命名為“走鵑”。

  “走鵑”由6480個AMD的Opteron處理器和12960個IBM cell處理器構成,其中cell處理器就是一種專用處理器,它的計算性能非常高。“走鵑”充分體現了異構并行技術的先進性,不僅大幅提高了單個計算結點的性能,并大大降低了功耗,整個系統(tǒng)的規(guī)模也得到大幅縮減。

  舉個例子,當時和“走鵑”同處于國際TOP500排行榜前20名、位于美國勞倫斯國家實驗室的BlueGene/L擁有65536個結點,IMB公司的另一臺BlueGene/P系統(tǒng)有73728個結點,而“走鵑”則只有3240個結點,只有前兩個系統(tǒng)的1/20。這得益于采用了cell加速器,使得“走鵑”單結點性能高達425GFlops,而BuleGene/L和BlueGene/P分別只有7.3和13Gflops。如此大幅度的結點規(guī)??s減,使通信、存儲、編程、功耗等技術瓶頸一下子放寬了。

  “走鵑”的巨大技術優(yōu)勢,引起了學術界和產業(yè)界研究異構融合計算的熱潮。

  “走鵑”在異構融合體系結構技術領域的捷足先登,打響了新一輪決戰(zhàn)的第一槍,世界強國在超級計算機領域的較量正式拉開序幕!

  21世紀的中國,別無選擇,唯有接招,準備決戰(zhàn)!

  黨的十六大向全黨、全國人民發(fā)出“建設創(chuàng)新型國家”偉大號召。

  “東方雄獅”自從1949年站立起來,開始健步走向世界,尤其是1978年改革開放后,國家經濟高速發(fā)展,21世紀初國家經濟總量成功超越日本,成為世界第二大經濟體,并繼續(xù)保持快速發(fā)展態(tài)勢,向世界經濟霸主美國逼近。與此同時,國防、軍隊現代化信息化建設快馬加鞭、突飛猛進。可以說,人民實現中華民族復興的愿望,從未像現在這樣急切,時機也從未像現在這樣成熟。

  國家從“制造大國”向“創(chuàng)造王國”的飛躍、科技強軍的崇高使命、民族崛起的偉大夢想,急需高性能計算這個寬闊堅實的現代化平臺提供強大支撐、強力承載!

  在超級計算機技術這個沒有硝煙的戰(zhàn)場上,中國人已經被別人包圍得太久,忍受了太多的憋屈。東方巨龍期待騰飛!中國超級計算機事業(yè)必須跨越!

  2007年初,中共中央總書記、國家主席、中央軍委主席胡錦濤聞知國防科技大學研制出新一代超級計算機后批示:“希望同志們進一步增強攀登世界科技高峰的信心和勇氣,不斷提高自主創(chuàng)新能力,努力在若干重要領域掌握一批核心技術,為推進科技強軍、建設創(chuàng)新型國家作出新的更大貢獻!”

  黨中央的囑托,就是命令!就是使命!

  面對世界強國咄咄逼人的攻勢,以楊學軍為代表的國防科技大學計算機人,沉著應對,大膽迎戰(zhàn)。通過科學審時度勢,他們認為國防科技大學計算機學院的超級計算機事業(yè),通過銀河人半個世紀前仆后繼的艱辛努力,占領了一座座科技高峰,形成了自己的特色,擁有了厚實的積累,不僅掌握了下一代巨型主流技術——異構融合體系結構核心技術,而且與世界強國展開決戰(zhàn)、搶占世界高峰的其他支撐技術條件也開始顯現。

 

  超越之徑

 

  2006年,國家推出“863”項目——“高速計算機及網格服務環(huán)境”建設,制定了“先研制兩臺每秒百萬億次超級計算機、再研制一臺每秒千萬億次超級計算機”的“兩步走”戰(zhàn)略。

  我國著名計算機制造商曙光公司、聯(lián)想公司啟動“曙光500A”“深騰7000”兩臺每秒百萬億次機攻堅之時,剛剛研制完成每秒10萬億次超級計算機的國防科技大學計算機技術創(chuàng)新團隊不等、不靠上級下達任務,主動把目光瞄準每秒千萬億次超級計算機,開始向這一目標發(fā)起沖刺。

  2007年召開的黨的十七大指出,要提高自主創(chuàng)新能力,建設創(chuàng)新型國家,加快建設國家創(chuàng)新體系,把掌握信息產業(yè)核心技術作為發(fā)展我國科技戰(zhàn)略重點,并作出“建立和完善軍民結合、寓軍于民的武器裝備科研生產體系、軍隊人才培養(yǎng)體系和軍隊保障體系,走出一條中國特色軍民融合式發(fā)展路子”的戰(zhàn)略決策。

  這年底,胡錦濤總書記在天津考察時提出,濱海新區(qū)要努力在貫徹落實科學發(fā)展觀、推動經濟社會又好又快發(fā)展方面走在全國前列,在保障和改善民生、促進社會和諧方面走在全國前列,成為深入貫徹落實科學發(fā)展觀的排頭兵。

  為落實黨中央、胡錦濤總書記號召,天津市委市政府提出,濱海新區(qū)要充分發(fā)揮引擎作用、示范作用、服務作用、門戶作用、帶頭作用,堅持改革開放帶動、科技創(chuàng)新引領、高端產業(yè)支撐、服務能力提升、發(fā)展環(huán)境保障,走出一條科學發(fā)展、和諧發(fā)展、率先發(fā)展之路。

  與此同時,國防科技大學黨委在深入學習黨十七大精神時認識到,學校具備較強的辦學實力,承擔了一大批國防科研任務,取得了許多科研成果,有著較強的科技與人才優(yōu)勢,理應為建設創(chuàng)新型國家作出更大貢獻,理應率先走開軍民融合之路,為推動地方經濟建設提供更大技術支持、人才支撐。

  同樣的目標、共同的愿望,將國防科技大學與天津濱海新區(qū)緊緊聯(lián)結在一起。雙方通過友好協(xié)商,于2007年2月簽署了全面科技合作協(xié)議。

  雙方著眼國家重大戰(zhàn)略需求,充分發(fā)揮天津市濱海新區(qū)作為國家綜合配套改革試驗區(qū)的政策和資源優(yōu)勢,充分發(fā)揮國防科技大學的科技和人才優(yōu)勢,加大合作力度,加快科技創(chuàng)新和成果轉化基地建設,積極爭取重大科技項目和國際前沿項目,大力提高自主創(chuàng)新能力,加快科技成果轉化步伐,實現互利共贏,在共同推進創(chuàng)新型國家、信息化軍隊建設中實現共同發(fā)展。

  雙方認為,超算技術是關系國家安全和發(fā)展的高科技前沿技術,是國家經濟、國防與科技實力的重要象征,應集中兩家單位優(yōu)勢資源,為國家搶占超級計算機戰(zhàn)略技術制高點作貢獻。

  為此,國防科技大學和天津共同啟動“國家濱海超級計算中心”建設項目。通過聯(lián)合承擔“千萬億次高效能計算系統(tǒng)”研制,把該中心建成國家高性能計算應用研發(fā)中心、大規(guī)模集成電路中心和基礎軟件工程中心,實現超算服務、技術研發(fā)、人才培養(yǎng)“三位一體”的信息產業(yè)集群。

  不久,國防科技大學和天津濱海新區(qū)的創(chuàng)新之舉得到國家大力支持。國家“863”把“千萬億次高效能計算系統(tǒng)”列為重大專項。同時,“高性能通用微處理器”“高端服務器操作系統(tǒng)”也被納入國家“核高基”重大專項。

  進攻目標鎖定后,攻擊路線就是關鍵。

  兩年前,楊學軍帶領大伙探討64位流處理器Imagine時,他的腦海里就同時思考著另一種與之有著異曲同工之妙的電子芯片——GPU的科學計算問題。也就是說,研制每秒千萬億次超級計算機可走既定的CPU+64位流處理器Imagine異構融合技術路線、也可嘗試CPU(通用微處理器)+GPU(專用微處理器)異構融合技術路線。

  對于前者,團隊已攻關多年,有著比較雄厚的技術積累,成功可能性比較大。而對后者,當時國際上公認GPU最高計算效能僅為20%,根本不可能用于研制超級計算機。

  但使用GPU構建超級計算機的優(yōu)勢顯而易見:它運算速度快,比CPU高出6倍,能有效縮小機器空間;它能耗低,僅有CPU的五分之一,可有效解決超級計算機高能耗短板;它在市場上流通的品種很多,可供選擇性大,而且技術成熟;它價格便宜,可有效提高機器的性價比,讓用戶用得起……

  而將GPU用于超級計算機研制的劣勢,同樣不容忽視:它能否用于高性能計算機,還是個未知數,探索之路將非常艱難,而且風險很大。

  以楊學軍為總設計師的總師組,經過深入技術調研、反復權衡利弊,決定大膽嘗試CPU+GPU異構融合技術之路。

  從每秒10萬億次直接沖刺每秒1000萬億次,走別人沒有走過的CPU+GPU技術路線,他們的這一超常決策,在業(yè)內引起一片嘩然。

  “研制超級計算機一般都以10倍速度逐步遞增,這已成為國際貫例。從每秒10萬億次直接向每秒1000萬億次跨越,這一步是不是邁得大了點?能跨過去嗎?”

  “就是把機器做出來了,應用水平能跟上嗎?”

  “GPU能否用于高性能計算還是個謎,用它研制超級計算機,這是不是太冒險了?”

  ……

  面對沸沸揚揚的疑問,楊學軍率領的總師組認為,兩步并作一步走的事,雖然國際上少有,但對銀河人來說卻并不是什么新鮮事。當年慈云桂帶領大家研制“遠望一號”遠洋測量船中心計算機時,不也是從每秒萬次直接向每秒100萬次沖刺的嘛。當今世界,超級計算機每10年性能提升1000倍,在此情況下,若按照所謂“慣例”,按部就班、亦步亦趨,只能永遠處于“跟班”“借鑒”“仰人鼻息”的被動局面。只有從荊棘叢中、險關狹隘另辟蹊徑,才能殺出重圍,率先“登頂”。至于用于圖像處理的GPU能否用于科學計算,楊學軍堅定地認為,憑著團隊數十年超級計算機教學科研積淀的厚實底蘊,和對64位流處理器研究取得的創(chuàng)新成果、技術基礎,定能觸類旁通,攻克GPU計算效能這一世界難題。

  國防科技大學黨委積極支持他們的跨越壯舉,向創(chuàng)新團隊發(fā)出了“我們的胸懷有多寬,我們的事業(yè)就有多大”的動員令,鼓勵大家確立決戰(zhàn)決心,堅定決勝信心。

  以鄒鵬為院長、周建設為政委的學院領導班子,在學校黨委領導下,根據任務需求,把學院高性能計算、高性能微處理、基礎軟件、網絡技術、應用技術等國家創(chuàng)新團隊進行有機組合,編成了一支超級計算機創(chuàng)新“航母艦隊”。

  動員大會上,學院黨委書記、政委周建設擲地有聲地說:“我們銀河團隊,從來就是一支勇于拼搏、敢于擔當的團隊,為國家振興、為民族崛起、為軍隊現代化,要敢走別人沒有走過的路,勇于從艱難險阻中闖出一條新路。我們學院黨委永遠都是大家的堅強后盾。成功了,榮譽屬于國家、屬于人民軍隊、屬于你們!失敗了,責任由院黨委負,由我這個黨委書記負!”

  帶著國家重托、民族期望,國防科技大學超級計算機創(chuàng)新“航母編隊”,浩浩蕩蕩向著新的技術彼岸進發(fā)!

 

  撕開突破口

 

  CPU+GPU異構融合體系結構,形象地說,就是把眾多CPU、GPU有機地連成一枚“捆綁式火箭”( CPU相當于主改動機、GPU相當于助推改動機)。

  根據這一原理,總師組創(chuàng)造性地把超級計算機系統(tǒng)分為計算機陣列、加速陣列、服務陣列,通過CPU、GPU異構協(xié)同計算,最大限度地提高計算效能、降低能耗、減少費用、加快速度。

  這一技術路線的最大創(chuàng)新,就是將用于圖像處理的GPU運用于高性能計算,最大的挑戰(zhàn)就是實現GPU高效能計算。它成為阻擋每秒千萬億次超級計算機戰(zhàn)役進展的第一個“堡壘”。

  2008年底,以楊學軍為總設計師的總師組,把撕開“突破口”的重任交給楊燦群和他帶領的突擊隊。

  經過10余年科研實踐歷練的楊燦群,對于自己的工作有個非常精妙的比喻:“搞工程技術,就像猜謎語。謎底出來了,大家恍然大悟:‘原來并不深奧’,可在此之前,你的眼前卻是一片云山霧海,你不知道目標在哪里,甚至不知道該朝哪個方向尋找,可以說兩眼迷茫。”

  GPU的科學計算問題便是這樣一道謎語。

  當時,市場上宣稱有通用計算能力的GPU有兩種,分別由NVIDIA與AMD生產,每種GPU都有多個型號。單獨的GPU只是一顆芯片,需要和配套的存儲器及外圍電路構成顯卡才能使用,生產此類顯卡的廠商有好幾家,市場上可購買的計算顯卡就有近20種。這林林總總的顯卡中,哪款能滿足科學計算要求?楊燦群和突擊隊員兩眼一抹黑。

  為從這眾多顯卡中找到雙精度浮點計算性能高、系統(tǒng)兼容性好、運行穩(wěn)定的顯卡,楊燦群帶領突擊隊從2009年初開始夜以繼日地進行大海撈針般的篩選工作。

  春節(jié)前一周,他們把一種顯卡安裝到一款主機板上測試,但軟件系統(tǒng)安裝完成后,系統(tǒng)無法啟動。他們首先懷疑是硬件問題,但硬件技術人員堅稱該主板質量非常過硬。他們便從軟件找原因,但嘗試不同版本操作系統(tǒng)和顯卡驅動后,問題依然如故。為了找到問題癥結,他們在春節(jié)期間加班加點。大年初四那天,他們不經意間在主板上發(fā)現有個模糊標識,稱該主板有啟動異常故障,維修后也沒有確認故障是否徹底解決,弄得大家哭笑不得。

  還有一種顯卡含兩個GPU芯片,其驅動程序要求接上兩個顯示器才能讓兩個GPU同時工作,這顯然不能滿足科學計算的要求,因為不可能在一臺計算機里安裝一大堆顯示器。他們通過查閱資料發(fā)現,可在顯卡輸出接上電阻來模擬顯示器。為找到這種電阻,他們從塵封了上十年的器件柜中找出了幾個滿足要求的插裝電阻,解決了測試問題。

  ……

  兩個月間,他們不知經歷了多少這樣的曲曲折折,才完成了近20款GPU的安裝、測試,終于找到了滿足計算條件的GPU。

  中國有一句諺語:“一個和尚挑水喝,兩個和尚抬水喝,三個和尚沒水喝。”

  CPU+GPU異構融合體系結構,把數千個CPU、數千個GPU組合在一個“大廟”,它們還能賣力“挑水”嗎?

  2009年3月,他們把CPU、GPU這兩類“和尚”組合起來,利用GPU加速應用程序進行評測,竟發(fā)現總性能還不到每秒600億次,而一顆CPU就有近每秒500億次的性能。也就是說GPU這個“和尚”,雖然用于圖像處理,速度驚人,但讓它與CPU放在一塊用于科學計算,就變得非常懶惰,計算效能只有20%左右。

  面對這樣的測試結果,大家心里涼了半截。須知,憑著GPU這等工作效率要造出每秒千萬億次超級計算機,豈不是天方夜譚?難道真如外國專家斷定的,GPU根本不能用于科學計算機嗎?

  總設計師楊學軍得到報告后,在第一時間趕到實驗室。聽完情況匯報后,他向身邊的妻子招招手:“玉華,你去把車開來,帶我出去轉轉。”

  這是他的工作習慣,每凡科研遇到難題時,就讓妻子開車帶他去兜風。

  “雪弗萊”駛出市區(qū),奔馳在二環(huán)高速公路上。楊學軍仰靠著座背,微閉著眼睛,讓思緒隨著從車旁呼嘯而過的春風、撲面而來又疾速閃去的盎然春景,在科學的天地的盤旋……

  “雪弗萊”駛出高速收費站時,楊學軍掏出手機,撥通了楊燦群的號碼,堅定地說:“別人不敢走的路,并不等于走不通。從技術原理分析,GPU的計算性能,通過軟件優(yōu)化,是可以大幅提高的……”

  周建設來到實驗給大家鼓勁:“發(fā)揚敢闖敢干、頑強拼搏的銀河精神,沖破艱難險阻,創(chuàng)造銀河事業(yè)新的輝煌!”

  學校召開每秒千萬億次超級計算機工程攻堅動員大會。學校、學院黨委向大家發(fā)出號召:“勇敢地擔當起國家和民族沖擊世界超級計算機科技高峰的歷史重任,在年底前堅決完成每秒千萬億次計算機攻關任務,讓銀河的凱歌在神州大地上奏響,讓銀河的光彩再一次閃亮寰球!”

  關鍵時刻,經學校黨委推薦、中央軍委主席胡錦濤任命廖湘科為計算機學院院長,同時兼任每秒千萬億次超級計算機工程總指揮和常務副總師。

  挫折面前,楊學軍總師、廖湘科總指揮一商量,竟作出這樣一個超常決策:把完成研制任務的時間節(jié)點,由原計劃2010年底提前一年,即在2009年底前推出中國第一臺每秒千萬億次超級計算機。

  決定一宣布,把一些人的眼睛驚得圓圓的:“關鍵技術尚未突破,還提前一年完成任務,能行嗎?”

  可新一代銀河人對自己充滿自信:“當年研制‘銀河—Ⅰ’時,困難還不大嗎?可前輩們頑強拼搏,愣是提前一年完成任務。還有‘銀河—Ⅲ’,原計劃用五年,大家齊心協(xié)力,爭分奪秒,僅用三年就實現了每秒10億次到每秒100億次的大跨越。前輩們能做到的,我們也一定能做到!”

  在楊學軍、廖湘科率領下,國防科技大學超級計算機創(chuàng)新團隊,拉開了每秒千萬億次超級計算機戰(zhàn)役總攻的序幕。

  長沙北郊的湘江之畔,有一片群山環(huán)抱的洼地,山上草木郁郁蔥蔥,山下坐落著一棟三層小樓。這是長沙市抗洪指揮部所在地。由于汛期未至,這里鳥兒啁啾,人跡稀少,煞是幽靜。

  楊燦群和他的突擊隊,把這里當作攻堅的戰(zhàn)場。他們整天貓在小樓里,心里只想一件事,就是想方設法調動GPU這群“和尚”的積極性,讓他們多“挑水”,爭取“1+1”盡量接近“2”。眼睛也只盯著一個地方——顯示屏,從那些不停滾動的浩如煙海的數據中,尋找一個個稍縱即逝的靈感,捕捉一次次優(yōu)化GPU計算效能的機遇,然后對計算程序進行一遍又一遍的修改。

  那周,楊燦群與伙伴們和往常一樣,從早上7點盯到午夜,從周一盯到周五,竟然沒有發(fā)現一次戰(zhàn)機,沒有取得任何戰(zhàn)果。

  連續(xù)鏖戰(zhàn)數日,早已筋疲力盡的楊燦群,躺在床上輾轉反側,難以入眠。他于心不甘。往常從周一到周五,都能找到性能優(yōu)化突破口,可在周末時間研究優(yōu)化方法。那些數據猶如一群蜜蜂,在眼前不停地竄來竄去。閉上眼睛,滿腦子還是那些波濤般滾動的數據。

  突然,他隱隱覺得眼簾上滾動的一些數據低于設計目標。他一骨碌從床上爬起來,從家里跑到辦公室,打開與服務器相連的筆記本電腦,進入試驗數據庫,果然發(fā)現GPU一部分計算資源沒有用起來。興奮難抑的楊燦群,立刻著手程序優(yōu)化,GPU計算性能又一次提升。當他改完程序起身打開房門時,只見太陽早已爬上山頂,露出了燦爛的笑臉,小鳥在樹林里歡快舞蹈、清脆鳴唱。

  類似這樣的優(yōu)化改進,他們在兩個月里進行了一萬多次,終于把GPU計算效能提升到58%。

  這充分驗證CPU+GPU異構融合技術是科學可行的!

  楊燦群帶領突擊隊乘勝擴大戰(zhàn)果,不分晝夜反復測試、研討、改進。雖然每一次提升都如同滴水般微小,但把它們匯集起來,就能創(chuàng)造科學奇跡。在連續(xù)奮戰(zhàn)四個月,先后改進優(yōu)化8萬余次之后GPU計算效能躍升至70%以上,達到世界最高水平!

 

  全線出擊

 

  美國計算機天才西摩·克雷說:“可以造出一個速度快的CPU,卻很難造出一個速度快的系統(tǒng)。”

  “世界巨型機之父”這句名言,在中國第一臺每秒千萬億次超級計算機研制中再一次應驗了。

  2009年7月,他們按照CPU+GPU體系結構技術構建了幾個機柜的系統(tǒng),結果試運行時發(fā)現,系統(tǒng)穩(wěn)定運行時間很難超過半個小時。這是為什么?

  通過初步分析,大家認為問題還是出在GPU身上。GPU用于科學計算,除了計算效率問題外,還有一個相關技術非常重要,那就是GPU的穩(wěn)定性。GPU用于圖形處理,其計算負載與通用計算存在較大差異。尤其是GPU實際性能發(fā)揮出來后,各部件進入重負載狀態(tài),功耗提高,散熱要求高,各器件的穩(wěn)定性下降。當系統(tǒng)中使用的GPU數量多了,系統(tǒng)平均無故障時間也會隨之下降。

  這個問題不解決,CPU+GPU異構融合之路同樣是條“死胡同”。

  提高GPU工作穩(wěn)定性問題,再次成為楊燦群和他的突擊隊亟待解開的新“謎語”。

  他們首先使用篩選法對眾多GPU逐一進行壓力測試,找出那些運行穩(wěn)定的GPU。結果不理想,系統(tǒng)穩(wěn)定性雖然有所提高,但與系統(tǒng)穩(wěn)定性要求相去甚遠。

  他們仿佛陷入了迷魂陣,四周迷霧茫茫,不知方向在哪里、出路在哪里。但他們始終堅信,黑夜再漫長,曙光總會出現。

  在艱苦探索中,“八一”節(jié)到了,單位組織會餐。楊燦群對戰(zhàn)友們說:“走,喝兩杯去,醒醒腦。”但到了餐桌上,到底喝了什么酒、吃了哪些菜,并沒留下什么印象。因為在吃飯喝酒時,他們腦袋里依然轉的是GPU工作穩(wěn)定性問題。幾個人一放下碗筷又直接回到機房,一頭扎進浩如煙海的GPU技術資料里,苦苦尋找破解迷霧的那一縷曙光。又是連續(xù)幾天吃住在機房……

  8月4日上午,網上一個曾瀏覽過的有關GPU超頻提高性能的帖子突然浮現在楊燦群腦海。帖子上說,GPU超頻可以提高性能,但會導致GPU運行不穩(wěn)定,甚至系統(tǒng)黑屏。

  楊燦群突發(fā)奇想,按照逆向思維,如果選用的GPU具有調頻功能,讓GPU降頻不就可以提高它的穩(wěn)定性嗎?

  天隨人意,拿過使用的那款GPU一看,恰恰具備調頻功能。大家趕緊對它進行降頻處理。結果GPU穩(wěn)定性問題終于迎刃而解。

  GPU計算效能、穩(wěn)定性關鍵技術探索艱難曲折,其他關鍵技術攻堅也跌宕起伏、步步驚心。

  超級計算機系統(tǒng)要實現每秒運算千億次,不僅要求CPU、GPU“算得快”,而且要求有一個快捷通暢的網絡系統(tǒng),讓各種信息“跑得快”。

  2008年10月,蘇金樹帶領大伙受領的某新型交換機項目,是每秒千萬億次超級計算機通信網絡的“立交橋”,直接決定著網絡通信速度。通過深入調研、嚴密論證,他們提出正交系統(tǒng)互連方案,使系統(tǒng)結構簡潔,設計難度、制造工藝要求、研制和生產成本大幅降低。

  但通過互聯(lián)網將正交互連方案和芯片制造商美國技術工程師交流后,遭到堅決反對,對方在三封郵件和四次電話會議中反復強調:

  一、他們也研究過正交互連,也進行過正交互連結構條件下的仿真、實驗和測試,結論是:信號傳輸損耗大,阻抗不連續(xù),不能滿足該型交換機信號傳輸要求。

  二、該型交換機設計非常困難,他們用了兩年多時間才完成,沒有他們的技術支持,不可能成功。

  三、如果堅持正交互連方案,他們將不給予正確的技術支持。

  四、如果堅持正交互連方案,必以失敗告終。

  研制工作一開始就陷入兩難境地。如果堅持走自己的設計路線,需要一切從頭探索,創(chuàng)新難度大,風險高;如果改方案,完全按美國人提供的方案搞,成功有把握,但沒有自己的特色,沒有創(chuàng)新,沒有優(yōu)勢。

  從來就不迷信和崇拜別人的銀河人堅定地選擇了前者。他們堅信沒有美國人的技術支持,中國人照樣把新型交換機搞出來。他們說,20世紀60年代,蘇聯(lián)撤走專家,中國照樣搞出了原子彈!90年代,英國撤走汽車專家,中國照樣搞出了小汽車。很多事實已經證明,死了“張屠夫”,中國人照樣不吃“帶毛豬”。

  他們通過兩個多月夜以繼日的仿真和試驗,發(fā)現在正交互連條件下,美國人的試驗方案和設計規(guī)范,確實不能滿足某新型交換機信號的傳輸要求。但深入研究了信號完整性方面的相關理論和技術及美國人的設計規(guī)范后,終于發(fā)現他們所使用的矩形反焊盤,是導致信號傳輸損耗大和傳輸阻抗不連續(xù)的主要原因。針對該薄弱環(huán)節(jié),他們發(fā)明了跑道式和啞鈴式反焊盤,通過三個多月反復迭代仿真,得到全面設計規(guī)范,關鍵的眼圖技術參數達到60ps,遠遠大于美國人的35ps。

  僅用10個月時間,他們就研制完成新型交換機。實測技術指標大大超過同類系統(tǒng),而成本是同類同規(guī)模產品的80%。

  高速互聯(lián)網上交換芯片、接口芯片測試,也經歷了一番迂回坎坷。

  研制小組經過半年多連續(xù)奮戰(zhàn),完成邏輯設計和軟硬件模擬時,離芯片最后投片期限只有3天了。

  大家把最后版本的邏輯設計都綜合在FPGA測試軟件中,準備進行最后完全測試。這也是研制工作關鍵點之一,如果通過了,那就萬事大吉;如果卡了殼,那就前功盡棄。

  測試程序啟動后,大伙都把眼睛睜得圓圓的,緊緊盯著屏幕。突然,那些歡快滾動的數據一下撞到墻上似的,一動不動了。

  大伙心里一沉,這是怎么回事?

  趕緊檢查外圍,發(fā)現光纖好好的。

  檢查服務器,服務器也活著。

  查看交換機,交換機也有電。

  又查以太網,也是工作正常。

  最后,大家抱著試試看的想法,讓它從頭開始運行。那些數據又開始滾動起來,可幾分鐘后,又故態(tài)重萌,躺著不動了。

  死鎖!大家一下子都急出一頭冷汗。要解開這把死鎖,首先必須查明它“死”在哪里。

  查因的突破口首先選在測試試題與測試模式結合部。負責測試操作的劉路和設計測試題的謝閔,由于年輕氣盛,加之急火攻心,兩人一碰頭便“吵”了起來。

  謝閔正忙著測試另一個驅動程序,劈頭便問劉路:“我那邊正忙呢,你叫我干什么?”

  劉路說:“把所有測試題都加進去跑,運行一會兒就死鎖了,會不會是你編的測試題不能一起跑?”

  謝閔說:“不可能,單個題能跑,混合在一起跑不會有影響。”

  劉路說:“那不一定吧,單個跑和混在一起跑,能一樣嗎?”

  謝閔說:“你放心,我所有的題都內部做了流控,絕不會出現相互擁擠現象。”

  劉路說:“別的題單獨跑沒問題,說明硬件沒問題。偏偏跑你的題死鎖,不是你的題有問題,是什么?”

  謝閔說“我還懷疑你們的測試模式有問題呢!”

  沉默一陣,兩人幾乎同時朝對方擺擺手說:“咱們再爭是浪費時間。”兩人商定按老規(guī)矩,都去自查原因,自證清白,再合作解決。

  研究室領導帶著大家忙了一個晝夜,結果卻發(fā)現測試題和測試模式都沒問題。

  難道是接口芯片出問題了?大家將所有接口芯片統(tǒng)計計數器的值讀出,結果四個接口芯片流出的數據包的個數恰好等于四個接口芯片流入的數據包的個數,這說明正常呀。

  他們不得不把懷疑的目光移向交換芯片。要是在這最后時刻發(fā)現它有問題,后果不堪設想呀。就在大家都懸著一顆心,緊鑼密鼓苦讀代碼時,卻意外地從測試用的FPGA版本上發(fā)現了疑點。

  把FPGA版本進行更新再運行時,那些數據終于又快樂地跳躍起來。兩種芯片都按時一次投片成功。

  大伙擦去額頭上的汗珠,輕松地吁了口氣:“要是再查不出原因,耽誤了投片,拖了工程后腿,我們可沒法向黨和人民交代呀。”

  在大家艱難曲折、鍥而不舍的攻堅中,各項關鍵技術相繼突破。

  銀河麒麟操作系統(tǒng)?;A軟件創(chuàng)新團隊針對每秒千萬億次超級計算機需求,在麒麟操作系統(tǒng)基礎上改造升級,研制出支持異構融合體系結構、突破64位多核多線微處理器體系結構與SoC架構支持、支持基于高階路由的高速互聯(lián)通信、提供多級并行編譯優(yōu)化支持和高性能虛擬計算域管理能力、基于軟硬一體的低功耗控制技術實現了一體化能耗管理框架的銀河麒麟操作系統(tǒng)。它是純粹的“中國制造”,是國內安全級別最高的操作系統(tǒng)。

  基于高階路由的高速互聯(lián)通信。突破了片上高階網絡體系結構技術,自主設計了高效通信協(xié)議、高階瓦片式(Tile)片上交換網絡和高密度片間互聯(lián)網絡,使鏈路雙向通信帶寬達到160Gbps、單背板交換密度達到61.44Tbps,分別為當時國際主流商用互連IB QDR的2倍和2.37倍。

  多級并行編譯優(yōu)化。設計了優(yōu)化資源利用的多核多線調度機制、多級并行動態(tài)負載平衡算法、全程序過程間分析等編譯算法,高效支撐JASMIN編程框架,實現易用高效的應用編程與運行。

  高性能虛擬計算域。突破了高效用戶容器技術、負載均衡技術和虛擬化網絡終端技術,創(chuàng)新地在高性能計算機系統(tǒng)中實現了安全隔離和可定制用戶環(huán)境功能,有效提升了安全性和易用性。

  軟硬一體的低功耗控制。設計了一體化能耗管理框架,通過監(jiān)控系統(tǒng)自反饋冷卻調節(jié)、處理器調頻調壓和自適應結點能耗狀態(tài)轉換等方法,有效降低了系統(tǒng)運行功耗。

  ……

  2009年國慶節(jié)來臨前夕,每秒千萬億次超級計算機一期系統(tǒng)安裝完畢。這時,從芯片市場傳來一個喜訊,一款性能更高的新款GPU上市了!這對于正與世界強國決戰(zhàn)的銀河人來說,就像在國際足球賽中的前鋒面前突然出現了空門,讓大家興奮到狂喜。

  但這“臨門一腳”并不好踢:一是離任務節(jié)點只有一個月了,而更換GPU必須先拆再裝,整個系統(tǒng)有2560多個節(jié)點,團隊完成更換GPU的工作通常需要半個月左右。而且更換了新GPU之后,就必須對原先的軟件優(yōu)化措施加以改進,能按時完成任務嗎?

  總師楊學軍把一線攻關團隊集合起來,大聲問大家:“這新款GPU,我們上不上?”

  大家異口同聲:“上!上!上!”

  “按時完成黨和國家交給我們的任務,有沒有信心!”

  “保證完成任務!”

  國慶節(jié)來臨了,最后的突擊開始了。測試篩選、拆卸安裝GPU,是個體力活。團隊全體人員,男女老少齊上陣,三天三夜,誰也沒合過一下眼,終于完成數以千計的GPU更換工作。

  任務完成后,楊學軍再次把大家集合起來,看著大家一雙雙貼滿創(chuàng)可貼的手,熬得通紅通紅的一雙雙眼睛,他的眼睛也紅了。

  2010年11月18日,國際超級計算大會在美國西部城市波特蘭舉行,國際TOP500在大會上發(fā)布第34屆國際500強排行榜時,立刻引起一片驚嘆。

  此屆榜單,爆出兩大新聞。一是被稱為超級計算“老祖宗”的美國Cray公司,終于憑借峰值速度達每秒2331萬億次、實測性能達每秒1759萬億次的“美洲虎”,取代了長期霸居榜首的IBM公司,一舉拔得頭籌。二是“天河一號”奪得世界第五,不僅是中國機器在TOP500排名中的最好成績,而且名次較此前實現了大幅飆升。

  “天河一號”總師楊學軍收到大洋彼岸打來的報喜電話,只是淡淡一笑,輕輕“哦”了一聲,便放下了手機。自從加入銀河人行列,尤其是接過銀河事業(yè)帥旗以來,他帶領大伙在超級計算機前沿陣地沖鋒陷陣,屢克難關,碩果累累,曾獲得國防科技進步特等獎、一等獎,國家教學成果一等獎,國家技術發(fā)明二等獎,軍隊專業(yè)技術重大貢獻獎,國家杰出青年科學基金、創(chuàng)新研究群體科學基金,榮立一等功。每次得知喜訊,或收到獎狀、獎章,他都是這般一笑而過。在他腦海里,完成一個項目、攻克一個難題、取得一個成果,無論影響有多大,都像他母親所說的“又做了一件事情”而已。

  要說得到喜訊,與過去有什么不同,就是他忽然感覺非常疲倦。自從“天河一號”工程啟動后,身為工程總設計師,他既要處理行政事務,又要謀劃工程進展,還要深入科研一線指導攻關,整天腦子繃得像根弦、身子忙得似飛轉的陀螺,根本感覺不到疲勞,甚至不知什么是饑餓。

  他往床上一倒,便進入甜蜜的夢鄉(xiāng)。睜開眼睛時,他看到玻璃窗上映著一方金色陽光,一只小鳥站在窗外的枝頭上“啾啾”歡叫。

  他揉了揉眼睛,問在大廳里忙碌的妻子:“玉華,幾點了?”

  妻子說:“快八點了。”

  “今天幾號?”

  “20號,你足足睡了兩天呢。”

  楊學軍愜意地舒展一下胳膊,吃過妻子備好的早點,然后來到銀河廣場,像往常那樣點上一支煙,一邊漫步,一邊任思緒隨那裊裊煙霧飄向廣袤的天空。

  作為一名長年在超級計算機前沿陣地上征戰(zhàn)的老將,他深知我們國家目前的快速發(fā)展,非常需要堅實的科技支撐,而我國超級計算機研制水平,與發(fā)達國家相比,不僅不能同日而語,其應用意識、應用水平更是相去甚遠。在高性能計算這個充滿火藥味的競爭領域里,稍有懈怠,就會被別人趕超甚至被淘汰。所以,“天河一號”研制成功,對于他來說,和過去攻克的每一個科技“堡壘”一樣,只不過是一個逗號,而逗號的后邊,還有無數個問號,在等著他帶領團隊去求索、去破解。

  傍晚,“天河一號”工程總師楊學軍, “天河一號”工程總指揮廖湘科,計算機學院政委周建設,一起來到學校辦公大樓前廣場上散步。

  楊學軍說:“黨中央提出建設創(chuàng)新型國家、建設信息化人民軍隊宏偉目標,學校作為強軍興國先鋒,任重道遠啊。”

  廖湘科說:“據參加國際TOP500頒獎典禮的同志通報說,雖然我們的排名名次提升很快,但與發(fā)達國家相比,我們還存在較大差距,在整個500強中,美國就占了277套系統(tǒng),而我們只有21套系統(tǒng)。國家已經制定超級計算機整體趕超計劃,我們作為計算機技術創(chuàng)新國家隊,一定要多發(fā)揮作用、發(fā)揮大作用。”

  楊學軍說:“雖然獲得了亞洲第一,但我們的目光絕不能只盯著亞洲,而是要放眼世界。”

  周建設說:“搶占高峰,超越世界,是我們一代代銀河人追逐了幾十年的夢想。大家聽到我們的機器躋身世界前五的消息后,都非常振奮,心里都憋著一股子勁,都渴望著在‘天河一號’二期工程中,乘勝沖擊超級計算機珠穆朗瑪峰。”

  楊學軍說:“‘天河一號’二期系統(tǒng)不僅要力爭機器各方面性能全面大幅躍升,并且一定要用上自己研制的CPU,逐步改變微處理器依賴進口的局面。”

  “中國機器,外國芯”,是銀河人心頭難言的遺憾、隱隱的痛。

  為讓中國機器擁有“中國芯”,2008年啟動“天河一號”工程時,國防科技大學微處理器技術創(chuàng)新團隊開始研制設計“飛騰1000”芯片。

  為讓“飛騰1000”達到國際先進水平,而且便于推廣應用和可持續(xù)發(fā)展,創(chuàng)新團隊順應國際微處理器發(fā)展潮流,選擇兼容生態(tài)系統(tǒng)良好的SPARC指令系統(tǒng),采用多核多線程SOC體系結構,片內集成了8個處理器核,每個核8個線程,成為國內單芯片線程最多的處理器。此外,還面向超級計算機研制需求,在“飛騰1000”中集成了3路芯片直連接口,支持2—4處理器芯片直接互聯(lián)構成多路SMP系統(tǒng);集成4MB共享二級Cache和4路DDR3存儲控制器(MCU),使數據處理和訪存帶寬更好匹配,緩解存儲墻壓力。

  有人把這一研制目標形象地概括為“一步登天”。這四個字,透顯出如虹氣勢,也意味著艱難險阻。

  研制工作剛展開,DDR3 調測試就遇到雙重挑戰(zhàn):一是dimm條上的控制芯片與最新的DDR3規(guī)范有些不兼容,導致多個rank同時刷新的命令無法存儲,丟失數據;二是由于芯片規(guī)模大,封裝難度高,芯片到dimm條的時鐘占空比不理想。大家苦熬幾個通宵,才找到最佳辦法,選出最優(yōu)方案,圓滿解決問題。

  不久,長沙遭遇“2008冰雪災害”,輸電線路慘遭破壞,城區(qū)管理部門被迫出臺限電令,禁止使用空調。室外白雪皚皚,室內寒似冰窖。長期集中攻關的科研人員,大多患有腰肌勞損,讓寒氣一逼,腰酸背痛,但他們拿被子往腰上一圍,繼續(xù)堅持工作。

  天氣暖和了,設計工作告一段落??芍瞥蓸悠泛螅职l(fā)現性能不達標。費了九年二虎之力,才發(fā)現是合作單位對頂層困難估計不足,導致頂層規(guī)劃出現問題。沒辦法,只好推倒重來,重新確定新的物理設計方法,大幅提高了產品性能。

  10月份,“秋老虎”走了,但難度最大的“攔路虎”卻跳了出來。由于設計規(guī)模巨大,synopsys ICC工具失去作用,Cadence Encounter基本繞線不通。此時,離芯片投片已不足兩個月。

  大家知道,逾是形勢緊迫,逾要沉著應對。通過仔細分析設計數據、梳理數據流向,提出頂層設計新方案。該方案雖然需要頂層設計及其功耗設計、封裝設計等一系列工作推倒重來,工作量巨大,但科學可行,贏得總師組支持和合作單位密切配合。通過20多天緊急突擊,使時序違反的路徑迅速收斂,最終完全收斂了下來。

  當時光完成一個輪回,再次跨入深冬季節(jié)時,芯片設計進入最后時序檢查階段。就要大伙想經歷了無數不眠之夜,總算走過了千難萬險,終于可以回家美美睡上一覺時,一個意想不到的問題,又斜刺里殺了出來——設計流程在分層延遲計算和信號完整性方面存在重大隱患。若不排除,整個CPU將功虧一簣。

  大家立馬重整旗鼓,對問題隱患進行密集排查“圍剿”,終于找到并成功排除“元兇”,使所有數據回歸正常。

  “飛騰1000”通用CPU,按時完成設計,并一次性投片成功!

  次日,國防科技大學計算機學院超級計算機創(chuàng)新團隊召開“天河一號”二期系統(tǒng)決戰(zhàn)動員會。大家高舉右手,喊出了銀河前輩鏗鏘的聲音:

  時間一年,一天不超!

  每秒4700萬億次,一次不少!

  一定要部分使用國產飛騰CPU!

  “上甘嶺戰(zhàn)役”

  很多同行專家聽了他們的決心,既深表欽佩,也為之擔心:“在一年時間里,機器性能提升近3倍,除非奇跡發(fā)生。”

  從一期系統(tǒng)的每秒1206萬億次,到二期系統(tǒng)的每秒4700萬億次,并不是數字的簡單拓展。運算峰值提升近三倍,而機柜數量卻只能增加四分之一左右,意味著一組同樣大小的機柜,二期系統(tǒng)的性能要比一期系統(tǒng)提升兩倍多,這給研制工作提出了一系列挑戰(zhàn),需要跨越多核多線程體系結構與片上并行系統(tǒng)設計技術、編譯系統(tǒng)全程序過程間分析等編譯優(yōu)化、自主高效的通信協(xié)議、高階路由器體系結構、超大規(guī)模集成電路設計與高速率高密度交換機的設計等一系列技術難題。這些技術障礙,哪一個都不是小溝小坎,全是深澗巨壑。

  大伙頗有深意地說:“‘天河一號’二期系統(tǒng)攻堅,是一場‘上甘嶺戰(zhàn)役’。”

  參與工程任務的科研人員,就像當年在上甘嶺上與美帝國主義侵略者決戰(zhàn)的將士。為了國家榮譽、民族尊嚴,以連續(xù)作戰(zhàn)的作風,頑強拼搏的意志,“舍身炸碉堡”的勇氣,向著科學巔峰躬身沖刺!

  通信光纖鋪設,是“天河一號”二期系統(tǒng)進駐國家超算天津中心的首期工程,時間緊迫、任務艱巨。為確保按期完成施工任務,指揮員把任務細化到天,要求大家“當天任務不完成當天不吃不睡”。

  哪知施工第一天,剛鋪了幾根光纖,施工指揮員拿起一看,立刻傻眼了:光纖的絕緣膠皮被磨出了道道裂痕,個別地方還露出線芯。

  原來地溝的水泥表層太粗糙,加之時值盛夏,地溝溫度高達40多度,把光纖絕緣層烤得似細皮嫩肉,哪經得起水泥地的摧殘。

  這個問題不解決,后果不堪設想。輕則信號中斷、通信短路,重則導致系統(tǒng)紊亂。

  如何避免光纖絕緣層受損?

  大家絞盡腦汁,也沒想出個法子來。急得指揮員抓耳撓腮,一屁股坐在地上:“嗨!這可怎么辦?”

  時間,在嘀嘀嗒嗒一秒秒過去。大伙討論了兩個小時,還是沒招。

  指揮員抹了一把臉上的汗水,舉著手掌愣了愣,然后一拍大腿說:“有辦法了!”

  只見他把襯衣、褲子一脫,跳進悶熱的地溝,俯臥在粗糙的水泥地上。

  大家一看,立刻明白了指揮員的意思,不用誰下令,紛紛脫下身上的衣褲,跟著跳進地溝,鋪設了一條光滑的人肉地毯。

  一根根光纖順著官兵光滑的皮肉通暢地向前延伸。滾燙的水泥地灼烤著官兵的血肉之軀,大家一身汗水、滿身污垢。

  背上被磨得通紅,官兵們咬牙堅持;

  皮肉被磨破了,他們依然一動不動;

  傷口不住地往外滲著血水,還是沒有一人撤退;

  ……

  天津濱海新區(qū)一名領導看見這一幕,非常感動。“戰(zhàn)爭年代,我軍將士為民族獨立、人民解放,用血肉之軀堵槍眼,炸碉堡。和平時期,人民子弟兵,跳進洪流堵潰堤,冒著地震救災民。今天,我又看見我軍科研人員,為保護科研器材,赤身裸背臥地溝,流汗淌血不后退。人民軍隊的光榮傳統(tǒng),在你們身上沒有丟!我們國家有這樣科研隊伍,再艱難的工程也能拿下!”

  一個月,他們幾十個人,在粗糙悶熱的地溝里赤身裸背爬了30天。一個個被堅硬的水泥地和光纖刮擦得遍體鱗傷。但15000根光纖毫發(fā)無損!

  “天河一號”二期系統(tǒng)試機那天,一打開機器,全部通信線路暢通無阻。國家超算天津中心領導,特意來到擔負光纖鋪設任務的官兵中間,一一察看他們背上那些尚未痊愈的傷口,動情地說:“‘天河一號’二期系統(tǒng)首試暢通,有你們的貢獻!功勞簿上,有大家的名字!”

  楊燦群帶領計算效能提升團隊在國家超算天津中心天河機房擺開了戰(zhàn)場。他們的第一個任務,就是確保系統(tǒng)所有部件連續(xù)穩(wěn)定運行4小時以上。哪知一開機,系統(tǒng)又出問題了。

  他們到天津前,就在長沙做了四個機柜的驗證系統(tǒng),進行了穩(wěn)定性調試,沒有發(fā)現任何問題。天津系統(tǒng)所使用的部件與長沙系統(tǒng)完全一樣,為什么就出問題了呢?

  楊燦群抬頭望一眼天河機房,有種一眼望不到頭的感覺。并排矗立的140組機柜,其中包含了數以萬計的部件,只要其中一個部件、一個系統(tǒng)出問題,都會影響系統(tǒng)的穩(wěn)定性。這個問題部件、系統(tǒng)在哪呢?楊燦群和大伙仿佛一腳踏進一個深坑,眼前一片漆黑。

  在黑暗中探索好幾天,他們才發(fā)現問題竟然出在水冷系統(tǒng)上:由于水量不足,散熱功能下降,造成超級計算機系統(tǒng)溫度過高。

  隨著系統(tǒng)調試全面展開,他們又發(fā)現GPU也存在抽風似的波動現象。大伙通過對GPU穩(wěn)定性相關因素,如GPU自身、GPU的供電模塊、GPU與主機的通信接口卡、GPU散熱等,一一進行大量采樣分析,沒有發(fā)現任何蛛絲馬跡。他們又對GPU工作狀態(tài)溫度進行監(jiān)控,通過大量數據采樣分析后,發(fā)現同一個刀片上的兩顆GPU的工作溫度有明顯差異。通過發(fā)明風量“挖補”技術,終于徹底解決了散熱不均勻問題,實現了GPU穩(wěn)定工作。

  “天河一號”二期系統(tǒng)采用自主研制的互聯(lián)網絡系統(tǒng),是個全局性的設備,也是影響系統(tǒng)穩(wěn)定運行的關鍵因素。加之規(guī)模巨大,結構復雜,不僅測試難度大,而且一旦出現問題,查因、維修困難,。他們通過與互聯(lián)網絡系統(tǒng)科研人員密切配合,依據網絡特點研究測試方法,編寫了分組、并發(fā)等多種測試代碼,高效實現了網絡接口、網絡路徑全覆蓋測試,實現了故障快速定位和排除。

  又一個國慶佳節(jié)來臨之際,“天河一號”二期系統(tǒng)終于達到穩(wěn)定工作目標。

  已連續(xù)奮戰(zhàn)兩個月的楊燦群和戰(zhàn)友們顧不上坐下來喝杯茶、歇歇氣,立刻對系統(tǒng)計算效能進行最后優(yōu)化。他們逐個測試系統(tǒng)各個計算結點,排除了內存故障、GPU故障影響計算效能問題,使計算效能提升到每秒1890萬億次。

  初戰(zhàn)告捷,他們趁勢擴大戰(zhàn)果,又對應用軟件進行優(yōu)化,使系統(tǒng)性能達到每秒2339萬億次。

  這已經是個奇跡了。當時世界排名第一的美國“美洲虎”超級計算機,其計算效能也只有每秒1767萬億次。如果按照國際TOP500組織以計算效能排名,“天河一號”二期系統(tǒng)已將它遠遠甩在后邊。

  但楊燦群和同事們還不滿足。他們認為“天河一號”還有潛力可挖。把“美洲虎”甩得越遠,“天河一號”對世界第一的沖擊力就越大。

  他們繼續(xù)把自己關在機房,發(fā)起最后沖刺。

  10月19日下午,楊燦群到北京辦事。汽車在京津高速公路上奔馳,在通過一個立交橋時,他看著來自四面八方的車輛匯集在橋上,然后又有序地駛上四面八方,腦袋里突然靈感閃現:如果把超級計算機網絡喻為城市交通樞紐,網絡路徑就是一條條城市街道,這些街道的交會點,往往成為交通堵塞區(qū),車輛只有合理放行,才能保證交通暢通。

  楊燦群馬上給同事打電話,讓他們關注網絡路徑,修改參數,對超級計算機計算效能再次優(yōu)化。

  當天晚上,“天河一號”計算效能再次沖高——每秒2490萬億次。

  次日,奇跡再現——每秒2507萬億次!

  10月30日,“天河一號”二期系統(tǒng)就要向國際TOP500組織遞交測試結果的前夕,他們仍在繼續(xù)優(yōu)化,并再下一城,將系統(tǒng)計算效能提高到每秒2566億次,計算效率達到54.6%,屬于世界最高水平。

  參與工程研制的科學家們用奮不顧身的沖刺,把一個個科學“高地”踏在腳下:攻克了超級計算機CPU間高速高效互聯(lián)通信這一世界難題,研制成功高階互聯(lián)交換芯片、高性能互連接口芯片;研制成功4類結點機、2套網絡、15種印制電路板;編寫完成操作系統(tǒng)、編譯系統(tǒng)、并行程序開發(fā)環(huán)境與科學計算可視化系統(tǒng)。其中,異體融合體系結構、基于高階路由的高速互聯(lián)通信等技術達到國際領先水平。

  他們還在“天河”機上實現了“中國芯”從無到有的突破,在二期系統(tǒng)中安裝了2048顆“飛騰1000”通用CPU。如果用戶要求,可全部實現國產化,通過高效互聯(lián)通信,形成完全自主的高性能計算機。

  曾幾何時,很多外國專家在表達對中國計算機技術的鄙視時,總是這樣發(fā)問:“你們中國的超級計算機有‘中國芯’嗎?”

  現在,還是讓國外專家自己來回答吧。

  全球超級計算機500強排行榜主要編撰人之一、美國田納西大學計算機學教授唐加納,考察了“天河一號”二期系統(tǒng)后,發(fā)表評論說:“雖然‘天河一號’二期系統(tǒng)的處理器仍主要采用美國產品,但其互聯(lián)芯片完全是中國自主制造的,并且中國已經有自己的CPU了?;ヂ?lián)芯片主要涉及處理器之間的信息流動,對于超級計算機的整體性能起到關鍵作用。中國制造這些互聯(lián)芯片,具有世界最先進的水平。”

  唐加拉教授是國際高性能計算機領域的知名專家,他的評價是比較客觀的。國防科技大學自主研制的高階路由芯片和高速網絡芯片,其性能是國際商用芯片的兩倍。“銀河飛騰1000”在“天河一號”二期系統(tǒng)成功使用,標志著中國信息產業(yè)“空心”歷史開始走向終結。

  “天河一號”二期系統(tǒng)較一期系統(tǒng),性能再次大幅躍升:峰值速度每秒4700萬億次和持續(xù)速度每秒2566萬億次,分別提高了2.89倍和3.55倍;計算效率再次提高近10%。

 

  從巔峰悄悄出發(fā)

 

  僅僅半年后,即2011年6月國際TOP500發(fā)布新榜單時,日本公司研制并安裝于本國理化研究所的超級計算機“京”,扶搖直上,取代“天河一號”占據了榜首位置。2012年6月、11月,美國的超級計算機“紅彬”“泰坦”,又先后登上國際TOP500排名之巔。“天河一號”排名跌到世界第8。

  這一跌,跌得國產超級計算機的“粉絲”們好心疼、好心酸、好失望啊。“‘天河一號’怎么啦?怎么曇花一現就被滾滾大潮淹沒了呢?”

  心懷叵測者又開始鼓噪:“國產機器就這樣,只是個政治標本而已。”

  而這時,天河人卻出奇地冷靜,不驚慌,不解釋,不反駁,更不沮喪。

  對于日、美的反超,天河人早有預料。這是人家的優(yōu)勢領域、戰(zhàn)略領地,是別人耀武揚威、傲視世界的地方,豈能容一匹“黑馬”撒蹄狂奔?再說,超越與被超越的角色輪回,仰視與俯視的狀態(tài)更替,既是科技發(fā)展的常態(tài),亦是科技進步的動力,用不著耿耿于懷,更犯不上驚慌失措。沉默,往往體現的是自信和力量。

  更重要的是,雖然“天河一號”沖頂成功,掌聲與鮮花讓人感到自豪與欣慰,但天河人從未因此而得意忘形、心浮氣躁。他們深知,世界超算領域的“游戲規(guī)則”并未因“天河一號”的出現而改變。

  聽聽天河人對媒體記者說的那些話吧:

  “就整體實力而言,第一梯隊仍然是美國。‘天河一號’暫時勝出,只能說明我們已經站在第二梯隊的前列。”

  “在最新TOP500排行榜中,美國上榜計算機230多臺,并且全部由美國公司自己研制,僅惠普、IBM、克雷三家公司,就制造了500強中的409臺。IBM公司內部員工流傳一句笑話:在超級計算機領域,97%的市場份額來自IBM公司,剩下的3%來自IBM二手機器。日本上榜的30臺機器中,日本制造僅占37%,其余均為美國制造;中國上榜76臺,中國制造只有13%,電信、互聯(lián)網等領域的用戶大多使用惠普、IBM系統(tǒng)。中國超級計算機總體水平與美國相比,差距不是一點點,而是一大截。”

  “中國的整體系統(tǒng)已經走在世界領先,但就高性能計算機完整產業(yè)鏈而言,中國還有很長的路要走。”

  “體系結構、互聯(lián)技術、操作系統(tǒng)、微處理器、應用軟件,是超級計算機缺一不可的五大核心要求,前三個中國都解決得很好,但后兩個仍然是短板。”

  “我國在核心部件與原創(chuàng)技術上,與國外先進水平差距不小。如CPU的物理設計與美國起碼差一代,工藝起碼差兩代。”

  “應用方面也一樣,美國、日本等超算技術發(fā)達國家,超算與社會生產發(fā)展實現深度融合,推動了汽車、飛機、航天、電影等一大批產業(yè)快速發(fā)展。而我國的超級機只在一部分專業(yè)領域得到成功應用,應用瓶頸尚未完全突破,既影響社會進步,也遲滯了超級計算機的發(fā)展。”

  “人才方面更處于劣勢。美國有超過1萬人的超級計算機高級專業(yè)人才,中國用高薪也聘不到幾個人。深圳超算中心開出年薪100萬,還是一才難求。”

  “雖然‘天河一號’在國際TOP500奪魁,但西方國家在信息技術領域的優(yōu)勢地位沒有改變,美國在超級計算機研制和應用的主導地位沒有改變,世界強國爭奪超級計算機領先地位的態(tài)勢沒有改變。”

  三個“沒有改變”,既是對超級計算機領域各國實力的準確概括,也是對天河人勇奪第一后平靜心態(tài)的生動寫照。

  落差蘊含能量,距離激發(fā)動力。正如中國科學院院士、“天河一號”總設計師楊學軍所說:“從‘天河一號’問世那天起,‘天河二號’的攻關就開始了。在對國際高性能計算發(fā)展趨勢進行分析后,我們瞄準了每秒億億級機器的研制,決心在引領世界超算發(fā)展中作出新的貢獻。”

  “吃著碗里的、看著鍋里的、想著缸里的”,這是銀河人、天河人的傳統(tǒng)思維。

  “與其說給別人聽,不如做給別人看”,這是銀河人、天河人的行為風格。

  他們剛剛占領巔峰,又從巔峰悄悄出發(fā),向著新的巔峰進擊。

  2011年1月,國防科技大學召開“天河工程領導小組會議”,啟動“天河二號”每秒億億次超級計算機認證與預研工作;計算機學院院長、“天河一號”研制總指揮、副總設計師廖湘科,擔任“天河二號”研制總指揮、總設計師。

  3月,國防科技大學與廣州市政府開始洽談共建“廣州超級計算中心”合作事宜。

  11月,國防科技大學“新一代天河超級計算機研制項目”通過國家科技部組織的專家評審,并與廣東省、廣州市、中山大學簽署“省市校共建廣州超級計算中心協(xié)議”。“天河二號”攻關全面展開。此后,與廣州市簽署“廣州超級計算中心‘天河二號’研制合同”,并確定中心選址于廣州大學城的中山大學校區(qū)。

  2012年5月,國防科技大學向廣州超算中心提供先導超級計算機,支持開展前期業(yè)務。

  ……

  沉寂兩年半后,“天河”超級計算機雄姿再現,王者歸來。于2013年6月在國際TOP500排名中,重新占領世界超算之巔!

  “天河二號”峰值速度達到每秒54.9千萬億次,持續(xù)計算速度達到每秒33.86千萬億次,綜合技術處于國際領先水平。

  它比此前排名世界第一的美國“泰坦”超級計算機,計算速度快2倍,計算密度高2.5倍。

  它與“天河一號”相比,計算性能、計算密度均提升10倍以上,能效比提升2倍,耗電量卻只有“天河一號”的三分之一。

  若想探索地球氣候變化規(guī)律,“天河一號”可以模擬2000年前的氣候變遷,“天河二號”能夠回溯到5000年前。

  進行500人規(guī)模的全基因組信息關聯(lián)性分析,華大轉基因用自有計算機系統(tǒng)需要一年完成,運用“天河二號”只需要3小時。

  電影《阿凡達》動漫渲染制作耗時一年多,若用“天河二號”,1個小時便可完成。

  用傳統(tǒng)方法研發(fā)新型轎車,要經過上百次碰撞、歷時兩年多實驗,利用“天河二號”只需3至5次碰撞、兩個多月便可實現。

  “天河二號”的計算能力,名富其實的“超級”“神算”!

  那些對“天河”超級計算機說三道四、橫挑鼻子豎挑眼的人,終于暫時把嘴閉上了。

  現在該輪到科學家發(fā)聲了。中國科學院軟件研究所研究員張云泉自豪地說:“體系結構之路上,中國人在拉著世界走!”

  外國科學家也紛紛說出了公道話。

  美國英特爾公司副總裁雷杰伯·哈茲拉說:“‘天河二號’的進步,不僅對中國科學界、產業(yè)界有利,而且將推動數十年內世界超級計算機技術的發(fā)展水平。這臺機器和其他超級計算機為全球日益增長的大數據處理需求提供了基礎設施。”

  美國勞倫斯·伯克利國家實驗室副主任霍斯特·西蒙說:“如果有人覺得中國人研制超級計算機只是噱頭,‘天河二號’就可以證明他們錯了。”

  沖刺!沖刺!沖刺!

  再次站在世界之巔的天河人,是怎樣一種心情呢?

  慶功宴上,“天河一號”總設計師、國防科技大學校長楊學軍,計算機學院院長、“天河二號”總設計師廖湘科,計算機學院政委劉學明相互敬酒時說的一番話很有代表性。

  楊學軍說:“國防科技大學從1958年研制成功我國第一臺專用數字電子管計算機,成為我國計算機科研和人才培養(yǎng)基地后,堅持瞄準世界前沿攻堅克難,引領著我國計算機技術不斷發(fā)展。尤其是1983年研制成功‘銀河—Ⅰ’每秒億次巨型機,實現了我國從大型機到巨型機的飛躍;1983至1997的14年間,研制‘銀河—Ⅱ’‘銀河—Ⅲ’,推動了我國巨型機從每秒億次到每秒10億次,再到每秒100億次的跨越,此后10年又相繼研制出每秒萬億次、30萬億次、100萬億次巨型機;在2007至2010不到兩年時間里,又在世界上率先創(chuàng)造出引領世界潮流的體系結構技術,使我國超級計算機從每秒百萬億次躍進到每秒千萬億次,奪得國際TOP500排名第一,圓了銀河人、天河人追求數十年的夢想?,F在我們再折世界桂冠,進一步鞏固了國家在世界超算領域的地位。這一系列跨越說明了什么?說明這是我們的傳統(tǒng)!同時也是責任?,F在信息技術領域發(fā)展神速,我們必須不斷挑戰(zhàn)自我、超越自我,稍有懈怠,就將被世界淘汰!”

  廖湘科說:“再占巔峰,并不是創(chuàng)新的休止符。在研制‘天河一號’‘天河二號’時,我們并沒有把十八般武藝都用上,我們的技術路線還有很大的發(fā)展空間,我們的隊伍還有很大的創(chuàng)新潛力。我們一定要,也一定能站得更高、走得更遠!”

  “黨的十八大召開后,習主席提出的中國夢強軍夢,讓廣大科技工作者深受鼓舞,大家紛紛表示要為中華崛起貢獻更多智慧、更大力量。”曾參加對越自衛(wèi)還擊戰(zhàn)的劉學明說,“科研攻關就像戰(zhàn)場,沖鋒是最好的防守,要想在這個戰(zhàn)場上立于不敗之地,需要我們沖刺!沖刺!再沖刺!”

  國防科技大學超級計算機創(chuàng)新團隊的確有著爭取更大成績、創(chuàng)造更大輝煌的實力。

  “聽到‘天河二號’再奪國際TOP500排名第一的消息,我覺得很了不起,但感到不奇怪,相反它不奪第一,我才覺得奇怪。”在國防科技大學軍事高科技培訓學院進修的一名將軍說,“國防科技大學高科技班剛開班那年,我就參加了團級干部培訓班,此后我又參加了師、軍職高科技培訓班。在國防科大學習生活累計近一年,我每天早上起來跑步時,都發(fā)現有人進出銀河樓、天河樓,一打聽才知道那些從樓里出來的是在實驗室熬了一個通宵的,那些進去的則是提前去實驗室做實驗的。而晚上,這兩棟樓里幾乎每一扇窗戶都亮著燈。春、夏、秋、冬,幾乎天天如此。我還從來沒見干工作這樣玩命的。”

  如果說這位將軍的話中透出的是超級計算機創(chuàng)新團隊的“軟實力”——奮勇進取、頑強拼搏的精神,那么他們的“硬實力”更為雄厚,那就是得天獨厚的技術優(yōu)勢。

  超級計算機有五個核心要素:體系結構、互聯(lián)技術、操作系統(tǒng)、微處理器和應用軟件。前三個要素,用天河人的話來說“這是我們的‘絕活’”。

  “天河一號”采用的CPU+GPU異構融合體系結構,是一項對傳統(tǒng)技術路線有著顛覆性創(chuàng)新意義的總體結構技術,有著低能耗、低成本、高集成度等優(yōu)點,因而很快成為國際主流。在此基礎上,天河團隊大膽創(chuàng)新,為“天河二號”設計出新型異構多態(tài)體系結構,大大提升了系統(tǒng)計算速度,并將其應用從科學計算拓展到大數據處理、大規(guī)模信息服務等領域。

  隨著超級計算機系統(tǒng)越來越復雜、規(guī)模越來越大,互聯(lián)技術的作用越來越大,甚至不亞于CPU。“天河二號”高速互聯(lián)系統(tǒng)性能,是當前國際商用互聯(lián)系統(tǒng)的兩倍。它可以把幾萬顆微處理器聯(lián)系起來,共同解決一個計算問題,解決了高效互聯(lián)中“微處理器越多效能越低”的世界難題。他們自主研制了互聯(lián)通信系統(tǒng)最核心的兩塊芯片:路由器和網絡接口。一臺超級計算機系統(tǒng)好比一個大城市,互聯(lián)通信系統(tǒng)就是城市的公路網,路由器就是立交橋,網絡接口就是主干道出入口。一個城市公路網市政設施建設得再好,立交橋和主干道出入口不設計好,城市交通依然擁擠不堪。他們在設計這兩塊芯片時,應用多種創(chuàng)新技術,實現了數據交換高效快捷。

  正如杰克·唐加拉教授在回答記者“什么使中國超級計算機如此神速”這一問題時說:“中國自主研發(fā)了內部互聯(lián)技術,這是買不來的。這是他們基于芯片、路由器及自主生產的交換器開發(fā)出來的。這跟Cray公司情況相似,Cray公司的貢獻除了集成以及軟件以外,還貢獻了內部互聯(lián)技術。他們運用無限帶寬技術的內部互聯(lián),將兩倍于內部互聯(lián)帶寬的東西整合在一起。”

  “天河”使用的操作系統(tǒng)也很有特色。它在大多數中國超級計算機使用外國操作系統(tǒng)的情況下,采用自主研發(fā)、以高安全性著稱的“銀河麒麟”操作系統(tǒng)。該操作系統(tǒng),使“天河”的每一名用戶像到銀行租了個保險箱一樣,鑰匙和密碼都握在自己手上。其中的信息,其他用戶甚至連管理員都看不到。一句話:“中國人自己研制的操作系統(tǒng),中國人放心用。”

  超級計算機后兩個核心要素——CPU與應用軟件,也正在迎頭趕上。

  讓中國超級計算機擁有一顆“中國芯”,是中國科學家久遠的夢想。國防科技大學成功研發(fā)“飛騰1000”CPU,并成功應用于“天河一號”,部分取代進口CPU,讓夢想成真。“天河二號”上的國產“飛騰1500”CPU占全部CPU的八分之一。若用戶需要,完全可以100%采用國產CPU。

  科學領域的巔峰,從來就不是靜止的,而是時刻在變化、在發(fā)展、在攀高。因此,巔峰不是科學家追求的終結,而是繼續(xù)沖刺的新起點。一次次把巔峰踏在腳下又一次次出發(fā),是科學家的生活方式和生命狀態(tài)。

  隨著天河人不斷向前跋涉的腳步,中國超級計算機技術創(chuàng)新不斷譜寫新的世界紀錄:

  2013年11月,在第四十二屆國際TOP500排名中,“天河二號”再度奪得世界冠軍。

  2014年6月,“天河二號”實現國際TOP500排名“三連冠”。

  2014年11月,“天河二號”以每秒33.86千萬億次的浮點運算速度,第四次摘得全球運行速度最快的超級計算機桂冠,持續(xù)計算速度比排名第二的美國“泰坦”快近1倍。這是“天河”系列超級計算機第五次奪得世界超算桂冠。

  ……

  雙科“狀元”

  中華民族的迅速崛起,就像是一個曾疾病纏身、弱不禁風的小伙子,突然變成一個體魄偉岸、孔武有力的壯漢子。小伙子自己是高興了,可那些已習慣于對他指指點點、吆三喝四甚至拳腳相加的人心里就不痛快了,于是就有了“中國威脅論”,就有了針對中國的“圍堵外交”,就有了“亞太再平衡”……

  與此同時,西方國家在中國培植的“應聲蟲”們,在一批以逆反為樂卻世事不諳的“憤青”們的附和下,玩起了唱衰中國的鬼把戲。但如何唱衰?直接指責中國執(zhí)政黨、中國政府,他們沒這個膽;直接說中國這政策不行、那政策不行,大概他們自己都覺得既露骨而又蒼白;說中國人這也不是、那也不是,他們又得顧忌自己身上還披著“中國人”的外衣。于是,他們就“曲徑通幽”,找點所謂的“事實”來說話。在此情況下,為中國人爭了大光,證明中國還行的“天河”超級計算機,就自然而然地成了他們說事的靶子、攻擊的目標。

  西方國家的“應聲蟲”的第一種論調是:“研制超級計算機,在中國都是政府投資,僅僅是政治需要,而并非實際應用,并不像美國、日本,純粹是市場行為。”

  誠然,包括“銀河”“天河”在內的國產超級計算機研制,均由政府主導。但“紅彬”“泰坦”“京”等世界頂尖超級計算機研發(fā),也都是由美國、日本政府直接投資,IBM、Cray、富士通等公司聯(lián)合國家科研單位研制的,這與中國研發(fā)模式毫無二致。研發(fā)超級計算機,從來都是為了解決涉及國家安全與發(fā)展問題的重大科學問題和增強綜合國力,都不是純粹的市場行為和商業(yè)利益驅動,任何國家無不如此。

  中國的超級計算機,也一直走的是研制與應用的道路。研制“天河一號”時,國防科技大學超級計算機應用創(chuàng)新團隊,在宋君強帶領下,積極深入用戶第一線,逐家拜訪重點用戶和潛在用戶,了解他們對科學工程計算、大數據處理以及高吞吐率和高安全信息服務等多種應用需求,在此基礎上提煉出對每秒千萬億次超級計算機設計的技術要求,不斷優(yōu)化機器使用環(huán)境,同時向用戶宣傳每秒千萬億次系統(tǒng)特點,引導用戶學習和采用新技術,促進了機器設計與應用的互補互促,為我國新一代超級計算機成為用戶“好用”“想用”的機型打下了良好基礎。“天河一號”投入使用后,構建形成了石油勘探、生物醫(yī)藥、動漫與影視特效渲染、高端裝備制造、地理信息等五大高性能計算應用平臺,取得了一批具有國際先進水平的創(chuàng)新成果。

  “天河二號” 研制戰(zhàn)役打響后,宋君強又帶領團隊針對多態(tài)應用多元需求問題,認真梳理規(guī)劃科研方向,在科學工程計算、超大資源規(guī)模的云服務平臺、大數據處理等方面進行一系列創(chuàng)新完善,使“天河二號”更加“好用”“實用”。此外,科研人員通過多層次容錯設計,實現了超大系統(tǒng)的智能化管理,實現了自動監(jiān)控、檢測、診斷、隔離系統(tǒng)運行時出現的故障,全系統(tǒng)連續(xù)穩(wěn)定時間比“天河一號”提高1.5倍,可靠性、可用性邁上一個新臺階。

  如此把事實一擺就不難發(fā)現,這些“應聲蟲”是用“市場行為”描述“主子國家”,用“政治任務”描述“自己國家”,其歸根到底還是西方國家“雙重標準”在超級計算機領域的翻版。

  “‘天河二號’只是理論速度最快,在以實用性為主要考量的Craph500榜單上名列第六。”這是唱衰中國超算的第二種說法。

  “天河”從奪冠到連冠,都是國際TOP500認定的,而且該機構排名依據并不是理論,而是LINPACK應用實測性能,這是已經實行了30多年、世界公認最具權威的系統(tǒng)排行標準。此后,國際上又出現了HPCC、Craph500、HPCG等其他排行榜,用不同測試程序衡量超級計算機某些方面的應用性能。在Craph500實測中,“天河二號”由于大量提升空間未被挖掘,僅用部分節(jié)點參加測試,只獲得排名第六。而國際TOP500排名第三的美國“紅彬”按HPCG排名竟未上榜,國際TOP500排名第二的美國“泰坦”在Craph500榜上無名。

  “應聲蟲”們?yōu)槭裁囱劬χ欢⒅?ldquo;天河”?為什么不同時說說美國機器?看來還是主子的“雙重標準”思維在他們的腦袋里作祟。

  “‘天河二號’耗電驚人,不代表人類超級計算機發(fā)展方向。”這是他們抹黑國產超級計算機的第三個依據。

  能耗問題,是超級計算機繼續(xù)向前發(fā)展的最大障礙。中國人從“銀河”巨型機工程開啟時,就開始認識到這一問題應著力予以解決,并為人類破解這一科學難題貢獻了一系列創(chuàng)新技術。采用了新型能耗控制機制的“天河二號”,按照評價能耗的Green500排名標準,與位于國際TOP500排名第二、第三的美國“泰坦”“紅彬”相當,而遠遠好于排名第四的日本機器“京”,是一臺節(jié)能高效的機器。而“應聲蟲”們竟然拿排名比“天河二號”低兩個數量級的機器比能耗,得出“天河二號”高能耗的結論。這不僅是“雙重標準”,更是顛倒黑白、危言聳聽!

  還有人說:“‘天河二號’用的微處理器,相當部分是進口CPU,根本談不上自主創(chuàng)新。”

  還是一個科學家說得好:“難道我們建房子,有一部分磚不是自己燒制的,就說這房子不是我們自己建的了?”其實,憑著“飛騰1500”的質量,完全可以100%“中國芯”,之所以只能“部分”,是由于應用軟件大部分是進口的,只能在進口微處理器上運行。因此,國產微處理器只能用于服務陣列。

  “中國超級計算機發(fā)展重視硬件、輕視軟件,‘天河二號’一些用戶需要10年時間來編寫必要的代碼,用戶分布單一,應用程度遠遠低于美國等發(fā)達國家。”這是那些網絡大V們唱衰中國超級計算機又一論調。

  用戶果真需要10年編寫代碼嗎?天河人一針見血地指出:“這是把某些應用領域較長的開發(fā)期與在‘天河二號’上實際應用時較短的移植周期混為一談。”

  又是混淆視聽、刻意抹黑!

  聽著這些“應聲蟲”“憤青”怨婦般對國產超級計算機絮絮叨叨,不禁讓人想起2010年11月國際TOP500在美國頒獎時發(fā)生的一幕。

  那天,國際TOP500撰稿人剛一宣布“天河一號”世界排名第一,會場便像炸了鍋似的沸騰起來,與會者發(fā)出一片驚愕聲。上臺領獎的國防科技大學代表劉光明還未走下領獎臺,一名美國記者就帶著一臉憤怒與不屑,迫不及待地站起來質問國際TOP500撰稿人:“你們覺得以LINPACK應用實測性能為排名標準是科學的嗎?”

  自從國際TOP500創(chuàng)立以來,已經運行了30多年的排名標準,從未有人對其科學性提出過質疑,而中國“天河一號”奪得頭名了,就有人(包括一些科學家)認為它不科學了。這實在耐人尋味。

  不過仔細想想也是,正如新華社知名記者白瑞雪所言:“超級計算機排名,可不是劉翔與羅伯斯的110米欄比賽,腳往欄上一跨就勝負分明,它顯然要復雜得多。”

  國際TOP500機構采納了質疑者們的建議,在廣泛征求業(yè)內人士的基礎上,又設計了超級計算機高性能共軛梯度(HPCG)基準測試排行榜。

  對于超級計算機高性能共軛梯度(HPCG)基準測試排行榜與國際TOP500排行榜的關系,白瑞雪也有一個非常形象的比喻:“這就相當于兩套考卷,國際TOP500運用的LINPACK,是已經使用了30年的標準考卷A卷,而高性能共軛梯度(HPCG)則是近期推出的B卷。前者主要考查計算速度,而后者主要衡量應用性能。”

  2014年11月,國際TOP500機構首先發(fā)布第44屆世界超級計算機500強排行榜,“天河二號”當仁不讓地榮獲“四連冠”。次日,國際TOP500組織首次正式發(fā)布超級計算機高性能共軛梯度(HPCG)基準測試排行榜,“天河二號”還是位居世界第一。也就是說,無論是考查速度的A卷,還是考查應用性能的B卷,“天河二號”都是“狀元”!

  “天河二號”,是名富其實的“世界學霸”“雙料冠軍”!

  也許這依然難以堵住那些“應聲蟲”“憤青”們的嘴,他們還會氣壯如牛地“雞蛋里挑骨頭”。那就讓他們挑好了,只要自己足夠強大,就會在挑刺中變得更強大。再說天河人也從來沒把第一看得那么重,正如領獎代表盧宇彤說:“盡管‘天河二號’連續(xù)幾次奪冠,但中國超級計算機離世界第一還早著呢。美國在超級計算機領域仍處于主導地位。”

  倒是外國科學家對“天河二號”前景非??春?。國際TOP500主要撰稿人杰克·唐加拉預言:“在2017年以前,我看不到美國及其他國家有什么機器可以與‘天河二號’競爭。”

 

  尾聲:超越沒有終點

 

  雖然異構融合體系結構作為主流技術,在超級計算機研制領域風頭正勁,但它同樣改變不了科學發(fā)展“后浪推前浪”的鐵律。異構融合時代與計算機技術所經歷的電子管時代、晶體管時代、集成電路時代、并行計算時代一樣,終將進入“冰封”時期,而且這種跡象已逐漸顯露出來。正如中國科學院院士、國防科技大學校長、CPU+GPU異構融合技術創(chuàng)始人楊學軍在學術報告《并行計算六十年》中所言:“生物分子模擬、航空宇宙計算、颶風預測等超算高端應用的不斷增長,不斷推動高性能計算繼續(xù)向前發(fā)展?,F在,超級計算正處于從P級向E級過渡時期,而面向E級的超算正面臨著巨大的挑戰(zhàn)。科學界把這些挑戰(zhàn)比作‘墻’,比如‘存儲訪問墻’‘通信墻’‘可靠性墻’‘能量墻’等等,現在這些‘墻’正隨著超級計算機系統(tǒng)運算性能的不斷抬升而越筑越高。”

  而與此同時,超級計算機的國際政治地位和國家戰(zhàn)略地位卻在不斷飆升。

  2014年夏,剛從黨派紛爭動亂中平靜下來的烏克蘭,又突然陷入動蕩,親俄總統(tǒng)被親美分子轟下總統(tǒng)寶座,國家外交天平又向北約傾斜。俄羅斯總統(tǒng)為保后院安全,捍然出兵克里米亞。美國和歐盟國家群起從政治、外交、經濟等層面“圍剿”俄羅斯。面對咄咄逼人的制裁,俄羅斯總統(tǒng)普京放出狠話:“別忘了俄羅斯是戰(zhàn)略武器大國!”

  “別忘了俄羅斯是戰(zhàn)略武器大國”,既亮出了一個國家的底氣,也彰顯了當今戰(zhàn)略武器的世界政治地位,并標志著大國以戰(zhàn)略武器對峙為標志“冷戰(zhàn)”再次拉開序幕。

  面對俄羅斯的強硬,西方國家尤其是美國出人意料地保持沉默。那是因為他們知道,自己依托世界上最強大的超算平臺研制的那些世上最完備的戰(zhàn)略武器系統(tǒng),不用“晾曬”,世人也早就看在眼里、懼在心里。

  幾個月后,美國能源部突然宣布:美國將投資3.25億美元建造兩套超級計算機系統(tǒng),其計算速度將超出連續(xù)四次獲得國際TOP500排名第一的中國“天河二號”3至4倍,重新奪回世界桂冠。

  美國能源部官員對此的解釋是:“超級計算是國家發(fā)展的戰(zhàn)略領域,也是美國的傳統(tǒng)優(yōu)勢領域?,F在這一優(yōu)勢正在發(fā)生改變,對此,美國政府不能置若罔聞。”

  媒體和網民對它的解讀就更豐富、更有意思了:

  俄羅斯媒體說:“美國這一決定,是在告訴我們的普京大帝:你就別用戰(zhàn)略武器嚇唬我了,就憑著我比你強過百倍、千倍的超級計算機,就可以永遠保持比你強大得多的戰(zhàn)略武器系統(tǒng)。”

  美國網民認為:“美國經濟遇到麻煩了。政府的這一投資,是在增強推動創(chuàng)新的引擎,牽引經濟向前發(fā)展。”

  中國的網民說:“山姆大叔在連年削減軍費的情況下,還舍得花血本與中國爭國際TOP500桂冠,既讓人嗅到濃濃的醋酸味,更讓人想到了他的‘亞太再平衡’,想到他和日本在中國的東海、南海、香港攪局的那些事。”

  ……

  不管媒體怎么說、網民怎么猜,擺在中國超算人面前的事實是:別人已經指名道姓放馬過來。

  正當超級計算機決戰(zhàn)硝煙再次燃起之際,經全國人民投票,天河團隊當選中央電視臺“感動中國”創(chuàng)新團隊。

  國家科技進步獎評選委員會也發(fā)布公告——“天河一號”超級計算機榮獲國家科技進步特等獎!

  面對挑戰(zhàn)與褒獎、壓力與期待,天河人淡定地說:“大國在超級計算機領域相互超越已成常態(tài)的情況下,我們的選擇只有一個,那就是超越、超越、再超越!”

  高科技競爭,是一場沒有終點的長征。

  征戰(zhàn)者永遠在路上!

 

  (選自《決戰(zhàn)崛起——中國超算強國之路》,國防科技大學出版社,2015年9月出版)

 

  作者簡介:

  龔盛輝,湖南江永人,1989年畢業(yè)于西安政治學院,現任國防科技大學校刊編輯部編審,中國作家協(xié)會會員,湖南省報告文學學會副會長。1994年開始文學創(chuàng)作,先后出版長篇報告文學《鑄劍》《決戰(zhàn)崛起》《向著中國夢強軍夢前行》《國防之光》和長篇小說《絕境無淚》,發(fā)表中篇小說《老大》《通天橋》《與我同行》等10余篇,報告文學作品先后獲得中宣部五個一工程獎、全軍優(yōu)秀文學藝術獎特別獎、湖南省五個一工程獎,小說作品多次獲得全軍文藝新作品獎、昆侖文學獎。因創(chuàng)作成績突出,經總政治部批準記二等功一次。

湖南省作家協(xié)會 | 版權所有 : 湘ICP備05001310號
Copyright ? 2005 - 2012 Frguo. All Rights Reserved