领跑世界的指挥员:记“天河一号”“副总设计师肖立权

时间:2019-08-30 来源:www.hnytgqt.net



领导世界的指挥官记得“天河一号”“

指挥官领导世界

记录“天河一号”和“天河二号”副总设计师肖立全

□我们的记者连英婷

□通讯员刘玉兰

在仲夏季节,湘江两岸的国防科技大学已进入暑假。校园里的人很少,不再活着。

站在东北的天河大厦,机房内几十米的底盘整齐排列,灯光交错,底盘的高速运转使低噪音。这是中国六次登上世界500强超级计算机的名单,“天河二号”以中国的速度震惊世界。

此时,“天河二号”副总设计师,国防科技大学计算机科学与技术学院计算机研究所所长肖立全正带领团队应对新一代高新技术 - 性能计算机。正是他们把装备的集合号吹到了新的中国速度。

不用担心解决技术问题

1997年,肖立泉博士从学校毕业后,成为国防科技大学计算机科学与技术学院计算机研究所的研究员。从那时起,他就与超级计算机一起成长,并参与了“银河”和“天河”高性能计算机多代机型的开发。从一位普通的科学研究人员那里,他今天逐步成长为国防科技大学的超级计算机团队。核心骨干。

“走上其他人没走过的路太难了,但我喜欢挑战。”这是肖立泉经常在采访中挂起的一句话。

在上个世纪末,大规模计算机系统中常用的电互连技术传输速率低,易受干扰,极大地影响了系统的稳定性,成为系统发展的绊脚石。中国数以百亿计的二级超级计算机。

如何消除这个绊脚石?使用光学互连来取代电气互连是最佳解决方案,因此研究所将这项任务交给了肖立泉。

没有人走过的道路,注定充满了荆棘和颠簸。

在2003年接到任务后,肖立泉立即针对这一技术问题瞄准了科研目标。但是,根据您自己的想法制作的系统根本无法运行。

什么地方出了错?

那年夏天,小李泉问为什么。即使在午休期间闭上眼睛,他的大脑也是在屏幕上滚动的实验数据。

“我无法入睡,去实验室。”小李泉翻身穿好衣服去了实验室。

他设置了一台示波器和一台逻辑分析仪,他全神贯注地看着,因为他害怕在眨眼之间丢失关键数据。

问题的解决方案一再被提出,但它一再被推翻。

有一天,正在做实验的小李泉突然提出了一个想法:数据传输有问题吗?在光环显露之后,他找到了解决问题的关键,然后扭转了思路并推迟了,终于找到了症结。

目前,中国的光互连技术已在大型计算机系统中得到有效验证,为该技术在超级计算机系统中的后续应用奠定了坚实的基础。

此后,肖立泉一直瞄准这一技术领域,赢得了一个又一个障碍,解决了光互联和替代互联的一系列技术问题,并成功开发出中国首个采用光互联技术的并行计算机互联通信系统。传输速率从原来的400Mbps飙升到10Gbps,实现了一个数量级的飞跃。

很难赢得世界的桂冠

2010年11月,“天河一号”以其出色的性能荣登世界500强超级计算机。中国超级计算机首次获得世界冠军,五星红旗飘扬世界。

2013年6月,“天河二号”的峰值运算速度达到每秒549万次,连续计算速度达到每秒33.9亿次。它轻松赢得了世界500强超级计算机,中国的超级计算机发展达到了世界领先水平。习近平主席特别就“天河二号”的成功发展作出了重要指示。

2013年11月,“天河2号”在世界500强超级计算机中排名第一;

2015年11月,“天河二号”六次荣登世界500强超级计算机,中国继续领跑世界。

作为“天河一号”和“天河二号”的副总设计师,在这些令人眼花缭乱的成就背后,肖立泉瞄准了世界高性能计算机技术的前沿,不懈地探索了创新的丰硕成果。

高速互联通信是决定大规模并行计算机系统实际效率的关键。美国严格阻止向中国转移高速互联技术。当时,“天河一号”首次在中国创新了CPU + GPU异构融合架构。内部数以万计的CPU和GPU需要通过互连的通信系统交换信息。困难是可以想象的,有组织的和全面的。负责互连通信系统自主设计和开发的肖立全感到压力。

当他感到寒冷时,他不仅协助制定了系统的整体技术方案,技术路线和设计指导原则,而且经常在第一线测试中,从原理验证到工程实践,一步到位都没有错过。在他的领导下,该团队开展了关键技术和核心技术研究,迅速展开了无烟战斗,并成功将“天河一号”送到了世界超级计算机的宝座。

在每个人的眼里,小李泉是名副其实的绝望三郎。用他自己的话来说,与地下银河队的祖先相比,这是无关紧要的,他们牺牲了他们为银河事业做出的牺牲。

克服世界问题的自主创新

经过一段短暂的欢乐,小李泉开始了另一项紧张的工作。他已经以更快的计算速度瞄准了数十亿美元的超级计算机系统“天河2号”。

在原有的基础上,他带领团队进行了封闭式研究,“天河二号”高速互联通信系统的性能得到了提升,是当时国际商用互联系统的两倍。它可以连接数以万计的微处理器来解决相同的计算问题,并以更低的效率解决更高效的微处理器的世界问题。

在“天河二号”的发展过程中,由于时间紧迫,任务繁重,在近千天的开发周期中,小李泉在两个春节期间只休息了三天。

对于小李泉来说,这是他的战场。他必须既是项目负责人又是前线战斗员。

在解决问题的关键时期,肖立泉带领他的团队日夜三班轮流上班,每天连续工作十多个小时。他的身体明亮而黄,但他无法照顾它。

在自主创新的道路上,肖立泉带领项目团队在校外进行了为期一年的封闭式设计工作,并自主开发了互联通信系统的两个核心芯片:路由器和网络接口。

超级计算机系统就像一个大城市。互联通信系统是城市道路网。路由器是立交桥,网络接口是主要的入口和出口。城市道路网的城市道路网络建设良好。立交桥和主要道路入口和出口设计不合理,城市交通仍然拥挤。

依靠自主创新,我们掌握了自己的核心关键技术。这就是“天河二号”长期以来在快速增长,竞争激烈的世界超级计算机领域保持领先地位的主要原因。

正如国际TOP500主要贡献者Jack Tangara所说:“中国已经自主开发了内部互联技术,这是无法买到的。这基于芯片,路由器和自产开关。“/p>

“我们参与世界排名不仅仅是第一次。世界500强名单实际上是一个交流平台。只有在国际舞台上有声誉,其他人才愿意与我们沟通。”肖立泉知道,只有自力更生,掌握独立核心关键技术才能掌握国际舞台上的声音,让世界聆听来自中国的声音,让中国更好地了解国际前沿发展趋势。

作为计算机研究所的领导者,肖立泉始终把人才培养作为科研的重中之重。在学院内实施青年骨干培训计划,制定针对优秀人才的个性化培训计划,让10多名年轻医生作为子系统设计师组织一线骨干考察团。

目前,该国家和军队人才培养项目共有38人,平均年龄不到40岁。

肖立全在担任博士生导师和硕士生导师后,监督了8名博士生和15名硕士生。根据学生的不同兴趣和爱好,他根据自己在高性能计算机体系结构,高速互联网体系结构,光互连和交换以及深亚微米ASIC设计方面的深厚理论基础和丰富的实践经验指导学生。广泛参与工程实践活动,培养学生的创新能力和科研实践能力。

这个暑假不适合小李泉。他正忙着带领团队投资开发新一代高性能计算机。

小李泉的目标是挑选超级计算机的下一个王冠。

图为肖立泉(中)与团队研究人员交流“天河二号”相关技术要点。欧阳登宇的照片