“交我算”是上海交通大学校级公共计算平台,是在新一轮科技革命的大趋势下以及科研新范式转型和形成的大背景下,基于科研活动本身的特点,通过信息技术对于科研创新进行全生命周期支撑的科研信息化手段。本文将从建设理念、特色、团队、服务等多维度对其进行剖析和思考,希望能对其他高校的科研信息化有所借鉴。
科研创新对信息技术以及科研信息化的需求贯穿了整个生命周期。如图1所示,从第一阶段到第五阶段,每个阶段都需要不同的信息技术来支撑。 图1 上海交通大学使用信息技术 支撑科研全生命周期的解决方案 上海交通大学基于这个理念进行实践。 在第一阶段前期酝酿阶段,一方面,研究者需要随时随地记录研究灵感,使用思源文档可以通过手机等多种终端便捷记录;另一方面,在文献调研环节,研究者可以使用Zotero等开源文献管理工具整理各种论文。 第二阶段是开发与讨论,这期间通常需要多人异地协同,如果需要编写代码,可以使用Git;如果需要讨论问题,可以使用腾讯会议。 第三阶段计算与分析,其中所需的计算可以在“交我算”校级计算平台上进行,数据和文档可以存储在交大云盘上。 第四阶段多人合作撰写论文,可以在金山文档或是在线的LaTex环境中进行。 第五阶段进行发表与分享,研究人员可以通过“交我办”App申请专利或软著,并将一些研究成果(包括数据)基于“交我算”对外分享。 对于这些支撑技术,上海交通大学采用了四种不同途径实现。 首先是使用开源软件在校内部署,如思源文档、Git和LaTex; 其次是采购国产软件,如金山文档等; 再次是整合软硬件优势,提供特色服务,如“交我算”平台; 最后是完全自主研发,如交大的一站式服务平台“交我办”。 以下以特色服务“交我算”为例来深入剖析信息技术对科研创新的关键支撑作用。 特色:赋能科研 原始创新、前沿突破 “交我算”是上海交通大学校级公共计算平台,由网络信息中心负责建设与日常运维,全面支撑全校教学、科研、管理等多方面计算需求。 “交我算”名字有两层寓意,既指代上海交通大学的计算平台,又蕴含“师生的计算需求,请放心交给网络信息中心来算”的意思。 “交我算”的建设与管理有三大要素:算力基座、人才团队与计算服务。 图2 “交我算”建设与管理的三大要素 如图2所示,通过算力基座与人才团队的“双轮驱动”,支撑计算服务不断革新升级,赋能科研原始创新与前沿突破。 算力: 打造顶尖算力基座 “勿在浮沙筑高台”。在学校统筹部署下,网络信息中心秉承“普惠、融合”的建设理念,针对师生的各种计算与存储需求,打造公共计算服务平台底座。 经过“十二五”“十三五”的持续投入与建设,“交我算”已成为国内高校顶尖的算力基座,包括云平台、人工智能计算平台、高性能计算平台等五大计算平台和科学大数据平台(如图3所示)。 图3 “交我算”算力基座的构成 云计算平台:国内高校规模最大的私有云,拥有16000个CPU核,采用最先进的云计算技术,支撑学校各类信息化系统,并为师生的教学与科研提供稳定高效的云服务。 人工智能计算平台:国内高校唯一的人工智能计算平台,配备8台NVIDIA DGX-2服务器,共计128张Tesla V100,深度学习张量计算能力达16PFlops。 高性能计算平台:国内高校领先的高性能计算集群π2.0,双精度峰值为2.1 PFlops,是国内最早使用Intel Cascade Lake CPU的超算,拥有656台计算节点,共计26000个CPU核。 ARM超算平台:国内高校首个国产ARM超算平台,采用100台鲲鹏920处理器,拥有共计12800个CPU核,双精度峰值为133 TFlops,可适配绝大多数开源超算软件。 杨元庆科学计算中心:国内高校一流绿色水冷超算,由交大校友杨元庆个人捐资1亿元建造,将在2021年年底上线,拥有共计60566个CPU核,双精度峰值超过6PFlops。 科学大数据平台:当前存储容量已达35PB,位居国内高校前列。“十四五”期间将根据用户需求,逐步扩容到100PB以上。 团队: 组建计算服务队伍 骏马需要优秀骑手驾驭才能发挥出真正实力。在学校大力支持下,网络信息中心的“交我算”团队从“十三五”期间的5人迅速发展到目前的40多人,其中硕士及以上学历35人,C9高校毕业生32人,是国内高校最大的计算服务团队。 根据师生需求与实际情况,在组建这支计算服务团队时,我们在学科交叉融合及人才梯队建设这两方面进行了创新: 一是设立领域计算专员岗位,支撑学科交叉融合。为更好支撑不同专业领域的计算,团队里除了有计算机背景的成员,还设立了领域计算专员岗位。 招聘具有不同应用学科背景的成员,针对学校的重点学科进行针对性支撑,比如生物、材料、航天航空。 目前团队中10多名领域计算专员,他们充当了应用学科与计算机学科之间的“翻译官”,有效降低了沟通成本,提升了服务品质。 二是组建学生超算竞赛团队,加强人才梯队建设。充分利用“交我算”在学校的影响力,吸引与组织学生参加超算竞赛,在多个国内外比赛中屡获佳绩: 包括7次世界大学生超算竞赛(ASC)获奖、2次国际大学生超算竞赛(ISC)获奖,以及6次全国并行挑战赛(PAC)获奖。 这些学生是计算团队的后备军,他们平日也参与中心的计算服务,有些还在毕业后加入了“交我算”团队。 服务:不断 升级计算服务模式 算力基座与人才团队的“双轮驱动”,推动“交我算”服务模式的不断革新。如图4所示,“交我算”服务模式发展经历了五个阶段,其中第一、二个阶段关注算力资源,从第三阶段开始,由表及里,逐层推进与用户的科研相融合。 图4 “交我算”服务模式的五个发展阶段 第一阶段,2012年之前,分散建设[1]。各院系分散建设若干小平台,支持单个需求资源独占,形成“谁要算,谁就自己买”的格局。 第二阶段,2012~2014年,集中建设。学校成立高性能计算中心,建设超级计算机π1.0,为全校师生提供服务,做到了“谁想算都可以来算”[2]。 第三阶段,2015~2017年,性能优化。“交我算”团队帮助用户针对现有程序进行性能优化,提高速度,缩短时间,“帮你算得更快更好”。 例如,协助瑞金医院陈赛娟院士团队开发既快又准的基因组分析流程,将白血病基因分析时间从1周缩短到13小时;优化密西根联合学院鲍华教授团队自研的声子玻耳兹曼方程模拟程序BTE,将单个算例运行时间从2周缩短到2分钟[3]。 第四阶段,2018~2020年,学科融合。“交我算”团队主动深入学科研究领域,发掘用户需求,发挥学科融合计算服务模式的优势,与用户共同完成应用程序研发。例如与物理与天文学院景益鹏院士团队共同研发N体问题程序CUBE,完成世界上粒子数最多的N体模拟计算,打破世界纪录[4]。 第五阶段,2021年初至今,科研软件工程(RSE)。对接学校“大健康”“大海洋”“大信息”的发展战略,“交我算”团队从支持科研团队的某一应用研发转向受众更多、更加普适的科研软件研发。 例如在“大健康”领域,自主研发了国内高校首个生物信息分析平台,实现0代码的生信分析,极大降低交大医学院及附属医院用户的使用门槛[5];针对AlphaFold运行时间慢、成本高等问题,研发AlphaFold的并行计算版本ParaFold,成功将单个蛋白的计算成本从24元降低到1.2元。 成效: 省钱、省时、省心 “交我算”服务模式不断推陈出新,持续从“省钱、省时、省心”三方面提升用户体验,支撑科研成果不断涌现。 “省钱”:2015年起,全校采购计算设备金额逐年攀升。2018年新一期“交我算”算力基座建成后,全校采购计算设备金额持续下降;近三年来已为学校节省分散采购金额累计超亿元。 “省时”:一寸光阴一寸金,“交我算”一方面节省了用户建设算力的时间。原先需要半年进行采购和建设,现在只需短短10分钟就可以申请使用计算资源;另一方面,通过有效利用先进的硬件设备、强大的算力资源,极大缩减了用户程序的运行时间,从而缩短论文投稿周期。 “省心”:通过学科融合的服务模式让科研团队专注科研创新,把研究中遇到的计算问题交给计算团队。近三年来,已为20多个科研团队提供学科融合支持。 产出:2013年以来,已累计服务20余个一级学科、500多个科研团队,实现“理工生医农”的全学科覆盖。支撑600多个科研项目、400多篇高水平论文,其中CNS及其子刊45篇。2020年全校9篇CNS(第一作者)论文中,就有2篇来自“交我算”用户。 凡是过往,皆为序章,行而不辍,未来可期。“十四五”期间,“交我算”将紧跟国家、上海市及学校的战略布局,支撑学校教育数字化转型,推动科研软件工程服务模式的进一步发展,更好赋能科研创新。 参考文献