Skip to content

2019.05.26 会议记录

AI Generated Abstract

本篇博客总结了 2018-2019 学年浙大超算队的工作情况与 ASC19 决赛观摩学习的经验教训,分析了团队在比赛准备、硬件维护、策略制定等方面的不足,并提出了改进建议。同时,博客还对超算队的目标、结构、任务分工及管理机制进行了梳理,旨在通过兴趣驱动和知识传承,推动团队的持续发展。

2018-2019 学年总结

众所周知的,ASC19 打的不太理想,初赛没有出现。这一年来我们有很多新队员加入,也报名参加过比赛,但是一些工作仍然做得不够。而这些总是有原因的。

超算队出现过断层,也出现过新的管理层的懈怠,所以导致超算队没有运作起来,作为各位托付的临时的 Leader,我受之有愧。这一次观摩 ASC19 决赛的过程中,观摩小组的一行四人 (王克、沈韬立、张文捷、漆翔宇) 与上交等队伍做过交流,也学习到了很多东西,有很多的感想,这里做一总结。

ASC19 决赛观摩学习小结

  1. 在 ASC 赛前,可能我们新队员都认为初赛“划水”就好,不需要提前做什么准备 —— 但实际上来看,即便是在赛题公布之前,也要有很多准备,这种准备是知识技能上的,也是各种防范上的。

    • 在初赛准备期间,Cluster 集群的 IB 一度坏掉,导致 HPL、HPCG 跑分遇到很大的瓶颈,直到开学前后才有人来港修集群,这时再想打好比赛已经不大可能了。
    • 另外,平时不在意如何配置 HPL、HPCG 这样的必用软件的编译参数、不熟悉集群的编译环境,也导致比赛时的手忙脚乱。
  2. 即便是在赛前准备充分,也不意味着万无一失。赛场上可能会遇到各种情况,有各种事先没有考虑到的因素。

    • 就比如一点,温度。比赛现场可能安排在会议室、体育馆、展览大厅,可能有好的通风制冷也可能没有。如果现场没有提供一个良好的恒温环境(基本不可能),就会考虑温度及其变化对集群性能和功率策略的影响——早起温度较低,中午温度较高,同一个项目的跑分就会不同。一旦温度升高,风扇就会开起来,吃掉数量可观的功率。
    • 另外一点,如果现场干燥,设备会出现存有静电的情况。当现场机器出现问题,甚至要拆机放电才能恢复运行。设备随时可能出现问题,一旦出现问题,就需要上手上工具,甚至需要用最快的速度换新的设备。
  3. 平时在准备上,不仅仅应当停留在“软件”上面,更需要做“精工实习”、“工程训练”,需要有人学习拆装机,学习硬件维护,否则遇到软件无法解决的问题会很麻烦,浪费很多时间。

  4. 比赛和科研不同,比赛有时间限制,参赛队伍有人数和能力限制,再加上场上场下的各种突发情况,做不完、做不到最好都是可能发生的。所以在赛前我们就应当有多套比赛方案,同时,也需要注重比赛的策略——比赛的得分依靠通过的测试点来判定,那么先跑哪些点、怎样能够获得最多的分数,也是很重要的。

超算的技术栈是很长的,每年的应用有各个方面的,而超算也需要运维、维修、编译、优化、监控等各个方面。作为参赛者,要么这些都懂,要么就需要团队有明确的分工、各自有擅长的领域。今年上交队的 Adviser 给我们的建议是,以老带新,长期培养技术栈。我们需要写文档写博客,需要记录并分享自己的经验给团队,我们需要不断学习并传承自己的知识,这样团队才能够成长、不至于在失去某个核心人物后就一无所有。


关于超算队的整顿

陆陆续续在整顿超算队,这里做一个总结:

团队目标&定位

浙大超算队是一支高性能计算比赛团队,同时也是高性能计算的兴趣与科研平台。

比赛不是我们的全部,但是是我们目的;但不参加比赛,在这里认真的玩耍,我们也是欢迎的——但是前提要”认真“(要有成果有贡献 (博客))。

陈老师给的团队目标:每年的 ASC 至少拿到一等奖 + 另外一个奖

团队结构

团队分层很简单,现任队员层和老队员层。如果随着年级增长课业繁重,面临毕业、出国、实习等,现任队员成为老队员。

现任队员维持在 10~20 人,其中 3 人左右负责整个团队。现任队员每个人自己选择自己的分工。

每一个人都需要一个目标

其实并不想强调这一点的,毕竟

这个团队本来就是靠兴趣聚在一起,每个人都享受一起找问题学东西、做出成果的感觉

,如果非要强调目标、任务,就没什么意思了。但是想说的是,这个队伍也需要一个底线,每个人也应当有一个自己的底线,知道自己在这个团队里要做什么。当然,还是更加希望各位能以兴趣去主动活跃在这个团队中。

如果你想搞比赛

做比赛相关的事情:

  • 运维、软硬件、网络 → 优化集群、工具集、比赛策略
  • 做历年赛题:科学计算 - 应用优化-ML/DL

如果遇到不会的就学习、写文档;非常鼓励大家根据赛题涉及领域联系对应的学校教授(可以拜托陈老师)

如果你不想搞比赛

  • 做集群运维 + 写文档 —— 考虑把我校别的集群运维起来,很多校内集群都在闲置、浙大镜像源也可以接受来管理 —— 不要给自己太大压力,并不是说我们要做的有多好,我们要做的仅仅是锻炼、实践,然后一起学习。
  • 利用集群资源来干点私活是可以的,关键是要求写文档,把你的经验分享出来 —— 帮忙跑其他老师的科研实验、论文可以署名
  • 活动组织、团队管理

团队进出机制

同样,不想提这一点,因为如果兴趣能够给予大家足够的动力,就不需要考核。

所以这里就简单来讨论一下这个问题:

  • 新队员入队,看面试和水平,看做题做得如何;老队员留下来,需要看贡献度。
  • 贡献度看两个指标:发博数量 + 任务活动参与度;以学年为考核尺度、不量化——各位的贡献,我们都有目共睹。

超算队的任务管理跟踪

超算队的计划、正在做的事情和一些其他的信息。

目前使用 Trello 来做团队任务看板,如果有任何好的建议欢迎提出来。


希望在这里,我们能够以兴趣驱动,聚在一起研究感兴趣的东西来,而不是不情愿地领锅做任务甚至咕咕咕,这样下去团队将没有生命力。相信谁都不想看到这样的结局。超算队现在的制度可能有不妥当的地方,欢迎大家提出来,也希望真正感兴趣的同学联系我,我们一起学习研究,把这个团队搞活。