中国制造业竞争力价值研究官网
助动中国制造2025战略

栏目
物联网 云计算 智能终端 资本市场 商业模式 质量品牌
当前位置:主页 > 制造转型 > 云计算 >
云计算

高效共享GPU!浪潮AIStation突破企业AI计算资源极限

2020/03/25 作者:智造文记 来源:智造新闻互联网 点击:

  摘要:对于AI企业来说,GPU等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平

对于AI企业来说,GPU等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平合理?如何减少等待时间,提高模型训练效率……这些问题都关系着研发创新的进度。且看浪潮AIStation人工智能开发平台用三招“组合拳”打破计算力壁垒,加速企业AI开发进程。

某企业AI开发面临的问题

某企业有四台8卡GPU服务器供50位开发人员使用,典型的人多资源少。具体来说,有以下几大问题:

人均不足一张GPU卡,GPU使用需要相互协调,开发效率低;每十多人为一个小组共用一个GPU节点,可能使有的小组资源空闲而有的小组却无资源可用,造成资源孤岛;缺乏优先机制,重要任务无法得到及时提交;在白天GPU卡几乎全部用于开发环境创建,开发人员只能在晚上提交训练任务,模型训练数量非常有限。

blob.png

AIStation三招解决企业算力问题

AIStation是面向AI企业开发场景的人工智能资源平台,可通过资源配额、GPU共享、排队托管三招“组合拳”,智能化分配GPU计算资源,提高资源利用率,帮助用户提高开发效率。

首先,AIStation收拢分散的计算资源,提供集群式的池化管理,并设置资源配额策略,实现多用户公平均衡使用资源。

AIStation将开发用户划分为5个用户组,每个用户组10人,并根据业务需求设置每组和每个用户的使用配额,如可设置每组使用6张GPU卡、40个CPU核。并对每个用户的开发环境使用时长、同时提交任务数量进行限制。

blob.png

其次,AIStation通过GPU共享策略,可以让多人共用一张GPU卡且互不影响。

AIStation统一管理4台GPU节点,将其中2个节点的16张GPU卡设置为开发资源组,用于开发环境创建,剩下16张GPU卡为训练资源组,用于模型训练。通过共享策略,AIStation可将开发资源组的每张GPU卡切分为8份,每份使用4G显存。这样原来的16张GPU卡相当于变为了128张卡。并且通过设置CPU超线程策略扩展CPU核数,满足50个用户同时创建开发环境的需求。用户也可以根据自己的模型设置batchsize和显存使用的大小。

blob.png

最后,AIStation通过任务排队托管、定义任务优先级,充分利用空闲时间训练任务,并且可根据优先级调度任务排队运行。

用户可同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以充分利用夜间、周末训练任务,延长GPU的使用时间。同时用户可设置优先级,让重要任务优先训练。

blob.png

AIStation取得显著效果

GPU使用时间加大近1倍。原来单个GPU节点分配给一个用户小组使用,每卡每天的平均使用时间仅为14.4小时。AIStation通过GPU共享、任务托管,解决资源孤岛,将每卡每天的平均使用时间提升到22.8小时。

blob.png

GPU利用率提升50%。原来用户在开发阶段独占一张GPU,GPU利用率仅为10%,训练阶段可达90%,每天每卡的平均利用率为30%。使用AIStation后,开发阶段8人共用一张GPU卡,GPU利用率可上升为80%,训练阶段为90%,每天每卡的利用率可达到80%。

blob.png

每周训练任务的数量增大一倍多。假设提交一个ImageNet数据集和一个ResNet50模型,使用1张Tesla V100 GPU卡训练任务,每个任务的训练时间大概为12小时。

原来因为人均不够一张卡, 白天GPU卡用于创建开发环境,晚上才能训练任务,那么一个工作日可以完成的任务数最多为32个,即一周可以完成160个任务。

而AIStation支持任务排队,可以最大限度的使用GPU资源。一周可以完成368个任务数,效率提升2.3倍。假设开发团队单个项目平均需要训练的任务数为50,那么每个月的项目完成数从3个提升到7个。

blob.png

凡本网注明“中国制造2025”的所有作品,媒体转载请注明。

凡注明为其他来源的信息,均转载自其他媒体,转载目的在于传递更多信息,并不代表中国制造2025网赞同其观点及对其真实性负责。

分享到: 0

图文阅读

麒麟1020 将在今年 8 月份大规模交付,华为Mate40/Pro 首发

麒麟1020 将在今年 8 月份大规模交

智造文 发布于2020-03-25

三星OPPO等制造商的印度工厂停产;海军军医大学研发战疫无线听诊器…

三星OPPO等制造商的印度工厂停产

智造文 发布于2020-03-24

中国电子百亿级资金投入,打造桌面与服务器操作系统、云操作系统、嵌入式操作系统三大产品

中国电子百亿级资金投入,打造桌

智造文 发布于2020-03-24

AI强攻EDA,无人芯片设计还有多远?

AI强攻EDA,无人芯片设计还有多远

智造文 发布于2020-03-24

三星、LG暂停印度工厂运营!OPPO和vivo也采取了强制预防措施!

三星、LG暂停印度工厂运营!OPP

智造文 发布于2020-03-24

中国制造2025官网

 

中国企业竞争力发展研究中心

 

中国制造产业智库

 

关于中国智造网|About CHINA-MIC.CN|联系我们|网站地图 |RSS地图

京ICP备19032137号 邮箱:MIC@CHINA-MIC.CN

中国企业竞争力发展研究中心主办 Copyright t © 2019-2020 中国智造网 版权所有