服务电话:

400-801-5670

中科云达集群管理解决方案

发表时间:2020年04月22日 作者: 浏览次数:2957

让机器实现人的智能,一直是人工智能学者不断追求的目标,不同学科背景或应用领域的学者,从不同角度,用不同的方法,沿着不同的途径对智能进行了探索。其中,符号主义、连接主义和行为主义是人工智能发展历史上的三大技术流派。


人工智能是一种引发诸多领域产生颠覆性变革的前沿技术, 当今的人工智能技术以 机器学习, 特别是深度学习为核心, 在视觉、 语音、 自然语言等应用领域迅速发展, 已 经开始像水电煤一样赋能于各个行业。世界各国高度重视人工智能发展, 美国白宫接连 发布数个人工智能政府报告, 是第一个将人工智能发展上升到国家战略层面的国家, 除此以外, 英国、 欧盟、 日本等纷纷发布人工智能相关战略、 行动计划, 着力构筑人工智 能先发优势。

集群硬件架构.png

集群硬件架构


可以看到, 政府部门、 学术界、 工业界等都在积极投入到人工智能高速发展的浪潮中, 人工智能发展形式一片大好。与此同时, 也出现了两种不同的需求 :


1)针对GPU资源紧缺的团队希望有个强大的管理平台系统,对GPU资源进行统一管理,从而提高GPU资源利用率;
2)针对超大数据分布式训练问题,使用多GPU进行数据并行训练是解决大数据量快速训练问题的首选方案。



人工智能大数据平台是中科云达推出的针对机器学习与深度学习训练的集群计算平台,对 GPU 高性能计算资源进行统一的管理和调度,有效满足用户在深度学习科研方面的需求,用户可以快速的在平台上进行数据处理、算法设计、模型训练、模型验证等科研工作,而不用关心底层复杂的集群构建与调度机制以及深度学习框架的安装部署、性能调优等问题,在充分简化深度学习训练方面工作的同时有效提高资源利用率。



系统采用轻量级Docker容器技术和Kuberates容器管理方案,实现对CPU、GPU、内存、磁盘等资源的统一管理。针对人工智能领域的特定需求,提供GPU等异构计算资源管理接口,实现对GPU等异构计算资源的虚拟化统一管理。


SCM将多个物理主机虚拟成一个资源池
集群管理功能主要有以下功能:
Ø 新建集群:
用户可以根据需求从资源池中获取GPU、CPU、内存等资源创建一个集群。
Ø 查看集群状态:


用户可以查看集群的内存使用率、CPU使用率、GPU使用率和运行在本集群下的作业等信息。


Ø 删除集群:
用户可以删除集群,将资源归还到资源池。

中科云达(北京)科技有限公司成立于2016年,公司位于北京市国际信息产业基地。公司一直致力于为广大用户提供GPU高性能计算、深度学习、虚拟化仿真、定制化服务器、工作站、存储等软硬件整体解决方案,并与多家知名技术型领先厂商如超微(Supermicro)、英特尔(Intel)、华硕(ASUS)、英伟达(NVIDIA)等建立了长期的合作关系。公司一贯本着“精诚、精细、精品”的服务宗旨,以及快速完善的售前售后服务体系,得到了教育、科研、政府、军工、互联网、设计制造等诸多行业用户的一致好评。公司以客户需求为最终导向,从技术分析到产品测试,生产,质检等各个环节,切实做好每一步的品质管控,争取为客户提供最贴切实际应用的定制化整体解决方案。