想要搭建一个AI平台?
想要搭建一个AI平台,需要什么样的基础架构?数据架构又该如何选择?
想要搭建一个AI平台,在哪里搭建?这是企业首先需要考虑的问题。是署在本地,还是部署在云端?这需要根据自身业务特点来选择,不过,无论你的AI平台在哪个地方,其基本流程都可分为四个步骤:
1、把原始数据从各种数据源导入到数据湖,进行数据拆分、清洗等数据预处理工作;
2、把数据交给AI训练集群通过机器学习神经算法框架进行训练;
3、训练完成后就可以把得到的最优参数设置模型,进行人工智能应用的部署;
4、最后把机器学习的数据进行归档。
有人说人工智能应用构建最重要的是算法框架。这种说法并不准确,框架或平台尽管重要,但也可能因行业发展流行或衰退,所以,AI平台的构建并不能只懂算法,因为算法实现不等于问题解决,问题解决不等于现场问题解决。
追求高可用、高性能、灵活易用的基础架构才是永恒不变的。Google就是依靠强大的基础架构能力让AI研究领先于业界,因为基础架构知识是AI工程师进行高效团队协作的共同语言。
而存储架构在AI平台基础架构中也起到了至关重要的作用。如果把机器学习训练集群中的GPU比作飞驰的高铁列车,那么一个优秀的AI平台数据管道就像高铁网络中的铁轨。当你考虑如何从你的AI部署中获取最佳结果时,数据管道或许是最重要的考量点。
我们知道企业级存储主要有三种模式:基于数据块的SAN存储,基于文件的NAS存储和对象存储。首先SAN存储因为自身无法实现跨不同主机共享数据,不适合直接用于AI平台,可以排除;其次对象存储达不到AI平台数据管道所需的高性能也可以排除,所以文件存储是一个不错的选择,但有些因素必须考虑:
1、选择何种文件系统
• 横向扩展架构例如Lustre 或者 GPFS;
• HDFS,通用的大数据文件系统;
• NFS,最广泛部署的共享文件系统。
2、能够存放各种来源的结构化和非结构化数据,而不牺牲性能
• 日志和传感器数据;
• 数据库数据:包括关系型数据库和非关系型数据库;
• 邮件日志;
• 个人主目录;
• 其他数据类型。
3、同时满足随机小IO和顺序大IO的性能
• 从上面列举的数据来源可以看到一些数据源产生的是随机小IO,而有些数据源是顺序大IO;
• 文件系统必须能够在两者之间平衡性能。
4、最大性能和数据移动的能力:
• 文件系统的最大性能;
• 能够高效的移动数据。
5、数据生命周期的自动化
• 自动分层智能决定不同数据集的存储位置,比如高性能层,归档层等;
• 同时满足数据分类和过滤过程的实时性能;
6、支持最新的存储和内存介质如NVMe和SCM等,从而在性能和延迟上获得数量级的提升
• 你的AI平台选择的文件系统和数据架构至少应该满足以上条件,这对AI平台的长久发展非常重要。
AI数据集能够轻易地增长到很大规模,为适应这种数据大规模增长,需要一个可以横向扩展的单一命名空间文件系统,并且能够随着客户端训练节点的扩展而线性提升存储性能。
客户端访问这个单一命名空间有不同的方式,不同方式意味着不同的性能要求,一种训练模型为异步训练,数据集被静态地分布于训练集群节点,每次训练只有一个节点访问命名空间中的一部分特定数据。
另一种训练模型为同步进行,数据集相互关联紧耦合在一起,需要被训练集群中所有节点同时访问。这种情形明显需要更高的文件系统性能。
还有一种多层神经网络训练模型,每个训练节点有序地从文件系统中读出数据集进行训练,这样就导致整个数据集不断地被反复读取,一个节点读一次,不断地换手。
除了上述几点外,在选择AI平台的文件系统存储时还有一些其他因素也需要考虑,包括易于管理、扩展简单、支持多租户和存储QoS、支持客户端缓存、产品技术持续更新能力。
戴尔易安信的AI解决方案就满足上述所有要求,包括Lustre横向扩展高性能存储解决方案,原生支持HDFS的ISilon横向扩展NAS 解决方案,自动分层的横向扩展Fluid NFS解决方案。
戴尔易安信Lustre横向扩展高性能存储架构戴尔易安信横向扩展高性能文件系统在这些可选项中,每一种方案都在国内的AI研究机构和相关企业已有落地的案例参考。正在筹划搭建自己的AI平台的企业机构,可以咨询戴尔易安信专业的人工智能解决方案专家了解各方案的优劣和特点,从而根据自己的建设需要,从长远考虑选择最适合自己的AI平台。