*近出现了从CPU向GPU转变这个显著的趋势,这主要归因于GPU给广告技术、金融、电信、零售或安全/IT等行业带来了独特的好处。我们剖析了GPU数据库在何处大放异彩。
你也许还没有意识到,但是今年我们设计和使用计算资源的方式方面出现了重大的革命。有什么变化?许多企业和云提供商开始从传统的中央处理单元(CPU)处理转向使用图形处理单元(GPU)。GPU数据库是这个趋势的*新动向,它们有望全面改变数据库的运行方式。
下面介绍了GPU数据库如何改变行业的游戏规则及其*佳应用领域:
GPU数据库的若干优点
针对大量数据执行重复性操作时,GPU数据库相比常规的CPU数据库有了显著改进。这是由于GPU在每块卡上可能有数千个核心和高带宽内存。
GPU具有许多独特的优点:
更快速的创新。GPU仍然遵循阿姆达尔定律(Amdahl’s law),效率提升通常是CPU速度提升的两倍,而且发布周期短得多。
与CPU相比,GPU在处理同样的工作负载时通常快10倍至100倍。
GPU尺寸小得多(大小只有CPU的1/6.5至1/20)。仅仅16台GPU加速的服务器拥有与1000个CPU集群一样强大的执行能力。
具有实时可视化和处理数据的能力。由于数据驻留在强大的图形渲染引擎上,结果以极快的速度显示!数据获取速度非常快。近实时数据探索――实时数据探索和飞快的获取速度通常意味着,数据科学家和机器学习算法确实从使用GPU中获益良多。
GPU数据库在何处大放异彩?
就在一两年前,数据库行业的许多人士对GPU数据库还不屑一顾,认为只是一阵风,可能只适用于小众领域,与内存数据库配合使用。他们表示,未来仍是传统数据库的天下。
然而,一些积极创新的公司不这么认为。很快,使用GPU数据库的现象大大普及开来,安装于所有的垂直行业领域,包括金融、电信,甚至一向很晚采用新技术的政府部门。原因何在?简而言之,GPU数据库用于分析数据时大放异彩,投入仅为传统数据库的一小部分。
对于从来就不是为关系数据分析设计的Hadoop来说,GPU数据库堪称完美的补充。只要看看正在使用一批GPU服务器的美国邮政总局,就可以了解其优势。美国邮政总局管理遍布20万条投递路线的1.54亿个地址,分析每个邮递员的位置数据。所以,可想而知美国邮政总局有一个庞大的数据库。
有了这些数据,美国邮政总局可以估计投递时间,实时通知主管,并且优化临时路线。得益于GPU数据库,邮政总局可以迅速处理这些复杂的查询,所用时间与载入网页的时间相当。这给人留下了很深刻的印象。
GPU数据库给广告技术、金融、电信、零售、安全/ IT甚至能源行业带来了大好的机会。它们在国防情报机构中也得到了广泛的使用。
GPU加速的工作原理谁得益于GPU数据库?
虽然公司各部门从更快的查询、更快的数据获取和更低的IT成本中获得的好处似乎不值一提,但从GPU数据库获得*大好处的其实是数据科学家。
快速的数据获取和查询意味着,数据科学工作的典型周期从几天缩短到区区几小时。其他工作负载可能会从几小时缩短到几分钟,甚至几秒钟。为这些关键业务型数据科学和机器学习工作负载缩短这些周期,将使数据科学家由平常的“二等”数据库用户成为GPU数据库的主要受益者。
GPU数据库项目如何实施?
大多数GPU数据库在云端运行,适用于从IBM Bluemix到亚马逊AWS的各种环境。然而,本地数据库和混合架构也可以使用。一旦数据库搭建完毕,可以使用基于行业标准的驱动程序,使用标准SQL来查询数据,这些驱动程序包括:JDBC和ODBC,Python、Jupyter和sklearn 等。
R及其他机器学习库
之后,扩大规模通常就跟为设备添加另一个GPU一样简单。由于每个GPU具有强大的计算能力,添加新的设备不太常见。实际上,借助一些GPU数据库,就可以在标准的2U服务器中存储和查询多达100TB的原始数据。
对大多数GPU数据库来说,整个搭建过程通常异常简单,只需要极少的数据建模工作,不需要新的/昂贵的开发和使用技能。大多数GPU数据库常常还与现有的生态系统兼容。它们可与你现有的数据源、数据采集工具,甚至商业智能(BI)、报告、分析和可视化工具协同运行。
鉴于现在数据量每两年翻一番,预计今年年底存储系统所容纳的数据大约多达17.6万亿GB。但是大数据的用途完全取决于分析速度。借助快速分析,你的数据才会以无法想象的方式为贵企业增添价值。
如果贵企业依赖传统数据库,可能已经在考虑适合自己的那种GPU数据库。毕竟,贵企业系统面临的要求只会越来越高。