2016年底,谷歌tpu团队的十位核心开发者中的八位悄悄离职,创办了一家名为groq的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为tsp的芯片架构出现在公众视野里。
tsp的全称是tensorstreamingprocessor,专为机器学习等ai相关需求打造。该架构在单块芯片上可以实现每秒1000万亿(10的15次方)次运算,是全球首个实现该级别性能的架构,其浮点运算性能可达每秒250万亿次(tflops)。在摩尔定律走向消亡的背景下,这一架构的问世标志着芯片之争从晶体管转向架构。
250tflops浮点运算性能是什么概念?目前的世界第一超级计算机summit,其峰值算力为200,794.9tflops,它的背后是28,000块英伟达voltagpu。如果tsp达到了类似的效率,仅需803块就可以实现同样的性能。
groq在一份白皮书中介绍了这项全新的架构设计。此外,他们还将在于美国丹佛举办的第23届国际超算高峰论坛上展示这一成果。
「我们为这一行业和我们的客户感到兴奋,」groq的联合创始人和ceojonathanross表示。「顶级gpu公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品,但groq现在就做到了,而且建立了一个新的性能标准。就低延迟和推理速度而言,groq的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。」
groq的tsp架构是专为计算机视觉、机器学习和其他ai相关工作负载的性能要求设计的。「对于一大批需要深度学习推理运算的应用来说,groq的解决方案是非常理想的选择,」groq的首席架构师dennisabts表示,「但除此之外,groq的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。」
一款「简单」的ai芯片架构
groq的这款架构受到「软件优先」(softwarefirst)理念的启发。它在groq开发的tsp中实现,为实现计算灵活性和大规模并行计算提供了一种新的范式,但没有传统gpu和cpu架构的限制和沟通开销。
「软件优先」的硬件设计理念
在groq的架构中,groq编译器负责编码所有内容:数据流入芯片,并在正确的时间和正确的地点插入,以确保计算实时进行,没有停顿。执行规划由软件负责,这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。
这使得groq的芯片性能具有确定性。编译器动态地重新配置硬件来执行每个计算,因此编译器和芯片之间没有抽象(abstraction)。由于编译器了解硬件和每条指令的速度,所以它可以准确地告诉硬件做什么,什么时候做。
在传统的体系架构中,将数据从dram移动到处理器需要大量的算力和时间,而且相同工作负载上的处理性能也是可变的。在典型的工作流中,开发人员通过反复运行工作负载或程序来对其进行配置和测试,以验证和度量其平均处理性能。由于处理器接收和发送数据的方式不同,这种处理可能会得到略有差别的结果,而开发人员的工作就是手动调整程序以达到预定的可靠性级别。
但有了groq的硬件和软件,编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置,这样就不会有延迟。到达硬件的指令流是完全编排好的,使得处理速度更快,而且可预测。
开发人员可以在groq芯片上运行相同的模型100次,每次得到的结果都完全相同。对于安全和准确性要求都非常高的应用来说(如自动驾驶汽车),这种计算上的准确性至关重要。
另外,使用groq硬件设计的系统不会受到长尾延迟的影响,ai系统可以在特定的功率或延迟预算内进行调整。
这种软件优先的设计(即编译器决定硬件架构)理念帮助groq设计出了一款简单、高性能的架构,可以加速推理流程。
该架构既支持传统的机器学习模型,也支持新的计算学习模型,目前在x86和非x86系统的客户站点上运行。
更简单的架构设计
为了满足深度学习等计算密集型任务的需求,芯片的设计似乎正在变得越来越复杂。但groq认为,这种趋势从根本上就是错误的。他们在白皮书中指出,当前处理器架构的复杂性已经成为阻碍开发者生产和ai应用部署的主要障碍。当前处理器的复杂性降低了开发者工作效率,再加上摩尔定律逐渐变慢,实现更高的计算性能变得越来越困难。
groq的芯片设计降低了传统硬件开发的复杂度,因此开发者可以更加专注于算法(或解决其他问题),而不是为了硬件调整自己的解决方案。有了这种更加简单的硬件设计,开发者无需进行剖析研究(profiling),因此可以节省资源,更容易大规模部署ai应用。
与基于cpu、gpu和fpga的传统复杂架构相比,groq的芯片还简化了认证和部署,使客户能够简单而快速地实现可扩展、单瓦高性能的系统。
让每个晶体管实现更高的性能
groq的张量流架构可以在任何需要的地方提供算力。与当前领先的gpu、cpu相比,groq处理器的每个晶体管可以实现3-6倍的性能提升。这一改进意味着交付性能的提升、延迟的下降以及成本的降低。结果是,groq的架构使用起来更加简单,而且性能高于传统计算平台。
备受瞩目的groq
groq总部位于加州山景城,针对计算密集型应用程序提供高效的软件驱动解决方案,在性能、准确性和延迟度(亚毫秒级)等方面处于行业领先水准。
创立之初,groq颇受关注的原因是它的团队组成:创始团队的8位研发成员均来自谷歌tpu核心团队——在此之前,谷歌tpu核心团队总共不过才10个人。谷歌在短短14个月内发布tpu,1年后又完成第2代tpu,所以外界对groq抱有非常高的期待值。
尽管groq只是一家成立三年的创业公司,但一举一动都会受到外界的高度关注。今年9月,groq在aihardwaresummit2019无故缺席,业内纷纷猜测groq公司内部是否遇到了危机。
groq现任ceojonathanross的身份是「前谷歌芯片高层人员」,他毕业于纽约大学,曾在谷歌度过了5年多的职业生涯,是tpu的主要设计者之一。与他相关的还有非常神秘的谷歌x实验室,这个部门所从事的工作都是最前沿的领域,比如太空电梯、无人驾驶汽车、谷歌眼镜等。一定意义上说,谷歌是在「利用这个实验室来追踪100个震撼世界的创意」。创立之初,jonathanross担任groq的cto,后来从2018年底开始接任dougwightman担任ceo一职
douglaswightman也是谷歌x实验室的前成员。groq成立几个月后,赛灵思全球销售执行副总裁krishnarangasayee也加盟出任coo。
就在前几天,groq官网宣布stuartpann也将加入其董事会。stuartpann目前是惠普的首席供应链官(chiefsupplychainofficer),之前在英特尔工作了33年之久,负责英特尔微处理器和芯片组业务的定价,收入和预测等相关工作,在控制成本支出、提高营收方面有着非常深厚的经验。
groq目前大约有70名员工,从工程师数量上看还不及英特尔这种大型芯片制造商的四分之一。不过,groq却在用于人工智能行业的关键领域——新型芯片研发方面占有相当的优势。这个领域未来可能价值数百亿美元,而ceojonathanross此前不久表示「groq不希望被收购」。
原本groq对外公布要在2018年发布第一代芯片,实际发布时间却是今年的9月。虽然来得晚了一些,但还是足够惊艳。
tsp的全称是tensorstreamingprocessor,专为机器学习等ai相关需求打造。该架构在单块芯片上可以实现每秒1000万亿(10的15次方)次运算,是全球首个实现该级别性能的架构,其浮点运算性能可达每秒250万亿次(tflops)。在摩尔定律走向消亡的背景下,这一架构的问世标志着芯片之争从晶体管转向架构。
250tflops浮点运算性能是什么概念?目前的世界第一超级计算机summit,其峰值算力为200,794.9tflops,它的背后是28,000块英伟达voltagpu。如果tsp达到了类似的效率,仅需803块就可以实现同样的性能。
groq在一份白皮书中介绍了这项全新的架构设计。此外,他们还将在于美国丹佛举办的第23届国际超算高峰论坛上展示这一成果。
「我们为这一行业和我们的客户感到兴奋,」groq的联合创始人和ceojonathanross表示。「顶级gpu公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品,但groq现在就做到了,而且建立了一个新的性能标准。就低延迟和推理速度而言,groq的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。」
groq的tsp架构是专为计算机视觉、机器学习和其他ai相关工作负载的性能要求设计的。「对于一大批需要深度学习推理运算的应用来说,groq的解决方案是非常理想的选择,」groq的首席架构师dennisabts表示,「但除此之外,groq的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。」
一款「简单」的ai芯片架构
groq的这款架构受到「软件优先」(softwarefirst)理念的启发。它在groq开发的tsp中实现,为实现计算灵活性和大规模并行计算提供了一种新的范式,但没有传统gpu和cpu架构的限制和沟通开销。
「软件优先」的硬件设计理念
在groq的架构中,groq编译器负责编码所有内容:数据流入芯片,并在正确的时间和正确的地点插入,以确保计算实时进行,没有停顿。执行规划由软件负责,这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。
这使得groq的芯片性能具有确定性。编译器动态地重新配置硬件来执行每个计算,因此编译器和芯片之间没有抽象(abstraction)。由于编译器了解硬件和每条指令的速度,所以它可以准确地告诉硬件做什么,什么时候做。
在传统的体系架构中,将数据从dram移动到处理器需要大量的算力和时间,而且相同工作负载上的处理性能也是可变的。在典型的工作流中,开发人员通过反复运行工作负载或程序来对其进行配置和测试,以验证和度量其平均处理性能。由于处理器接收和发送数据的方式不同,这种处理可能会得到略有差别的结果,而开发人员的工作就是手动调整程序以达到预定的可靠性级别。
但有了groq的硬件和软件,编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置,这样就不会有延迟。到达硬件的指令流是完全编排好的,使得处理速度更快,而且可预测。
开发人员可以在groq芯片上运行相同的模型100次,每次得到的结果都完全相同。对于安全和准确性要求都非常高的应用来说(如自动驾驶汽车),这种计算上的准确性至关重要。
另外,使用groq硬件设计的系统不会受到长尾延迟的影响,ai系统可以在特定的功率或延迟预算内进行调整。
这种软件优先的设计(即编译器决定硬件架构)理念帮助groq设计出了一款简单、高性能的架构,可以加速推理流程。
该架构既支持传统的机器学习模型,也支持新的计算学习模型,目前在x86和非x86系统的客户站点上运行。
更简单的架构设计
为了满足深度学习等计算密集型任务的需求,芯片的设计似乎正在变得越来越复杂。但groq认为,这种趋势从根本上就是错误的。他们在白皮书中指出,当前处理器架构的复杂性已经成为阻碍开发者生产和ai应用部署的主要障碍。当前处理器的复杂性降低了开发者工作效率,再加上摩尔定律逐渐变慢,实现更高的计算性能变得越来越困难。
groq的芯片设计降低了传统硬件开发的复杂度,因此开发者可以更加专注于算法(或解决其他问题),而不是为了硬件调整自己的解决方案。有了这种更加简单的硬件设计,开发者无需进行剖析研究(profiling),因此可以节省资源,更容易大规模部署ai应用。
与基于cpu、gpu和fpga的传统复杂架构相比,groq的芯片还简化了认证和部署,使客户能够简单而快速地实现可扩展、单瓦高性能的系统。
让每个晶体管实现更高的性能
groq的张量流架构可以在任何需要的地方提供算力。与当前领先的gpu、cpu相比,groq处理器的每个晶体管可以实现3-6倍的性能提升。这一改进意味着交付性能的提升、延迟的下降以及成本的降低。结果是,groq的架构使用起来更加简单,而且性能高于传统计算平台。
备受瞩目的groq
groq总部位于加州山景城,针对计算密集型应用程序提供高效的软件驱动解决方案,在性能、准确性和延迟度(亚毫秒级)等方面处于行业领先水准。
创立之初,groq颇受关注的原因是它的团队组成:创始团队的8位研发成员均来自谷歌tpu核心团队——在此之前,谷歌tpu核心团队总共不过才10个人。谷歌在短短14个月内发布tpu,1年后又完成第2代tpu,所以外界对groq抱有非常高的期待值。
尽管groq只是一家成立三年的创业公司,但一举一动都会受到外界的高度关注。今年9月,groq在aihardwaresummit2019无故缺席,业内纷纷猜测groq公司内部是否遇到了危机。
groq现任ceojonathanross的身份是「前谷歌芯片高层人员」,他毕业于纽约大学,曾在谷歌度过了5年多的职业生涯,是tpu的主要设计者之一。与他相关的还有非常神秘的谷歌x实验室,这个部门所从事的工作都是最前沿的领域,比如太空电梯、无人驾驶汽车、谷歌眼镜等。一定意义上说,谷歌是在「利用这个实验室来追踪100个震撼世界的创意」。创立之初,jonathanross担任groq的cto,后来从2018年底开始接任dougwightman担任ceo一职
douglaswightman也是谷歌x实验室的前成员。groq成立几个月后,赛灵思全球销售执行副总裁krishnarangasayee也加盟出任coo。
就在前几天,groq官网宣布stuartpann也将加入其董事会。stuartpann目前是惠普的首席供应链官(chiefsupplychainofficer),之前在英特尔工作了33年之久,负责英特尔微处理器和芯片组业务的定价,收入和预测等相关工作,在控制成本支出、提高营收方面有着非常深厚的经验。
groq目前大约有70名员工,从工程师数量上看还不及英特尔这种大型芯片制造商的四分之一。不过,groq却在用于人工智能行业的关键领域——新型芯片研发方面占有相当的优势。这个领域未来可能价值数百亿美元,而ceojonathanross此前不久表示「groq不希望被收购」。
原本groq对外公布要在2018年发布第一代芯片,实际发布时间却是今年的9月。虽然来得晚了一些,但还是足够惊艳。