大模型应用新战场:揭秘终端侧AI竞争关键|智在终端

文章来源:量子位

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

2024年过去2/3,大模型领域的一个共识开始愈加清晰:
AI技术的真正价值在于其普惠性。没有应用,基础模型将无法发挥其价值


于是乎,回顾这大半年,从互联网大厂到手机厂商,各路人马都在探索AI时代Killer APP的道路上狂奔。这股风潮,也开始在顶级学术会议中显露踪迹。

其中被行业、学术界都投以关注的一个核心问题就是:
在大模型“力大砖飞”的背景之下,AIGC应用要如何在手机等算力有限的终端设备上更丝滑地落地呢?

Midjourney生成
这段时间以来,ICML(国际机器学习大会)、CVPR(IEEE国际计算机视觉与模式识别会议)等顶会上的最新技术分享和入选论文,正在揭开更多细节。
是时候总结一下了。

AI应用背后,大家都在聚焦哪些研究?
先来看看,AI应用从云端迈向终端,现在进展到何种程度了。
目前,在大模型/AIGC应用方面,众多安卓手机厂商都与高通保持着深度合作。
在CVPR 2024等顶会上,高通的技术Demo,吸引了不少眼球。

比如,在安卓手机上,实现多模态大模型(LLaVA)的本地部署:

Qualcomm Research发布于YouTube
这是一个70亿参数级别的多模态大模型,支持多种类型的数据输入,包括文本和图像。也支持围绕图像的多轮对话。
就像这样,丢给它一张小狗的照片,它不仅能描述照片信息,还能接着和你聊狗狗适不适合家养之类的话题。

量子位在巴塞罗那MWC高通展台拍摄的官方演示Demo
高通还展示了在安卓手机上运行LoRA的实例。

Qualcomm Research发布于YouTube
以及音频驱动的3D数字人版AI助手——同样能在断网的情况下本地运行。

Qualcomm Research发布于YouTube
Demo原型既出,加之手机厂商们的魔改优化,对于普通用户而言,意味着其中展现的新玩法新可能,在咱们自个儿的终端设备上已经指日可待。

但在顶会上,更加受到关注的是,demo之外,高通的一系列最新论文们,还详细地揭开了应用背后需要重点布局的关键技术。

量化
其中之一,就是量化。
在手机等终端设备上部署大模型/AIGC应用,要解决的一大重点是如何实现高效能的推理
而量化是提高计算性能和内存效率最有效的方法之一。并且高通认为,使用低位数整型精度对高能效推理至关重要。
高通的多项研究工作发现,对于生成式AI来说,由于基于Transformer的大语言模型受到内存的限制,在量化到8位(INT8)或4位(INT4)权重后往往能够获得大幅提升的效率优势。
其中,4位权重量化不仅对大语言模型可行,在训练后量化(PTQ)中同样可能,并能实现最优表现。这一效率提升已经超过了浮点模型。
具体来说,高通的研究表明,借助量化感知训练(QAT)等量化研究,许多生成式AI模型可以量化至INT4模型。
在不影响准确性和性能表现的情况下,INT4模型能节省更多功耗,与INT8相比实现90%的性能提升和60%的能效提升。

今年,高通还提出了一种名为LR-QAT(低秩量化感知训练)的算法,能使大语言模型在计算和内存使用上更高效。
LR-QAT受LoRA启发,采用了低秩重参数化的方法,引入了低秩辅助权重,并将其放置在整数域中,在不损失精度的前提下实现了高效推理。
在Llama 2/3以及Mistral系列模型上的实验结果显示,在内存使用远低于全模型QAT的情况下,LR-QAT达到了相同的性能。

另外,高通还重点布局了矢量量化(VQ)技术,与传统量化方法不同,VQ考虑了参数的联合分布,能够实现更高效的压缩和更少的信息丢失。

编译
在AI模型被部署到硬件架构的过程中,编译器是保障其以最高性能和最低功耗高效运行的关键。
编译包括计算图的切分、映射、排序和调度等步骤。
高通在传统编译器技术、多面体AI编辑器和编辑器组合优化AI方面都积累了不少技术成果。
比如,高通AI引擎Direct框架基于高通Hexagon NPU的硬件架构和内存层级进行运算排序,在提高性能的同时,可以最大程度减少内存溢出。

硬件加速
终端侧的AI加速,离不开硬件的支持。
在硬件方面,高通AI引擎采用异构计算架构,包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。
其中,Hexagon NPU在今天已经成为高通AI引擎中的关键处理器。

以第三代骁龙8移动平台为例,Hexagon NPU在性能表现上,比前代产品快98%,同时功耗降低了40%。
架构方面,Hexagon NPU升级了全新的微架构。与前代产品相比,更快的矢量加速器时钟速度、更强的推理技术和对更多更快的Transformer网络的支持等等,全面提升了Hexagon NPU对生成式AI的响应能力,使得手机上的大模型“秒答”用户提问成为可能。

Hexagon NPU之外,第三代骁龙8在高通传感器中枢上也下了更多功夫:增加下一代微型NPU,AI性能提高3.5倍,内存增加30%。

事实上,作为大模型/AIGC应用向终端侧迁移的潮流中最受关注的技术代表之一,以上重点之外,高通的AI研究布局早已延伸到更广泛的领域之中。

以CVPR 2024入选论文为例,在生成式AI方面,高通提出了提高扩散模型效率的方法Clockwork Diffusion,在提高Stable Diffusion v1.5感知得分的同时,能使算力消耗最高降低32%,使得SD模型更适用于低功耗端侧设备。

并且不止于手机,针对XR和自动驾驶领域的实际需求,高通还研究了高效多视图视频压缩方法(LLSS)等。

在当前的热点研究领域,比如AI视频生成方面,高通也有新动作:
正在开发面向终端侧AI的高效视频架构。例如,对视频到视频的生成式AI技术FAIRY进行优化。在FAIRY第一阶段,从锚定帧提取状态。在第二阶段,跨剩余帧编辑视频。优化示例包括:跨帧优化、高效instructPix2Pix和图像/文本引导调节。

底层技术驱动AI创新
大模型应用是当下的大势所趋。而当应用发展的程度愈加深入,一个关键问题也愈加明朗:
应用创新的演进速度,取决于技术基座是否扎实牢固

这里的技术基座,指的不仅是基础模型本身,也包括从模型量化压缩到部署的全栈AI优化。
可以这样理解,如果说基础模型决定了大模型应用效果的上限,那么一系列AI优化技术,就决定了终端侧大模型应用体验的下限。

作为普通消费者,值得期待的是,像高通这样的技术厂商,不仅正在理论研究方面快马加鞭,其为应用、神经网络模型、算法、软件和硬件的全栈AI研究和优化,也已加速在实践中部署。

以高通AI软件栈为例。这是一套容纳了大量AI技术的工具包,全面支持各种主流AI框架、不同操作系统和各类编程语言,能提升各种AI软件在智能终端上的兼容性。
其中还包含高通AI Studio,相当于将高通所有AI工具集成到了一起,包括AI模型增效工具包、模型分析器和神经网络架构搜索(NAS)等。

更为关键的是,基于高通AI软件栈,只需一次开发,开发者就能跨不同设备随时随地部署相应的AI模型。
就是说,高通AI软件栈像是一个“转换器”,能够解决大模型在种类繁多的智能终端中落地所面临的一大难题——跨设备迁移。

这样一来,大模型应用不仅能从云端走向手机端,还能被更快速地塞进汽车、XR、PC和物联网设备中。

站在现在的时间节点,人人都在期待改变世界的技术潮流翻腾出更汹涌的巨浪。
而站立潮头的弄潮儿们正在再次验证技术史中一次次被探明的事实:引领技术之先的人和组织,无不具备重视基础技术的“发明家文化”。
不止是追赶最新的技术趋势,更要提前布局,抢先攻克基本方案。

高通在《让AI触手可及》白皮书中同样提到了这一点:
高通深耕AI研发超过15年,始终致力于让感知、推理和行为等核心能力在终端上无处不在。
这些AI研究和在此之上产出的论文,影响的不仅是高通的技术布局,也正在影响整个行业的AI发展。

大模型时代,“发明家文化”仍在延续。

也正是这样的文化,持续促进着新技术的普及化,促进着市场的竞争和繁荣,带动起更多的行业创新和发展。

你觉得呢?

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

智谱AI静悄悄的上线了一大波新模型,过年了,真的。

文章来源:数字生命卡兹克

智谱今天下午在KDD 2024上面,悄咪咪的上线了一堆的超级更新。


我真的服了,我本来今天从泰国回来,准备休一天假的,结果晚上又坐在电脑面前被迫营业。
他们总是每次,静悄悄的就把4个2给扔出去了。

嗯,就一场演讲了,发布了一堆新模型还有新功能,个顶个都很猛。
我挨个列一下:
大语言模型GLM-4-Plus。
图像和视频理解模型GLM-4V-Plus。
AI绘图图模型CogView-3-Plus。
智谱清言上线“视频通话”
而且,这些新模型,已经全部上线了他们的开发者平台,现在,开发者已经可以直接调用API去进行开发了。。。

至于上线到智谱清言上面给普通消费者用,可能还得几天,我线上试了一下还都是老模型,毕竟模型太多了,这切换上去估计也费点时间。。。
说实话,我懵逼了,也麻了。
智谱AI就一直都是很这种地主家的傻儿子的感觉,这但凡是OpenAI,发这么多东西,必须让你先猜谜语3天,跟你玩个大反转。。。
一个一个说下:
GLM-4-Plus
全新的模型,看了下跑分整体基本上正儿八经的追平了GPT4o,而且智谱这家公司是很实诚的那种,真的不如就是不如,真的超过就是超过,不弄虚作假,所以这个跑分还是非常可信的。

AlignBench(对齐和遵循指令能力)还有MATH(数学能力)基本跟GPT4o打平,GPQA(小学问题)和LCB(代码)这块能打平GPT4o但是跟Claude 3.5还是有一些差距,Claude 3.5实在是太强了。
长文本这块,能力基本是打平或者超越。

我也去后台跑了一下GLM-4-Plus,效果确实是比之前强了。
至少之前我测试的那个很坑爹的调休问题:这么多AI大模型,就没一个能算清今年这破调休的?
基本所有的大模型都全军覆没,只有Claude3.5能连续答对5次。
而新的GLM-4Plus,这次居然也连续答对5次了。
很强,很猛。
而这个经典的动物过河问题:“农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。”

GLM-4-Plus也是3次连对,这道题之前也是所有的大模型全军覆没,…
Continued in the original article


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

大模型应用新战场:揭秘终端侧AI竞争关键|智在终端

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

文章来源:量子位

2024年过去2/3,大模型领域的一个共识开始愈加清晰:

AI技术的真正价值在于其普惠性。没有应用,基础模型将无法发挥其价值


于是乎,回顾这大半年,从互联网大厂到手机厂商,各路人马都在探索AI时代Killer APP的道路上狂奔。这股风潮,也开始在顶级学术会议中显露踪迹。

其中被行业、学术界都投以关注的一个核心问题就是:

在大模型“力大砖飞”的背景之下,AIGC应用要如何在手机等算力有限的终端设备上更丝滑地落地呢?

这段时间以来,ICML(国际机器学习大会)、CVPR(IEEE国际计算机视觉与模式识别会议)等顶会上的最新技术分享和入选论文,正在揭开更多细节。

是时候总结一下了。

AI应用背后,大家都在聚焦哪些研究?

先来看看,AI应用从云端迈向终端,现在进展到何种程度了。

目前,在大模型/AIGC应用方面,众多安卓手机厂商都与高通保持着深度合作。

在CVPR 2024等顶会上,高通的技术Demo,吸引了不少眼球。

比如,在安卓手机上,实现多模态大模型(LLaVA)的本地部署:

这是一个70亿参数级别的多模态大模型,支持多种类型的数据输入,包括文本和图像。也支持围绕图像的多轮对话。

就像这样,丢给它一张小狗的照片,它不仅能描述照片信息,还能接着和你聊狗狗适不适合家养之类的话题。

高通还展示了在安卓手机上运行LoRA的实例。

以及音频驱动的3D数字人版AI助手——同样能在断网的情况下本地运行。

Demo原型既出,加之手机厂商们的魔改优化,对于普通用户而言,意味着其中展现的新玩法新可能,在咱们自个儿的终端设备上已经指日可待。

但在顶会上,更加受到关注的是,demo之外,高通的一系列最新论文们,还详细地揭开了应用背后需要重点布局的关键技术。

量化

其中之一,就是量化。

在手机等终端设备上部署大模型/AIGC应用,要解决的一大重点是如何实现高效能的推理

而量化是提高计算性能和内存效率最有效的方法之一。并且高通认为,使用低位数整型精度对高能效推理至关重要。

高通的多项研究工作发现,对于生成式AI来说,由于基于Transformer的大语言模型受到内存的限制,在量化到8位(INT8)或4位(INT4)权重后往往能够获得大幅提升的效率优势。

其中,4位权重量化不仅对大语言模型可行,在训练后量化(PTQ)中同样可能,并能实现最优表现。这一效率提升已经超过了浮点模型。

具体来说,高通的研究表明,借助量化感知训练(QAT)等量化研究,许多生成式AI模型可以量化至INT4模型。

在不影响准确性和性能表现的情况下,INT4模型能节省更多功耗,与INT8相比实现90%的性能提升和60%的能效提升。

今年,高通还提出了一种名为LR-QAT(低秩量化感知训练)的算法,能使大语言模型在计算和内存使用上更高效。

LR-QAT受LoRA启发,采用了低秩重参数化的方法,引入了低秩辅助权重,并将其放置在整数域中,在不损失精度的前提下实现了高效推理。

在Llama 2/3以及Mistral系列模型上的实验结果显示,在内存使用远低于全模型QAT的情况下,LR-QAT达到了相同的性能。

另外,高通还重点布局了矢量量化(VQ)技术,与传统量化方法不同,VQ考虑了参数的联合分布,能够实现更高效的压缩和更少的信息丢失。

编译

在AI模型被部署到硬件架构的过程中,编译器是保障其以最高性能和最低功耗高效运行的关键。

编译包括计算图的切分、映射、排序和调度等步骤。

高通在传统编译器技术、多面体AI编辑器和编辑器组合优化AI方面都积累了不少技术成果。

比如,高通AI引擎Direct框架基于高通Hexagon NPU的硬件架构和内存层级进行运算排序,在提高性能的同时,可以最大程度减少内存溢出。

硬件加速

终端侧的AI加速,离不开硬件的支持。

在硬件方面,高通AI引擎采用异构计算架构,包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。

其中,Hexagon NPU在今天已经成为高通AI引擎中的关键处理器。

以第三代骁龙8移动平台为例,Hexagon NPU在性能表现上,比前代产品快98%,同时功耗降低了40%。

架构方面,Hexagon NPU升级了全新的微架构。与前代产品相比,更快的矢量加速器时钟速度、更强的推理技术和对更多更快的Transformer网络的支持等等,全面提升了Hexagon NPU对生成式AI的响应能力,使得手机上的大模型“秒答”用户提问成为可能。

Hexagon NPU之外,第三代骁龙8在高通传感器中枢上也下了更多功夫:增加下一代微型NPU,AI性能提高3.5倍,内存增加30%。

事实上,作为大模型/AIGC应用向终端侧迁移的潮流中最受关注的技术代表之一,以上重点之外,高通的AI研究布局早已延伸到更广泛的领域之中。

以CVPR 2024入选论文为例,在生成式AI方面,高通提出了提高扩散模型效率的方法Clockwork Diffusion,在提高Stable Diffusion v1.5感知得分的同时,能使算力消耗最高降低32%,使得SD模型更适用于低功耗端侧设备。

并且不止于手机,针对XR和自动驾驶领域的实际需求,高通还研究了高效多视图视频压缩方法(LLSS)等。

在当前的热点研究领域,比如AI视频生成方面,高通也有新动作:

正在开发面向终端侧AI的高效视频架构。例如,对视频到视频的生成式AI技术FAIRY进行优化。在FAIRY第一阶段,从锚定帧提取状态。在第二阶段,跨剩余帧编辑视频。优化示例包括:跨帧优化、高效instructPix2Pix和图像/文本引导调节。

底层技术驱动AI创新

大模型应用是当下的大势所趋。而当应用发展的程度愈加深入,一个关键问题也愈加明朗:

应用创新的演进速度,取决于技术基座是否扎实牢固

这里的技术基座,指的不仅是基础模型本身,也包括从模型量化压缩到部署的全栈AI优化。

可以这样理解,如果说基础模型决定了大模型应用效果的上限,那么一系列AI优化技术,就决定了终端侧大模型应用体验的下限。

作为普通消费者,值得期待的是,像高通这样的技术厂商,不仅正在理论研究方面快马加鞭,其为应用、神经网络模型、算法、软件和硬件的全栈AI研究和优化,也已加速在实践中部署。

以高通AI软件栈为例。这是一套容纳了大量AI技术的工具包,全面支持各种主流AI框架、不同操作系统和各类编程语言,能提升各种AI软件在智能终端上的兼容性。

其中还包含高通AI Studio,相当于将高通所有AI工具集成到了一起,包括AI模型增效工具包、模型分析器和神经网络架构搜索(NAS)等。

更为关键的是,基于高通AI软件栈,只需一次开发,开发者就能跨不同设备随时随地部署相应的AI模型。

就是说,高通AI软件栈像是一个“转换器”,能够解决大模型在种类繁多的智能终端中落地所面临的一大难题——跨设备迁移。

这样一来,大模型应用不仅能从云端走向手机端,还能被更快速地塞进汽车、XR、PC和物联网设备中。

站在现在的时间节点,人人都在期待改变世界的技术潮流翻腾出更汹涌的巨浪。

而站立潮头的弄潮儿们正在再次验证技术史中一次次被探明的事实:引领技术之先的人和组织,无不具备重视基础技术的“发明家文化”。

不止是追赶最新的技术趋势,更要提前布局,抢先攻克基本方案。

高通在《让AI触手可及》白皮书中同样提到了这一点:

高通深耕AI研发超过15年,始终致力于让感知、推理和行为等核心能力在终端上无处不在。

这些AI研究和在此之上产出的论文,影响的不仅是高通的技术布局,也正在影响整个行业的AI发展。

大模型时代,“发明家文化”仍在延续。

也正是这样的文化,持续促进着新技术的普及化,促进着市场的竞争和繁荣,带动起更多的行业创新和发展。

你觉得呢?

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

又有AI创始人卖身大厂!带走25%员工留下空壳,为吴恩达第一位博士生

从大厂出走创业的大牛,创业成果又被大厂吸收,已经成为了一种新的趋势——

  • Transformer“贡献最大”作者 Noam Shazeer,创立 Character.AI 后,重新回到了谷歌
  • DeepMind联创 Mustafa Suleyman,创办了 Inflection AI,最新动态是被挖到了微软
  • Transformer一作参与创立的 Adept,大量高级员工也被亚马逊挖走

在这样的趋势当中,大厂究竟扮演了怎样的一种角色?

有人说,是变相收购。

四分之一员工加入亚马逊

先从刚刚被挖走三名联创的Covariant说起。


2017年,Pieter Abbeel与他的三名华裔博士生——陈曦、段岩和 Tianhao Zhang(张天浩) ,一同创立了Covariant,主要研究的是用于机器人的AI系统。

Pieter Abbeel是斯坦福计算机博士,是吴恩达带的第一位博士生,从2008年前至今兼任UC伯克利教授,2016-2017年在OpenAI从事研究。

另外三人都是Pieter的学生、UC伯克利计算机博士,其中陈曦和段岩同样在2016-2017年于OpenAI从事过研究,张天浩则有一段读博期间在微软实习的经历。

Pieter Abbeel, Peter Chen, Rocky Duan and Tianhao Zhang

基于Transformer架构,Covariant研发出了适用于机器人的大模型RFM-1,拥有80亿参数,训练数据由其自己部署的机器人收集得来。

RFM-1支持自然语言交互,无需编程就可以在几分钟内快速引导机器人的行为。

截至今年四月,Covariant已完成C轮融资,所有轮次加起来一共获得了2.22亿美元(约15.8亿人民币),估值达6.25亿美元。

谷歌首席科学家 Jeff Dean,斯坦福著名教授、“AI教母” 李飞飞,深度学习三巨头之二的 LeCun和Hinton 都曾投资过Covariant, 比尔盖茨 也参与过其C轮融资。

直到现在,Covariant有四分之一员工都被亚马逊招致麾下,四名联创中除张天浩外均在此列。

Covariant被挖走的员工入职亚马逊后,将继续进行智能机器人研究,给亚马逊的机器人开发AI系统。

另外,作为协议的一部分,Covariant之前研发的AI模型,也会授予亚马逊非独家许可。

而Covariant这边,原COO Ted Stinson将出任新CEO,与剩下的联创张天浩一起继续运营公司。

巧合的是,刚好在一个月之前,亚马逊被曝出了对Covariant的收购意向。

挖人还是变相收购?

Covariant不是被亚马逊挖角的第一家初创公司,Transformer一作创立的AI初创公司 Adept ,几个月前也出现了类似的经历。

不过Adept的情况更复杂些——在被亚马逊挖走大量高级员工之前,三名联创中就有Transformer一作Ashish Vaswani和另一名作者Niki Palmer两人选择另起炉灶,创立了办公自动化公司Essential AI。

仅剩的联创 David Luan 则没有加入亚马逊,而是继续留在Adept。

今年5月Adept就被曝寻求收购,据悉当时还和Meta进行过接触。

The Verge副主编Alex Heath在一篇文章中直言,亚马逊此举实际上就是变相收购,并且亚马逊的动作也引起了市场监管部门的注意。

Adept Situation

但亚马逊并不认为这是一项收购,表示“对拥有Adept的业务和技术不感兴趣”。

同样引起注意的,还有更早之前微软对 Inflection AI 的行动,这家公司由 DeepMind联创Mustafa Suleyman 创立。

今年3月,微软和Inflection达成协议,Inflection将把技术授权给微软,创始人Mustafa Syleyman和Karén Simonyan成为微软成员,直接领导一个新部门Microsoft AI。

同时Inflection的大部分员工也一同加入微软,Inflection的对话聊天机器人Pi也在逐渐被关停。

Inflection AI and Microsoft

更近一些的,还有Transformer“贡献最大”作者 Noam Shazeer 创立的明星AI独角兽 Character.AI

包括Noam和另一名创始人 Daniel De Freitas 在内,整个核心团队都被Noam的老东家谷歌打包带走。

不收购,但是挖来了核心人员,也获得了技术,这几次事件的剧本如出一辙。

被“变相收购”之后,这几家公司虽然名义上保持独立运行,但实际情况却并不乐观。

比如Adept,虽然所有权关系没有发生改变,但有投资者表示要收回投资。

Character.ai,也刚刚被The Information爆料要裁掉120名左右员工中的5%。

Character.AI Layoffs

总之,这些初创公司(或者说其创始人)选择投身大厂,或多或少都是因为面临了资金压力。

但在核心人员纷纷加入大厂之后,初创企业面临的运营压力似乎变得更大了。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

宁波90后做机器人,融资10多亿,黄仁勋也买单

原地摸高、旋转下楼、比心、跳科目三、跑酷……2024世界机器人大会中,宇树科技的机器人再次成了全场的显眼包。今年5月,这家来自杭州的公司,发布了人形机器人G1。


该机器人身高约127厘米,体重约35公斤,拥有23至43个关节,可以完成动态站起、坐下折叠、舞棍等高难度动作。更关键的是,G1的售价仅为9.9万元,这也是双足机器人价格首次被打到10万元以内,比以往便宜了超 80%。3个月后,2024世界机器人大会期间,宇树再次推出了G1量产版本。这家由来自浙江宁波的90后王兴兴创办的机器人公司,正越来越多受到全球科技圈的关注。在此之前,宇树科技的机器人多次与黄仁勋同台出现在英伟达的GTC大会上,而英伟达也是其采购商之一。

宇树科技的机器人还频频亮相全球重大活动赛事,比如2021年的央视春晚、2022年冬奥会的开幕式、2023年Super Bowl(超级碗)的赛前表演上,均能看到这家公司的身影。2016年,宇树科技成立,最初专注于研发四足机器人。2023年初,宇树科技立项人形机器人产品,并在同年推出了首款通用人形机器人产品宇树H1。“去年下半年,我们人形机器人已经全球发货了,今年也已经接了不少订单,某种程度上我们今年的人形机器人卖得也挺多的。”王兴兴告诉《中国企业家》。

过去8年,宇树科技共获得8轮投资,既包括像红杉中国、初心资本、顺为资本、经纬创投等这样的头部财务投资方,也有像美团、海克斯康这样的产业投资方。2024年2月,宇树科技完成了近10亿元B2轮融资,美团成为该公司的最大股东。

偏科的天才
王兴兴从小就喜欢钻研科学、物理、化学、生物等各种问题,并展现出不俗的动手能力和天赋。他至今都记得幼儿园时画的第一幅画,画的是一只蝴蝶,但细节的精细程度让父母和老师都感到震惊。同时,从小学开始,他就动手制作很多东西,完成度在学校中也数一数二。然而,画画、做手工这些技能,他都没有系统学过,全靠自己观察。他轻描淡写地告诉《中国企业家》:“其实要做好,比较简单,你只要细致一点就行了。”王兴兴是1990年生人,小学时,他最期待的时间就是每天傍晚7点。一到7点,他就守在电视机旁边看科教节目,那时电视台引进了一系列包括生物、太空、化学、机器人等内容的纪录片。“大家可能想不到,波士顿动力在MIT实验室那台机器人,我差不多在10岁左右就在电视里看过了。”王兴兴回忆。…

For more details, please check the URL

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

无问芯穹,问鼎独角兽

文章来源:头部科技

图片来源:由GPTNB生成

大模型时代,算力运营商受到市场追捧。

**清华系AI创业公司无问芯穹近日完成近5亿元A轮融资。


**
至此,这家成立仅16个月的创业公司,已累计完成近10亿元融资。
据统计,无问芯穹是目前国内大模型赛道累计融资额最高的AI Infra公司,没有之一。
此次A 轮融资,无问芯穹一口气新增15 家股东,投资方阵容令人惊叹,涵盖北京上海等地的国资/地方基金,市场化头部VC,还有券商直投和产业CVC——联合领投方为社保基金中关村自主创新专项基金(君联资本担任管理人)、启明创投和洪泰基金,跟投方包括联想创投、小米、软通高科等战略投资方,国开科创、上海人工智能产业投资基金(临港科创投担任管理人)、徐汇科创投等国资基金,以及顺为资本、达晨财智、德同资本、尚势资本、森若玉坤、申万宏源、正景资本等财务机构。

图片来源:无问芯穹

无问芯穹的独角兽之路似乎如鱼得水。目前,该公司并未披露最新估值。

图片来源:无问芯穹

“唯一具备全栈技术能力的创业团队”

无问芯穹联合创始人、CEO夏立雪分享到,“我们是国内除大厂外,唯一具备全栈技术能力的团队。”
算力市场空间之广阔有目共睹,理所当然的,背后的技术层栈要求也很高。
无问芯穹的底层解法是,提供高效整合异构算力资源的好用算力平台,以及支持软硬件联合优化与加速的中间件,实现模型与算力垂直打通,打造全栈技术能力,让异构芯片真正转化为大算力。
无问芯穹以“释放无穹算力,让AGI触手可及”为使命,致力于成为大模型时代首选的“算力运营商”,基于对AI行业的深刻理解和长期实践,无问芯穹超前判断大模型的实际可用算力不仅取决于芯片的理论算力,还可通过优化系数放大算力利用效率,通过集群规模放大整体算力规模

无问芯穹提出“芯片算力×优化系数(软硬协同)×集群规模(多元异构)=AI模型算力”公式。遵循这一公式,无问芯穹将通过软硬件联合优化技术,持续提升芯片算力在大模型任务中的利用率,并通过多元异构算力适配技术,提升集群算力利用率,扩大行业整体算力供给。

通过激活多元异构算力和软硬件联合优化,无问芯穹目标让大模型的落地成本降低10000倍,如同“水电煤”一般,成为行业触手可及、广泛受益的新质生产力,加速AGI的普惠进程。
目前,无问芯穹基本已经做到了1000倍下降。这1000倍是针对大模型,结合了在算法层、硬件层、软件层多个层次的联合优化。

图片来源:无问芯穹

无问芯穹AI模型算力公式

无问芯穹相当于是大模型算力领域的“淘宝”,助力大模型应用开发降本增效,破解算力焦虑。

具体看来,在软硬件联合优化方面,无问芯穹通过自研的推理加速技术FlashDecoding++大幅提升主流硬件和异构硬件的利用率,超越在先SOTA,完成多个主流开源大模型在摩尔线程、壁仞、寒武纪、燧原、海光、NVIDIA、AMD、华为昇腾等10余种计算卡上的适配,并在部分计算卡上实现了行业第一的推理加速成果,高效满足各行业愈发高涨的大模型推理需求。

基于这一方案取得的优化效果,无问芯穹已与AMD签署战略合作,携手推动商用AI应用的性能提升。

无问芯穹在多元异构算力适配方面也拥有业界稀缺的异构适配与集群能力禀赋。

7月发布的大规模异构分布式混合训练系统HETHUB,是业内首次在华为昇腾、天数智芯、沐曦、摩尔线程和AMD、NVIDIA共六种芯片“4+2”组合间实现了千卡规模的异构算力混合训练,集群算力利用率最高达到97.6%,平均高出基准方案约30%,这意味着,在相同的多元芯片机房条件或者集群条件下,无问芯穹可将训练总时长压缩30%。

无问芯穹依托软硬协同、多元异构技术优势,已基于多元芯片算力底座打造出Infini-AI异构云平台。

该平台向下兼容多元异构算力芯片,可有效激活全国各地沉睡异构算力,现已运营的算力覆盖全国15座城市。

此外,Infini-AI异构云平台还包含一站式AI平台(AIStudio)和大模型服务平台(GenStudio)。

其中,AIStudio一站式AI平台为机器学习开发者提供高性价比的开发调试、分布式训练与高性能推理工具,覆盖从数据托管、代码开发、模型训练、模型部署的全生命周期。GenStudio大模型服务平台则为大模型应用开发者提供高性能、易上手、安全可靠的多场景大模型服务,全面覆盖了从大模型开发到服务化部署的全流程,有效降低了开发成本和门槛。

自平台上线以来,已有Kimi、LiblibAI、猎聘、生数科技、智谱AI等多个大模型行业头部客户在Infini-AI异构云平台上稳定使用异构算力,并享受无问芯穹提供的大模型开发工具链服务。

目前,无问芯穹正在强力推进和产业链中最具价值的客户建立战略合作,再推广到更广泛的市场中实现标准化、批量化复制,建立规模优势。

如此吸金的AI创业公司,
是怎么炼成的?

无问芯穹独特的人才竞争力,源于清华电子系的深厚底蕴、十余年的技术积累和丰富的产业经验所形成的产研结合的复合型团队。
去年5月31日,无问芯穹成立。团队生根于清华NICS-EFC实验室。该实验室成立于2008年,全称“Nanoscale Integrated Circuits and System Lab, Energy Efficient Computing Group”,专注于电子工程领域。
该实验室的领导者,正是无问芯穹的发起人、也是这家公司的灵魂人物:清华电子系系主任——汪玉。汪玉的参与,似乎成了无问芯穹最有底气的背书
汪玉本人的本硕博都在清华就读,2007年留校任教,长期专注于智能芯片,高效电路与系统的研究。这也是说无问芯穹是根正苗红的清华系出身的原因。
汪玉是国内芯片领域公认的大咖。他曾多次在顶级会议中拿到最佳论文,谷歌学术引用达17000余次。

图片来源:无问芯穹

除了学术界,汪玉在产业界也很有建树,是芯片领域的连续创业者。
2016年1月,以汪玉教授为负责人的深度学习处理器项目,通过清华大学电子信息学院论证并获得支持。随后,项目团队以知识产权转化入股,创立AI芯片公司深鉴科技,进行产业化运营。而汪玉的得意门生姚颂和单羿,正是深鉴科技创始成员。
2018年,深鉴科技被全球最大的FPGA厂商赛灵思收购,随后赛灵思也被美国芯片巨头AMD所收购。因此,深鉴科技成为目前国内商业化发展最成功的AI芯片公司。
如今,汪玉选择再次携手自己的学生进行创业,共同创办了无问芯穹。
无问芯穹联合创始人、CEO夏立雪是汪玉的学生,是汪玉做博导后带的博士。
联合创始人、CTO颜深根同为清华人,现在是电子工程系副研究员,曾任商汤科技数据与计算平台部执行研究总监,带队搭建过万卡集群。
联合创始人兼首席科学家戴国浩,同为清华校友,分别于 2014 年和 2019 年取得清华电子工程系工学学士和博士学位,2022年成为上海交通大学电子信息与电气工程学院长聘教轨副教授。
这几人带队,在无问芯穹组建了150多人的队伍,其中100多人专注于AI大模型软硬件技术研发。大模型研发算力高昂,投资初创芯片公司,或许是最具性价比的方式。
算力是AI发展的前哨和基石,支撑模型能力迈向下一代的算力系统,还需要去研发和构建。不完全统计,宣布拥有千卡规模的中国算力集群已不少于100个,绝大部分集群已经或正在从同构转向异构。
同时,我国特殊的本地化需求,迫切呼唤有人能把不同厂商的异构芯片资源整合起来,发挥出最高效率。
在此过程中,以无问芯穹为代表的清华系AI创业新势力的崛起为代表,我们或将看到越来越多的“算力运营商”成为大家瞩目的焦点。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

专注AI+制造:创新奇智大模型工业落地初显成效,探索工业智能机器人新方向

最近的大模型行业,似乎有一种「暴风雨来临前的平静」。

整个 8 月,OpenAI 连续不断的行动似乎在告诉我们:风向要变了。


从发布 System Card,开放大模型微调能力,再到针对逻辑能力改进,可个性化训练部署的「草莓」模型,一系列曝光的项目和产品,都显现着实用化的明确目的。

图片

OpenAI 研究员 Trevor Creech 的推文。大模型的领军企业似乎也把技术的落地放在了首位。

大模型的发展正在呈现不平衡的景象:在一边,技术覆盖已有了可观的数字,OpenAI 宣布 ChatGPT 每周活跃用户量达到两亿,走开源路线的 Meta 则报告 Llama 系列模型下载量接近 3.5 亿;但在另一边,原本预料中对于众多行业的「颠覆」似乎还没有起势。

对于工业落地来说,新技术的应用意味着切实能够带来生产力的提升。各家科技公司已经走到了比拼技术商业化的攻坚阶段,比拼的是谁落地得更快,谁的落地更实用。

就在这波降低技术门槛、优化模型的大潮中,国内的一家公司脱颖而出,它从创立之初就确立了大模型「工业化落地」的方向,并已经取得了一系列成果。

创新奇智的工业大模型,正在快速落地

在工业领域,创新奇智为客户量身打造的智能化数据治理解决方案正在发挥作用。

面向制造业,创新奇智打造出了实用化的设备维护智能体。在与中加特电气的合作中,基于大模型应用 ChatBI 及 ChatDoc,结合工厂 MES 系统(制造执行系统),创新奇智在生产端打通了设备的维护保养闭环。

使用这一套工具,人们可以通过简单对话的方式实现生产设备数据查询、故障预测、根因分析、设备维修告警、维修方案推荐、维修工单生成等功能,进而执行设备保养维修的全流程智能化维护。

图片

采用大模型智能体方案后,人们可以通过 AI 预防生产故障,减少维修次数,每年可以降低多达 265 万维修成本。同时,因为设备故障检修次数变少,生产效率可以提升 36.3%。通过对数据的根因分析,用户更可以快速找到设备故障的原因,维修响应时间降低了 30%,解决故障的时间从平均 10 小时,降到了 7 小时以内。

除了提升维护效率,在很多行业中,大模型技术也可以帮助人们快速分析数据,辅助进行决策,大大提升数据和信息资产积累的效率。

平安资管拥有庞杂的数据库系统,包含数万张数据表及数十万计的字段,存在大量结构化、非结构化、半结构化数据。面对庞大的数据资产,各表单之间复杂的关系网络,要想用人力进行梳理,就需要耗费大量时间。

人们将所有数据接入到大模型数据管控平台中,通过 ChatBI 应用为客户实现数据分析洞察,通过 ChatDoc 应用为客户实现数据运维洞察,充分解决了以上难题。在实践中,ChatBI 可以帮助用户仅通过对话的方式,即刻查询到所需的指标、表、字段等信息;还可以快速追踪数据的来源和流向,了解数据在各系统之间的流动情况,让数据盘点效率提升了 10 倍。

图片

而 ChatDoc 可以帮助客户通过对话的方式 ,即刻生成某项信息报错后的解决方案,还可以快速查询合规要求,生成操作建议,将整体误操作事件降低了 80%。

当前,围绕制造业打造的大模型解决方案通常可分为两类。一类涉及产线运营效率提升,如工业质检;另一类则被称作企业信息智能,信息和知识密度较大,非常适合大模型的应用。

这些领域的数据对于大模型的针对训练来说已经完全可用。随着闭环的形成,新生成的数据反哺并不断提升模型能力,解决方案也在逐渐跑通。

基础能力,不断提升

一系列技术落地的背后,是创新奇智以工业大模型技术平台为基础的产品体系。

2023 年 4 月,奇智孔明推出了首款生成式 AI 产品 —— 奇智孔明 AInnoGC,它面向制造业为主的垂直类场景,致力于让不同细分行业都拥有基于自身数据的 AI 生成能力。

今年 3 月,作为其基础的工业大模型 AInno 升级至 2.0 版本,达到 750 亿参数,性能获得了大幅升级。AInno-75B 增加了多模态处理能力,支持输入文本、图像、视频以及工业场景中的行为(Action)模态,如 CAD 等。

图片

通过引入高参数量大模型 AInno-75B, 创新奇智的主推产品 ChatDoc、ChatBI 获得了显著的能力提升。

生成式企业私域知识问答应用 ChatDoc 进一步丰富了多知识库、多文件类型、多内容格式的知识问答能力。ChatDoc 在知识库领域完成了一系列创新。通过「片段切分合并」的方式,在人机交流的过程中,知识点的相关性经由大模型技术进行判断,避免了横跨领域时返回内容不完整,整体问答效果提升 28.8%。

现在,ChatDoc 支持了直接对扫描版 PDF 文档的识别和问答,可以自动扫描 PDF 文件,并将其中信息直接纳入到知识库当中。

与此同时,创新奇智重点优化了全流程数据计算效率和服务吞吐能力,显著提升了大量文件情境下的问答效果、效率和用户体验。

生成式企业私域数据分析应用 ChatBI 则针对客户需求优化了产品体验,支持用户的全流程可介入、可编辑、可确认,确保数据分析结果可靠、可信。同时该工具进一步优化了 Text-To-SQL、Text-To-Chart 的效果和展示形式,降低了数据分析门槛,并提升了数据分析效率。

在实际的工作流程中,ChatBI 被定位为助手(Copilot)级应用。创新奇智 CTO 张发恩表示:「它不是 100% 的 BI 系统,而是作为辅助企业内 BI 报表工作人员的角色,可以帮助人们提升效率。在 AI 的帮助下,很多原来需要写代码的工作流程,现在只需要以对话的方式就可以实现了。」

此外,在大模型的推理效率上,创新奇智通过高效的搜索引擎和 4 比特量化技术大幅降低计算资源需求,实现了 75B 大模型的双卡可推理,满足了大量企业级应用场景的需求。针对众多企业大模型私有化部署的需求,创新奇智还与合作方共同构建了基于国产算力的一体机。

创新奇智还升级、发布了生成式企业私域视觉洞察应用 ChatVision、生成式辅助工业设计应用 ChatCAD、工业机器人任务编排应用 ChatRobot Pro 等一系列能力。

切入工业机器人,探索端到端方向

说到工业机器人,创新奇智在这个方向上正进行着最前沿的探索。

ChatGPT 等大语言模型的发展,正在为机器人领域掀起一场革命,有最先进的大语言模型加持,机器人终于拥有了一颗聪明的大脑。

今年初,斯坦福大学的「炒菜机器人」ALOHA 问世,引发了一片关注。利用新一代技术,机器人似乎已经可以胜任全职管家了。

在斯坦福的工作中,研究者开发了一套系统,用于机器人模仿学习需要全身控制的双臂移动操作任务。它通过一个全身远程操作界面进行有监督的行为克隆收集数据,并在此基础上让机器人进行训练。当面对不同形态的物体时,机器人依然能根据之前的训练数据完成诸如刷碗等基本动作,实现了一定程度的自动化和适应性。

创新奇智正在构建的 ChatRobot Pro 生成式工业机器人任务调度应用,也使用了相同的思路。在去年基于大模型智能体实现高层次调度编排的基础上,新版本的 ChatRobot Pro 结合了多模态、端到端的 VLA(Vision-Language-Action)策略模型,持续优化了工业大模型的感知、理解、规划、决策能力,大幅提升了机器人操作的任务泛化性和交互友好性。

ChatRobot Pro 的核心是端到端的 VLA 策略模型,它可以接受图像输入并配合语言指令进行下一步动作的预测。与以 token 形式输出文本内容的大语言模型不同,在 VLA 模型中,算法需要实时处理视觉环境中的动作,快速准确地面对外界做出连续的动作反应。创新奇智的机器人可以保持一秒钟 30Hz 的动作刷新率,确保了行动连贯流畅。

VLA 大模型是一种能够在视觉、语言及动作之间建立联系的强大工具,它可以接收来自多个传感器的数据(例如三个摄像头图像),解读复杂的任务指令,并输出相应的动作,指导机器人执行精确的操作,如调整物体位置等。与传统的机器人相比,VLA 具有更强的理解能力、学习能力和响应速度,适用于需要实时处理复杂情境的任务场景,如工业生产中的质量检测、产品组装等。

在这里,系统采用了云边端协同架构,其中机器人旁的端侧算力负责本地部分数据处理,端侧 VLA 算法进行最终决策,以支持机器人在复杂环境下的自主决策和高效执行。

我们在实验室里看到了 ChatRobot Pro 早期形态的演示。仅通过上百次人类操作的「指导」,收集数据加训练时长不到一个月,实验室里的机器人就已经学会拿起扫帚打扫碎屑:

图片

它也可以识别杯中小球,并将其倒入空杯子:

![图片](https://mmbiz.qpic.cn/sz_mmbiz_gif/KmXPKA19gWicYVK35Oyfp5y5ffH58eYv4PdKJT7px2POnPowfSRz6XlpDpab

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了

本文根据视频整理而来,有听错或理解不当之处欢迎在评论区指出。

向大模型输入「Michael Jordan plays the sport of _____(迈克尔・乔丹从事的体育运动是……)」,然后让其预测接下来的文本,那么大模型多半能正确预测接下来是「basketball(篮球)」。


这说明在其数以亿计的参数中潜藏了有关这个特定个人的相关知识。用户甚至会感觉这些模型记忆了大量事实。

但事实究竟如何呢?

近日,3Blue1Brown 的《深度学习》课程第 7 课更新了,其中通过生动详实的动画展示了 LLM 存储事实的方式。视频浏览量高达 18 万次。图片

去年 12 月,谷歌 DeepMind 的一些研究者发布了一篇相关论文,其中的具体案例便是匹配运动员以及他们各自的运动项目。图片

虽然这篇论文并未完全解答有关 LLM 事实存储的问题,但也得到了一些颇为有趣的结果,其中的一个重点是:事实保存在网络中的一个特定部分,这个部分也就是我们熟知的多层感知器(MLP)。

在 3Blue1Brown 刚刚更新的这期视频中,他们用 23 分的视频演示了大型语言模型如何存储和处理信息,主要包括以下部分:

  • LLM 中隐藏的事实是什么
  • 快速回顾 Transformers
  • 示例
  • 多层感知器
  • 计算参数图片

视频地址:https://www.youtube.com/watch?v=9-Jl0dxWQs8

在演示视频中,3b1b 的作者口齿清晰、语言标准,配合着高清画面,让读者很好地理解了 LLM 是如何存储知识的。

很多用户在看完视频后,都惊讶于 3Blue1Brown 教学质量:图片

还有网友表示,坐等更新这期视频已经很久了:图片

接下来我们就深入 MLP 的细节吧。在这篇文章中,机器之心简要介绍了核心内容,感兴趣的读者可以通过原视频查看完整内容。

MLP 在大模型中的占比不小,但其实结构相比于注意力机制这些要简单许多。尽管如此,理解它也还是有些难度。为了简单,下面继续通过「乔丹打篮球」这个具体示例进行说明吧。[..更多内容]


。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

迈向「多面手」医疗大模型,上交大团队发布大规模指令微调数据、开源模型与全面基准测试

编辑 | ScienceAI

近日,上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队,在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》,从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。

文中所涉及的所有数据和代码、模型均已开源。


GitHub: https://github.com/MAGIC-AI4Med/MedS-Ins

Paper Link: https://arxiv.org/abs/2408.12547

Leaderboard: https://henrychur.github.io/MedS-Bench/

概览

近年来,大型语言模型(LLM)取得了显著的进展,并在医疗领域取得了一定成果。这些模型在医学多项选择问答(MCQA)基准测试中展现出高效的能力,并且 UMLS 等专业考试中达到或超过专家水平。

然而,LLM 距离实际临床场景中的应用仍然有相当长的距离。其主要问题,集中在模型在处理基本医学知识方面的不足,如在解读 ICD 编码、预测临床程序以及解析电子健康记录(EHR)数据方面的误差。

这些问题指向了一个关键:当前的评估基准主要关注于医学考试选择题,而不能充分反映 LLM 在真实临床情景中的应用。

本研究提出了一项新的评估基准 MedS-Bench,该基准不仅包括多项选择题,还涵盖了临床报告摘要、治疗建议、诊断和命名实体识别等 11 项高级临床任务。

研究团队通过此基准对多个主流的医疗模型进行了评估,发现即便是使用了 few-shot prompting,最先进模型,例如,GPT-4,Claude 等,在处理这些复杂的临床任务时也面临困难。

为解决这一问题,受到 Super-NaturalInstructions 的启发,研究团队构建了首个全面的医学指令微调数据集 MedS-Ins,该数据集整合了来自考试、临床文本、学术论文、医学知识库及日常对话的 58 个生物医学文本数据集,包含超过 1350 万个样本,涵盖了 122 个临床任务。

在此基础上,研究团队对开源医学语言模型进行指令调整,探索了 in-context learning 环境下的模型效果。

该工作中开发的医学大语言模型——MMedIns-Llama 3,在多种临床任务中的表现超过了现有的领先闭源模型,如 GPT-4 和 Claude-3.5。MedS-Ins 的构建极大的促进了医学大语言模型在实际临床场景的中的能力,使其应用范围远超在线聊天或多项选择问答的限制。

相信这一进展不仅推动了医学语言模型的发展,也为未来临

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB