扎克伯格交了百亿美金“学费”后 这个赛道被AI激活了

近半年,国内集中涌现了近百家对标Ray-Ban Meta的AI眼镜公司。据天眼查数据显示,近半年和近三个月,国内成立业务包含AI眼镜的公司分别为400余家及160余家。


“我知道的新增做AI眼镜的公司就有20多家,后来上游供应链反馈,现在已经有50多家创业公司在做AI眼镜。甚至出现了专门提供AI眼镜解决方案的公司,专门给想做AI眼镜的公司提供现成的解决方案,并支持贴牌生产。”蜂巢科技创始人兼CEO夏勇峰对《AI光年》透露。

今年下半年,国内创业公司忽然往AI眼镜扎堆,一个重要原因是Meta和雷朋联合推出的AI眼镜Ray-Ban Meta在半年多时间里就达到了全球100万销量的业绩,且在今年有望达成200万台的销售目标。

200万是个什么概念?据IDC数据,2023年全球AR眼镜销量为48万台,智能眼镜销量为101万台。一款AI眼镜单品不到一年就卖了100万台,这给在AR、VR、XR领域苦苦探索和支撑的玩家带来了前所未有的信心和想象空间。

Ray-Ban Meta一个单品就销量百万也在扎克伯格的意料之外。他在今年7月接受采访时表示,“自己也没想到AI会先于AR到来。”不过,扎克伯格依然认为VR/AR是未来重要的技术趋势之一,也正为此做准备。

根据IDC的数据,2024年可穿戴设备的出货量有望达到5.597亿部,同比增长10.5%。其中,智能眼镜的增长最为显著,在2023年的出货量增长了128.2%,远超智能戒指(34%)和智能手表(8.7%)。

百亿美金的教训

3年前,扎克伯格在Connect大会上宣布公司聚焦元宇宙业务,看好VR眼镜Quest硬件业务及虚拟现实社交平台Horizon。
按照扎克伯格的理解,AI智能眼镜是传统眼镜向AR眼镜迭代的过渡形态。AI眼镜的发展或按照AI语音眼镜——AI智能眼镜(增加摄像头)——AI+AR眼镜的路径逐步迭代。
这个看似简单的结论是扎克伯格交了上百亿美元的学费得来的。
仅2021年第四季度至2022年第三季度,专注VR、AR、MR技术研发的部门Reality Labs给Meta带来了127.42亿美元的运营亏损,这导致Meta 股价大跌。2022年至2023年,Meta市值一度腰斩,从2022年1月3日的9279亿美元跌至2023年1月3日的3261亿美元。

2023年3月初,Meta VR副总裁Mark Rabkin透露“Meta已售出近2000万台Quest系列头”的消息,依然没能阻止Meta 总市值一年内蒸发近一半的颓势。直到Meta推出和迭代开源大语言模型Llama,其市值才迅速回升,突破万亿美元大关。

需要指出的是,生成式AI的爆发和落地仅是扎克伯格得出“AI会先于AR到来”结论的大背景。事实上,在Ray-Ban Meta出圈之前,Meta和雷朋(Ray-Ban)推出的首款智能眼镜并未获得市场认可。

2021年9月,Meta和雷朋联合推出初代智能眼镜Ray-Ban Stories,可以实现FPV拍摄、视频录制、通话、听音乐等功能。不过,这款被技术武装到极致的AI眼镜并没有得到用户的青睐,最终以销量惨淡收场。

有知情人士对《AI光年》透露,“Meta最初对Ray-Ban Stories的市场预测销量为200万台,后来下调至100万台,但最终仅售出几万台。”

2023年9月,Meta与雷朋推出新一代AI眼镜Ray-Ban Meta,起售价299美元。与Ray-Ban Stories相比,Ray-Ban Meta具备更复杂的对话式AI功能。2024年4月,Ray-Ban Meta在AI方面进行更新,新型号搭载Meta Llama3大模型并可实现语音交互、物体识别、文字翻译等诸多功能。

在AI加持下,Ray-Ban Meta销量大幅提升。据The Verge数据显示,截至2024年5月Ray-Ban Meta的全球销量突破100万副。“到今年年底Ray-Ban Meta全球销量或达200万副,但要看今年‘黑五’的销量。”有知情人士对《AI光年》透露。

此外,据我爱音频网的数据,从2022年到2030年,全球音频眼镜的出货量复合年均增长率(CAGR)将达到13.6%。预计到2025年,全球音频眼镜市场的出货量将超过503万副,而到2030年,这一数字将进一步增长至951万副。

AI眼镜市场未形成头部效应

对于Meta新一代AI眼镜销量能逆风翻盘的原因,夏勇峰认为,“AI功能对Ray-Ban Meta销量的提升顶多算是T1或者T2的卖点,决定AI眼镜销量的首要因素是它首先是一款能让用户喜欢的时尚墨镜,只有具备了良好的硬件基础,才能进一步谈论AI功能。”

夏勇峰曾是小米生态链的创始人之一,2020年离开小米创办了北京蜂巢世纪科技有限公司(以下简称蜂巢科技)。创业初期,蜂巢科技推出了米家眼镜相机和米家音频眼镜等产品。

“决定AI眼镜销量的首要因素是硬件本身”这个结论,是夏勇峰在迭代多个产品后得出的。“2021年年中,我们先后获得了两轮融资,许多投资人都建议我加入双目大屏,进军AR眼镜领域,但我都顶着压力拒绝了。”夏勇峰对《AI光年》说道。

夏勇峰拒绝给AI眼镜加双目大屏原因有三:一是,目前AR眼镜的用户主要是科技发烧友或者B端企业,普通消费者少;二是,眼镜行业是少数尚未被互联网彻底颠覆的行业之一,这表明用户对眼镜的核心需求是能够长时间舒适佩戴,而非各种复杂的眼前显示功能;三是,目前AI技术不会创造新的用户需求,更多是提升用户的体验。

Ray-Ban Meta销量的逆风翻盘给夏勇峰提供了灵感。今年8月8日,蜂巢科技正式推出自主品牌“界环”的AI音频眼镜,具有通知播报、AI畅聊、翻译等功能。

与Ray-Ban Meta专注于海外市场并主打墨镜不同,夏勇峰推出的AI眼镜主要瞄准了中国庞大的7亿近视用户群体。

据夏勇峰透露,今年公司音频眼镜的整体出货量约为10万台,其中89%是近视用户,最活跃的前25%用户平均每天佩戴时间达到10.7小时。

在渠道和线下服务方面,蜂巢科技借鉴了Meta与雷朋的合作模式,自有品牌界环与博士眼镜、宝岛眼镜等传统眼镜品牌展开了战略合作,并逐步入驻这些品牌的各大门店。

这种市场定位的差异主要受国内外用户不同的眼镜消费习惯所致。在美国,墨镜占据了较大的市场份额,而在中国,框架眼镜(包括近视镜、老花镜和散光镜等)的销量明显高于墨镜。据统计,截至2021年6月,中国的近视患者人数已达到6亿。

当下的AI眼镜市场分散且尚未形成明显的头部品牌效应,而Meta与雷朋的合作为国内外AI眼镜行业树立了一个成功的样本。据彭博社报道,苹果的Vision Products Group团队正在开发三类智能眼镜产品,其中一款是类似于Ray-Ban Meta的智能眼镜。

字节华为小米竞相布局

相较于海外市场,国内市场总体来说,要晚一些。根据洛图科技(RUNTO)线上监测数据显示,2024年1-7月,中国智能音频眼镜在线上市场(不含拼抖快)的累计销量为7万台,同比增长45.3%;销额为8160万元,同比增长57.6%。

当下,在AI的加持下,国内数十家企业涌入,如果算上上下游产业链,“百镜大战”开启。比如AR厂商雷鸟创新宣布与博士眼镜合作,打造音频+AI眼镜;字节跳动全资收购Oladance或为进军AI音频眼镜铺路。

在VR硬件领域,字节跳动的发展路径与Meta类似,都靠收购VR创业公司切入元宇宙业务。

2014年,Meta收购Oculus,推出VR头显设备Oculus Quest(后更名为 Meta Quest)。截至目前,Quest系列已经迭代至Quest 3S。

字节跳动也是通过收购一家VR创业公司进入VR眼镜市场。2021年8月,字节跳动全资收购了Pico(北京小鸟看看科技有限公司),并在一年后推出首款VR眼镜产品PICO 4。

XREAL创始人兼CEO徐驰曾向《AI光年》透露:“有一年,PICO花了40亿元在终端铺量,但销量不达预期。”目前,字节跳动已经减少了对VR业务的投入。

PICO销售不及预期并没有打击字节跳动对AI硬件的热情。AI眼镜Ray-Ban Meta出圈后,字节跳动于今年9月全资收购开放式耳机品牌Oladance,并于10月10日推出了首款搭载豆包大模型的智能耳机Ola Friend。

这款智能耳机只是字节跳动布局AI智能硬件的第一步。华金证券推测,字节跳动收购Oladance不仅是为了布局音频领域,或是为进军AI音频眼镜打基础。

在国内AI眼镜市场,除VR眼镜厂商寻求与传统眼镜品牌合作以推出AI眼镜外,部分头部手机厂商也推出了AI眼镜。例如,华为和小米都在今年上半年推出了新一代智能音频眼镜。

“华为此前的音频眼镜主要由歌尔股份代工,目前华为内部有约30多人团队在自研华为AI眼镜。OPPO和vivo研究院也在研发AI眼镜。”有知情人士对《深网》透露。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

度小满,让“推理大模型”走向金融核心业务

最近一段时间,AI领域被谈及最多的关键词是“推理大模型”。

今年9月,OpenAI发布了o1大模型,这种具有“慢思考”能力的大模型最大特点是能够推理复杂的任务,可以解决科学、编程、数学等领域更为复杂的问题。


它的出现,让推理大模型成为AI发展进程中的全新可能性,业界普遍好奇它能够带来怎样的价值,最适合在怎样的场景落地。

10月28日,2024年香港金融科技周在香港亚洲国际博览馆开幕。从讨论内容上看,“大模型在金融行业的应用”毫无疑问是本届科技周最受关注的话题,将推理大模型带到金融行业则是热点中的热点。

度小满CEO朱光在2024香港金融科技周主论坛上发言

度小满CEO朱光2024香港金融科技周主论坛上表示,“以o1推理大模型为代表的新一波生成式AI技术在金融领域的应用,将从外围场景深入到核心业务,直接影响金融行业的核心决策质量,在为客户的产品和服务体验上带来巨大突破的同时,将会重塑金融科技行业”。

我们可以从度小满的思考和实践出发,去看看“慢思考”如何触发金融智能化的新一轮变革。

事实上,OpenAI的“草莓”模型在业界风传已久。此前很多人认为它将是GPT家族的最新一员,而在9月13日正式发布后大家发现,OpenAI 将o1列为一个全新的模型系列。

之所以如此重视,是因为o1所代表的推理大模型,打开了一种与以往大模型不同的全新运作机理,同时也取得了截然不同的效果。

o1大模型的思考模式,对应的是心理学家丹尼尔·卡尼曼(Daniel Kahneman)提出的逻辑系统。与占据95%的直觉系统不同,逻辑系统这种思考方式只占据人类思考系统的5%,特点是启动缓慢,耗时较长,但能够解决非常复杂的问题。日常生活里,我们往往只会在解数学题、科学思考、下棋、案件推理等环节中启动逻辑系统。

回到AI领域,如果说以往的AIGC能力大体属于直觉系统,特点是快速调用已有信息和数据,能够给出即时反馈与生成结果,但缺点是讹误多、幻觉强,且不能应对复杂的问题。那么o1大模型则有着更长的内部思维链,在生成结果前会进行复杂的逻辑推理,从而在物理、化学、数学等领域刷新了AI的上限。在一系列测试中,o1大模型都表现出了能媲美相关领域博士的专业思考水平。这些结果,让“推理大模型”成为AI进化的全新可能。

如果我们把“慢思考”看作一个全新的科技变量,哪些应用领域能充分发挥它蕴藏的价值呢?

需要详细理解数据,缜密分析,层层思考的金融行业,毫无疑问就是答案。

金融行业有着海量数据,以及包罗万象的数据应用场景,但如果从AI应用这些数据的层级来看,会发现较为明显的浅层与深层之分。

所谓的浅层AI应用,是指用大模型来补充和代替一些基础的金融服务,比如用智能客服来提升用户沟通效率,用AI文档助手来提升金融机构办公效率等。这些AI应用涉及的场景较为单一,也无需对数据进行深入分析和推理。朱光认为,这些应用可以替代一部分的人力,提升服务效率,降低金融机构的服务成本,但创造的核心价值并不显著。

而在金融行业的核心业务中,比如风控、信贷决策、投资决策等场景中,有着数据类型复杂,分析要素多样,推理需求严苛的特点,让AI大模型来驱动这些场景的智能化,是名副其实的深层AI应用。类似场景更加具有挑战,同时也会给金融智能化带来更加具有变革力的价值提升。

朱光认为,生成式AI技术要对一个行业带来巨大变革有两个前提,“一是必须让核心的客户体验发生巨大改变;二是必须对业务的核心决策产生影响。比如信贷业务,只有当大模型能够对客户的金融服务体验带来影响、对风险决策、经营决策这样的核心业务决策产生重大影响的时候,才真正释放出大模型的潜力。

而具有慢思考能力的推理大模型,就很可能让这种设想变为现实。基于推理大模型,未来我们可以看到AI像专业审核员一样读征信报告、看账单流水,甚至能解读网络大数据,思考和捕捉数据之间的关联,并生成风险判断的依据和结论。这将让AI真正抵达金融的核心业务,甚至比人类交易员、分析师做得更好,突破金融行业的价值上限。

沿着推理大模型与金融行业结合的可能性,我们会发现一系列关键金融场景都可能迎来新的AI变革,比如说:

在风控领域,具备了风控知识与思考能力的推理大模型,可能会提升风控决策质量。

在投资领域,推理大模型可以挖掘高价值的因子,并优化投资算法。

在保险领域,推理大模型可以根据用户需求进行个性化的产品设计,并做出是否承保的决策。

归纳这些可能性,会发现推理大模型的核心意义在于,它可能将AI在金融行业的应用范畴,从客服、文档助手等基础、单一场景,升级到风控、投资决策等复杂、高价值场景。

而让推理大模型的变量,成为金融智能化的新动力,还需要先驱企业的积极实践,以及整个行业的不断突破。

虽然“慢思考,强逻辑”的推理大模型,目前还处在非常具有前瞻性的新兴阶段,但依靠AI大模型几年以来的极速发展,以及中国金融智能化的长足进步,将推理大模型的新能力积极引入到金融行业,已经成为很多知名厂商正在进行研发和布局的战略高地。相信不久的将来,我们会看到“慢思考”给金融行业带来巨大的价值提升。

比如说,本次大会上朱光就分享了度小满用推理大模型在风控场景上所进行的一系列创新性探索。

其中,在信贷领域推理大模型可以通过分析客户的征信报告、银行流水,推理出客户的还款能力,最后给出是否审核通过的风控决策建议。这种探索正在不断验证推理大模型在金融核心业务中的价值可能性与可靠性,为金融智能化打开新的发展空间。

基于推理大模型,将金融行业的智能化升级从外围场景深入到核心业务。

风起时已经来临,重塑金融科技的机会,或许就在AI的下一次思考中。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

高薪AI职位的痛,1186万应届生最懂

文章来源:锌刻度

图片来源:由GPTNB生成

2024年秋招,已临近收尾。

近年来,高校毕业生的数量呈现逐年增长的势态,预计2025年应届生高达1186万人,再刷历史新高。


这意味着,求职竞争愈发激烈。

需要注意的是,虽然多地放宽应届生身份认定标准,近2至3年内毕业的高校生都算,但多数公司的橄榄枝依然抛向仍在校园的2025年应届生。

更为关键的是,随着大模型逐步落地,AI赋能千行百业成为全社会的共识,AI人才成为“香饽饽”,AI成为这次秋招的“主角”。

AI需求之下,几家欢喜几家愁。

拿不到大厂offer

“大家说的没offer,意思是没大厂的offer!”李中岩如是说。

在南京求学的李中岩,是某985大学一名电子信息工程的应届生,对秋招格外上心,倘若可以早点拿到offer,则能从容面对社会。

毕竟,出了大学校门,就没有一件事是容易的。

李中岩告诉锌刻度,早在八月底就开始投简历了,瞄准的是互联网企业,渴望去钱多的地方,但2024年秋招偏重技术岗与研发岗,尤其是AI相关的吃香,“今年要求好高,在时代发展面前啥也不是”。

锌刻度调查发现,百度、京东、腾讯、阿里巴巴、字节跳动等纷纷对AI人才求贤若渴。

譬如,百度2025校园招聘,提供了超3000个岗位,约80%为AI技术相关岗位,需求最大的岗位是机器学习、数据挖掘、自然语言处理等,尤为值得一提的是新增了大模型算法工程师的校招岗,入职之后可参与大规模预训练模型的研发。

图源:百度校园招聘

再譬如,字节跳动…

量化行业没有“996”一说

与李中岩不同,孟奕君更为自信。

就读的是计算机类专业,又在本科阶段积累了互联网大厂实习经验,孟奕君对拿下AI异构计算工程师或深度学习高性能计算研发工程师的offer,有一定的把握。

问题在于,孟奕君想去的是量化行业。

所谓量化,就是将金融投资行为中的信号数字化,通过一套或多套算法来分析,并作出判断与决策,而不是单凭人的感觉或直觉。

一言以蔽之,AI是量化的底色

图片来源:由GPTNB生成

由于AI能力的强弱与量化业绩…

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

无需任何代码,人人都能编程,GitHub发布Spark

全球最大开源平台之一GitHub发布了最新AI大模型编程产品——GitHub Spark。
据悉,Spark支持GPT-4o、Claude Sonnet 3.5、o1-preview和o1-mini四款超强编程模型,用户无需任何代码和部署环境,通过桌面或移动端用自然语言方式就能轻松开发微应用程序。


例如,想开发一款用于家庭预算的管理应用,只要把你的需求用普通语言向Spark描述,就能快速生成一个预览页面,并允许进一步定制程序的各种细节。

对于很多人来说,编程是一个学习难度高且需要耗费大量时间和精力去钻研的领域。涉及到复杂的语法规则、逻辑结构以及各种编程范式。
从基础的变量定义、数据类型到高级的算法设计、框架应用,每一个环节都要求学习者具备高度的专注力和较强的逻辑思维能力。

而Spark希望打破这个界限,想让很多有创意但不懂编程的人也能开发出自己想要的应用,就像ChatGPT那样用自然语言聊聊天就能轻松完成应用开发。
Spark不仅能生成代码,还能立即运行并展示效果,让用户可以直观地看到应用的展示效果并根据需要进行调整,例如,在发现需要添加一个切换按钮时,可以直观地进行调整。

Spark还提供了修订变体的功能,用户在创建或迭代微应用时,可以请求生成3—6个不同版本的修订变体,每个变体都有细微但有意义的差异,这有助于用户在不确定具体外观或行为时,提供更多思路,就像有一个AI伙伴在协助拓展思维。
此外,每次迭代的修订内容都会自动保存,并且可以一键恢复到之前的任何版本,这不仅让用户可以放心地探索各种想法和变体,也无需担心丢失进度,更不需要自行管理版本控制。

在模型选择方面,用户可以从四个AI模型中选择,包括Claude Sonnet 3.5、GPT-4o、o1-preview和o1-mini。如果对生成的结果不满意,可以撤销操作并尝试使用其他模型,而且历史记录会跟踪每个修订所使用的模型,方便用户观察微应用随时间的演变情况,以选择最适合的模型来实现预期效果。

为了确保应用外观的可控性, Spark包含了一套内置的用户界面组件和可主题化设计系统,在创建新应用时,表单控件、布局和图标等元素从一开始就具有较高的美观度。
如果用户想要进一步调整应用外观,可以使用主题编辑器更改默认的强调色、边框半径、应用间距以及颜色主题,轻松打造个性化的应用界面。

Spark运行时还与GitHub Models集成,用户无需了解大模型知识,就可以为微应用添加生成式AI功能,例如,总结文档、为儿童睡前故事应用生成故事等。
同时,提供了提示编辑器,用户可以查看Spark生成的提示内容,并在需要时进行调整,所有操作均无需编辑代码降低了使用门槛。

为了进一步简化开发流程和管理环境, Spark还提供了一个托管运行时环境,可让用户无需关心复杂的部署过程,创建或修订微应用后会自动完成部署,并且可以通过渐进式网络应用在桌面、平板或移动设备上直接运行和安装。简单来说,这就是一个全自动化的微型应用云,提供一站式开发服务。

目前,GitHub Spark处于预览版状态,支持申请注册体验,有兴趣的小伙伴可以去试试。
申请注册体验地址:GitHub Spark



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

扎克伯格交了百亿美金“学费”后 这个赛道被AI激活了

近半年,国内集中涌现了近百家对标Ray-Ban Meta的AI眼镜公司。据天眼查数据显示,近半年和近三个月,国内成立业务包含AI眼镜的公司分别为400余家及160余家。


“我知道的新增做AI眼镜的公司就有20多家,后来上游供应链反馈,现在已经有50多家创业公司在做AI眼镜。甚至出现了专门提供AI眼镜解决方案的公司,专门给想做AI眼镜的公司提供现成的解决方案,并支持贴牌生产。”蜂巢科技创始人兼CEO夏勇峰对《AI光年》透露。今年下半年,国内创业公司忽然往AI眼镜扎堆,一个重要原因是Meta和雷朋联合推出的AI眼镜Ray-Ban Meta在半年多时间里就达到了全球100万销量的业绩,且在今年有望达成200万台的销售目标。200万是个什么概念?据IDC数据,2023年全球AR眼镜销量为48万台,智能眼镜销量为101万台。一款AI眼镜单品不到一年就卖了100万台,这给在AR、VR、XR领域苦苦探索和支撑的玩家带来了前所未有的信心和想象空间。Ray-Ban Meta一个单品就销量百万也在扎克伯格的意料之外。他在今年7月接受采访时表示,“自己也没想到AI会先于AR到来。”不过,扎克伯格依然认为VR/AR是未来重要的技术趋势之一,也正为此做准备。根据IDC的数据,2024年可穿戴设备的出货量有望达到5.597亿部,同比增长10.5%。其中,智能眼镜的增长最为显著,在2023年的出货量增长了128.2%,远超智能戒指(34%)和智能手表(8.7%)。

百亿美金的教训

3年前,扎克伯格在Connect大会上宣布公司聚焦元宇宙业务,看好VR眼镜Quest硬件业务及虚拟现实社交平台Horizon。按照扎克伯格的理解,AI智能眼镜是传统眼镜向AR眼镜迭代的过渡形态。AI眼镜的发展或按照AI语音眼镜——AI智能眼镜(增加摄像头)——AI+AR眼镜的路径逐步迭代。这个看似简单的结论是扎克伯格交了上百亿美元的学费得来的。仅2021年第四季度至2022年第三季度,专注VR、AR、MR技术研发的部门Reality Labs给Meta带来了127.42亿美元的运营亏损…

AI眼镜市场未形成头部效应

对于Meta新一代AI眼镜销量能逆风翻盘的原因,夏勇峰认为,“AI功能对Ray-Ban Meta销量的提升顶多算是T1或者T2的卖点,决定AI眼镜销量的首要因素是它首先是一款能让用户喜欢的时尚墨镜,只有具备了良好的硬件基础,才能进一步谈论AI功能。”夏勇峰曾是小米生态链的创始人之一,2020年离开小米创办了北京蜂巢世纪科技有限公司(以下简称蜂巢科技)。创业初期,蜂巢科技推出了米家眼镜相机和米家音频眼镜等产品。“决定AI眼镜销量的首要因素是硬件本身”这个结论,是夏勇峰…

字节华为小米竞相布局

相较于海外市场,国内市场总体来说,要晚一些。根据洛图科技(RUNTO)线上监测数据显示,2024年1-7月,中国智能音频眼镜在线上市场(不含拼抖快)的累计销量为7万台,同比增长45.3%;销额为8160万元,同比增长57.6%。当下,在AI的加持下,国内数十家企业涌入,如果算上上下游产业链,“百镜大战”开启。比如AR厂商雷鸟创新宣布与博士眼镜合作,打造音频+AI眼镜;字节跳动全资收购Oladance或为进军AI音频眼镜铺路。在VR硬件领域,字节跳动的发展路径与Meta类似,都靠收购VR创业公司切入元宇宙业务。2014年,Meta收购Oculus,推出VR头显设备Oculus Quest(后更名为 Meta Quest)。截至目前,Quest系列已经迭代至Quest 3S。字节跳动也是通过收购一家VR创业公司进入VR眼镜市场。2021年8月,字节跳动全资收购了Pico(北京小鸟看看科技有限公司),并在一年后推出首款VR眼镜产品PICO 4。XREAL创始人兼CEO徐驰曾向《AI光年》透露:“有一年,PICO花了40亿元在终端铺量,但销量不达预期。”…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

说AI应用没人投的都是不懂的

今年8月,ChatGPT月活跃度达到2亿,推特方面为5亿,微信则是13亿。
一位硅谷投资人发文表示,ChatGPT或任何AI应用要想达到十亿用户,必须将其周活/月活比率大幅提高到80%+。


然而历史数据表明,这是一项艰巨挑战。
OpenAI做的“应用”ChatGPT在用户数上都如此,那么其他AI应用就更困难了,这似乎是这些数据和讨论背后的潜台词。于是,一方面在模型不再那么疯狂的迭代之后,应用成为大家关注的方向,另一方面人们却总是困扰于“超级应用”的缺乏。看起来,都挺纠结。
这样的纠结的确在影响AI应用领域投融资和创业的繁荣度,但在和多家VC交流后我们发现,虽然没有像早先人们期待的“AI应用大爆发”出现,但主…
…court Maraud’s AI-driven note-taking tool), Cathoven (an AI tool designed for language educators), Xbuddy (virtual friends), Midreal (web novel picture book generation tools), and others. Zheng Can believes that with the apparent difficulty of producing a “Super APP,” many are turning towards producing relatively smaller-scale applications that cater to smaller, but more engaged user bases.

In addition to these popular directions, investors are also establishing new “preferences.”

Alpha Society partner Liu Gang recently visited many early-stage projects and noted that investors are not heavily investing in “purely soft” applications. He mentioned some products that are a combination of software and hardware, attracting significant interest from investors.

One such product in the hardware and software integrated consumer application space is Plaude AI. Shaped like a card, the size of an identity card, it can be magnetically attached to the back of a phone to record audio using vibration conduction, without the need to install an app on the phone’s system. Following this, Plaud utilizes a large GPT-4o model to organize, refine, and summarize the recorded content. Plaude was founded by an investor from early-stage FA agency Xiaofanzhuo Liu Gao. The project operated underwater for a long time, bypassing VC logic for funding, by directly…


@WebServlet(url = “https://www.aixinzhijie.com/article/6847110“)
fun fetchArticleContent() {
// Your fetch logic here
}

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

恭喜!陈长汶教授荣获ACM SIGMM 2024杰出技术成就奖

国际计算机协会(ACM)多媒体会议是计算机图形学与多媒体领域顶级会议,被中国计算机学会列为 A 类会议。

今年的 ACM MM 于 10 月 28 日 – 11 月 1 日在澳大利亚墨尔本隆重举行!

今天,在火热进行中的大会上,SIGMM 杰出技术成就奖揭晓,陈长汶教授因在多媒体计算、通信和应用方面的杰出技术贡献荣获该奖项。


图片

ACM SIGMM 杰出技术成就奖作为 SIGMM 的最高奖项,是国际计算机界中的重磅奖项之一。每年颁发给在多媒体计算、通信和应用方面做出重大和持久贡献的研究人员。获奖者将受邀在 ACM 国际多媒体会议上发表主题演讲。

往年获奖者有包括哥伦比亚大学教授张世富,北京智源研究院创始人张宏江,新兴技术集团总裁、前联想集团 CTO 芮勇,罗切斯特大学 Albert Arendt Hopeman 教授、计算机科学教授罗杰波,清华大学计算机科学与技术系教授朱文武在内的多位华人学者。

图片

陈长汶现任香港理工大学视觉计算讲座教授。他曾先后任罗切斯特大学电子与计算机工程系助理教授、密苏里大学哥伦比亚分校电子工程系助理教授及副教授、佛罗里达理工学院电子与计算机工程系 Allen Henry 杰出讲座教授、纽约州立大学布法罗分校计算机科学与工程系 Empire Innovation 冠名教授,并于 2017 年至 2020 年担任香港中文大学 (深圳) 理工学院院长,于 2018 年至 2021 年,兼任鹏城实验室副主任。

2004 年,陈长汶教授当选 IEEE Fellow,2007 年当选国际光学工程学会会士(SPIE Fellow),2022 年当选欧洲人文和自然科学院外籍院士。

陈长汶教授主要从事图像视频信号处理、无线通信、网络中高效、安全和稳健的多媒体数据传输等领域的研究工作。

陈教授在 1983 年获得中国科学技术大学学士学位,1986 年获美国南加州大学电子工程硕士学位,1992 年获美国伊利诺伊大学香槟分校博士学位。他和他的学生曾九次荣获最佳论文奖或最佳学生论文奖。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Cyan青心意创震撼发布“全面拟人”机器人OrcaⅠ,机器人开始懂情感、有温度

10 月30日,Cyan青心意创(原“青心创新/萨恩异创”)正式发布了独立自研的通用人形机器人OrcaⅠ的动态视频,展示了其在“拟人直膝”状态下的行走、爬坡、原地转圈、行走/站立状态下的步态恢复、户外路面行走等运动控制能力,大语言模型加持下兼具情绪表达的自然语言交互能力,以及在保证精准控制状态下丝滑流畅的双臂操作能力。相较于市面上常见的“机械感”过重的机器人设计,OrcaⅠ摆脱了传统观念中人们对于“机器人”的固有印象,在本体设计、运动控制、自然语言对话、双臂操作等多个维度实现技术突破,并最终赋予其更为灵动自然的运动表现、更为逼真的人机交互、更为精准平滑的双臂操作,全栈技术领域处于行业顶尖水平。


摆脱传统“机械感”,让机器人“全面拟人”

如何让机器人“全面拟人”——这是Cyan在机器人研发阶段所重点攻克的技术难点。Cyan对机器人身体布局及构型做了前瞻性设计,将其真实应用于机器人本体,并通过拓扑优化及结构仿真等技术,使机器人更轻巧、灵动。在身体各模块方面,Cyan创新性地对机体各部位展开自研,包括拓展下肢关节传动形式及设计高精度的关节模组。新的下肢关节传动设计在保证机器人运动高精度、高效率的同时,还具有较好的抗冲击性能;自研的关节模组在保证精度的同时具备很高的扭矩密度——两者配合使其可达到与人类肢体相似的运动覆盖度,提高了在不同环境中的适应性及抗扰动能力。在此基础上,OrcaⅠ全身各处主要关节能够超越人类关节的活动范围,轻松且稳定地完成诸如横向劈叉、侧面劈叉等高难度动作。更为关键的是,OrcaⅠ先进的运动控制算法与硬件协同完成多轮反复选代,以此提高各种地形中运动能力的鲁棒性。此外,Cyan自研核心零部件及底层软件,极大地优化了软硬件结合的综合效果,首次完成了在机器人真机上稳定实现直膝状态下的自然变速行走的技术突破——这些能力的实现与技术的积累都极大地扩充了具身智能通用人形机器人的应用边界。与此同时,Cyan坚持渐进式实现端到端的机器人双臂操作能力,即通过机器人视觉观测和自身状态向量输出运动轨迹,将端到端多模态模型置于模仿学习框架下,并结合数据回收系统,让机器人具备拟人的双臂操作能力。这符合第一性原理:通过提高数据质量和数量,提升模型能力形成正向迭代。在此基础上,合理的传感器布局也很关键,高质量实时数据让数据高效可用。总之,OrcaⅠ从操作模型、多模态处理能力、数据及传感器等方方面面实现“全面拟人”。而在一些更为细节的技术能力把控上,OrcaⅠ还内嵌大语言模型,配合面部独特的“水滴”设计,使其能够在与人交互的过程中,将面部水滴、头部、双臂,腰部等全身各处关节一体化控制,根据交互的内容自主匹配情绪输出,时而开心活跃、时而掩面沮丧,让用户无意识感知是在与机器人进行交互。这些创新技术的落地,真正让机器人摆脱了“机械感”,从而可以更加“顺滑”地行走、交互、操作……机器人不再是“冰冷”的零件设备,而是一个具有“温度”的智能伙伴。全球顶尖名校背景技术团队,一群Geek灵魂的潜心之作

公司于2023年年底创办,于今年3月正式组建团队。公司拥有强大的研发能力及具身智能通用人形机器人全栈技术储备,包括机器人的硬件本体及其关键组件研发设计、适用于复杂地形的运动控制、运用于各种开放环境的端到端决策与双臂操作能力、数据平台的构建,以及人机交互技术等,确保了研发的全面性和深入性。仅用时三个月,Cyan就打造了OrcaⅠ的第一款原型机,并通过了多轮技术验证,后又相继在首款原型机的基础上快速迭代了三个版本。期间,Cyan硬件本体及核心零部件的技术不断创新,具身智能软件算法能力不断丰富并取得关键性突破,最终打磨出了如今大家所看到的这款更为稳定的OrcaⅠ机型。公司核心团队均来自于全球头部高校,包括剑桥、北大、南洋理工、浙大、UCSD、哈工大等,具备多年顶尖AI科技公司的产业经验。公司CEO牛腾昦博士毕业于剑桥大学,拥有丰富的机器人及智能算法技术研发经验,曾在全球头部科技公司主导过多个自动驾驶领域项目的开发落地。早在公司创办之前,核心团队就已经在硬件设计、运动控制、操作、交互等具身智能机器人领域取得了一系列重大技术突破,在IROS、ICRA、CoRL、JFR等学术顶会及顶刊上发表了数十篇论文,拥有多项专利,这也坚定了团队要打造一款独立自研机器人的信心与决心。正是这样一群追求极致的Geek,力求在每一处细节上都做到尽善尽美。为了实现“全面拟人”的核心目标,团队从基础的用户调研和产品调研开始,精心设计机器人的外观形象,并结合软硬件功能设计内部结构件,经过多次修改调整,最终确定了OrcaⅠ如今呈现给大家的整体形象。不仅如此,团队还独创了“水滴”的面部设计,使得OrcaⅠ在情感表达上与其他所有机器人形成鲜明差异。整体而言,OrcaⅠ可以称得上是通用人形机器人产品中的兼具颜值与技术能力的巅峰之作。从ToA/B到ToC,Cyan的商业探索不止DEMO/POC

今年7月,在上海举办的世界人工智能大会(WAIC)上,Cyan青心意创OrcaⅠ首次线下静态展示。在接下来的S创上海、中国国际工业博览会(上海工博会)、IROS 2024等国内外行业展会及机器人学术大会上,OrcaⅠ多次亮相。每每进行线下展示,OrcaⅠ皆因其独具特色的外形设计与堪称精巧的关键模组设计,吸引了行业内人士、顶尖科研机构、媒体资方乃至大众的一致关注。截至目前,OrcaⅠ这款产品已然在北美、欧洲、中东以及国内等全球多地的知名高校、科研院所、创新企业中引发了浓厚兴趣,各方纷纷对产品采购及技术合作表达出强烈的意向倾向。据悉,OrcaⅠ将在本年内正式开启预售,并在2025年年中实现全机身的模组自研量产和百台以内的整机量产,正式推向市场。


。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

无需任何代码,人人都能编程,GitHub发布Spark

全球最大开源平台之一GitHub发布了最新AI大模型编程产品——GitHub Spark。据悉,Spark支持GPT-4o、Claude Sonnet 3.5、o1-preview和o1-mini四款超强编程模型,用户无需任何代码和部署环境,通过桌面或移动端用自然语言方式就能轻松开发微应用程序。


例如,想开发一款用于家庭预算的管理应用,只要把你的需求用普通语言向Spark描述,就能快速生成一个预览页面,并允许进一步定制程序的各种细节。

对于很多人来说,编程是一个学习难度高且需要耗费大量时间和精力去钻研的领域。涉及到复杂的语法规则、逻辑结构以及各种编程范式。

从基础的变量定义、数据类型到高级的算法设计、框架应用,每一个环节都要求学习者具备高度的专注力和较强的逻辑思维能力。

Spark希望打破这个界限,想让很多有创意但不懂编程的人也能开发自己想要的应用,就像ChatGPT那样用自然语言聊聊天就能轻松完成应用开发。

Spark不仅能生成代码,还能立即运行并展示效果,让用户可以直观地看到应用的展示效果并根据需要进行调整,例如,在发现需要添加一个切换按钮时,可以直观地进行调整。

Spark还提供了修订变体的功能,用户在创建或迭代微应用时,可以请求生成3—6个不同版本的修订变体,每个变体都有细微但有意义的差异,这有助于用户在不确定具体外观或行为时提供更多思路。

此外,每次迭代的修订内容都会自动保存,并且可以一键恢复到之前的任何版本,这让用户可以放心地探索各种想法和变体,无需担心丢失进度。

在模型选择方面,用户可以从四个AI模型中选择,包括Claude Sonnet 3.5、GPT-4o、o1-preview和o1-mini。如果对生成的结果不满意,可以撤销操作并尝试使用其他模型,历史记录会跟踪每个修订所使用的模型。

Spark包含了一套内置的用户界面组件和可主题化设计系统,在创建新应用时,元素从一开始就具有较高的美观度。

如果用户想要进一步调整应用外观,可以使用主题编辑器更改默认的强调色、边框半径、应用间距以及颜色主题,轻松打造个性化的应用界面。

Spark运行时与GitHub Models集成,用户可以为微应用添加生成式AI功能,提供了提示编辑器,用户可以查看Spark生成的提示内容,并在需要时进行调整。

为了简化开发流程和管理环境,Spark提供了一个托管运行时环境,无需关心复杂的部署过程,创建或修订微应用后会自动完成部署,并且可以通过渐进式网络应用在桌面、平板或移动设备上直接运行和安装。

目前,GitHub Spark处于预览版状态,支持申请注册体验。

申请注册体验地址:https://github.com/login?return_to=https%3A%2F%2Fgithub.com%2Fgithub_spark_waitlist_signup%2Fjoin

图片来源:由GPTNB生成
图片来源:由GPTNB生成
图片来源:由GPTNB生成
图片来源:由GPTNB生成

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

3D大模型助力,15分钟即可训练高质量、个性化的数字人模型,代码已开放

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉,导师为赵洲教授,主要研究方向是说话人视频合成,并在 NeurIPS、ICLR、ACL 等会议发表相关论文。共一作者是来自浙江大学计算机学院的硕士生钟添芸。

个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型,虽然这种小模型能够有效地学到说话人的外表和说话风格,这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下,近年来许多工作专注于单图驱动的通用数字人大模型,这些模型仅需单张图片输入即可完成数字人制作,但仍存在外表相似度较低、无法模仿目标人说话风格等问题。

为了连接个性化数字人小模型和单图驱动通用数字人大模型两个领域之间的空白,浙江大学与字节跳动提出了 MimicTalk 算法。通过(1)将单图驱动的通用 3D 数字人大模型 Real3D-Portrait (ICLR 2024) 适应到目标数字人的高效微调策略和(2)具有上下文学习能力的人脸动作生成模型,MimicTalk 可以生成相比原有方法更高质量、更具表现力的数字人视频。此外,单个数字人模型的训练时间可以被压缩到 15 分钟以内,相比现有最高效的同类方法快了 47 倍。

MimicTalk 算法被人工智能顶级会议 NeurIPS 2024 录用,目前已开放源代码和预训练权重。

图片

论文标题: MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes

论文链接: https://arxiv.org/pdf/2410.06734

项目主页: https://mimictalk.github.io/

代码链接: https://github.com/yerfor/MimicTalk

话不多说直接看效果,以下视频中的数字人模型都通过从 3D 数字人大模型进行 1000 步微调(5 分钟训练时间)得到。

图片

模型技术原理

深悉 MimicTalk 模型的内在原理,还要回到开头提到的个性化数字人两个核心目标:(1)外表上与真人相似;(2)说话风格上与真人相似。

MimicTalk 分别使用(1)基于通用 3D 数字人大模型微调的高质量人脸渲染器和(2)一个具有上下文学习能力的人脸动作生成模型来实现它们。

图片
图 2. MimicTalk 包含一个高质量人脸渲染器(紫色)和一个能够模仿说话风格的动作生成器(蓝色)

对于第一个问题,传统方法通常从头训练一个小规模的 NeRF 模型来记忆目标人的外表特征,但这种做法通常导致较长的训练时间(数个小时…

图片

在实现图像上与真人的高度相似后,下一个问题是如何生成与真人说话风格相似的面部动作。传统方法通常会额外训练一个说话风格编码器,但是由于模型内部信息瓶颈的存在通常会性能损失。与之相比,受启发大语言模型、语音合成等领域的启发,MimicTalk 首次提出从上下文中学习目标人说话风格的训练范式。在训练阶段,Flow Matching 模型通过语音轨道和部分未被遮挡的人脸动作轨道的信息,对被遮挡的人脸动作进行去噪。在推理阶段,给定任意音频 - 视频对作为说话人风格提示,模型都能生成模仿该说话风格的人脸动作。

图片
图 3. 能在上下文中学习目标人说话风格的人脸动作生成模型

模型的应用前景

总体来看,MimicTalk 模型首次实现了高效率的个性化精品数字人视频合成。可以预见的是,随着技术的不断迭代、普及,在智能助手、虚拟现实、视频会议等多个应用场景中都将会出现虚拟人的身影。而借助 MimicTalk 算法,个性化高质量数字人的训练成本被「打了下去」,人们将会享受到更真实、更舒适的交互体验。随着各个领域的大模型技术的兴起,拥抱大模型的超强能力并与垂直领域中的特殊场景、需求相结合,已经成为了技术演进的大势所趋。而 MimicTalk 模型为后续基于数字人通用模型的个性化数字人算法研究工作提供了参考。但现阶段 MimicTalk 也并不是完美无缺的,由于依赖通用大模型的结果作为初始化,对基础模型的质量有较高的要求,此外从推理效率上看与现有小模型还存在一定差距。

总而言之,过去几年,随着个性化数字人技术的不断进步,口型精度、图像质量已然不断提高;而 MimicTalk 模型的提出,进一步解决了制约个性化数字人的训练成本问题。让我们一同期待虚拟人技术的加速发展,用户也将获得更加极致的视觉体验和生活便利。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB