AI 应用创业者自述:我们是怎么从大厂夹缝里抢流量的

做了那么多AI应用,谁来用?第一波用户从哪来?如何持续不断地获得用户反馈?

在各种AI应用层出不穷的今天,开发者和创业公司也在愁这事。

毕竟,像Kimi、豆包这类可以铺天盖地打投流战的产品,只是有钱的少数。


而没钱的大多数呢?不出自财大气粗的大厂,没有巨头的流量生态“喂养”,甚至在寻求融资的过程中被反复质疑,只能硬着头皮自己找出路。

这其中,甚至不少产品早在开发之初,就已经尝试尽可能地避开巨头的射程范围,专注于自己的小赛道了。但当他们真正进入现实世界,为自己的产品寻找最初的流量时,却发现,他们再一次掉入了互联网巨头们制定游戏规则的流量世界里。

在线上流量格局固化的背景下,付费流量占大头,免费流量又少又难拿。于是,有人被动寄希望于APP Store的编辑推荐,有人选择在垂直的小圈子里“捞人”,有人发动身边一切人脉做内容种草…..

创业者正在想尽办法,在这个旧世界里为自己的新产品寻找用户,省下每一块钱,抢来每一滴流量。

以下是他们的“流量拓荒”故事。

起于SEO搜索,长于KOL种草,大于生态裂变

歌歌AI写歌 COO 王枢沛,10万月活,2023年3月上线

流量只有免费和付费两种,对于AI创业团队来说,最关键的是能不能拿到免费流量。

从我们的产品歌歌AI来说,我们是一款文生音乐产品,可以根据用户的提示词,用AI来作词、编曲、发行,用户可以获取版权和发行收益。从2023年3月正式上线,到现在运营了一年半的时间,用户量从零到了几十万的水平。

当然这在互联网产品里不算什么,但在AIGC创业公司里,特别是音乐垂类,算不错了。我比较骄傲的点在于我们没有烧钱大规模投放,沉淀下来的用户是精准的、有付费意愿的,目前已经做到了盈收打平。


Source: Original Article

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

重磅!美国取消SB-1047法案,OpenAI、谷歌、Meta大难不死!

美国加州州长Gavin Newsom在今天凌晨正式否决——SB-1047法案!值得一提的是,过去30天Gavin一共签署了17个关于监管大模型、生成式AI安全使用的法案,唯独否决了1047,看来他也不是一个糊涂人。在这个积极否决的过程中,AI界泰斗-吴恩达、图灵奖获得者-Yann LeCun、斯坦福教授-李飞飞等发挥了重要作用。


尤其是吴恩达,曾多次在公开场合呼吁科技人士抵制该法案功劳非常大。对于全球开发者来说今天也是个重要的日子,可以继续使用Meta、谷歌等美国科技大厂开源的大模型啦。

SB-1047法案简单介绍

「AIGC开放社区」一共写了6次关于SB-1047法案的内容,算是国内最关注该事件的媒体之一。再简单介绍一下该法案,以及为什么会对开源大模型、生成式AI发展带来很多阻力。SB-1047是美国加州在今年2月7日拟定的,全名叫《SB-1047 前沿AI大模型安全创新法案》,主要用于增强大模型安全、透明性、使用规范的条例。但其中有非常多的不合理内容,例如,规定开发、训练成本超过1亿美元的大模型,比如Meta开源的Llama-3系列;谷歌的Gemma系列,一旦开源有人使用它做一些非法的事情,那么源开发商也会受到非常严重的处罚。在监管方面,当大公司开放其模型给别的国家用户使用时,需要提交客户的所有资料,包括客户的身份、信用卡号、账号、客户标识符、交易标识符、电子邮件、电话号码。同时,每年都要提交一次资料,并对用户的行为、意图进行评估。用户的所有资料会被备份7年,也会在海关、边境总署备案。类似不合理的条款还有很多,起草该法案的人员就是想彻底扼杀开源大模型以及大模型出口。所以,像OpenAI、Meta、谷歌这些科技巨头会成为SB-1047的最大受害者。此外,美国加州这个地区在科技领域非常特殊,是谷歌、Meta、OpenAI、苹果、英特尔、特斯拉总部的所在地,也有斯坦福、加州大学伯克利、加州理工、南加州大学等全球顶尖的计算机名校,算是全球科技创新中心之一。一旦这个法案执行起来,不仅是大公司受到重创,就连一些初创的小企业也几乎要完蛋了。当时这个法案一出来之后,很多人都表示,一些科技企业将会搬走。

否决SB-1047法案理由

根据美国加州官网公布的否决消息显示,Gavin州长表示,全球50家顶级AI企业,有32家在加州,它们对AI大模型的发展、创新至关重要。SB-1047的初衷是出于好意,但它在实施上存在一些严重问题。SB-1047只关注最贵、大规模的AI模型,建立了一个监管框架,可能会给公众一种控制这项快速发展技术的虚假安全感。较小的、专业化的模型可能同样甚至比SB-1047针对的大模型更危险,会阻碍AI技术创新。此外,SB-1047法案缺乏灵活性,没有为不同类型的AI应用提供足够的灵活性,这可能会导致在实施过程中的混淆和不确定性。Gavin指出,该法案没有考虑到AI模型是否部署在高风险环境中,而这是非常重要的,因为在低风险环境中可能不需要同样严格的监管措施。同时,法案没有明确哪些类型的决策是关键决策,也没有定义什么是敏感数据,这可能会导致在保护个人隐私和数据安全方面的不足。Gavin强调,像SB-1047种一刀切的方法会抑制在某些领域的创新和AI技术的发展,而且法案的规定可能难以实施,因为它们没有为不同类型的AI模型、应用提供明确的指导。保护公众免受AI技术真正威胁的最佳方法应该是更加细致和有针对性的,而不是一刀切的解决方案。下面是吴恩达、Yann LeCun、李飞飞等指责SB-1047法案的诸多不合理。也可以查看「AIGC开放社区」过去对该法案的多次解读。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

苹果放弃投资 OpenAI,硅谷最大融资悬了?

OpenAI最近的日子可谓冰火两重天,一方面,融资活动如火如荼;另一方面,技术高管们走得走,散的散,以至于其内部员工不免发出如上调侃。

不过,事情尚未尘埃落定之前,一切尚有变数。


早有传言称苹果将参与OpenAI的融资轮时,这并不出人意料,毕竟当苹果宣布将ChatGPT服务整合进Siri时,双方合作似乎也是水到渠成。

而《华尔街日报》最新的报道指出,苹果原本可能参与OpenAI下周即将完成的高达65亿美元的融资轮,但却在最后关头决定退出。

作为全球最负盛名的AI独角兽,备受追捧的OpenAI然不缺投资者。

报道称,在苹果选择「放手」后,微软、英伟达等巨头仍在谈判桌上。其中已投130亿美元的微软预计还将追加约10亿美元。

风险投资公司Thrive Capital也将领投本轮,投入约10亿美元。投资公司Tiger Global Management和阿拉伯联合酋长国支持的公司MGX也都在积极商谈参与事宜。

尽管本轮融资尚未最终敲定,参与者和投资金额仍有变动的可能,但可预见的是,OpenAI正坚定地从非营利组织转型为营利性公司。

因为报道还提到,若是OpenAI两年内没完成公司结构的重组,本轮投资者将有权要求退回他们的「真金白银」。

然而,在OpenAI转型为真正的商业公司之前,不可避免地会经历一段漫长的阵痛期。

据《华尔街日报》报道,许多现任员工和前员工认为,OpenAI在发布产品公告和进行安全测试方面过于急躁,且已失去对竞争对手的领先优势。

更直白地说,在Altman的掌舵下,OpenAI正逐步变得更像一家普通公司。

员工们普遍不满的一点是,肩负掌舵人身份的Altman大多时候不参与公司的日常事务,而是忙于全球推广AI,筹集资金以建设AI所需的芯片和数据中心。

首先,这无疑是好事,因为开发和运营AI模型本质上是一门烧钱的游戏。AI走出实验室,进入现实世界改变人们的生活,依然需要金钱的「燃料」。

根据《纽约时报》查阅的财务文件,OpenAI 8月份的月收入达到3亿美元,自2023年初以来增长了1700%。

该公司预计今年的年销售额约为37亿美元,并且估计明年收入将激增至116亿美元。

但据一位同样审查了这些文件的金融专业人士分析,在支付了运营服务相关成本、员工工资和办公室租金等其他费用后,OpenAI预计今年将亏损约50亿美元。

并且,这些数字还不包括基于股权的员工薪酬和文件中未完全解释的几项高额费用。截至发稿前,OpenAI拒绝对这些文件发表评论。

其次,一些在OpenAI工作多年的研究人员却认为,大量资金的注入和巨额利润的前景正在侵蚀OpenAI的文化。

还记得超级对齐团队负责人Jan Leike曾在X上发文:

我与OpenAI领导层在公司核心优先事项上的分歧已久,最终达到了一个临界点……近年来,安全文化和流程已经让位于更为吸引人的产品。

成立于2015年的OpenAI是一家非营利性的研究机构,其宗旨是「创建造福全人类的安全通用人工智能(AGI)」。但照目前来看,这艘大船正悄然偏离了航向。

置身事中的OpenAI高管离职潮或许是这一变化的最好表征。

简单来说,这大致可分为两个原因,一是高管心里受委屈了,二是钱没给够。

而此时,外媒WSJ又曝出一些新鲜的瓜料。据悉,在五月份Ilya和超级对齐团队负责人Jan Leike官宣离职之后,OpenAI高层担心这会引发更大规模的人才流失,因此积极寻求Ilya的回归。

OpenAI前CTO Mira和总裁Brockman携带着其他员工的贺卡和信件拜访Ilya,并对其晓之以情,动之以理,并表示如果没有Ilya,公司可能会陷入「崩溃」。

报道还指出,当时Altman也亲自上门拜访,并对其他人尚未找到解决Ilya离职问题的办法表示遗憾。

当时,Ilya向他的前同事表示,他正在认真考虑重返OpenAI。

然而,不久后,临时「变卦」的Brockman突然打电话通知Ilya,公司撤回了让他回归OpenAI的提议。

原因是,公司内部高管在确定Ilya新角色及其如何与其他研究人员共事(包括他的首席科学家继任者)方面「遇到了困难」。

后来的故事大家都知道了,Ilya很快宣布创立新公司SSI,并已成功筹集了10亿美元的资金。

再者,技术大咖离职潮的出现本质上还是绕不开「安全」二字。

在GPT-4o发布之前,OpenAI的高管们希望借此机会狙击Google年度开发者大会,以抢占更多的关注。而研究人员被要求在仅剩的9天内完成比原计划更为全面的安全测试。

加班加点、日夜通宵的安全团队每天工作20小时,几乎没有时间核查他们的工作。

基于不完整数据的初步结果显示,GPT-4o符合部署的安全标准。

但在模型发布后,《华尔街日报》援引知情人士消息称,后续分析显示该模型的劝说能力超出了OpenAI内部标准,即创建能够说服人们改变信念并参与潜在危险或非法行为的内容的能力。

急于推出GPT-4o是一个普遍现象。作为时任CTO(首席技术官),Mira曾多次推迟搜索和语音交互等产品的计划发布,因为她认为这些产品尚未准备就绪。

其他高级员工也越来越不满。联合创始人兼顶级科学家John Schulman告诉同事,他对OpenAI内部冲突感到沮丧,对未能挽回Ilya感到失望,并担心公司正在逐渐地忘记「初心」。

于是乎,今年8月,他离开了OpenAI,转投了注重安全的老对手Anthropic。

昨日,外媒The Information报道提到,Brockman和Murati在公司的AI发展计划上也时常存在分歧。

尽管Brockman作为公司总裁,通常应该负责公司的整体战略规划和决策,但他同时也会参与到具体的项目中,比如将早期的AI研究成果转化为实际应用的产品原型。

这种既是决策者,又是执行者的角色重叠,很轻易就让其与Murati及其技术团队的观点和计划产生分歧。

《华尔街日报》报道称,Brockman喜欢插手任何感兴趣的项目,这常常让相关人员感到不满,比如Brockman经常在最后一刻要求对已规划好的项目进行修改,这迫使包括Murati在内的其他高管出面调和。

多年来,员工一直敦促Altman约束Brockman,称他的行为让员工「士气低落」。这些担忧一直持续到今年,最终Altman和Brockman同意他应暂时休假。

上个月,Brockman在X平台上写道:「我将休假到年底。这也是自九年前共同创立OpenAI以来的第一次放松。」

报道还指出,OpenAI高层已经人手不足。就在Murati辞职的同一天,首席研究官和副总裁也相继离职。

Altman现在需要加强他的管理团队,设法完成对公司至关重要的数十亿美元融资,并尽快推动将非营利组织转型为营利性公司的复杂进程。

也许再过不久,我们将会看到,目前正在「休长假」的Brockman宣布回归OpenAI。如果没有这些曝光的内幕,估计谁也不会想到,Brockman会成为 OpenAI高管离职潮的又一赢家。

而这场OpenAI连续剧显然还将持续下去,吃瓜群众能做的也只有静待反转、反转和反转。

image
image
image
image
image
image
image
image
image

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta开源多模态模型——Llama 3.2

Meta开源了首个多模态大模型Llama-3.2,这是Llama-3系列的一次重大升级,一共有4个版本。

Llama 3.2 1B、3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持 128k标记的上下文长度,可在手机、平板电脑等设备中使用。


值得一提的是,这两款模型在发布时便对高通和联发科的硬件进行了适配,并针对 Arm 处理器进行了优化,广泛的兼容性将加速其在各种移动和物联网设备中的应用。

图片来源:由GPTNB生成

11B和90B视觉模型是 Llama首次发布的多模态大模型,能理解和推理图像,实现文档分析、图像字幕和视觉问答等任务。

Llama 3.2 90B版本擅长常识、长文本生成、多语言翻译、编码、数学和高级推理等,还引入了图像推理功能,可完成图像理解和视觉推理任务,能进行图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

Llama 3.2 11B版本适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。在文本摘要、情感分析、代码生成和执行指令方面表现出色,也增加了图像推理能力,其用例与 90B 版本类似,包括图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

根据测试数据显示,Llama 3.2模型在图像识别和视觉理解基准测试中与领先的闭源模型具有竞争力,例如,Claude 3 haiku等。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI高管震荡内幕:CEO无视安全仓促上马4o,员工每天干20小时赶进度,追名逐利不再理想主义

文章来源:量子位

图片来源:由GPTNB生成

动荡内幕终于曝光——
OpenAI CTO Mira Murati的离开,与GPT-4o、Her息息相关!
简单来说,就是今年春天OpenAI为了大抢谷歌开发者大会的风头,紧急推出GPT-4o。
时间真的是非、常、紧、张,以至于安全团队只能在极短的时间内(9天,拿不到更多时间了)完成安全测试评估


时间紧,任务重,即便007式工作,每天工作20小时,测试数据还是不足。
结果大家也看到了,4o发布后才爆出该模型存在安全问题。
总的来说,OpenAI好像有点变形了:压榨员工、轻视安全,在市场上大出风头比安全可靠更重要
之前奥特曼被开除时诟病的问题,特别是对安全的漠视,实实在在被证明了。比起AI技术的安全可靠,他更在乎竞争上的赢

图片

很多员工和高管都超不满的。
当初4o发布第二天,沉寂许久的OpenAI灵魂人物Ilya就宣布了自己的离开。
现在,4o全量上线的第二天,Mira也走了。
还带着研究主管Bob McGrew和研究副总裁Barret Zoph一起跑路。
(真不知道是说这些元老们太顾念公司,还是说OpenAI真是营销天才。)
说来说去,他们告别OpenAI都围绕一个原因,那就是“公司对安全重视程度不足”。
OpenAI,真的不要安全了??!

图片

试图抢救“安全性”的Mira

我们再来展开说说4o上线的火急火燎程度。
今年5月14日,OpenAI发布GPT-4o;5月15日,Google发布名为Project Astra的AI助手,同日OpenAI首席科学家Ilya官宣离职。
一切的发生,早“有预谋”。
据透露,挑在14日发布,完全因为OpenAI想抢Google的风头。
为此,OpenAI安全团队仅得到了9天的时间,来做安全检测。
就,时间真的不够啊!
9天时间里,安全团队成员们007式工作,每天不分白天黑夜,拼死拼活干20个小时,还是没做完安全测试。

图片

即便如此,GPT-4o还是如期发布了。
然后就果然被发现GPT-4o有安全问题,它的“劝说”“诱导”性非常强,具备创建能够说服人们改变信念并参与潜在危险或非法行为的内容的能力。
很容易引导人误入歧途,干些不好的事,说些不对的话。
一些OpenAI内部员工也表示,仓促发布GPT-4o,让OpenAI失去了对领域内的领先优势。
但能咋办,发都发布出去了……
Mira试图力挽狂澜,只能把4o的全量上线往后一延再延,最终在本周三(9月25日)才全量发布。
隔天她就宣布辞职了。
她挥一挥衣袖,带走了另外两名高管。

图片

其实,Mira也不是没有试图拯救过OpenAI的“不安全”。
一方面,OpenAI前任及在职员工分别透露过,作为CTO的Mira多次推迟了包括搜索和语音交互在内的产品的计划发布。

她认为它们还没有准备好。
另一方面,最近曝出5月Ilya辞职后,Mira和后来长期休假的总裁Greg Brockman都去Ilya家找过他。
他俩带着公司员工写的卡片,对Ilya晓之以理,动之以情:
我的老天奶,你可回来吧,Ilya!公司现在好混乱,没有你咱肯定得崩溃!
Ilya应该是动过心的,他对OpenAI的前同事表示,他真的在认真考虑要不要重回OpenAI。
但没过多久,Brockman就打电话过来说OpenAI撤回了让Ilya重返公司的邀请。
真·一整个大问号。

图片

多八卦两句,Ilya和Mira之间,还有其他核心成员因不满OpenAI对安全的重视程度而离职。
比如John Schulman,也是OpenAI的联合创始人。
8月6日,他告别OpenAI,转投最强竞对Anthropic。
他在推特发文表示,他表示选择离职是为了更深入地从事AI对齐研究,即确保AI的发展与人类价值观相一致。

OpenAI转向:公司关键数据曝光

一切的一切,似乎都与OpenAI转向有关。
LeCun表示,将一家非盈利开放研究机构变成一家秘密的、以产品为中心的盈利性公司,势必会导致许多人退出。

图片

有媒体,甚至直接以OpenAI as we know it is dead为名。

图片

据OpenAI内部员工爆料,OpenAI越来越专注于构建产品而非研发技术。这些产品的重点不再是纯粹的研究。
此前,也的确有类似的消息爆出,比如GPT-5迟迟不发,却计划出AI搜索对标谷歌,大举招募产品设计等相关的员工。
不过另一面,参加过o1和草莓的研究员Noam Brown针对这些传闻了个推特:

研究的重要性降低了?没听说过

图片

奥特曼本周去意大利参加活动时,也否认了员工离职与公司转变有关。

我看到的大多数内容也完全是错误的。但过去一年里,我们的董事会一直在独立思考公司的下一阶段发展需要什么。
我认为这些变动反映了人们准备好迎接人生新篇章,同时也标志着新一代领导力的崛起。
不过也有网友替奥特曼说话:经营一家公司远比想象中那么困难。它不可能以非盈利的形式生存下来。

图片

纽约时报今天也透露了关于OpenAI经营的一些关键数据:

  • 8月收入达到了3亿美元,相较于去年(2023年)年初增长了1700%,较去年同同期增长两倍多。
  • 截至今年6月,每月使用其服务的人约有3.5亿人,相较于今年3月仅有1亿人左右,高了三倍多。
  • 今年的年销售额预计约为37亿美元,其中10亿来自于企业;而去年仅有7亿美元。
  • 每月大概有1000万ChatGPT用户,向OpenAI支付20美元。
  • 2025年收入将达到116亿美元;2029年收入达到1000亿美元。

这样看,OpenAI其实已经赚很多了,甚至势头还在蹭蹭蹭地往上涨。
但如果对于现阶段的公司来说,可能还不够。
比如支付一些基础运营和硬件设施的费用,今年就将亏损约50亿美元。
那老板就不能不管了。要么从用户这边入手,要么从投资方这边入手。
文件中显示,预计今年年底ChatGPT订阅价格将再涨个2美元, 并且未来五年内涨到44美元。

我先帮咱们算算,大概一个月也就300多块钱吧。
那融资这边,OpenAI一直就没有闲着。
早在今年8月份就被曝出,OpenAI正在就新一轮融资进行谈判。
老股东兴盛资本(Thrive Captial)可能领投10亿美元,最大股东微软也有望参与此轮融资(但没看到OpenAI首位投资人Vinod Khosla的身影)。
由此,OpenAI的估值将超过此前的860亿美元,甚至超过1000亿美元。

什么概念呢?相当于当时Anthropic估值(150亿)的6倍、马斯克xAI(240亿)的4倍。
结果现在刚好一个月过去,这次寻求的融资估值已上升至——1500亿美元

融资窗口期:高层动荡,苹果退出

如今,OpenAI又迎来了关键的融资窗口期。
本轮计划以1500亿美元估值收获70亿美元融资,不过其他媒体爆料说是65亿美元,也是创业公司有史以来最高估值之一。微软预计将参与投资10亿美元。
这轮融资最早可能在下周结束。
据爆料,作为投资的一部分,OpenAI有两年时间需要将自己的公司转变成营利性的公司。
随后还会有新的一系列电话会议,介绍OpenAI产品和研究团队的主要领导人。
这样的时间,大批量重要高管离职,也不免让一些业内人士合理怀疑:
融资还没结束就离职,可能会让投资者恐慌,由此搞乱OpenAI接下来进展。

图片

不过就在刚刚,有消息称,苹果将不再参与此次的投资。
以及对于OpenAI来说,最大的挑战不是一笔两笔融资,也不是产品模型是不是依然具备先进性,而是正在失去理想主义的旗帜,变得没有梦想,走向平庸。

奥特曼在被重新评价

归结起来一句话:初心已不再。
当初OpenAI建立,就是看到了AI正在带来的巨大改变,以及最顶级的DeepMind这样的研究机构,正在成为Google这样巨头的附庸,包括马斯克在内的人,担心智能时代的核武器,垄断在日益“邪恶”的大公司手中。于是自掏腰包、慷慨解囊,给最顶级的人才发大公司同样级别的薪水,然后用梦想激励他们Think Different,真正改变世界。
天才Ilya就是在这样的背景中,放弃了谷歌最顶级的待遇,成为OpenAI的联合创立者,一点点沿着“天方夜谭”式的AGI目标,最后在GPT的新范式中,真正改写了AI时代的进程。
然而山姆·奥特曼不是这样的人,他不是技术出身,他也不是乔布斯那样希望通过产品改变世界的人,他关注创新、欣喜于创业投资的乐趣,但最后似乎角色更像是一个顶级的硅谷生意人。他最初的角色是OpenAI的资助者,后来成了CEO,然后又在马斯克出局OpenAI后获得了更大的内部话语权,并且在ChatGPT问世后,大名得曝,地位前所未有,一度封神。
他被外界评价“ChatGPT之父”——即便严格来讲他不是,他乐于代表整个团队谈论AGI、谈论AI带来的世界变革,游走出访于各个国家,享受最受欢迎的追捧。一度,他被放到了乔布斯、马斯克之后,认为他可能就是下一个从硅谷改变世界的人。
直到

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑

视频生成领域真是越来越卷且越来越迈向实用性!

在 OpenAI Sora 难产的时候,Meta 首次公开展示了自家的「用于媒体的突破性生成式 AI 研究」:Meta Movie Gen。

Meta 在相应博客中使用了「premiere」一词,也就是初次展示,因此手痒的用户可能还得再等上一段时间。


Meta 表示:「无论是希望在好莱坞大展身手的电影制作人,还是爱好为观众制作视频的创作者,我们相信每个人都应该有机会使用有助于提高创造力的工具。」

根据 Meta 的描述,Movie Gen 的功能包括:文本生成视频和音频、编辑已有视频、图片生视频。并且人类评估表明,Movie Gen 在这些任务上的表现均优于行业内类似模型。

具体的效果如何,我们先来看几个示例。

可以看到,小女孩在奔跑的过程中衣服的褶皱就已经吊打很多视频生成应用了。

在转头、正视前方、微笑的几个动作中,人物面部依然可以保持稳定状态,克服了形变。怪不得 Meta 在博客中还谈到,这是能够用来分享日常生活的可贵技术。

生成动物对 Movie Gen 来说也是小菜一碟。动物的毛发、动作都十分逼真。仔细看这只猴子的尾巴,在遮挡后依然能够遵循遮挡前的运动轨迹。背景生成结果也十分贴合 prompt。水面的波动、倒映都栩栩如生。不过水下折射的生成效果看起来还有些进步空间。

视频时间长一些,Movie Gen 也能有稳定的表现。人物大幅度动作的展现也比较逼真。但每一帧定格下来,还会有些瑕疵。不过这是视频生成一贯的难题,Meta 或许会在未来进行改进。

Sora 刚刚问世时,往往还需要 Elevenlabs 这样的音频生成应用来辅助。而 Movie Gen 显然更加便捷,除了视频生成,配备相应的音乐、音效也是拿手好戏。

面对一整个视频的场景,合适的背景音乐能够贯穿全程。不仅如此,音效的适配度也很高。这个瀑布倾泻的水声就十分逼真。

更让人惊讶的是,音效还能够精准地与视频内容匹配。它能够通过视频中的动作节点来把握音效出现的时机,让画面和声音相辅相成,给我们呈现出完整的生成效果。

如果 Meta 所言非虚,那么 Movie Gen 也真算得上是目前最先进和最沉浸式的「讲故事模型套件(storytelling suite of models)」。

Meta 表示训练使用的数据集都是公开数据集或已获得授权的数据集。下面将简要介绍各项能力以及背后的技术,更多详情请参阅原论文。

Meta 在博客中简单回顾了自己的视频生成之旅。他们的第一波生成式 AI 研究始于 Make-A-Scene 系列模型,这些模型可以生成图像、音频、视频和 3D 动画。

随着扩散模型的出现,他们又基于 Llama 基础模型做出了第二波研究,成功实现了更高质量的图像和视频生成以及图像编辑。

Movie Gen 则是 Meta 的第三波研究。他们将以上所有模态都组合到了一起,并能以前所未有的方式为用户提供进一步的细粒度控制。

下面详细介绍 Movie Gen 的各项能力。

视频生成

给定文本提示词,Movie Gen 会使用一个针对文生图和文生视频任务优化过的联合模型来创建高质量…


---
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:[GPTNB](https://gptnb.com)。

号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law

Molmo,开源多模态模型正在发力!

虽然大家一直在期待谷歌、OpenAI 等等拥有无限资金储备和顶尖人才的大厂做出新的 Sota 模型。不过,一家默默耕耘的创业公司 Ai2 发布了一款多模态人工智能模型 Molmo。


在下面展示的视频中,我们可以看到 Molmo 就像钢铁侠的「贾维斯」一样万能。想卖自行车,咨询一下 Molmo 的建议,仅靠一张照片,Molmo 就能把自行车的颜色、品牌和二手售价搞清楚,并且帮你写出一句顺口的广告语。

它也可以从虚拟世界帮你解决现实世界的问题,说一句:「Molmo,帮我买杯星巴克的南瓜拿铁。」剩下的就不用动手了,打开外卖网页、点餐、付款,Molmo 一气呵成。你所要做的,就是坐在家中,静候咖啡送到你的手中。

图片

机器之心也尝试了一下他们在线发布的 Demo 模型。相较于宣传视频,其功能还很有限,所以我们让其执行了图像描述任务,可以看到 Molmo 在细节描述和准确度上的表现确实很不错,它甚至能注意到猫背上的小玩具:「玩具看起来像一只绿色的老鼠,鼻子是粉红色的,尾巴是蓬松的,羽毛色彩缤纷。」

图片

但遗憾的是,Molmo 的汉语输出能力非常有限,即使我们明确要求其输出汉语,它也未能办到:

图片

除了 Demo,从数据来看,Molmo 的表现也足够惊艳。在人类测评和一系列测试集中,Molmo 的得分击败了 Claude 3.5 Sonnet、GPT4V 等一众顶尖模型,甚至可以媲美 GPT4o。

图片

不过,Molmo 的体量更小,却能「以小搏大」,性能超越了比它的参数量大十倍的其他模型。据 Ai2 首席执行官 Ali Farhadi 称,Molmo 的体积小到可以在本地运行,它无需 API、无需订阅、更无需成本高昂的液冷 GPU 集群。

更重要的是 Molmo 完全免费且开源,所有的权重、代码、数据和评估流程都即将公布。

部分模型权重、推理代码和一个基于 Molmo-7B-D 模型的公开演示已经可以使用。

体验链接:https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19

Ai2 又是如何做到「四两拨千金」的呢?答案在 Ai2 公布的技术报告和论文中,这个秘诀就是:数据。

图片

论文链接:https://molmo.allenai.org/paper.pdf

目前,最先进的多模态模型大多是闭源的,即使有一些开源的模型表现不错,但它们通常依赖于专有模型生成的合成数据。因此,如何从零开始构建高性能 VLM,对于开源社区来说,种种基础知识都很难获得。

图片

如上图所示,Ai2 的研究团队统计了目前 VLM 的开源程度,除了直接看模型的权重、数据和代码是否公开,他们还考虑了模型是否依赖于其他闭源模型。如果一个模型在训练中用了其他专有模型生成的数据,那它就被标记为「蒸馏」,这意味着它无法完全独立再现。

针对「闭源」的瓶颈,Ai2 使用语音描述收集了一个高细节度的图像描述数据集,这个数据集完全由人工标注,并可以公开访问。

该团队认为提升模型性能的诀窍是使用更少但质量更好的数据。面对数十亿张图像,…

(部分内容省略,具体请参考原文链接)

参考链接:



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta开源多模态模型——Llama 3.2

Meta开源了首个多模态大模型Llama-3.2,这是Llama-3系列的一次重大升级,一共有4个版本。

Llama 3.2 1B、3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持 128k标记的上下文长度,可在手机、平板电脑等设备中使用。


值得一提的是,这两款模型在发布时便对高通和联发科的硬件进行了适配,并针对 Arm 处理器进行了优化,广泛的兼容性将加速其在各种移动和物联网设备中的应用。

开源地址:https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama32

11B和90B视觉模型是 Llama首次发布的多模态大模型,能理解和推理图像,实现文档分析、图像字幕和视觉问答等任务。

Llama 3.2 90B版本擅长常识、长文本生成、多语言翻译、编码、数学和高级推理等,还引入了图像推理功能,可完成图像理解和视觉推理任务,能进行图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

Llama 3.2 11B版本适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。在文本摘要、情感分析、代码生成和执行指令方面表现出色,也增加了图像推理能力,其用例与 90B 版本类似,包括图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

根据测试数据显示,Llama 3.2模型在图像识别和视觉理解基准测试中与领先的闭源模型具有竞争力,例如,Claude 3 haiku等。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络

不久之前,OpenAI 发布了 o1 系列模型,其强大的推理能力让我们看见了 AI 发展的新可能。近日,OpenAI 著名研究科学家 Noam Brown 一份 5 月的演讲上线网络,或可揭示 o1 背后的研究发展脉络。


在这个题为「关于 AI 规划力量的寓言:从扑克到外交」的演讲中, Brown 介绍了扑克、围棋和外交等游戏领域的研究突破,并尤其强调了搜索/规划算法在这些成就中的关键作用。之后,他也指出了搜索/规划研究在改进机器学习模型方面的潜在未来。

Noam Brown,如果你还不熟悉这个名字:他是 OpenAI 的一位著名研究科学家,主攻方向是推理和自博弈,曾参与创造了首个在双玩家和多玩家无限注德州扑克上击败人类顶级职业玩家的 AI:Libratus 和 Pluribus。其中 Pluribus 曾被 Science 评选为 2019 年十大科学突破之一。此外,他也领导开发了 Cicero 系统,这是首个在自然语言策略外交游戏 Diplomacy 上达到人类水平的 AI。凭借在 AI 领域的卓越贡献,他获得过马文·明斯基奖章(Marvin Minsky Medal)等许多奖项。

视频地址:https://www.youtube.com/watch?v=eaAonE58sLU

来自 Paul G. Allen School

机器之心详细梳理了 Noam Brown 的演讲内容,以飨读者:

演讲开篇,Brown 谈到了自己刚开始研究生生涯的时候。那是在 2012 年,他开始研究打扑克的 AI。当时人们已经研究了扑克 AI 多年时间。很多人的感觉就是系统的问题已经解决,剩下的问题就是规模扩展(scaling)了。

下图左下展示了那几年模型参数量的变化情况。

那几年,各个研究扑克 AI 的实验室都会训练更大的新模型来互相竞赛。这就是当时的年度计算机扑克竞赛。

什么意外,每一年的新模型都会变得比之前的模型更强大。

2014 年时,Brown 与其导师一起开发了当前最强大的扑克 AI,取得了竞赛第一名。那时候他们开始

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

重磅!美国取消SB-1047法案,OpenAI、谷歌、Meta大难不死!

美国加州州长Gavin Newsom在今天凌晨正式否决——SB-1047法案!值得一提的是,过去30天Gavin一共签署了17个关于监管大模型、生成式AI安全使用的法案,唯独否决了1047,看来他也不是一个糊涂人。在这个积极否决的过程中,AI界泰斗-吴恩达、图灵奖获得者-Yann LeCun、斯坦福教授-李飞飞等发挥了重要作用。


尤其是吴恩达,曾多次在公开场合呼吁科技人士抵制该法案功劳非常大。对于全球开发者来说今天也是个重要的日子,可以继续使用Meta、谷歌等美国科技大厂开源的大模型啦。

SB-1047法案简单介绍

「AIGC开放社区」一共写了6次关于SB-1047法案的内容,算是国内最关注该事件的媒体之一。再简单介绍一下该法案,以及为什么会对开源大模型、生成式AI发展带来很多阻力。SB-1047是美国加州在今年2月7日拟定的,全名叫《SB-1047 前沿AI大模型安全创新法案》,主要用于增强大模型安全、透明性、使用规范的条例。但其中有非常多的不合理内容,例如,规定开发、训练成本超过1亿美元的大模型,比如Meta开源的Llama-3系列;谷歌的Gemma系列,一旦开源有人使用它做一些非法的事情,那么源开发商也会受到非常严重的处罚。在监管方面,当大公司开放其模型给别的国家用户使用时,需要提交客户的所有资料,包括客户的身份、信用卡号、账号、客户标识符、交易标识符、电子邮件、电话号码。同时,每年都要提交一次资料,并对用户的行为、意图进行评估。用户的所有资料会被备份7年,也会在海关、边境总署备案。类似不合理的条款还有很多,起草该法案的人员就是想彻底扼杀开源大模型以及大模型出口。所以,像OpenAI、Meta、谷歌这些科技巨头会成为SB-1047的最大受害者。此外,美国加州这个地区在科技领域非常特殊,是谷歌、Meta、OpenAI、苹果、英特尔、特斯拉总部的所在地,也有斯坦福、加州大学伯克利、加州理工、南加州大学等全球顶尖的计算机名校,算是全球科技创新中心之一。一旦这个法案执行起来,不仅是大公司受到重创,就连一些初创的小企业也几乎要完蛋了。当时这个法案一出来之后,很多人都表示,一些科技企业将会搬走。

否决SB-1047法案理由

根据美国加州官网公布的否决消息显示,Gavin州长表示,全球50家顶级AI企业,有32家在加州,它们对AI大模型的发展、创新至关重要。SB-1047的初衷是出于好意,但它在实施上存在一些严重问题。SB-1047只关注最贵、大规模的AI模型,建立了一个监管框架,可能会给公众一种控制这项快速发展技术的虚假安全感。较小的、专业化的模型可能同样甚至比SB-1047针对的大模型更危险,会阻碍AI技术创新。此外,SB-1047法案缺乏灵活性,没有为不同类型的AI应用提供足够的灵活性,这可能会导致在实施过程中的混淆和不确定性。Gavin指出,该法案没有考虑到AI模型是否部署在高风险环境中,而这是非常重要的,因为在低风险环境中可能不需要同样严格的监管措施。同时,法案没有明确哪些类型的决策是关键决策,也没有定义什么是敏感数据,这可能会导致在保护个人隐私和数据安全方面的不足。Gavin强调,像SB-1047种一刀切的方法会抑制在某些领域的创新和AI技术的发展,而且法案的规定可能难以实施,因为它们没有为不同类型的AI模型、应用提供明确的指导。保护公众免受AI技术真正威胁的最佳方法应该是更加细致和有针对性的,而不是一刀切的解决方案。下面是吴恩达、Yann LeCun、李飞飞等指责SB-1047法案的诸多不合理。也可以查看「AIGC开放社区」过去对该法案的多次解读。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB