Meta开源多模态模型——Llama 3.2

Meta开源了首个多模态大模型Llama-3.2,这是Llama-3系列的一次重大升级,一共有4个版本。

Llama 3.2 1B、3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持 128k标记的上下文长度,可在手机、平板电脑等设备中使用。


值得一提的是,这两款模型在发布时便对高通和联发科的硬件进行了适配,并针对 Arm 处理器进行了优化,广泛的兼容性将加速其在各种移动和物联网设备中的应用。

图片来源:由GPTNB生成

11B和90B视觉模型是 Llama首次发布的多模态大模型,能理解和推理图像,实现文档分析、图像字幕和视觉问答等任务。

Llama 3.2 90B版本擅长常识、长文本生成、多语言翻译、编码、数学和高级推理等,还引入了图像推理功能,可完成图像理解和视觉推理任务,能进行图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

Llama 3.2 11B版本适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。在文本摘要、情感分析、代码生成和执行指令方面表现出色,也增加了图像推理能力,其用例与 90B 版本类似,包括图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

根据测试数据显示,Llama 3.2模型在图像识别和视觉理解基准测试中与领先的闭源模型具有竞争力,例如,Claude 3 haiku等。

source

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI 应用创业者自述:我们是怎么从大厂夹缝里抢流量的

做了那么多AI应用,谁来用?第一波用户从哪来?如何持续不断地获得用户反馈?

在各种AI应用层出不穷的今天,开发者和创业公司也在愁这事。

毕竟,像Kimi、豆包这类可以铺天盖地打投流战的产品,只是有钱的少数。


而没钱的大多数呢?不出自财大气粗的大厂,没有巨头的流量生态“喂养”,甚至在寻求融资的过程中被反复质疑,只能硬着头皮自己找出路。

这其中,甚至不少产品早在开发之初,就已经尝试尽可能地避开巨头的射程范围,专注于自己的小赛道了。但当他们真正进入现实世界,为自己的产品寻找最初的流量时,却发现,他们再一次掉入了互联网巨头们制定游戏规则的流量世界里。

在线上流量格局固化的背景下,付费流量占大头,免费流量又少又难拿。于是,有人被动寄希望于APP Store的编辑推荐,有人选择在垂直的小圈子里“捞人”,有人发动身边一切人脉做内容种草…..

创业者正在想尽办法,在这个旧世界里为自己的新产品寻找用户,省下每一块钱,抢来每一滴流量。

以下是他们的“流量拓荒”故事。

起于SEO搜索,长于KOL种草,大于生态裂变

歌歌AI写歌 COO 王枢沛,10万月活,2023年3月上线

流量只有免费和付费两种,对于AI创业团队来说,最关键的是能不能拿到免费流量。

从我们的产品歌歌AI来说,我们是一款文生音乐产品,可以根据用户的提示词,用AI来作词、编曲、发行,用户可以获取版权和发行收益。从2023年3月正式上线,到现在运营了一年半的时间,用户量从零到了几十万的水平。

当然这在互联网产品里不算什么,但在AIGC创业公司里,特别是音乐垂类,算不错了。我比较骄傲的点在于我们没有烧钱大规模投放,沉淀下来的用户是精准的、有付费意愿的,目前已经做到了盈收打平。

尽可能地少花钱、做免费流量,贯穿了我们整个拉新阶段:第一阶段是SEO,第二个阶段是KOL种草,第三个阶段是做产品层面的营销活动,比如全球写歌大赛,分别对应着冷启动、产品完善后市场推广、用户社群网络效应增长。

免费流量里最精准就是搜索流量。最早我们的产品形态还只是一个非常轻量级的小程序,当时国内几乎就我们一家,甚至爆火的SUNO都还没有成立,没有所谓的竞对,那我们只要做简单地搜索引擎优化,相关的所有的流量就来我们这里。

而做SEO,从产品命名就开始了。我们的名字叫“歌歌AI写歌”,用户可以通过“写歌”、“AI写歌”。不过,最开始来的用户跟AI没什么关系,主要是一些喜欢唱歌、喜欢音乐的普通人,流量都来自于“写歌”。

搜索流量依赖用户主动搜,即使科技圈里ChatGPT把AI的概念带爆了,但在大众层面,想写歌的群体也远大于关注AI的群体。这个结果,是我们在设计产品的时候就有预期到的,来自于之前踩过的坑。

我开始在网易天音团队做的也是AI音乐创作产品,当时做增长很费劲,因为天音主打的是编曲。“编曲”这个词就很专业,受众和流量都更窄;后来我又做了一款出海音乐创作者应用,也是偏专业性质的,同样遇到了增长困难。

这两次经历,让我发现音乐制作人群体很小,好处是不太会有竞争,坏处是天花板特别低,很容易做到头。所以我们这次创业,就准备做大众的市场,做“全民写歌”,相比“编曲”、“AI”,“写歌”才是符合普通人的场景。

确定了人群和调性之后,我们依然做了很多尝试,看数据反馈调整更细节的产品卖点。最开始,我们宣传的是“免费生成歌曲”,但后来发现高估了免费的作用,免费只是一个附加项,没价值的产品再免费也没人关心。后来,我们又试了“写首歌送给朋友”,主打社交链接,反馈也一般。直到大半年的时间后,确定下了目前的“…

到这一步,我们内部才一致认为产品ready了,大概是去年11月的时候,就准备推向市场了,然后开始找KOL合作推广。

因为我们是一个内容创作型的产品,也会优先在内容平台上进行传播,比如抖音、B站、小红书。我们目标用户是音乐爱好者,他们往往会在社交平台上专注一些乐评人、音乐人。而我们很多同事都是音乐圈的圈内人,这些博主恰恰是团队在过去积累过的人脉资源,像我们的CEO本身就是中国好声音、中国有嘻哈等等节目的制作人。

所以,我们做KOL推广,不像之前在大厂有一个非常完整的流程:先做方案策划,确定预算额度、目标效果,合作博主中头部、中部、腰部、尾部的比例配比,然后把方案对接给采购采买……更多的是我手上有什么就做什么,用好每一份资源,甚至这个博主是我的朋友,我刷个脸、吃个饭,让他友情帮我拍。

事实证明,KOL种草非常有效,那段时间,我们有一个博主,一天就给我们带来了十万用户的增长,直接翻了倍。

还有就是我们自己上手做,我们的CEO就在B站做账号,从零到现在有十万的粉丝,最爆的一个视频大概有500万的视频播放量,冲到全站排行榜第13名。说实话,不靠什么SOP的方法论,就是有网感,符合B站这种洗脑、抽象的属性,能和用户玩起来。这个视频带给我们的用户没有具体数据,但影响力是长期的,到现在产品里还会有B站观光团。

现阶段,我们最重要的任务指标就是我们生产的内容在全网的发酵程度,而不是单单看用户增长。既然我们定位自己是内容平台,那么就需要不断孵化出好内容,受到更多人的认可。所以,我们在第三个阶段开始做生态、社区,靠运营来做增长,去激发用户的创作力,比如群聊、挑战赛和排行榜等等。

这里面还有一个行业“内幕”,就是在传统音乐制作行业,爆款其实是一个概率问题,全国一天发行十几万首歌,爆款永远是少数的,具有偶然性的,比如一个著名的球星某天穿了一件蓝色颜色的衣服出镜,另外一首歌名叫蓝色的歌就火了。所以,理论上只要我们生产的歌足够多,那么成为爆款的概率就更大。现在,我们的平台上每天能产生万首。接下来,我们希望我们生产的歌,跟传统的发行量份额相当,甚至我们比传统的更多。

可以拿短视频平台的生态来理解,抖音、快手也有专门的创作者经营,定期做活动策划、做激励任务等等。我们也在举办全球AI写歌大赛,给站内播放量过万的作品现金激励,这些活动是我们从去年年底到今年上半年的主要增长来源。

但这并不是说我们就进入了完全的用户自增长、滚雪球的网络效应阶段,也不是说投放KOL就没有用了。花钱永远是最快的,只是之前的精准垂类KOL已经差不多覆盖了,接下来要去找更泛的KOL和人群,如果不克制的话,就会陷入烧钱换增长的恶性循环里。

警惕“产品越好用,用户越不愿意裂变”

蛙蛙写作负责人,波形智能联合创始人万磊 ,30万用户,2024年2月份上线

蛙蛙写作是一款用AI写小说、剧本等长文本的产品,上线八个月,用户大概有30万了。

我越来越清晰地看到这款产品随着用户增长,想在后期精准上量,还得靠广告投放。群体本身不愿意裂变分享,是个很有趣的现象。

目前,在投放这一环,因为我们的产品是web端的,所以主要投的是百度搜索流量,关键词是“AI写作”“AI写小说”。目前截止 9 月的ROI(投资回报率)基本上达到了1,意思是假设我们投了20万元的广告,那么吸引来的用户能够为我们带来20万元的收入,刚刚打平。

在此之前,初期冷启动的用户,我们主要靠社交裂变营销。对应到产品上,我们做了非常完善的私域引流机制。例如,进入网站后,针对不同人群,会有用户注册、营销弹窗、进群有礼、裂变奖励、分销邀请的引导,我们现在有快 100个群,有两个运营同事专门负责“陪聊”。

拉新手法上,我们也会在写作类社群里发广告、运营社交媒体账号,通过孵化KOL、发放新用户权益激励等让用户主动在核心媒体分享我们的产品。

早期冷启通过社媒和高赞评论引流,配合上裂变活动产生小红书的种草贴,这算是一套成熟的打法。按理来说,用户越多,网络效应越强,特别是小说作者这个群体,一个作者起码认识十个同行。但实际上,作者群体随着用户增多,裂变的效果反而变差了。

发现这个情况之后,我就开始找用户访谈,结果他们告诉我“我们用它投稿赚利润,当然不想给同行分享。”

因为我们做了邀请新用户有礼的功能,还有邀请好友充值、自己可以获得相应额度的功能,结果有用户拿亲朋好友的手机号注册薅羊毛,还有用户开两个账号,自己给自己充值,有人一口气充到 2030 年。

这个回答确实让我醍醐灌顶。

我之前做了很多产品,从腾讯内部孵化的,再到创业做过的AI项目,其中适合裂变的都是娱乐性、自我成就类的产品,像学习产品,用户分享出去后能获得额外的免费试用时间,他们很愿意分享,因为这同时也是一种正能量的自我展示。一些多模态的照片或换脸视频生成工具也是一样道理。

但对于小说作者来说,写作是谋生的工具,他们不愿意公开自己的赚钱手段,…

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

重磅!美国取消SB-1047法案,OpenAI、谷歌、Meta大难不死!

美国加州州长Gavin Newsom在今天凌晨正式否决——SB-1047法案!值得一提的是,过去30天Gavin一共签署了17个关于监管大模型、生成式AI安全使用的法案,唯独否决了1047,看来他也不是一个糊涂人。在这个积极否决的过程中,AI界泰斗-吴恩达、图灵奖获得者-Yann LeCun、斯坦福教授-李飞飞等发挥了重要作用。


尤其是吴恩达,曾多次在公开场合呼吁科技人士抵制该法案功劳非常大。对于全球开发者来说今天也是个重要的日子,可以继续使用Meta、谷歌等美国科技大厂开源的大模型啦。

SB-1047法案简单介绍

「AIGC开放社区」一共写了6次关于SB-1047法案的内容,算是国内最关注该事件的媒体之一。再简单介绍一下该法案,以及为什么会对开源大模型、生成式AI发展带来很多阻力。

SB-1047是美国加州在今年2月7日拟定的,全名叫《SB-1047 前沿AI大模型安全创新法案》,主要用于增强大模型安全、透明性、使用规范的条例。但其中有非常多的不合理内容,例如,规定开发、训练成本超过1亿美元的大模型,比如Meta开源的Llama-3系列;谷歌的Gemma系列,一旦开源有人使用它做一些非法的事情,那么源开发商也会受到非常严重的处罚。

在监管方面,当大公司开放其模型给别的国家用户使用时,需要提交客户的所有资料,包括客户的身份、信用卡号、账号、客户标识符、交易标识符、电子邮件、电话号码。同时,每年都要提交一次资料,并对用户的行为、意图进行评估。用户的所有资料会被备份7年,也会在海关、边境总署备案。类似不合理的条款还有很多,起草该法案的人员就是想彻底扼杀开源大模型以及大模型出口。所以,像OpenAI、Meta、谷歌这些科技巨头会成为SB-1047的最大受害者。此外,美国加州这个地区在科技领域非常特殊,是谷歌、Meta、OpenAI、苹果、英特尔、特斯拉总部的所在地,也有斯坦福、加州大学伯克利、加州理工、南加州大学等全球顶尖的计算机名校,算是全球科技创新中心之一。一旦这个法案执行起来,不仅是大公司受到重创,就连一些初创的小企业也几乎要完蛋了。当时这个法案一出来之后,很多人都表示,一些科技企业将会搬走。

否决SB-1047法案理由

根据美国加州官网公布的否决消息显示,Gavin州长表示,全球50家顶级AI企业,有32家在加州,它们对AI大模型的发展、创新至关重要。SB-1047的初衷是出于好意,但它在实施上存在一些严重问题。SB-1047只关注最贵、大规模的AI模型,建立了一个监管框架,可能会给公众一种控制这项快速发展技术的虚假安全感。较小的、专业化的模型可能同样甚至比SB-1047针对的大模型更危险,会阻碍AI技术创新。

此外,SB-1047法案缺乏灵活性,没有为不同类型的AI应用提供足够的灵活性,这可能会导致在实施过程中的混淆和不确定性。Gavin指出,该法案没有考虑到AI模型是否部署在高风险环境中,而这是非常重要的,因为在低风险环境中可能不需要同样严格的监管措施。同时,法案没有明确哪些类型的决策是关键决策,也没有定义什么是敏感数据,这可能会导致在保护个人隐私和数据安全方面的不足。Gavin强调,像SB-1047种一刀切的方法会抑制在某些领域的创新和AI技术的发展,而且法案的规定可能难以实施,因为它们没有为不同类型的AI模型、应用提供明确的指导。保护公众免受AI技术真正威胁的最佳方法应该是更加细致和有针对性的,而不是一刀切的解决方案。下面是吴恩达、Yann LeCun、李飞飞等指责SB-1047法案的诸多不合理。也可以查看「AIGC开放社区」过去对该法案的多次解读。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta开源多模态模型——Llama 3.2

Meta开源了首个多模态大模型Llama-3.2,这是Llama-3系列的一次重大升级,一共有4个版本。

Llama 3.2 1B、3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持 128k标记的上下文长度,可在手机、平板电脑等设备中使用。


值得一提的是,这两款模型在发布时便对高通和联发科的硬件进行了适配,并针对 Arm 处理器进行了优化,广泛的兼容性将加速其在各种移动和物联网设备中的应用。

图片来源:由GPTNB生成

11B和90B视觉模型是 Llama首次发布的多模态大模型,能理解和推理图像,实现文档分析、图像字幕和视觉问答等任务。

Llama 3.2 90B版本擅长常识、长文本生成、多语言翻译、编码、数学和高级推理等,还引入了图像推理功能,可完成图像理解和视觉推理任务,能进行图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

Llama 3.2 11B版本适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。在文本摘要、情感分析、代码生成和执行指令方面表现出色,也增加了图像推理能力,其用例与 90B 版本类似,包括图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

根据测试数据显示,Llama 3.2模型在图像识别和视觉理解基准测试中与领先的闭源模型具有竞争力,例如,Claude 3 haiku等。

原文链接

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

重磅!美国取消SB-1047法案,OpenAI、谷歌、Meta大难不死!

美国加州州长Gavin Newsom在今天凌晨正式否决——SB-1047法案!值得一提的是,过去30天Gavin一共签署了17个关于监管大模型、生成式AI安全使用的法案,唯独否决了1047,看来他也不是一个糊涂人。在这个积极否决的过程中,AI界泰斗-吴恩达、图灵奖获得者-Yann LeCun、斯坦福教授-李飞飞等发挥了重要作用。


尤其是吴恩达,曾多次在公开场合呼吁科技人士抵制该法案功劳非常大。对于全球开发者来说今天也是个重要的日子,可以继续使用Meta、谷歌等美国科技大厂开源的大模型啦。

SB-1047法案简单介绍

「AIGC开放社区」一共写了6次关于SB-1047法案的内容,算是国内最关注该事件的媒体之一。再简单介绍一下该法案,以及为什么会对开源大模型、生成式AI发展带来很多阻力。

SB-1047是美国加州在今年2月7日拟定的,全名叫《SB-1047 前沿AI大模型安全创新法案》,主要用于增强大模型安全、透明性、使用规范的条例。但其中有非常多的不合理内容,例如,规定开发、训练成本超过1亿美元的大模型,比如Meta开源的Llama-3系列;谷歌的Gemma系列,一旦开源有人使用它做一些非法的事情,那么源开发商也会受到非常严重的处罚。

在监管方面,当大公司开放其模型给别的国家用户使用时,需要提交客户的所有资料,包括客户的身份、信用卡号、账号、客户标识符、交易标识符、电子邮件、电话号码。同时,每年都要提交一次资料,并对用户的行为、意图进行评估。用户的所有资料会被备份7年,也会在海关、边境总署备案。类似不合理的条款还有很多,起草该法案的人员就是想彻底扼杀开源大模型以及大模型出口。所以,像OpenAI、Meta、谷歌这些科技巨头会成为SB-1047的最大受害者。此外,美国加州这个地区在科技领域非常特殊,是谷歌、Meta、OpenAI、苹果、英特尔、特斯拉总部的所在地,也有斯坦福、加州大学伯克利、加州理工、南加州大学等全球顶尖的计算机名校,算是全球科技创新中心之一。一旦这个法案执行起来,不仅是大公司受到重创,就连一些初创的小企业也几乎要完蛋了。当时这个法案一出来之后,很多人都表示,一些科技企业将会搬走。

否决SB-1047法案理由

根据美国加州官网公布的否决消息显示,Gavin州长表示,全球50家顶级AI企业,有32家在加州,它们对AI大模型的发展、创新至关重要。SB-1047的初衷是出于好意,但它在实施上存在一些严重问题。

SB-1047只关注最贵、大规模的AI模型,建立了一个监管框架,可能会给公众一种控制这项快速发展技术的虚假安全感。较小的、专业化的模型可能同样甚至比SB-1047针对的大模型更危险,会阻碍AI技术创新。

此外,SB-1047法案缺乏灵活性,没有为不同类型的AI应用提供足够的灵活性,这可能会导致在实施过程中的混淆和不确定性。Gavin指出,该法案没有考虑到AI模型是否部署在高风险环境中,而这是非常重要的,因为在低风险环境中可能不需要同样严格的监管措施。同时,法案没有明确哪些类型的决策是关键决策,也没有定义什么是敏感数据,这可能会导致在保护个人隐私和数据安全方面的不足。 Gavin强调,像SB-1047种一刀切的方法会抑制在某些领域的创新和AI技术的发展,而且法案的规定可能难以实施,因为它们没有为不同类型的AI模型、应用提供明确的指导。保护公众免受AI技术真正威胁的最佳方法应该是更加细致和有针对性的,而不是一刀切的解决方案。下面是吴恩达、Yann LeCun、李飞飞等指责SB-1047法案的诸多不合理。也可以查看「AIGC开放社区」过去对该法案的多次解读。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

苹果放弃投资 OpenAI,硅谷最大融资悬了?

OpenAI最近的日子可谓冰火两重天,一方面,融资活动如火如荼;另一方面,技术高管们走得走,散的散,以至于其内部员工不免发出如上调侃。

不过,事情尚未尘埃落定之前,一切尚有变数。


早有传言称苹果将参与OpenAI的融资轮时,这并不出人意料,毕竟当苹果宣布将ChatGPT服务整合进Siri时,双方合作似乎也是水到渠成。

而《华尔街日报》最新的报道指出,苹果原本可能参与OpenAI下周即将完成的高达65亿美元的融资轮,但却在最后关头决定退出。

作为全球最负盛名的AI独角兽,备受追捧的OpenAI然不缺投资者。

报道称,在苹果选择「放手」后,微软、英伟达等巨头仍在谈判桌上。其中已投130亿美元的微软预计还将追加约10亿美元。

风险投资公司Thrive Capital也将领投本轮,投入约10亿美元。投资公司Tiger Global Management和阿拉伯联合酋长国支持的公司MGX也都在积极商谈参与事宜。

尽管本轮融资尚未最终敲定,参与者和投资金额仍有变动的可能,但可预见的是,OpenAI正坚定地从非营利组织转型为营利性公司。

因为报道还提到,若是OpenAI两年内没完成公司结构的重组,本轮投资者将有权要求退回他们的「真金白银」。

然而,在OpenAI转型为真正的商业公司之前,不可避免地会经历一段漫长的阵痛期。

据《华尔街日报》报道,许多现任员工和前员工认为,OpenAI在发布产品公告和进行安全测试方面过于急躁,且已失去对竞争对手的领先优势。

更直白地说,在Altman的掌舵下,OpenAI正逐步变得更像一家普通公司。

员工们普遍不满的一点是,肩负掌舵人身份的Altman大多时候不参与公司的日常事务,而是忙于全球推广AI,筹集资金以建设AI所需的芯片和数据中心。

首先,这无疑是好事,因为开发和运营AI模型本质上是一门烧钱的游戏。AI走出实验室,进入现实世界改变人们的生活,依然需要金钱的「燃料」。

根据《纽约时报》查阅的财务文件,OpenAI 8月份的月收入达到3亿美元,自2023年初以来增长了1700%。

该公司预计今年的年销售额约为37亿美元,并且估计明年收入将激增至116亿美元。

但据一位同样审查了这些文件的金融专业人士分析,在支付了运营服务相关成本、员工工资和办公室租金等其他费用后,OpenAI预计今年将亏损约50亿美元。

并且,这些数字还不包括基于股权的员工薪酬和文件中未完全解释的几项高额费用。截至发稿前,OpenAI拒绝对这些文件发表评论。

其次,一些在OpenAI工作多年的研究人员却认为,大量资金的注入和巨额利润的前景正在侵蚀OpenAI的文化。

还记得超级对齐团队负责人Jan Leike曾在X上发文:

我与OpenAI领导层在公司核心优先事项上的分歧已久,最终达到了一个临界点……近年来,安全文化和流程已经让位于更为吸引人的产品。

成立于2015年的OpenAI是一家非营利性的研究机构,其宗旨是「创建造福全人类的安全通用人工智能(AGI)」。但照目前来看,这艘大船正悄然偏离了航向。

置身事中的OpenAI高管离职潮或许是这一变化的最好表征。

简单来说,这大致可分为两个原因,一是高管心里受委屈了,二是钱没给够。

而此时,外媒WSJ又曝出一些新鲜的瓜料。据悉,在五月份Ilya和超级对齐团队负责人Jan Leike官宣离职之后,OpenAI高层担心这会引发更大规模的人才流失,因此积极寻求Ilya的回归。

OpenAI前CTO Mira和总裁Brockman携带着其他员工的贺卡和信件拜访Ilya,并对其晓之以情,动之以理,并表示如果没有Ilya,公司可能会陷入「崩溃」。

报道还指出,当时Altman也亲自上门拜访,并对其他人尚未找到解决Ilya离职问题的办法表示遗憾。

当时,Ilya向他的前同事表示,他正在认真考虑重返OpenAI。

然而,不久后,临时「变卦」的Brockman突然打电话通知Ilya,公司撤回了让他回归OpenAI的提议。

原因是,公司内部高管在确定Ilya新角色及其如何与其他研究人员共事(包括他的首席科学家继任者)方面「遇到了困难」。

后来的故事大家都知道了,Ilya很快宣布创立新公司SSI,并已成功筹集了10亿美元的资金。

再者,技术大咖离职潮的出现本质上还是绕不开「安全」二字。

在GPT-4o发布之前,OpenAI的高管们希望借此机会狙击Google年度开发者大会,以抢占更多的关注。而研究人员被要求在仅剩的9天内完成比原计划更为全面的安全测试。

加班加点、日夜通宵的安全团队每天工作20小时,几乎没有时间核查他们的工作。

基于不完整数据的初步结果显示,GPT-4o符合部署的安全标准。

但在模型发布后,《华尔街日报》援引知情人士消息称,后续分析显示该模型的劝说能力超出了OpenAI内部标准,即创建能够说服人们改变信念并参与潜在危险或非法行为的内容的能力。

急于推出GPT-4o是一个普遍现象。作为时任CTO(首席技术官),Mira曾多次推迟搜索和语音交互等产品的计划发布,因为她认为这些产品尚未准备就绪。

其他高级员工也越来越不满。联合创始人兼顶级科学家John Schulman告诉同事,他对OpenAI内部冲突感到沮丧,对未能挽回Ilya感到失望,并担心公司正在逐渐地忘记「初心」。

于是乎,今年8月,他离开了OpenAI,转投了注重安全的老对手Anthropic。

昨日,外媒The Information报道提到,Brockman和Murati在公司的AI发展计划上也时常存在分歧。

尽管Brockman作为公司总裁,通常应该负责公司的整体战略规划和决策,但他同时也会参与到具体的项目中,比如将早期的AI研究成果转化为实际应用的产品原型。

这种既是决策者,又是执行者的角色重叠,很轻易就让其与Murati及其技术团队的观点和计划产生分歧。

《华尔街日报》报道称,Brockman喜欢插手任何感兴趣的项目,这常常让相关人员感到不满,比如Brockman经常在最后一刻要求对已规划好的项目进行修改,这迫使包括Murati在内的其他高管出面调和。

多年来,员工一直敦促Altman约束Brockman,称他的行为让员工「士气低落」。这些担忧一直持续到今年,最终Altman和Brockman同意他应暂时休假。

上个月,Brockman在X平台上写道:「我将休假到年底。这也是自九年前共同创立OpenAI以来的第一次放松。」

报道还指出,OpenAI高层已经人手不足。就在Murati辞职的同一天,首席研究官和副总裁也相继离职。

Altman现在需要加强他的管理团队,设法完成对公司至关重要的数十亿美元融资,并尽快推动将非营利组织转型为营利性公司的复杂进程。

也许再过不久,我们将会看到,目前正在「休长假」的Brockman宣布回归OpenAI。如果没有这些曝光的内幕,估计谁也不会想到,Brockman会成为 OpenAI高管离职潮的又一赢家。

而这场OpenAI连续剧显然还将持续下去,吃瓜群众能做的也只有静待反转、反转和反转。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI 应用创业者自述:我们是怎么从大厂夹缝里抢流量的

做了那么多AI应用,谁来用?第一波用户从哪来?如何持续不断地获得用户反馈?

在各种AI应用层出不穷的今天,开发者和创业公司也在愁这事。

毕竟,像Kimi、豆包这类可以铺天盖地打投流战的产品,只是有钱的少数。


而没钱的大多数呢?不出自财大气粗的大厂,没有巨头的流量生态“喂养”,甚至在寻求融资的过程中被反复质疑,只能硬着头皮自己找出路。

这其中,甚至不少产品早在开发之初,就已经尝试尽可能地避开巨头的射程范围,专注于自己的小赛道了。但当他们真正进入现实世界,为自己的产品寻找最初的流量时,却发现,他们再一次掉入了互联网巨头们制定游戏规则的流量世界里。

在线上流量格局固化的背景下,付费流量占大头,免费流量又少又难拿。于是,有人被动寄希望于APP Store的编辑推荐,有人选择在垂直的小圈子里“捞人”,有人发动身边一切人脉做内容种草…..

创业者正在想尽办法,在这个旧世界里为自己的新产品寻找用户,省下每一块钱,抢来每一滴流量。

以下是他们的“流量拓荒”故事。

起于SEO搜索,长于KOL种草,大于生态裂变

歌歌AI写歌 COO 王枢沛,10万月活,2023年3月上线

流量只有免费和付费两种,对于AI创业团队来说,最关键的是能不能拿到免费流量。

从我们的产品歌歌AI来说,我们是一款文生音乐产品,可以根据用户的提示词,用AI来作词、编曲、发行,用户可以获取版权和发行收益。从2023年3月正式上线,到现在运营了一年半的时间,用户量从零到了几十万的水平。

当然这在互联网产品里不算什么,但在AIGC创业公司里,特别是音乐垂类,…

点击阅读全文

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

ECCV2024奖项公布,哥大摘最佳论文,微软COCO数据集获经典论文奖

近日,位列计算机视觉领域三大国际顶级会议的 ECCV 2024 在意大利米兰开幕,本届会议的各奖项已经揭晓。

据大会官方统计,今年共有 2395 篇论文被录用,录用率为 18%,创下近年新低。


昨晚,大会公布了一系列奖项,哥伦比亚大学的研究者摘得最佳论文奖,还有 2 篇论文获得了最佳论文荣誉提名奖。与往届一样,大会还公布了经典论文 Koenderink 奖和 PAMI Everingham 奖。

最佳论文奖

本届最佳论文由来自哥伦比亚大学的两位学者摘得。

论文地址:
https://cave.cs.columbia.edu/Statics/publications/pdfs/Klotz_ECCV24.pdf

这篇论文由两位研究者共同完成,他们分别是 Shree Nayar 和 Jeremy Klotz。

Shree Nayar 是哥伦比亚大学计算机科学系的 T. C. Chang 教授。他领导着哥伦比亚视觉实验室(CAVE),该实验室致力于开发计算成像和计算机视觉系统。他的研究主要集中在三个领域:创造提供新形式视觉信息的新型相机,设计基于物理的视觉和图形学模型以及开发从图像中理解场景的算法。…

最佳论文荣誉提名奖

与此同时,ECCV 2024 也公布了最佳论文荣誉提名奖,共有 2 篇论文获奖。

论文 1:Rasterized Edge Gradients: Handling Discontinuities Differentially

论文地址:https://arxiv.org/abs/2405.02508
机构:Meta Reality Labs Research

论文 2:Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models

经典论文:Koenderink 奖

Everingham 奖


1
Content with image links here...


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI高管震荡内幕:CEO无视安全仓促上马4o,员工每天干20小时赶进度,追名逐利不再理想主义

动荡内幕终于曝光——
OpenAI CTO Mira Murati的离开,与GPT-4o、Her息息相关!
简单来说,就是今年春天OpenAI为了大抢谷歌开发者大会的风头,紧急推出GPT-4o。
时间真的是非、常、紧、张,以至于安全团队只能在极短的时间内(9天,拿不到更多时间了)完成安全测试评估


时间紧,任务重,即便007式工作,每天工作20小时,测试数据还是不足。
结果大家也看到了,4o发布后才爆出该模型存在安全问题。
总的来说,OpenAI好像有点变形了:压榨员工、轻视安全,在市场上大出风头比安全可靠更重要
之前奥特曼被开除时诟病的问题,特别是对安全的漠视,实实在在被证明了。比起AI技术的安全可靠,他更在乎竞争上的赢

很多员工和高管都超不满的。
当初4o发布第二天,沉寂许久的OpenAI灵魂人物Ilya就宣布了自己的离开。
现在,4o全量上线的第二天,Mira也走了。
还带着研究主管Bob McGrew和研究副总裁Barret Zoph一起跑路。
(真不知道是说这些元老们太顾念公司,还是说OpenAI真是营销天才。)
说来说去,他们告别OpenAI都围绕一个原因,那就是“公司对安全重视程度不足”。
OpenAI,真的不要安全了??!
试图抢救“安全性”的Mira
我们再来展开说说4o上线的火急火燎程度。
今年5月14日,OpenAI发布GPT-4o;5月15日,Google发布名为Project Astra的AI助手,同日OpenAI首席科学家Ilya官宣离职。
一切的发生,早“有预谋”。
据透露,挑在14日发布,完全因为OpenAI想抢Google的风头。
为此,OpenAI安全团队仅得到了9天的时间,来做安全检测。
就,时间真的不够啊!
9天时间里,安全团队成员们007式工作,每天不分白天黑夜,拼死拼活干20个小时,还是没做完安全测试。
即便如此,GPT-4o还是如期发布了。
然后就果然被发现GPT-4o有安全问题,它的“劝说”“诱导”性非常强,具备创建能够说服人们改变信念并参与潜在危险或非法行为的内容的能力。
很容易引导人误入歧途,干些不好的事,说些不对的话。
一些OpenAI内部员工也表示,仓促发布GPT-4o,让OpenAI失去了对领域内的领先优势。
但能咋办,发都发布出去了……
Mira试图力挽狂澜,只能把4o的全量上线往后一延再延,最终在本周三(9月25日)才全量发布。
隔天她就宣布辞职了。
她挥一挥衣袖,带走了另外两名高管。
其实,Mira也不是没有试图拯救过OpenAI的“不安全”。
一方面,OpenAI前任及在职员工分别透露过,作为CTO的Mira多次推迟了包括搜索和语音交互在内的产品的计划发布。
她认为它们还没有准备好。
另一方面,最近曝出5月Ilya辞职后,Mira和后来长期休假的总裁Greg Brockman都去Ilya家找过他。
他俩带着公司员工写的卡片,对Ilya晓之以理,动之以情:
我的老天奶,你可回来吧,Ilya!公司现在好混乱,没有你咱肯定得崩溃!
Ilya应该是动过心的,他对OpenAI的前同事表示,他真的在认真考虑要不要重回OpenAI。
但没过多久,Brockman就打电话过来说OpenAI撤回了让Ilya重返公司的邀请。
真·一整个大问号。
多八卦两句,Ilya和Mira之间,还有其他核心成员因不满OpenAI对安全的重视程度而离职。
比如John Schulman,也是OpenAI的联合创始人。
8月6日,他告别OpenAI,转投最强竞对Anthropic。
他在推特发文表示,他表示选择离职是为了更深入地从事AI对齐研究,即确保AI的发展与人类价值观相一致。

OpenAI转向:公司关键数据曝光
一切的一切,似乎都与OpenAI转向有关。
LeCun表示,将一家非盈利开放研究机构变成一家秘密的、以产品为中心的盈利性公司,势必会导致许多人退出。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Windows 竞技场:面向下一代AI Agent的测试集

Copilot 和 ChatGPT 这样的 AI 助手已经成为了百万用户的日常工具, 它们可以帮我们完成各种任务:写代码开发程序、 回答问题、 甚至研究创新食谱。那么,随着大语言模型的发展,未来的 AI 助手应该是什么样的呢?未来的 AI 模型的能力将不仅局限于逻辑推理,它还应该具备自主计划和行动的能力。


未来的 AI 助手 – AI Agent(Assistant)可以在 PC 上进行自主操作,进一步提高我们的生产力;它还能帮我们降低使用专业软件的门槛;最重要的是,它可以替我们完成复杂繁琐的任务,例如假期规划、文档编辑、填写报销申请等等。

在微软,我们正在为下一代 AI Computer Agent 的研发奠定基础。在此之前,我们必须找到一个可重复、稳定、高质量的测试集(Benchmark)。为此,我们开发并开源了 Windows 竞技场:Windows Agent Arena (WAA) —— 一个基于 windows 操作系统的 Agent 测试集。WAA 可以让研究人员更方便地开发、测试和比较不同 Agent 和模型的优劣。WAA 包含一系列基于 windows 常见的应用程序的任务,并以此来评估不同 AI Computer Agent 在现实操作系统上执行不同任务时的表现。

论文标题:Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

论文地址https://arxiv.org/abs/2409.08264

项目地址https://github.com/microsoft/WindowsAgentArena

什么是 AI Computer Agent?

AI Computer Agent 可以被译为 AI 计算机助理。我们通常认为 Agent 是能感知其环境、并对其进行推理,甚至采取行动的系统。而 Computer Agent 则意味着能理解当前的屏幕上的内容,然后自主点击、输入和操作可以帮助用户完成任务的应用程序。一个 AI Computer Agent 需要能支持多模态输入,并且能使用大语言模型和视觉模型来理解屏幕上的内容并与其进行互动。

Windows Agent Arena 测试集 (WAA)

Windows Agent Arena 概览

目前许多公司和科研人员都在探索能够代替人类完成任务的 AI Agent。例如,微软最近发布的 UFO 模型是一个能够控制 Windows UI 的代理。另外,目前业界也已经存在一些针对 Agent 的 Benchmark,比如基于网络任务 Visual Web Arena、移动设备 Android World 和计算机 OS World 的 Benchmark。

WAA 任务分类

我们提出的 WAA 将进一步扩展 OS World 提出的 Benchmark。由于 OS World 主要包含 Linux 系统的任务,而缺乏 windows 平台上的任务,我们针对 Windows 平台上的任务进行了扩展。我们一共设置了 154 个用户在 Windows 上日常会涉及到的任务,包括浏览器、文档管理器、视频播放、编写代码和常用的应用程序(记事本、画图、文件浏览器、时钟和设置)等。

在 azure 云上部署 WAA

WAA 的另一个特点是支持云上并行测试。这样,测试数百个任务无需花费大量时间在本地串行,而是可以使用 Azure 云来并行部署数百个实验,从而将测试时间从几天缩短至几分钟。

使用 Windows Agent Arena 非常简单:你只需 clone 我们的代码,在本地简单测试,然后直接部署到云上。

目前的 Agent 能做什么?

基于不同模型的 Agent 在 WAA 上表现

我们的技术报告对比了基于不同大模型的 Computer Agent 的能力。除了大模型之外,我们使用了小型的视觉模型,例如微软开发的 Omniparser 模型, OCR 等等来解析屏幕截图、 识别图标和图像区域。然后,我们将预处理的信息发送到 GPT-4V(或者 GPT-4O, Phi-3V),从而得到下一步在计算机上需要执行的命令。在我们测试的模型中,最好的 Agent 解决了 19.5% 的任务(任务部分完成没有得分);而一个人在没有外部帮助的情况下得分为 74.5%。我们发现各个任务类别之间的差异很大:大约三分之一的浏览器、设置和视频任务能被成功完成,而大部分 Office 任务都以失败告终。现阶段,Agents 仍然会有很多缺陷,例如我们也发现了由于在执行低级动作或推理时出错导致的情况。

成功案例

失败案例

当我们设计和改进在计算机上执行复杂任务的 AI Agent 时,符合伦理规范和负责任的 AI 使用至关重要。从一开始,我们的团队就意识到这些技术可能带来的潜在风险和挑战。

隐私和安全是最重要的关注点。当研究开发和测试这些模型时,我们必须确保 AI Agent 不参与任何形式的未经授权的访问或个人信息的信息泄露,从而最大限度地减少潜在的安全风险。我们相信,用户应该能够轻松地理解、指导和在必要时覆盖 AI 的行动。

当我们继续在这个充满机会与挑战的领域开发和探索,我们会始终致力于构建尊重用户隐私、促进公平并对社会产生积极影响的 AI 技术。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB