Radin Health发布全新全能人工智能驱动的SaaS解决方案套件

Radin Health,一家领先的前瞻性医疗科技公司,宣布推出其全新全能人工智能驱动的SaaS解决方案,旨在彻底改变影像中心和遥诊放射学实践。图片{ width=60% }


Radin是一种基于云的RIS、PACS、文书AI和工作流管理平台,利用尖端人工智能、机器学习和自然语言处理工具提高工作效率。

放射科医生和影像中心面临着越来越大的工作量、不断上升的劳动成本和不断减少的报酬压力。Radin Health提供了一种全面的全能解决方案,赋予实践竞争力,通过简化操作、降低成本和提高效率,使员工和放射科医生有更多时间专注于提高患者体验和结果。

“我们的使命是革新放射学,提供能够简化工作流程、降低劳动成本、增加收入和盈利能力的工具。”Radin Health的首席执行官、放射科医生Alejandro Bugnone博士表示。“作为一名经验丰富的放射科医生,我也是一家忙碌的遥诊放射学实践的所有者,对放射学充满激情,我意识到我们领域未来需要得到支持的明显需求。”

全新全能SaaS解决方案的关键功能:

  • RADIN RIS:自动化患者参与、排班、保险验证、预授权、报告和计费。AI/OCR技术减少手动任务,提高生产率。
  • RADIN PACS:使用直观界面高效存储和检索图像,利用AI/OCR提取方法提高准确性和报告交付速度。
  • RADIN DICTATION® AI:具有无与伦比的准确性和速度的语音识别,允许放射科医生制作高质量报告,同时将口授时间减少50%以上,降低倦怠感。
  • RADIN SELECT®:针对多名放射科医生和复杂分配规则的高产量实践的自动化工作流编排器。

对放射学实践的改变者:
Radin Health的全新全能人工智能驱动的SaaS解决方案提供了显著的好处:

  • 消除了对本地服务器和维护的需求
  • 直通处理降低劳动成本
  • 易于扩展未来增长
  • 完全可定制
  • 提高患者体验和结果

“今天市场清楚需要一个可以提供单一、具有成本效益的放射学软件解决方案的合作伙伴。”Radin Health的首席商务官Marc Shapiro表示。“我们的产品不仅降低了运营成本,而且在前端增加了收入,并提高了员工生产率。”



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI 应用创业者自述:我们是怎么从大厂夹缝里抢流量的

做了那么多AI应用,谁来用?第一波用户从哪来?如何持续不断地获得用户反馈?

在各种AI应用层出不穷的今天,开发者和创业公司也在愁这事。

毕竟,像Kimi、豆包这类可以铺天盖地打投流战的产品,只是有钱的少数。


而没钱的大多数呢?不出自财大气粗的大厂,没有巨头的流量生态“喂养”,甚至在寻求融资的过程中被反复质疑,只能硬着头皮自己找出路。

这其中,甚至不少产品早在开发之初,就已经尝试尽可能地避开巨头的射程范围,专注于自己的小赛道了。但当他们真正进入现实世界,为自己的产品寻找最初的流量时,却发现,他们再一次掉入了互联网巨头们制定游戏规则的流量世界里。

在线上流量格局固化的背景下,付费流量占大头,免费流量又少又难拿。于是,有人被动寄希望于APP Store的编辑推荐,有人选择在垂直的小圈子里“捞人”,有人发动身边一切人脉做内容种草…..

创业者正在想尽办法,在这个旧世界里为自己的新产品寻找用户,省下每一块钱,抢来每一滴流量。

以下是他们的“流量拓荒”故事。

起于SEO搜索,长于KOL种草,大于生态裂变

歌歌AI写歌 COO 王枢沛,10万月活,2023年3月上线
流量只有免费和付费两种,对于AI创业团队来说,最关键的是能不能拿到免费流量。
从我们的产品歌歌AI来说,我们是一款文生音乐产品,可以根据用户的提示词,用AI来作词、编曲、发行,用户可以获取版权和发行收益。从2023年3月正式上线,到现在运营了一年半的时间,用户量从零到了几十万的水平。
当然这在互联网产品里不算什么,但在AIGC创业公司里,特别是音乐垂类,算不错了。我比较骄傲的点在于我们没有烧钱大规模投放,沉淀下来的用户是精准的、有付费意愿的,目前已经做到了盈收打平。
尽可能地少花钱、做免费流量,贯穿了我们整个拉新阶段:第一阶段是SEO,第二个阶段是KOL种草,第三个阶段是做产品层面的营销活动,比如全球写歌大赛,分别对应着冷启动、产品完善后市场推广、用户社群网络效应增长。
免费流量里最精准就是搜索流量。最早我们的产品形态还只是一个非常轻量级的小程序,当时国内几乎就我们一家,甚至爆火的SUNO都还没有成立,没有所谓的竞对,那我们只要做简单地搜索引擎优化,相关的所有的流量就来我们这里。
而做SEO,从产品命名就开始了。我们的名字叫“歌歌AI写歌”,用户可以通过“写歌”、“AI写歌”。不过,最开始来的用户跟AI没什么关系,主要是一些喜欢唱歌、喜欢音乐的普通人,流量都来自于“写歌”。
搜索流量依赖用户主动搜,即使科技圈里ChatGPT把AI的概念带爆了,但在大众层面,想写歌的群体也远大于关注AI的群体。这个结果,是我们在设计产品的时候就有预期到的,来自于之前踩过的坑。
我开始在网易天音团队做的也是AI音乐创作产品,当时做增长很费劲,因为天音主打的是编曲。“编曲”这个词就很专业,受众和流量都更窄;后来我又做了一款出海音乐创作者应用,也是偏专业性质的,同样遇到了增长困难。
这两次经历,让我发现音乐制作人群体很小,好处是不太会有竞争,坏处是天花板特别低,很容易做到头。所以我们这次创业,就准备做大众的市场,做“全民写歌”,相比“编曲”、“AI”,“写歌”才是符合普通人的场景。
确定了人群和调性之后,我们依然做了很多尝试,看数据反馈调整更细节的产品卖点。最开始,我们宣传的是“免费生成歌曲”,但后来发现高估了免费的作用,免费只是一个附加项,没价值的产品再免费也没人关心。后来,我们又试了“写首歌送给朋友”,主打社交链接,反馈也一般。直到大半年的时间后,确定下了目前的“克隆你的声音”,帮用户生成一首自己的声音的作品,这个形态的转化,是留存数据最好的。

到这一步,我们内部才一致认为产品ready了,大概是去年11月的时候,就准备推向市场了,然后开始找KOL合作推广。
因为我们是一个内容创作型的产品,也会优先在内容平台上进行传播,比如抖音、B站、小红书。我们目标用户是音乐爱好者,他们往往会在社交平台上专注一…


[…, 文中内容省略, 详见原文链接:点击查看全文, 图片请参考原文…]


结尾

歌歌AI和蛙蛙写作,分别属于AIGC娱乐和AIGC效率两类创业产品,他们同样从SEO起步,而后一个走向了公域投放,一个走向了私域裂变,在度过了早期的增长之后,都在进一步扩大规模的路上,遇到了流量投放的大山。
甚至不止是已经走了很远的他们,更多的创业开发者们也遇到了类似的流量增长问题。
原本在冷启动环节,开发者们都颇为佛系,且因此有了很多出乎意料的的出圈方式。有的产品靠产品打市场,受到APP Store的编辑推荐,从而斩获第一批用户,慢慢地开始自给自足;有的借助小红书、QQ群的用户自发酵,例如心光日记被小红书用户热情推荐后获得了相当份额的增长;还有产品尝试靠“1+N”模式引流,通过搭建针对目标用户的“一波流”互动小游戏,再把流量引到自身的核心产品之上。但这都对应的是早期增长,一旦迈过了那个门槛,想要扩张用户群体,仍然会面临高额的流量费用。

“我有时候会想,像微信产品的增长里,像如何让大家知道红包功能,如何习惯小程序的存在,都有很天才的增长方案。那AI应用的增长功能是什么呢?”万磊说到。

但这个问题,暂时还没有答案。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI 应用创业者自述:我们是怎么从大厂夹缝里抢流量的

做了那么多AI应用,谁来用?第一波用户从哪来?如何持续不断地获得用户反馈?

在各种AI应用层出不穷的今天,开发者和创业公司也在愁这事。

毕竟,像Kimi、豆包这类可以铺天盖地打投流战的产品,只是有钱的少数。


而没钱的大多数呢?不出自财大气粗的大厂,没有巨头的流量生态“喂养”,甚至在寻求融资的过程中被反复质疑,只能硬着头皮自己找出路。

这其中,甚至不少产品早在开发之初,就已经尝试尽可能地避开巨头的射程范围,专注于自己的小赛道了。但当他们真正进入现实世界,为自己的产品寻找最初的流量时,却发现,他们再一次掉入了互联网巨头们制定游戏规则的流量世界里。

在线上流量格局固化的背景下,付费流量占大头,免费流量又少又难拿。于是,有人被动寄希望于APP Store的编辑推荐,有人选择在垂直的小圈子里“捞人”,有人发动身边一切人脉做内容种草…..

创业者正在想尽办法,在这个旧世界里为自己的新产品寻找用户,省下每一块钱,抢来每一滴流量。

以下是他们的“流量拓荒”故事。

起于SEO搜索,长于KOL种草,大于生态裂变

歌歌AI写歌 COO 王枢沛,10万月活,2023年3月上线

流量只有免费和付费两种,对于AI创业团队来说,最关键的是能不能拿到免费流量。

从我们的产品歌歌AI来说,我们是一款文生音乐产品,可以根据用户的提示词,用AI来作词、编曲、发行,用户可以获取版权和发行收益。从2023年3月正式上线,到现在运营了一年半的时间,用户量从零到了几十万的水平。

当然这在互联网产品里不算什么,但在AIGC创业公司里,特别是音乐垂类,算不错了。我比较骄傲的点在于我们没有烧钱大规模投放,沉淀下来的用户是精准的、有付费意愿的,目前已经做到了盈收打平。

尽可能地少花钱、做免费流量,贯穿了我们…



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

重磅!美国取消SB-1047法案,OpenAI、谷歌、Meta大难不死!

美国加州州长Gavin Newsom在今天凌晨正式否决——SB-1047法案!值得一提的是,过去30天Gavin一共签署了17个关于监管大模型、生成式AI安全使用的法案,唯独否决了1047,看来他也不是一个糊涂人。在这个积极否决的过程中,AI界泰斗-吴恩达、图灵奖获得者-Yann LeCun、斯坦福教授-李飞飞等发挥了重要作用。


尤其是吴恩达,曾多次在公开场合呼吁科技人士抵制该法案功劳非常大。对于全球开发者来说今天也是个重要的日子,可以继续使用Meta、谷歌等美国科技大厂开源的大模型啦。

SB-1047法案简单介绍

「AIGC开放社区」一共写了6次关于SB-1047法案的内容,算是国内最关注该事件的媒体之一。再简单介绍一下该法案,以及为什么会对开源大模型、生成式AI发展带来很多阻力。SB-1047是美国加州在今年2月7日拟定的,全名叫《SB-1047 前沿AI大模型安全创新法案》,主要用于增强大模型安全、透明性、使用规范的条例。但其中有非常多的不合理内容,例如,规定开发、训练成本超过1亿美元的大模型,比如Meta开源的Llama-3系列;谷歌的Gemma系列,一旦开源有人使用它做一些非法的事情,那么源开发商也会受到非常严重的处罚。

在监管方面,当大公司开放其模型给别的国家用户使用时,需要提交客户的所有资料,包括客户的身份、信用卡号、账号、客户标识符、交易标识符、电子邮件、电话号码。同时,每年都要提交一次资料,并对用户的行为、意图进行评估。用户的所有资料会被备份7年,也会在海关、边境总署备案。类似不合理的条款还有很多,起草该法案的人员就是想彻底扼杀开源大模型以及大模型出口。所以,像OpenAI、Meta、谷歌这些科技巨头会成为SB-1047的最大受害者。此外,美国加州这个地区在科技领域非常特殊,是谷歌、Meta、OpenAI、苹果、英特尔、特斯拉总部的所在地,也有斯坦福、加州大学伯克利、加州理工、南加州大学等全球顶尖的计算机名校,算是全球科技创新中心之一。

一旦这个法案执行起来,不仅是大公司受到重创,就连一些初创的小企业也几乎要完蛋了。当时这个法案一出来之后,很多人都表示,一些科技企业将会搬走。

否决SB-1047法案理由

根据美国加州官网公布的否决消息显示,Gavin州长表示,全球50家顶级AI企业,有32家在加州,它们对AI大模型的发展、创新至关重要。SB-1047的初衷是出于好意,但它在实施上存在一些严重问题。SB-1047只关注最贵、大规模的AI模型,建立了一个监管框架,可能会给公众一种控制这项快速发展技术的虚假安全感。较小的、专业化的模型可能同样甚至比SB-1047针对的大模型更危险,会阻碍AI技术创新。

此外,SB-1047法案缺乏灵活性,没有为不同类型的AI应用提供足够的灵活性,这可能会导致在实施过程中的混淆和不确定性。Gavin指出,该法案没有考虑到AI模型是否部署在高风险环境中,而这是非常重要的,因为在低风险环境中可能不需要同样严格的监管措施。同时,法案没有明确哪些类型的决策是关键决策,也没有定义什么是敏感数据,这可能会导致在保护个人隐私和数据安全方面的不足。Gavin强调,像SB-1047种一刀切的方法会抑制在某些领域的创新和AI技术的发展,而且法案的规定可能难以实施,因为它们没有为不同类型的AI模型、应用提供明确的指导。保护公众免受AI技术真正威胁的最佳方法应该是更加细致和有针对性的,而不是一刀切的解决方案。下面是吴恩达、Yann LeCun、李飞飞等指责SB-1047法案的诸多不合理。也可以查看「AIGC开放社区」过去对该法案的多次解读。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

苹果放弃投资 OpenAI,硅谷最大融资悬了?

文章来源:定焦One

image1

OpenAI最近的日子可谓冰火两重天,一方面,融资活动如火如荼;另一方面,技术高管们走得走,散的散,以至于其内部员工不免发出如上调侃。

不过,事情尚未尘埃落定之前,一切尚有变数。


早有传言称苹果将参与OpenAI的融资轮时,这并不出人意料,毕竟当苹果宣布将ChatGPT服务整合进Siri时,双方合作似乎也是水到渠成。

而《华尔街日报》最新的报道指出,苹果原本可能参与OpenAI下周即将完成的高达65亿美元的融资轮,但却在最后关头决定退出。

image2

作为全球最负盛名的AI独角兽,备受追捧的OpenAI然不缺投资者。

报道称,在苹果选择「放手」后,微软、英伟达等巨头仍在谈判桌上。其中已投130亿美元的微软预计还将追加约10亿美元。

风险投资公司Thrive Capital也将领投本轮,投入约10亿美元。投资公司Tiger Global Management和阿拉伯联合酋长国支持的公司MGX也都在积极商谈参与事宜。

尽管本轮融资尚未最终敲定,参与者和投资金额仍有变动的可能,但可预见的是,OpenAI正坚定地从非营利组织转型为营利性公司。

因为报道还提到,若是OpenAI两年内没完成公司结构的重组,本轮投资者将有权要求退回他们的「真金白银」。

image3

然而,在OpenAI转型为真正的商业公司之前,不可避免地会经历一段漫长的阵痛期。

据《华尔街日报》报道,许多现任员工和前员工认为,OpenAI在发布产品公告和进行安全测试方面过于急躁,且已失去对竞争对手的领先优势。

更直白地说,在Altman的掌舵下,OpenAI正逐步变得更像一家普通公司。

员工们普遍不满的一点是,肩负掌舵人身份的Altman大多时候不参与公司的日常事务,而是忙于全球推广AI,筹集资金以建设AI所需的芯片和数据中心。

首先,这无疑是好事,因为开发和运营AI模型本质上是一门烧钱的游戏。AI走出实验室,进入现实世界改变人们的生活,依然需要金钱的「燃料」。

根据《纽约时报》查阅的财务文件,OpenAI 8月份的月收入达到3亿美元,自2023年初以来增长了1700%。

该公司预计今年的年销售额约为37亿美元,并且估计明年收入将激增至116亿美元。

但据一位同样审查了这些文件的金融专业人士分析,在支付了运营服务相关成本、员工工资和办公室租金等其他费用后,OpenAI预计今年将亏损约50亿美元。

并且,这些数字还不包括基于股权的员工薪酬和文件中未完全解释的几项高额费用。截至发稿前,OpenAI拒绝对这些文件发表评论。

其次,一些在OpenAI工作多年的研究人员却认为,大量资金的注入和巨额利润的前景正在侵蚀OpenAI的文化。

还记得超级对齐团队负责人Jan Leike曾在X上发文:

我与OpenAI领导层在公司核心优先事项上的分歧已久,最终达到了一个临界点……近年来,安全文化和流程已经让位于更为吸引人的产品。

成立于2015年的OpenAI是一家非营利性的研究机构,其宗旨是「创建造福全人类的安全通用人工智能(AGI)」。但照目前来看,这艘大船正悄然偏离了航向。

置身事中的OpenAI高管离职潮或许是这一变化的最好表征。

简单来说,这大致可分为两个原因,一是高管心里受委屈了,二是钱没给够。

而此时,外媒WSJ又曝出一些新鲜的瓜料。据悉,在五月份Ilya和超级对齐团队负责人Jan Leike官宣离职之后,OpenAI高层担心这会引发更大规模的人才流失,因此积极寻求Ilya的回归。

OpenAI前CTO Mira和总裁Brockman携带着其他员工的贺卡和信件拜访Ilya,并对其晓之以情,动之以理,并表示如果没有Ilya,公司可能会陷入「崩溃」。

报道还指出,当时Altman也亲自上门拜访,并对其他人尚未找到解决Ilya离职问题的办法表示遗憾。

当时,Ilya向他的前同事表示,他正在认真考虑重返OpenAI。

然而,不久后,临时「变卦」的Brockman突然打电话通知Ilya,公司撤回了让他回归OpenAI的提议。

原因是,公司内部高管在确定Ilya新角色及其如何与其他研究人员共事(包括他的首席科学家继任者)方面「遇到了困难」。

后来的故事大家都知道了,Ilya很快宣布创立新公司SSI,并已成功筹集了10亿美元的资金。

技术大咖离职潮的出现本质上还是绕不开「安全」二字。

在GPT-4o发布之前,OpenAI的高管们希望借此机会狙击Google年度开发者大会,以抢占更多的关注。而研究人员被要求在仅剩的9天内完成比原计划更为全面的安全测试。

加班加点、日夜通宵的安全团队每天工作20小时,几乎没有时间核查他们的工作。

基于不完整数据的初步结果显示,GPT-4o符合部署的安全标准。

但在模型发布后,《华尔街日报》援引知情人士消息称,后续分析显示该模型的劝说能力超出了OpenAI内部标准,即创建能够说服人们改变信念并参与潜在危险或非法行为的内容的能力。

急于推出GPT-4o是一个普遍现象。作为时任CTO(首席技术官),Mira曾多次推迟搜索和语音交互等产品的计划发布,因为她认为这些产品尚未准备就绪。

其他高级员工也越来越不满。联合创始人兼顶级科学家John Schulman告诉同事,他对OpenAI内部冲突感到沮丧,对未能挽回Ilya感到失望,并担心公司正在逐渐地忘记「初心」。

于是乎,今年8月,他离开了OpenAI,转投了注重安全的老对手Anthropic。

昨日,外媒The Information报道提到,Brockman和Murati在公司的AI发展计划上也时常存在分歧。

尽管Brockman作为公司总裁,通常应该负责公司的整体战略规划和决策,但他同时也会参与到具体的项目中,比如将早期的AI研究成果转化为实际应用的产品原型。

这种既是决策者,又是执行者的角色重叠,很轻易就让其与Murati及其技术团队的观点和计划产生分歧。

《华尔街日报》报道称,Brockman喜欢插手任何感兴趣的项目,这常常让相关人员感到不满,比如Brockman经常在最后一刻要求对已规划好的项目进行修改,这迫使包括Murati在内的其他高管出面调和。

多年来,员工一直敦促Altman约束Brockman,称他的行为让员工「士气低落」。这些担忧一直持续到今年,最终Altman和Brockman同意他应暂时休假。

上个月,Brockman在X平台上写道:「我将休假到年底。这也是自九年前共同创立OpenAI以来的第一次放松。」

报道还指出,OpenAI高层已经人手不足。就在Murati辞职的同一天,首席研究官和副总裁也相继离职。

Altman现在需要加强他的管理团队,设法完成对公司至关重要的数十亿美元融资,并尽快推动将非营利组织转型为营利性公司的复杂进程。

也许再过不久,我们将会看到,目前正在「休长假」的Brockman宣布回归OpenAI。如果没有这些曝光的内幕,估计谁也不会想到,Brockman会成为 OpenAI高管离职潮的又一赢家。

而这场OpenAI连续剧显然还将持续下去,吃瓜群众能做的也只有静待反转、反转和反转。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta开源多模态模型——Llama 3.2

Meta开源了首个多模态大模型Llama-3.2,这是Llama-3系列的一次重大升级,一共有4个版本。

Llama 3.2 1B、3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持 128k标记的上下文长度,可在手机、平板电脑等设备中使用。


值得一提的是,这两款模型在发布时便对高通和联发科的硬件进行了适配,并针对 Arm 处理器进行了优化,广泛的兼容性将加速其在各种移动和物联网设备中的应用。

图片来源:由GPTNB生成

11B和90B视觉模型是 Llama首次发布的多模态大模型,能理解和推理图像,实现文档分析、图像字幕和视觉问答等任务。

Llama 3.2 90B版本擅长常识、长文本生成、多语言翻译、编码、数学和高级推理等,还引入了图像推理功能,可完成图像理解和视觉推理任务,能进行图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

Llama 3.2 11B版本适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。在文本摘要、情感分析、代码生成和执行指令方面表现出色,也增加了图像推理能力,其用例与 90B 版本类似,包括图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

根据测试数据显示,Llama 3.2模型在图像识别和视觉理解基准测试中与领先的闭源模型具有竞争力,例如,Claude 3 haiku等。


Sources:
- Original Article: https://www.aixinzhijie.com/article/6846888

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta开源多模态模型——Llama 3.2

Meta开源了首个多模态大模型Llama-3.2,这是Llama-3系列的一次重大升级,一共有4个版本。

Llama 3.2 1B、3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持 128k标记的上下文长度,可在手机、平板电脑等设备中使用。


值得一提的是,这两款模型在发布时便对高通和联发科的硬件进行了适配,并针对 Arm 处理器进行了优化,广泛的兼容性将加速其在各种移动和物联网设备中的应用。

图片来源:由GPTNB生成

11B和90B视觉模型是 Llama首次发布的多模态大模型,能理解和推理图像,实现文档分析、图像字幕和视觉问答等任务。

Llama 3.2 90B版本擅长常识、长文本生成、多语言翻译、编码、数学和高级推理等,还引入了图像推理功能,可完成图像理解和视觉推理任务,能进行图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

Llama 3.2 11B版本适合内容创建、对话式人工智能、语言理解和需要视觉推理的企业应用。在文本摘要、情感分析、代码生成和执行指令方面表现出色,也增加了图像推理能力,其用例与 90B 版本类似,包括图像标题生成、图像文本检索、视觉基础、视觉问题解答和视觉推理,以及文档视觉问题解答等。

根据测试数据显示,Llama 3.2模型在图像识别和视觉理解基准测试中与领先的闭源模型具有竞争力,例如,Claude 3 haiku等。


Source: https://www.aixinzhijie.com/article/6846888

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

重磅!美国取消SB-1047法案,OpenAI、谷歌、Meta大难不死!

美国加州州长Gavin Newsom在今天凌晨正式否决——SB-1047法案!值得一提的是,过去30天Gavin一共签署了17个关于监管大模型、生成式AI安全使用的法案,唯独否决了1047,看来他也不是一个糊涂人。在这个积极否决的过程中,AI界泰斗-吴恩达、图灵奖获得者-Yann LeCun、斯坦福教授-李飞飞等发挥了重要作用。


尤其是吴恩达,曾多次在公开场合呼吁科技人士抵制该法案功劳非常大。对于全球开发者来说今天也是个重要的日子,可以继续使用Meta、谷歌等美国科技大厂开源的大模型啦。

SB-1047法案简单介绍

「AIGC开放社区」一共写了6次关于SB-1047法案的内容,算是国内最关注该事件的媒体之一。再简单介绍一下该法案,以及为什么会对开源大模型、生成式AI发展带来很多阻力。SB-1047是美国加州在今年2月7日拟定的,全名叫《SB-1047 前沿AI大模型安全创新法案》,主要用于增强大模型安全、透明性、使用规范的条例。但其中有非常多的不合理内容,例如,规定开发、训练成本超过1亿美元的大模型,比如Meta开源的Llama-3系列;谷歌的Gemma系列,一旦开源有人使用它做一些非法的事情,那么源开发商也会受到非常严重的处罚。在监管方面,当大公司开放其模型给别的国家用户使用时,需要提交客户的所有资料,包括客户的身份、信用卡号、账号、客户标识符、交易标识符、电子邮件、电话号码。同时,每年都要提交一次资料,并对用户的行为、意图进行评估。用户的所有资料会被备份7年,也会在海关、边境总署备案。类似不合理的条款还有很多,起草该法案的人员就是想彻底扼杀开源大模型以及大模型出口。所以,像OpenAI、Meta、谷歌这些科技巨头会成为SB-1047的最大受害者。此外,美国加州这个地区在科技领域非常特殊,是谷歌、Meta、OpenAI、苹果、英特尔、特斯拉总部的所在地,也有斯坦福、加州大学伯克利、加州理工、南加州大学等全球顶尖的计算机名校,算是全球科技创新中心之一。一旦这个法案执行起来,不仅是大公司受到重创,就连一些初创的小企业也几乎要完蛋了。当时这个法案一出来之后,很多人都表示,一些科技企业将会搬走。

否决SB-1047法案理由

根据美国加州官网公布的否决消息显示,Gavin州长表示,全球50家顶级AI企业,有32家在加州,它们对AI大模型的发展、创新至关重要。SB-1047的初衷是出于好意,但它在实施上存在一些严重问题。SB-1047只关注最贵、大规模的AI模型,建立了一个监管框架,可能会给公众一种控制这项快速发展技术的虚假安全感。较小的、专业化的模型可能同样甚至比SB-1047针对的大模型更危险,会阻碍AI技术创新。此外,SB-1047法案缺乏灵活性,没有为不同类型的AI应用提供足够的灵活性,这可能会导致在实施过程中的混淆和不确定性。Gavin指出,该法案没有考虑到AI模型是否部署在高风险环境中,而这是非常重要的,因为在低风险环境中可能不需要同样严格的监管措施。同时,法案没有明确哪些类型的决策是关键决策,也没有定义什么是敏感数据,这可能会导致在保护个人隐私和数据安全方面的不足。Gavin强调,像SB-1047种一刀切的方法会抑制在某些领域的创新和AI技术的发展,而且法案的规定可能难以实施,因为它们没有为不同类型的AI模型、应用提供明确的指导。保护公众免受AI技术真正威胁的最佳方法应该是更加细致和有针对性的,而不是一刀切的解决方案。下面是吴恩达、Yann LeCun、李飞飞等指责SB-1047法案的诸多不合理。也可以查看「AIGC开放社区」过去对该法案的多次解读。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI高管震荡内幕:CEO无视安全仓促上马4o,员工每天干20小时赶进度,追名逐利不再理想主义

动荡内幕终于曝光——
OpenAI CTO Mira Murati的离开,与GPT-4o、Her息息相关!
简单来说,就是今年春天OpenAI为了大抢谷歌开发者大会的风头,紧急推出GPT-4o。
时间真的是非、常、紧、张,以至于安全团队只能在极短的时间内(9天,拿不到更多时间了)完成安全测试评估。


时间紧,任务重,即便007式工作,每天工作20小时,测试数据还是不足。
结果大家也看到了,4o发布后才爆出该模型存在安全问题。
总的来说,OpenAI好像有点变形了:压榨员工、轻视安全,在市场上大出风头比安全可靠更重要。
之前奥特曼被开除时诟病的问题,特别是对安全的漠视,实实在在被证明了。比起AI技术的安全可靠,他更在乎竞争上的赢。

```

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高

OpenAI 的 o1-preview 模型已经发布两周了,网上也有了很多零星的测评。不过,大部分测评都侧重于某一个方面,对于 o1-preview 的系统评估目前还比较匮乏。


在一篇长达 280 页的论文中,来自加拿大阿尔伯塔大学等机构的研究者报告了他们对 o1-preview 的系统评估结果,非常具有参考价值。

具体来说,这项综合研究评估了 o1-preview 在各种复杂推理任务中的性能,涵盖多个领域,包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试,o1-preview 展示了非凡的能力。

主要结论如下:

  • 编程挑战:在解决复杂的竞赛性编程问题上,o1-preview 的成功率达到了 83.3%,超过了众多的人类专家。

  • 放射学报告生成:在生成连贯且准确的放射学报告方面,o1-preview 的表现优于其他评估过的模型。

  • 高中数学推理:在高中水平的数学推理任务中,o1-preview 达到了 100% 的准确性,并提供了详细的解题步骤。

  • 自然语言推理:无论是在通用领域还是医疗等专业领域,o1-preview 都展现出了高级的自然语言推理能力。

  • 芯片设计任务:在 EDA 脚本生成和错误分析等芯片设计任务中,o1-preview 的表现超过了专门的模型。

  • 人类学和地质学:o1-preview 在人类学和地质学这两个专业领域展示了深刻的理解和推理能力。

  • 量化投资:o1-preview 具有全面的金融知识和统计建模技能,在量化投资领域表现良好。

  • 社交媒体分析:在包括情感分析和情绪识别在内的社交媒体分析任务中,o1-preview 也有有效的表现。

尽管 o1-preview 在一些简单的问题上偶尔会出现错误,并且在某些高度专业的概念面前遇到了挑战,但总体结果表明,该模型在向通用人工智能(AGI)迈进的过程中取得了显著进展。

评估不仅突显了 o1-preview 目前的优势和局限性,还指出了未来发展的关键领域,如多模态集成、特定领域的验证和实际应用中的伦理考虑。这些发现为大型语言模型在众多领域的潜力提供了宝贵的见解,并为 AI 研究和应用的进一步发展铺平了道路。

以下是论文中的部分结果展示。


代码生成

为了评估 o1-preview 的编码能力,作者在 Leetcode 竞赛环境中对其性能进行了扩展测试。

如表 2 所示,o1-preview 成功通过了 12 个问题中的 10 个,通过率高达 83.3%。该模型在 Weekly Contest 413 中只答错了一个问题,在 Biweekly Contest 138 中又答错了一个问题。值得注意的是,这两个问题都被归类为「hard」级别。虽然花了几分钟才能生成解决方案,但 o1-preview 无法在三次提交尝试中通过这些挑战。

尽管存在这些挑战,但与顶级人类竞争者相比,01 -preview 展示了相当或更快的代码生成速度。这说明 01 -preview 具有强大的推理能力,可以有效处理大部分的编码任务。然而,在特别复杂或计算密集的情况下,模型的性能仍然有限,正如在这些困难的问题中观察到的那样。

图 3 和图 4 演示了编码评估中的两个示例。在图 3 中,01 -preview 展示了它有效解决简单问题的能力,用最少的计算时间完成任务并成功通过所有测试用例。然而,如图 4 所示,该模型遇到了一个难题。在这个失败案例中,01 -preview 最初生成了一个正确的解决方案,但是解决方案超出了时间限制。在第一次提交之后,模型陷入了试图优化代码时间复杂度的循环中,这在随后的尝试中导致了不正确的解决方案。这个例子突出了该模型在处理需要显著优化的复杂问题时的挣扎,它为提高效率所做的努力导致了重复的错误。


放射学报告生成

为了评估 o1-preview 的医学报告生成能力,作者使用了来自中南大学湘雅二医院的中文放射学报告数据集 SXY。它包含 317,339 份放射学报告,分为五个类别:胸部报告、腹部报告、肌肉骨骼报告、头部报告和头颈面部报告。

作者通过比较 o1-preview 与基线模型(如 gpt-4-turbo、gpt-4o 等)的 ROUGE 指标,评估了 o1-preview 生成医学报告的能力。表 3 提供了 o1-preview 与另外五种模型的详细性能对比。

如表 3 所示,与医生撰写的报告相比,o1-preview 生成的报告的 ROUGE 评分为:R-1: 0.3019, R-2: 0.0448, R-L: 0.2841,在 6 种模型中排名最高。值得注意的是,o1-preview 的平均报告生成时间也最长,为 15.051 秒。

图 5 和图 6 展示了两个例子,说明了作者对放射学报告生成的评估结果。在评估过程中,o1-preview 展示了在零样本情况下快速生成可靠放射学报告的能力,突显了其强大的推理和知识迁移能力,以及在医疗领域的潜力。作者观察到,o1-preview 的报告与人类写作模式高度一致,结构清晰,语言简洁。尽管其他模型未能达到最高的相似度分数,但大多数模型能够遵循指令并完成任务。


自然语言推理

在本节中,作者评估 o1-preview 在自然语言推理(NLI)任务上的表现。NLI 任务涉及确定两个句子之间的逻辑关系,结构化为一个分类任务,其中第二个句子要么从第一个句子逻辑上推导出来,要么与第一个句子矛盾,要么是中立的(可能是真实的)。

作者从每个数据集的测试集中随机抽取两个测试样本,共进行 10 个测试用例。表 4 给出了每个数据集的示例,其中 01 -preview 准确地分析了逻辑关系,展示了高级推理能力和特定于领域的知识。这展示了它在各种复杂场景中的实际应用的潜力。


芯片设计

o1-preview 在芯片设计中的实验涵盖工程助手聊天机器人、EDA 脚本生成和错误总结分析三大关键任务,展示了其在技术咨询、代码生成和错误检测方面的强大能力。这些应用不仅有望彻底改变半导体行业,减少时间和错误成本,优化设计性能,还标志着向实现通用人工智能(AGI)的重要迈进,证明了 AI 在处理复杂、高风险专业任务中的潜力。

在评估 o1-preview 作为工程助手聊天机器人的表现时,作者发现其在多个任务中展现出比 ChipNeMo 更高级的解决问题能力。比如在第一个例子中(图 21),询问如何使用 testgen 框架运行多个随机测试种子。ChipNeMo 的回应虽然功能正确,但较为基础,缺乏对大规模模拟优化的深入见解。相比之下,o1-preview 不仅覆盖了基本配置步骤,还详细解释了如何并行化测试过程,确保测试的随机性和可扩展性,展示了更高水平的专业知识,特别是在处理大规模模拟中的随机数生成完整性和错误处理等关键问题上。


Bug Summary & Analysis

在 Bug Summary & Analysis 任务中,作者测试了 o1-preview 和 ChipNeMo 分析与芯片布线电流测量相关的错误报告的能力,这是一个在芯片功率优化中至关重要的任务。半导体设计中的错误分析不仅涉及识别问题的根本原因,还需要以一种使团队能够高效优先处理和解决的方式总结问题。

ChipNeMo 的技术总结详细列出了功耗测量的条件,如测试模块的活动百分比和所需的电压角。管理总结仅传达了用户之间的讨论,没有深入分析或提供明确的行动计划。ChipNeMo 的回应主要集中在总结错误报告的即时事实,缺乏对功耗测量对未来设计影响的深入分析,也没有提出将硅数据与预硅估计相关联的策略。

相比之下,o1-preview 不仅涵盖了与 ChipNeMo 相同的技术和管理方面,还深入分析了功耗测量的更广泛影响。它讨论了布线功耗数据如何影响未来的芯片设计,特别是优化功耗密度和提高面积效率,这些因素在现代芯片开发中至关重要。


高中数学推理

为了调查 o1-preview 的数学性能,作者设计了一系列涵盖不同难度级别的测试。本节首先从高中数学竞赛题目开始,随后在下一节中涉及大学水平的数学问题,以便观察模型在不同复杂度层次上的逻辑推理能力。

在本节中,作者选择了两个主要的数学领域:代数和计数与概率。选择这两个领域是因为它们高度依赖于问题解决技能,并且常用于评估逻辑和抽象思维。

具体来说,作者进行了 10 项测试,包括 5 个代数问题和 5 个计数与概率问题,难度等级从 1 到 5 不等。o1-preview 表现出色,所有 10 个测试案例均达到了 100% 的准确率。这一稳定的表现表明,它能够处理从简单到复杂的各类数学问题。除了提供正确的最终答案外,o1-preview 的解决方案还详细地展示了每一步的推理过程,这些步骤与参考答案中的关键步骤一致。这种详细的解答方式表明,模型在数学领域的逻辑推理能力已接近人类水平。


大学数学推理

本节中的问题由作者手动创建。这些问题因其高度的抽象性和所需的复杂推理而特别具有挑战性。这些问题可以大致分为以下几类:

  • 基本离散数学问题。
  • 高级离散数学问题。
  • 微积分问题。
  • 高级定理的证明。

表 5 列出了 o1-preview 在各类问题中的答题情况。

总的来看,o1-preview 在大学数学推理中表现出了以下优点:

  • 全面的数学知识:o1-preview 对大学水平的数学术语和经典定理有全面的理解。即使问题涉及高级概念,模型也能够轻松理解问题陈述。当问题可以通过直接应用一两个定理(无论多高级)解决时,模型能够有效地识别并应用适当的定理。

  • 初步的创造性推理能力:o1-preview 展示了一定的创造性推理能力,能够做出深刻的观察,有时还会构建小例子来辅助观察。然而,这种能力尚处于初级阶段,还不够成熟。

  • 类似人类的错误:o1-preview 的一些错误非常像人类的错误。与早期模型(如 GPT-4o)的错误(常常模糊、重复且充满无关细节)不同,新模型的错误更加相关和可理解。实际上,这些错误类型类似于大学生可能会犯的错误。

但同时,他们也观察到了一些局限性:

  • 观察和泛化的局限:虽然 o1-preview 能够做出深刻的观察并从构建的例子中识别模式,但也可能被自己的观察误导,导致不当的泛化,误以为巧合适用于更广泛的情况。总体来看,没有证据表明模型真正理解逻辑原则。在面对长推理链时,模型甚至可能陷入循环推理。

  • 缺乏对问题难度的意识:o1-preview 似乎缺乏对问题难度的意识,往往优先考虑效率而非适当性。例如,在问题 7 中,它应用了过于先进的技术来解决一个


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB