汤道生谈腾讯大模型:腾讯要打造“好用的AI”

腾讯的AI业务,究竟是如何布局的?

今天举办的腾讯全球数字生态大会上海峰会上,围绕大模型的研发与应用,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生详细解读了对于AI的思考和业务最新进展。

汤道生表示,DeepSeek的开源与深度思考的突破让大家都很兴奋,它给大模型带来的绝不只是评测多跑了几分的“量变”,而是里程碑式的“质变”。


用户在实际使用过程中,切实感受到了AI的“可用性”在进一步提升。

“AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。”汤道生说。

面向未来,腾讯将立足于用前沿的AI技术,打造“好用的AI”,为用户提供有实效、有温度、可进化的智能产品和解决方案,助力大家的美好生活,推动实体产业创新突破。

汤道生强调,腾讯将做好两个坚持:一是坚持在模型研发上的持续投入,全力夯实模型底座,满足不同场景的需求;其次是坚持“用户为先”,将AI与多元场景深度融合,打造高可用、高稳定的AI应用,为用户带来“有用、好用”的智能体验。

大家上午好!

很高兴与大家相聚在腾讯云城市峰会,共同探讨数智化带来的创新发展与产业机遇。我们把峰会的首站定在上海,也是想借这个机会,对上海市政府长期以来给予我们的关心和支持,表示衷心的感谢!

上海是改革开放的前沿阵地,外贸进出口总额超过4万亿元,超过1000家跨国公司在这里设立了地区总部。上海也是技术创新的标杆,集成电路、生物医药、人工智能三大先导产业,产值突破了1.8万亿,其中人工智能产值超过4500亿,位居全国前列。

这些年,腾讯也为上海的发展持续贡献力量。我们打造了长三角地区算力规模最大的人工智能计算中心,建设了腾讯优图、科恩等创新技术实验室;服务了临港集团、上汽集团、老凤祥等一大批本地企业的数字化升级;也帮助外资企业更好的扎根中国;支持出海企业拓展新市场。

半个月前,我刚刚来过上海,和本地几家企业展开了深入交流,明显感受到,大家对于增长的信心显著回升。当下,AI新技术的快速突破,实体产业的持续升级,以及国际市场的不断开拓,都在为企业发展打开新的空间。腾讯也愿意以数字技术,为大家提供持续的增长助力。

第一个增长助力,是以AI实现产业的提质增效。

最近,DeepSeek的开源与深度思考的突破让大家都很兴奋。它给大模型带来的绝不只是评测多跑了几分的“量变”,而是里程碑式的“质变”。用户在实际使用过程中,切实感受到了AI的“可用性”在进一步提升。AI正在跨过产业化落地的门槛,站在普及应用的全新节点上。行业由之前的模型训练主导,发展到今天更多是应用与Agent驱动;我们看到,云上DeepSeek API调用量激增,语音交互的需求也带动了ASR(自动语音识别)与TTS(文本转语音)模型的API调用;模型推理的算力消耗正在高速增长,规模化推理的成本优化,成为云厂商的核心竞争力。

首先,腾讯在模型研发持续投入,全力夯实多个模型底座,满足不同场景的需求。

大模型技术是智能AI应用的基础。腾讯一方面坚定不移的推进大模型的全链路自研,另一方面,也积极拥抱先进的开源模型,让客户针对不同场景自由选择,满足各自对场景与性价比的要求。

2023年,腾讯推出了腾讯混元大模型,率先采用MoE架构,旗舰模型参数规模达万亿级,在各类行业测评中,无论是通用基础能力,还是专业应用能力,都稳居国内第一梯队;还有多个规格的蒸馏模型,在开源社区也深受开发者欢迎。

今年,我们又推出新一代快思考模型混元Turbo S,对大多数通用任务,实现“积极响应”,首字时延降低近一半。此外,更擅长完成复杂任务、深度推理的混元T1模型,也即将推出正式版。在多模态领域,混元全新上线并开源“图生视频模型”,用户只需要上传一张图片,输入创意描述,就可以生成一支自带音效、具有2K分辨率的5秒高清短片。

其次,在AI应用方面,我们坚持“用户为先”,将AI与多元场景深度融合,打造高可用、高稳定的AI应用,为用户带来“有用、好用”的智能体验。

大模型是AI应用的核心,但好的模型还需要搭配实用的场景、权威的内容来源、稳定的算力服务,才能在用户需要的时候,提供可靠的AI服务。

从用户需求出发,是腾讯的产品价值观。春节过后,用户迫切期望用到深度思考的推理能力,我们也快速响应用户需求,无论是面向C端的腾讯元宝、微信搜一搜、ima、地图等应用,还是面向开发者的大模型知识引擎、腾讯云AI代码助手等平台工具,都支持腾讯混元和DeepSeek的“双模调用”。

例如腾讯元宝,借助腾讯云智算强大的算力支撑与海量的运维经验,确保了用户使用过程流畅“不卡顿”。同时,叠加了自身积累多年的多模态能力,元宝能够对用户发送的图片做分析理解与优化处理。元宝利用了全网最优质的微信公众号内容,以及强大的“联网搜索”能力,确保了检索和生成结果的质量和时效性。最近,元宝还与腾讯文档打通,用户可以直接上传腾讯文档到元宝,让AI辅助总结、提炼要点,也能一键导出对话到腾讯文档,随时修改、分享或者继续创作。

如果模型是“大脑”,知识库也许就是“课本”。大脑智商再高,如果没有相应的知识做基础,也无法很好地解决问题。我们可以通过智能工作台ima,将模型与个人知识库融合,助力高效的工作和学习。用户基于本地文件、公众号文章等内容,构建个人和团队共享知识库,就能够实现对个人资料的精准检索、高质量的AI问答,辅助文本创作等。

企业同样可以将大模型与企业知识库结合,打造更懂业务的AI,让AI助力营销、客服和研发,提高市场竞争力。最近,腾讯乐享就上线了AI知识库功能,将深度思考与企业专属知识结合,获得了更强大的智能问答能力,为企业缩短新员工培训时间,提高员工专业水平,提高客户满意度,最终提高销售转化率。

除了腾讯乐享,还有腾讯会议、企点智能客服、AI代码助手等,也都全面接入了深度思考的能力,为企业客户带来了更智能的使用体验。腾讯云自身就是这些产品是深度用家,边用边迭代。

例如,腾讯云AI代码助手,代码生成准确率提升30%以上,它支持上百种编程语言,能够完成代码补全、技术对话、代码诊断、单元测试等任务,已经落地了上百家数字化企业。

我们看到,很多企业也需要将大模型做进一步定制,结合企业自身的场景与数据,训练出自己的行业大模型,打造企业级的AI中台,让数据可以统一管理与复用,支撑在生产、销售和服务等环节的智能应用。

为此,腾讯推出了腾讯云TI平台,帮助开发人员一站式完成混元、DeepSeek、Llama等主流模型的精调与推理,覆盖数据获取、处理、模型训练、评估、部署到应用的全流程,数据标注成本下降70%,模型训练效率提升30%,同时还支持公有云、私有化及专属云部署。

另外,腾讯云大模型知识引擎,通过提供RAG(文件检索)、Workflow(工作流)、Agent等多种应用开发方式,来加速大模型应用的落地。企业可以获得稳定和精确的多模态知识问答效果;也可以用“拖拉拽”的简单方式,编排企业专属的工作流,快速搭建符合实际场景需要的大模型应用。

头部物流集团DHL就使用大模型知识引擎,编排了41条企业专属的工作流,快速搭建适合物流场景的智能服务,用AI自动接待客户,并完成查询快件、修改地址和时间、咨询保险和寄送等服务。更重要的是,通过工作流的模式,一线业务人员也可以直接配置智能服务,大幅降低了技术门槛和沟通成本。

目前,腾讯云大模型已在政务、零售、金融、工业、医疗、教育、文旅等30多个行业落地。

在推动模型应用落地产业的过程中,算力也非常关键。我们通过整合高性能计算、存储、网络、加速套件、云原生智能调度编排等能力,推出了腾讯云智算套件。模型训练的千卡日均故障率,仅为业界水平的三分之一;千卡集群训练的并行加速比达到96%,通信时间占比缩短到6%。此外,通过软硬件技术能力的整合,腾讯云智算集群从机器上架到开始训练,最快只需要1天。

当然,除了AI之外,腾讯运营多年的互联网服务,已经打磨出稳定与高性价比的基础设施服务,数字化技术如操作系统、云原生、网络安全等软件也全面开放给更多行业的客户。

国产软件企业也从早期侧重应用开发,逐步向更底层、更基础的平台技术扎根,技术水平与国外头部企业对齐,兼顾到国内外团队的需求与习惯,提供更高性价比、更及时响应的服务体验。

腾讯打造了以“6T”为代表的“全栈自主创新企业级软件”,覆盖数据库TDSQL、操作系统TencentOS、专有云TCE、PaaS平台TCS、大数据TBDS、AI开发平台TI,核心产品不仅通过了国家安全测评的最高标准,而且产品的兼容性、易用性和扩展性在市场上很受欢迎。比如协同办公领域,腾讯会议、企业微信、腾讯文档、腾讯乐享等应用,不仅稳定易用,而且有独特的C2B连接能力,在多个行业头部客户渗透率,都超过了50%。

无锡地铁集团就借助TencentOS操作系统,成功实现了50多个业务系统、400多套操作系统的国产化替换升级,通过底层系统的统一管理、协同变更,为全量的生产和管理信息系统打下坚实的支撑。值得一提的是,在替换过程中,我们实现了系统的“热迁移”,业务几乎0中断,用户全程无感知,成为轨道交通行业操作系统国产化标杆。

在AI和数字化融合创新的同时,我们也看到,新市场的拓展也成为了企业增长的重要驱动力,国际化发展成为行业共识。在华东,特别是上海,很多企业都有出海的诉求,还有大量的外企,也希望分享中国大市场机遇。腾讯云也以数字化助力企业全球化发展,开拓增长新空间,在金融、泛互、媒体、游戏、电商等30多个领域,服务了10000多家海外客户,覆盖欧美、日韩、东南亚、中东、非洲等80多个国家和地区。

一方面,我们持续打造覆盖全球、稳定可靠的云基础设施,为企业国际化铺好宽平大路。例如在广汽出海的过程中,我们帮助埃安快速部署了面向东南亚地区的数字基础设施,成功复制“智能网联云平台”,3个月内完成了在泰国市场的车联网量产落地。很多客户反馈说,腾讯云在产品适应性、性价比和贴身服务等方面,都更有优势,成为大家出海的首选。我们持续加大一带一路市场的投入,在印尼的第三个可用区,与在沙特阿拉伯的数据中心也即将上线。

另一方面,中国互联网行业三十年的创新发展,所沉淀的经验和能力,也越来越受到全球客户的认可。最近,在泰国市场,正大集团旗下零售公司CP AXTRA,就把主要的零售及批发业务系统,成功迁至腾讯云。未来还将借助腾讯云的大数据解决方案,开展零售流程中的库存和需求预测、定价、促销等场景的数据应用,实现经营提效和商业增长。此外,很多欧美日韩企业,包括法国电信、日本万代、韩国网石、Coupang等众多当地的行业头部企业,也在广泛采用腾讯云的全球化资源、音视频、CDN、网络安全以及小程序框架等,服务全球用户。

各位领导、各位嘉宾!

我们正在共同见证数字技术为各行各业注入新动能。从大模型驱动的智能转型,到自主创新的国产软件崛起;从国内市场的数字化深耕,到扬帆出海开拓全球市场,腾讯云始终与千行百业并肩前行,成为企业最坚实的数字基石。

今天,我们不仅提供前沿技术,更传递一种信念——在这个充满不确定的时代,唯有锚定技术创新、开放协作、专注价值,才能将挑战转化为机遇,将焦虑升华为破局的力量。让我们携手并进,在数字浪潮中书写更多的辉煌!

谢谢大家!



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

2025中国AI开局:硝烟即将燃尽,对抗还是共生?

“这个春节没闲着。”不止一位AI公司的高管,在2025年开工后这样感慨。


中国AI行业,正以前所未有的速度加速狂奔。

DeepSeek不光是在春节期间轰炸了美国科技圈,也倒逼整个中国AI行业在春节前后都紧锣密鼓地赶进度——发模型,接产品,搞开源。

“半夜发新品”,成为了中国AI公司们的新常态:无论是最近爆火的Manus,还是通义最新开源的推理模型QWQ-32B,“经常一觉醒来,又被什么黑马公司和新技术轰炸。”

一日三变的行业,时常轰炸着AI从业者的神经。

这些“黑马”的公司们,虽然以“杭州六小龙”声名大噪,但AI公司真正密度最高的地区,依然是“宇宙中心”五道口的周边5公里内——这是清华系和中科院自动化所的势力范围,培养中国顶尖AI人才最多的两所高校。

为了招聘清北的人才,DeepSeek创始人梁文锋把北京办公室放在了清华南侧约2公里的融科大厦;智能体Manus背后的公司,则藏在北京海淀区花园路社区的办公园区里,毗邻字节跳动。

曾经的“宇宙中心”,又在大模型的加持下恢复了荣光。

在五道口一个十字路口的周围,就坐落着智谱、百川智能、生数科技、面壁智能、无问芯穹、趋境科技等多家AI明星创业公司。

铁打的写字楼,流水的创业公司。在大模型发展十倍于互联网的速度时,每家公司都在玩命狂奔,否则可能活不过五道口“枣糕王”。

在这里的每一家咖啡厅,你都可能撞到聊AI的从业者;晚上聚会后,有人会转身回公司继续加班到凌晨。

机遇的兴奋和内卷的焦虑,是这里空气的味道。

2025年的第一季度即将过去,AI公司的爆红和洗牌时刻发生,产品在各种测试集上的排名不断变换。

2025年,是行业内期许的Agent(智能体)爆发之年,也可能是基础大模型之争迎来终局的一年。

短期内,技术优势将是争取时间窗口的最佳武器。而在这段时间内,一场针对着场景、流量、人才的拉锯战正在展开,手握更多资源的挑战者,和占据先发优势的守擂者,两者都在拼命奔跑。

预期调整:基模之战

收尾、垂类竞争加剧

如果用一个词连接2024和2025,“预期调整”恰如其分。

一年过去,王者不再。曾经如日中天的OpenAI渐渐被竞争对手Anthropic超越,最新发布的大模型GPT-4.5也不再给业内带来轰动,更多是失望。新的技术和产品仍然高频出现,挑动着从业者的情绪。

就连去年不相信AGI、拒绝看任何一家AGI公司的朱啸虎,也在看到DeepSeek后直呼“我肯定会投”。

认知的反复颠覆,频繁地发生在AI公司的掌门人身上。

提到过去一年AI发展的关键词,容联云副总裁&诸葛智能创始人 孔淼向光锥智能表示,2024年对于大模型的市场价值预期调整,从完全buy in模型能力,到开始关注应用,从技术驱动到业务参与。

“无论是对技术的调整,还是对商业化的规划,大家的预期都在进行调整。”孔淼说。

从OpenAI出走的科学家ilya宣告“预训练达到上限”、用于训练的公开数据早已耗尽,到传闻中的GPT-5亦未如期而至,到国内六小虎之一的零一万物宣布放弃超大模型预训练,再到DeepSeek横空出世,打破算力桎梏。

2025年开局的前两个月,AI圈的变动已经掀起了国内外的一场地震。

以春节期间爆火的DeepSeek来说,它的出现为什么能够让从业人士振奋?DeepSeek将给行业带来什么样的意义?

像素绽放 PixelBloom(AiPPT.cn)创始人兼CEO 赵充将它归纳为三点:开源带来的技术红利、C端AI应用的成本门槛降低、中国AI“场景定义技术”进入新阶段。

赵充表示,DeepSeek的开放策略倒逼全行业重新思考技术垄断的边界。此外,其引发的成本革命将决定商业终局。

“当千亿参数模型的推理成本从‘开超跑’降到‘骑共享单车’,意味着AI应用终于能规模化服务普通用户。”赵充说。

在此基础上,一众产品也将迎来“场景定义技术”的新可能——谁能用更低的成本解决更具体的问题,谁就能重新制定游戏规则。这也是中国创业者最擅长的战场。

另外,DeepSeek也加速了基模大模型的终场战争。有多位人士向光锥智能表示,预计基础大模型之战会在2025年杀出结局,尘埃落定。

开年起,零一万物宣布退出超大模型预训练,坦率地公布了公司从追求AGI到聚焦商业化落地的转变。而其他几家公司的变动也在持续发生:MiniMax首次发布了开源模型,以“线性注意力”机制代替了传统的transformer架构;在众人视野中沉寂的百川智能年后发布了首个全场景推理模型Baichuan-M1-preview,王小川依然专注医疗领域的应用。

李开复曾提及,“超大模型是大厂才能玩的游戏”,而对于其他五家公司来说,烧钱、攒人才的庞大战争同样难以持续。

但DeepSeek爆火后,大模型依赖算力的故事似乎又被改写,大厂资源似乎又输给了极致的技术创新。

生数科技联合创始人兼总裁唐家渝看到,一批有技术优势的企业弯道超车的机会。他告诉光锥智能,从DeepSeek身上能明显看到技术从算力依赖变为算法依赖,这意味着过去大厂拥有的算力资源不再是明显优势,一批有核心技术门槛的大模型创业公司,将利用自身算法等技术优势快速占领市场。

相比之下,对于六小虎接下来的梯队变化,多数人更看好以B端业务为主的公司们。

多位业内人士向光锥智能表示,在这场大模型创业公司的战争中,to C的公司可能会更早结束战争,而to B的公司相对存活时间更长。

“相对于C端来说,B端其实有防御纵深,它是大厂纯靠流量打不下来的一个地方。”赵充告诉光锥智能,to C的公司很难抵抗字节“豆包”和腾讯“元宝”两家的竞争压力,但像智谱等拥有一批B端客户的公司来说,这些是能靠得住的,B端也是更适合前期商业化的模式。

除了通用大模型的竞争,一些正在趋于成熟的垂类行业竞争也在加剧。

以AI视频为例,在这个Sora、可灵、生数、海螺等选手“神仙打架”的赛道,已经从最初的PPT形态,向着更加拟真的质量进化。

对于越来越“卷”的AI视频生成赛道发展进程,唐家渝的判断是,这场战争会在今年划下句号。

“今年,国内AI视频生成领域可能只会留存3家顶尖企业,全球是5家。”

在唐家渝的眼中,2025年,AI视频生成已经来到了一个“人人可用”的阶段。对于没有做视频经验的小白来说,也能轻松上手。

“人人可用”的背后,是AI视频的“不可能三角”正在被逐步打破,即速度、成本和质量可以兼得。

在赵充看来,AiPPT.cn在国内的战争早在2024年就已经完成,“只需要巩固优势即可”。接下来,他们的重点将会放在海外市场。

如果说生成式AI像一个夹心饼干,除了基础大模型和应用层之外,身处中间的AI Infra一直被认为是确定性很强、但并非那么性感的生意。

关注AI硬件领域的投资人林松告诉光锥智能,2025年,AI Infra领域会更加“卷”。

“这些企业至少能活,也能有零售、有利润,但是如果行业找不到一些特别大的增长空间的话,我觉得增速可能会快速减少,这个时候一旦卷起来就比较难受。”林松说。

林松表示,经历过2023年的指数级增长阶段,2024年的投资放缓是一个正常现象,既是因为竞争态势稳定,也是一个去泡沫的过程。“2023年投的大多是从0到1的企业,所以肯定是重金投入,越到后面,公司需要的资金(比例)也会降低。”

砸钱、整队,

中国的巨头确实会跳舞

在这场逐渐收紧的战争中,大厂队正在付出更多的人力和财力All in AI。

免费、开源、联动DeepSeek都是开胃菜,每当有新的细分领域的机会出现,大厂想要上车的决心迫切极了。

新的现象级产品出现后,焦急的一批人中一定有大厂的身影。

有大厂AI产品负责人向光锥智能表示,Manus引爆AI圈的当天下午,他所在的组专门拉了会议,紧急讨论:“Manus到底是怎么实现的”、“最快我们多久能复现”。

在追逐技术之外,大厂们正在用场景和生态提前布局,调整随时都在发生,排名的变化可能只是一夜之间。

这种调整首先体现在大厂一再变化的组织架构上。从字节到阿里、再到腾讯,将大模型研发团队和to C产品团队拆分成了一步必下的棋。

阿里的AI to C战略正在一天比一天清晰。从2024年末,归属于阿里云的通义App团队并入阿里智能信息事业部,再到今年,夸克和通义千问完成合并。

有接近阿里的人士向光锥智能评价,夸克团队打法凶猛,通过把商业化偏弱、工程师性更强的通义千问团队并给前者,靠夸克的4000万DAU,直接可以把流量导入给后者。

今年,腾讯也同样加快了分拆团队的步伐。在刚刚过去的两个月中,腾讯先后将腾讯元宝从TEG事业群调整至CSIG(云与智慧产业事业群);将QQ浏览器、搜狗输入法、ima等产品团队,从PCG(平台与内容事业群)转入CSIG(云与智慧产业事业群),将经由AI再升级的产品放在一起发力。

其中,腾讯元宝也转交给腾讯会议负责人吴祖榕负责,腾讯或许是希望靠C端产品经验丰富的负责人提升腾讯元宝的影响力。

如果说2024年,还有大厂处在观望和试水阶段,到2025年,所有大厂都在押注超级 AI应用诞生的可能性,并不惜一切代价调用人才和金钱。

“在起跑的第一年,团队还没调好是很正常的,”有业内人士告诉光锥智能,“从2025年上半年开始,各公司的老板都会选出最强选手带队,重新排兵布阵。”

比如过去两年在AI上反应比较慢的腾讯,有前腾讯的技术中层向光锥智能分析,腾讯在人才、经验的积累上,在大模型来临之后,没有很好地应用到AI发展中。比如之前专注于机器学习的腾讯优图团队,并未接手AI视频模型的训练工作,而现有人员调转向新的视觉模型架构方向的过程中,也很难快速切换方向。

调整团队之外,大把砸钱也是大厂的常态。相比于创业公司,资金池充足的大厂在硬件端投入更加雄厚。

年后,几家大厂陆续公布的未来规划,透露着相同的野心。1月23日,路透社爆料字节跳动今年将拨出超过200亿美元,用于AI芯片、数据中心以及其他硬件。2月24日,阿里宣布,将在未来三年中投入超过3800亿元,用于建设云和AI硬件设施,其总额已超过过去十年总和;百度次日宣布,将投入110亿元用于AI基建。

但在不确定性更强的AI 2.0时代,真金白银不一定换来奇迹,洗牌随时都在发生。

在被称为“AI Agent之年”的2025,生态既是大厂弯道超车的希望,也是小厂望尘莫及的壁垒。

有人利用DeepSeek推广自家产品,有人则在新鲜血液的启发下及时调转船头,走向开源之路。

前两年,坚信“闭源才能带来更好商业化”的李彦宏,开始积极拥抱开源。不仅旗下旗舰模型文心一言4.5大模型宣布将于6月30日开源,还决定将文心一言旗下所有模型全部免费供应。

“我在过去几个月中学到的是,开源可以帮助你获得更多关注。我们正处于AI、生成AI创新的早期阶段,更快的传播将有助于提高采用率,但也有助于更多的人尝试这项技术,从而在应用层促成创新。”在World Governments Summit 2025峰会上,李彦宏这样谈论开源。

从文本大模型开源起,这股“开源风”也在多模态领域中延续下去。2月25日,“开源大户”阿里再度开源万相2.1视频生成模型;3月6日,腾讯在此前开源文生视频模型的基础上,再度开源图生视频模型。

目前,备受瞩目的四家大厂中,阿里、腾讯和百度均已坚定了走开源的路。相较于前三家,致力于打造“AI应用工厂”的字节跳动,目前还在闭源。

在做基础模型上,字节仍然在招兵买马,或许对内部自研模型有着更高的期待。

2月17日,在谷歌Gemini工作的吴永辉博士加入字节跳动,据悉将担任大模型团队Seed基础研究负责人,专注大模型基础研究。

从张一鸣熬夜看论文、拉作者聊天,到部门早早调整,调兵遣将,先后成立负责AI应用的部门Flow和主管大模型技术的Seed,看得出,字节押注AI的决心一天比一天强烈。

有接近字节的人士告诉光锥智能,相比于前几个月,字节在Q4阶段的发展速度变得更快了。这是由于字节整体公司战略高度再度提升,其投入的各种资源继续“加码”。

遵循着“大力出奇迹”的打法,字节把豆包抬到了同类产品中Top 1的位置。不过,这个位置并非高枕无忧。

“从豆包的视角来说,它的第一竞争对手是腾讯,其次才会是百度和夸克,”有受访者向光锥智能表示,“不过,其实潜在的最大威胁者是华为,加上智能终端的优势,华为将会成为最有力的竞争对手。”

对抗还是共生,

创业公司怎么选?

创业公司在“卷”上,丝毫不输给巨头。

随着时间的推移,压在创业公司身上的压力正在加剧。面对大厂有流量、有场景壁垒,创业公司是对抗还是共生?

通往AGI的第二年,融资困难、不够挣钱,已经有不少创业公司倒下。它们之中最好的结局可能就是被某家大厂收购,比如被谷歌纳入麾下的Character.AI,更惨的则是公司宣告破产,而员工还在走仲裁,试图要回拖欠的工资。

但在这一轮AI行业的发展中,针对创业公司的收购玩法发生了一定改变。收购方不再大方地把一家创业公司的员工和财产全部接收,而是只挑走核心人才和算力设备。当一家公司的核心被掏空,剩下的只是躯壳。

在越发艰难的创业环境下,“不碰大厂的生意”成了创业者们心照不宣的原则。

从OpenAI到DeepSeek,技术创新,依然是掀大厂桌子的最有效路径。

回顾AI 2.0时代和AI 1.0时代的差异,作为两个时代的亲历者,唐家渝能明显感觉到两者之间的异同。

“两个时代都靠积累,但AI 1.0时代更多靠的是成熟经验的积累或获取,比如方案明确的标注数据,具有模型调参经验的成熟人才,只要资源到位,事情基本就能做成。”唐家渝说,“但AI 2.0时代具备更多的不确定性,处于技术的发展期,解决技术难题的路径并不确定,还需要创业公司基于自己的认知循序渐进。

但也正因为如此,创业公司才有弯道超车的机会。

五道口附近园区的AI公司们

不过这代创业者和2014年不同,在创业之初,很少有公司能不考虑和大厂之间可能存在的战争。对于创业公司来说,如何活下去,也是一开始就必须考虑的问题。

对于更偏向应用的AiPPT.cn来说,他们在第一天就确立好了自己和大厂共生的打算:通过合作的方式,借助大厂抢占尽可能多的流量入口,成为垂类赛道的头号玩家。

“我们的定位不是通用智能体,而是垂类智能体,所以我们跟所有大厂基本上都是合作关系。”赵充说,“目前国内大约30个核心大厂玩家,其中一半以上都选择和AiPPT.cn独家合作。这一块的话我们在国内几乎没有竞争,几乎是断层第一。”

通过和大厂平台、智能硬件端等渠道的联动,赵充表示自己总能够得到免费的流量。“比如联想去年AIPC的出货量到Q2增长30%,我就跟着它走就行。”这样做的好处是,无需在投流上花费太多成本,也能尽可能触达更多用户。

赵充分享,在2024年结束之前,AiPPT.cn已经顺利突破千万用户大关。

在用户增长层面,AiPPT.cn的思路也同样突出了和大厂避免竞争的想法。

“我们得和大厂做错位,我们做品(产品)之前都会先和大厂沟通,避开那些高频刚需的品。”赵充说,“像PPT其实是低频刚需,这样可以尽可能选择和大厂做互补。”

在赛道的选择判定上,一些创业公司也在遵循着避让的思路。其中,一些公司选择了规模小的市场,它们不在大厂的射程范围内;另一些公司则选择啃下那些对大厂来说更费力的硬骨头。

“市场规模太大的,基本上都是大厂射程范围内,大厂的战略部门其实都是很聪明的,所以那些能赚大钱的都不要考虑。”赵充说,“业内交流的时候,有朋友分享自己的经验,超过10亿的市场他都不会去做。

专注于金融、客服领域的容联云,做的就是“啃硬骨头”的工作。在孔淼的眼中,大模型发展带来的新订单,更多还是需要交给行业服务厂商完成。

大模型厂商做投标,拿到了会把行业应用场景相关的工作分包出去。”孔淼解释道,因为企服需要行业经验的沉淀,所以大厂一般会选择交给垂类领域的服务商。

大模型能力只是解决了很多场景的AI泛化能力,但它只占据所有需求的20%,剩下80%落地的脏活累活也好,但是你站在一个行业应用厂商的角度来讲,它可能就是一个产品标准。”孔淼说,“行业内客户的这些工程项目和技术需求,大厂一看80%做不了。其实,不是他没有技术能力做,是他没有knowhow(行业专业知识),所以不太能做这么细的市场。”

和大厂业务线有部分重合,生数科技的做法则是,通过技术优势拉开时间窗口,再从细分领域尽可能多地占据用户心智。

“共存是一个极有可能发生的事情。”唐家渝表示。对于生数科技来说,他们在不断探索技术能力的同时,也在B端和C端的应用落地上发力。

“从战略层来说,我们首先会在AI视频生成的一些细分应用行业站稳脚跟,比如泛娱乐、动漫等,为一些面向C端消费者的平台提供B端服务。”唐家渝说。“比如现在用户提到AI视频生成动漫,包括日本在内的国内外地区用户的第一选择就是生数科技Vidu,我们希望占据更多类似这样的行业赛道,成为用户的’第一选择’。”

以动漫为例,只需要创作团队画几个关键帧,中间的一些片段全部可以交由AI生成,这会大幅缩减制作成本和时间。比如,在动画剧集的制作环节,普遍成本在1分钟10万左右,但Vidu可以在实现相同视频效果的同时,将成本降到原来的不到十分之一。

“之前我们承接的电影《毒液》官方宣传片,是一个水墨版本的动画,帮助制作团队减少了约90%的后期时间。”

在C端层面,唐家渝分享,他们目前正在关注由新技术催生的新内容消费模式,随着AI时代的到来,这些新的内容不一定最适合长在抖音、快手上。在内容形式演变中,新的机会点正在诞生。

找准自身定位和规划,创业公司才能在2025年跑得更远、更久。

2025,智能体的“爆发之年”

用户对AI的感知越来越明显。

当身边的家人也能随时随地打开豆包提问;当更多写报告、写论文、做PPT的活被人们习惯性地扔给了AI,没有人会再质疑AI是泡沫,而是在铺天盖地的新产品中不断地尝试和摸索。

翻开最近的App Store应用排行,免费榜单中位列前七的应用,有四个是AI应用。DeepSeek位列榜首,其次是字节豆包、腾讯元宝和阿里夸克。

而从2024年开始,一批“千亿俱乐部”的C端应用玩家已经出现。根据AI产品榜统计,截至2月,以DeepSeek为首的11个产品已经突破千万访问量。

多位业内人士对光锥智能表示,2025年会是智能体的“爆发之年”。

就在3月初,Manus的出现和爆火,正是2025年“智能体之年”的一个强有力的符号。

“更少结构,更多智能(Less structure, more intelligence)”,喊出口号的Manus证明了,当下大模型能力的溢出已经到达了一个临界点,在底层架构能力足够支撑的情况下,如何将能力串联在一起,让智能体在规划、执行的流程中尽可能少犯错,这考验的是AI公司们的产品力。

和以往不同的是,其他追赶的企业需要时间去复现甚至超越同样的技术,往往需要更长的时间,但这次,复刻在不到1天的时间内完成了。

无论是3个小时开源出“Open Manus”的MetaGPT,还是打出“0天复刻”、目前市面上复刻表现最佳的OWL。它们的存在都证明,风口来临之前,早有人在同方向做着同样的事。

“单一任务执行完成的Agent,一定会在今年实现。”Pokke AI创始人朱哲清在锦秋基金的分享会中表示。

而一批借助AI能力升级或新创的App,也将在今年迎来爆发。

从必要条件——成本来看,得益于大模型基座成本的优化,一些AI应用厂商早已经实现了收支平衡,即使不做付费产品,也能靠CPC(浏览广告付费)的模式打平成本,实现盈利。

制作过“哄哄模拟器”的开发者王登科最近公开分享,其团队AI陪伴应用“独响”在免费用户依然可用的情况下,基本达到了收支平衡。“我们不为大模型烧钱,并可以养活团队。”

一些行业正在被AI改写,甚至颠覆。以SaaS行业来说,微软CEO萨提亚·纳德拉曾经做出过预测:AI Agent (智能体)将从根本上改变 SaaS 的定义,它甚至会终结一部分原有的服务模式。

大模型出现后,已经在一些行业应用落地之后加速,原来我们以为是5-10年,现在是3~5年,很多企服公司一定会被干掉。”孔淼说。以前大模型是起到辅佐人力的作用,而现在,代理可以完成一些多业务流程自动化的过程,再实现多智能体协同,这是一个很大的颠覆。

AI和SaaS的结合过程中,一开始,AI将先通过大模型能力为企业增加竞争力,从而提升客单价,出现增量。以客服为例,原先只是单纯的在线机器人,现在它可以做一些客户沟通记录总结,企业再针对这项服务单独收费。

但放到中期来看,这部分增长的市场迟早会萎缩。孔淼告诉光锥智能,通过使用工具做大部分提升,(容联云)将把原有的这种SaaS软件流程替换掉。“我们不再需要后台有训练师、业务流程配置师,而是自动通过大模型去配置流程,那么原有的软件服务将会被端到端的代理软件替换掉,蚕食原有的市场。

此外,通过Agent代替人力,能够大幅提升人效比,这相当于把原来的软件及服务变成真正的软件服务,让用户真正按效果付费。

比如在金融领域,当券商需要响应政策,把质检纳入业务范围内,大模型的介入就帮助这些公司节省了人力资源。

不过,受制于行业知识壁垒,以及一些行业对隐私性、准确性的特殊要求,AI在千行百业的落地仍然需要时间。

“AI在金融行业中的融合是必然的,只是一些需求的落地需要解决,这属于时间问题。”孔淼说。“金融现在的落地点,需要经历业务流程和数据调优流程,软件工程RAG的落地需要时间。从以前压根不可能规模化,到现在,需要时间来帮助行业重塑业务流程。”

不过,仍然有一些赛道还尚未迎来明显的拐点,需要等待技术成熟和团队找到差异化优势。

以AI硬件赛道热门的AI眼镜来说,林松认为,这个赛道目前还是大厂更具备优势。

“耳机、眼镜,都和手机息息相关,如果有手机生态、供应链和行业用户的认知、用户渠道、内容衔接,相比之下肯定(手机厂商)更有优势。”林松说,“作为新的创业公司,你得有足够新的创意,且具有一定护城河,才有可能突出重围,避免被大厂快速攻破技术门槛。”

在确定和不确定中,正如唐家渝所言,AI 2.0时代,新的可能性仍在不断涌现,而跑在前列的团队不能只是经验依赖型。AI公司,需要通过提升人才密度和人效比来加速奔跑。

赵充还向光锥智能分享了他的感受:

“回顾这三年,2023年可能还有人不相信AI,2024年基本所有人都相信AI,并且投入其中。2025年,所有的App基本上都会被AI改造一遍,所有的行业全部明牌,大家拼的就是执行力。”赵充说,在过去的一年,他的团队人数翻了一倍。

AI时代的群体疾驰,恰如互联网时代的又一缩影。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

CVPR 2025 Oral | 多模态交互新基准OpenING,新版GPT-4o杀疯了?

文生图 or 图生文?不必纠结了!

人类大脑天然具备同时理解和创造视觉与语言信息的能力。一个通用的多模态大语言模型(MLLM)理应复刻人类的理解和生成能力,即能够自如地同时处理与生成各种模态内容,实现多模态交互,这也是向通用人工智能(AGI)迈进的关键挑战之一。


最近爆火的新版 GPT4o 与 Gemini-2.0 在图文交互这方向上也带来了令人振奋的效果。

然而,当前大部分多模态大语言模型仍局限于处理单一的图像或文本,特别是难以实现内容流畅一致的多模态交错生成。而现实生活中,以设计、教育、内容创作等代表的任务,往往需要获取图文交错的内容作为参考,这对模型的多模态生成能力提出了挑战。

近日,上海人工智能实验室提出了首个面向开放式图文交错生成任务的综合评测基准 OpenING,相关论文成果已被 CVPR2025 接收为 Oral。该基准包含:1)多样化的真实图文生成任务与高质量的标注数据;2)通过增强训练得到的可靠裁判模型 IntJudge;3)对目前图文交错生成模型 / 统一理解生成模型进行的综合评测、排名与分析。研究中的关键发现与结论能够为下一代统一理解与生成的多模态大语言模型的研发提供了重要的启发与指导。

OpenING 基准:更丰富、更真实、更全面

现有评测基准(如 OpenLEAF 和 InterleavedBench)存在规模小、主题多样性不足、数据来源受限等问题,且因过于依赖开源数据集作为数据来源导致数据污染的风险,难以满足真实场景的应用需求。

为此,OpenING 应运而生!

OpenING 首次系统地构建了涵盖 23 个现实领域、56 个具体任务的图文交错生成综合评测基准,共计收集 5400 个真实场景下的图文交错实例。这些实例来源于旅行指南、产品设计、烹饪助手、创意头脑风暴等日常高频应用场景。

OpenING 特别设计了高效的标注工具 IntLabel,由超过 50 人的专业团队严格把关,并通过精细化的标注流程确保了数据的一致性与真实性。OpenING 的数据划分为开发集和测试集两个部分,为 Judge 模型的训练和评测分析提供了坚实的基础。

强大评估模型 IntJudge:告别 GPT 偏见!

传统基于 GPT 的评测模型(比如 GPT-as-a-Judge)容易受到模型本身偏见,倾向于给自家生成的内容更高的评分。另外此类评测模型因为受到潜在的数据泄露的影响,使得评测的准确性和稳定性存疑。为了获得更加公平、精准、稳定的评测结果,OpenING 团队自主研发了一款名为 IntJudge 的评估模型。

IntJudge 的训练集采用了全新的人机协作标注方法 — Interleaved Arena,并在训练过程利用一种参考增强生成 Reference-Augmented Generation(RAG)的数据增强策略。通过融合人类专家评估数据和自动生成的数据,该策略大幅提升评测模型的鲁棒性和泛化能力。

具体来讲,IntJudge 的训练数据由两部分组成:一是高质量对比数据 Interleaved Arena Data,这些数据通过对不同模型在 OpenING 开发集上生成的的图文交错内容进行人工判断获得;二是利用参考增强生成(RAG)技术构建的大规模增强数据 RAG Data,通过在每个 AB 对中认定以人工标注的金标准答案为参考的生成内容优于模型直接生成的内容。这种新颖的数据增强策略在极大丰富 IntJudge 模型训练数据量的同时确保了评测模型在多种生成风格和场景下的稳定表现。

开放式问题的正确性通常难以直接判断,为此 OpenING 采用了类 ELO 机制的相对评分策略。该策略通过采样形成模型间的两两(AB Pair)对比,获得对模型客观性能评测的排行榜。这些客观指标包括强制区分平局指标 FDT,以及该指标在包括平局 w/ Tie 和不包括平局 w/o Tie 的两种情况的指标。此外,OpenING 还提供多种额外评估指标,包括基于 GPT-as-a-judge 的主观评测。

凭借创新的数据构建策略,IntJudge 与人类判断的一致率达到 82.42%,相较于基于 GPT 系列的评测方法 IntJudge 显著高出 11.34% 。此外,IntJudge 不仅适用于大规模自动化评测场景,还能够作为 Reward Model 直接应用于 GRPO 等强化学习(RL)训练,对多模态生成模型的性能和生成质量进行有效提升。IntJudge 训练过程中构建的 Interleaved Arena 数据也为多模态生成领域的直接偏好优化(DPO)研究提供了宝贵资源,进一步启发和促进该方向的深入探索。

模型生成性能大揭秘,与人类差距依然明显!

基于 OpenING 的详尽评测揭示了当前主流多模态模型的表现:

  • 集成管道模型(如 GPT-4o+DALL・E-3 和 Gemini 1.5+Flux)得益于高性能基础模型的协同,整体表现优于其它模型。其生成内容在图文一致性与视觉质量方面均处领先地位。此外,这类交错生成管道的性能很大程度上取决于图像生成模型的能力。与其它主流图像生成模型相比,Flux-dev 在与多种文本模型搭配使用时展现出显著的性能提升。
  • 端到端模型(如 Anole、MiniGPT-5)具有统一的图文生成模型架构,其简洁的生成方式展现出了巨大的发展潜力。然而,目前此类模型在图像和文本生成的综合能力上仍存在较大提升空间。
  • 文本生成方面,GPT 系列模型的质量已达到甚至超越人类水平,但在图像生成质量和真实性方面,所有模型的生成结果仍难以企及人工标注的自然图像。

通过详细的误差分析发现当前模型普遍存在诸如图像视觉质量差、连续生成的内容不一致、以及无法有效生成图像或文本等问题。这些发现为下一步模型优化指明了明确的研究方向。此外,研究团队还针对不同类型模型(如 GPT-4o+DALL-E3、SEED-X、Anole 等)出现的具体问题进行了分析(例如事实性错误,文本或图片、图片风格不一致、生成效率不足等)并总结了问题出现的比例,为未来的方法优化提出了明确的路径。

此外,在使用 OpenING 基准对近期发布的新模型 GPT-4o-ImgGen 和 Gemini 2.0-Flash-ImgGen 和进行评测时,我们惊喜地发现他们在多个任务中展现出了较强的图文理解能力,以及更为可靠的内容编辑与交错生成能力。同时,我们也观察到一些尚待解决的问题,例如 GPT-4o-ImgGen 对 prompt 中命令顺序的高度依赖 (如需要指示模型先生成文字再生成图像)且生图效率低,而 Gemini 2.0-Flash-ImgGen 无法在图片中生成高准确度和可识别的文字等。

开放源码与数据,全社区共建

为了推动图文交错生成领域的进一步发展,OpenING 研究团队已全面开源了完整的基准数据、IntJudge 评测模型及相关代码。

未来,OpenING 团队还将继续扩展数据规模与多样性,进一步优化评测模型,并推动更接近真实应用场景的研究。团队鼓励更多研究者加入,共同推进这一前沿领域的研究。研究团队相信,OpenING 将持续助力人工智能在真实场景中的落地,让机器真正具备与人类媲美的图文交互能力。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

全网都在猜,这些视频是不是字节AI生成的:该跟动捕说再见了?

动作捕捉,刚刚发生了革命。

在 GPT-4o 的风到处吹时,X 平台(原推特)上有好多带视频的帖子爆了。


到底是什么引来了一百万的浏览量?

图片

没错,是玛丽莲・梦露「活了过来」。她不仅能够语音 — 口型保持一致,动作也能复刻参考示例。在大幅度的手臂摆动时,也不会出现严重的变形或虚影。

网友瞳孔震惊,「别告诉我,这些都是 AI 生成的……」

图片
图片
图片

这两段视频更是 Next Level。相比梦露黑白视频示例,他们所处的环境光影更具挑战。仔细观察,二者举手投足都能看到光影相应正确的变化,甚至灰色衣服男子的衣服在不同幅度的动作下有对应摆动。

网友都感慨到,AI 真的很伟大,或许已经争取到了不再用动捕的胜利。

图片

不仅还原度极高,它还能掌握不同风格的生成。

图片

本周四在网络上爆火的 AI 视频生成效果,都来自字节跳动提出的一个全新的框架 DreamActor-M1—— 基于扩散式 Transformer(DiT)的人体动画生成框架,通过混合引导机制,实现对动画的精细化整体控制、多尺度适应以及长时间一致性。

只需一张参考图像,DreamActor-M1 就能模仿视频中的人物行为,跨尺度生成从肖像到全身的高质量、富有表现力且真实感十足的人体动画。最终生成的视频不仅在时间上保持连贯性,还能准确保留人物身份特征,画面细节也高度还原。

  • 论文标题: DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance
  • 论文链接:链接
  • 项目页面:链接

我们先快速梳理一下这项研究的要点:

  • 在运动引导方面,研究者设计了一套融合隐式面部特征、3D 头部球体和 3D 身体骨架的混合控制信号,能够稳健地驱动面部表情与身体动作的生成,同时保证动画的表现力与人物身份的一致性。
  • 在尺度适应方面,为了应对从特写肖像到全身图像等不同尺度和姿态的变化,字节跳动采用了逐步训练策略,利用多分辨率、多比例的数据进行训练,提升模型的泛化能力。
  • 在外观引导方面,他们将连续帧中的运动模式与互补的视觉参考相结合,有效增强了复杂动作中未显区域的时间一致性。实验结果表明,该方法在肖像、半身以及全身动画生成任务中均优于现有先进技术,能够持续输出富有表现力且长期稳定的一致性动画。

下图概述了 DreamActor-M1 的总体流程:

图片

首先,从驱动视频的帧中提取出人体的骨架(表示姿势)和头部的球体(表示头部的位置和朝向),这一步就像是先把人的动作「抽象出来」。接着,这些信息会被姿态编码器的模块处理,转化为姿态潜变量。可以简单理解为这个动作变成了数字表示。

同时,研究者还会从整个视频中截取一小段,用 3D VAE 进行编码,得到视频潜变量。这个潜变量是被加了噪声的(也就是故意让它模糊一点,方便训练)。然后,把视频潜变量和先前得到的姿态潜变量融合在一起,作为输入。

面部表情则面部动作编码器单独处理,把它编码成隐式的面部信息,比如笑、皱眉这些表情特征,也用数字方式表示出来。

系统还可以选取输入视频中的一张或几张图像,作为参考图像。这些图像里包含了人物的外观细节,比如穿什么衣服、长什么样。在训练时,这些参考图像会作为额外的信息输入,帮助模型更好地保留人物的外貌。

在训练过程中,DreamActor-M1 采用了共享权重的双分支结构:一个处理噪声 token,一个处理参考 token。模型通过对比生成的去噪视频潜变量与真实视频潜变量来进行监督学习,从而逐步学会还原人物动作。

此外,在每个 DiT 模块中,面部动作 token 通过跨注意力机制被融合进噪声 token 分支,而参考 token 的外观信息则通过连接式自注意力和后续的跨注意力机制注入到噪声 token 中。

图片

在模型训练完之后,如何用它来生成一个带动作的动画视频?生动来讲,就是真人带着模型跳舞,用一张人物图片和一段动作视频就能让图片中的人物动起来。敲敲黑板,为了保持人物在不同视角的一致性,参考图可以使一张图,也可以是模型合成的「伪多视角」。

对比其他 SOTA 方法,不难发现,DreamActor-M1 有着更好的保真性。人物在动作过程中能更好地保留自身特征,也鲜有鬼影、变形的情况出现。

图片
图片

DreamActor-M1 与其他动画方法在五项关键指标上的定量对比实验中也表现优异。

图片

不过在一些案例里,我们还是可以发现某些局限性。例如这个说唱的示例,由于视角问题,生成画面中的嘴部动作没法儿跟上示例。

图片

不过,再给这些技术一段时间,可能不仅动捕慢慢会被取代,电影里的危险特技也能有方法代替了。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

澳大利亚社交媒体禁令受到全球赞誉——但我们对其运作方式仍然不明

澳大利亚的热门Netflix剧集《青春期》探讨了由社交媒体和有毒男性气质引发的青少年谋杀案,重新唤起了某些国家对社交媒体禁令的呼声。


该剧一名明星本周表示,英国应效仿澳大利亚,禁止16岁以下的儿童使用社交媒体平台。此禁令在美国和英国得到了赞赏,并被澳大利亚政府形容为“世界领先”。《时代》杂志本周称赞总理安东尼·阿尔巴尼斯(Anthony Albanese)出台的这一“显著”政策,认为其“政治上并不有争议”,因为两大主要政党对此皆表示支持。然而,批评的声音被忽视,心理健康团体、LGBTQ+团体及其他活动者在去年匆忙通过立法过程时提出了大量质疑。审查该法案的委员会仅用了一个整天的时间进行审查,尽管接收到了超过15,000份的意见书。

作者乔纳森·海特(Jonathan Haidt)据称在澳大利亚游说了政治家推动这一政策,他在接受《纽约时报》采访时私下里驳斥了对其方法的质疑,并表示“这项政策将会成功。它不必一开始就完美,但几年后会变得非常好”。他指出,如果这项政策在澳大利亚成功实施,很快就会在全球范围内推广。

然而,在距离该政策生效还有九个月的情况下,澳大利亚人仍不清楚这一禁令——2024年11月通过的法案——将如何实施。关于年龄认证技术的试点工作正在进行,学校儿童仍在招募中,而最终报告就要在几周后到期。

该项针对16岁以下儿童的社交媒体禁令预计将在12月生效,但政府在这之前面临许多障碍,包括确定使用何种技术,以及预计受特朗普影响的社交媒体平台是否会遵守规定。由阿尔巴尼斯政府招募的英国公司“年龄检测认证方案(ACCS)”将对用于验证用户年龄的技术进行评估,并预计在4月底向政府提交初步报告。

虽然据称这一报告在本月有望按计划提交,但《卫报》澳大利亚版已证实,该初步报告不会公开发布。通讯部的一位发言人表示,报告从未拟定为公开发布,而是为了“给予试点参与者在所需更改上的程序公正”。

最终报告预计将在初步报告后两个月内于6月提交,此时新任通讯部长将决定适用哪些平台及何种技术。ACCS已开始招募学龄儿童测试各种技术,但仍在进行教育和同意程序。儿童将作为“神秘顾客”,尝试通过各种年龄认证方法访问专门建立的在线平台,相关文件显示。

这一过程距离测试、分析和提交最终报告的截止日期只剩下数周。尽管这一禁令在联邦选举活动中并不是主要焦点——由于双方均表示支持,工党在保守党压力下最终妥协通过——但如何实施禁令仍存在重大担忧,涉及到哪些用户将被包括在内。例如,TikTok和Meta对YouTube获得的豁免感到愤怒。政府在为何允许这种豁免的消息传达上同样模糊。

通讯部长米歇尔·罗兰德(Michelle Rowland)去年表示,YouTube将因健康和教育原因成为一系列豁免服务的一部分。但是在决定哪些服务被豁免的文档草案中,YouTube单独获得豁免,而健康和教育服务则是另一个豁免。针对此问题,绿党参议员莎拉·汉森-杨(Sarah Hanson-Young)上月向参议院委员会提出了质疑,部门表示这一豁免与广泛的社区情绪一致,突显了YouTube作为教育和学习工具的价值。

证据显示,在13岁以下的儿童中,大多数都在访问YouTube。一份来自电子安全专员的报告显示,超过80%的8至12岁的儿童正在访问社交媒体,尽管目前的最低年龄要求为13岁。然而,这一数据在很大程度上是由于儿童使用未登录的方式或借用父母或看护者账户访问YouTube而造成的。排除YouTube后,这一比例更接近44%。而TikTok和Snapchat则分别以68%、31%和19%的比例位列后面。

同样值得注意的是,负责监督试点的利益相关者顾问委员会的一些成员长期以来一直呼吁对在线色情进行禁令或限制,并要求实施在线审查。然而,数字权利和隐私组织并未出现在委员会中。经过《卫报》的询问,这些组织后来受邀申请加入利益相关者顾问委员会,但目前似乎尚未被纳入。

最终,这一过程是否能够为政府提供可靠的报告并在年底之前实施,仍尚待观察。此外,这些社交媒体公司是否会积极配合也充满不确定。某些平台之间的不一致对待可能会促使Meta等公司寻求美国政府介入,以推动对澳大利亚禁令的反对。然而,本周,阿尔巴尼斯和反对派领袖彼得·达顿(Peter Dutton)表示,该禁令不会进行谈判。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

NetOp.Cloud推出AI驱动的网络评估报告解决方案

在网络复杂性迅速增长的背景下,停机成本以百万计,NetOp.Cloud自豪地推出其先进的评估报告解决方案——这一突破性创新有望重新定义企业和MSP的网络操作与管理方式。图片{ width=60% }


NetOp.Cloud的新解决方案提供可操作的智能,将网络操作从被动的灭火工作转变为积极的战略优势。

网络操作的游戏规则改变者

与传统的报告工具仅仅监控和警报不同,NetOp的AI驱动平台超越了检测,提供可操作的智能。通过与现有基础设施的无缝集成,它揭示了其他工具遗漏的性能异常和趋势,使IT团队能够专注于最重要的事件,而不被警报噪声淹没。

“在当今快速发展的数字环境中,组织需要的不仅仅是基本的网络可见性,”NetOp.Cloud的首席执行官Bibi Rosenbach表示。“我们创建了一种易于使用的报告解决方案,能穿透复杂性,明确显示最重要的内容。我们的先进评估报告解决方案提供团队所需的可操作智能,以提前预见和解决问题,而不增加任何运营负担。”

早期采用者看到显著影响

使用NetOp解决方案的企业与MSP已经看到了显著的好处,包括:

  • 警报噪声减少高达90%,使IT团队能够优先处理真实问题。
  • 加快价值实现,关键洞察在部署后七天内可用,30天内完成历史分析。
  • 积极网络优化,帮助组织在出现成本瓶颈之前防止其发生。

“NetOp的报告工具帮助我们专注于最具有影响力的事件。它显著减少了警报噪声,提供我们真正重视的智能、可操作的信息。我们的网络基于Cisco和多供应商环境,NetOp.Cloud给我们提供了高效运营所需的清晰度和洞察。”——GSDSolutions.io的联合创始人兼CTO Scott Davison。

旨在多供应商、混合及云连接环境

NetOp的解决方案确保在传统、云连接和多供应商网络环境下实现统一可见性,能够与Cisco、HPE、Fortinet、Palo Alto、Broadcom等无缝集成。通过利用AI驱动的算法,它识别出影响深远的异常,将其转化为可操作的事件,为IT团队节省了宝贵的时间,并确保了最佳性能。

借助NetOp的AI驱动网络评估解决方案,企业与MSP现在拥有了超越警报、基于智能采取行动、并信心满满地优化网络操作的能力。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

SAFE被Liminal评为第三方风险管理领导者

被认可的卓越产品能力、人工智能驱动的自动化和高用户满意度
SAFE,领先的AI驱动的持续网络风险管理公司,今天宣布其在2025年Liminal的网络安全第三方风险管理(TPRM)链接指数中被评为“领导者”。图片{ width=60% }


该报告在所有供应商中将SAFE的产品能力评为最高,同时在服务交付、战略对齐和基于AI的自动化方面获得了“卓越”评级。

“我们很荣幸被Liminal评为第三方风险管理的领导者,”SAFE的首席执行官Saket Modi说。“这进一步强化了我们的信念,即TPRM的未来是自治的——由主动人工智能主导,不仅仅是协助,而是自主驱动行动。它旨在无缝扩展,将手动工作减至零,并推动实时决策,让业务向前发展。”

Liminal链接指数™是一个受尊敬的行业基准,评估领先的网络安全供应商在产品表现、用户满意度和战略执行上的表现。SAFE因其交付的自主、端到端的第三方风险管理而受到关注,由主动AI提供支持的这一系统有专门的AI代理,能够自动化供应商的入驻、评估、证据收集、监控和执行报告。

报告指出:“战略上,SAFE安全与从业者的需求对齐,专注于自动化、零信任原则和基于AI的能力。”

SAFE在链接指数™报告中的关键亮点包括:

  • 产品能力 – 在所有领先供应商中得分最高
  • 从业者满意度 – 超过领先供应商类别中位数8%
  • “优秀”评级 – 在战略、产品深度和市场影响力方面

报告还指出SAFE的:

  • 高效的供应商入驻和自动化外部风险扫描,分钟内完成
  • “如果”模拟和控制建议,帮助优先处理补救措施
  • 可扩展的基于使用的定价模式,避免每个供应商的费用
  • 在数据隐私、准确性和客户支持方面的高用户满意度
  • 随着网络风险和TPRM市场需求的上升,员工快速增长

通过SAFE TPRM,组织能够受益于:

  • 100%自动化的风险评估
  • 100倍更快的供应商入驻
  • 100%风险优先的供应商管理

SAFE的自主AI代理在第三方生命周期的每个阶段都在运作,帮助组织减少风险、满足合规要求,并自信扩展——无需手动努力或复杂性。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Hornetsecurity集团收购Altospam

Hornetsecurity进一步巩固其作为欧洲网络安全冠军的地位
Hornetsecurity是一家全球领先的下一代云安全、合规性、备份和安全意识解决方案提供商,今天宣布已签署最终协议收购法国电子邮件网络安全公司Altospam。图片{ width=60% }


该公告是在法国的网络安全论坛INCYBER Europe (FIC) 发布的,Hornetsecurity已在Lille的Zenith占据了1,800平方米的空间,提供沉浸式体验。
收购的完成仍需遵循法国外国直接投资法规,获得法国经济部的批准。

此次收购将补充Hornetsecurity提供欧洲制造的网络安全解决方案的战略,进一步扩大该集团在法国的专业知识和业务布局,此前它在去年收购了Vade Secure。
总部位于德国汉诺威的Hornetsecurity在全球范围内以其单一平台的方式而闻名,提供包括网络安全、备份和GRC(治理、风险管理与合规)以及安全意识在内的全面解决方案,支持Microsoft 365,通过一个便捷的中心平台进行管理。总部位于法国波尔多的Altospam以其在电子邮件网络安全领域的专业知识而受到认可,为专业电子邮件提供安全解决方案。

Altospam首席执行官Jean-Christian Dumas表示:“我们非常高兴能够加入Hornetsecurity集团,这使我们得以成为在主要以美国为中心的网络安全世界中,一个卓越的欧洲网络安全冠军。这个重要的里程碑将为我们的合作伙伴和客户提供更广泛的强大的、由人工智能驱动的网络安全解决方案,这些解决方案自豪地在欧洲构建,涵盖电子邮件安全、备份与恢复、权限管理、合规性和安全意识等领域。”

Hornetsecurity首席执行官Daniel Hofmann说:“我们非常高兴欢迎Altospam加入Hornetsecurity集团。作为一家受人尊敬的欧洲开发者,Altospam的核心目标与Hornetsecurity的根本使命高度一致,即通过我们的下一代云网络安全服务创造一个更安全的世界,从而为合作伙伴和客户带来整体的协同效应。”
他补充说:“作为我们泛欧洲战略的一部分,我们确保客户数据在其各自国家的边界内,保障数据主权、安全和隐私。”

此项交易符合Hornetsecurity在产品建设和国际扩展方面的战略。Hornetsecurity在PSG Equity、TA Associates和Verdane三家领先的软件和专业增长投资公司的支持下,旨在建立一家领先的国际云安全和合规软件冠军。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

报告:50%的公司预计人工智能将增强全球沟通

新数据表明,54%的领导者认为翻译是人工智能的未来
根据Language I/O的最新研究,这是一家全球领先的人工智能翻译解决方案提供商,绝大多数商业领袖现在将实时翻译视为他们最紧迫的人工智能需求。图片{ width=60% }


2025年的全球研究显示,54%的企业将翻译技术列为其首要的人工智能优先事项,因为公司在准确性、安全性以及日益增长的无缝跨语言沟通需求方面面临挑战。
Language I/O与Brandata合作,调查了来自北美和EMEA(涵盖美国、德国、英国、南非和加拿大)的大型企业领导者,共计1,089名受访者,旨在了解拥有5000名以上员工的企业是如何应对这些复杂挑战的。关键发现包括:

语言障碍严重干扰客户支持(45%)和员工培训(32%),影响员工留存率和运营效率。
34%已经使用人工智能工具进行语言任务,40%期待文本转语音翻译的进步,以及36%预期多语言聊天机器人。
随着人工智能的普及,35%的企业仍然对准确性和文化相关性保持关注,同时关注成本和安全性。

“这项研究证实了我们在各行业中所看到的:在今天的全球经济中,语言障碍是不可接受的,”Language I/O的创始人兼首席执行官Heather Morgan Shoemaker表示。“随着人工智能能力的扩展,商业领袖意识到,实时、准确的翻译是基础设施的必要组成部分。我们的技术使公司能够打破语言障碍,释放出更多时间来关注最重要的事情:与全球客户和合作伙伴建立有意义的联系。”
人工智能是翻译的主要应用案例,使人类对话比以往任何时候都更具意义。尽管如此,近60%的企业预计未来将是一个合作的场景,其中人工智能将增强而非取代人类的专业知识,强调了平衡方法的必要性。因此,协作型人工智能模型将成为成功的多语言策略和客户服务的基石。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

GPU即服务:在AI硬件市场中平衡竞争

随着科技巨头在供应链上的主导地位日益加深,ionstream首席执行官Jeff Hinkle解释了GPU即服务(GPUaaS)和裸金属云如何为初创企业和开发者开放获取重要基础设施的机会。图片{ width=60% }


AI的繁荣正在推动对GPU的巨大需求——这已经成为科技生态系统中最受欢迎和最昂贵的组件。大型科技公司正在确保长期供应合同,并建设庞大的新数据中心,导致较小的参与者在获得计算资源方面陷入困境。

要理解这一规模,只需看看埃隆·马斯克的xAI。该公司最近在南西南美密布收购了一处100万平方英尺的物业,以扩大其AI数据中心的布局——这增加了其现有的孟菲斯站点以及在亚特兰大的新开发项目。2025年,xAI计划将其NVIDIA GPU阵列的规模扩大十倍,从10万增加到100万。

他们并非孤例。Meta、OpenAI、微软等主要参与者也在积极投资基础设施。结果是:前所未有的需求、不断上升的价格和供应瓶颈。就在上个月,OpenAI首席执行官Sam Altman在X上发帖称公司“缺乏GPU”,推迟了ChatGPT 4.5的发布。

尽管这些投资可能推动进步,但它们也暴露了不平衡。初创企业、研究人员和较小的AI公司常常被置于后列——要么等待数周或数月才能获得高性能硬件的访问权,要么支付高昂的价格以保持竞争力。

重新思考基础设施:为什么部署模型很重要
随着AI模型在规模和复杂性上呈指数级增长,开发者需要与其雄心相匹配的计算能力——而不会让他们的预算承受重大压力。云GPU和GPU即服务(GPUaaS)产品以及裸金属云已成为可访问、灵活的解决方案。

这些服务让公司可以按小时或按天租用GPU资源,而不是购买和维护现场硬件。像ionstream这样的提供商与供应商保持密切关系,帮助客户在供应紧张时获得最新的芯片。例如,NVIDIA的新发布的B200现已通过ionstream以每小时仅需$2.40的价格提供。

GPUaaS和云GPU的优势:

  • 按需可扩展的性能——将计算能力与实时需求对齐,避免过度配置和资源浪费。
  • 更低的入场财务门槛——一台NVIDIA H200的成本超过$25,000,而按需费率起价为$2.49/小时。
  • 更快的上市时间——减少采购延误帮助开发者加速开发、迅速迭代,并保持竞争力。
  • 无维护负担——提供商处理基础设施,使团队能够完全专注于构建、训练和扩展模型。

裸金属云:原始动力,完全控制
对于需要专用访问的公司,裸金属云将物理服务器的性能与云基础设施的灵活性相结合。

裸金属解决方案提供:

  • 适合延迟敏感或计算密集型工作负载(例如,大规模ML训练)的高吞吐量
  • 通过在专用硬件上隔离工作负载来增强安全性
  • 操作系统、库和API的完全定制——非常适合高级开发人员和研究团队

这种模型对AI实验室、金融科技创新者和生物技术公司特别有吸引力,因为它们寻求更高的可预测性和控制权,而无需牺牲规模。

编排很重要:Kubernetes与Slurm
随着工作负载在多个集群和GPU之间扩展,编排变得至关重要。两个主要框架——Kubernetes和Slurm——为大规模AI部署提供强大的资源管理。

Kubernetes最佳用于容器化的云环境。它具有自愈能力,自动重新分配工作负载,并支持基于需求的自动扩展。
Slurm在高性能、裸金属环境中表现出色。它在数千个GPU之间调度和分发任务,以优化速度、能源效率和可靠性——特别是在科学研究和深度仿真中。

选择合适的编排工具确保资源得到有效使用,成本在大规模下保持可控。

Ionstream的角色
“AI领域不应由谁拥有最多资金来决定,”ionstream首席执行官Jeff Hinkle表示。“GPU即服务为每一位创新者从灵活的初创公司到学术实验室提供了所需的计算能力,让他们能够竞争。”

ionstream提供由前沿NVIDIA芯片(包括B200、H200、L40S等)驱动的按需GPUaaS和裸金属解决方案。无论您是在扩展大型语言模型、运行复杂的仿真,还是加速洞察的时间,Ionstream的基础设施都是为性能、灵活性和经济性而量身定制的。

PR Newswire能为传播者提供识别和与关键影响者互动的能力,制作和分发有意义的故事并测量其所作努力的经济影响。Cision是全球领先的公关和市场传播专业人士提供的媒体软件和服务的提供商。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB