「开源版GPT-4o」来了!这个17B国产模型生图效果比肩4o,还可商用

前段时间,GPT-4o 火出了圈,其断崖式提升的生图、改图能力让每个人都想尝试一下。虽然 OpenAI 后来宣布免费用户也可以用,但出图慢、次数受限仍然困扰着没有订阅 ChatGPT 的普通人。


那除了 GPT-4o,我们还有没有其他选择呢?去 Artificial Analysis 的文生图大模型竞技场找一下就知道了。

在这个竞技场上,我们发现前段时间排到第二名的模型 —— 拥有 17B 参数的 HiDream-I1 和 GPT-4o 得分很接近。

图片

AI 基准测试和分析平台 Artificial Analysis 发推宣布 HiDream-I1 成为文生图开源模型新 SOTA。这个平台采用竞技场模式来评估模型,即同时给两张不同模型生成的图像,让人类从中选出和 prompt 最贴合的。

值得一提的是,这个模型在上线的 24 小时之内就登顶了 Artificial Analysis 竞技场榜首,也是首个登顶该榜单的中国自研生成式 AI 模型。

通过一些对比图可以看到,HiDream-I1 的生成效果似乎不输 GPT-4o,比之前「把 Midjourney 打下神坛」的 FLUX1.1 [pro] 效果还要好。重点是,这三个模型里,只有 HiDream-I1 是开源的,而且是允许商用的那种开源(MIT 协议)。

图片
图片

而且,开源这个模型的国内公司 —— 智象未来刚刚宣布,他们即将开源的另一个模型 —— HiDream-E1 还支持交互式图像编辑,可以像 GPT-4o 那样把你提供的图修改为任意风格、任意内容。二者合在一起,实现了类似于 GPT-4o 图像生成和编辑的「言出法随」效果,填补了「开源版 GPT-4o」的空白。

图片

HiDream-E1 的图像编辑效果,模型将于近期开源。

那么,HiDream-I1 的效果究竟好在哪儿?我们可以多看一些案例详细分析。

HiDream-I1 生图效果如何?

GPT-4o、FLux 之所以能够走红,其生成画面的真实感、细腻度和遵循指令的能力起到了重要作用。

为了测试 HiDream-I1 能不能担得起「开源版 GPT-4o」这个称号,我们参考前段时间 OpenAI 官宣 GPT-4o 新能力时发布的一些 prompt 测试了一下。

图片

GPT-4o 博客中给到的生成案例与 prompt。

HiDream-I1 生成的结果如下:

图片

提示词:写实的照片,一匹马从右到左奔驰在一个巨大的,平静的海面上,准确地描绘了溅起的水花,反射,和马蹄下微妙的涟漪图案。夸张马的动作,但其他一切都应该是静止的,安静的,以显示与马的力量形成对比。干净的构图,电影般的。广阔的全景构图,展示远处的地平线。大气透视创造深度。放大后的马与浩瀚的海洋相比显得微不足道。

图片

提示词:真实水果与微型行星(木星、土星、火星、地球)混合而成的果盘照片,保持真实的反射、光照、阴影与原图一致,构图干净,纹理真实,细节渲染清晰

图片

提示词:一个真实的水下场景,海豚从一辆废弃的地铁车厢的窗户游进来,气泡和水流的细节被精确地模拟出来。

图片

提示词:这是一张狗仔队风格的偷拍照片,卡尔・马克思匆忙穿过美国购物中心的停车场,他带着惊讶的表情瞥了一眼,试图避免被拍到。他手里拿着几个锃亮的购物袋,里面装满了奢侈品。他的外套在风中飘动,其中一个包在摇摆,好像他正在大步前进。模糊的背景与汽车和发光的商场入口,以强调运动。相机发出的闪光部分过度曝光了图像,给人一种混乱的小报感。

整体上看,HiDream-I1 生成的图在真实感、细腻度上和 GPT-4o 是非常接近的,有时还能更胜一筹。在和 Flux 相比时,这个特点更加明显。

比如在下面这个例子中,HiDream-I1 生成的图像具有更多精细的元素,包括纹理、背景细节以及物体之间的层次感(猫毛在光的照耀下根根分明,给人一种强烈的生机感;咖啡壶的不锈钢材质恰到好处地反射光线,呈现出真实的质感)。相比之下,Flux 虽然也能生成具有良好细节的图像,但在细节材质上不如 HiDream-I1 细腻丰富。

图片

提示词:一只可爱的橙色猫咪坐在咖啡研磨机旁,用爪子慢吞吞地转动着研磨机的把手。猫咪专注的表情和温柔的咕噜声在舒适宁静的厨房里被捕捉到。柔和、温暖的光线透过窗户,在猫和磨床上投射出柔和的光芒,增强了宁静的氛围。这一场景以写实的风格呈现,强调平静和亲密。

在色彩的呈现上,HiDream-I1 的表现也更出色,能够生成层次分明、色调多样的图像(仔细看下图中狼的脸部毛发,HiDream-I1、GPT-4o 的颜色层次都更丰富)。Flux 的色彩使用虽然也相当丰富,但在某些场景下,色彩的搭配和过渡显得较为单一,缺乏一定的饱和度和层次感。

图片

提示词:一只穿着音乐家燕尾服的 3D 狼。像人一样两条腿直立站着,拿着吉他,周围是放大器和舞台,这里散发着艺术和优雅的气息。

此外,这种真实感、细腻感还来自模型对客观规律的理解。从下图可以看出,HiDream-I1 对客观规律的理解较为精确。无论是物体的摆放、人物的动作姿势,还是环境中的光影效果,HiDream-I1 都能展现出符合现实世界的自然规律。而 Flux 则在这方面存在一定局限,特别是在处理动态场景和复杂物理互动时,模型的表现不够真实,常常出现不符合物理定律的情况。

图片

提示词:一只穿着音乐家燕尾服的 3D 猫,两条腿直立,拿着小提琴,周围是旋转的音符和大钢琴,散发着艺术和优雅的氛围,聚光灯照亮了现场,创造了一个戏剧性和精致的环境。

即使是遇到复杂的提示词,这些特点依然能够在 HiDream-I1 生成的图中得到保留。这是模型复杂文本理解、遵循能力的体现。

图片

HiDream-I1 生成的图像。提示词:中世纪城堡的石砌城墙,身披铠甲的战士面向镜头,跃动的火焰在他身后勾勒出粗犷的面部轮廓。火星随风溅落在生锈的锁子甲上,右手不自觉地握紧腰间剑柄,深褐色的斗篷在热浪中剧烈翻卷。燃烧的箭矢在远处塔楼持续坠落,橙红火光与靛蓝夜空形成强烈对比,照亮了城墙垛口剥落的青苔和战士眉骨处的陈旧伤疤。

在各项基准测试数据中,以上视觉效果得到了印证:

  • 首先是 HPSv2.1,这是一个基于人类偏好选择数据集训练的偏好预测模型,能够对同一提示下产生的不同图像进行评分比较。在这个基准上,HiDream-I1 在多种风格(如动漫、概念艺术、绘画和真实摄影)上达到最优。这说明,HiDream-I1 生成的各种风格图像都更符合人类审美。

  • 其次是 GenEval 和 DPG-Bench,前者通过检测对象和颜色分类来验证生成图像与文本提示之间的匹配程度,后者专注于检测生成图像中的多个对象、详细属性和复杂关系(当提示又长又复杂的时候适合用这个基准评测)。在这两个基准上,HiDream-I1 都达到了最优。这说明,HiDream-I1 的指令遵循能力很强。

图片

HiDream-I1 在 HPSv2.1 上的得分数据。

图片

HiDream-I1 在 GenEval 上的得分数据。

图片

HiDream-I1 在 DPG-Bench 上的得分数据。

为了提升生图效果 智象未来做了哪些技术改进?

强大的指令遵循能力和逼真、细腻的生成效果本质上都要归功于技术改进。

为了提高模型理解文本的能力,HiDream-I1 采用了新的被称为「Sparse Diffusion Transformer(Sparse DiT)」的架构设计。这个架构在 DiT 框架下融合了 Sparse Mixture-of-Expert (MoE)技术,让不同的专家模型处理不同类型的文本输入,各有专精。

同时,这个架构设计还带来了一个额外的好处 —— 在提高模型性能的同时控制运算开销,使得 HiDream-I1 用起来性价比很高。对于关注开源模型算力消耗的个人开发者、创业公司来说,这是一个很有用的优化。

图片

HiDream-I1 模型架构图。

图像质量的提升则要归功于研究者在扩散模型蒸馏中融入生成对抗学习,借助 GAN 捕捉细节、锐化边缘的能力,在蒸馏扩散模型的同时进一步提升了生成图像的真实感和清晰度,实现速度与质量的双重优化。

值得一提的是,这样训练出来的 HiDream-I1 具有很强的可扩展性。所以在模型训练出来后不久,智象未来就将其扩展到了交互式图像编辑大模型 HiDream-E1,让图像编辑场景也有了「开源版 GPT-4o」可用。

HiDream 系列模型开源 影响力已初步彰显

无论从实测效果还是基准测试结果来看,智象未来的 HiDream-I1 都已经非常接近 GPT-4o,站稳了国内图像生成第一梯队。

图片

而且,由于模型是开源的,其国际影响力也在逐步显现。在开源后两天,文生图大模型竞技场上的另一家模型公司 —— Recraft AI 就宣布,他们已经集成了 HiDream-I1,还手把手教网友怎么选用这个模型。

图片

图片

在 HuggingFace Trending 榜单上,HiDream-I1 飙升到了第二名。这说明 HiDream-I1 的下载量、点赞数都很可观,在社区中非常受欢迎。

当然,没有本地部署需求的朋友也可以在智象未来的官方平台 Vivago 上体验 HiDream-I1。该平台上有更完整的工作流,支持在生成图像的基础上进行视频制作等二次创作。图片

Vivago 上的图像转视频效果。

据悉,过段时间,智象未来还将发布多模态 Agent 产品。它的核心是让大家用对话聊天的形式来生成图片 / 视频,并使用自然语言对图片 / 视频内容进行相应的编辑,从而渐进式地生成有故事情节的内容。便利之处在于不需要用户自己去跨平台选择调用需要的功能以及调节复杂的参数。

对于这样的模型改进、产品开发理念,智象未来 CTO 姚霆曾做出过解释 —— 在应用端,真实感、指令遵循和叙事性的能力是用户愿意为之付费的基础,所以智象未来在改进模型的过程中始终关注这三大属性。如今,他们把这三点做到了新的高度,还开源了模型,可以说为想在这一领域开发应用的开发者或公司扫除了基础障碍。

智象的研发人员透露,下一个开源模型–HiDream-E1 即将开源,相关基准测试数据也将在近日发布。期待这个模型带来优秀的编辑体验。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。


目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。

图片

我们先来看两段视频,就能感知到生成内容的真实感有多强:

视频1
视频截图
视频2
视频截图

是不是已经分辨不出小李子莱昂纳多和 LeCun 是AI复刻出来的了?感兴趣的读者也可以从项目页查看更多Demo。

接下来,就让我们看下阿里通义实验室 HumanAIGC 团队对此论文的解读。

背景

近年来,随着语言大模型的迅速发展,虚拟主播、虚拟助手等应用得到了广泛的推广与使用。然而,针对文本驱动的数字人生成研究仍然较少,现有方法主要采用级联流水线的方式,将文本转语音(Text-to-Speech, TTS)系统与音频驱动的数字人模型相结合。这种传统流水线一方面引入了系统复杂性和延迟开销,尤其是在实时互动场景下,各模块之间的延迟问题成为影响用户体验的重要因素;另一方面还从根本上存在音画输出不同步以及生成语音与视觉表情风格不一致的问题,无法完美复制真人的说话风格。

为了解决这些局限性,我们提出了 OmniTalker,能够在零样本实时场景中,根据文本和参考视频同时生成同步的语音和数字人视频,同时保留语音风格和面部风格。该框架采用双分支 DiT 架构:音频分支从文本合成梅尔频谱图,而视觉分支预测精细的头部姿态和面部动态。为了桥接模态间的信息,我们引入了一种新颖的视听融合模块,整合跨模态信息以确保音频和视觉输出在时间上的同步性和风格上的一致性。此外,我们的上下文参考学习模块能够从单个参考视频中有效捕捉语音和面部风格特征,而无需额外引入风格提取模块。此方法特别注重保持声音的一致性和说话风格的真实性,同时优化了处理速度,确保了实时响应性能,从而显著提升了数字人生成的质量和效率。相较于传统的数字人生产流程,此方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。

图片
图 1. 区别于传统级联框架,OmniTalker 是一个端到端的统一框架,可根据文本和一段简短的参考音视频实时生成同步的语音和数字人视频,同时保持声音的一致性和说话风格的真实性。

方法介绍

图片
图 2. OmniTalker 结构图

我们的目标是在紧凑的网络架构中实现音视频联合生成,确保音频和视频输出之间的对应关系,同时从参考视频中复制声音和面部风格。受启发于 LLM 的上下文学习能力,以及多模态 DiT 在文生图中的优势,我们提出了如图 2 所示的模型架构。该架构有三个核心部分:

  1. 三个嵌入模块来分别捕捉参考音视频的动态特征以及文本信息,
  2. 一个双流 DiT 模型用于音视频并行建模,以及
  3. 一个音视频特征融合模块来确保音视频特征的紧密同步。

模型输入方面,包含驱动文本和参考音视频三种模态特征:

  • 音频特征:我们从参考视频中提取音频流,并利用梅尔谱图作为音频特征的表示方法。通过一个基于 MLP 的嵌入模块,我们将梅尔谱图转换为音频嵌入 x^a;
  • 文本特征:使用 ASR 模型将参考音频转化为文字,形成参考文本。随后,输入文本以及参考文本被转换成拼音序列(针对中文)或字符 / 字母序列(针对拉丁语系),并进行拼接。为了匹配音频嵌入 x^a 的长度,我们以某种填充标记对文本序列进行填充。文本嵌入过程采用了 ConvNeXt-V2 架构,生成的文本嵌入 c_t 作为条件指导音频和视觉分支的处理。
  • 视觉特征:对于视频片段,我们提取包含面部表情的 51 维混合形状系数、6 维旋转与平移参数(RT),以及每帧的眼球运动系数在内的视觉编码。如同处理音频特征一样,这些视觉编码也通过一个 MLP 映射到视觉嵌入 x^v 上,以实现统一的特征表示。

在训练阶段,音频和视觉特征会随机掩码序列的一部分,利用上下文学习来达成风格复刻的需求;而在推理阶段,则依据参考音频的节奏及输入文本的长度对音视频特征进行零填充,确保处理的一致性。

关于模型结构,我们方法的核心在于建模视频、音频和文本模态之间的交互,旨在生成既连贯又同步的音视频内容。我们的框架由一系列专门设计用于处理音频和视频数据流的 DiT 块组成,促进音频和视频特征间的跨模态融合,从而产出一致且同步的结果。模型的关键组件包括:

  1. 音视频特征融合模块:采用双分支架构,一个分支专注于处理视觉运动信息,另一个则负责解析音频信息。利用 MM-DiT 注意力机制,网络能够动态评估并平衡音频与视觉特征的重要性,确保最终生成的视频在时间轴上以及语义层面与输入音频完美对齐。
  2. 单模态 DiT 块:在完成初步的跨模态融合后,模型使用多个单模态 DiT 块进一步细化生成过程。这些块操作于已融合的多模态特征之上,但针对每个单独模态(即音频或视觉)进行优化,以提高输出质量。
  3. 音视频解码器:经过上述步骤生成的音视频特征随后通过预训练的解码器转换回原始格式。对于音频部分,我们使用 Vocos 解码器将合成的梅尔频谱图还原为语音,这是一种高保真声码器,也可替换为其他相似声码器如 HiFi-GAN。至于视频解码,我们设计了一个 GAN 模型(复用 ChatAnyone),它根据从参考视频中随机选取的参考帧为基础,并按照 DiT 模型预测的头部姿态和混合形状系数生成新的视频帧。该模型能以 30FPS 的速度生成分辨率为 512×512 的帧,满足实时推理的需求。

实验结果

鉴于当前尚无方法能够同时生成音频和视频,我们对文本转语音(TTS)技术和音频驱动的数字人生成(Talking Head Generation, THG)技术分别进行了比较分析。在 TTS 方面,我们挑选了三种代表性方法:MaskGCT、F5TTS 和 CosyVoice,并针对错词率(WER)和声音相似度(SIM)进行了对比评估。对于 THG 的评估,我们构建了一个多模态比较框架,涵盖以下几类方法:(1) 两种基于 GAN 的技术(SadTalker 和 AniTalker);(2) 两种最先进的基于 diffusion 的方法(EchoMimic 和 Hallo);(3) StyleTalk,一种具备风格保留功能的音频驱动 THG 方法。为了确保公平性和结果的可比性,实验中所有 THG 模型均采用由我们提出的方法生成的音频信号作为输入。

图片
表 1. TTS 性能对比

表 1 展示了我们的方法在音频测试集 Seed 上的测试结果,与 TTS 基线模型相比,我们的生成结果显示出更低的错词率(WER),这表明生成的音频与文本之间具有更高的一致性。此外,我们的方法在声音相似度(SIM)指标中排名第二,进一步证实了其在零样本条件下保持声音特征的能力。值得注意的是,通过对比包含和不包含运动分支(Ours w/o motion)的模型表现,可以看出完整模型实现了更低的 WER,这证明了结合视觉监督能有效提升生成音频的感知质量。我们将这种改进归因于多任务学习的有效性,因为在音频生成和面部动作之间存在着高度的相关性,两者结合可以相互促进,从而提高整体输出的质量。

在视觉质量评估方面,除了传统的峰值信噪比(PSNR)、结构相似性(SSIM)、Frechet Inception Distance(FID)、Frechet Video Distance(FVD)、ID 相似度(CSIM)以及口型同步(Sync-C)等指标外,我们还引入了两个新的评估标准 ——E-FID(表情 FID)和 P-FID(姿势 FID),以分别衡量生成的面部表情和头部姿势的真实感。具体而言,E-FID 结合了 51 维面部混合形状系数和 4 维眼动参数进行计算,而 P-FID 则通过 6 维旋转 - 平移参数来量化头部姿势的一致性和真实性。

图片
表 2. THG 性能对比

表 2 展示了 OmniTalker 在视觉生成方面的卓越性能。我们的方法在 9 个核心指标中,有 7 个达到了业界领先水平(SOTA),包括最高的 PSNR 和 SSIM,以及最低的 FID 和 FVD。

这些结果表明,我们的方法在视频生成质量方面具有显著优势。尤其在 E-FID 和 P-FID 上,我们的方法相比现有技术实现了一个数量级的提升,突显了其在保持面部运动风格和头部姿态方面的出色能力。这种能力使得我们的方法能够有效地继承参考人物的说话风格,从而实现高保真的音视频克隆。尽管我们的方法在 CSIM 和 Sync-C 指标上获得了次优成绩,但根据我们的经验观察,这些指标倾向于偏好正面视角的视频。相比之下,其他对比方法更倾向于生成正面视角的内容,而忽略了参考视频中实际的面部朝向。我们的方法通过准确捕捉并再现原始视频中的面部方向,提供了更加真实和自然的输出效果。

为了更直观地展示 OmniTalker 建模面部运动风格方面的卓越能力,我们对比了不同方法生成结果中的头部运动累积热图。如图 4 所示,通过将生成的视频与参考视频进行比较,可以清晰地看到,我们的方法生成的热图与真实数据的热图更为接近。图 3 则从时间维度进一步验证了这一点,我们选择头部偏航角(Yaw)作为跟踪指标来观察头部姿态的变化。左侧的红线代表参考序列,右侧展示了由各种方法生成的序列。结果显示,我们方法生成的序列无论是在幅度还是运动频率方面,都与参考序列保持了高度的一致性,同时保留了必要的自然差异,这表明我们的方法能够有效地继承头部姿态的风格特征。相比之下,其他方法生成的头部运动往往不够明显,缺乏动态变化。特别是 StyleTalk 方法直接复制参考姿势序列,虽然保证了与参考姿势的高度一致,但未能考虑语音内容与姿态之间的语义关联,导致生成结果缺乏灵活性和自然感。

图片
图 3. 头部姿态(Yaw)时间变化曲线

图片
图 4. 头部运动累积热图

在实时性方面,我们的方法通过创新地采用 flow matching 技术以及相对紧凑的模型架构(仅包含 8 亿个参数),实现了音视频的实时同步高质量输出。这不仅保证了出色的推理速度,同时也确保了输出的质量优于其他现有方法,如表 2 所示。这种能力使得我们的方法在不牺牲输出质量的前提下,满足了实时应用的需求。

团队介绍

阿里巴巴通义实验室的 HumanAIGC 团队专注于 2D 数字人和人物视频生成的研究,在相关领域内已发表了多篇顶会论文,比如单图驱动角色视频生成 Animate Anyone 以及 Animate Anyone2,单图语音驱动视频生成技术 EMO 以及 EMO2,实时数字人 ChatAnyone 等均出自该团队。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Blend推出《关键7:AI扩展策略》电子书

Blend,数据科学和人工智能解决方案的领导者,今天宣布发布其电子书《关键7:AI扩展策略》。图片{ width=60% }


这本综合指南解决了组织在将人工智能(AI)集成到其运营中时面临的七个关键挑战,并提供了切实可行的策略来克服这些挑战。

该电子书提供了克服企业AI采纳的七个最常见障碍的见解:

战略不匹配:构建AI计划以实现切实的商业价值,避免“试点地狱”
数据碎片化:通过AI支持的统一和治理识别并解决碎片化数据问题
缺乏信任:通过透明度和负责任的使用来建立对AI输出、平台完整性和工作安全性的信心
变化的步伐:制定平衡快速创新与负责任部署的政策
技术挑战:适应概率模型行为、基础设施需求和准确性权衡
AI人才短缺:通过再培训和针对性角色培训来应对AI专业知识的短缺
变更抵抗:通过重新定义流程、促进AI倡导者和全面管理转型来增强组织准备度

Blend开发的“关键7”框架旨在弥合AI潜力与其实用应用之间的差距。通过关注这七个关键领域,组织可以超越孤立的AI实验,实现企业级影响。

Blend360解决方案与服务线总裁Oz Dogan强调了该框架的影响:“在AI有潜力革命化行业的时代,许多企业发现自己陷入了‘试点地狱’,无法从实验转向全面实施。‘关键7’框架识别并提供AI成功最常见障碍的解决方案,包括战略不匹配、数据碎片化、人才短缺和信任问题。”

他继续说道:“使用‘关键7’框架的公司,其AI计划的启动成功率是四倍。一旦它们启动成功,成功将相互促进,加速基于AI的转型。”

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

ChatGPT记忆功能上线,AI助理变身“贴心小棉袄”!

OpenAI近日为ChatGPT推出了全新的记忆功能,让这位AI助手不再是“只记得三秒”的金鱼脑,而是能记住您过往的对话内容,提供更个性化的服务。现在,ChatGPT可以在不同会话中保留您的偏好、兴趣和需求,无需每次都重复说明。无论是写作、旅行计划还是旧项目的延续,ChatGPT都能为您提供更加贴合的建议。

🧠 什么是 ChatGPT 的记忆功能?

ChatGPT 的记忆功能允许 AI 在不同会话之间保留用户提供的信息,例如姓名、偏好、兴趣、写作风格等。这使得用户无需在每次新对话中重复提供相同的信息,从而提升了交互的效率和个性化程度。该功能通过两种方式实现:

  • 用户显式保存的记忆:用户可以明确指示 ChatGPT 记住某些信息。
  • 自动引用聊天历史:ChatGPT 会根据之前的对话内容自动提取和应用相关信息。

目前,该功能已向全球(除英国、欧盟、瑞士、挪威、冰岛和列支敦士登等地区)的大部分 Plus 和 Pro 用户开放,企业和教育账户将在未来几周内获得访问权限。

✨ 功能亮点

  1. 跨会话记忆:ChatGPT 能够记住用户的偏好、兴趣和需求,在后续对话中提供更加贴合的回应。
  2. 个性化互动:AI 会根据用户的历史信息调整回答的语气、风格和内容,提供更符合用户期望的互动体验。
  3. 灵活的记忆管理:用户可以通过设置界面查看、编辑或删除已保存的记忆,也可以选择关闭记忆功能或使用“临时对话”模式,确保隐私和数据安全。

🔧 如何使用和管理记忆功能

  • 启用或关闭记忆功能:在 ChatGPT 的设置中,用户可以选择开启或关闭记忆功能。
  • 查看和管理记忆:通过“管理记忆”选项,用户可以查看所有已保存的记忆条目,并进行编辑或删除操作。
  • 使用临时对话:选择“临时对话”模式,ChatGPT 将不会保存当前会话的任何信息,适用于需要保密的对话场景。

📌 应用场景示例

  • 教育辅助:教师可以让 ChatGPT 记住学生的学习进度和偏好,提供个性化的教学建议。
  • 内容创作:作家或博主可以训练 ChatGPT 采用特定的写作风格,辅助内容创作。
  • 日常助理:用户可以让 ChatGPT 记住个人日程、偏好等信息,作为智能助理使用。

⚠️ 注意事项与隐私保护

尽管记忆功能提升了 ChatGPT 的个性化能力,但也引发了关于隐私和数据安全的关注。OpenAI 表示,用户拥有对记忆功能的完全控制权,可以随时查看、编辑或删除已保存的信息。此外,用户还可以选择关闭记忆功能,确保个人数据的安全。

感谢您的阅读!如果您希望了解更多人工智能领域的精彩资讯,欢迎前往 GPTNB 探索更多相关文章。

学校中的手机可以成为学习的助力

读到英国有如此多的学校实施了手机使用的全面禁令,实在令人失望(4月10日报道,超过90%的学校禁止使用手机)。


虽然学生的参与感以及对手机和社交媒体的依赖问题确实需要解决,但学校更有可能通过教授学生如何以健康、有目的和丰富生活的方式使用技术来支持他们的发展。如果能在推动社交互动和鼓励课外学习之间找到一个平衡、细致的方法,也许就能更好地利用手机或平板电脑来实现这些目标。所有学生都应该具备获取优质信息并在追求独立学习中更快转移知识的能力。如果手机或平板能帮助实现这一目标,那我们或许不应太快否定它们在学校中的作用。难道我们不应该帮助学生在学校内外都能自信地使用数字设备吗?否则,年轻人又如何学习如何批判性地思考,并在充斥着被人工智能超级充实的虚假信息的在线空间中导航呢?

—— 罗伯特·哈里森
教育和集成技术主任,ACS国际学校



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Anecdotes推出AI代理,以Google Cloud转变GRC

Anecdotes, 领先的数据导向的治理、风险和合规(GRC)自动化平台,今天宣布推出其AI代理,旨在帮助企业驾驭GRC的复杂性。图片{ width=60% }


这些是为企业GRC构建的首批AI代理,集成了Google Cloud基础设施,以提高GRC工作流程的自动化和优化,提高效率和准确性。

这些新的AI代理利用Anecdotes独特的数据优先方法来进行GRC自动化,使用机器学习(ML)和自然语言处理(NLP)来自动化流程并解锁新的机会。通过将AI集成到GRC操作中,企业能够获得自动化和洞察,增强效率、可扩展性和准确性。

第一个可用的AI代理是 政策守护者(Policy Guardian),它确保书面政策在所有时间都得到正确实施,通过持续测试这些政策与实时数据进行对比,识别实施差距。

“Anecdotes联合创始人兼首席产品官Roi Amior表示:“随着多个政策中每个都有几十个需要评估的要求,大多数组织已放弃对实施情况的持续监控。组织需要一种方法,来弥补政策意图与实际执行之间的差距。” 他进一步指出:“政策守护者使企业能够确保其政策与运营现实之间的持续一致,从而在风险成为现实之前消除合规盲点。”

政策守护者的价值体现在:

  • 将政策转化为实时文件——读取书面政策,识别需要实施和监控的可操作性陈述。
  • 确保持续遵守——持续扫描系统数据以检测政策要求与实际配置之间的实施差距。
  • 提供可操作证据——自动提供有关差异的通知,并附有清晰证据,使团队能够迅速解决合规差距。

通过持续测试系统数据与政策的对比,政策守护者确保政策按预期实施。例如,如果一项政策要求所有数据库每天备份,但数据显示一个数据库的备份频率为每周一次,政策守护者将识别该差距,提供支持证据,并通知团队采取纠正措施。

Anecdotes的第一个企业AI代理现已可用,并可以在Google Cloud环境中无缝部署。有关更多信息或查看在线演示,请访问Anecdotes在Google Cloud Next ’25上的展位或访问 anedotes.ai。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

“有个男人接近了他”:家长们描述他们孩子在Roblox上遇到的问题

大卫,一位46岁的父亲来自加拿大卡尔加里,最初并没有看到他10岁儿子开始玩Roblox时存在问题。


这个用户生成的游戏和虚拟环境平台近年来的受欢迎程度特别高,尤其是在年轻玩家中。“我们看到这是一种让他在Covid封锁期间保持社交互动的方式,”大卫说,他假设儿子只是通过平台的聊天功能与认识的朋友交流。没过多久,他的父母发现他在半夜独自在房间里与某人交谈。“我们发现一名来自印度的男人接近了他,并教他绕过我们的互联网安全控制,”大卫说。“这个人还劝说我的儿子拍摄妥协性的裸体图像和视频,并通过我们的Google Mini发送。这很难让人理解为什么我的儿子会那样做。我想他感到孤独,以为这个人是一个真正的朋友,我们认为他收到的Roblox礼物让他感到特别。这真的是每位父母的噩梦。”

大卫是全球许多家长中的一员,他们向《卫报》分享了他们的孩子在Roblox上深受负面影响或遭遇严重伤害的经历。许多家长确认了去年一份报告的发现,该报告称Roblox正在让儿童面临诱拐、色情、暴力内容和侮辱性言论的风险。虽然一些家长表示Roblox是孩子们的创造性出口,给他们带来了快乐,甚至改善了他们的沟通和拼写能力,但大多数联系我们的家长都表达了严重的担忧。这些担忧主要集中在他们观察到的孩子惊人的成瘾水平上,还有他们的孩子可以在父母控制下访问的游戏中出现的创伤性内容、诱拐、情感敲诈、欺凌、极端政治图像(例如穿着纳粹制服的头像)以及陌生人在平台上与他们的孩子进行不当交谈。

数字行为专家Revealing Reality的“深感不安”的研究发现,年仅五岁的儿童也能够在玩游戏时与成年人交流。Roblox在回应中承认,儿童在平台上玩耍时可能会接触到有害内容和“坏角色”,该公司声称其正在努力解决这一问题,但这需要行业的广泛合作和政府的干预。虽然该公司表示“深表同情”那些孩子在Roblox上有负面经历的父母,但它并没有对家长关注儿童用户严重的游戏成瘾问题做出回应。最近宣布的一系列额外安全工具,旨在为家长提供更多管理孩子在网页活动的灵活性,但未能打动许多与《卫报》对话的家长。“我认为这些变化不会解决我的担忧,”来自汉默尔亨普斯特的母亲艾米丽说。“新功能很有帮助,但不会阻止孩子接触不当或可怕的内容。人们可以选择他们创建的游戏的年龄评级,而这些评级不会总是合适或准确。我认为Roblox做得不够来保证年轻儿童在平台上的安全。”

“我不允许她与陌生人交朋友。我觉得这就足够了,但事实并非如此。”来自都柏林的母亲内莉说,她9岁的女儿刚刚结束了一系列游戏治疗,以处理她在Roblox上看到的性内容,导致她出现恐慌发作。“我觉得玩是可以的,”她解释道。“有个区域她进入了,里面的人穿着内衣,还有人进来躺在她旁边。”

许多父母觉得Roblox正在利用孩子们的“未发育的冲动控制”,就像一位父亲所说的那样,不断刺激他们赌博和停留在平台上的欲望,导致许多孩子对现实生活中的其他活动失去兴趣。来自伯明翰的珍娜表示,在她的孩子们开始玩Roblox两个月后,他们的“整个生活都被平台完全控制”,她的感觉与许多其他父母的看法一致。“我觉得我和两个瘾君子生活在一起,”她说。“如果他们不在玩,他们就想观看与之相关的视频……当他们被告知要停下来时,就像你在切断他们的最后一剂毒品-大喊大叫、争吵,有时甚至纯粹的愤怒。”

51岁的彼得,一位来自伦敦的艺术家,是三个男孩的父亲,他的14岁儿子因对Roblox和设备的过度迷恋而变得暴力,曾在游戏被关掉时用拳头砸碎一扇窗户。“经营Roblox的人根本不关心父母无法控制这个游戏。我们已经尝试了所有方法,但都没有效果。我们现在正在接受治疗,”他说。Roblox的首席执行官建议父母如果感到担忧,就应让孩子远离平台。然而,来自伯克郡的母亲玛利亚指出,对父母来说,做到这一点是困难的,因为孩子在离线时会感到社交孤立,而平台的盈利元素——解锁更高的游戏等级和个性化功能——已成为孩子们之间的地位象征。Roblox在一份声明中表示:“我们深切同情那些描述自己和孩子在Roblox上负面经历的父母。这不是我们所追求的,并且不反映我们希望为每个人打造的文明在线空间。每天数千万用户在Roblox上拥有积极、丰富和安全的体验,营造了一个促进与朋友连接、学习和发展关键STEM技能的支持环境。虽然我们承认,没有任何在大规模运作的安全系统是完美的,我们不断努力增强和改善我们的系统、流程和政策。”

*姓名已更改
探索更多相关主题
互联网安全
儿童
游戏
新闻
分享
重用此内容



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

KAYTUS发布KSManage V2.0,数据中心运维效率提升四倍

KSManage V2.0提供了一站式智能数据中心解决方案,具备对5000多种IT设备型号的集中管理,支持一键全自动批量配置。图片{ width=60% }


KAYTUS作为端到端AI服务器和液冷解决方案的领先供应商,宣布推出其下一代数据中心管理平台KSManage V2.0。升级后的平台兼容5000多种主流IT设备型号,实现了跨多样化环境的无缝集成。凭借一键全自动批量配置功能,KSManage V2.0将管理效率提升至四倍。该平台利用先进的AIOps能力,实现故障诊断准确率超过98%,并减少20%的能耗。这些增强功能显著优化了规模化数据中心的运维,推动了可持续和智能的基础设施管理。

随着云计算和AI应用的快速发展,数据中心的规模以空前的速度增长——从仅有一百多台设备增至数万台。这一爆炸性增长为运维(O&M)带来了重大挑战,尤其是在管理大量异构服务器、存储系统和网络设备方面。KSManage专为应对这些复杂性而构建,提供智能高效的数据中心运维。它解决了管理多样化硬件的难题、低运营效率以及基础设施性能不均等主要痛点。通过确保可靠、简化和智能的基础设施运营,KSManage使企业能够全力专注于驱动其核心业务创新。

集中管理,集成一体化平台
规模化数据中心的一大挑战是管理来自多个供应商和型号的异构设备——每种设备都有其管理接口和协议。尽管开源工具提供基本功能,其分散的管理方式常导致资源配置碎片化和运营复杂性增加。KSManage V2.0通过统一的企业级平台解决了这一问题,旨在简化运维。它支持来自不同供应商的各种IT设备,兼容超过5000种服务器、存储系统和网络设备型号。通过标准化的接口和协议,KSManage V2.0实现了对异构基础设施的集中、带外管理,极大简化了运营,同时增强了效率和控制力。

KSManage V2.0在数据中心监控和管理方面提供了显著的升级,增强了健康监测、性能跟踪、检查管理和网络测试工具的能力。这些改进使得用户能够进行更为细致的组件级健康监测、全面的性能指标查看和可定制的检查工作流程——提供更精准和智能的监控体验。

该平台支持2D和3D全局可视化,允许用户实时监控关键资源指标,如能耗、温度和容量。这种增强的可视性使操作员能够主动跟踪基础设施状态,从而优化管理效率。此外,KSManage V2.0能够在数分钟内生成定制的可视分析报告,简化数据分析,加速数据驱动决策。

完全自动化批量升级,四倍提升运营效率
服务器配置效率低下仍然是规模化数据中心的一大挑战,手动固件升级耗时、复杂且容易出错。为了应对这一挑战,KSManage V2.0引入了一键自动批量升级功能,大幅简化工作流程,显著提升运维效率。作为这一能力的补充,KAYTUS推出了KSManage Repo,一个集中固件库,存储KAYTUS服务器的最新更新。注册并输入设备序列号(SN)后,客户可以连接到官方映像库,实时自动检测并获取最新固件版本。利用带内和带外通信通道,KAYTUS服务器支持全栈固件批量升级和自动配置——包括BMC、BIOS、CPLD、FRU、NIC、驱动器等——可以在线或通过批量下载进行。这种自动化确保了设备性能的最佳状态,并将维护效率提升至400%。

AIOps提升可靠性和能源效率
规模化数据中心通常面临与基础设施稳定性和过度能源消耗相关的挑战。手动监控缺乏实时设备分析所需的响应速度,而开源管理工具常常存在安全风险、不稳定性和功能有限的问题——导致了故障检测延迟、事件解决缓慢及潜在的业务中断。此外,缺乏对能源使用的可见性会导致能效比(PUE)升高。KSManage V2.0通过内置AIOps能力解决了这些问题,将智能操作集成到故障预测、报警报告和诊断的整个生命周期中。该平台不仅提升了故障响应时间和系统稳定性,还提供实时能耗跟踪,包括碳排放监测。这使得数据中心能够优化能源效率,支持与绿色IT倡议保持一致的可持续、环保运营。

智能预测和快速诊断。KSManage V2.0通过先进的AI供能能力将预测性维护和故障诊断推向了新的高度。它支持对驱动器故障提前15天进行预测,同时内存故障预测准确性提高了30%。在出现故障时,利用AI算法进行性能和容量预测,从而实现主动和知情的决策。KSManage V2.0为规模化数据中心设计,能够在几秒钟内处理实时的十亿级运维数据,并在五秒内响应数千个警报。它采用创新的ETF(事件触发免费)阈值-free告警算法,实现了95.26%的惊人告警准确率。在诊断方面,KSManage V2.0主动和被动监测指标数据,收集日志以快速检测和准确定位故障——其诊断准确率超过98%。这些能力显著提升了操作弹性,并减少了复杂IT环境中的停机时间。

全面的能源管理以支持可持续运营。KSManage V2.0在包括AI和通用服务器、存储系统、网络设备、冷却单元、照明和电源设备等广泛的数据中心基础设施中提供强大的能耗管理。为了满足不同的业务需求,KSManage V2.0提供多种能耗控制策略,支持基于动态工作负载的能源调整和碳排放的可视化跟踪。通过智能管理工作负载以维持最佳效率,避免无负载或超负载状态,该平台减少总体能耗15%至20%。此外,KSManage V2.0基于历史数据趋势提供预测性能源分析,使数据中心能够主动规划运营和能源策略。这降低了能源不足或过剩的风险,支持与长期减碳目标相一致的可持续、环保运营。

KSManage已经在包括云服务提供商(CSP)、金融和电信等多个行业成功部署。在一个涉及土耳其领先电子商务平台的案例中,KSManage有效解决了固件升级效率低下、配置易出错和操作系统部署缓慢等关键运营挑战。通过自动化管理超过3000台服务器,KSManage将固件升级时间减少了70%,配置准确率提高到99.8%,并实现了每日高达500台服务器的部署。这些改进为整体运维带来了80%的效率提升和40%的硬件故障率降低。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Onix推出Wingspan

Wingspan推动数据现代化与AI代理部署,提供可衡量的投资回报率
Onix,一家云计算、数据及AI驱动解决方案的领导者,今天宣布推出Wingspan,这是一款行业首个多功能代理AI平台,旨在加速数据到AI的转型,并带来显著的投资回报(ROI)。图片{ width=60% }


在Google Cloud Next 25大会上首次发布,Wingspan使企业能够创建先进的、上下文感知的数据平台并部署特定领域的AI代理,提升用户生产力和可操作的AI驱动洞察。

“Wingspan旨在应对现代企业的现实复杂性,”Onix的CEO Sanjay Singh表示。“通过利用强大的上下文引擎和自主AI代理,Wingspan提供可扩展的智能,能够在各个环境中无缝集成。部署AI不仅仅是部署AI——而是部署能够理解您的业务并驱动可衡量影响的AI。”

Wingspan集成了Onix的专有技术,用于数据现代化和上下文引擎知识产权,包括Eagle、Raven、Pelican和合成数据生成器Kingfisher。该平台嵌入了新的功能,包括自主和确定性的AI代理。与Onix的咨询服务相结合,它提供了一种强大而全面的解决方案,使现代数据平台和特定领域AI用例的采用速度比传统方法快2到3倍。首批客户在使用Wingspan后,在4周内就将AI项目加速推向生产。

“Onix的新创新使我们的客户能够加速数据现代化和AI采纳,”谷歌云数据分析总监Yasmeen Ahmad表示。“Onix的Wingspan为Google Cloud生态系统带来了自主智能和集成的代理AI方法,使企业能够更有效地利用其数据,加速在Google Cloud上的AI驱动转型。”

Wingspan的核心是一种强大的上下文引擎,由Eagle的企业知识图谱提供支持,能够理解复杂的企业数据生态系统和流程。该平台全面支持与Google Cloud AI产品的集成,包括与最近宣布的Google Agentspace的开箱即用无缝集成。通过统一数据、血统、流程和AI,Wingspan使用户能够通过在组织特定业务语言和流程中操作的AI代理,获得上下文感知、自适应和一致的智能。

“在当今快速变化的数字环境中,企业面临着来自非结构化和分散数据的持续挑战,这阻碍了他们采用尖端的自动化框架和AI技术。Onix的Wingspan平台将帮助公司无缝加速数据现代化,整合自动化,推动AI洞察和建议,以弥合这一差距,”Calix的云和安全高级副总裁Doug Howland说道。

随着Wingspan的推出,Onix继续在云计算、数据、应用转型和AI赋能领域进行创新,为企业提供增强的自主性和运营效率。Onix近日荣获2025年Google Cloud年度合作伙伴奖,获得数据与分析 - 北美,以及行业解决方案 - 电信类别的殊荣,并作为Google Agentspace的合作伙伴,这彰显了Onix致力于提供智能、数据和AI驱动的行业解决方案,简化转型,带来可观的商业影响。与Google Cloud的合作,使Onix能够帮助企业充分释放数据的潜力,实现显著的财务回报。


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Onix推出Wingspan

Wingspan增强数据现代化和AI代理部署的上下文意识,提供可衡量的投资回报率
Onix,一家云、数据和人工智能驱动解决方案的领导者,今天宣布推出Wingspan,这是一款行业首创的多功能智能人工智能平台,旨在加速数据到人工智能的转型并提供显著的投资回报率(ROI)。图片{ width=60% }


在Google Cloud Next 25上发布的Wingspan使企业能够创建先进的、具有上下文感知的数据平台并部署特定领域的AI代理,从而提高用户生产力和可操作的AI驱动洞察。

“Wingspan是为了应对现代企业的现实复杂性而设计的,”Onix首席执行官Sanjay Singh表示。“通过利用强大的上下文引擎和自主AI代理,Wingspan提供可扩展的智能,能够无缝集成到各个环境中。这不仅仅是部署AI,而是部署理解您的业务并带来可衡量影响的AI。”

Wingspan集成了Onix用于数据现代化和上下文引擎知识产权的专有技术,包括Eagle、Raven、Pelican和合成数据生成器Kingfisher。该平台嵌入了新的功能,包括自主和确定性的AI代理。与Onix的咨询服务相结合,Wingspan提供了一个强大而全面的解决方案,使现代数据平台和特定领域AI用例的采用速度比传统方法快2-3倍。首批客户通过Wingspan实现了显著的价值,AI项目在4周内加速投入生产。

“来自Onix的新创新使我们的联合客户能够加速数据现代化和AI采纳,”Google Cloud数据分析总监Yasmeen Ahmad表示。“Onix的Wingspan为Google Cloud生态系统带来了自主智能和集成的智能AI方法,使企业能够更有效地利用数据,加速在Google Cloud上的AI驱动转型。”

Wingspan的核心是一款强大的上下文引擎,由Eagle的企业知识图谱驱动,能够理解复杂的企业数据生态系统和流程。该平台支持与Google Cloud AI产品的完全集成,包括与最近宣布的Google Agentspace的开箱即用的无缝集成。通过统一数据、血统、流程和AI,Wingspan使用户能够通过在组织特定商业语言和流程中操作的AI代理获取上下文感知、自适应和对齐的智能。

“在当今快速变化的数字环境中,企业面临着未结构化和碎片化数据的持续挑战,这阻碍了它们采用尖端自动化框架和AI技术的能力。Onix的Wingspan平台将帮助公司无缝加速数据现代化,集成自动化,并推动AI洞察和建议,以弥合这一差距,”Calix云与安全高级副总裁Doug Howland表示。

随着Wingspan的推出,Onix继续在云、数据、应用转型和AI赋能方面进行创新,向企业提供增强的自主性和运营效率。Onix最近获得2025年Google Cloud年度合作伙伴奖,在数据与分析-北美和行业解决方案-电信类别中获奖,以及作为Google Agentspace的合作伙伴,这凸显了Onix致力于提供智能、数据和AI驱动行业解决方案的承诺,简化转型并带来显著的商业影响。通过与Google Cloud的合作,Onix正在帮助企业释放其数据的全部潜力,实现显著的财务回报。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB