日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?
2024 年的 AI 图像生成 技术,又提升到了一个新高度。
技术的飞速迭代,让这一领域的商业化落地进入加速阶段。
前有 Midjourney v6 史诗级更新,后有开源巨头 Stable Diffusion 3 独领风骚,而 DALL・E 3 背靠 ChatGPT 这棵「大树」,也收获了众多用户的关注。
当然了,在这条赛道上,来自国内的选手毫不逊色。
近日,国产大模型「顶流」—— 字节跳动 豆包大模型,迎来一场集中放送:
在 2024 火山引擎 AI 创新巡展成都站活动上,豆包大模型团队公布了豆包大模型的最新进展,以及文生图模型、语音模型等垂直模型的新升级。
与此同时,豆包大模型家族的最新成员 —— 「豆包・图生图模型」正式面世,一口气上新了 50 多项玩法。
作为国产大模型中的实力之作,豆包大模型在今年 5 月通过火山引擎正式对外提供服务。尽管入场时间不是最早,但今天的豆包大模型已经是国内使用量最大、应用场景最丰富的大模型之一。
这场活动中,火山引擎还透露了一个数字:截至 2024 年 7 月,豆包大模型的日均 tokens 使用量已经超过 5000 亿。
与此同时,豆包大模型的技术实力在短时间内也经历了多次迭代。在多个公开评测集以及专业的第三方评测中,豆包通用模型 pro 均表现出众,是得分最高的国产大模型。
至于豆包大模型的「功力」究竟练到了哪一层?我们不妨体验一把再下结论。
国产 AI 猛猛上新
豆包大模型为什么能俘获用户的心?
我们就从刚刚更新的图像生成 方面来考验一下豆包大模型。对 AIGC 应用接触比较多的用户可能都有一个感受:AI 图像生成类产品越来越卷,彼此之间也越来越难拉开差距。
这种直观感受的变化,几乎能完全对应上底层技术的演进节点。与一些早期 GAN 模型的生成水准相比,如今的图像生成质量已经让大部分人觉得「真假难辨」。在这个过程中,学界和业界对图像生成质量的评估维度也发生了巨大变化:像 FID Score 这样的指标已经不足以全面反映模型能力,人类评估成为了评估图像生成质量的黄金标准。尽管经济和时间成本更高,但这种方式可以提供更加细微且可解释的感知反馈。
以「文生图」方向为例,现阶段的目标可以总结为对综合维度的全面提升,具体可拆分为图像美感、图文一致性、内容创造、复杂度适应性四个维度。在这几方面,豆包・文生图都达到了业界较高水准。
在用户感受最强烈的「图文匹配」维度上,豆包・文生图模型不断进化,比如很好地理解多数量主体、主客体关系、人物构造和空间构造等信息:
Prompt:古代日本鬼机甲、中国朋克、太空歌剧、科幻小说、古代未来主义、神秘、明亮、不对称密集构图、32k 超高清、电影光、气氛光、电影、柔和的调色板、超现实、自由度、自然体积光。
而在「画面效果美感」层面,豆包・文生图模型非常善于从光影明暗、氛围色彩和人物美感方面进行画面质感提升:
Prompt:OC 渲染,3D 设计,长发小女孩,人脸朝着镜头,中心构图,帽子上长满鲜花,轮廓清晰,面部细节放大,帽子细节放大,画质高清,超清画质,深景深,背景是花海
而在下方的任务中,用户想要实现自然的局部消除,豆包・图生图模型生成结果也做到了平滑过渡:
Prompt:国风水墨绘画,点彩、肌理磨砂、陈家泠、大面留白的构图,高清16k故宫远景,雪景、流畅建筑结构,层次,白色主色,淡雅
基于双语大模型文本编码器,豆包・文生图模型对英文 Pormpt 的理解同样精准:
Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm
不久之后,豆包・文生图模型还将升级到 2.0 版本。豆包视觉团队表示,新版本将比当前模型的生成效果有 40% 的提升,对比当前版本,图文一致性和美感会有大幅提升。
与文生图略有不同,在图像美感和结构等因素之外,图生图更算是一种应用模型,质量评估更加关注「一致性」和「相似度」两个维度。豆包・图生图模型的能力涵盖「AI 写真」「图像风格化」「扩图 / 局部重绘」三个主要方向,共提供了 50 余种风格玩法。
「AI 写真」算是以图生图方向中使用频率非常高的一种玩法,豆包・图生图模型的一大亮点是高度还原人物特征,能够精准捕捉轮廓、表情、姿态等多维特征,轻松生成定制化写真:
豆包・图生图模型还能具备优秀的图片扩展、局部重绘和涂抹能力,在逻辑合理的前提下,还能充满想象力。
比如在下方的任务中,用户想要实现自然的局部消除,豆包・图生图模型生成结果也做到了平滑过渡:
对于只想局部进行重绘的需求,豆包・图生图模型能够精准修改图像局部内容,无缝融合原有画面。…
。注意:Title、Date、Body 三个部分的内容,放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
日均tokens使用量超5000亿,AI生图玩法猛猛上新:豆包大模型为什么越来越「香」了?
install_url
to use ShareThis. Please set it in _config.yml
.