2024-07-31发表2025-03-21更新 ByteAILab 12 分钟读完 (大约1773个字)

日均tokens使用量超5000亿，AI生图玩法猛猛上新：豆包大模型为什么越来越「香」了？

2024 年的 AI 图像生成技术，又提升到了一个新高度。

技术的飞速迭代，让这一领域的商业化落地进入加速阶段。

前有 Midjourney v6 史诗级更新，后有开源巨头 Stable Diffusion 3 独领风骚，而 DALL・E 3 背靠 ChatGPT 这棵「大树」，也收获了众多用户的关注。

当然了，在这条赛道上，来自国内的选手毫不逊色。

近日，国产大模型「顶流」—— 字节跳动豆包大模型，迎来一场集中放送：

在 2024 火山引擎 AI 创新巡展成都站活动上，豆包大模型团队公布了豆包大模型的最新进展，以及文生图模型、语音模型等垂直模型的新升级。

与此同时，豆包大模型家族的最新成员 —— 「豆包・图生图模型」正式面世，一口气上新了 50 多项玩法。

作为国产大模型中的实力之作，豆包大模型在今年 5 月通过火山引擎正式对外提供服务。尽管入场时间不是最早，但今天的豆包大模型已经是国内使用量最大、应用场景最丰富的大模型之一。

这场活动中，火山引擎还透露了一个数字：截至 2024 年 7 月，豆包大模型的日均 tokens 使用量已经超过 5000 亿。

与此同时，豆包大模型的技术实力在短时间内也经历了多次迭代。在多个公开评测集以及专业的第三方评测中，豆包通用模型 pro 均表现出众，是得分最高的国产大模型。

至于豆包大模型的「功力」究竟练到了哪一层？我们不妨体验一把再下结论。

国产 AI 猛猛上新
豆包大模型为什么能俘获用户的心？

我们就从刚刚更新的图像生成方面来考验一下豆包大模型。对 AIGC 应用接触比较多的用户可能都有一个感受：AI 图像生成类产品越来越卷，彼此之间也越来越难拉开差距。

这种直观感受的变化，几乎能完全对应上底层技术的演进节点。与一些早期 GAN 模型的生成水准相比，如今的图像生成质量已经让大部分人觉得「真假难辨」。在这个过程中，学界和业界对图像生成质量的评估维度也发生了巨大变化：像 FID Score 这样的指标已经不足以全面反映模型能力，人类评估成为了评估图像生成质量的黄金标准。尽管经济和时间成本更高，但这种方式可以提供更加细微且可解释的感知反馈。

以「文生图」方向为例，现阶段的目标可以总结为对综合维度的全面提升，具体可拆分为图像美感、图文一致性、内容创造、复杂度适应性四个维度。在这几方面，豆包・文生图都达到了业界较高水准。

在用户感受最强烈的「图文匹配」维度上，豆包・文生图模型不断进化，比如很好地理解多数量主体、主客体关系、人物构造和空间构造等信息：

Prompt：古代日本鬼机甲、中国朋克、太空歌剧、科幻小说、古代未来主义、神秘、明亮、不对称密集构图、32k 超高清、电影光、气氛光、电影、柔和的调色板、超现实、自由度、自然体积光。

而在「画面效果美感」层面，豆包・文生图模型非常善于从光影明暗、氛围色彩和人物美感方面进行画面质感提升：

Prompt：OC 渲染，3D 设计，长发小女孩，人脸朝着镜头，中心构图，帽子上长满鲜花，轮廓清晰，面部细节放大，帽子细节放大，画质高清，超清画质，深景深，背景是花海

而在下方的任务中，用户想要实现自然的局部消除，豆包・图生图模型生成结果也做到了平滑过渡：

Prompt：国风水墨绘画，点彩、肌理磨砂、陈家泠、大面留白的构图，高清16k故宫远景，雪景、流畅建筑结构，层次，白色主色，淡雅

基于双语大模型文本编码器，豆包・文生图模型对英文 Pormpt 的理解同样精准：

Prompt：butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm

不久之后，豆包・文生图模型还将升级到 2.0 版本。豆包视觉团队表示，新版本将比当前模型的生成效果有 40% 的提升，对比当前版本，图文一致性和美感会有大幅提升。

与文生图略有不同，在图像美感和结构等因素之外，图生图更算是一种应用模型，质量评估更加关注「一致性」和「相似度」两个维度。豆包・图生图模型的能力涵盖「AI 写真」「图像风格化」「扩图 / 局部重绘」三个主要方向，共提供了 50 余种风格玩法。

「AI 写真」算是以图生图方向中使用频率非常高的一种玩法，豆包・图生图模型的一大亮点是高度还原人物特征，能够精准捕捉轮廓、表情、姿态等多维特征，轻松生成定制化写真：

豆包・图生图模型还能具备优秀的图片扩展、局部重绘和涂抹能力，在逻辑合理的前提下，还能充满想象力。

比如在下方的任务中，用户想要实现自然的局部消除，豆包・图生图模型生成结果也做到了平滑过渡：

对于只想局部进行重绘的需求，豆包・图生图模型能够精准修改图像局部内容，无缝融合原有画面。…

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

日均tokens使用量超5000亿，AI生图玩法猛猛上新：豆包大模型为什么越来越「香」了？

https://www.gptnb.com/2024/07/31/2024-07-30-auto5-jf79TT/

作者

ByteAILab

发布于

2024-07-31

更新于

2025-03-21

日均tokens使用量超5000亿，AI生图玩法猛猛上新：豆包大模型为什么越来越「香」了？

。注意：Title、Date、Body 三个部分的内容，放入到对应的位置。最后只需要按照格式标准输出为Makedown源文件格式内容。

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新