华为云+腾讯音乐天琴实验室达成深度合作,基于昇腾AI

9 月 19-21 日,以「共赢行业智能化」为主题的第九届华为全联接大会(HUAWEI CONNECT 2024)在上海举办。活动期间,腾讯音乐娱乐集团(TME)天琴实验室 AI 大模型负责人吴斌博士在华为云峰会发表主题演讲。


天琴实验室自研创新的 MUSELight 大模型推理加速解决方案与华为云昇腾 AI 云服务深度合作共建,并首次对外发布 Stable Diffusion 系列视觉大模型推理加速方案 lyraSD 的昇腾适配方案。吴斌博士表示,双方共同努力实现了 AI 算力的自主创新和领先突破,讲为用户提供更美好的音乐娱乐体验,并赋能行业。
image1
天琴实验室的 MUSELight,深度结合昇腾算云力架构的特点和潜力,采用计算核心高度并发、流水折叠编排、计算 / 数据移动高度向量化及核心算子原生定制等多项优化策略,对昇腾 AI 算力进行了自顶向下的创新性优化,相比传统 AI 算力解决方案,推理速度提升超过 166%,性价比提升 35%。这一突破性的进展不仅有效降低了大模型的部署门槛,还为企业提供了更安全、高效、经济的自有 AI 算力应用解决方案,进一步推进了各行业在智能化转型方面的协同与共赢。
image2
值得关注的是,天琴实验室 MUSELight 在昇腾 AI 算力的加速解决方案将于歌单封面生成业务展开试点。歌单封面生成是 MUSE AI 技术基于音乐理解绘制图片的创新成果,通过分析歌曲的内容和情感等要素,AI 快速生成与音乐风格匹配的封面。这项业务不仅可以大幅提升歌单封面制作效率,还能够降低制作成本,有效推进音乐制作产业的数智化升级,进一步丰富音乐作品的呈现形式。据悉,天琴实验室将与昇腾 AI 云在第四季度进一步推出大语言模型等更多大模型推理加速解决方案,全面赋能各项业务形态。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

美图奇想大模型全新升级:生成能力、生成效率、模型性能实现三重进阶

9月23日,美图公司宣布美图奇想大模型(MiracleVision)视频生成能力完成全面升级,在实现生成能力、生成效率以及模型性能的三重进阶基础上,结合美图在计算机视觉领域的多项自研技术优势,视频生成时长与画质、流畅性、真实性及可信度等方面提升显著。

目前,美图奇想大模型(MiracleVision)的单次文生视频时长、单次图生视频时长均达5秒,已支持1分钟、帧率24FPS、分辨率1080P的超长视频生成,可以任意视频尺寸输出。


Image 1

Image 2

基于美图公司在影像领域的长期深厚积累,全新升级的美图奇想大模型(MiracleVision)结合对特征的大范围提取,实现了在艺术风格、细腻画风、细节把控之间的高度平衡,并针对人像、动漫、国潮、商业设计等领域进行优化,具备强大的风格泛化力与兼具艺术审美的视觉表现力。此外,在复杂3D时空精准重构基础上,视频生成能够重现真实物理规律,支持大幅度流畅运动。

Image 3

美图奇想大模型(MiracleVision)于2023年6月上线,2024年1月通过国家备案,2024年6月迭代至V5版本并升级为Diffusion与Transformer模型结合的全新技术路线,采用DiT视频生成架构。

在新的技术路线下,相较业界先头兵,美图奇想大模型(MiracleVision)选择优先攻克更具挑战性的问题。此次升级,美图奇想大模型(MiracleVision)在技术层面上解决了主体一致性、运动连贯性、物理逻辑合理性等视频生成能力落地的核心问题。

Image 4

目前,美图奇想大模型(MiracleVision)全新视频生成能力已应用于美图旗下部分产品,凭借高度可复用的模块化能力,升级优势将逐步覆盖美图秀秀、美颜相机、Wink、开拍、美图设计室、WHEE、MOKI等产品,进一步深化美图在视频工具赛道的应用深度与广度。

作为美图AI产品生态的基石,美图奇想大模型(MiracleVision)坚持以用户需求场景驱动技术研发模式,追求用户体验和技术进步的平衡。本次升级完成后,美图奇想大模型的架构进一步完善,从AI图像、AI视频、AI设计三个维度,全方位支持美图AI产品生态的丰富与进步,切实提升用户的体验与效率,深化美图公司在电商、广告、游戏、动漫、影视领域的应用实践。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

实验证明,大模型的 System 2 能力还有待开发。

规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。


随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。

最近,OpenAI 发布了 o1 模型,一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。

那么,o1 模型是否具备上述规划能力?

2022 年,来自亚利桑那州立大学(ASU)的研究团队开发了评估 LLM 规划能力的基准 ——PlanBench。现在,亚利桑那州立大学研究团队全面审视了当前 LLM 在 PlanBench 上的表现,包括 o1 模型。值得注意的是,虽然 o1 在基准测试上性能超过了竞争对手,但它还远未达到饱和状态。

[SOTA 性能的 LLM 仍然不会规划]

对于 vanilla LLM(通过 RLHF 微调的 Transformer 模型)来说,PlanBench 基准仍然充满挑战,即使在最简单的测试集上,模型表现也不佳。

下表为当前和前一代 LLM 的结果,测试领域包括 Blocksworld 和 Mystery Blocksworld…

更多内容请参阅原文下载:LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench

图片

图片

[从近似检索到近似推理:评估 o1]

标准自回归 LLM 通过近似检索生成输出,但这些模型面临一个问题,即在 System 1 任务中表现出色,但在对规划任务至关重要的类似 System 2 的近似推理能力上表现不佳。

回顾之前的研究,从 LLM 中获取可靠规划能力的最佳方法是将它们与生成测试框架中的外部验证器配对,即所谓的 LLM-Modulo 系统。o1 尝试以不同的方式为底层 LLM 补充类似 System 2 的能力。

据了解,o1 是将底层 LLM(很可能是经过修改的 GPT-4o)结合到 RL 训练的系统中…

图片

[准确率 / 成本权衡与保证]

研究团队发现:o1-preview 似乎在每个问题使用的推理 token 数量方面受到限制。如果 o1 的正式版本消除了这一限制,可能会提高整体准确性,但也可能导致…

图片

图片



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

ACM TOG|仅通过手机拍照就可以对透明物体进行三维重建

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

本论文是由中国科学院计算技术研究所、加州大学圣芭芭拉分校和KIRI Innovations的研究人员合作完成。

三维重建是计算机图形学的经典任务,具有很强的使用价值。近年来,诸如神经辐射场的隐式场方法正成为重建任务广泛采用的表示。

这些方法能在不需要掩膜等额外输入的情况下,对具有漫反射和光滑反射的场景进行重建。然而,对于具有折射或透明材质的,乃至出现嵌套现象(即透明物体内部还有其他物体,内部物体也可以是透明的)的场景的重建,无论是隐式场方法还是传统方法都难以解决。

诚然,已经有一些工作对透明物体的重建进行探索,然而这些工作都不能重建嵌套物体,且他们需要额外的输入信息以减少透明物体的二义性,如掩膜或要求场景在特殊的背景下进行拍摄等。

为解决此问题,中科院计算所高林老师团队、加州大学圣芭芭拉分校闫令琪教授、3D 重建公司 KIRI Innovations 合作提出了一种通过对嵌套透明物体进行重建的方法 NU-NeRF《NU-NeRF: Neural Reconstruction of Nested Transparent Objects with Uncontrolled Capture Environment》。

图片

项目主页:http://geometrylearning.com/NU-NeRF/

该方法能在不需要额外输入,也不需要特殊捕捉场景的情况下对嵌套透明物体进行重建。该项研究工作已经被 ACM TOG 录用,并将在 SIGGRAPH Asia 2024 报告。

图 1 和图 2 即为 NU-NeRF 对实拍嵌套透明场景的重建效果展示。

图片


研究目标

塑料、玻璃等透明材质是日常生活中最为常见的材质之一,然而这些材质的重建任务十分具有挑战性。其根本原因是光线在透明材质表面发生折射,从而产生高度不连续的表面颜色,且此颜色十分容易和背景混淆。

为解决此问题,已有工作的基本思路是对问题施加更多约束。早期方法 施加约束的方法是利用特殊的捕捉设备来捕捉光线的偏振和光程等信息,并利用确定性的算法来进行重建。也有基于计算机视觉和机器学习的方法 利用预先渲染的大量数据学习从图像中预测透明物体的方法。

近年来基于神经辐射场的方法 通过在物体后面放置一个具有已知图案的背景来直接得到光线经过折射之后的精确位置,从而利用此先验设计损失函数,进行重建。

然而这些施加约束的方法有两个限制:1)需要额外的捕捉设备、捕捉环境或输入信息(如掩膜等),无法让用户在随机的环境下进行拍摄重建;2)因为在使用先验的过程中假设了光线在物体内部没有遭到遮挡和反射,并只经过两次折射,所以这些方法无法重建嵌套的物体。

针对以上问题,论文作者提出了 NU-NeRF 。它是一种新的嵌套透明物体重建管线。如图 3 所示,NU-NeRF 的输入是以不同视角拍摄同一包含嵌套透明物体的场景的图片,输出则是对该场景内部、外部几何的重建以及一定程度的解耦。重建和解耦结果可以导入渲染软件中(如 Blender 等)进行重新渲染,实现现实物体的数字化。

图片


研究方法

NU-NeRF 的管线由两步组成。第一步的目标是重建外层几何。外层几何的重建是至关重要的一步,因为它直接影响了第二步的内层几何质量。其要解决的首要问题就是上述的折射的二义性。

NU-NeRF 解决此问题的方法十分简单:分开建模透明表面的反射和折射。对于其反射颜色进行准确建模,但对其折射颜色直接利用一个 MLP 网络进行预测。这一策略的底层逻辑是,在重建过程中不需要准确建模折射颜色,只需要提供对折射的一个「平均化」估计即可。

第二步的目标是利用重建得到的显式外层几何,在几何内部进行第二次重建。这一步对…

Continue reading with full content



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Garmin Fenix 8评测:最佳冒险手表变得更智能

2024年9月24日消息,Garmin Fenix 8手表标志着Garmin的一个里程碑时刻。


通过增加语音控制、OLED屏幕等功能,它将顶级Fenix和Epix冒险手表系列合并,以更好地与苹果、三星等主要参与者日益先进的智能手表竞争。Fenix手表一直是Garmin首次推出技术和功能的地方,然后再将其滴入到其他产品中,例如备受欢迎的Forerunner系列。它的定价为870英镑(1000欧元/1000美元/1699澳元),比其昂贵的前身价格再增加约120英镑左右,其中包括潜水跟踪和AI助手访问等新功能并不便宜。Fenix 8仍然保留了Garmin的五个实体按钮和触摸屏的经典组合,外观既坚固又高端,甚至在侧面增加了一个金属护卫,以保护部分传感器。新的“防漏”按钮已准备好进行潜水。


以上内容已按照Markdown格式要求翻译完成。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Instagram新规定遭遇怀疑:“对像我这样的十几岁女孩并不是解决方案”

Sevey Morton在10岁时第一次获得了Instagram账号。


她用它来与朋友保持联系,同时也关注流行文化趋势。现在16岁的圣迭戈高中生Morton表示,来自名人和网红们的经过修饰的完美照片和精心编辑过的自拍让她过度关注自己的外表,导致焦虑和身体形象问题。“在很小的时候接触到这些对我的成长方式产生了影响。”Morton说。“有一部分的我希望社交媒体根本不存在。”Morton的困扰启发了她的制片人母亲Laura执导《焦虑的国家》纪录片,该片探讨了所谓的青少年焦虑流行现象。当Morton上周听说Meta为青少年账号制定了新规定时,她认为这是一个良好的开端,但并非解决方案。Meta要将18岁以下Instagram用户归入新的“青少年账户”Meta,即Instagram的母公司,推出了一些变化,使父母能够设定每日应用使用时间限制,并阻止青少年在晚上使用Instagram。父母还可以查看他们的孩子私信的账户以及所观看的内容类别。青少年账户现在默认私密,Meta表示“敏感内容” - 从暴力到网红推销整形手术都将“受到限制”。拥有Instagram账户的青少年将在60天内注意到这些规定的生效。如果16岁以下的孩子想要取消或更改这些设置,则需要获得父母的许可;16岁和17岁的孩子可以在没有成年人的情况下更改这些功能。(对于青少年来说,一个非常简单的漏洞:谎报年龄。Meta还表示正在努力改进年龄验证措施,以防止青少年规避年龄限制。)“我觉得这些变化在很多方面都很积极,尤其是它们限制了敏感内容,但我不认为这是一个解决方案。”Morton说。“特别是对于青少女来说,如果你问她们Instagram的主要问题是什么,她们会说是身体形象问题。”青少年安全问题自Meta成立以来一直困扰着该公司,这些新规定出台之际引起了家长和监护团体的再次强烈反对。Instagram因未保护儿童免受儿童色情分子和自残内容的伤害而受到抨击。在今年一月参加在线儿童安全的参议院听证会时,Meta首席执行官马克·扎克伯格向举着失去自杀或被应用利用的孩子照片的观众道歉。 根据2021年《华尔街日报》的一项调查,Instagram的研究人员多年来一直研究应用如何伤害年轻用户,尤其是年轻女孩。一份来自2019年公司会议的内部PPT称:“我们让三分之一的青少女的身体形象问题更糟。”直到最近,公司高管如扎克伯格和Instagram负责人亚当·莫塞里一直淡化了这些问题。今年夏天,美国外科医生总监维维克·穆尔西呼吁国会在社交媒体上发布类似香烟或酒精上找到的警告标签。穆尔西将青少年之间的心理健康危机描述为“紧急情况”,他指出,在社交媒体上每天使用三小时以上的青少年面临焦虑和抑郁症症状的风险加倍,几乎一半的青少年表示这些应用让他们对自己的身体感到更糟糕。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Hive加速AI在私有云和本地的部署,携手NVIDIA NIM

互联网社交平台可以在2024年余下时间免费获得Hive的AI生成内容检测模型的90天试用权限,该模型经由NVIDIA NIM微服务进行了优化。图片{ width=60% }


Hive是一家领先的专有AI解决方案提供商,致力于理解、搜索和生成内容。该公司宣布将其专有AI模型与NVIDIA NIM微服务整合,以加速企业在私有云和本地数据中心部署AI模型的过程。

NVIDIA NIM是NVIDIA AI Enterprise软件平台的一部分,提供经过优化的模型容器,简化并加速了在各种环境中部署自定义和预训练的AI模型,包括云环境、本地数据中心和工作站。它将最新AI模型的强大功能与NVIDIA加速基础设施安全地部署在各个企业客户中。

Hive的云端API每月处理数十亿个客户请求。然而,由于数据治理或其他因素的挑战,将我们的模型部署到私有云或本地已成为潜在客户的首要要求之一,”Hive的联合创始人兼首席执行官郭凯文说。“我们与NVIDIA NIM的整合使我们能够显著扩大我们可以为之提供AI模型的客户范围。”

首批与NVIDIA NIM一起提供的Hive模型是Hive的AI生成的内容检测模型,允许客户识别AI生成的图像、视频和音频。生成式AI工具的不断出现带来了误传、虚假信息和欺诈的风险,这对保险公司、金融服务、在线社区、新闻机构等都带来了挑战。

“AI生成内容检测正成为帮助保险和金融服务公司检测虚假陈述尝试的重要工具,”NVIDIA企业级AI软件产品副总裁贾斯汀·博伊塔诺说。“通过NVIDIA NIM微服务,企业可以快速部署Hive的检测模型,帮助保护他们的业务免受欺诈内容、文件和索赔的侵害。”

今天,Hive还宣布互联网社交平台可以获得90天免费试用权限。

“使用生成式AI工具轻松创建内容可以带来一系列公司和组织面临的风险,平台展示用户生成内容导致管理时机敏和适当操作AI生成内容的挑战,”郭说。“我们很荣幸能提供解决方案,帮助管理AI生成内容带来的风险。”

Hive计划在未来几个月通过NVIDIA NIM提供更多模型,包括内容审核、标志检测、光学字符识别、语音转录、通过Hive的AutoML平台创建自定义模型等。

有兴趣通过NVIDIA NIM访问Hive的AI模型的公司可以在以下链接了解更多:https://build.nvidia.com/hive/ai-generated-image-detectionhttps://thehive.ai/nvidia-nim-integration



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Mach42宣布成立人工智能咨询委员会

关键亮点
Mach42,之前被称为Machine Discovery,是一家提供基于人工智能模拟验证解决方案的验证加速公司,可以为客户带来显著的投资回报率好处。图片{ width=60% }


该咨询委员会汇集了半导体和人工智能专家,共同影响下一代基于人工智能的设计和验证解决方案的发展。前Synopsys首席技术官Dr. Antun Domic和牛津大学人工智能教授Yarin Gal教授将共同领导咨询委员会的章程。
Mach42,之前被称为Machine Discovery,利用人工智能技术、云计算和先进的模拟技术来加速计算密集型的模拟验证任务。这款AI驱动的Discovery平台让您可以在几分钟内探索整个设计空间,并已集成到商业模拟设计流程中。
主导咨询委员会的是前Synopsys首席技术官Dr. Antun Domic和牛津大学人工智能教授Yarin Gal教授。咨询委员会在半导体行业的技术专长和参与使其能够塑造下一代基于人工智能的设计和验证解决方案的发展。
Yarin Gal教授表示:“深度学习技术已经成熟到可以胜任的程度。”
“我很高兴与Mach42合作,共同实现公司长期目标,将颠覆性解决方案带入市场,大大缩短产品开发周期。即时预测能力为半导体设计师带来新的机会,使他们能够实现能够使其产品与众不同的变革。”
Antun Domic博士表示:“半导体行业已准备部署新一代基于人工智能的解决方案来缩短设计周期。”
“凭借尖端人工智能技术,Mach42准备迅速获得采纳和增长。我很高兴能够与Mach42团队合作,帮助引领领先的半导体公司在市场上实现差异化。”
Mach42首席执行官Bijan Kiani表示:“Mach42正在引领使用人工智能技术缩短半导体产品开发周期。”
“新增的这个咨询委员会将使我们能够继续扩展用于半导体设计的Discovery平台。我们很高兴能够吸引到如此高水平的领导者来推动公司未来的创新。”



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Wispr Flow获选参加2024年AWS生成式AI加速器

Wispr Flow,一家前沿的语音转录平台,今日宣布已入选AWS生成式AI加速器第二批创业公司。图片{ width=60% }


由亚马逊网络服务公司(AWS)推出的AWS生成式AI加速器旨在发掘利用生成式AI解决复杂挑战并帮助其扩展发展的顶尖初创公司。参与者将获得AWS积分、指导和学习资源,以进一步利用人工智能(AI)和机器学习(ML)技术,推动业务增长。

这一机会将支持Wispr Flow改进和扩展其基于AI的语音接口,使用户能够在设备间轻松语音输入,提高所有人的生产力和可访问性。该公司的目标是利用AWS的AI和ML基础架构提高语音转录的准确性和速度,扩展其移动平台,并为全球受众优化部署。这样一来,Wispr Flow的目标是使语音输入成为数字通信的新标准,取代传统键盘的需求。

“我们非常高兴能成为AWS生成式AI加速器的一部分。这一合作伙伴关系将使我们能够更快地构建基础架构,向行业领导者学习,并将Wispr Flow定位为全球语音接口的首选解决方案,” Wispr Flow的首席执行官Tanay Kothari表示。

全球80家参与的初创公司将受邀于2024年12月在拉斯维加斯的re:Invent活动中向潜在投资者、客户、合作伙伴和AWS领导展示他们的解决方案。

AWS市场推广副总裁兼计划执行赞助人Jon Jones表示:“这一新一代的初创公司处于变革性新浪潮的前沿,突破了人工智能的可能边界,同时将令人兴奋的新解决方案带入市场。扩大我们的生成式AI加速器队伍是对我们认为初创公司有朝一日将引领新的创新为客户带来惊人新技术的潜力的一个标志。AWS致力于培育开创性技术,并支持具远见卓识的创始人在解决全球最大挑战的道路上前行。”

了解更多有关生成式AI加速器的信息,请访问AWS生成式AI加速器。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Luminance在美国扩大版图,新设达拉斯办事处

全球法律人工智能领军者扩大美国存在,跟随4000万美元融资和超过5倍增长的步伐
Luminance,法律级别人工智能的先驱,将在得克萨斯州达拉斯市开设办事处,以满足不断增长的美国客户需求。图片{ width=60% }


此举是继该公司最近扩大纽约总部和在北美地区进行关键招聘后的动作,旨在应对该地区市场迅速增长的压力。由剑桥大学的人工智能专家创立的Luminance目前在美国实现了三分之一的营收。该公司最近入选《美国5000最快增长私营公司》榜单,过去两年实现了5倍的ARR增长,并自2023年1月以来,看到采用其旗舰产品Luminance Corporate的美国客户增长了225%。如今,该公司的客户群遍布70多个国家的700多个组织,涵盖了从AMD和日立等技术巨头,到AB InBev和熊猫快餐等食品和饮料企业,再到LG Chem等制药巨头和科茨工业以及横河等全球制造商。
Luminance在美国的战略增长得到了最近的4,000万美元B轮融资的支持。此次投资由圣莫尼卡的风险投资公司March Capital牵头,由National Grid Partners、GTM Capital和包括领先的律师事务所Slaughter and May在内的其他现有投资者参与。
Luminance首席执行官Eleanor Lightbody表示:“我们最近的融资证明了我们技术的实力,这种技术正在定义法律级别人工智能的新范畴。迄今为止,Luminance在美国市场上有机地占据了份额。现在,我们将加大在达拉斯和纽约的投入,这只是我们在美国扩张的第一步,让我们能够更好地为现有客户提供服务,并将我们专业的专有人工智能带给更多世界各地的组织。”
除了扩大在美国的版图,Luminance将继续专注于产品创新。在过去12个月中,该公司推出了几项业界首创产品,包括用于即时问答和自动重起草的法律级别聊天机器人,供非法律团队审查和商定第三方合同的‘自助’功能,以及‘自动标记’功能,允许用户通过一键将任何协议与公司标准保持一致。
横河美国公司执行副总裁、总法律顾问和公司秘书George Niño表示:“Luminance对我们的业务是一个改变游戏规则的因素,并超越了其他今天可用的解决方案。作为一家跨国公司,我们很高兴看到Luminance在现场扩大的存在进一步加强了我们之间的深度合作。”



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB