2024-05-11发表2025-03-21更新 ByteAILab 6 分钟读完 (大约957个字)

DatologyAI 完成 5000 万美元 A 轮融资，投资者包括微软、Amplify、Radical、Elad Gil

DatologyAI 成立于 2023 年，在今年初宣布获得 1165 万美元种子轮融资后，刚刚宣布获得 Felicis 领投的 4600 万美元 A 轮融资，其它投资者包括 Radical Ventures、Amplify Partners、Elad Gil、M12 和 Alexa Fund。

图片来源：由GPTNB生成

创始团队包括前 DeepMind 和 Meta AI 研究员 Ari Morcos、前 Twitter 工程主管 Bogdan Gaza 以及前 MosaicML 数据研究主管 Matthew Leavitt。

DatologyAI 目前团队拥有 11 名员工，其目标是减少数据管理中所需的人工决策量（这些决策往往可能存在偏见或耗时）。

这里有一张图片

…

数据质量问题至今没有得到充分解决，是一个严重的疏忽，因为并非所有数据都是一样的，以正确的方式使用正确的数据训练模型可以对生成的模型产生巨大的影响。这不仅仅是性能的问题。

这里有一张图片

根据德勤的一项调查中，40% 的公司表示，与数据相关的挑战（包括彻底准备和清理数据）是阻碍其 AI 计划的首要问题之一。另一项针对数据科学家的民意调查发现，科学家大约 45% 的时间花在数据准备任务上，例如“加载”和清理数据。

…

DatologyAI 认为，制定 AI 利用标准的公司需要根据自己的专有数据训练自己的模型。其中许多公司拥有 PB 或更多的未标记且通常是非结构化的数据 - 如此之多，以至于他们无法对所有这些数据进行训练，即使他们愿意，因为它很快就会变得成本高昂（假设你甚至可以访问足够的计算！）。

因此，标准做法是简单地随机选择数据的子集。与深度学习的大多数其他领域不同，这种实践的创新相对较少被采用。这是有问题的，因为对数据的随机子集进行训练有很多很多问题：

模型将计算浪费在冗余数据上，从而减慢了训练速度并增加了成本。
有些数据具有误导性，实际上会损害性能。例如，在无法编译的代码上训练代码生成模型将导致总体上更糟糕的模型。
对于相同的计算预算，较慢的训练会导致性能较差。
数据集不平衡且有长尾——损害性能和公平性。

…

这里有一张图片

天使投资者 Yann LeCun 表示，模型的好坏取决于它们所训练的数据，但在数十亿或数万亿个示例中识别正确的训练数据是一个极具挑战性的问题。Ari 和他在 DatologyAI 的团队是解决这个问题的世界专家，相信他们正在构建的产品旨在为任何想要训练模型的人提供高质量的数据管理，这对于帮助 AI 发挥作用至关重要。

Reference:

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

DatologyAI 完成 5000 万美元 A 轮融资，投资者包括微软、Amplify、Radical、Elad Gil

https://www.gptnb.com/2024/05/11/2024-05-10-auto4-th0b1q/

作者

ByteAILab

发布于

2024-05-11

更新于

2025-03-21

DatologyAI 完成 5000 万美元 A 轮融资，投资者包括微软、Amplify、Radical、Elad Gil

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新