DatologyAI 完成 5000 万美元 A 轮融资,投资者包括微软、Amplify、Radical、Elad Gil
DatologyAI 成立于 2023 年,在今年初宣布获得 1165 万美元种子轮融资后,刚刚宣布获得 Felicis 领投的 4600 万美元 A 轮融资,其它投资者包括 Radical Ventures、Amplify Partners、Elad Gil、M12 和 Alexa Fund。
创始团队包括前 DeepMind 和 Meta AI 研究员 Ari Morcos、前 Twitter 工程主管 Bogdan Gaza 以及前 MosaicML 数据研究主管 Matthew Leavitt。
DatologyAI 目前团队拥有 11 名员工,其目标是减少数据管理中所需的人工决策量(这些决策往往可能存在偏见或耗时)。
DatologyAI 早期知名天使投资人包括:谷歌首席科学家 Jeff Dean、AI 教父 Geoffrey Hinton、Meta 首席 AI 科学家 Yann LeCun、Quora 创始人& OpenAI 董事会成员 Adam D’Angelo、Cohere联合创始人 Aidan Gomez 和 Ivan Zhang、Contextual AI 创始人 Douwe Kiela、AI 副总裁 Naveen Rao 以及扩散模型发明者之一 Jascha Sohl-Dickstein。
数据质量问题至今没有得到充分解决,是一个严重的疏忽,因为并非所有数据都是一样的,以正确的方式使用正确的数据训练模型可以对生成的模型产生巨大的影响。这不仅仅是性能的问题。
根据德勤的一项调查中,40% 的公司表示,与数据相关的挑战(包括彻底准备和清理数据)是阻碍其 AI 计划的首要问题之一。另一项针对数据科学家的民意调查发现,科学家大约 45% 的时间花在数据准备任务上,例如“加载”和清理数据。
改进训练数据意味着改进:
- 训练过程的效率,使您能够更快地将模型训练到相同或更好的性能,从而节省计算成本并使您的 ML 团队更加高效
- 模型的性能不仅 在一般情况下,而且在数据集中不常见的长尾查询上也表现出色,但对您的业务绝对至关重要
- 模型的大小:更好的数据意味着更小、更便携的模型,服务成本显着降低并且性能相同
通过确定要训练的正确数据以及呈现这些数据的正确方式来解决这个问题,特别是在面对 PB 级未标记数据时,是一个非常具有挑战性且成本高昂的问题,需要专门的专业知识。但解决这个问题的好处是巨大的,它可以说是当今 AI 研究中最重要的主题之一。
DatologyAI 认为,制定 AI 利用标准的公司需要根据自己的专有数据训练自己的模型。其中许多公司拥有 PB 或更多的未标记且通常是非结构化的数据 - 如此之多,以至于他们无法对所有这些数据进行训练,即使他们愿意,因为它很快就会变得成本高昂(假设你甚至可以访问足够的计算!) 。
因此,标准做法是简单地随机选择数据的子集。与深度学习的大多数其他领域不同,这种实践的创新相对较少被采用。这是有问题的,因为对数据的随机子集进行训练有很多很多问题:
- 模型将计算浪费在冗余数据上,从而减慢了训练速度并增加了成本。
…
Reference:
- https://www.datologyai.com/post/datologyai-raises-46m-series-a
- https://techcrunch.com/2024/02/22/datologyai-is-building-tech-to-automatically-curate-ai-training-data-sets
感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB。
DatologyAI 完成 5000 万美元 A 轮融资,投资者包括微软、Amplify、Radical、Elad Gil