2024-08-30发表2025-03-21更新 ByteAILab 14 分钟读完 (大约2117个字)

孟瑜获杰出博士论文奖，中科大获最佳学生论文，KDD 2024全部奖项放出

ACM SIGKDD（国际数据挖掘与知识发现大会，KDD）会议始于 1989 年，是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议，也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

今年的 KDD 大会是第 30 届，8 月 25 日 - 29 日在西班牙巴塞罗那召开，最佳论文奖、时间检验奖、杰出博士论文奖等奖项也逐一揭晓。

其中有多位华人研究者获奖，孟瑜的《Efficient and Effective Learning of Text Representations》获得了 KDD 2024 杰出博士论文奖，最佳论文奖（研究方向）颁给了六位华人学者参与的《CAT: Interpretable Concept-based Taylor Additive Models》，最佳学生论文（研究方向）颁给了中国科学技术大学、华为合作的《Dataset Regeneration for Sequential Recommendation》。KDD 2024 最佳论文奖（应用数据科学方向）由领英获得，此外，大会还颁发了两项时间检验奖。

杰出博士论文奖

KDD 2024 杰出博士论文奖颁发给了《Efficient and Effective Learning of Text Representations》，作者是弗吉尼亚大学助理教授孟瑜（Yu Meng）。

孟瑜于 2024 年加入弗吉尼亚大学 (UVA) 计算机科学 (CS) 系，担任助理教授（tenure-track）。此前，他获得了伊利诺伊大学厄巴纳 - 香槟分校 (UIUC) 的博士学位，与韩家炜教授一起工作。他还曾在普林斯顿 NLP 小组担任访问研究员，与陈丹琦一起工作。

论文摘要：文本表示学习在广泛的自然语言处理 (NLP) 任务中发挥了关键作用。这些表示通常是通过深度神经网络将原始文本转换为向量获得的。LLM 的最新进展已经证明了学习通用文本表示的巨大潜力，可适用于广泛的应用。这一成功由两个关键因素支撑：

在预训练和微调中使用广泛的文本数据来训练 LLM；
LLM 的规模可扩展到包含数百亿甚至数千亿个参数。

因此，训练 LLM 需要大量成本，包括获取大量带标签的数据以及支持这些大型模型所需的基础设施。在这些挑战的基础上，本文旨在开发高效且有效的文本表示学习方法，涉及以下关键内容：

利用球面空间进行文本表示学习。表示空间的传统选择是欧几里得空间，但非欧几里得球面空间在通过方向相似性捕捉语义相关性的研究方面表现出卓越的能力。本文的工作重点是利用球面表示空间进行文本表示学习的自监督技术。
使用球面文本表示法发现主题结构。基于在球面空间中学习到的文本表示法，本文开发了通过联合建模主题和文本语义自动从给定语料库中发现主题结构的方法。
使用 LLM 生成训练数据以实现自然语言理解 (NLU)。要在 NLU 任务上实现稳健的性能，通常需要大量人工标注的训练样本来微调预训练的文本表示。为了减轻人工标注的需求，本文开发了一种新范式，使用 LLM 作为训练数据生成器来取代人工标注过程。

论文详细内容请参阅：https://scholar.google.com/citations?view_op=view_citation&hl=en&user=S2-yZKcAAAAJ&cstart=20&pagesize=80&citation_for_view=S2-yZKcAAAAJ:_Qo2XoVZTnwC

杰出博士论文奖（亚军）

此次还有两项研究获得了本届 KDD 的杰出博士论文奖（亚军）。

论文标题：Make Knowledge Computable: Towards Differentiable Neural-Symbolic AI
机构：加利福尼亚大学
作者：Ziniu Hu
论文地址：https://escholarship.org/uc/item/3ft4t0nj

论文摘要：本论文探讨了神经人工智能系统与符号人工智能系统的交叉点。近年来的深度学习方法能够记忆大量的世界知识，但在此基础上进行符号推理仍存在局限性；而符号 AI 擅长解决推理任务，但在适应新知识方面效率较低。此前将两者结合的研究主要集中在构建基于解析的系统，这类系统需要大量的中间标签标注，且难以扩展。

作者的研究目标是使神经模型能够以可微分的方式与符号推理模块进行交互，并实现无需中间标签的端到端训练的这种神经 - 符号模型。为实现这一愿景，作者开展了以下研究工作：

设计新型推理模块：设计可微分的神经模块，能够进行符号推理，包括知识图谱推理和复杂的逻辑推理。
通过自监督学习：从结构化和符号知识库中获取自监督信号来训练神经模型，无需额外的标注。
跨领域泛化：神经 - 符号系统的模块化设计天然有助于更好地进行分布外、词汇外、跨语言和跨类型的泛化。

论文地址：https://arxiv.org/pdf/2406.17931

论文标题：Artificial Intelligence for Data-centric Surveillance and Forecasting of Epidemics
机构：佐治亚理工学院
作者：Alexander Rodriguez
论文地址：https://repository.gatech.edu/entities/publication/aa292b79-26bb-4aec-a3f3-0fd87911ff74/full

论文摘要：对流行病的监控和预测是政府官员、企业和公众进行决策和规划的重要工具。尽管人们在理解疾病如何在人群中传播方面取得了多项进展，但从许多方面来看，人们对流行病传播的理解仍处于初期阶段。许多主要的挑战源于复杂的动态因素，如人员流动模式、政策遵守情况，甚至数据收集程序的变化。随着收集和处理新来源数据的努力，拥有许多变量的细粒度数据逐渐变得可用。然而，这些数据集很难通过传统的数学流行病学和基于智能体的建模方法来利用。相反，流行病学中的 AI 方法面临数据稀疏、分布变化和数据质量差异的挑战。

AI 技术在流行病学动态方面也缺乏理解，可能会导致不切实际的预测。为了解决这些挑战并向数据中心方法迈进，本论文提出了几个框架。具体来说，作者通过多个实例展示了将 AI 的数据驱动表达能力引入流行病学，可以实现对流行病更为敏感和精准的监控与预测。

最佳学生论文

KDD 2024 最佳学生论文（研究方向）颁给了《Dataset Regeneration for Sequential Recommendation》。

作者：Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen
机构：中国科学技术大学、华为
论文地址：https://arxiv.org/pdf/2405.17795
项目链接：https://anonymous.4open.science/r/KDD2024-86EA

论文摘要：序列推荐系统（SR）是现代推荐系统中的关键组件，其目标是捕捉用户不断变化的偏好。为了增强 SR 系统的能力，已经进行了大量研究。这些方法通常遵循以模型为中心的范式，即基于固定数据集开发有效模型。然而，这

感谢阅读！如果您对AI的更多资讯感兴趣，可以查看更多AI文章：GPTNB。

孟瑜获杰出博士论文奖，中科大获最佳学生论文，KDD 2024全部奖项放出

https://www.gptnb.com/2024/08/30/2024-08-29-auto5-ly44z4/

作者

ByteAILab

发布于

2024-08-30

更新于

2025-03-21

孟瑜获杰出博士论文奖，中科大获最佳学生论文，KDD 2024全部奖项放出

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

归档

标签

订阅更新