中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一

上周,一个名为 “im-also-a-good-gpt2-chatbot” 的神秘模型突然现身大模型竞技场 Chatbot Arena,排名直接超过 GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b 等各家国际大厂的当家基座模型。随后 OpenAI 揭开 “im-also-a-good-gpt2-chatbot” 神秘面纱 —— 正是 GPT-4o 的测试版本,OpenAI CEO Sam Altman 也在 Gpt-4o 发布后亲自转帖引用 LMSYS arena 盲测擂台的测试结果。


图片

由开放研究组织 LMSYS Org (Large Model Systems Organization)发布的 Chatbot Arena 已经成为 OpenAI、Anthropic、Google、Meta 等国际大厂 “龙争虎斗” 的当红擂台,以最开放与科学的评测方法,在大模型进入第二年之际开放群众投票。

时隔一周,在最新更新的排名中,类 “im-also-a-good-gpt2-chatbot” 的黑马故事再次上演,这次排名飞速上涨的模型正是由中国大模型公司零一万物提交的 “Yi-Large” 千亿参数闭源大模型。

在 LMSYS 盲测竞技场最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第 7,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与 GPT4o 并列世界第一

零一万物也由此成为了总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上,GPT 系列占了前 10 的 4 个,以机构排序,零一万物 01.AI 仅次于 OpenAI, Google, Anthropic 之后,以开放金标准正式进击国际顶级大模型企业阵营。

美国时间 2024 年 5 月 20 日刚刷新的 LMSYS Chatboat Arena 盲测结果,来自至今积累超过 1170 万的全球用户真实投票数:

图片

值得一提的是,为了提高 Chatbot Arena 查询的整体质量,LMSYS 还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示,如过度重复的 “你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS 公开表示,去除冗余查询后的榜单将在后续成为默认榜单。

在去除冗余查询后的总榜中,Yi-Large 的 Elo 得分更进一步,与 Claude 3 Opus、GPT-4-0125-preview 并列第四

LMSYS 中文榜

GPT-4o 和 Yi-Large 并列第一

值得国人关注的是,国内大模型厂商中,智谱 GLM4、阿里 Qwen Max、Qwen 1.5、零一万物 Yi-Large、Yi-34B-chat 此次都有参与盲测,在总榜之外,LMSYS 的语言类别上新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。

Yi-Large 的中文语言分榜上拔得头筹,与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表现不凡。

图片

“最烧脑” 公开评测

Yi-Large 位居全球第二

在分类别的排行榜中,Yi-Large 同样表现亮眼。编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是 LMSYS 所给出的针对性榜单,以专业性与高难度著称,可称作大模型 “最烧脑” 的公开盲测。

在编程能力(Coding)排行榜上,Yi-Large 的 Elo 分数超过 Anthropic 当家旗舰模型 Claude 3 Opus,仅低于 GPT-4o,与 GPT-4-Turbo、GPT-4 并列第二。

图片

长提问(Longer Query)榜单上,Yi-Large 同样位列全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。

图片

艰难提示词(Hard Prompts)则是 LMSYS 为了响应社区要求,于此次新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。LMSYS 认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。

在这一榜单上,Yi-Large 处理艰难提示的能力也得到印证,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

图片

LMSYS Chatbot Arena

后 benchmark 时代的风向标

如何为大模型给出客观公正的评测一直是业内广泛关注的话题。为了在固定题库中取得一份亮眼的评测分数,业内出现了各式各样的 “刷榜” 方法:将各种各样的评测基准训练集直接混入模型训练集中、用未对齐的模型跟已经对齐的模型做对比等等,对尝试了解大模型真实能力的人,的确呈现 “众说纷纭” 的现场,更让大模型的投资人摸不着北。

在经过 2023 年一系列错综复杂、乱象丛生的大模型评测浪潮之后,业界对于评测集的专业性和客观性给予了更高的重视。而 LMSYS Org 发布的 Chatbot Arena 凭借其新颖的 “竞技场” 形式、测试团队的严谨性,成为目前全球业界公认的基准标杆,连 OpenAI 在 GPT-4o 正式发布前,都在 LMSYS 上匿名预发布和预测试。

在海外大厂高管中,不只 Sam Altman,Google DeepMind 首席科学家 Jeff Dean 也曾引用 LMSYS Chatbot Arena 的排名数据,来佐证 Bard 产品的性能。

OpenAI 创始团队成员 Andrej Karpathy 甚至公开表示,Chatbot Arena is “awesome”。

自身的旗舰模型发布后第一时间提交给 LMSYS,这一行为本身就展现了海外头部大厂对于 Chatbot Arena 的极大尊重。这份尊重既来自于 LMSYS 作为研究组织的权威背书,也来自于其新颖的排名机制。

公开资料显示,LMSYS Org 是一个开放的研究组织,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。虽然主要人员出自高校,但 LMSYS 的研究项目却十分贴近产业,他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的 MT-Bench 已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上 live 大模型打擂台测试所需的算力。

在形式上,Chatbot Arena 借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的 “参赛” 模型随机两两配对,以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价,在盲测平台 https://arena.lmsys.org/ 上,大模型们两两相比,用户自主输入对大模型的提问,模型 A、模型 B 两侧分别生成两 PK 模型的真实结果,用户在结果下方做出投票四选一:A 模型较佳、B 模型较佳,或是两者平手,或是两者都不好。提交后,可进行下一轮 PK。

图片

通过众筹真实用户来进行线上实时盲测和匿名投票,Chatbot Arena 一方面减少偏见的影响,另一方面也最大概率避免基于测试集进行刷榜的可能性,以此增加最终成绩的客观性。在经过清洗和匿名化处理后,Chatbot Arena 还会公开所有用户投票数据。得益于 “真实用户盲测投票” 这一机制,Chatbot Arena 被称为大模型业内最有用户体感的奥林匹克。

在收集真实用户投票数据之后,LMSYS Chatbot Arena 还使用 Elo 评分系统来量化模型的表现,进一步优化评分机制,力求公平反应参与者的实力。

Elo 评分系统,是一项基于统计学原理的权威性评价体系,由匈牙利裔美国物理学家 Arpad Elo 博士创立,旨在量化和评估各类对弈活动的竞技水平。作为当前国际公认的竞技水平评估标准,Elo 等级分制度在国际象棋、围棋、足球、篮球、电子竞技等运动中都发挥着至关重要的作用。

更通俗地来讲,在 Elo 评分系统中,每个参与者都会获得基准评分。每场比赛结束后,参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率,一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。通过引入 Elo 评分系统,LMSYS Chatbot Arena 在最大程度上保证了排名的客观公正。

图片

Yi-Large 以小搏大紧追国际第一阵营

登顶国内大模型盲测

此次 Chatbot Arena 共有 44 款模型参赛,既包含了顶尖开源模型 Llama3-70B,也包含了各家大厂的闭源模型。

图片

以最新公布的 Elo 评分来看,GPT-4o 以 1287

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

微软颠覆PC形态,Copilot+PC搭载GPT-4o,8688元起售

这才是 PC 的下一个形态。

「三十年前,我们在这里发布了 Windows 95。


三十年后,我们再次宣布 Windows 的进化,现在是令人难以置信的新 AI 时代了,」微软 CEO 萨提亚・纳德拉说道。

今天凌晨,在雷德蒙德园区的一次特别活动中,微软向世界介绍了专为 AI 设计的新型 Windows PC,即 Copilot+ PC。

Copilot+ PC 是迄今为止速度最快、最具智能体验的 Windows PC。凭借强大的新型芯片,能够实现令人难以置信的 40+ TOPS(每秒万亿次操作)AI 算力、电池续航时间可达一整天,而且无缝接入了全世界最先进的人工智能模型。

Copilot+ PC 能够完成任何其他 PC 无法完成的事情。例如,通过 Recall 轻松查找并记住你在 PC 中看到的所有内容,使用 Cocreator 直接在设备上近乎实时地生成和优化 AI 图像,并通过实时字幕消除语言障碍,将 40 多种语言的音频翻译成英语。

每台 Copilot+ PC 都配备了强大的 AI Agent,只需在键盘上轻点新的 Copilot 按键即可快速交互。未来几周内,用户将获得包括来自 OpenAI GPT-4o 在内的最新模型,进行更自然的语音对话。

因为 AI 能力的加持,AI 大模型可以实时看到、听到系统内外的信息,并用语音等方式与你进行最直接的交互。上个星期 OpenAI CEO 奥特曼发布 GPT-4o 的时候还在说「与电脑交互从来都不是很自然的事情」,现在情况变了。

微软快速展示了新硬件形态的一系列使用方式。在 Windows 系统界面里,任何东西都可以向 Copilot 窗口里拖,让大模型来给你快速解释,比如这是什么天气现象:

AI 能力也完全嵌入了 Windows 11 系统,控制面板里有 Copilot 帮你修改设置的按钮,图片文件的菜单里出现了一键修图,右侧邮件通知的提示卡片里,可以让 AI 直接总结内容:

最惊艳的当然是 AI 的实时交互能力。打开 Copilot 玩《我的世界》,AI 不仅知道你在玩什么游戏,还能直接告诉你应该如何建设,怎么躲避僵尸。不用看攻略视频,就像有一个老玩家在身边手把手地教。这正是 Copilot 升级为 GPT-4o 的能力展示。

微软正在将 Copilot 提升到一个全新的水平,它将能够实时地看到、听到、说话并提供帮助。

对此,有网友说到,OpenAI 没有推出 Windows 端的 ChatGPT 应用,原来是等微软做这件事情。…

点击阅读全文

来源链接



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

讯飞星火API顶配版低至0.21/万Tokens,价格为百度阿里五分之一

2023年5月,讯飞星火正式发布,迅速成为千万用户获取知识、学习知识的“超级助手”,成为解放生产力、释放想象力的“超级杠杆”。

2024年5月,讯飞星火API能力正式免费开放,携手生态开发者加快大模型赋能刚需场景。


图片

讯飞星火Lite API永久免费开放!
讯飞星火Pro/Max API低至0.21元/万tokens!

在讯飞星火,1token相当于1.5个中文汉字,因此2.1元就足够调用“讯飞星火3.5 Max”生成一部余华《活着》的内容量。焕新的价格体系将帮助开发者降低调用成本,驱动产品创新验证,解决真实世界的刚需。

科大讯飞始终坚持能力迭代与生态建设,持续聚集全球开发者,加速大模型赋能千行百业,加快AI普惠化的到来!



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

李开复:不参与“价格战”、模型盲测国内第一欢迎PK

李开复的底气来自 Yi-Large 一直以来不错的测评表现。而最近的 5 月 20 日,在 LMSYS 盲测竞技场最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界第七,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet,中文榜更是与 GPT4o 并列第一。


零一万物也因此成为总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上,GPT 系列占了前十位的四个名额。以机构排序,零一万物 01.AI 仅次于 OpenAI、Google、Anthropic,正式进入国际顶级大模型企业阵营。

让零一万物振奋的原因是 LMSYS 是大模型金标准,都是第三方匿名,而且每个模型都有数万用户评估,结果可信度非常高。OpenAI 的 Sam Altman 和 Google CTO Jeff Dean 都在最近的模型发布中引用了该测试结果。

为了提高 Chatbot Arena 查询的整体质量,LMSYS 实施了重复数据删除机制,并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示,如过度重复的“你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS 公开表示,去除冗余查询后的榜单将在后续成为默认榜单。

在去除冗余查询后的总榜中, Yi-Large 的 Elo 得分更进一步,与 Claude 3 Opus、GPT-4-0125-preview 并列第四。

国内大模型厂商中,智谱 GLM4、阿里 Qwen Max、Qwen 1.5、零一万物 Yi-Large、Yi-34B-chat 此次都有参与盲测。在总榜之外,LMSYS 的语言类别上新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。Yi-Large 的中文语言分榜上拔得头筹,与 OpenAI GPT-4o 并列第一。

在分类排行榜中,编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是 LMSYS 所给出的针对性榜单,以专业性与高难度著称,可称作大模型“最烧脑”的公开盲测。

在编程能力(Coding)排行榜上,Yi-Large 的 Elo 分数超过 Anthropic 当家旗舰模型 Claude 3 Opus,仅低于 GPT-4o,与 GPT-4-Turbo、GPT-4 并列第二。长提问(Longer Query)榜单上,Yi-Large 同样位列全球第二,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。

艰难提示词(Hard Prompts)则是 LMSYS 为了响应社区要求,新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。LMSYS 认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。在这一榜单上,Yi-Large 处理艰难提示的能力也得到印证,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

在此之前,各种静态榜单几乎成为厂商必争的地方。在零一万物模型训练负责人黄文灏看来,所谓打榜主要是厂商要把模型某些单一能力做提升,但比较的时候大家可能并不了解,会带来一些 bias。LMSYS 提供了一种更接近于用户真实场景的评测方式,所以可以作为一个更好的衡量标准。

“我们的计划是从最小到最大的模型都能够做到中国最好。”李开复表示。一方面,根据 scaling law,越大尺寸的模型约有可能达到 AGI;另一方面,小一些的模型也有各种应用机会。因此,零一万物的打法是“一个都不放过”,并且在每一个潜在尺寸上做到性能最高、推理成本最低。

不过另一个现实是,零一万物 GPU 存量只有 Google、Microsoft 的 5%,但李开复认为这并不代表企业就没有机会。

“能用同样一张卡挤出更多的价值,这是今天我们能够达到这些成果的重要原因之一。”李开复说道。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

提高光学数据集利用率,天大团队提出增强光谱预测效果 AI 模型

编辑 | 枯叶蝶
近日,天津大学激光与光电子研究所吴亮副教授、姚建铨院士团队联合自然语言处理实验室熊德意教授团队报道了一种使用多频率补充输入的深度学习模型来增强光谱预测效果的方案。
该方案可有效地提高现有光学数据集的利用率,在不额外增加训练成本的基础上,增强了与超表面结构对应的光谱响应的预测效果。


相关研究成果以「Enhanced spectrum prediction using deep learning models with multi-frequency supplementary inputs」为题,于 2024 年 5月16 日发表在《APL Machine Learning》。
论文链接:https://doi.org/10.1063/5.0203931

研究背景
近年来,深度学习技术的快速发展为各个领域带来了前所未有的变革和创新,成为了多门学科处理复杂且庞大的数据的有效工具。
基于神经网络的方法可以有效地检测目标数据的相关特征和潜在模式,但如果深度学习模型直接学习这些来自不同领域、不同格式的相关数据仍存在一定的挑战。
特别的,近年来结合深度学习技术的研究领域普遍面临着现有数据集的体量小、质量低等问题,影响了模型对于目标任务的学习效果。
在整个「AI for Science」的研究过程中,耗费成本最高的部分主要是数据集的构建,因此,如何更有效地利用现有数据集至关重要。
天津大学团队经研究证明,在目标频谱预测过程中向现有数据集添加补充的多频输入信息,可以显著提高网络的预测准确率。这种方法为深度学习和光子学、复合材料设计和生物医学等其他领域的跨学科研究和应用提供了新的数据集使用思路。

研究亮点
研究的创新点在于提出了全频率范围的光谱信息拆分思想,表现为结合实际设计需求,将全频率光谱信息按照工作频率部分及非工作频率部分进行学习任务拆分。
为展示该方案的普适性,工作中将目标工作频段细化为低频信息 (0-1 THz)部分和高频信息 (1-2 THz)部分来演示模型学习的增强效果。
与对该工作频率范围数据进行直接预测相比,在补充了其他频率信息后,整体的透射光谱数据预测误差下降了 80% 左右,其中基于 Transformer 的模型在补充低频信息后,预测误差仅为直接预测的 40% 左右,设计的超表面结构和模型架构如图一所示:

图1  (a)-(b) 超表面结构示意图,其中棕色部分代表「1」像素,黄色部分代表「0」像素。(c) CNN、LSTM、GRU 和 Transformer 网络示意图,正向网络中,模型的输入是25*25像素的超表面矩阵,输出是光学响应,而逆向网络则相反。其中图中标注的「H」和「L」分别代表高频和低频的相关振幅和相位数据。

为更直观的展示优化后不同工作频率下振幅及相位参量的预测效果,这里随机选取一些超表面结构在 CST Studio Suite 软件中进行仿真演示,如图二所示:

图2  优化后高频和低频数据的预测效果示意图。(a)-(f) 通过将真实数据(紫色实线)与预测数据(黑色虚线)进行比较,证明优化网络模型在不同频率范围内的不同预测性能。绿色区域表示用作补充输入的频率信息数据,而黄色区域表示用于验证优化预测性能的区域。其中a和b代表x偏振态高频和低频振幅的预测结果.(c)-(d) y偏振态高频和低频振幅的预测结果.(e)-(f) 高频和低频相位的预测结果。

总结与展望
该研究通过对不同光学问题的学习任务进行有针对性的数据集拆分,有效地提高了现有数据集的利用效率,进而提升了深度学习模型的学习效果。
这一优化方案有效缓解了现有光学数据集(特别是太赫兹波段的相关数据集)较少的问题,也为更多结合深度学习技术但数据昂贵的研究领域,如复合材料设计、医学影像分析、金融数据预测等提供了一种对数据集进行优化的新视角。

第一作者:邢效华,任玉琪  指导教师:吴亮,熊德意,姚建铨
论文合作者:邹蝶,张乾坤,毛炳轩
致谢:张霜教授(香港大学)、韩家广教授在论文工作过程中的帮助。相关研究受到国家重点研发计划、国家自然科学基金等项目支持。
通讯员:张乾坤 史森方



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

“ChatGPT-4O:OpenAI新旗舰模型全评测”

本文是对OpenAI发布的最新模型ChatGPT-4进行全面的评测和分析。这


篇文章由Ignacio de Gregorio Noblejas撰写,详细介绍了该模型在多个方面表现出的优点和局限性。

首先,本文提到了ChatGPT-4的训练数据集。与之前版本相比,该模型使用了更大的数据集进行训练,使得其能够处理更多复杂的问题,并且具有更高的准确度。此外,文章还指出该模型在语言生成和推理方面表现出了显著提升。

接下来,本文详细介绍了ChatGPT-4在多个任务上的表现。首先是对话任务,该模型能够以人类水平的自然流畅性回答问题,并且可以进行连贯的对话。此外,文章还提到了该模型在生成文本、翻译和摘要等方面的优异表现。

然而,本文也指出了ChatGPT-4的一些局限性。首先是其对于一些特定领域的问题可能存在困难,如法律、医学等专业知识较为复杂的情况下,该模型可能无法提供准确答案。此外,文章还提到了该模型在处理多个问题时的限制,即需要逐一回答,而不能同时解决多个问题。

最后,本文总结了ChatGPT-4的优点和局限性,并提出了一些建议。首先是对于开发者来说,该模型提供了一个强大的工具,可以用于构建各种应用程序,如智能助手、翻译机器人等。此外,文章还提到该模型在教育领域中的潜力,以及可以帮助解决一些社会问题的可能性。

然而,本文也指出了需要进一步改进和完善ChatGPT-4的一些方面。首先是对于处理特定领域的问题,该模型可能需要更多的专业知识来提高准确度。此外,文章还提到了一些建议,如增加多语言支持、更好地处理上下文等,以提升该模型在实际应用中的表现。

总之,本文对ChatGPT-4进行了全面的评测和分析。虽然该模型在许多方面都有显著的进步,但也存在一些局限性和需要改进的地方。然而,作为一个强大的AI工具,该模型仍然具有很大的潜力,可以为我们带来更多的创新和应用机会。

内置10000+Github 热门代码库,百度正式发布Comate代码知识增强2.0

5月18日,iTechClub华北区第七届互联网技术精英高峰论坛举行,百度工程效能部总监臧志带来“迈向人机协同的AI原生研发新范式”主题演讲。他重磅发布了百度智能代码助手Comate最新成果——Comate代码知识增强2.0,这是国内首个支持实时检索的智能代码助手,内置超过10000个Github 热门代码库,这为全球开发者带来了前所未有的编程体验。


作为本次大会的亮点之一,Comate代码知识增强2.0受到与会者极大关注。智能代码助手Comate是基于百度文心大模型打造的一款代码智能补全和推荐工具。它通过深度学习和自然语言处理技术,能够实时分析开发者的编程意图,自动推荐合适的代码片段和库函数,极大地提高了编程效率和代码质量。

臧志在演讲中详细介绍了Comate代码知识增强2.0的三大优势。首先,它内置了10000+Github 热门代码库,可以支持全面检索和问答。覆盖各类语言、各类技术栈的优秀框架,如工程方向的Spring、Mybaties、FastAPI、React等,算法类的Transformer、PaddlePaddle等,还有最新的AI框架如AutoGPT、Langchain。

开发者面试时经常遇到代码库相关问题,现在通过Comate的解读可以快速获取开源框架中具体业务的解释,为开发者掌握源码逻辑,提升编程技能颇有帮助。这就好比打造一个“代码图书馆”,由Comate做辅助,帮助每位开发者学习优秀的代码实践。

例如在面试场景中,提问“Spring Bean 的默认作用域是什么?如何更改 Bean 的作用域?”

其次,支持了Web在线检索,直接实时获取最新技术知识,这也是国内首个支持实时检索智能代码助手。Comate基于网页检索快速学习新知识,通过大模型对复杂问题进行分析,明确需求解法,并基于用户已有的代码,快速的实现和修改代码。假如直接抛出一个网页地址,也能让Comate理解网页内容,根据诉求给出答案。同时,知识不再是一个个孤岛,通过将网络实时检索到的内容、指定的网页内容、本地上传文件、本地代码库…等诸多知识混合编排,多能力加持为你生成更贴合业务实际的代码。

比如需要在生成一个Agent调用文心一言的4.0API实现,只需要说出你的需求,Comate就可以通过网页检索生成框架代码,找到最新的文心一言API,生成业务逻辑代码。原来需要数天的调研、开发工作,使用Comate,只需要几句话即可完成。

最后,给出任意API链接,即可生成调用代码和对应的测试用例,高效高质。目前,Comate已支持深入理解本地代码库和组织内部的私域知识,例如业务接口文档、产品需求文档、测试用例文档、服务部署文档等。通过对当前「编程现场」的上下文全方位掌握,对「业务/项目/服务」的研发全链路深入理解,Comate 可以生成更贴合业务、更有针对性的使用和测试代码。

进入代码知识增强2.0阶段,Comate 能够为代码编写、学习、面试和测试等不同场景提供便捷支持。例如代码编写场景下,Comate 能够检索最新技术实现,生成框架代码,也能够并基于用户已有的代码,辅助修改代码;在测试场景下,Comate 可以根据用户输入的场景化的测试描述,检索出一系列符合业务需求意图的代码片段,并通过大模型生成完整的自动化测试代码。

Comate发布的全部功能,可以在官网下载IDE插件使用,也可以在 Comate 官网通过网页端在线体验。Comate 一直致力于提升开发者的编程效率和代码质量,公开数据显示,百度每日新增代码中已有 27% 由 Comate 自动生成,整体采纳率达到 46%。此次发布 Comate 代码知识增强2.0,不仅进一步完善了 Comate 的功能和性能,也展现了大模型为 AI 编程领域带来的巨大变革。

近日,在 VSCode、Jetbrains 等各大插件市场智能助手评分榜中,百度 Comate 分别以 4.5 和 4.4 位列榜单第一。现在 Comate 就像一个智能代码助理,帮助程序员以更高的效率开发出更高质量的代码,动动嘴就能“编程”的时代来了。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

GPT-4:用户将热爱这些令人惊叹的用例

这篇文章介绍了GPT-4的使用案例,讨论了用户对这些案例的喜爱程度,并提出了几个重要的问题和挑战。


首先,文章指出GPT-4在自然语言处理方面取得了巨大的进步,可以用于各种任务,如文本生成、问答系统、机器翻译等。其中一个令人惊叹的使用案例是GPT-4可以通过对话来创作音乐和艺术作品。这意味着用户不再需要依赖人类专家或设计师,而是能够利用GPT-4的智能来创建独特而有趣的内容。
然而,文章也提出了几个问题。首先,由于GPT-4在生成文本时可能会产生错误、歧义和偏见,因此用户需要对其输出进行审查和修正。此外,GPT-4还面临着隐私和伦理方面的挑战,因为它可以访问大量个人数据,并且有潜力用于操纵或欺骗人们。
文章还讨论了GPT-4在教育领域的应用。由于其强大的自然语言处理能力,它可以帮助学生更好地理解和学习各种学科,如数学、科学和历史。此外,GPT-4还可以为教师提供个性化的教学资源,并协助他们设计课程内容。
然而,这些使用案例也带来了一些挑战。首先,由于GPT-4是基于大规模数据训练而来的,它可能会反映出社会上的偏见和歧视。这意味着用户需要谨慎地使用它,以避免进一步加剧这些问题。
此外,文章还提到了GPT-4在创造性领域的潜力。由于其能够生成独特且有趣的内容,它可以用于各种艺术形式,如音乐、文学和电影制作等。这将为用户提供更多的创作机会,并可能改变传统的创意产业。
总之,文章强调了GPT-4在自然语言处理领域取得的巨大进步,以及它在教育、创造性和其他领域中的潜力。然而,它也提出了几个重要的问题和挑战,如审查输出、隐私和伦理问题等。因此,在使用GPT-4时,用户需要谨慎地考虑这些因素,并确保其应用符合道德标准。
最后,文章呼吁人们积极参与到GPT-4的开发和研究中,以推动这一技术的进一步发展和改进。这将有助于解决目前存在的问题,并为未来的使用案例提供更多可能性。

关于哈维的某些事实

这篇文章的标题是“关于哈维的某些事情”,作者通过讲述自己的亲身经历,探讨了人工智能在教育领域中的应用和潜力。


首先,作者提到了自己曾经担任一名教师,并且在教学过程中使用了一种叫做Harvey的人工智能助手。Harvey是一款基于自然语言处理技术的教育软件,可以帮助学生解决问题、回答疑问以及提供个性化学习建议等功能。
然而,在实际应用中,作者发现了许多问题和挑战。首先是隐私保护的问题,因为Harvey需要收集学生的个人信息才能为其提供个性化服务,这就引发了一些关于数据安全和隐私泄露的担忧。此外,作者还指出,虽然Harvey可以帮助学生解决一些问题,但它并不能完全替代人类教师。因为在某些情况下,人工智能可能无法理解或回答复杂的问题,而需要人类教师来提供更深入、个性化的指导和支持。
另外,文章中还提到了教育界对于人工智能应用的一些担忧和争议。一些人认为,过度依赖人工智能助手会削弱学生的学习能力和创造力,而另一些人则认为,人工智能可以为教师提供更多的支持和资源,从而提高教学质量。
最后,作者提出了一些建设性的建议,以更好地利用人工智能在教育领域中的潜力。首先是加强隐私保护措施,确保学生个人信息得到妥善处理;其次是在设计人工智能助手时,要注重培养学生的创造性思维和解决问题能力,而不是仅仅提供答案。此外,还需要建立一个多元化、开放性的教育环境,让人工智能与人类教师相互补充,共同促进学生的全面发展。
总之,这篇文章通过作者亲身经历探讨了人工智能在教育领域中的应用和潜力,并提出了相关问题和建议。尽管人工智能助手可以为学生提供个性化学习支持,但同时也需要注意隐私保护、培养创造能力等方面的问题,以更好地利用其优势,促进教育的发展。

“2024年AI行业的前沿词汇:Top 20 AI Buzzwords”

标题:2024年AI领域的前20个热门词汇
作者:Stackademic
链接:https://medium.c


om/stackademic/top-20-ai-buzzwords-in-2024-0a43c75ee660
摘要:
本文列出了2024年人工智能(AI)领域中最受关注的前20个热门词汇。这些词汇涵盖了从机器学习和深度学习到自然语言处理、计算机视觉等多个方面,反映了当前AI技术发展的趋势。
1. 自动化
自动化是指通过使用人工智能技术来实现任务或过程的自主完成。随着自动化技术的不断进步,我们将看到越来越多的工作被机器取代,从而提高生产力和效率。
2. 量子计算
量子计算是一种基于量子物理学原理的计算方法,具有比传统计算更高的速度和能力。随着技术的发展,量子计算在解决复杂问题方面将发挥重要作用。
3. 自然语言处理(NLP)
自然语言处理是指通过机器学习、深度学习等人工智能技术来理解、分析和生成人类语言的过程。NLP在语音识别、文本分类、情感分析等领域有广泛应用前景。
4. 计算机视觉
计算机视觉是一种利用图像处理和模式识别技术实现对图像进行解释和理解的人工智能分支。在自动驾驶汽车、医学影像诊断等方面具有重要作用。
5. 机器学习(ML)
机器学习是指通过训练数据集来构建模型,使计算机能够从经验中学习并改进性能的方法。随着大规模数据和算力资源的增加,机器学习在各个领域都有广泛应用。
6. 深度学习(DL)
深度学习是一种基于人工神经网络结构实现的机器学习技术,可以通过多层次的非线性变换来提取高级特征。深度学习在图像识别、语音识别等领域取得了重大突破。
7. 自动驾驶
自动驾驶是指利用人工智能和传感器技术实现无人驾驶汽车的能力。这项技术将改变交通运输行业,并带来更高效、安全和环保的出行方式。
8. 机器人
机器人是一种能够执行特定任务的人造智能系统。随着机器人的功能不断提升,它们在工业制造、医疗护理等领域有广泛应用前景。
9. 智能家居
智能家居是指利用人工智能技术实现家庭设备自动化控制和智能化管理的概念。这项技术将改变人们的生活方式,提高舒适度和便利性。
10. 区块链
区块链是一种去中心化、安全可靠的分布式数据库技术。它在金融领域有广泛应用前景,并且可以用于数据隐私保护等方面。
11. 人工智能伦理
人工智能伦理是指探讨和解决与人工智能相关的道德、法律和社会问题的学科。这项研究对于确保AI技术的可持续发展至关重要。
12. 语音识别
语音识别是一种将人类语言转换为计算机可以理解的形式的人工智能技术。它在智能助手、虚拟助理等领域有广泛应用前景。
13. 自动化驾驶辅助系统(ADAS)
自动化驾驶辅助系统是指通过使用传感器和人工智能技术来改善汽车安全性的一种方法。这项技术将改变交通运输行业,并提高行车的可靠性和安全性。
14. 机器翻译
机器翻译是一种利用自然语言处理技术实现自动化文本翻译的人工智能分支。它在跨文化交流、国际贸易等领域有广泛应用前景。
15. 人脸识别
人脸识别是指通过使用计算机视觉和模式识别技术来确定个人身份的一种方法。这项技术在安全监控、身份验证等方面具有重要作用。
16. 语音合成
语音合成是一种利用自然语言处理技术实现将文本转换为人类可听懂的语音的人工智能分支。它在虚拟助手、教育培训等领域有广泛应用前景。
17. 自动化决策系统(ADS)
自动化决策系统是指通过使用机器学习和人工智能技术来实现自主决策的一种方法。这项技术将改变商业运营方式,提高效率和准确性。
18. 语音交互
语音交互是一种利用自然语言处理技术实现人类与计算机之间的语音对话的人工智能分支。它在虚拟助手、智能客服等领域有广泛应用前景。
19. 自动化推荐系统(ARS)
自动化推荐系统是指通过使用机器学习和人工智能技术来根据用户偏好提供个性化建议的一种方法。这项技术将改变消费者购买行为,提高销售效率。
20. 语音情感分析
语音情感分析是一种利用自然语言处理技术实现对人类语音中的情绪进行识别和理解的人工智能分支。它在客户服务、市场调研等领域有广泛应用前景。
总结:
以上是2024年AI领域中最受关注的前20个热门词汇,涵盖了从自动化到语音情感分析等多个方面。这一系列技术将改变我们的生活方式和商业运营模式,并带来更高效、安全和可持续发展的人工智能应用。