普通人如何利用AI创业?这5大秘诀值得收藏

OpenAI的ChatGPT和微软Copilot等生成式人工智能(AI)工具让我们更容易将想法转化为行动。 从提高工作效率到协助编码,再到帮助内容创作,这些技术正在改变我们的工作方式。


 如果你有一个绝妙的想法,能否借助生成式人工智能, 将它从纸上谈兵变成赚钱的项目 ?五位商界领袖就新兴技术的作用发表了自己的看法。 

01.确定业务问题
外汇专业公司Travelex首席执行官Richard Wazacz表示,必须结合实际情况来看待生成式人工智能的力量。 专业人士可以利用新兴技术快速扩展新想法 ,但其他因素也很重要。 Richard Wazacz表示:“现在创办新企业是大势所趋, 但我不认为创业更容易了 。AIGC等技术让更多专业人士掌握了变革的力量,也给民主化带来了挑战。” 

02.承担风险
Logicalis公司首席技术官Toby Alcock发表了关于生成式人工智能内在潜力的看法, 尤其是当它能够推动新的商业模式时 。 Toby Alcock表示:“我创办过企业,建立过企业,也出售过企业,所以我经常思考这个问题。” 

03.找到平衡
技术专家MHR的销售促进主管Tim Lancelot持不同的观点—— 严峻的形势意味着敢于冒险的人可以获得回报 。 

04.使用正确的技术平台
Freshpet公司战略增长计划Jessie Sobel说,探索新的商业模式是她工作内容的一部分。 

05.聚焦目标
曼彻斯特联队的首席数字信息官Attiq Qureshi表示, 他所在的足球俱乐部正在研究如何在多个领域使用人工智能 ,包括内容交付和内容管理。 

原文来源于:
https://www.zdnet.com/article/do-ai-tools-make-it-easier-to-start-a-new-business-5-factors-to-consider/
中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

AI正在抢走谁的工作?一个人使用ChatGPT取代了60名员工

来源: 新智元

【导读】ChatGPT发布一年多来,总是有人担心自己的工作会被取代,但最后总是演变成「狼来了」的故事。但这次不一样了,ChatGPT它来真的。


BBC的一篇报道,让reddit网友吵得不可开交。

报道是这样的:一个由60多位编辑和作家组成的团队,负责为科技公司撰写和编辑文章,逐渐被ChatGPT所取代,团队只剩下1个人和1个ChatGPT。

剩下的这个人,每天做的事情就是修改ChatGPT生成的内容,让它显得没那么像机器生产的。

ChatGPT变成了主笔,人类则更像机器。

编辑们的「饭碗」不仅被AI夺走,曾经由创作带来的成就感,也一去不复返了。

so sad……

图片来源:由GPTNB生成

有网友开始逐渐想起了历史——

「When it came for the content farmers I said nothing, for I was not a farmer of content… 」

起初,AI追杀「内容民工」时,我不说话,因为我不是「内容民工」……

难道我们都要都要变成被替代的「沉默的大多数」了吗?

且慢,有网友持不同意见——

what? 编辑被AI取代=希特勒自杀?

fine. 悬着的心彻底死了。

如果说,好的一面是,AI现在取代的是一些并不真正「富有创意且引人入胜」的工作,也就是那些需要一些智能,但更多的只是重复性劳动的工作;

那么,坏的一面是,这正是我们很多人正在从事的工作!

大卫·格雷伯在他所著的「Bullshit Jobs」一书中,一针见血地指出,40%的工作都毫无意义。这些工作往往能带来很不错的收入,工作环境也极佳,只是它们都毫无意义,也最容易被机器取代。


ChatGPT取代了60名员工

2023年,作家本杰明·米勒(化名)的事业蒸蒸日上。

他领导着一个由60多名作家和编辑组成的团队,发表博客文章来为一家科技公司做宣传,这是一家打包和转售从房地产到二手车等各种数据的公司。

在米勒眼中,「这确实是一项非常有趣的工作」,可以发挥他的创造力,还能够获得与各个领域的专家合作的机会。

直到有一天,米勒的经理告诉他,「希望利用人工智能来降低成本」。

一个月后,公司引入了自动化系统。

米勒的经理将文章标题输入在线表格,人工智能模型就会根据标题生成大纲,米勒的电脑上就会收到提示。

他带领的撰稿人无需再自己构思,而是根据这些提纲撰写文章,米勒会在文章发表前进行最终审核。

这种工作模式只持续了几个月,团队就迎来了第二次「自动化」的消息。

接下来,由ChatGPT负责撰写文章的全部内容,米勒的大部分团队成员都被解雇了。

剩下的几个人面临着一项更没有创造性的任务:润色ChatGPT低质量的文本,使其看起来更有「人情味」。

时间来到2024年,公司解雇了米勒团队的其他所有成员,只剩下他一个人了。


「我开始觉得自己才是机器人」

「大多数情况下,需要做的是让文本看起来不那么奇怪和尴尬,删掉那些太过正式或热情过头的语言。」

总是重复这个过程让米勒觉得非常无聊,他开始觉得自己才是机器人。

米勒的经历并不罕见,行业内,出现了一个崭新的工作——

新工作的出现:帮机器人改稿

这种新兴起的工作,就是修复机器人的劣质写作。

美国肯塔基州列克星敦的文案撰稿人Catrina Cowar表示,「我们正在给机器人稿件添加人性化的元素,这通常需要对一篇文章进行深入的、发展性的编辑」。

首先,需要把那些泛滥的「因此」和「尽管如此」删掉,另外,你必须得对所有细节进行事实核查,因为人工智能会产生「幻觉」而编造一些不存在的东西。

这要耗费大量的精力,因为人工智能总会在那些你不易察觉的地方轻率地「添枝加叶」。

工作时间更长,报酬却更低

Cowar对此感到疲惫,让AI写的文字更像人这件事情,通常比自己从头开始写一篇文章需要更长的时间,但报酬却更低。

「在你找工作的平台上,每词最高约按照10美分计薪。但当你真正开始写作的时候,就会发现,这被认为是一份『编辑』工作,所以通常你只能得到每个词1~5美分。」

这项乏味得可怕的工作,报酬却几乎可以忽略不计。

其他行业也能够看到类似的例子,低薪人员默默地为机器提供动力,可能是协助自动订购系统,也可能是数据标注。

到底哪种表达方式更「像人」

随着越来越多低质量的机器生产的内容充斥网络,通过人工智能检测软件,来检查文本是否是机器生产的,已经成为文案领域的常见做法。

吊诡的是,AI在与AI对话,人成了最不重要的。

先用AI生成内容,再用AI检查到底是不是AI生成的。

人在中间起到了什么作用呢?可能也起到了一个「造型」的作用吧——把AI写的东西改造得像是人写的。

更离谱的是,去年,一批作家甚至表示,他们因人工智能生成内容探测器的虚假指控而失业。


【完整文章请参考原文链接:AI正在抢走谁的工作?一个人使用ChatGPT取代了60名员工



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

最难「讨好」的消费者,竟然都被AIGC征服了?

说到「营销互动」,你会想到什么?

从传统媒介到互联网时代,互动营销都在行业中占据一席之地。具体形式可能是报纸一角的创意广告,可能是花样百出的 H5 或微信小程序,也可能是手机屏与电视屏之间的互动。


总之,互动营销需要结合具体的媒介形式,为品牌方和消费者之间搭建起一个巧妙的沟通场景。

在过去的一年多,大模型技术在各个环节变革了营销行业,包括底层技术、内容创新,以及拓展品牌方与消费者的互动深度和广度。

AIGC 时代,营销互动能玩出哪些新花样?底层技术的进步,又为营销行业带来哪些全新的互动场景?

在火山引擎和 NVIDIA 联手机器之心和 CMO CLUB 推出的视频栏目《AIGC 体验派》第三期中,三位嘉宾将深入探讨 AIGC 技术在「营销互动」环节可发挥的价值。

直播时间:7月3日 19:00-19:50
直播主题:体验增强,如何用 AIGC 提升营销互动率?

第三期节目邀请了三位重磅嘉宾,分别是火山引擎 AR 解决方案负责人赵靓、火山引擎智能美化特效负责人范青、NVIDIA 解决方案架构师申意。

精彩内容抢先看
从 Midjourney、ChatGPT 到 Sora,对于今天的大众来说,AIGC 已经不是陌生、新奇的名词。

人们可以让 AI 无限次回复问题,帮忙将创意转化为图片、音乐甚至视频,再加上互联网时代的海量传播渠道,营销互动的创新空间变得前所未有的广阔。相较于常规的互动方式,AIGC 更具备创造性,抖音大热的莫奈花园、毛毡特效等「千人千面」的体验激发了大众高涨的互动兴趣,更激发了品牌营销的兴趣。今年上半年在抖音加入 AIGC 的品牌营销互动率提升了 3 倍以上。

除了品牌营销,AIGC 的互动也延展到了汽车座舱内。

日常生活中,手机早已成为我们捕捉和分享精彩瞬间的得力助手。然而,当我们坐在驾驶座上时,那些沿途的美景、难忘的瞬间,往往因为…(此处省略部分内容)

上期回顾
在第二期《AIGC 体验派》的直播中,火山引擎智能创作云运营负责人吴佳硕和 NVIDIA 解决方案架构师刘一鸣围绕「如何用 AIGC 提升营销视频创作效率」的主题进行了探讨。

越来越多的消费者开始借助抖音这样的短视频平台获得内容和信息,用户可以看到内容、产生兴趣,从而实现下单转化、视频营销的价值持续显现,逐渐成为企业实现快速增长的重要因素。(此处省略部分内容)

有奖问卷

您目前是否已经在日常工作中使用AIGC,欢迎您反馈。我们准备了一些小礼品,请记得填写邮寄信息。

点击此链接


1
2
3
4
5
![图片](https://mmbiz.qpic.cn/sz_mmbiz_jpg/KmXPKA19gWibX8NO2BYWZUIEMa0dB6R2NrZD9NcmyCUluyxmGLiaWmDmuQaypKnIia67Ssglnq1Jicgf9fd8agFSrg/640?wx_fmt=jpeg&from=appmsg)

![图片](https://mmbiz.qpic.cn/sz_mmbiz_jpg/KmXPKA19gWibX8NO2BYWZUIEMa0dB6R2NyNPXXibnNIyd3icAeoBV8WvE2HEwrvib8y0jn4ficOsjeubNOZenNvnJAQ/640?wx_fmt=jpeg&from=appmsg)

![图片](https://mmbiz.qpic.cn/sz_mmbiz_png/KmXPKA19gWibPnF8IItRmQicfI9q7BHkFAC2FYG6a9iccTibGxAcH3ZQK15xZH6m9POYdLYQODciaGVGw9RmSNoKRag/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
1
[点击此链接](https://vtizr.xetlk.com/s/7CjTy)
1
2
3
![图片](https://mmbiz.qpic.cn/sz_mmbiz_jpg/KmXPKA19gWibX8NO2BYWZUIEMa0dB6R2NzE3GpicvHG265MebHrCqsicGjQ4G2b81p7KRcvv2f3HPI1U5ia3OgM0Tg/640?wx_fmt=jpeg&from=appmsg)

![图片](https://mmbiz.qpic.cn/sz_mmbiz_jpg/KmXPKA19gWibX8NO2BYWZUIEMa0dB6R2NBbVAsdTRSJbo7mzuSW3KChliaV9XdPbStelNBJHqVDTkhBzugJKY28A/640?wx_fmt=jpeg&from=appmsg)
1
[点击此链接](https://bytedance.larkoffice.com/share/base/form/shrcncDpnE22V9qN2D7D0gWjerp)
1
2
3
4
5
6
7
8
9
10
11
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Title</title>
</head>
<body>

</body>
</html>

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

86个员工,卖了36亿

一个行业洗牌的信号灯。

作者丨李婉题
编辑丨曹玮钰

短短4天,OpenAI 曝出了2笔收购案。


6月21日先是公布了一项里程碑式的重大收购,OpenAI收购了实时分析数据库初创企业Rockset,除了收编团队,技术也被整合进OpenAI产品。交易金额细节未披露,但业界依据Rockset以往融资估值推测,此番收购估价或达5亿美元(折合约36亿人民币)。
自成立至去年8月底,Rockset已累计融资超过1亿美元,主要投资者包括红杉资本和Greylock等知名风投,据外媒报道,当时的投后估值最高就已达到5亿美元。
值得注意的是,根据领英显示,2016年成立的Rockset目前员工数量仅有86位,按照36亿的收购股价计算,人效相当之高。
仅过去4天,OpenAI又宣布完成了对远程协作公司Multi的收购,该公司仅有的5名员工将加入OpenAI,与ChatGPT桌面团队合并,共同推进人工智能在桌面应用领域的创新。
Multi曾完成两轮共计1300万美元的融资,最新投资者除Musha Ventures外,同样有Greylock的身影——Greylock最新典型言论有:现在是 AI 垂直软件最好的时代 。

无论技术背景、融资能力,两家初创企业都颇具看点。Rockset由前Facebook工程师创办,凭借其在实时搜索及数据分析领域的独到技术创新而声名鹊起。Multi以其创新的屏幕共享和实时协作功能闻名,支持小团队的高效沟通,包括语音、视频通话以及屏幕标注能力。
两起收购案也激起外界对OpenAI战略动向的热烈讨论,比较一致的看法是,这是OpenAI向ToB市场深入挺进的清晰信号。也有人猜测,多方交易可能暗示下一个GPT的“多人游戏模式”,允许用户在自己的设备上与人工智能实时合作。
不管背后的深意何在,一个不争的事实已然显现:OpenAI将向更综合的AI解决方案迈进一大步。随着谜底逐渐揭开,OpenAI的每一步棋局都将悄然改变行业生态。

OpenAI的“超级加油站”
两起被收购的主角,最值得说一说的是Rockset,因其在实时数据分析和处理领域的创新而受到业界的高度评价。

Rockset的核心优势在于其创新的“向量搜索”技术,这对依赖人工智能技术的应用如推荐引擎、语音助手和聊天机器人等尤为重要。

通过构建“多维索引”(Converged Index),Rockset的数据库能够实现在各类数据上进行高性能的搜索和分析,支持实时SQL查询,显著提升了依赖数据的应用开发效率。

其数据库服务特别针对性地优化了结构化、半结构化、地理空间和时间序列数据的处理,保证了查询延迟低至毫秒级别,同时简化运维工作,适用于金融、游戏、电商、物流等多个数据密集型行业。

科技作者谭婧在“亲爱的数据”中形象比喻,Rockset如同数据界的即刻响应专家,为AI服务消除等待,以高效整合查询技术,轻松驾驭复杂数据洪流,是企业驾驭大数据的利器。

谈及OpenAI的收购逻辑,谭婧指出,正如汽车离不开汽油,AI模型的成长同样渴求数据滋养。Rockset如同AI的超级加油站,通过微调训练与RAG策略,特别是其同时具备数据仓库的精准、Elasticsearch的灵活性以及向量数据库的复杂数据处理能力,成为OpenAI收购的必然性。

Rockset的团队背景也不错,由一群来自Facebook(现Meta)、雅虎、谷歌、甲骨文和VMware等知名科技公司的资深软件工程师共同创建。这些工程师的背景覆盖大规模数据管理和分布式系统设计,为Rockset在实时数据分析和搜索技术方面构建了基础。

Rockset的6名高管中有4人都曾任职Facebook,其中创始人兼首席执行Venkat Venkataramani拥有威斯康星大学麦迪逊分校计算机科学背景,在2016年创立Rockset时已有14年的数据库工作经验,曾任Facebook基础设施团队的工程总监,更早之前Venkat在甲骨文公司数据库技术从事工作。

首席技术官Dhruba Borthakur是比Venkat早七届的校友,同样在Facebook从事过数据库工作,是RocksDB原创开发者,RocksDB 是一个高性能的嵌入式键值存储数据库,由 Facebook 开发并开源。

Rockset提供的服务主要包括针对事件流、变更数据捕获(CDC)流和向量数据的实时分析查询,已成功应用于包括Facebook(现Meta)在内的多个客户场景,据悉有效缩短了查询响应时间。

自成立以来,Rockset已获得包括Icon Ventures、Sequoia、Greylock在内的顶级风投投资,累计融资1.17亿美元,最后一轮估值在1-5亿美元之间,主要投资者包括红杉资本和Greylock等知名风投。公司规模也从一个小团队扩张至约百人的中型企业。

剑指AI+Data infra?
6月24日,远程协作平台Multi宣布加入OpenAI。
这是一周之内OpenAI的第二次出手,收购金额尚未公布,不过Multi联合创始人已透露,公司的5名成员将在交易完成后加入OpenAI的ChatGPT桌面团队。同时Multi将在7月24日关闭,所有用户数据将被删除。

Multi成立于2019年,开发了为macOS设计的多人协作应用程序,支持10人以内团队通过屏幕共享实时协作,包括语音、视频通话以及标注等。

Multi已进行了两轮融资,募资总计1300万美元资金,最近一轮早在2020年。公开资料显示,Multi有6名投资者,最新一轮是Musha Ventures和Greylock加注的A轮融资,更早轮次则是SV Angel、First Round等机构加持的种子轮。

Multi同样是人员高度精简的公司,创始团队3人中还有兼职人员。
CEOHamze Ghalebi曾就读于里昂商学院,目前还兼任Narrator(一家集成语音服务的初创公司)联合创始人。CTO Charley Ho是一位华人,拥有斯坦福大学电气工程硕士和学士学位,目前就在OpenAI担任技术团队成员,此前曾在Google担任软件工程师。另一位联创兼CEO Alexander Embiricos毕业于斯坦福大学,曾任Dropbox产品经理。

OpenAI密集“联姻”,让外界猜测OpenAI正在构建自身的操作系统的通信工具,多方猜测指向一个共同的交集:GPT-4o实时语音和Sora模型的未来动向。

一方面,借力Rockset,OpenAI能够支持更复杂的实时应用场景,比如个性化推荐、动态聊天机器人和实时监控系统;另一边,Multi的技术更侧重于与现有操作系统深度集成,强化ChatGPT在屏幕绘图、代码编辑等领域的应用。

这让人们不免想到GPT-4o的功能,距发布会已有1个月,GPT-4o的视频及语音功能仍未上线,随着GPT-4o近期开始灰度测试其语音和视频功能,预示着其产品线更加智能化、交互化的升级不远了。

交集之外,更重磅的消息或许不止于此。尤其将 Rockset 的技术整合到ChatGPT等产品中,将数据转化为可操作的智能,可想象的空间太大了,昭示着一场由数据驱动的AI应用变革正蓄势待发。

有业内人士指出,此举表明其在AI+Data infra(数据基础设施)的攻略图景日益清晰。OpenAI正积极招募互联网巨头的Data infra专家,再次证明在AI的探索道路上,数据依旧是不可或缺的基石。

OpenAI的动向往往被视为行业风向标,其在AI+Data infra上的深入探索,预示着未来AI技术的发展将更加依赖于数据的实时性、准确性和多样性,同时也强调了跨学科融合的重要性。

此番密集收购,不仅是技术融合的大动作,更是行业洗牌的信号灯。此前,Adept、Humane、Stability AI等独角兽企业纷纷筹谋并购,预示着大模型领域的重组浪潮已至。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

速来!潞晨Open-Sora羊毛可薅,10元轻松上手视频生成

近期,视频生成模型赛道火热,文生视频,图生视频,花样层出不穷。然而,尽管市场上模型众多,大部分人还是因为没有内测资格无法体验,只能望 “模” 兴叹。


前不久我们报道过潞晨科技的 Open-Sora 模型,作为全球首个开源类 Sora 模型,它不但在多种类型的视频上表现优异,还主打低成本且人人可用。它好用吗?怎么用?一起来看看机器之心的测评。

最近 Open-Sora 全新开源的 1.2 版本,可以生成最长 16s 的 720p 高清视频,官方视频效果如下: Link to Image

这个生成的效果确实惊艳,也难怪后台那么多读者想要上手体验。

对比一众闭源软件,需要排长队等候内测资格,这个完全开源的 Open-Sora 显然更加易得。但是,在 Open-Sora 的官方 Github 上,密密麻麻全是技术和代码,要想自己部署体验,且不说模型对硬件要求高,配置环境时对使用者的代码功底也是不小的挑战。

那么有没有什么办法,让 AI 小白用户也能轻松使用 Open-Sora 呢?

先上结论:有,而且可以一键部署,启动后还能零代码控制视频长度、画幅、镜头等参数。

心动了吗?那就让我们一起看看,要如何实现 Open-Sora 的部署。文末有保姆级的详细教程和使用地址,无需任何技术背景就能操作。

基于 Gradio 的可视化方案

有关 Open-Sora 的最新技术细节,[我们曾经做过一篇深度报道](http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=1&sn=9ef59aa1eddf2a12151f353f1855a47e&chksm=84e419f3b39390e59a3d431ff295de5b

超简单的一键部署教程

在潞晨云上部署 Open-Sora 有多简单呢?

首先,潞晨云提供多类型的显卡,其中,A800 和 H800 这样的高端显卡也可以轻松租到。经我们测试,这种 80GB 显存的卡,单卡就可以满足 Open-Sora 项目的推理需求。

其次,潞晨云为 Open-Sora 项目配备了专属镜像。这个镜像就像可以拎包入住的精装房,全套运行环境可以一键启动,省去了复杂的环境配置环节。

最后,潞晨云还有超优惠的价格和超人性化的服务。一张 A800 的卡每小时价格不到 10 元,初始化镜像的时间全部不计费,云主机随时关机停止计费。换句话说,不到 10 元 / 时,即可充分享受 Open-Sora 带来的惊喜体验!除此之外,我们还放了一个 100 元优惠券的获取方式在文末,赶紧注册账号薅上券,跟着我们的教程开整吧!

潞晨云网址:https://cloud.luchentech.com/

首先,进入网址在潞晨云上注册账号。一进入主页面,就可以直接看到算力市场的可租赁机器。领上优惠券,或者充值 10 元钱,就能跟着潞晨云的用户指南,开始建立云主机。

第一步是选择镜像。一打开公共镜像,点开第一个就是 OpenSora (1.2),真是方便至极。

第二步是选择计费方…

想要进阶?微调也能轻松上手

此外,继续深挖 Open-Sora 的网页,我们发现他们还提供了继续微调模型的代码指令。使用自己喜欢的类型的视频微调模型的话,就能让这个模型生成更符合我的审美要求的视频了!

让我们用潞晨云的公开数据中提供的视频数据来验证一下。

由于环境全都是配置好的,我们只需复制粘贴训练指令。

1
torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv

这边输出了一连串模型训练的信息。

训练已经正常启动了,居然只要单卡就能训!

( 踩坑提示:在此之前我们遭遇了一次 OOM, 结果发现程序挂了以后显存依旧被占用,然后发现是忘记关闭上一步 Gradio 的推理了 ORZ,所以大家用单卡训的时候一定要记得关掉 Gradio,因为 Gradio 上面加载了模型一直在等待用户输入来进行推理)。

以下是我们训练的时候 GPU 资源占用情况:

简单算一笔账,训练一步大约耗时约 20 秒,根据 Open-Sora 提供的数据,训练 70k 步(如下图所示),那他们耗时大约在 16 天左右,和他们文档中声称的 2 周左右相近(假设他们的所有机器各完成一个 step 的时间和我们这台机器相似)。

在这 70k 步中,第一阶段占 30k 步,第二阶段占 23k 步,那第三阶段其实只训练了 17k 步。而这个第三阶段,就是用高质量视频进行微调,用来大幅度提升模型质量,也就是我们现在想要做的事情。

不过,从报告中看,他们的训练使用了 12 台 8 卡机器,所以如果我们用潞晨云平台训练和第三阶段相同的数据量,大约需要:

1
95 小时 * 8 卡 * 12 台 * 10 元 / 小时 = 91200 元

这个数字对于测评来说还是有点门槛的,但是对于打造一个专属的文生视频大模型来说也太划算了。尤其是对于企业来说,基本不需要什么前期准备工作,按照教程一步步走,就可以用不到十万块的价格甚至更少完成一次微调。真的很期待能看到更多 Open-Sora 在专业领域的强化版!

最后,放上我们前面提到的 100 元优惠券福利活动~尽管我们本次测评成本不到 10 元,但是羊毛该薅还得薅!

从潞晨云官方资料看到,用户在社交媒体和专业论坛(如知乎、小红书、微博、CSDN 等)上分享使用体验(带 #潞晨云或 @潞晨科技),有效分享一次可得 100 元代金券(有效期一周),换算成我们测评时生成的这种视频,相当于五六百个~

最后,我们整理了相关的资源链接放在下面,方便大家快速上手。想要立刻尝试的小伙伴们,点击阅读原文即可一键传送,开启你的 AI 视频旅程!

相关资源链接:


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文

看看这个时代最伟大 AI 学者的研究脉络。

2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把竞争推向了视频生成的新高度。


我们都还记得初见 Sora 作品时受到的震撼,感叹其他竞争对手想要赶上 OpenAI,至少也得需要个半年到一年的时间。

Sora 发布后,其开发团队自然也成为关注焦点,人们都想知道具有跨时代意义的 AI 技术是如何被开发出来的。DiT 模型作者谢赛宁曾表示:「他们每天基本不睡觉高强度工作了一年」。

随着时间推移,答案正被慢慢揭晓。

以下是 OpenAI 技术报告中,Sora 的十三位作者:

其中的前两位,Tim Brooks、Bill Peebles,他们被认为是「Sora 之父」,担任 OpenAI Sora 项目研究主管,又十分年轻 —— 两人都是 2023 年刚刚从加州大学伯克利分校(UC Berkeley)博士毕业的。

在 Sora 技术公开后,他们曾共同进行宣讲,接受过很多媒体采访。

看两人的工作经历,他们分别是在 2023 年 1 月和 3 月加入 OpenAI 的。

我们知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 横空出世,由此掀起了大模型「颠覆世界」的浪潮。

他们追随传奇而来,如今回头望去,自己也成为了传奇。

作为 Sora 背后的主要推动者,Tim Brooks、Bill Peebles 两人的博士毕业论文,也都是以 AI 视频生成为主题的。是时候从技术发展的角度,来研究一下 Sora 的来龙去脉了。

Tim Brooks

个人主页:https://www.timothybrooks.com/about/
Tim Brooks 博士毕业于 UC Berkeley 的「伯克利人工智能研究所」BAIR,导师为 Alyosha Efros。

在博士就读期间,他曾提出了 InstructPix2Pix,他还曾在谷歌从事为 Pixel 手机摄像头提供 AI 算法的工作,并在英伟达研究过视频生成模型。博士毕业后,Tim Brooks 加入 OpenAI,参与过 GPT-4、Sora 等多项研究。

2023 年,Tim Brooks 顺利毕业,博士论文接近 100 页。论文题目为《Generative Models for Image and Long Video Synthesis 》。

论文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf

论文简介

在这篇博士论文中,Tim Brooks 提出了将图像和视频生成模型用于一般视觉内容创作的基本要素,主要体现在三个方面:

首先,论文介绍了长视频生成相关研究,并提出一种网络架构和训练范式,用于从视频中学习长程时间模式,这是将视频生成从较短的剪辑推进到较长…

William (Bill) Peebles

个人主页:https://www.wpeebles.com/
2023 年,William (Bill) Peebles 在伯克利人工智能研究中心获得了博士学位,导师是 Alyosha Efros,与 Tim Brooks 师出同门。

William (Bill) Peebles 本科毕业于麻省理工学院,曾在 FAIR、Adobe Research 和 NVIDIA 实习过。在攻读博士学位期间,他得到了美国国家科学基金会(NSF)研究生研究奖学金计划的支…

William (Bill) Peebles 的博士论文以图像生成模型为主题,论文题目是《Generative Models of Images and Neural Networks》。

论文地址:https://www.proquest.com/openview/818cd87d905514d7d3706077d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y

论文简介

大规模生成模型推动了人工智能的最新进展。这种范式使得人工智能的许多问题取得了突破,其中自然语言处理(NLP)领域是最大的受益者。

给定一个新任务,预训练生成模型可以零样本地解决该任务,也可以在少量特定于任务的训练样本上进行有效的微调。

然而,在视觉、元学习等领域,生成式模型的进展却落后了。

William (Bill) Peebles 的博士论文研究了训练改进的、…

参考内容:



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

73年前,香农已经给大模型发展埋下一颗种子

AI 考古,追溯到了祖师爷头上。

当今 AI 领域爆火的大语言模型(LLM),其原理是香农提出来的?

今天,普林斯顿大学教授承现峻(Sebastian Seung)抛出了这样一个观点:1951 年,在贝尔实验室(总部位于新泽西州 Murray Hill)工作的克劳德・香农提出了预测下一个单词的问题,这成为了当前大语言模型(LLM)的种子。


如今很多看似新潮前沿的概念,其实距离提出已经相隔了好几十年,即使在计算机科学这样的新兴领域,例子也屡见不鲜。这个观点以及提到的 Murray Hill 引起热议,图灵奖得主、Meta 首席科学家 LeCun 表示,新泽西州的 Murray Hill、Florham Park 和普林斯顿都「诞生」了很多有影响力的工作。

LeCun 又列举了很多知名的研究成果:

  • Hopfield 网络(美国科学家 Hopfield 同时在贝尔实验室和普林斯顿大学任职)。
  • ConvNets
  • Boosting/Adaboost
  • 非负矩阵分解
  • 支持向量机(SVM)和核机
  • 结构化预测
  • 计算学习理论 / VC 理论中的大量内容

那么说在这其中,香农给如今通向 AGI 的大模型起了个头,是怎么一回事呢?

讨论中提到的 IT 祖师爷克劳德・香农的论文是《Prediction and Entropy of Printed English》。

论文链接:Prediction and Entropy of Printed English

该研究于 1951 年 1 月发表在期刊《The Bell System Technical Journal》上,至今已被各路学者引用过超过 4000 次。

这篇论文中,香农主要探讨了如何估算语言的熵(entropy)和冗余度(redundancy),并提出了一种新方法。

其中:

  • 语言的熵是衡量每个字母平均产生的信息量的统计参数。如果语言被最有效地转换成二进制数字(0 或 1),熵表示每个字母平均需要的二进制数字数量。
  • 冗余度则衡量由于语言的统计结构(如字母频率、特定字母的后续趋势等)对文本施加的约束。

在定义了熵和冗余之后,就可以考虑把这些概念应用一下了。香农在他的论文中给出了两种估计英语熵的方法。冗余,或对英语文本施加的约束数量,导致其整体熵的下降。例如,规则「i before e except after c」,以及 q 必须始终跟 u 的事实是使英语更加冗余的依赖关系。语法规则、词性以及我们无法编造单词的事实也使英语变得有冗余。英语中的冗余有时实际上是有益的,因为否则人们如何辨别在嘈杂的房间里说了什么?冗余允许人们在只有部分信息传来时推断出所说的内容。例如,如果听到「Turn phat mufic down!」,人们可以相当好地猜测说话者的意思。

计算英语熵的一种可能方法是使用 N-gram。给定自然语言 L 的足够长的字符序列 S,考察所有长度为 N 的子字符串。

定义 N-gram 熵(Entropy)FN 如下。

当已知前 N - 1 个字母时,我们可以统计计算出下一个字母的熵。随着 N 的增加,熵接近 H,此即英语的熵。以下是香农论文中计算出的值。FN 是当已知前 N - 1 个字母时与第 N 个字母相关的熵。计算 FN 统计数据的难度是 O (26^N),因为有那么多 N 个字母的序列。请注意,F0 只是字母集的最大熵,其中每个字母都有相等的概率。

27 个字母的序列,空格也算作一个字母。几乎总是可以从没有空格的单词序列中填充空格。因此空格基本上被视为是多余的,如果考虑空格,会导致计算出的熵值较低。只有在没有考虑统计数据的情况下,即 F0,添加空格后熵才会更高。这只是增加了另一个可能的符号,就意味着更多的不确定性。

香农建议的另一种策略是计算与英语中每个单词相关的熵,然后取加权平均值。香农使用近似函数来估计超过 8000 个单词的熵。他得到的每个单词的熵值为 11.82 bit,由于平均每个单词有 4.5 个字母,因此每个字母的熵为 2.62 bit。这在上表中以 Fword 给出。

我们已经讨论了如何从熵计算冗余度。当所有符号具有相同的可能性时,冗余度最大,等于 - (log2 (1/26)) = 4.7 bit / 字母。因此,使用公式 1 - H/Hmax,我们可以估算英语的冗余度。香农最初估计这个值为 50%,这意味着英语中大约一半的字母是多余的!

在同一篇文章的后面讨论了一种相当巧妙的计算英语熵的方法。它结合了英语的更多特征,例如统计方法无法明确解释的思路和上下文。

接下来就是如今我们在 NLP 中经常会提起的概念了:假设人类可以根据他们对该语言的先前了解来猜测单词或短语中的字母。香农的巧妙想法是利用这种自然的冗余度衡量标准…… 人类的思维。

他要求受试者逐个猜测短语中的字母。如果受试者猜对了,那么他 / 她就继续猜测下一个字母。如果不是,则告诉受试者下一个字母。在一个短语的 129 个字母中,69% 被猜对了。这意味着英语的冗余度大约为 69%。假设我们只重现那些猜错的字母,即 31%。那么我们可以通过复制从头开始猜测的受试者来恢复原始句子。受试者显然可以正确猜出 69% 的符号,并且他 / 她拥有其余的 31%,因此他 / 她可以仅使用大约 31% 的信息重现原始文本。

实际上,受试者需要的信息略多于 31%。他 / 她需要知道他 / 她会猜错的字母在哪里,因此实际上冗余度可能会少一点。从理论上讲,这是一个很好的例子,但实际上并非如此。句子和受试者的抽样误差会导致结果严重失真。尽管如此,这个例子有助于说明冗余的一个实际例子,并阐明了如何编码英语。无需创建英语的统计语法来计算其熵,人类天生就具有语法。

统计计算英语的冗余有许多实际应用。ASCII 每个字符保留 8 个二进制数字。然而,考虑到一些计算将英语的熵定为大约 1 位 / 字母,这是非常低效的。这意味着理论上存在一种压缩方案,其压缩效果是 ASCII 的 8 倍。现代计算机显然拥有足够大的内存,因此这种低效率并不重要,但 Huffman 压缩和 Lempel-Ziv 压缩算法在存储文本时可以节省大量空间。

通常,当人们说英语是冗余的时,他们指的是大量同义词使我们的词典变得杂乱。信息论意义上的冗余是衡量字母 / 符号在语言中使用效率的指标。英语是一种冗余语言,这不一定是坏事。我们的语言既可以口语也可以书写,除了效率之外,还带来了许多问题。我们希望在嘈杂的房间里也能被人听懂,我们希望单词的发音与含义相对应,我们希望能够轻松地发音。信息率只是英语分析的一小部分。

一个非常有趣的例子可以说明一种语言在统计上能有多好地描述,即英语的 n 阶近似,这是香农最著名的论文《A mathematical theory of communication》里所提到的。如果一只猴子知道英语中字母的 n-gram 频率(其中 n 很大),它能写出可信的英语文本吗?此外,这只猴子「懂」英语吗?如果 N-gram 猴子在一扇门后面,而人类在另一扇门后面,第三方观察者能分辨出哪个是猴子吗?这个问题让人想起了人工智能的图灵测试,它没有简单的答案。

但如今的大模型原理,正是通过学习大量的文本数据,来预测下一个词或下一段话的可能性,从而使计算机能够更好地「理解」和生成人类语言。

AI 理解了吗?不好说。但是能猜对吗?看看如今的 ChatGPT,人们心中都已经有了答案。

这也不禁令人感叹,香农真的领先于他的时代。

参考内容:



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

全球首个神经连接机械腿,截肢者恢复自然行走,还带空间感

不仅能恢复行走能力,还能感受到空间位置。

这是史上第一次,膝盖以下截肢的患者有机会能通过神经信号控制机械腿的运动,并以自然步态恢复行走了。


图片

该研究出自麻省理工学院(MIT)。想做到这一点的患者需要进行专门的手术,并将非侵入性表面电极连接到机器人假肢小腿上。相关论文已发表于昨日出版的 Nature 子刊《自然医学》。

图片

人类的大多数肢体运动由轮流伸展和收缩的成对肌肉控制。在传统的膝下截肢过程中,这些成对肌肉的相互作用被打乱。这使得神经系统很难感知肌肉的位置和收缩速度 —— 而这些感觉信息对于大脑决定如何移动肢体至关重要。

遭遇过这种截肢的人可能会难以控制他们的假肢,因为他们无法准确感知肢体在空间中的位置。现在,他们可以依靠内置在假肢中的机器人控制器来实现感知了,这些机械腿还包括可以检测和应对斜坡和障碍物的传感器。

「接下来发生的事情相当神奇。拥有这种神经接口的患者能够以正常速度行走,上下台阶和斜坡,并且无需思考就能绕过障碍物,这是自然的、下意识的行为,」MIT Media Lab 教授、论文合著者 Hugh Herr 说道。「即使他们的小腿是由钛和硅胶制成的 —— 所有这些机电元件 —— 仿生肢体的感觉很自然,运动也很自然,虽然没有意识。」

该方法依赖于截肢部位的手术,以…


感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

澳大利亚委托色情网站和Meta等起草在线儿童安全规定

澳大利亚的在线安全监管机构给予色情网站、社交媒体公司、搜索引擎等科技行业从业者六个月的时间,制定规则以防止儿童接触成人内容。


根据《在线安全法案》的权力,网络安全专员要求行业组织制定新的守则,以防止儿童在其服务或设备上查看R18+及以上级别的内容。这些规则将涵盖应用商店、应用程序、包括色情网站在内的网站、搜索引擎、社交媒体服务、托管服务、互联网服务提供商、即时通讯、多人在线游戏和在线约会服务。澳大利亚的网络安全专员在在线安全标准中淡化了关于儿童虐待检测的规则。作为该守则的一部分,公司将被要求“合理努力”核实用户年龄,设置默认的安全措施如安全搜索和家长控制,并允许用户过滤或模糊不需要的性内容。这项规定发布两个月之后,阿尔巴内斯政府在五月的预算中宣布了650万美元的年龄确认技术试点项目。

这些规则将由包括数字产业集团(Digi)、通信联盟、互动游戏和娱乐协会以及澳大利亚移动电信协会在内的团体设计。网络安全专员朱莉·英曼·格兰特(Julie Inman Grant)告诉《卫报澳大利亚》称,要求科技公司在不同领域共同制定该守则意味着“不会存在单一的失败点”。她说:“一些大型色情网站实际上已经制定了相当严格的年龄验证规定【但是】互联网上将会有许多不会遵守的偏门色情网站。”英曼·格兰特表示,年龄检查将通过智能手机上的安全措施和应用商店,在儿童访问这些网站之前进行。虽然一些大型成人网站已经采取了年龄确认方法,但一些网站对于监管机构在国外强制实施年龄验证的尝试感到不满。Pornhub在德克萨斯州政府通过要求公司核实用户年龄的法律后,阻止了对该州用户的访问。

Meta告诉一个议会委员会,他们认为年龄检查最好由苹果和谷歌经营的应用商店来进行,这两家公司最有能力保护用户隐私。科技公司预计将就提议的守则进行公开咨询,守则草案必须在十月前提交给专员,最终的守则要到12月19日之前制定。专员然后将决定是否接受这些守则,届时它们将在2025年中期生效。

然而,是否最终会实施新的守则尚不确定。在2022年就恐怖内容和儿童虐待材料征询行业意见后,网络安全专员改为颁布了两项强制性标准。正如《卫报澳大利亚》上个月报道的那样,专员还决定不要求端对端加密通讯服务扫描此类内容,以避免削弱其服务。

探索更多关于这些主题的信息:互联网安全、Meta、色情、儿童保护、新闻。分享内容。
重新使用此内容。请注意:将这篇文章翻译成中文后,按照Markdown格式标准输出。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta被指控违反欧盟数字法,因为要求用户付费使用无广告社交网络

欧洲委员会指责马克·扎克伯格的Meta违反了欧盟的新数字法律,其广告模式要求用户为无广告版本的Facebook和Instagram付费。


Meta去年推出了一个“付费或同意”的模式,旨在遵守该地区的数据隐私规定,根据这一模式,用户可以选择支付每月费用以获得不使用其个人数据进行广告用途的Facebook或Instagram的无广告版本。如果用户选择不支付,他们的数据将被用来定制个性化广告,出现在他们的社交媒体动态中。

欧洲委员会,欧盟的执行机构,表示这一模式不符合《数字市场法》(DMA),该法旨在约束科技巨头。该委员会周一发布了对“付费或同意”调查的初步结果,并发现该模式“迫使用户同意”从多个平台收集数据,如果他们不愿支付。委员会表示,Meta还不允许用户选择一个使用更少个人数据但与Facebook和Instagram的“带广告”版本大致相似的服务。

“在委员会的初步观点中,这种二元选择迫使用户同意合并他们的个人数据并未为Meta的社交网络提供一个较少个性化但相当的版本”,委员会称。

为了符合DMA,Meta必须推出使用更少个人数据的“等效”版本的Facebook和Instagram。Meta的一位发言人表示,新模式已经设计成符合DMA和其他监管要求。

“订阅作为替代广告的业务模式在许多行业中都是一种被广泛接受的商业模式。我们设计了无广告的订阅服务以解决几项重叠的监管义务,包括DMA。我们将继续与委员会建设性合作”,他们表示。

法国EDHEC商学院反垄断法教授安妮·维特表示,这个案件背后的关键问题是消费者在选择是付费服务还是免费使用但Meta随后被允许为广告商建立其个人资料时,是否“自由同意”其数据被收集。

“委员会认为Meta应该让用户选择高度个性化的服务,Meta可以在这种服务中收集用户数据,或者少量个性化的服务,Meta不得在其中收集用户数据”,她说。

委员会必须在明年三月底前完成调查,如果确认违反该法案,Meta可能面临高达全球营业额10%的罚款,相当于135亿美元(105亿英镑)。委员会上周表示,苹果通过限制其应用商店上的竞争已违反了DMA。

探索更多关于这些话题的资讯:

Meta
Facebook
Instagram
欧洲联盟
社交媒体
社交网络
数字媒体
新闻
分享

重复使用此内容。

请注意:标题、日期、正文中的内容被放置到对应的位置。标题部分的内容已被翻译成中文。输出结果需符合Makedown格式标准。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB