上着课呢,老师脸皮突然被「掀起来」了,DeepFake这次搞笑了

AI 换脸的风,这次吹到了网课界。
花了 5800 块从专业补习机构购买的网课,不仅教材上有多处错字漏字,老师甚至也是「假的」。


谁能想到,当老师在讲解解剖切面的走向,用手放在面前做演示时,表层的这张面皮被「掀了起来」,手指头就这么「水灵灵」地横穿鼻子过去了,让买课的学生起了疑心。
来源:红星新闻 https://www.bilibili.com/video/BV1MGH4eKEz3
并且老师总是「蜕皮」,很吓人、很诡异,分散了他的注意力,严重影响了他的学习效率。
唯一合理的解释是,网课老师经历了「AI 换脸」。
AI 换脸是深度伪造(DeepFake)技术最常见的应用之一。DeepFake 技术旨在基于深度学习方法,合成人体图像。
和以往 DeepFake 事件的受害者通常在不知情的情况下被换脸不同,这一次,借助 AI 换脸是视频主角自己的选择。
据红星新闻报道,起初学生怀疑是售卖网课的辅导机构盗用了其他机构的网课视频,用自家老师的形象「夺舍」了其他老师的劳动成果。
但当他去退课的时候,才发现网课不是按节收费,而是按观看次数收费,这节让他「感到生理不适」的课,他总共观看了 166 次。按这个规则,他无法收到全额退款。
经红星新闻核实,该机构称:换脸是因为有些老师要维护自己的隐私,也有老师有公职在身,不方便露脸。至于退款,该机构表示,「就是他自己不想学了」,用户系恶意投诉,正收集证据通过法律程序提起诉讼。
据教育部印发的《严禁中小学校和在职中小学教师有偿补课的规定》,严禁在职中小学教师参加校外培训机构或由其他教师、家长、家长委员会等组织的有偿补课。
随着这件事的曝光度不断提升,也有「懂行」的网友现身说法:
对于花钱买账的学生来说,这种「货不对版」的行为也是对消费者权益的一种侵犯。
更令人担忧的是,在「宇宙的尽头是买课」的时代,很多网课老师往往使用化名,老师的真名都很难知道。有些机构还会为普通老师打造虚假的光环,如「名校毕业」、「多年执教毕业班,拥有丰富的教学经验」等标签,以此来吸引学生。
网课能卖出高价,很大程度上基于消费者对名师的信赖和追捧。网课教师的资质原本就难以确保,AI 换脸则使得对教师身份的确认变得更加困难。
不过也有网友表示,「无所谓了,只要能学到东西就值了。」
把思路打开,如果能打入「二次元」,那就是走在潮流尖端的 vtuber 了。
从技术的角度讲,现在的 AI 换脸技术已相当高明,与原有面部的融合度极为自然,吃东西、做夸张表情不会像美颜一样失效,只会在某些片段中存在违和感,但对于普通观众而言,这种细微的差别几乎难以察觉。
但也正因合成结果可能非常真实,难以用肉眼分辨真假,因此 DeepFake 技术存在诸多争议,并且通常被限制使用。
回顾 DeepFake 技术及应用的发展历程,我们可以看到很多负面消息。
2017 年,英伟达基于生成对抗网络(GAN)创建出合成人脸图像,之后,Reddit 用户「Deepfakes」使用英伟达的 GAN 技术,将色情女演员的面部替换成其他知名女性的脸部,制作出以假乱真的合成视频,DeepFake 因此得名,并引发关注和质疑。
2019 年,陌陌推出了一款名为 ZAO 的 AI 换脸应用,上架几天就冲到应用榜榜首,但很快就因存在滥用隐患而下架了。2021 年,一段用换脸技生成的「蚂蚁呀嘿」视频及其制作软件 Avatarify 再掀风波,并在一周之后火速下架。
DeepFake 应用下架的原因主要是涉及隐私安全问题。一方面技术滥用会导致虚假信息泛滥;另一方面,如使用明星等他人的照片来制作相关视频,就可能涉及名誉权、肖像权、知识产权等法律问题。此外,个人隐私泄漏可能会涉及资产安全、人身安全等问题。
因此,近年来一些研究提出了「伪造检测方法」,旨在检测图像、视频等媒体数据是否是 AI 合成的。
早期的伪造检测方法主要关注单个模态,如检测图像的真假、音频的真假等。单模态鉴伪方法处理速度快,但场景泛化性能有限,无法同时检测多个模态的真伪。
为了解决上述问题,多模态鉴伪方法应运而生。例如,机器之心曾经报道过,为了防止 AI 换脸视频诈骗,中电金信联合复旦提出参照辅助的多模态鉴伪方法(Reference-assisted Multimodal Forgery Detection Network,R-MFDN ),R-MFDN 方法利用丰富的身份信息,挖掘跨模态不一致性来进行伪造检测。
不过,这次网课老师 AI 换脸事件还不需要硬核检测方法,毕竟肉眼就看出「穿帮了」。
参考链接:https://www.bilibili.com/video/BV1MGH4eKEz3/

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

ECCV 2024 | 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。


如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.comzhaoyunfeng@jiqizhixin.com

视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系。这些问题阻碍了将端到端模型进一步应用于视频理解。

为解决这一问题,北京通用人工智能研究院联合北京大学的研究人员提出了首个基于记忆和工具使用的视频理解智能体VideoAgent,在视频理解任务上媲美Gemini 1.5 Pro。该论文已被ECCV 2024接收。论文链接项目主页代码链接

模型介绍
VideoAgent 的主要思想是将视频表示为结构化的记忆,并运用大语言模型的强大推理能力和工具使用能力从记忆中抽取关键信息,实现对视频的理解以及对视频问题的回答。
图 1:VideoAgent 流程图。
VideoAgent 的记忆设计遵循简约原则:作者发现视频中发生的事件以及视频中出现的人和物体能够涵盖最常见的视频问题。因此,作者设计了如图 1 所示的两个记忆组件:1)时间记忆,用于存储每2秒视频片段所发生的事件;2)物体记忆,用于存储视频中出现的人和物体的信息。

给定一个视频,VideoAgent会首先构建该视频的时间记忆和物体记忆。在推理阶段,对于该视频的一个问题,VideoAgent会调用一系列工具,从记忆中抽取与问题有关的信息来回答该问题。
视频 1:VideoAgent 运用思维链和工具回答视频问题。

记忆构建
对于时间记忆,作者使用预训练的视频文本模型 LaViLa 为每 2 秒的视频片段生成描述文本,反映了视频片段中发生的事件。除了描述片段的文本外,时间记忆还存储了每个视频片段的特征,片段特征包括:1)文本特征,通过使用文本编码器 text-embedding-3-large 得到片段的描述文本的嵌入向量;2)视觉特征,通过使用视频语言模型 ViCLIP 对视频片段进行视觉编码获得的嵌入向量。这些片段特征在推理阶段时可被 VideoAgent 用于定位关键片段。

物体记忆的核心是跟踪 (tracking) 并且重识别 (re-identification) 视频中的所有物体和人物。作者首先使用 RT-DETR 和 Byte-track 对视频进行物体检测和跟踪。然而,仅仅使用物体跟踪算法无法解决同一物体由于在视频中多次出现而被识别成多个物体的情况。因此,作者提出一种基于 CLIP 特征 和 DINO-v2 特征 的物体重识别算法,将物体跟踪结果中相同的物体赋予同一物体 ID。
视频2:物体重识别效果展示。杯子和牛奶瓶能够在不同位姿下被重识别。

值得一提的是,记忆构建阶段所涉及的所有模型都满足实时性的要求,这使得VideoAgent也能够接受视频流输入,并且实时地构建记忆。最后,物体记忆中存储的内容有:1)包括物体 ID、物体类别和物体所出现的视频片段三个字段的物体数据库;2)物体ID所对应的 CLIP 特征,用以支持在推理阶段的开放词表物体检索。

视频问答
为了回答一个视频问题,大型语言模型(LLM)会将其分解为多个子任务,并调用工具来解决。这些工具围绕统一的记忆库运作,主要包括以下几个工具:

  1. 片段描述召回:给定两个时刻,返回两个查询时刻之间所有片段的文本描述。
  2. 片段定位:给定一个文本描述,通过将该文本特征与所有片段特征进行比较,检索与之最相关的 5 个片段。
  3. 视觉问答:给定一个视频片段和问题,利用 VideoLLaVA 工具,根据视频片段回答该问题。
  4. 物体记忆查询:给定一个有关视频中物体的问题,结合 SQL 查询功能和基于 CLIP 特征的开放词表物体检索,从物体记忆中进行复杂的物体信息查询。

最后,LLM 会整合这些工具的使用结果,生成对视频问题的回答。
图 2:VideoAgent 回答视频问题的示例。

在关于视频中有几艘船的问题上,端到端的多模态大语言模型由于其视觉特征的缺陷,无法准确回答出视频中船的数量。但 VideoAgent 能借助视觉基础模型的能力以及物体重识别算法得到精确的物体细节并存放到物体记忆中,因此能够准确回答出视频中有 6 艘船。
图 3:VideoAgent 与多模态大语言模型的对比。

实验分析
作者在 EgoSchema, WorldQA, NExT-QA 三个长视频理解数据集上测试了 VideoAgent 的性能。实验表明 VideoAgent 能够取得比目前开源的多模态大语言模型更好的表现,并且能够与目前最好的闭源模型相媲美。

在 EgoSchema 长视频多选题数据集上,VideoAgent 的 60.2% 的准确率相比基准的多模态大语言模型高出了近 30 个百分点,接近 Gemini 1.5 Pro 的 63.2% 的准确率。在 WorldQA 数据集上,VideoAgent 在选择题和开放问题上都取得了不错的性能,这归功于 VideoAgent 能够结合大语言模型中的常识知识、推理能力以及视频记忆共同实现对于长视频的理解。

在 NExT-QA 数据集上,作者对于 VideoAgent 中的 4 种不同工具进行了消融实验。实验表明片段描述召回对于 VideoAgent 理解视频是十分必要的。物体记忆对于 VideoAgent 在时序、因果、描述三类问题的回答准确率都有提升。片段定位和视觉问答这两个工具对于 VideoAgent 正确回答问题的贡献最大。
表1:在EgoSchema数据集上的实验结果。
表2: 在WorldQA数据集上的实验结果。
表3: 在NExT-QA上的实验结果。
表4: 在NExT-QA上对不同工具的消融实验。

总结
本文提出的 VideoAgent 是一种多模态智能体,通过一种新颖的记忆机制结合了多个基础模型,用于视频理解。与端到端的多模态大语言模型(LLM)和其他工具使用智能体相比,VideoAgent 采用了极简的工具使用流程,不需要昂贵的训练,同时在 EgoSchema、WorldQA 和 NExT-QA 等具有挑战性的长视频理解基准上,产生了相当或更好的表现。未来的研究方向可能包括在具身智能、制造业和增强现实领域的实际应用。

团队介绍
论文核心团队来自北京通用人工智能研究院机器学习实验室,团队负责人李庆博士长期从事关于多模态理解、AI Agents、具身智能等方向的相关工作,主页:https://liqing.io。该团队拥有包括全职研究员、工程师、以及实习生在内的二十余人团队,也在持续招聘全职人员和实习生中,团队的长期目标是打造集交互、推理、学习于一体的通用智能体。

参考文献
[1] Lin, B., Zhu, B., Ye, Y., Ning, M., Jin, P., Yuan, L.: Video-llava: Learning united visual representation by alignment before projection. arXiv preprint arXiv:2311.10122 (2023)
[2] Song, E., Chai, W., Wang, G., Zhang, Y., Zhou, H., Wu, F., Chi, H., Guo, X., Ye, T., Zhang, Y., et al.: Moviechat: From dense token to sparse memory for long video understanding. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2024)
[3] Wang, Y., Wang, Y., Wu, P., Liang, J., Zhao, D., Zheng, Z.: Lstp: Language-guided spatial-temporal prompt learning for long-form video-text understanding. arXiv preprint arXiv:2402.16050 (2024)
[4] Tay, Y., Dehghani, M., Abnar, S., Shen, Y., Bahri, D., Pham, P., Rao, J., Yang, L., Ruder, S., Metzler, D.: Long range arena: A benchmark for efficient transformers. arXiv preprint arXiv:2011.04006 (2020)
[5] Surís, D., Menon, S., Vondrick, C.: Vipergpt: Visual inference via python execution for reasoning. In: International Conference on Computer Vision (ICCV) (2023)
[6] Wu, C., Yin, S., Qi, W., Wang, X., Tang, Z., Duan, N.: Visual chatgpt: Talking, drawing and editing with visual foundation models. arXiv preprint arXiv:2303.04671 (2023)
[7] Zhao, Y., Misra, I., Krähenbühl, P., Girdhar, R.: Learning video representations from large language models. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
[8] https://platform.openai.com/docs/guides/embeddings
[9] Wang, Y., He, Y., Li, Y., Li, K., Yu, J., Ma, X., Li, X., Chen, G., Chen, X., Wang, Y., et al.: Internvid: A large-scale video-text dataset for multimodal understanding and generation. arXiv preprint arXiv:2307.06942 (2023)
[10] Zhao, Y., Lv, W., Xu, S., Wei, J., Wang, G., Dang, Q., Liu, Y., Chen, J.: Detrs beat yolos on real-time object detection. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2024)
[11] Zhang, Y., Sun, P., Jiang, Y., Yu, D., Weng, F., Yuan, Z., Luo, P., Liu, W., Wang, X.: Bytetrack: Multi-object tracking by associating every detection box. In: European Conference on Computer Vision (ECCV) (2022)
[12] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning (ICML) (2021)
[13] Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., et al.: Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193 (2023)
[14] Mangalam, K., Akshulakov, R., Malik, J.: Egoschema: A diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems (NeurIPS) (2024)
[15] Zhang, Y., Zhang, K., Li, B., Pu, F., Setiadharma, C.A., Yang, J., Liu, Z.: Worldqa: Multimodal world knowledge in videos through long-chain reasoning. arXiv preprint arXiv:2405.03272 (2024)
[16] Xiao, J., Shang, X., Yao, A., Chua, T.S.: Next-qa: Next phase of question-answering to explaining temporal actions. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2021)

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

这款AI神器登上GitHub热榜第一,它真能革了照相馆的命?

机器之能报道编辑:杨文

「暴打」海马体照相馆?
现代年轻人都有个心照不宣的共识:
拍证件照,就要做好「毁容」的准备。
因为它总能掀起你的减龄刘海,让脸看上去像被车碾过一样……

AI 来拯救废片了。


比如,去年火遍全网的妙鸭相机,只需上传几张照片,就能直出时尚大片。

再比如,最近的一个 AI 证件照项目 ——「HivisionIDPhotos」,不仅可以实现轻量级抠图,还能生成不同尺寸的证件照。

甚至,它还能生成方便打印的六寸排版照。

此外,一键美颜、智能换正装的功能未来也会上线。
更重要的是,它是真省钱。
要知道,淘宝上随随便便拍个证件照,少则几十,多则上百,照出来的效果也是丑得千奇百怪。

而这个 AI 证件照神器,开源免费。
截至目前,该项目已在 GitHub 上狂揽 5.3k star 量,一举登上 GitHub 热榜第一。


-1-

金敏喜的 AI 证件照,超美!
HivisionIDPhotos 是一款轻量级的 AI 证件照制作工具。
其玩法很简单。只需上传一张照片,选择尺寸、背景色和渲染方式即可。
体验链接:https://swanhub.co/ZeYiLin/HivisionIDPhotos/demo
为了适配各种场合,该工具设置了 18 种尺寸以供选择。
不仅包括平时最常用到的一寸、二寸证件照,还包括教师资格证、公务员考试、四六级考试、研究生考试以及签证等场合中使用的照片。


以后我们会带来更多好玩的AI应用,也欢迎大家进群交流。


工具链接——

HivisionIDPhotos 链接:
https://swanhub.co/ZeYiLin/HivisionIDPhotos/demo
https://github.com/Zeyi-Lin/HivisionIDPhotos


返回顶部

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

文心一言改名文小言,造词“新搜索”能颠覆AI搜索、传统搜索?

消失许久的文心一言,文小言,最近干了一件大事。

百度今日官宣文心一言APP升级,不仅改名叫“文小言”,同时定位也明确为新搜索智能助手。


同时为庆祝文心一言一周年,免费送大家一个月会员~~

不过,什么是新搜索?

Image

大家看下图就能明白什么是新搜索了。

Image

新搜索区别其它搜索产品,“文小言”推出了富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等“新搜索”能力,能全面满足用户搜、创、聊以及其他需求。

同时,“文小言”还独家首发了记忆和自由订阅等新功能。

“文小言”的产品说明书就是最好的诠释。

Image

那这不得实测一波(搓搓手)。

多模态搜索:

在搜索方面,基于大模型,用户不仅可以语音搜索、图片搜索、模糊提问,还可以边拍照边提问、边看视频边提问。

Image

这么强!!!

Image

不仅如此,搜索出来的内容不仅来源于各大平台上的文章,还有相关视频。

自由订阅:

自由订阅可订阅你关心的任何信息,定好时间,文小言每天会准时推送消息给你。

比如:每天给我推送人工智能领域最新消息。明天通知我九点有一个会,后天早上10点钟帮我生成一张请假条,以及9月8日早上10点提醒我抢票。

把这些通通扔给文小言。

文小言就给大家建立了一个专属记忆簿,可以帮你记录所有的任务(日期、时刻与事项)。到点⾃动进⾏信息整理,并推送给你。

Image

妥妥的一个秘书,而且还是不会遗忘任何事情的秘书。

超前的记忆能力:

文小言提供记忆个性化功能,可以根据用户的喜好、职业、性格等,实现更为个性化的问答和服务。

比如,我让文小言记住我叫子川,喜欢吃辣椒,喜欢打篮球,职业是一名键盘侠,性格暴躁。

然后文小言就会一直记住你的这些特征。即使我删除对话,开启新一轮对话。

Image

不过有时,它也会忘记某些内容。

语聊数字人:

文小言不仅会搜索,还能化身数字人进行实时通话聊天。

Image

不过整体的体验有点糟糕,不仅声音很AI,而且聊天有时也会莫名的终止!

文章创作大师:

文小言不仅能写文案、写脚本、写周报等各种材料,还能做总结、润色、改写扩写。

Image

在写作方面表现还是不错的,就是有时输出有点多余,在提示词加上简洁二字效果会好不少。

除了以上功能,文小言还有具备的绘图,拍照答题,图片识别等众多功能,当然还有大家熟悉的智能体以及社区功能。大家可以亲自去体验一番~~

另外,百度副总裁、AI 创新业务负责人薛苏透露,文小言的 MAU(Monthly Active User,月活跃用户数量)已超千万,2024 年 Q2 累计调用量达到 20 亿次,季环比增速超过 70%。

说段题外话:

大模型的命名问题一直是个谜思。以拗口为常规。

国外的ChatGPT、LLaMA、DALL·E、Midjourney、Stable Diffusion等,第一次都很难记住,莫说还有那么多大小写区分。

国内,文心一言开了个头,引来好多诟病而不改——现在终于回头了。

然后就是通义千问、智谱清言、子曰、玉言、混元、盘古、天工、日日新等等,晦涩、拗口。

好在后面都一一反应了过来,元宝、kimi、豆包, 通义千问也改名了通义——还会继续改么?

如百度这次,尽管改名并不能代表产品升级,但萌啪啪的新名字,至少代表了这些觉得自己技术很牛的大厂们,开始关注用户的体验了。

是个好现象!

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Intel砸锅卖铁,Altera沦为弃子了吗?

最近Intel的经营压力很大,在本月召开的董事会会议上,CEO帕特·基辛格将提出具体方案,来挽救公司业务和资本市场的信心。

图片来源:由GPTNB生成

据报道,摩根士丹利正在帮Intel做财务顾问,制定详细的战略计划,其中包括可能的选项:

1、剥离非必要业务和削减资本支出,包括出售FPGA部门Altera;
2、冻结德国的新建晶圆厂项目,这是一项价值320亿美元的工程项目;
3、将英特尔一分为二,即芯片制造与芯片设计分离开,互相剥离,独立发展(最激进的方案)。


英特尔存在一些大问题,如一是移动端设备做不下来功耗,实际上干不过ARM。二是GPU能力不能适应AI需求,也干不过英伟达。说到底,英特尔到今天还只是个PC和服务器 CPU厂商。一旦拆分,就意味着,以设计为主的话经营利润会变好一些,但是长远来看基础就没了。

英特尔虽然家大业大,但是现在“大而无当,往而不返”,需要做出痛苦的选择,CEO帕特·基辛格最近在推特上分享了圣经经文,这在平时并不常见,尤其是考虑到公司最近的大规模裁员和停止支付股息的决定。基辛格一直是个虔诚的宗教信徒,但这次他引用的经文似乎有了更深层的含义。

关于英特尔分拆Altera的分析,我在去年十月份就已经写文章,目前差不多一年过去了,结论没有什么变化。目前市场认为潜在的卖家有两家,AMD和Marvell,个人觉得AMD的可能性不大,一个是反垄断通过的可能性不大,另一个是AMD手里已经在消化赛灵思没有必要再折腾了。

以下是我去年的文章:

10月4日,英特尔宣布剥离其可编程解决方案部门(PSG),预计将于2024年1月1日开始作为独立业务运营,在未来两到三年内,英特尔打算为PSG进一步IPO,以加速业务的增长,英特尔保留多数股权。

PSG就是2015年英特尔花了167亿美元收购的Altera,此后在去年,另一家FPGA巨头Xilinx被AMD以490亿美元收购。

PSG的业绩其实表现还不错,2020-2021年,英特尔PSG增长速度为16%,英特尔2023年第二季度财报电话会议中披露,其PSG业务部门的收入同比增长35%,连续三个季度创下历史新高。

那么,英特尔为什么选择在此时要剥离FPGA业务呢?

我认为主要是两个原因:

1、英特尔当初整合Altera的目标已经失败。

当初,英特尔之所以收购Altera,终极目标是数据中心业务,这在我之前的文章里已经多次提到了。

眼下这个目标明显已经失败了。

在数据中心业务中,英伟达的GPU大获全胜,AMD/Xilinx的组合也占据了一定份额,另外还有谷歌的TPU自己用,但是Intel明显没有达到预期的目标,属于起了个大早,赶了个晚集。

在车载业务,高通的座舱芯片,特斯拉的自研芯片,英伟达、Xilinx都有了一席之地,而英特尔的MobileEye一直徘徊在自动驾驶市场的城乡结合部。

在整合PSG的过程中,英特尔试图将Altera的所有产品从台积电转回自己的10纳米工艺制造,但由于自身制造工艺的延迟,导致了Altera的所有产品受到了严重的影响,市场份额被严重削弱。以致于Altera的全球市场份额从当时的42%降到了现在的接近25%。

当初的美满结合变成了双输局面,Altera的团队自然也很不服气,再不单飞要被拖死了。

2、英特尔战略方向重大调整。

2021年,帕特·基辛格(Pat Gelsinger)成为英特尔的首席执行官,并提出了IDM 2.0战略,旨在重振公司的芯片设计和制造能力。该战略着重于恢复英特尔的制造优势,并将在2024年量产新的制程节点。与此同时,英特尔开始关闭或出售一些非核心业务,以集中精力发展核心业务。

因此拆分PSG并不是孤立的行动,英特尔陆续卖出或独立一批边缘业务,英特尔早些时候曾将其内存芯片部门出售给SK海力士,并将其Mobileye自动驾驶汽车芯片部门的一部分上市。

从今年的财报里可以看到,Intel已经在大量变卖资产,旗下业务也一个一个关,包括傲腾持久内存、源自Barefoot的使用P4语言进行编程的Tofino交换机芯片、以及刚开始不久的RISC-V Pathfinder项目等等,都已经直接砍掉了。

直接原因,地主家也没有余粮了,都去搞生产了。英特尔的制造业务太烧钱,几乎已经耗尽家底。

从2021年开始,两年间英特尔就宣布了接近两千亿美元的投资计划。

-2021年,宣布在马来西亚投入70亿美元,建芯片封测厂;
-同年宣布在Arizona投入200亿美元,建两座晶圆厂。
-2022年宣布在Ohio投入200亿美元,建两座晶圆厂,最终投入会达到1000亿;
-宣布未来十年在欧洲投入800亿欧元,第一阶段在欧洲330亿欧元的投资,包括在德国建设领先的半导体晶圆工厂,在法国新设研发和设计中心,并在爱尔兰、意大利、波兰和西班牙进行研发、制造和代工服务等。

英特尔一年的营收才600多亿,建厂的钱哪里来?靠美国政府补贴,还有就是卖业务了。

Altera回归FPGA市场胜算几何?

一转身一折腾,时过境迁,一个时代就过去了。

表面上看,PSG每个季度还能带来5亿美元左右的营收,但在我看来大多是Legacy业务,在大部分新兴市场领域,由于缺乏创新产品,PSG已经失去了先机。在我前面的文章里也曾经提到,Xilinx卖得最多的早已不是纯FPGA芯片了。在存量市场上,Altera的老产品正在不断被替代。

而在国内市场更加明显,Altera的市场份额大概比收购时缩减了一半以上,当然有一部分中低端存量市场也被我们国产吃掉了,再要回来可没那么容易了。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

OpenAI 基础设施计划曝光!从数据中心到能源,在美投资数百亿美元;联合加拿大、韩国、日本和阿联酋组建全球投资者联盟

根据彭博最新报道,OpenAI CEO Sam Altman 此前计划召集全球投资者共同建设基础设施以支持 AI 发展,目前该计划正变得更加清晰,首先在美国各州实施的一项计划预计将耗资数百亿美元。

今年 2 月,Altman 一直在寻求美国政府对该项目的支持,该项目旨在组建一个全球投资者联盟,为支持快速 AI 发展所需的昂贵物理基础设施提供资金。


目前,Altman 和他的团队正在研究几个之前从未报道过的细节,包括首先针对美国各州的计划。

据悉,正在讨论的项目类型包括建设数据中心、通过涡轮机和发电机增加能源容量和传输、以及扩大半导体制造,支持者可能包括加拿大、韩国、日本和阿联酋的投资者。OpenAI 还设想其他私营公司也参与该项目,微软可能是其中一个潜在合作伙伴。

此外,包括 Altman 在内的 OpenAI 高管最近几周一直在与投资者会面以推进这笔交易。OpenAI 首席战略官 Jason Kwon 最近前往日本和韩国与投资者讨论该计划。OpenAI 全球政策副总裁 Chris Lehane 已与加拿大的投资者进行了交谈。Altman 在早些时候的会谈之后还与阿联酋的投资者进行了更多对话。

此次谈判正值 OpenAI 即将进行新一轮数十亿美元的融资,苹果、英伟达和微软都将参与 OpenAI 新一轮 Thrive 牵头的融资,估值超 1000 亿美元。

当被问及基础设施建设计划时,OpenAI 的一位发言人表示,OpenAI 认为在美国建设更多基础设施对于进一步推进 AI 并使其优势广泛普及至关重要。Altman 曾在一篇专栏文章中写道,美国政策制定者必须与私营部门合作,建设大量物理基础设施——从数据中心到发电厂——来运行 AI 系统。一位了解 Altman 想法的人士表示,除了 OpenAI 之外,其他公司也将从这些基础设施项目中受益,与美国结盟的国家也将受益。

这项计划的支持者认为,额外的好处是,建设这些项目将创造就业机会,补充《芯片与科学法案》,该法案为美国半导体制造业拨出 390 亿美元补助金。

OpenAI 的全球野心可能引发美国国家安全担忧,包括美国外国投资委员会的审查,该委员会越来越关注中东主权财富基金及其与中国的关系。

据知情人士透露,近几个月来,OpenAI 已与美国国家安全委员会就投资计划举行了会议。

据彭博此前报道,此次会议建立在与多位美国官员的对话基础之上。在这些会谈中,Altman 和其他 OpenAI 高管强调,全球基础设施计划将通过建立一个跨国联盟来与中国自己的基础设施财团竞争,从而帮助增强美国的地缘政治优势,而原本可能流向中国的外国资本将流向美国。

其中一位知情人士说。拜登政府一直在努力与所谓的全球南方建立更紧密的技术联系,包括支持微软与阿布扎比 AI 公司 G42 之间的里程碑式合作。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

亚马逊宣布提高英国数万名员工的薪资近10%

亚马逊打败了GMB工会争取支付议定权的尝试后,宣布将近10%的薪资提高应用于英国数万名员工。


这家在线零售商表示,此次涨薪将使最低工资标准提高9.8%,根据地区在每小时13.50英镑到14.50英镑之间。至少有三年服务经验的员工将获得每小时13.75英镑到14.75英镑之间的最低工资。这一薪资调整将应用于从9月29日起的成千上万名在亚马逊英国履行中心工作的员工。

亚马逊的英国员工已经举行了一系列罢工。该公司表示,自2022年以来,已经投资5.5亿英镑提高员工工资,同时员工还享受到补贴餐饮和折扣等福利。一位发言人表示:“这就是为什么我们很自豪地宣布,我们将所有一线员工的最低起薪提高到每年超过28,000英镑的等值,并且我们继续从第一天开始提供行业领先的福利。”

GMB的组织者Rachel Fagan表示:“对于被迫采取行动的亚马逊老板来说,这有点晚了。亚马逊在对待自身员工方面名誉扫地,现在公司老板们试图掩盖事实。不安全的工作条件、低工资和过分的监视每一天都困扰着亚马逊员工的生活。”

7月,GMB在科芬特里郊区的亚马逊仓库附近险胜一项法定投票,将导致工会正式认可。在激烈的投票中,50.5%的工人拒绝了这个想法。

科芬特里的工人在过去的18个月中举行了一系列罢工,要求每小时15英镑的最低工资和与管理层直接谈判的权利。去年11月,他们的抗议活动受到了来自欧洲和美国的工会人士的支持,这些工会人士在自己的国家提出了类似的问题。

亚马逊在英国仓库的救护车五年内出动了1,400次阅读更多。

亚马逊全球政策是拒绝与工会合作,辩称它更愿意与员工直接建立关系。这家从零售转型为云服务的集团由杰夫·贝索斯于1994年在自己的车库创立,如今价值将近2万亿美元。

科芬特里仓库内一些员工指责亚马逊采取了打击工会的策略,包括展示二维码,扫描后将会生成一封电子邮件给GMB会员部门,取消工人的会员资格。

工党政府承诺要让工会更容易获得认可,作为旨在增强英国劳动力谈判能力的一揽子措施的一部分。

探索更多关于这些话题的内容:亚马逊,电子商务,零售业,工会,工业行动,工人权益新闻分享。

分享本内容。

重复使用本内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Meta的审查委员会支持允许在帖子中使用“从河流到大海”的决定

Meta的内容审查委员会支持公司的决定,允许包含短语“从河流到大海”在内的Facebook帖子,裁定对亲巴勒斯坦口号实施全面禁令将阻碍言论自由。


审查委员会审查了三起涉及Facebook帖子的案例,这些帖子包含了“从河流到大海”短语,并发现它们没有违反Meta关于限制仇恨言论和煽动的规定,而对该短语实施绝对禁令将以“不可接受的方式”干扰政治言论。在获得21名成员支持的决定中,该委员会表示这些内容表达了对巴勒斯坦人的团结,但并未呼吁暴力或排斥,支持了Meta原本决定让这些内容留在Facebook上。

该委员会的决定对内容具有约束力,表示该短语有多种含义,以及以不同的方式和意图使用。审查委员会表示,尽管该短语可能被视为鼓励反犹太主义和消灭以色列,但它也被用作对巴勒斯坦人的团结呼吁。“独立的短语不可被理解为对基于他们受保护特征的群体进行暴力呼吁,支持排斥特定群体,或支持指定实体 - 哈马斯的行为,”该裁决称。

委员会的多数成员认为,哈马斯使用该短语并不使该短语本质上充满暴力或仇恨。然而,委员会的少数成员认为,由于这一短语出现在该组织的2017年宪章中,并因哈马斯于10月7日发动的袭击,该短语在帖子中的使用应被视为美化被禁止的实体。短语“从河流到大海,巴勒斯坦将自由”指的是约旦河(与以色列东部接壤)到西部地中海之间的土地。该口号的批评者认为它呼吁消灭以色列,而一些支持者,包括巴勒斯坦裔作家尤素夫·穆纳耶,认为它支持巴勒斯坦人作为“他们的祖国中自由而平等的公民”生活。

裁决补充道:“由于该短语没有单一含义,对包含该短语的内容实施全面禁令、默认规则将其删除,甚至将其作为触发执行或审查的信号,都将以不可接受的方式妨碍受保护的政治言论。”在这三起案例中,一名用户以“FromTheRiverToTheSea”的形式用作标签回应了别人发布的视频,该评论被查看了3000次。第二起案例涉及“巴勒斯坦将自由”的短语 - 这是完整的“从河流到大海”口号的一部分 - 以浮动的西瓜片形式显示在一张图像中,被浏览了800万次。第三起案例涉及加拿大一个社区组织发布的“从河流到大海”帖子,还谴责“犹太复国主义的以色列占领者”,观看次数不到1000次。

Meta的发言人表示:“我们欢迎委员会对这一事项的指导意见。尽管我们所有的政策都是出于安全考虑制定的,但我们知道它们伴随着全球挑战,我们经常从Meta以外的专家处寻求意见,包括审查委员会。”

探索更多相关主题:Meta、加沙、以色列、社交媒体、巴勒斯坦地区、新闻

分享本文章。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Nvidia股价暴跌,美国加大反垄断调查力度

股价持续下跌,此前有报道称美国当局正在加大对其反垄断调查力度。


据称,公司股价在盘后交易中下跌了2.4%,进一步加剧了常规交易中近10%的跌幅,使其市值缩水了2790亿美元(约2120亿英镑),达到2.6万亿美元,这是美国公司历史上最大的单日跌幅。

在此之前,美国司法部向Nvidia和其他科技公司发出了传票,迫使收件人根据法律提供信息。据彭博社报道,官员们担心该公司使客户更难转向其他半导体供应商,并惩罚那些拒绝专门使用Nvidia人工智能芯片的买家。此举将标志着美国反垄断调查升级,并将政府更接近对Nvidia提起正式诉讼。

周二的抛售潮是在一个更广泛的市场抛售浪潮中出现的,这一浪潮是由疲弱的美国制造业数据引发的,引发了投资者对该国经济前景的担忧。供应管理协会(ISM)的月度工厂调查显示,8月份制造业以适度的速度收缩,新订单、生产产出和就业水平均下降。

这导致标普500指数下跌超过2%,而以科技为重点的纳斯达克综合指数几乎下跌了3.3%。恐慌情绪蔓延至亚洲,在那里,日本的日经225指数周三下跌了4.2%,澳大利亚的S&P/ASX 200指数下跌了1.9%。这加剧了最近一段时间内Nvidia和其他人工智能相关股票的波动交易,包括谷歌、苹果和亚马逊,投资者担心要看到备受炒作的人工智能革命的实际影响和稳定回报可能需要更长时间。

Nvidia成立于1993年,最初设计了用于视频游戏的芯片,后来在加密货币繁荣中发现了一个机会,其处理技术可以用于挖掘数字货币。自那时起,它已将重心转向人工智能,乘着人们对大型语言模型潜力的新一波兴奋浪潮。在上周报告其二季度收入增长122%后,投资者对增长放缓迹象感到不安,特别是围绕其下一代人工智能芯片Blackwell的情况。

一名Nvidia发言人表示:“Nvidia赢得了靠实力,如我们的基准结果所反映的那样,以及为客户创造的价值,他们可以选择最适合自己的解决方案。”

探索更多相关主题

  • Nvidia
  • 股市
  • 科技行业
  • 人工智能(AI)
  • 纳斯达克
  • 新闻

转载须知:本内容可被转载。请注明来源,作者信息并保留文章内容完整。

。注意:Title、Date、Body 三个部分的内容,放入到对应的位置,Title部分内容需要翻译为中文。最后只需要输出为Makedown源文件格式内容。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

Seekr推出SeekrFlow以加速上市时间

SeekrFlow简化并优化从AI实现ROI的路径
Seekr今天宣布推出SeekrFlow,作为一个完整的端到端AI平台,通过直观简单的Web用户界面(UI)来训练、验证、部署和扩展可信的企业AI应用程序。图片{ width=60% }


SeekrFlow的特点和优势包括:
- 一个简单的UI,可以在30分钟内或更短时间内构建一个生产级LLM,准备进行验证和部署。
- Principle Alignment,一个智能代理,简化了将AI模型与领域特定知识(如公司政策、行业法规或品牌准则)进行对齐的过程。这个功能使基础模型的响应精度和相关性分别提高了3倍和6倍,成本降低了90%,与传统的数据准备方法相比。
- 低成本、基于使用量的定价模型和计算优化,在模型推断方面具有50%的价格优势,与同行相比。
- 通过Seekr的置信度得分检测到幻觉,直到标记级别。
- 自动部署,通过五次点击启动模型,减少错误,并在专为UI而建的可视化实时仪表板上监视生产健康状况和性能。
“许多企业AI项目今天因复杂性、成本和幻觉而停滞不前,”Seekr总裁兼CTO Rob Clark表示。“SeekrFlow解决了所有这些问题,并且通过平台和硬件不可知性,使其无论客户在何处运行AI或其数据驻留在何处均可使用。”
企业可以在任何平台或硬件上访问SeekrFlow,但由于Seekr与英特尔的多年合作,客户现在可以在英特尔Tiber开发者云上运行具有卓越价格性能的Seekr可信AI。

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB