视觉语言大模型加持的机器人，深夜来袭！！-站长新闻-文章资讯-厚德网址目录

视觉语言大模型加持的机器人，深夜来袭！！

2024-03-22 04:21:02 141

编辑部发自凹非寺

量子位 | 公众号

大模型加持的机器人，深夜来袭！

名曰 01，它能听会说，动作灵活。

能和人类描述眼前看到的一切：

我在桌子上看到了一个红色的苹果，沥水架上面还有几个盘子和一个杯子；然后你站在附近，手放在桌子上。

听到人类说“想吃东西”，就马上递过去苹果。

而且对于自己做的事有清楚认知，给苹果是因为这是桌上唯一能吃的东西。

还顺便把东西整理，能同时搞定两种任务。

最关键的是，这些展示都没有加速，机器人本来的动作就这么迅速。

（也没人在后面操纵）

这下网友坐不住了，立马@波士顿动力：

老伙计们，这家伙是真来劲儿了。咱得回实验室，让以前的机器人（波士顿动力）多跳点舞了。

也有网友看在卷完大语言模型、文生视频之后，又狙击机器人后感慨道：

这是一场激烈的竞争；与合作，苹果可能会超越特斯拉。

但硬件方面，擎天柱看起来更美观， 01仍然需要一些“整容手术”。（doge）

接下来，我们继续来看下 01的细节。

视觉语言大模型加持

根据创始人的介绍， 01通过端到端神经网络，可以和人类自如对话。

基于提供的视觉理解和语言理解能力，它能完成快速、简单、灵巧的动作。

模型只说是一个视觉语言大模型，是否为GPT-4V不得而知。

它还能规划动作、有短期记忆能力、用语言解释它的推理过程。

比如对话里说“你能把它们放在那里吗？”

“它们”、“那里”这种模糊表述的理解，就体现了机器人的短期记忆能力。

它使用了训练的视觉语言模型，机器人摄像头会以10Hz拍下画面，然后神经网络将以200Hz输出24自由度动作（手腕+手指关节角度）。

具体分工上，机器人的策略也很像人类。

复杂动作交给AI大模型，预训练模型会对图像和文本进行常识推理，给出动作计划；

简单动作如抓起塑料袋（抓哪里都可以），机器人基于已学习的视觉-动作执行策略，可以做出一些“下意识”的快速反应行动。

同时全身控制器会负责保持机身平衡、运动稳定。

机器人的语音能力则基于一个文本-语音大模型微调而来。

除了最先进的AI模型， 01背后公司——的创始人兼CEO还在推文中提到，方面整合了机器人的所有关键组成。

包括电机、中间件操作系统、传感器、机械结构等，均由工程师设计。

据了解，这家机器人初创公司在2周前才正式宣布和的合作，但才13天后就带来如此重磅成果。不少人都开始期待后续合作了。

由此，具身智能领域又有一颗新星走到了聚光灯下。

“将人形机器人带进生活”

说到，这家公司创立于2022年，正如前文所言，再次引爆外界关注，就在十几天前——

官宣在新一轮融资中筹集6.75亿美元，估值冲到26亿美元，投资方几乎要集齐半个硅谷，包括微软、、英伟达和亚马逊创始人贝佐斯等等。

更重要的是，同时公开了与更进一步合作的计划：将多模态大模型的能力扩展到机器人的感知、推理和交互上，“开发能够取代人类进行体力劳动的人形机器人”。

用现在最热的科技词汇来说，就是要一起搞具身智能。

彼时， 01的最新进展是酱婶的：

通过观看人类的示范视频，仅需10小时端到端训练， 01就能学会用胶囊咖啡机泡咖啡。

与的合作一公开，网友们就已经对未来的突破充满了期待。

毕竟Brett ，可是把“唯一的重点是以30年的视角建立，以积极影响人类的未来”这样的话都写在个人主页上了。

但可能没人能想得到，仅仅两周左右的时间，新进展就来了。

如此之快，如此之远。并且还能持续泛化、扩展规模。

值得一提的是，与炸场demo同时发布的，还有的招聘信息：

我们正在将人形机器人带进生活。加入我们。

参考链接：

[1]

[2]

[3]

— 完 —

量子位 · 头条号

关注我们，第一时间获知前沿科技动态签约

本文地址：https://www.hdurl.com/xinwen/923.html

文章评论

◎欢迎参与评论文章，请在这里发表您的看法、交流您的观点。

特斯拉海外FSD自动驾驶月订阅费减半，降价至99美元

4月13日消息，特斯拉今日宣布，对其海外全自动驾驶系统FSD的月度订阅费用进行了调整。新的订阅费用大幅下降，由原先的199美元(约合人民币1443元)降至99美元(约合人民币718元)，降价幅度达到了50%。这一策略调整，无疑将使得更多的消费者有机会体验到特斯拉的自动驾驶技术。特斯拉的全自动驾驶系统FSD一直以其前瞻性和创新性...

人工智能在医疗保健、语言与学习、交通出行、娱乐等领域的应用

展望未来随着深度学习、机器学习等技术的不断进步和完善，人工智能的应用将更加广泛和深入，同时政策推动和市场需求的增长也将为人工智能的发展提供有力支持。综上所述人工智能在生活中的应用已经渗透到各个方面，其影响深远且意义重大。...

先装上一个好用的浏览器，毕竟你也不想用上360天天看广告弹窗对吧！

拿到新电脑，第一步当然是先装上各种实用软件啦！其中包括但不限于壁纸软件、安全防护软件、办公软件、休闲娱乐软件等等，还有还有一定先装上一个好用的浏览器！电脑里装一个它几乎可以搞定全部的日常图片处理需求。好了，以上就是新电脑推荐安装的10款实用软件啦！个个功能强大又能解决实际问题，非常适合新电脑装机。...

软件人工智能企业创新奇智孔明工业大模型实现新突破

目前，创新奇智已将大模型技术深度融入CAD、MES和BI等多种工业软件中，贯穿实现了对“研发设计-生产控制-信息管理”工业全流程的智能化改造与升级，大幅提升了工业生产的效率和质量，也提高了工业软件国产化与智能化水平。...

华为手机价格坚挺，价格屠夫，你买了吗？

华为手机的价格，一直都非常坚挺，就算是二手的华为手机，也依然可以卖出一个好价格。不过对于骁龙处理器的手机而言，价格方面的变化就比较大了，尤其是中低端的华为手机，价格方面也变成了“价格屠夫”。...

智能AI 文心一言、通义听问和Kimi的优缺点

在这个信息爆炸的时代，人工智能（AI）已经成为我们生活中不可或缺的一部分。从日常的智能助手到专业的市场分析，AI工具正以前所未有的速度改变我们的工作和生活方式。**文心一言：百度的智能明珠**通过深入分析这些工具的优缺点，我们可以更好地理解它们在现实世界中的应用，并选择最适合我们需求的工具。...

通用人工智到底是什么？AGI概念在AI界的演化史

人工智能领域的最初目标是创造具有与人类相当的通用智能的机器。「在我们与超级智能机器共享地球之前，我们必须发展一门科学来理解它们。年出版的《超级智能》（）一书中提出了一个现在很著名的思想实验：他想象人类给超级智能人工智能系统一个优化回形针生产的目标。...

手机丢了怎么办？华为云空间查找设备帮你找回

所以朋友们，手机即便丢了或被别人拿走了，也不要慌张。如果小伙伴们也是华为用户，想必已经学会手机丢失怎么处理了吧。数据足够安全，让我对手机遗失这件事情不再担心，加上寻找手机过程精彩刺激，甚至有那么一点小期待。...