关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元951人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

量产版明年上市 AUDI E SUV概念车亮相

车质网 浏览 378

习近平:正确引导民营经济健康发展高质量发展

新华社 浏览 19372

北向资金三季度持仓曝光:宁德市值第一,京东方A获增持股数最多

澎湃新闻 浏览 978

冬季小个子女人穿衣的秘密,学会这3个技巧,好看时髦还增高

静儿时尚达人 浏览 13222

女子吃自助连吃带打包5顿点餐4万多 店方已起诉索赔

极目新闻 浏览 113027

微信公开致歉!冲上热搜第一

第一财经资讯 浏览 12527

31省份去年平均工资公布,9省份非私营单位平均工资超12万

第一财经资讯 浏览 841

奥迪A6L e-tron四驱版公布 双电机爆发405 kW

网易汽车 浏览 1058

上新|| 秋冬也可以穿的漂亮小裙子,美到心动

黎贝卡的异想世界 浏览 654

iOS生态被迫开放,苹果能否成功保卫“苹果税”?

电厂 浏览 12439

外交部:奉劝包括巴拉圭在内的极个别国家政府认清形势

环球网资讯 浏览 5664

马斯克要在特斯拉之外开发AI?Wedbush警告:将是巨大利空

财联社 浏览 12634

一加Ace 6T宣布12月3日发布!全球首发第五代骁龙8、超8000mAh大电池

快科技 浏览 362

倪妮高叶“双A”同框 俩人气质都好绝

ELLE世界时装之苑杂志 浏览 20006

韩版Galaxy S26独享,三星Exynos 2600芯片被曝难以走向全球

IT之家 浏览 199

日本考虑年内制定AI使用规则,或采取比欧盟更柔和立场

界面新闻 浏览 15119

付鹏首次直播谈李佳琦关系付鹏真的单飞了嘛?

趣看热点 浏览 26281

货拉拉回应女子搬家途中跳车身亡说了什么?到底是怎么回事?

趣看热点 浏览 125665

匈牙利高官:北约和欧盟国家已事实上参与俄乌冲突

环球网资讯 浏览 18957

吉利豪越系列新成员曝光 豪越PRO将于1月上市

网易汽车 浏览 12822

突破西方封锁 万里眼超高速实时示波器全球首发

网易科技报道 浏览 948
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1