关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元965人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

遭天风证券"并表"终止后 恒泰证券财富管理中层"组团"离职

界面新闻 浏览 12548

多重利好加持,氢能爆发!京城股份大涨38%,中石化30亿绿氢项目将投产

时代财经 浏览 15806

知名男星被曝言语侮辱女性尺度大 回应后心虚删评

不八卦会死星人 浏览 14551

英伟达:长期对华实施芯片出口管制会致美国产业失去竞争机会

澎湃新闻 浏览 14295

从“道地药材”到“数字服务”,九州通“链”出中药增长新动能

正经社 浏览 845

罕见罚单!英特尔因侵犯专利要赔22亿美元

网易科技报道 浏览 25742

连续第4晚发生骚乱 法国已部署4.5万名警察和执法车辆

环球网 浏览 90257

官方披露:正厅级崔建平被查当月还在捞钱

扬子晚报 浏览 7688

明年起5纳米以下先进制程至少涨3%?台积电回应:定价策略不以机会导向

澎湃新闻 浏览 699

古力娜扎高考成绩596分?后援会核实后回应

剧荒娱乐 浏览 17509

拜登下令空袭叙利亚,好战本性暴露无遗

趣看热点 浏览 191817

被处罚的ST云动较年内高点腰斩,符合条件股民可登记索赔

证券市场周刊 浏览 753

谷歌 CEO 皮查伊确认:下一代 AI 模型 Gemini 3 今年发布

IT之家 浏览 725

沈知渝:科尔不见得会下课 不知有哪个主帅能让这支勇士战力爆表

直播吧 浏览 12700

10秒6分却毁于热巴:邓罗险些扮演救世主 热火逆袭概率仅存21%

颜小白的篮球梦 浏览 16670

意媒:米兰将与拜仁谈赫拉芬贝赫,拜仁要价3000万欧

直播吧 浏览 15167

赵本山女儿力挺辛巴,是真性情还是情商低

趣看热点 浏览 26419

拜登通告全球"特朗普让国家蒙羞" 罕见措辞引全球关注

现代小青青慕慕 浏览 5694

美公布现场视频 美俄各自还原“黑海撞机”真相

环球网资讯 浏览 19430

来了!小鹏P7+增程版申报图现身

Nice好车 浏览 1061

妻子家中枉死丈夫被疑雇凶杀人 27年后真凶浮出水面

环球网资讯 浏览 6216
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1