机器视觉领域迎来GPT-3时刻,新模型接连炸场
2023-04-11 富美财经 浏览量:次
短短一周不到,视觉领域接连迎来新模型“炸场”,图像识别门槛大幅降低——
这场AI热潮中鲜见动静的Meta终于出手,推出Segment Anything工具,可准确识别图像中的对象,模型和数据全部开源;
国内智源研究院视觉团队也提出了通用分割模型SegGPT(Segment Everything in Context),这也是首个利用视觉上下文完成各种分割任务的通用视觉模型。
其中,Meta的项目包括模型Segment Anything Model(SAM)、数据集Segment Anything 1-Billion mask dataset(SA-1B),公司称后者是有史以来最大的分割数据集。
引起业内轰动的便是这一SAM模型:
1. 正如名字“Segment Anything”一样,该模型可以用于分割图像中的一切对象,包括训练数据中没有的内容;
2. 交互方面,SAM可使用点击、框选、文字等各种输入提示(prompt),指定要在图像中分割的内容,这也意味着,用于自然语言处理的Prompt模式也开始被应用在计算机视觉领域。
3. 对于视频中物体,SAM也能准确识别并快速标记物品的种类、名字、大小,并自动用ID为这些物品进行记录和分类。
英伟达人工智能科学家Jim Fan将Meta的这项研究称作计算机视觉领域的“GPT-3时刻”之一——其分割方法可以通用,可对不熟悉的物体和图像进行零样本泛化,初步验证了多模态技术路径及其泛化能力。
进一步来说,SAM可以灵活集成于更大的AI系统。例如,理解网页的视觉和文本内容;在AR/VR领域,将头显用户视线作为提示来选择对象,然后将其“提升”到3D中;对于内容创作者,SAM可提取图像区域以进行拼贴或视频编辑;SAM还可通过定位动物或物体在视频中进行研究和跟踪。
另一方面,智源研究院视觉团队的SegGPT模型则更偏重于批量化标注分割能力。无论是在图像还是视频环境,用户在画面上标注识别一类物体,即可批量化识别分割出其他所有同类物体。
例如,若在一张图像中标注彩虹,便可将其他图像中的彩虹也一同批量识别分割出来。
西部证券指出,Meta此次推出SAM,预示着大模型在多模态发展方面更进一步,布局计算机视觉/视频的厂商有望持续受;还有券商补充称,SAM模型突破了机器视觉底层技术。
国盛证券预计,预计1-5年内,多模态发展将带来AI泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活;5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
据《科创板日报》不完全统计,A股中有望受益于多模态发展的公司有:
-
-
制止餐饮浪费|长春:专项整治行动见实效
中国消费者报长春讯(记者李洪涛)民以食为天,食以俭为先。为了解制止餐...
- 生活快消 2024-05-09
-
制止餐饮浪费|长春:专项整治行动见实效
-
-
“马产品”进京带来食品新体验
近日,由内蒙古自治区锡林浩特市人民政府主办、锡林浩特市马产业发展中心...
- 生活快消 2024-05-09
-
“马产品”进京带来食品新体验
-
-
制止餐饮浪费|想点单件商品却凑单成“多件套” 外卖起送价何时休
中国消费者报报道(记者张文章)想点一份13元的意面,外卖起送价要20元;...
- 生活快消 2024-05-09
-
制止餐饮浪费|想点单件商品却凑单成“多件套” 外卖起送价何时休
-
-
40.5%!北京居民健康素养居全国首位
日前,北京市第35个爱国卫生月启动,北京市卫建委相关负责介绍,今年北京...
- 生活快消 2024-05-09
-
40.5%!北京居民健康素养居全国首位
-
-
五一坐飞机又便宜了!燃油附加费年内两连降;分析人士:可能还会涨回来
清明短假带火了一日游,而即将到来的五一小长假,乘机远途旅行或是大多数...
- 生活快消 2024-05-09
-
五一坐飞机又便宜了!燃油附加费年内两连降;分析人士:可能还会涨回来
-
-
出游正值好春光!“五一”旅游需求爆发
4月7日消息,随着天气转暖,国内游客的春游热情持续高涨。今年清明假期,...
- 生活快消 2024-05-09
-
出游正值好春光!“五一”旅游需求爆发