GPT-4V离通用人工智能就差自我意识?GPT-4V 高级用户的必读



本文为1020字,建议阅读4分钟‍
微软又给出了一篇 166 页的针对 GPT-4V 潜能的超强研究报告《The Dawn of LMMs》- 大型多模态模型的黎明, 这篇报告将是 GPT-4V 高级用户的必读之作,强烈推荐阅读原文!论文地址:https://arxiv.org/abs/2309.17421
GPT-4V 的研究主要围绕以下几个核心问题
了解 GPT-4V 支持哪些输入及其工作方式是什么?
评估 GPT-4V 在不同领域和任务上的表现如何?
如何有效地使用和提示 GPT-4V?
面对 GPT-4V 展示的跨领域强大实力,未来的多模态学习和人工智能发展路在何方?
研究者对广泛的领域和任务进行了采样测试,包括开放世界的视觉理解、视觉描述、多模态知识、认知常识、场景文本理解、文档推理、编码、时间推理、抽象推理以及情感理解等。GPT-4V 在许多实验领域都表现出了令人印象深刻的人类水平的能力

1)GPT-4V 在视觉理解、描述、常识、场景文本理解等领域展现出人类水平的能力

2)GPT-4V 能够很好地理解在像素空间上的编辑,例如在输入的图像上直接标记和做文本标识。受这种能力的启发,研究者提出了「视觉参考提示词 - Visual Referring Prompting」的概念,它可以与其他图像和文本提示无缝结合使用,为教学和示例演示提供了一个细致入微的全新界面

3)GPT-4V 在理解时间序列和视频内容方面表现优秀

4)GPT-4V 能从视觉信号中抽象出语义,并能执行人类智商测试,结果和人类相当

5)GPT-4V 潜在的行业用途
- 全自动影像识别,例如自动保险鉴别 
- 更简单的医学读影 
- 具身智能 Embodied Agent 
-自行使用图形界面 GUI Navigation
以及全面提升各个行业的自动化能力 

6)GPT-4V 将会驱动能力更强的智能代理(Agent) 
- 基于 ReAct 的多模态推理链 Multimodal Chains 
- 拥有自我反思能力 Self-Reflection 
- 具备自我一致性 Self-Consistency 
感觉离 AGI 就差一个自我意识了

 结语
报告主要探讨了 GPT-4V 在不同场景下的表现和能力。发现中,GPT-4V 展现出了一系列卓越的能力,其中有些是前人未曾探讨或证实的
GPT-1、GPT-2 和 GPT-3 主要作为文本输入输出系统,仅处理自然语言。而 GPT-4(无视觉)在文本理解和生成方面表现卓越,GPT-4V 则在图像领域也展现出了强大的理解能力。
LMM 在未来应能创建包含文本和图像的内容,比如生成图文并茂的教程,实现多模态内容的全面理解和生成。另外,考虑集成更多模态,比如视频、音频和传感器数据,也是拓宽 LMM 能力的重要步骤。
目前,大多数学习方法主要依赖于整理良好的数据,如图像-标签或图像-文本数据集。然而,未来的模型应能从不同的来源学习,包括网上内容甚至现实世界环境,以实现持续的自我完善和发展
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~

强烈建议阅读原文👇👇
到顶部