继续操作前请注册或者登录。

GPT-4V离通用人工智能就差自我意识？GPT-4V 高级用户的必读

2023-10-05 00:01#1 标记1

本文为1020字，建议阅读4分钟‍
微软又给出了一篇 166 页的针对 GPT-4V 潜能的超强研究报告《The Dawn of LMMs》- 大型多模态模型的黎明，这篇报告将是 GPT-4V 高级用户的必读之作，强烈推荐阅读原文！论文地址：https://arxiv.org/abs/2309.17421
GPT-4V 的研究主要围绕以下几个核心问题
了解 GPT-4V 支持哪些输入及其工作方式是什么？
评估 GPT-4V 在不同领域和任务上的表现如何？
如何有效地使用和提示 GPT-4V？
面对 GPT-4V 展示的跨领域强大实力，未来的多模态学习和人工智能发展路在何方？
研究者对广泛的领域和任务进行了采样测试，包括开放世界的视觉理解、视觉描述、多模态知识、认知常识、场景文本理解、文档推理、编码、时间推理、抽象推理以及情感理解等。GPT-4V 在许多实验领域都表现出了令人印象深刻的人类水平的能力

1）GPT-4V 在视觉理解、描述、常识、场景文本理解等领域展现出人类水平的能力

2）GPT-4V 能够很好地理解在像素空间上的编辑，例如在输入的图像上直接标记和做文本标识。受这种能力的启发，研究者提出了「视觉参考提示词 - Visual Referring Prompting」的概念，它可以与其他图像和文本提示无缝结合使用，为教学和示例演示提供了一个细致入微的全新界面

3）GPT-4V 在理解时间序列和视频内容方面表现优秀

4）GPT-4V 能从视觉信号中抽象出语义，并能执行人类智商测试，结果和人类相当

5）GPT-4V 潜在的行业用途
- 全自动影像识别，例如自动保险鉴别
- 更简单的医学读影
- 具身智能 Embodied Agent
-自行使用图形界面 GUI Navigation
以及全面提升各个行业的自动化能力

6）GPT-4V 将会驱动能力更强的智能代理（Agent）
- 基于 ReAct 的多模态推理链 Multimodal Chains
- 拥有自我反思能力 Self-Reflection
- 具备自我一致性 Self-Consistency
感觉离 AGI 就差一个自我意识了

结语
报告主要探讨了 GPT-4V 在不同场景下的表现和能力。发现中，GPT-4V 展现出了一系列卓越的能力，其中有些是前人未曾探讨或证实的
GPT-1、GPT-2 和 GPT-3 主要作为文本输入输出系统，仅处理自然语言。而 GPT-4（无视觉）在文本理解和生成方面表现卓越，GPT-4V 则在图像领域也展现出了强大的理解能力。
LMM 在未来应能创建包含文本和图像的内容，比如生成图文并茂的教程，实现多模态内容的全面理解和生成。另外，考虑集成更多模态，比如视频、音频和传感器数据，也是拓宽 LMM 能力的重要步骤。
目前，大多数学习方法主要依赖于整理良好的数据，如图像-标签或图像-文本数据集。然而，未来的模型应能从不同的来源学习，包括网上内容甚至现实世界环境，以实现持续的自我完善和发展
⭐星标AI寒武纪，好内容不错过⭐
用你的赞和在看告诉我～

强烈建议阅读原文👇👇