2024年2月21日-23日,亚布力中国企业家论坛第24届年会在黑龙江召开,主题为“构建新发展格局推进高质量发展”。美国国家工程院外籍院士,北京智源研究院学术顾问委员会主任张宏江出席并演讲。
张宏江表示,多模态最好的方式是把多模态的数据,包括视频、语音、图像也做成token,从而跟语言一起来做训练,能够训练出能够理解物理世界的大模型。
“今天我们看到Sora是一个文生视频的模型,但事实上多模态远远超越文生图、文生视频,包括图生文,更包括视频的理解,一反一正是非常非常重要的,这是我们对于物理世界理解的核心的核心的一点。”他说。
多模态突破的是Sora代表了一个世界模型,它能够理解、描述和模拟现实世界。这种描述不是通过传统的3D建模,而是通过大数据,通过transformer架构学出来的。
张宏江指出,过去这些年来,所有的自动驾驶的公司,每到一个新的城市必须得花3到6个月重新扫描这个城市的街道,这件事也许就不需要做了,也许大模型就能够帮你解决了。所以,多模态将会重写自动驾驶的系统。