Midjourney CEO大卫·霍尔兹：AI应该是我们自身的延伸

腾讯科技阅读 54174 2023-7-10 09:39

MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言，认为AI将成为创造和想象力的新的载体和引擎。通过AI，我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney，霍尔兹表明它来自于道教著作《庄周》中的中道概念，他认为中国古典文学带来了很多最美丽的，最深沉的思想。

目前Midjouney正在进行5.3版本的开发，并会在版本6中提供一系列对生成图像进行缩放，平移来自动生成新的不同角度相关图像的能力，并且可以控制生成图像的随机性，让作者在诡异的美和令人迷惑的画面间找到平衡。在未来，Midjourney的目标是发展出三维，实时，动态可调的生成图像。

关于技术的未来，他并不确定可能的走向。但融合模型（图像 /文字用的模型进行融合）可能是比较可能的发展方向。他认为AI的这次技术进步的潜力还没有完全发挥出来，比现在强上十倍，百倍的进步是必然的。

他认为到目前为止技术上的大部分进步都来自于试图让人变得更好，试图放大人的能力。因此AGI也许并非是必要的，AI作为我们人的延伸，赋能人类才是更好的选择。

以下为演讲实录：

大家好，我是大卫·霍尔兹，Midjourney的CEO和创始人. 我很荣幸受上海市政府邀请我参加这次人工智能世界大会，并很期待加入今天的活动。

世界上最重要的技术之一就是引擎。引擎是一种用于产生、转移或放大的机器。我们使用引擎在各种工厂建造各种各样的交通工具，如汽车、飞机和船只。而现在，是时侯把人工智能看作一种新型引擎了。

在 MidJourney，我们正试图用这种引擎来打造一种新型的载体，这载体不是交通工具，而是承载我们的思维和想象力的载体。

就像你可以用足球转动世界，但仍需要腿去踢球一样。我们希望能创造一种新型的载体，你可以用它来进行想象，而不仅是产生运动。在我们创造之前，我们必须首先去想象，想象我们能成为什么，我们可以去哪里，什么是可能的。我认为我们制造的工具，比任何东西都更专注于放大想象力的原初力量。我们有机会放大的不仅仅是任何个体，而是整个人类种族的想象力。我曾多次随Leap Motion（手势识别设备）访问过中国，Leap Motion的第一个办公室就在上海。上海有一种特殊的感觉，我非常喜欢，它似乎是旧金山、洛杉矶、纽约以及一些欧洲老城市的组合体。它拥有一种古老历史和文化的力量，同时也有一种未经雕琢的未来感。这真的很酷，这是我最喜欢的两件事。

事实上，我基本上是个科幻小说的狂热读者，而我看到的最疯狂的设定来自于中国古典文学。我认为古代中国文学拥有人类历史上最美丽、最深沉的思想。MidJourney（中道）这个名字实际上源于我最喜欢的一个古老道家文本的翻译，它出自《庄周》。比如《庄周梦蝶》、《子非鱼》、《庖丁解牛》、《不材之木》、《空舟》，我喜欢这些。我喜欢MidJourney这个名字的原因是，我觉得人们有时容易忘记过去，可能会感到迷茫，对未来感到不确定。但我更多的是觉得我们其实是在中途旅程，我们来自丰饶美丽的过去，前方是荒野而不可思议的未来。

我们最近发布了Mid Journey 5.2版本，现在正进行着5.3版本的开发。之后我希望能发布一个重大更新版本，我希望称之为版本6。我们引入的最新特性是关于图像的缩放，并在你缩小的同时，可以创造不同的故事和环境，围绕中心主题进行变化。这周我们将发布一个类似的功能，它允许你移动相机，然后当你横向移动相机时，可以不断改变提示，然后讲述故事，我们还发布了这个奇特的控制系统，可以结合这些新功能来更好地控制图像生成。

你也可以将其与风格控制相结合。“风格控制”略有点混淆，但是这个想法是，你想要告诉AI想生成多美的产物，你要承担多大的风险来制造这种美。哪怕它是非常规的，混乱的，奇特的，但有时结果真的非常出色。

有时你需要勇于冒险，这让人们可以控制风险性和美的随机性之间的平衡，或者是平衡对图像的常规普遍美予以多少关注。我们还引入了一种我们称之为涡轮模式的东西。涡轮模式就是我们尽可能多地使用GPU，使图像产生非常快。这让生成的速度提升了4到5倍。这个模式让你好像在用64个或100个以上的GPU去生成图像。能达到这个算力，你的计算机大概得值50万美元。这听起来多少有点疯狂，而我们还在研发更疯狂的技术。虽然它们大部分还在酝酿之中，但我们认为随着时间的推移，Midjourney将发展为不仅能创造二维图像，而且能创造三维图像，动态图像，你甚至可以与像素本身交互。在将来也许你能实时回流和重塑的你画出来的东西。

人们只需要这样一个庞大的AI处理器，然后它就可以梦想所有的不同世界，而且梦想可以与我们的思维互动。而我们从某种意义上是通过它（AI）在做梦，那将是真正酷的事。Diffusion模型、Transformer模型、Clip模型的依次发现，实际上让AI开始进入图像空间。大约在2年前，任何图像AI服务都还没有出来时，我们所有的研究者在旧金山交流，我记得我当时说这些模型，特别是Diffusion模型的横空出世肯定会带来完全不同的东西。还有生成对抗网络技术，这是大家在之前用来制作图像生成的基本技术。

我只记得每个人都以一种不寻常的方式立刻点头，说Diffusion模型真的不一样。那一时间气氛非常严肃，我有了一种必须参与其中，并给这个技术带来更人性化的用户界面的强烈感觉。

但是关于未来，我们很难确知技术会如何发展。有时我们会谈论现在如何将语言模型转向Diffusion模型，也即使用Diffusion模型来制作文本。或者说图像模型会变得更像语言模型。这到底怎么达成呢？这种方式的技术术语是自回归Transformer，或者说AI会向着混合模型发展。但这真的很难说。我认为我们只是在这场变革的开端，但我百分之百确定还有很多进步要去取得。比现在十倍，一百倍的进步很可能是必然的。

这种进步不仅体现在性能上，而且体现在让我们更好使用这些技术的用户界面和产品上。无论是个体还是集体都可以制造出真正酷的东西，可以更好地解决问题。道格拉斯·恩格尔巴特是第一个创建文本编辑器的人。最初，人们是通过打孔卡或卡片上的打孔来编程计算机。但道格拉斯开始思考，如果我们用计算机编程计算机会怎样，这在那时候听起来很疯狂。他的想法是，通过在计算机上编程计算机可以加速这个循环，使我们做的更好，使计算机更强大，放大一切。这种想法最终实现了。尽管我们有这些不同的文化，比如AI，人机界面，智能应用文化，我认为到目前为止技术上的大部分进步都来自于试图让人变得更好，试图放大人的能力。

我们还没有真正看到AI时代降临，在那时我们会有独立的AI去解决问题。但如果我们过多地考虑朝着那个方向发展，可能会错失技术中现存的很多机会。我不仅思考AI能做什么，而且思考如何在不同的事物之间创造流动性和纠缠。因为工具不应该感觉像一个人，它应该感觉像你自己，你的身体，你的思想的延伸。我在想如何构建这些技术，让人和AI相互交织起来，感觉不像是你正在与艺术家合作，而更像是你在想象一些东西，然后它就出现在屏幕上。很多人在描述我的旅程时，都觉得那些目的地就像是他们思想的一部分。我认为这就是大部分AI应该成为的样子，它应该是我们自身的延伸。

所以我想再次向陈先生和全体观众表示感谢。WAIC非常酷，我希望我能在将来亲自参加，成为这个活动的一部分。我很期待与中国有更多的合作，我记得我在那里的所有美好的亲身经历，希望大家在那里也能享受互动的乐趣。谢谢。