AI好好用报道
编辑:杨文
终于识得Sora真面目。
Sora 千呼万唤始出来。
10 日凌晨,OpenAI 直接开放了 Sora 的新版本 ——Sora Turbo,ChatGPT Plus 和 Pro 用户可以直接上手体验。
链接直达:https://sora.com/
相较于今年 2 月 16 日发布的 Sora 预览版,这个新版本速度更快,功能也更全,一口气上线了 Remix、Re-cut、混合、故事板剪辑、风格预设等多项功能。
(查看详情,请移步:)
(prompt:一只狮子和一只猫在田野里玩耍)
翻车来得猝不及防。
知名科技博主 @MKBHD从上周就用上了 Sora 最新版。在尝试了各种风格和角色、向它抛出了几十个提示词后,最终得出了以下结论:
搞抽象,或者生成艺术风格镜头,那水平绝对一流,但一遇到写实风格,别的大模型有的毛病,Sora 照样有。
-1-
生成效果很逼真,但文字仍会乱码
prompt :CBS style of video of news coverage of a recent fog event.
提示词:CBS 对近期大雾事件的新闻报道视频。
众所周知,AI 经常会把文字处理成一些奇怪的「鬼画符」,Sora 生成的这段视频也不例外,其中包含了很多混乱的文字。
不过,Sora在生成视频时能够模拟一些视频编辑技巧,如插入不同镜头、制作滚动条效果,以及模拟新闻风格的视频拍摄,生成的新闻主播看起来也很真实。
-2-
难以理解和模拟现实世界中的物理规律
Sora 并未对视频中的物体产生「理解」,模型仍然容易出现「幻觉」,主要表现为不合逻辑的运动,以及缺乏物理恒常性。
比如,生成的视频中物体会相互穿透,或者无故消失和重现等。
prompt :A black tech reviewer talking about a smartphone, while sitting at a desk in front of 2 displays.
比如,黑人小哥右手拿的手机总是凭空出现或消失,而且他的左手会在不经意间多根手指或少根手指。
同时,Sora 也并未严格遵循文本描述,黑人评论员不是面对两台显示屏,而是背对。显示屏中的图片也都出现了手指畸变的情况。
prompt :A high resolution drone shot of the Golden Gate Bridge on a clear morning with a the peak of the bridge poking through some thin clouds.
prompt:National Geographic style video of a person befriending a penguin.
prompt:A side scrolling shot of a rhinoceros walking through a dry field of low grass plans.
-3-
图生视频拉胯
在测试图生视频时,该博主发现 Sora 有时根本不知道在特定图片中,物体的方向或速度应该是怎样的。
-4-
媲美纪录片的风景镜头
尽管 Sora 在模拟现实世界的物理运动存在一些局限性,但在风景渲染方面表现出色。
擅长动画风格
相比于写实风格,Sora等视频生成模型更擅长生成动画。
一方面是因为动画风格不需要严格遵守现实世界的物理规则,这减少了模型需要处理的复杂性。例如,在动画中,物体可以无视重力飞行或者以不符合现实物理的方式变形。
另一方面,动画通常具有风格化的特征,如夸张的表情、色彩和形状,这些特征更容易被 AI 模型捕捉和模仿。
prompt:Stop-motion claymation footage of Santa punching a snowman.
详细测评视频链接:
https://www.youtube.com/watch?v=OY2x0TyKzIQ
原标题:《Sora上线即翻车?知名科技博主一手评测》