这才是真正的可以给 C 端用户用的视频模型,有声音、有音效、有运镜和分镜规划,哪怕你只说一句话,国内又有的追了。
本来以为 Sora 2 会是 Open AI 开发者大会的大招,结果他提前发布了,先看藏师傅的简短介绍:
看到了吗,这个就是我的脸!
同时我在用我自己的音色介绍 Sora2 模型,而且我可以说中文、日语、英语多种语言,真的要不是那个水印,你把这视频给我我都分不清。
而且你要知道,我在克隆语音的时候只说了三个数字,一共不到两秒,市面上没有任何一个语音模型能达到这个效果,别说这还是个视频模型了。
从他们自己的话来说,Sora 2 是现在世界上最强的视频生成模型,他们还为 Sora 2 推出了一个社交 APP,看起来就像是 AI 版的抖音,不过你可以邀请你的朋友跟你合拍 AI 视频,而且视频生成还是免费的!
在第一次登录的时候他会让你录三段视频,先是说三个数字,然后转转头他就帮你把你的人脸和声音创建好了。
你在生成的时候可以 @ 其他用户跟他们一起出现在生成的视频里面。
好的,我们知道这些就行了,先来看一些案例:
可以看到 Sam 再给我介绍 Sora 2 这个视频模型,我根本没说 Sora2 是啥,他说的话就是没问题的,说明这个模型跟 4o 图像模型类似都是有世界知识的。
@sama is introducing a video generation model called Sora2 to @op7418
然后如果你喜欢这个视频你就可以 Ramix 这个视频,只需要输入简单的提示词就行,比如这里我就把 Sam 原来在机房的视频改成了在城堡的视频。
可以发现里面所有人的装扮都发生了变化,同时面部依然保持了一致,这太顶了,我就只说了一个在城堡。
然后我发现他可以上传图片,我就想这不就是可以多参生成了吗,于是我就给了他一个马的照片,然后跟他说我骑着马在奔跑。
没想到真的可以 !你可以上传任何需要的场景和动物图片,然后就不止可以保持你人物的一致性,场景一致性也行,这个玩法就太多了。
@op7418 Riding on horseback and running
比如这里我就又上传了一张汽车的图片,汽车的 ID 和我的人像都能保持一致。
另外他会自动切镜头,整个视频非常有场景感,可以看到他不止学到了物理表现,还学会了视频编排和分镜创作逻辑。
还有就是注意我脸上的雨水,他知道这是雨天,我没打伞,真的很牛。
汽车停在 @op7418 旁边
然后我就又给了他一个香水瓶子让他介绍,这次香水瓶的一致性保持的就不太行了,如果这个可以好点就好了,电商广告直接拿下。
@op7418 Wearing an elegant suit while introducing this perfume, with a fashionable hairstyle
这次 Sora 2 的版权限制依然很严格,不能生成版权内容,但不知道为啥宝可梦可以,所以信息流里面就全是宝可梦。
而且你看这里每个人说话的时候镜头就会自动打到合适的位置,太牛批了,完全学到了视频编排逻辑。
Swarm of Pokémons taking over OpenAI offices and arguing with @op7418
然后又试了一下长镜头的表现,他的运镜真的很稳,一点都不死板。
Follow a cycling youth @op7418 starting from the street corner, passing through narrow alleys, with the camera never cutting, as the environment changes from daytime to dusk.
然后再来看个没有我自己的复杂提示词效果。
可以看到这里,每个动作和细节都跟提示词是一致的,而且教练喊出来的时候很有情绪,就是篮球给投中了。
我还测试了几个复杂提示词的,包括带分镜规划的也都可以遵循,就是好像没有我人像的视频发布审核有点严格不让下载和发布。
A basketball player rises for a three-pointer and misses. The ball hits the rim, bounces off the backboard, then lands short, rolling across the court. Crowd murmurs, sneaker squeaks, and a coach's shouted "Box out!" perfectly synced.
最后来一个藏师傅跟藏师傅的对话吧,我只说了主题没有限制内容,他们的对话相当有逻辑而且有深度。
@op7418 和他自己在对话,讨论关于内心的困惑
今天的测试到这里就结束了。
只能说 Sora 2 在 ID 保持、音效和语音生成、视频模型的世界知识、分镜和故事逻辑编排上是独一份的了,加上这种社交玩法和免费生成估计这次真成了,这玩意已经不是我们认知里的视频模型了。
这才是真正的可以给 C 端用户用的视频模型,有声音、有音效、有运镜和分镜规划,哪怕你只说一句话都能生成正真完整的视频,国内又有的追了。
没有评论:
发表评论