机械必威体育网址

标题: OpenAlSora官方技术报告中文版 [打印本页]

作者: bravo090 时间: 2024-2-19 09:47
标题: OpenAlSora官方技术报告中文版
OpenA12月16日凌晨发布了文生视频大模型Sora，在科技圈引起一连串的震惊和感叹，在2023年，我们见证了文生文、文生图的进展速度，视频可以说是人类被A|攻占最慢的一块“处女地”。而在2024年开年，OpenAl就发布了王炸文生视频大模型Sora，它能够仅仅根据提示词，生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。
为了方便理解，我们简单总结了这个模型的强大之处:
1、文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频，这些视频不仅保持了视觉品质，而且完整准确还原了用户的提示语。
2、复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜，使得生成的视频具有高度的逼真性和叙事效果。
3、语言理解能力:Sora拥有深入的语言理解能力，能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令，并在生成的视频内容中忠实地反映这些指令。
4、多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头，同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。
5、从静态图像生成视频能力:Sora不仅能够从文本生成视频，还能够从现有的静态图像开始，准确地动画化图像内容，或者扩展现有视频，填补视频中的缺失帧。
6、物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力，这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动，如物体的移动和相互作用。
可以说，Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够将人们的想象力转化为生动的动态画面，将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来，Sora正以其独特的方式，重新定义着我们与数字世界的互动。一反常态，OpenAI在模型公布后的不久，就公布了相关的技术Paper，我们第一时间“啃”了这篇技术报告，希望能够帮助大家理解到底有哪些神奇的技术，让Sora能够有如此强大的魔力。

链接

https://www.aihub.cn/news/video-generation-models-as-world-simulators/

作者: 向上努力 时间: 2024-2-19 10:38
Thanks.

第一反应，小说直接成剧，是不是变为了可能？当然复杂程度很高很高~

第二反应，之前AI换脸，在Sora面前就是过家家啊~

第三反应，国内的300+家大模型，突飞猛进的发展着，遥遥领先的进步着，差距……又拉大了多少？

作者: bravo090 时间: 2024-2-19 12:34

向上努力发表于 2024-2-19 10:38
Thanks.

第一反应，小说直接成剧，是不是变为了可能？当然复杂程度很高很高~

国内除了有限的几家，都是套壳的。毕竟大模型关键在于大，服务器成本太高了

作者: 海中游 时间: 2024-2-19 12:54
以后短视频制作方便了，可以不用拍摄了。不过一样是千篇一律，看多了没滋味了，如同好莱坞大片、港片。

作者: z424385518 时间: 2024-2-19 14:02
好帖我顶

作者: bravo090 时间: 2024-2-19 14:12
天才科学家谢赛宁说的

作者: 卢Tiger 时间: 2024-2-19 17:36
我感觉就是不同场景的AI合成，吹的神乎其神的。

作者: 紫衣青衫 时间: 2024-2-20 08:40
以后的世界不敢想象

作者: yxp 时间: 2024-2-20 09:00
未来在AI界可能有翻天覆地的变化

欢迎光临机械必威体育网址 (//www.szfco.com/)