探索其非凡能力-奥特曼再放大招!OpenAI隆重发布首个文生视频模型Sora (探索其非凡能量的方法)
简介
北京时间16日凌晨,全球人工智能模型领跑者OpenAI推出了一款能根据文字指令即时生成短视频的模型,命名为Sora。此前在2023年轰轰烈烈的多模态AI模型竞赛中,谷歌、Meta和初创公司Runway、PikaLabs都发布过类似的模型。但本次OpenAI展示的视频仍然以高质量获得关注。
模型能力
- 能够从文本说明中生成长达60秒的视频。
- 能够提供具有多个角色,特定类型的动作和详细的背景细节的场景。
- 能够在一个生成的视频中创建多个镜头,体现人物和视觉风格。
- 能够一次性生成整个视频,也可以扩展生成的视频,使其更长。
突破性技术
OpenAI表示,通过让模型一次生成多帧画面,解决了以下挑战性问题:
- 即使生成的主体暂时离开视线内,也能确保主体不变。
模型弱点
该模型可能难以准确模拟复杂场景中的物理现象,也可能无法理解具体的因果关系。例如:
- 一个人可能会咬一口饼干,但咬过之后,饼干上可能就没有咬痕了。
- 该模型可能混淆提示的空间细节,例如混淆左和右,并可能难以准确描述随时间发生的事件,例如跟随特定的摄像机轨迹。
安全问题
关于OpenAI的CEO山姆·奥特曼一直呼吁的AI安全问题,OpenAI表示:
- 目前,Sora已经开放向“红队人员”(对AI大模型潜在的有害输出进行红队测试)以评估关键领域的危害或风险。
- 我们还允许一些视觉艺术家、设计师和电影制作人访问,以获得关于如何改进模型的反馈意见,使其对创意专业人士最有帮助。
视频效果
OpenAI表示,Sora建立在过去对DALL-E和GPT模型的研究基础之上。它采用了DALL·E3的技术,能够在生成的视频中更忠实地遵循用户的文字说明。
除了能够文生视频外,该模型还能根据现有的静态图像生成视频,并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。
目前OpenAI官网上已经更新了48个Sora生成的视频demo,色彩艳丽,效果逼真。
示范案例
CEO在线接单
Sora公布后,OpenAI CEO山姆·奥特曼请社交媒体用户在线发送文字提示的创意内容。一位来自新罕布什尔州的自由摄影师在推特上给出的提示:
由一位祖母级社交媒体博主进行的自制意式团子烹饪指导课,场景设置在乡村风格的托斯卡纳乡下厨房,并配有电影级灯光。
奥特曼在约一小时后回复了一个逼真的视频。
业界观点
东吴证券观点此前表示,近年来视觉算法在泛化性、可提示性、生成效率和可控性上取得突破,视频生成效果快速提升。Sora的推出标志着AI视频生成技术迈出了重要一步。
童年回忆,你最喜欢看的动画片有.......
大闹天宫
1.解释:①少________②逸________③殊量________④纳________⑤既_________⑥
没将原文贴出,不免望文生义了!
①少:年轻或缺少②逸:舒适或闲适③殊量:非凡的器量④纳:接受或吸取,⑤既:既然
免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。