当前位置：首页 > 数码 > 正文内容

探索其非凡能力-奥特曼再放大招！OpenAI隆重发布首个文生视频模型Sora (探索其非凡能量的方法)

admin2年前 (2024-04-14)数码299

简介

北京时间16日凌晨，全球人工智能模型领跑者OpenAI推出了一款能根据文字指令即时生成短视频的模型，命名为Sora。此前在2023年轰轰烈烈的多模态AI模型竞赛中，谷歌、Meta和初创公司Runway、PikaLabs都发布过类似的模型。但本次OpenAI展示的视频仍然以高质量获得关注。

模型能力

能够从文本说明中生成长达60秒的视频。
能够提供具有多个角色，特定类型的动作和详细的背景细节的场景。
能够在一个生成的视频中创建多个镜头，体现人物和视觉风格。
能够一次性生成整个视频，也可以扩展生成的视频，使其更长。

突破性技术

OpenAI表示，通过让模型一次生成多帧画面，解决了以下挑战性问题：

即使生成的主体暂时离开视线内，也能确保主体不变。

模型弱点

该模型可能难以准确模拟复杂场景中的物理现象，也可能无法理解具体的因果关系。例如：

一个人可能会咬一口饼干，但咬过之后，饼干上可能就没有咬痕了。
该模型可能混淆提示的空间细节，例如混淆左和右，并可能难以准确描述随时间发生的事件，例如跟随特定的摄像机轨迹。

安全问题

关于OpenAI的CEO山姆·奥特曼一直呼吁的AI安全问题，OpenAI表示：

目前，Sora已经开放向“红队人员”（对AI大模型潜在的有害输出进行红队测试）以评估关键领域的危害或风险。
我们还允许一些视觉艺术家、设计师和电影制作人访问，以获得关于如何改进模型的反馈意见，使其对创意专业人士最有帮助。

视频效果

OpenAI表示，Sora建立在过去对DALL-E和GPT模型的研究基础之上。它采用了DALL·E3的技术，能够在生成的视频中更忠实地遵循用户的文字说明。

除了能够文生视频外，该模型还能根据现有的静态图像生成视频，并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频，并对其进行扩展或填充缺失的帧。

目前OpenAI官网上已经更新了48个Sora生成的视频demo，色彩艳丽，效果逼真。

示范案例

几头巨大的长毛猛犸象踏着雪地走来，它们长长的毛发随风轻扬，远处是白雪覆盖的树木和壮观的雪山，午后的光线伴着飘渺的云朵和远处高悬的太阳，营造出温暖的光晕，低机位拍摄的景象令人惊叹，捕捉到了大型毛茸茸的哺乳动物，摄影和景深都非常漂亮。

一位时尚女性走在东京的街道上，街道上到处都是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子，手拿黑色钱包。她戴着太阳镜，涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光，与五颜六色的灯光形成镜面效果。许多行人走来走去。

阿马尔菲海岸教堂的鸟瞰图，教堂坐落在悬崖上，俯瞰着大海。天空是湛蓝色的，教堂的圆顶和钟楼清晰可见。海面上有几艘小船，海岸线上有几座房屋。

CEO在线接单

Sora公布后，OpenAI CEO山姆·奥特曼请社交媒体用户在线发送文字提示的创意内容。一位来自新罕布什尔州的自由摄影师在推特上给出的提示：

由一位祖母级社交媒体博主进行的自制意式团子烹饪指导课，场景设置在乡村风格的托斯卡纳乡下厨房，并配有电影级灯光。

奥特曼在约一小时后回复了一个逼真的视频。

业界观点

东吴证券观点此前表示，近年来视觉算法在泛化性、可提示性、生成效率和可控性上取得突破，视频生成效果快速提升。Sora的推出标志着AI视频生成技术迈出了重要一步。

童年回忆,你最喜欢看的动画片有.......

大闹天宫

1．解释：①少②逸③殊量④纳⑤既_⑥

没将原文贴出，不免望文生义了！

①少：年轻或缺少②逸：舒适或闲适③殊量：非凡的器量④纳：接受或吸取，⑤既：既然

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: Sora