太仓网站建设,太仓网络公司,太仓网站制作,太仓网页设计,网站推广-昆山云度信息科技有限公司太仓网站建设,太仓网络公司,太仓网站制作,太仓网页设计,网站推广-昆山云度信息科技有限公司

中国首个Sora级视频大模型Vidu发布 生数科技与清华 联合推出

中国首个Sora级视频大模型Vidu发布 生数科技与清华 联合推出

4月27日,在中关村 论坛未来人工智能先锋论坛上(shàng),生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大(dà)模型(xíng)——Vidu。该模型采用团(tuán)队原创的Diffusion与Transformer融合的架构(gòu)U-ViT,支持一键生(shēng)成长达16秒、分辨率高(gāo)达1080P的高清视频内(nèi)容(róng)。Vidu不仅能够模拟真实物(wù)理世界,还(hái)拥有丰富想象(xiàng)力,具备多 镜头生成、时(shí)空(kōng)一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的(de)视频大模型,性能全面对标国(guó)际顶尖水平,并在加速 迭代提升中。

与Sora一致,Vidu能够根据提供的文本描述直(zhí)接(jiē)生成长达16秒的高质量视频。除了在时长方面的突破外,Vidu在视频效果方面实现(xiàn)显著提升,主要体现在几个方面:第一、模拟真实物理世(shì)界:能(néng)够生成细节复杂的场景,且(qiě)符合真实的物理规律,例如合理的光影效果、细腻的人物表(biǎo)情等;第二(èr)、具有丰富(fù)想象力:能够(gòu)生成真实世界(jiè)不(bù)存在(zài)的(de)虚构画(huà)面,创造出具有深(shēn)度和复杂性的超现实主义(yì)内(nèi)容;第三 、多镜头语言:能够生成复杂的(de)动态(tài)镜(jìng)头,不再局(jú)限于简单的(de)推、拉、移等固定(dìng)镜头,而是能够围绕统一主体在一段画面里就实绝味食品:2023年净利同比增46.63% 拟10派5元现远景、近景、中(zhōng)景、特写等不同镜(jìng)头的切换,包括能直接生成长镜头、追焦、转场等效果,给(gěi)视频(pín)注入镜头(tóu)语言;第四、时空(kōng)一致性高:在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时(shí)间、空间中能够(gòu)保持一致;第五、理解中国元素:能够生成(chéng)特有的中国元素,例如(rú)熊(xióng)猫、龙等。<绝味食品:2023年净利同比增46.63% 拟10派5元/p>

值得一提的是,短(duǎn)片 中的(de)片段都是从头到尾(wěi)连续生(shēng)成,没有明显的插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采(cǎi)用的是“一步到位”的生成方式,与Sora一样,文本到视(shì)频的转换是直接且连续的,在(zài)底层算(suàn)法实现上 是(shì)基(jī)于单一模型完(wán)全(quán)端到端生成,不涉及中间的插帧和其(qí)他多(duō)步骤的处 理。 

Vidu的快速突破源自于团(tuán)队(duì)在贝叶斯机器学习和多模态大(dà)模型的长(zhǎng)期积累和多项原创性成果(guǒ)。其(qí)核心技术U-ViT架构由(yóu)团队于2022年9月提出,早于Sora采用的DiT架构,是全(quán)球(qiú)首个Diffusion与Transformer融合(hé)的架构,完全由团队(duì)自主研发。

2023年3月,团(tuán)队开绝味食品:2023年净利同比增46.63% 拟10派5元源全球首个基(jī)于U-ViT架(jià)构的多模态扩散大模型UniDiffuser,在全球范围内率先完成融合架构的大规模可(kě)扩(kuò)展性(xìng)(Scaling Law)验证 。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量(liàng)模型,支(zhī)持图(tú)文模态间的任意生成和转换。在架构上,UniDiffuser比同样DiT架(jià)构的Stable Diffusion 3领先了一年。

自(zì)今年2月Sora发布推出后,团队基于对U-ViT架构的(de)深入理(lǐ)解以及长(zhǎng)期积累的工程与数据经验,在短(duǎn)短两个月进(jìn)一步(bù)突破(pò)长视频表(biǎo)示与处理关键技术,研发推(tuī)出Vidu视频大模型,显著提升视频的连贯(guàn)性与动态性。

从图文任务的(de)统一到融合视频能力(lì),作为通用视觉模型,Vidu能够支持生成更加多样化、更长(zhǎng)时长的视频内容,同时面向未(wèi)来,灵活(huó)架(jià)构(gòu)也将能够兼容(róng)更广泛的模态,进一步拓展多模态通用能力的边界。

Vidu的问(wèn)世,不仅(jǐn)是U-ViT融合架构在大规模(mó)视觉任务(wù)中的又(yòu)一次成功验证,也代表了生数科技在多模态(tài)原生大模型领域(yù)的持续创(chuàng)新能(néng)力和领先(xiān)性。同时(shí)生数科技表示,大(dà)模型的突(tū)破(pò)是 一个多维度、跨领域的综合性过程,需要技术(shù)与产业应用的深度融合。生数科技正式推出(chū)“Vidu大模型(xíng)合作伙伴计划”,希望(wàng)产业(yè)链上下游企业、研究机构能一起加(jiā)入,共同构建合作生态。

校(xiào)对:廖胜超

未经允许不得转载:太仓网站建设,太仓网络公司,太仓网站制作,太仓网页设计,网站推广-昆山云度信息科技有限公司 绝味食品:2023年净利同比增46.63% 拟10派5元

评论

5+2=