據新浪科技2024年4月28日消息,在中關村論壇未來人工智能先鋒論壇上,生數科技聯合清華大學發(fā)布了視頻大模型Vidu。該模型采用團隊原創(chuàng)的 Diffusion 與 Transformer 融合的架構 U-ViT,支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容。
Vidu 不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。它是自 Sora 發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,并在加速迭代提升中。
與 Sora 一致,Vidu 能夠根據提供的文本描述直接生成長達16秒的高質量視頻。短片中的片段都是從頭到尾連續(xù)生成,沒有明顯的插幀現象,推測 Vidu 采用的是“一步到位”的生成方式,與 Sora 一樣,文本到視頻的轉換是直接且連續(xù)的,在底層算法實現上是基于單一模型完全端到端生成,不涉及中間的插幀和其他多步驟的處理。 |