10月27日,美團官方宣布,美團LongCat團隊正式發布LongCat-Video視頻生成模型。該模型基于Diffusion Transformer架構,可支持文生視頻、圖生視頻及視頻續寫三類核心任務,并宣稱在開源模型中達到先進水平。

據介紹,LongCat-Video可生成720p分辨率、30幀率的高清視頻,其突出特點在于能夠原生生成長達5分鐘的連貫視頻內容。模型通過視頻續寫預訓練、塊稀疏注意力等機制,旨在解決長視頻生成中常見的畫面斷裂、質量下降等問題,保持時序一致性與運動合理性。
在效率方面,該模型采用二階段生成、塊稀疏注意力及模型蒸餾等技術,據官方表示推理速度提升超過10倍。模型參數量為136億,在VBench等公開測試中表現出較強的文本對齊與運動連貫性。
作為構建"世界模型"的技術嘗試,LongCat-Video未來或可應用于自動駕駛模擬、具身智能等需要長時序建模的場景。該模型的發布標志著美團在視頻生成與物理世界模擬領域邁出重要一步。