We are an AI Research Team at Zhejiang University

Projects

DICEPTION: A Generalist Diffusion Model for Vision Perception
Framer: Interactive frame interpolation
3D reconstruction using pre-trained depth models
Generating comics using generative models
Generating long videos using generative models
GenDeF: Learning generative deformation field for video generation
ACTIVE-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
FreerCustom: Training-Free Multi-Concept Customization for Image and Video Generation
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting
Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation
LivingSwap: Preserving Source Video Realism for High-Fidelity Face Swapping

© . • last update: 0:16 06/June/25 •