
https://arxiv.org/abs/2411.19527
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
Human motion is inherently continuous and dynamic, posing significant challenges for generative models. While discrete generation methods are widely used, they suffer from limited expressiveness and frame-wise noise artifacts. In contrast, continuous appro
arxiv.org
https://github.com/whwjdqls/DisCoRD
GitHub - whwjdqls/DisCoRD: Official code release of "DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding"
Official code release of "DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding" [ICCV2025 Highlight] - whwjdqls/DisCoRD
github.com
연구실에서 스터디를 참여하게 되었습니다. 이번주 스터디에서 리뷰하기로 한 논문에 대해서 제가 이해한 바를 작성해보겠습니다. 배경지식이 부족해 틀린점이 있을 수 있습니다. 알려주시면 최대한 빠르게 수정하겠습니다
모션 생성 분야에선 Naturalness와 Faithfulness 사이의 상충관계가 있다고 합니다. Continous Method(예: diffusion model) 들은 Motion의 Naturalness를 살릴 수 있지만 Text의 Faithfulness를 잘 따르지 못했고, Discrete Method(예: VQ-VAE) 들은 Vector-Quantized 되었기 때문에 Faithfulness는 높지만, Quantization 단계에서 정보가 소실되어 동작이 뭉개지거나 프레임이 끊기는 현상이 발생했습니다. 이 논문은 이 두 방식의 장점을 결합한 새로운 방법론을 제시했습니다.
핵심 아이디어는 다음과 같습니다. Discrete Method는 Motion을 vector quantized 된 latent space로 압축하는 과정을 통해 동작의 명확도가 높아지지만 같이 학습된 Decoder로 생성되는 모션은 quantization으로 인해 Naturalness가 작으니 이 Decoder를 제거하고 latent space로 압축된 모션 토큰을 입력으로 사용하는 Continous Method를 제안해 모션 토큰이 지니는 명확성을 챙기면서 Continuous Method의 부드러움까지 살리는 것입니다. 여기에 추가적으로 Continouse Method를 구현하는 과정에서 Rectified Flow를 도입해 속도까지 덤으로 챙겼습니다

학습과 생성은 다음과 같은 단계로 이루어집니다.
우선 미리 훈련된 Quantizer를 통해서 모션들에 대한 Codebook을 생성하고, 이 모션과 Codebook을 GT로 사용하여 DisCoRD를 훈련시킵니다. 이후 미리 텍스트, 음악, 음성 등이 해당 Codebook을 생성할 수 있도록 사전 훈련된 Token Generator를 사용해 모션 토큰을 생성시키면 DisCoRD가 이 토큰을 입력으로 받아 모션을 생성합니다.
이 논문은 SOTA 모델들의 디코더를 DisCoRD로 교체하고 나니 Faithfulness(R-Precision) 등을 유지하면서 Naturalness(FID)는 향상시킴을 보여주었고, FID만으로는 평가하기 힘든 부분을 sJPE라는 새로운 평가 지표를 제안하며 이 지표에서 또한 DisCoRD가 다른 모델들에 비해 좋은 성능을 보여준다고 주장합니다.
생성 모델에 대해서 많은 지식이 없던 상황에서 VQ-VAE, Diffusion Model, Rectified Flow 등에 대해서 아직 잘 알진 못하지만 얕게나마 공부할 수 있게 되어서 좋은 기회였던 것 같습니다
'연구' 카테고리의 다른 글
| [논문리뷰] SMEAR: Stylized Motion Exaggeration with ARt-direction (0) | 2025.11.26 |
|---|---|
| [논문리뷰] Text-to-Any-Skeleton Motion Generation Without Retargeting (0) | 2025.11.25 |
| Gradient, Jacobian, Hessian, Laplacian의 정의와 기하학적 의미, 예시 (0) | 2025.11.17 |
| [논문리뷰] Mean Value Coordinates for Closed Triangular Meshes (0) | 2025.10.23 |