본문 바로가기
컴퓨터과학

[논문읽기] Real-Time Intermediate Flow Estimation for Video Frame Interpolation

by 홈카페주인 2023. 5. 16.

개요 및 연구동기

Video Frame Interpolation (VFI) 달성하기 위한 Intermediate Flow Estimation 알고리즘인 RIFE 를 제안한다. 

중간 Flow를 빠른 속도롤 추정할 수 있는 IFNet 이라는 신경망을 사용한다.

RIFE 는 사전훈련된 Flow Model 에 의존하지 않으며, temporal encoding input 으로 임의의 시간 단계 프레임 보간을 지원할 수 있다. SuperSlomo, DAIN 방법과 비교하여 빠르고 더 나은 결과를 생성한다는 것을 보여준다.

 

VFI 가 까다로운 이유는 2가지이다.

1. 복잡한 비선형 모션

2. 실제 비디오의 조명 변화 (매칭되는 픽셀을 찾아내기 힘듦)

 

최근의 Flow 기반 알고리즘은 이러한 문제를 해결하기 위한 프레임워크를 제안했다. 그들은

1. 대략적인 광학흐름에 따라 입력프레임을 워핑

2. CNN 을 사용하여 워핑된 프레임을 융합

하는 두 단계를 포함했다.

 

많은 연구가 양방향 흐름을 계산한 다음 이들을 정제한다. 하지만 이러한 흐름은 동작 경계에 결함(artifact)이 있을 수 있다. 뷰 합성의 선구적인 작업인 Appearance Flow 는 CNN을 사용하여 Target View에서 시작하는 흐름을 추정할 것을 제안했다.  

 

DVF[30] 는 이를 동적 장면의 voxel flow로 확장하여 중간 흐름과 blend mask를 같이 모델링하여 추정한다.

AdaCoF[27] 은 intermediate flows를 adaptive collaborative flows 로 확장했다.

BMBC [44] 는 양방향 동작에 대한 중간 흐름을 얻기 위해 bilateral cost volume operator 를 설계했다. 

 

 

 

본 연구의 기여

우리의 파이프라인에는 다음과 같은 주요 설계 개념이 있다.

1. 추가 구성요소 없이 end-to-end 로 예측할 수 있게 했으며(IFNet 설계) 사전훈련된 SOTA optical flow 모델에 대한 의존도를 없애고자 한다.

2. End-to-end 로 CNN이 중간흐름을 학습하도록 하는 것이 낫다는 것을 보여준다. 워핑 연산자에 걸쳐 픽셀 단위의 손실을 전파하는 것은 흐름 추정에 효율적이지 않다.

3. 임의 시간 프레임 보간에서 SOTA 성능 달성

4. 유연한 시간 인코딩 덕분에 RIFE 가 depth map interpolation and dynamic scene stitching 과 같은 응용프로그램으로 확장될 수 있음을 보여준다.

 

 

 

방법론

 

 

 

$W$ : backward warping function

$\odot$ : element-wise multiplier

$M$ : fusion map $(0 <= M <=1)$

 

 

이전의 일부 방법[22, 61, 3, 28]은 그림 3과 같이 양방향 흐름을 reverse 및 refine 한다. IFNet의 역할은 시간단계 t 가 주어지면 $F_{t \rightarrow 0}$ , $F_{t \rightarrow 1}$ 및 퓨전 마스크 $M$ 을 직접적이고 효율적으로 예측한다. t=0, 1인 경우 기존의 연구와 비슷해진다.

intermediate flow estimation 에서 발생하는 큰 움직임을 처리하기 위해 그림 4 처럼 점진적으로 해상도를 증가시키는 전략을 사용했다. 

추론시간동안 최종 추정은 

 

 

 

 

결론

실험을 통해 RIFE 가 효과적임을 확인했다. 

또한 RIFE는 가볍기 때문에 다운스트림 작업에 훨씬 더 쉽게 접근할 수 있다.

 

 

참고자료

https://arxiv.org/abs/2011.06294

 

Real-Time Intermediate Flow Estimation for Video Frame Interpolation

Real-time video frame interpolation (VFI) is very useful in video processing, media players, and display devices. We propose RIFE, a Real-time Intermediate Flow Estimation algorithm for VFI. To realize a high-quality flow-based VFI method, RIFE uses a neur

arxiv.org

 

https://github.com/megvii-research/ECCV2022-RIFE

 

GitHub - megvii-research/ECCV2022-RIFE: ECCV2022 - Real-Time Intermediate Flow Estimation for Video Frame Interpolation

ECCV2022 - Real-Time Intermediate Flow Estimation for Video Frame Interpolation - GitHub - megvii-research/ECCV2022-RIFE: ECCV2022 - Real-Time Intermediate Flow Estimation for Video Frame Interpola...

github.com

 

 

728x90

댓글