[Unist 복원 프로젝트] Part 1. 어떻게 진행할까?
[Unist 복원 프로젝트] Part 1. 어떻게 진행할까?
인턴 프로젝트
- 4월 14일부터 3d vision & robotics lab에서 인턴을 하게 되었다. 교수님께서 나에게 제안하신 프로젝트는 펀프로젝트로써 유니스트 전체를 3d reconstruction하여 3dgs로 train 해보는 것이였다.
- 교수님께서 말씀하신 바로는 multi agent (드론, 사족보행, 모바일 로봇)등을 통해 데이터를 얻고 (카메라 포즈 및 이미지) 이를 Large scale에서 3dgs를 통해 quality있게 복원하는 것이다.
- 유니스트 학교 자체를 복원한다면 학교차원에서 홍보하기에 되게 좋을것이고 연구쪽으로 진행하려면 3dgs를 학습하는 부분에서 문제점을 해결해야 할 것이라고 하였다.
- 예상되는 challenge로는 학교를 돌아다니는 동적인 물체, 유리건물의 정밀한 복원, 시간의 흐름에 따른 구름, 햇빛등의 변화 등이 있을 것 같다.
online reconstruction
- 내가 관심있는 분야는 3d prior를 활용한 slam 분야이다. 3d foundation model의 지각능력을 통해 로봇이 주변상황을 인식할 수 있도록 한다. 대표적으로 vggt slam, mast3r slam등이 있다. 그 중에 최근에 눈여겨 본 논문이 있다.
- loger이라는 프로젝트인데 청크단위로 나누어 reconstrction하고 이를 전체적으로 이어주는 TTT(test-time-training) 방식을 통해 기존 sota 대비 70%의 성능향상을 이루어냈다. https://loger-project.github.io/
- LoGeR를 활용하여 학교를 복원할때의 다양한 챌린지를 찾을 수 있을 것 같다. 그냥 naive하게 적용해보았을때에는 loop closure과 같은 최적화 기법이 들어가지 않으면 시간이 지남에 따라 카메라의 pose가 미터 단위로 drift가 일어나게 된다. 이러한 영향에 동적 물체의 영향도 있지 않을까? TTT에서 이러한 동적 물체를 선별해내는 기능까지 추가할수 있다면 성능향상이 있을 수 있다고 생각한다.
Reference
오늘은 reference가 될만한 논문을 찾고 그에 앞으로의 적용 방향을 탐색해 볼 것이다.
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
- SWA와 TTT를 합친 하이브리드 메모리 구조로 청크 경계의 일관성을 유지할 수 있었다.
- Learning to (Learn at Test Time): RNNs with Expressive Hidden States
- hidden state를 그냥 벡터가 아니라 테스트 시점에 업데이트되는 학습 가능한 상태로 본다.
- Test-Time Training Done Right
- TTT를 더 큰 chunk 단위로 효율적으로 돌리는 Large Chunk Test-Time Training 쪽을 다룬다.
- WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments
- 동적 환경에서 uncertainty map을 이용해 tracking과 mapping 둘 다 안정화하는 구조를 보여준다.
- DeSiRe-GS
- 동적 장면에서 appearance difference / motion prior를 이용해 static-dynamic decomposition을 한다.
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.