Tesla AI Day 02

2021년 8월 20일에 발표된 테슬라 자율주행 기술 세미나

오직 비전만으로 자율주행을 가능하게 한 테슬라의 기술을 소개한다.

<`Tesla AI Day 01`에서 제시한 초기 기술의 한계를 해결하기 위한 방법>

차량에 있는 카메라들은 살짝씩 서로 다르게 각도가 삐뚤어져 있음 → 이미지 공간 → output space로 변환시, 카메라 calibration 고려 o
모든 이미지의 카메라 calibration 정보 연결 → MLP로 보냄
- 이때, 모든 이미지를 특수한 수정 변환 과정을 거쳐서 합성된 가상 카메라로 변환하는 것이 효과적
- Rectify layer; 카메라 calibration 기능
  - 모든 이미지를 일반적인 virtual camera로 전환시킴
  - blur한 카메라 이미지를 → 또렷하게 나타낼 수 있음
결과

예전 비디오를 이용한 multi-scale feature를 계속해서 캐쉬화하는 feature cue 모듈을 nn에 집어넣음
비디오 모듈; 이 정보들 일시적으로 섞어서 사용
heads; 계속해서 디코딩
모듈
- kinematics: 차가 어떻게 움직이는지를 알려주는 속도, 가속도에 대한 것, 예전 카메라로부터 어떻게 주행했고, 현재 차량은 어떻게 주행하는지 알 수 있음
- feature que

kinematics(차량의 운동정보) & 위치정보 인코딩 & feature 등을 서로 연결시킴 → 인코딩 → feature que에 저장 → 비디오 모듈
pop & push
- feature que의 관점에서 que에게 push 보내고자 할때, 시간을 base로 하는 que 이용하려 함
  - 다른 차량이 일시적으로 환경을 가리면, nn은 과거 레퍼런스 메모리 자료에서 비슷한 경우를 찾아서 볼 수 있는 능력이 생김
  - “이건 지금 뭔가 가려진 것 같은데, 과거 특징들 찾아서 여전히 잘 인식할 수 있어!”
- 도로지형, 구조 미리 예측하고자 할때
  - “나는 좌회전 차로이고, 옆 차는 직진 차로이지” 미리 알아야 할 때가 있음.
  - 시간베이스 que만을 사용하게 된다면, 적색신호에서 기다리는 동안 features를 잊어버릴수도 있음 → 공간베이스 que도 사용
- features를 캐쉬하고, 계속해서 비디오 모듈에 보내주는 역할 하는 시공간베이스 que 사용
비디오 모듈 종류

hidden state of RNN
- nn이 메모리에서 선택적으로 읽고 쓸 수 있는 능력이 생김을 알 수 있음
- ex) 어떤 차가 내 옆을 가려서 잠시동안 도로의 일부가 보이지 않더라도, nn은 그 위치를 메모리에 저장하지 않는 능력이 생긴것 → 그 차가 떠나고 나면 잘 보이게 되니까!

개선사항
- nn관점에서, 시공간 fusion이 좀 느림 → bottom 쪽 network인 cost volume or optical flow 수행
- output: 조밀한 이미지 형태인 래스터 → 이걸 차량에서 처리하기에는 자원이 많이 소모됨
- latency 줄여야 함
- point by point 방식 연구; 도로 구조를 드문드문 인식하는 방안

Continue with BEV Former

해당 포스트는 아래를 참고하여 작성되었습니다.