Multimodal (1) 썸네일형 리스트형 [논문읽기] Perceiver: General Perception with Iterative Attention 2021년 ICML에서 DeepMind가 발표하였던 Perceiver 논문을 읽어보았다. Multimodal 데이터를 효과적으로 처리할 수 있다는 점에 관심이 생겨 읽어보게 되었다. 입력값이 어떤 형태로 들어오든 같은 구조로 처리할 수 있다는 부분이 골자이다.주된 아이디어는 어떤 Input이 들어오든 이를 Cross Attention을 통해 latent space로 잘 맵핑하겠다는 것이다. 이때 latent space의 표현력이 부족할 수도 있기 때문에 Attention을 여러번 반복함으로써 이를 상쇄한다. 모델 구조주요 특징은 아래와 같다.일반적인 Transformer 모델은 Self-attention을 많이 사용하는데, 이 연구에서는 Latent space를 가정하고 Latent array와 Inpu.. 이전 1 다음