전체 글 (31) 썸네일형 리스트형 [논문읽기] Perceiver: General Perception with Iterative Attention 2021년 ICML에서 DeepMind가 발표하였던 Perceiver 논문을 읽어보았다. Multimodal 데이터를 효과적으로 처리할 수 있다는 점에 관심이 생겨 읽어보게 되었다. 입력값이 어떤 형태로 들어오든 같은 구조로 처리할 수 있다는 부분이 골자이다.주된 아이디어는 어떤 Input이 들어오든 이를 Cross Attention을 통해 latent space로 잘 맵핑하겠다는 것이다. 이때 latent space의 표현력이 부족할 수도 있기 때문에 Attention을 여러번 반복함으로써 이를 상쇄한다. 모델 구조주요 특징은 아래와 같다.일반적인 Transformer 모델은 Self-attention을 많이 사용하는데, 이 연구에서는 Latent space를 가정하고 Latent array와 Inpu.. [논문읽기] 3D-LLM: Injecting the 3D world into Large Language Models MIT IBM Watson 랩 및 Umass Amherst 등 여러 대학 출신들로 구성된 연구팀에서 진행중인 연구로 2024년 NeurIPS에 Spotlight로 발표되었다. ( 이름에서 바로 알 수 있듯이 3D 데이터와 LLM을 연결시켜 여러 가지 작업들을 할 수 있도록 하는 연구이다. 요즘 Vision Language Model (VLM)들이 많이 나오고 있는데, 이의 3D 버전이라고 생각하면 편할 듯 하다. 현재 Arxiv에 올라와 있는 논문은 NuerIPS에 제출되기 전 버전인 듯 하다. 아래 링크에서 보는 게 정확할듯...NeurIPS Poster 3D-LLM: Injecting the 3D World into Large Language Models 아래는 이 모델을 트레이닝하기 위해 직접 생.. 논문읽기: Visual Instruction Tuning (LLAVA) VLM (Vision Language Model)중 유명한 LLAVA를 발표한 논문이다. 지난 CVPR에서 저자로 참여하신 이용재 교수님이 톡을 하셨는데 뜨거운 인기를 확인할 수 있었다. 이 논문 이후로도 여러 후속 연구들이 나온 것으로 아는데, 그 시작점인 LLAVA를 한번 읽고 정리해본다. GPT-assisted visual instruction data generationCOCO 데이터셋에서는 Caption과 Bounding Box가 함께 제공된다. Text-Image pair가 같이 제공된다는 점에서 긍정적이기는 하나, 대화의 형태는 아니므로, 인간의 질문에 대답하는 등의 Task를 수행하기는 쉽지 않다. 따라서 저자들은 GPT-4를 활용하여 Caption을 대화형태로 바꾸었다. 구체적으로는 GP.. 이전 1 2 3 4 5 ··· 11 다음