본문 바로가기

분류 전체보기

(31)
arXiv 올리기 기존 출판되었던 논문을 arXiv에 올리려다 보니, 몇가지 시행착오가 있어 기록으로 남긴다.그냥 pdf를 다운받아서 올리면 되는 줄 알았는데, Latex으로 제출해야 한다. 나는 Overleaf에서 논문을 작성했었는데, 이를 기준으로 순서를 정리하자면, 0. 먼저 오버리프 로그를 보면서 에러나 워닝은 최대한 처리해준다. 워닝의 경우 arxiv에서 그냥 넘어갈 수도 있으나,,,, arxiv 컴파일이 워낙 예민해서 오버리프에서 최대한 없애고 가는게 좋은 것 같다. 1. Overleaf 우측 상단에 보면 "Submit" 메뉴가 있다. 이걸 누른 뒤에 arXiv를 선택해준다. 그 다음에 뜨는 메뉴에서 아래 arXiv를 선택한다.2. 위 버튼을 누르면 arXiv에 제출할 수 있는 형태로 zip 파일을 생성해준다...
[논문읽기] ScanQA: 3D Question Answering for Spatial Scene Understanding (CVPR 2022) 3D Scene 정보를 바탕으로 사용자가 자연어로 질문을 하면 답변을 하는 동시에 해당되는 물체를 찾아주는 ScanQA 모델을 개발하였다. 이 모델의 개발을 위해서 ScanNet 데이터와 QA pair가 결합된 ScanQA데이터셋도 새로 생성하고 공개하였다.  ScanQA Dataset기존에 존재하던 3D-QA 데이터셋들이 템플릿으로 질문/대답이 이루어지는 반면에 ScanQA에서는 자연어 질의응답으로 데이터가 구성된다. (템플릿방식: (MT-EQA )“Does share same color as in ?”과 같이 정해진 형태에 단어만 갈아끼우는 방식) ScanRefer에서는 하나의 타겟 오브젝트에 대한 QA만 가능했지만 ScanQA에서는 여러 물체에 대한 질문도 가능하다. 데이터셋 생성 방식ScanR..
연구용 노트북 고민 루나레이크 vs 맥북 요즘 기존에 쓰던 젠북이 부쩍 느려져서.. 새로운 노트북을 알아보고 있다. 그동안 쓰던 젠북은 2021년에 구입한 이놈인데...ASUS 젠북 UX435EG-A5109T (SSD 1TB) : 다나와 가격비교 [다나와] ASUS 젠북 UX435EG-A5109T (SSD 1TB)최저가 0원prod.danawa.com 외장 GPU가 조그만 거라도 달려 있으면 딥러닝 모델도 돌려보고 이리저리 유용하지 않을까 했는데,, 사실 거의 쓸일이 없다. 게임같은 거 하면 그래픽이 더 좋아지려나. 근데 게임도 안하니 소용 없고, 배터리만 많이 먹어서 휴대성만 안좋아지는 것 같다. 작업시간은 체감상 5시간정도?? 줌미팅 같은 거 하면 2시간 정도를 못버틴다ㅠㅠ 사실 다른 거는 대강 감수하며 쓰겠는데 배터리 오래 못가는 거는 가..
[논문읽기] Perceiver: General Perception with Iterative Attention 2021년 ICML에서 DeepMind가 발표하였던 Perceiver 논문을 읽어보았다. Multimodal 데이터를 효과적으로 처리할 수 있다는 점에 관심이 생겨 읽어보게 되었다. 입력값이 어떤 형태로 들어오든 같은 구조로 처리할 수 있다는 부분이 골자이다.주된 아이디어는 어떤 Input이 들어오든 이를 Cross Attention을 통해 latent space로 잘 맵핑하겠다는 것이다. 이때 latent space의 표현력이 부족할 수도 있기 때문에 Attention을 여러번 반복함으로써 이를 상쇄한다. 모델 구조주요 특징은 아래와 같다.일반적인 Transformer 모델은 Self-attention을 많이 사용하는데, 이 연구에서는 Latent space를 가정하고 Latent array와 Inpu..
[논문읽기] 3D-LLM: Injecting the 3D world into Large Language Models MIT IBM Watson 랩 및 Umass Amherst 등 여러 대학 출신들로 구성된 연구팀에서 진행중인 연구로 2024년 NeurIPS에 Spotlight로 발표되었다. ( 이름에서 바로 알 수 있듯이 3D 데이터와 LLM을 연결시켜 여러 가지 작업들을 할 수 있도록 하는 연구이다. 요즘 Vision Language Model (VLM)들이 많이 나오고 있는데, 이의 3D 버전이라고 생각하면 편할 듯 하다. 현재 Arxiv에 올라와 있는 논문은 NuerIPS에 제출되기 전 버전인 듯 하다. 아래 링크에서 보는 게 정확할듯...NeurIPS Poster 3D-LLM: Injecting the 3D World into Large Language Models  아래는 이 모델을 트레이닝하기 위해 직접 생..
논문읽기: Visual Instruction Tuning (LLAVA) VLM (Vision Language Model)중 유명한 LLAVA를 발표한 논문이다. 지난 CVPR에서 저자로 참여하신 이용재 교수님이 톡을 하셨는데 뜨거운 인기를 확인할 수 있었다. 이 논문 이후로도 여러 후속 연구들이 나온 것으로 아는데, 그 시작점인 LLAVA를 한번 읽고 정리해본다. GPT-assisted visual instruction data generationCOCO 데이터셋에서는 Caption과 Bounding Box가 함께 제공된다. Text-Image pair가 같이 제공된다는 점에서 긍정적이기는 하나, 대화의 형태는 아니므로, 인간의 질문에 대답하는 등의 Task를 수행하기는 쉽지 않다. 따라서 저자들은 GPT-4를 활용하여 Caption을 대화형태로 바꾸었다. 구체적으로는 GP..
NVCC 관련 에러 새로 구성된 GPU 클러스터에서 Tensorflow 코드를 돌리려고 하니 아래와 같은 에러 발생:2024-11-22 01:08:36.644679: W tensorflow/compiler/xla/stream_executor/gpu/asm_compiler.cc:109] Couldn't get ptxas version : FAILED_PRECONDITION: Couldn't get ptxas/nvlink version string: INTERNAL: Couldn't invoke ptxas --version2024-11-22 01:08:36.645637: I tensorflow/tsl/platform/default/subprocess.cc:304] Start cannot spawn child process: N..
논문읽기: GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence (CVPR 2024) 6D Pose estimation 중 초기 자세 추정 (Coarse pose estimation)에 관한 논문으로 빠른 inference speed와  Detection/Segmentation 에러에 강건하다는 점을 장점으로 소개하고 있다.아래는 대표 그림인데, 빠른 Inference 속도와 Occlusion이 있는 상황에서도 정확한 추정이 가능한 점이 눈에 띈다.   MethodsGenerating templates처음에 생성되는 템플릿의 갯수를 줄이기 위하여, 6DoF Object pose는 out-of-plane rotation, in-plane rotation, 3D translation으로 나누어서 접근하였다. 템플릿은 out-of-plane rotation을 정확하게 추정하는데 초점을 맞추어 ..
논문읽기: FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects (CVPR 2024) 이 논문은 6D Pose estimation에 관한 논문으로 BOP Challenge - Model-based unseen tasks on unseen objects(6D Localization)에서 1위에 올라가 있다. (24년 8월 9일 기준) BOP: Benchmark for 6D Object Pose Estimation (cvut.cz) BOP: Benchmark for 6D Object Pose EstimationModel-based 6D localization of unseen objects – BOP-Classic-Core This leaderbord shows the overall ranking for Model-based 6D localization of unseen objects on ..
논문읽기: Open-Vocabulary 3D Semantic Segmentation with Foundation Models (CVPR 2024) 이번에 CVPR 학회에 다녀왔는데 그 중 흥미로워보이는 논문 몇 개를 골라 찬찬히 읽어보았다. 본 논문에서는 다양한 VLM(Vison-Language Model), VFM(Vision Foundaion Model)을 적극적으로 이용하여 3D semantic segmentation을 weak supervised 형식으로 학습하는 방법론을 제시하였다. 3D-Text multimodal을 제공하는 VLM은 없기 때문에 2D VLM을 징검다리 삼아 학습 파이프라인을 구성한 점이 특징이다. 논문링크:Jiang_Open-Vocabulary_3D_Semantic_Segmentation_with_Foundation_Models_CVPR_2024_paper.pdf (thecvf.com)   방법론1. Mapping Im..