2023. 10. 6. 16:14ㆍIT
동기:
이 논문은 다양한 작업에 대한 강력한 시각 모델을 훈련시키는 과제를 다룹니다.
전통적인 컴퓨터 비전 모델은 종종 작업 특정하며 대량의 레이블 데이터가 필요합니다.
CLIP은 인터넷에서 이용 가능한 방대한 양의 정돈되지 않은 텍스트를 활용하여 일반적인 시각 표현을 학습하려는 목적을 가지고 있습니다.
CLIP 모델:
CLIP은 이미지와 텍스트를 함께 이해하기 위해 설계된 신경망 아키텍처입니다.
이미지와 텍스트를 공유하는 공통의 임베딩 공간을 가질 수 있도록 처리할 수 있습니다.
이것은 의미적으로 관련된 이미지와 텍스트가 이 공유 공간에서 더 가깝게 투영되는 것을 의미합니다.
훈련:
CLIP은 인터넷에서 수집한 이미지와 텍스트 쌍으로 구성된 대규모 데이터 세트에서 사전 훈련됩니다.
모델은 주어진 이미지와 텍스트 쌍이 함께 속하는지 여부를 예측하도록 학습하며, 본질적으로 이미지와 그에 대한 텍스트 설명 사이의 관계를 이해합니다.
(I1, T1), (I2, T2) , (I3, T3) 이 positve pair가 되고, 이외는 유사도가 최소화하는 파라미터를 찾는 것
제로 샷 학습:
CLIP의 놀라운 특징 중 하나는 제로 샷 학습을 수행할 수 있는 능력입니다. (트레이닝 데이터 없이 사용)
이는 모델이 텍스트 설명을 이해함으로써 훈련 데이터에 없는 이미지에서 객체나 개념을 인식할 수 있음을 의미합니다.
예를 들어, 모델은 훈련 중에 레이블이 지정된 기린 이미지를 본 적이 없더라도 이미지에서 "기린"을 식별할 수 있습니다.
파인튜닝을 하지않고 바로 사용할 수 있음.
강아지를 이미지 인코더로 나온 값과 텍스트 인코더를 통해 나온값으로 코사인유사값을 구하고, 가장 큰 값이 나온 텍스트가 해당 이미지의 텍스트 라벨링으로 사용
Prompt engineering : 동음이의어, 데이터셋은 인터넷에 가져온 것으로 문장형태의 텍스트가 많으므로
A photo of a {object}처럼 사용
응용:
CLIP은 작업 특정한 미세 조정 없이 다양한 작업에 적용될 수 있습니다. 다양하고 데이터 효율적인 방식으로 이미지 분류, 물체 감지 및 이미지에 대한 텍스트 설명 생성과 같은 작업에 사용될 수 있습니다.
이 모델은 자연어 이해, 컴퓨터 비전 및 다중 모달 AI 작업에 적용됩니다.
데이터 효율성:
CLIP의 텍스트 설명을 활용하는 능력으로 인해 제한된 레이블 데이터를 사용한 작업에서도 효과적으로 작동할 수 있습니다.
전이성:
이 논문은 CLIP이 작업 특정한 적응 없이도 다양한 하위 작업으로 표현을 전이시킬 수 있는 능력을 증명합니다.
요약하면, 이 논문에서는 자연어 지도에서 강력한 시각 표현을 학습하는 모델인 CLIP을 소개합니다. CLIP은 인터넷에서 수집한 텍스트 데이터를 활용하여 이미지와 텍스트를 이해하고 공유 임베딩 공간을 만들어 다양한 비전 및 언어 작업에 대한 다목적 및 데이터 효율적인 모델로 사용됩니다.
출처: https://www.youtube.com/watch?v=HkkaKI6NN-8
'IT' 카테고리의 다른 글
React 시작하기 - 환경 설정 (0) | 2023.11.19 |
---|---|
React를 위한 VSCode Visual Studio Code 설치하기 (0) | 2023.11.19 |
Contrastive learning (대조 학습) (0) | 2023.10.06 |
flutter BuildContext (0) | 2023.07.16 |
flutter App bar icon button (0) | 2023.07.16 |