컴퓨터 비전 (Computer Vision)

목차

  1. 이미지 분류
  2. 이미지 세그멘테이션
  3. 객체 감지
  4. 3D
  5. OCR
  6. 이미지 강화
  7. 데이터 보강
  8. 이미지 & 텍스트
  9. 비전 모델 해석 가능성
  10. 이미지 유사도 검색
  11. 비디오
  12. 성능 레시피
  13. 기타

이미지 분류

V3

처음부터 이미지 분류 (Image classification from scratch)

.

V3

간단한 MNIST convnet (Simple MNIST convnet)

.

V3

EfficientNet으로 하는 미세 조정을 통한 이미지 분류 (Image classification via fine-tuning with EfficientNet)

.

V3

비전 트랜스포머로 이미지 분류 (Image classification with Vision Transformer)

.

V3

어텐션 기반 심층 다중 인스턴스 학습(MIL)을 사용한 분류 (Classification using Attention-based Deep Multiple Instance Learning)

.

V3

최신 MLP 모델을 사용한 이미지 분류 (Image classification with modern MLP models)

.

V3

이미지 분류를 위한 모바일 친화적인 트랜스포머 기반 모델 (A mobile-friendly Transformer-based model for image classification)

.

V3

TPU에서 폐렴 분류 (Pneumonia Classification on TPU)

.

V3

컴팩트 컨볼루션 트랜스포머 (Compact Convolutional Transformers)

.

V3

ConvMixer로 이미지 분류 (Image classification with ConvMixer)

.

V3

EANet(External Attention Transformer)을 사용한 이미지 분류 (Image classification with EANet (External Attention Transformer))

.

V3

인볼루션 신경망 (Involutional neural networks)

.

V3

Perceiver로 이미지 분류 (Image classification with Perceiver)

.

V3

Reptile을 사용한 퓨샷 학습 (Few-Shot learning with Reptile)

.

V3

SimCLR을 사용한 대조 사전 트레이닝을 사용한 반지도 이미지 분류 (Semi-supervised image classification using contrastive pretraining with SimCLR)

.

V3

Swin 트랜스포머를 사용한 이미지 분류 (Image classification with Swin Transformers)

.

V2

소규모 데이터 세트에 대해 비전 트랜스포머 트레이닝 (Train a Vision Transformer on small datasets)

.

V2

어텐션이 없는 비전 트랜스포머 (A Vision Transformer without Attention)

.

V3

글로벌 컨텍스트 비전 트랜스포머를 이용한 이미지 분류 (Image Classification using Global Context Vision Transformer)

.

V3

BigTransfer(BiT)를 사용한 이미지 분류 (Image Classification using BigTransfer (BiT))

.

이미지 세그멘테이션

V3

U-Net과 유사한 아키텍처를 사용한 이미지 세그멘테이션 (Image segmentation with a U-Net-like architecture)

.

V3

DeepLabV3+를 사용한 다중 클래스 시맨틱 세그멘테이션 (Multiclass semantic segmentation using DeepLabV3+)

.

V2

BASNet을 사용한 매우 정확한 경계 세그멘테이션 (Highly accurate boundaries segmentation using BASNet)

.

V3

Composable 완전 컨볼루션 네트워크를 사용한 이미지 세그멘테이션 (Image Segmentation using Composable Fully-Convolutional Networks)

.

객체 감지

V2

RetinaNet을 이용한 객체 감지 (Object Detection with RetinaNet)

.

V3

전이 학습을 통한 키포인트 감지 (Keypoint Detection with Transfer Learning)

.

V3

비전 트랜스포머를 사용한 객체 감지 (Object detection with Vision Transformers)

.

3D

V3

CT 스캔의 3D 이미지 분류 (3D image classification from CT scans)

.

V2

단안 깊이 추정 (Monocular depth estimation)

.

V3

NeRF를 사용한 3D 체적 렌더링 (3D volumetric rendering with NeRF)

.

V3

PointNet을 사용한 포인트 클라우드 세그멘테이션 (Point cloud segmentation with PointNet)

.

V3

PointNet을 사용한 포인트 클라우드 분류 (Point cloud classification)

.

OCR

V3

캡챠 읽기를 위한 OCR 모델 (OCR model for reading Captchas)

.

V2

손글씨 인식 (Handwriting recognition)

.

이미지 강화

V3

이미지 노이즈 제거를 위한 컨볼루셔널 오토인코더 (Convolutional autoencoder for image denoising)

.

V3

MIRNet을 사용한 저조도 이미지 향상 (Low-light image enhancement using MIRNet)

.

V3

Efficient Sub-Pixel CNN을 사용한 이미지 초해상도 (Image Super-Resolution using an Efficient Sub-Pixel CNN)

.

V2

단일 이미지 초해상도를 위한 향상된 깊은 Residual 네트워크 (Enhanced Deep Residual Networks for single-image super-resolution)

.

V3

저조도 이미지 향상을 위한 Zero-DCE (Zero-DCE for low-light image enhancement)

.

데이터 보강

V3

이미지 분류를 위한 CutMix 데이터 보강 (CutMix data augmentation for image classification)

.

V3

이미지 분류를 위한 MixUp 보강 (MixUp augmentation for image classification)

.

V3

견고성 향상을 위한 이미지 분류를 위한 RandAugment (RandAugment for Image Classification for Improved Robustness)

.

이미지 & 텍스트

V3

이미지 캡션 (Image captioning)

.

V2

듀얼 인코더를 이용한 자연어 이미지 검색 (Natural language image search with a Dual Encoder)

.

비전 모델 해석 가능성

V3

Convnets이 학습한 내용 시각화 (Visualizing what convnets learn)

.

V3

통합 그래디언트를 통한 모델 해석 가능성 (Model interpretability with Integrated Gradients)

.

V3

비전 트랜스포머 표현 조사 (Investigating Vision Transformer representations)

.

V3

Grad-CAM 클래스 활성화 시각화 (Grad-CAM class activation visualization)

.

V2

중복에 가까운 이미지 검색 (Near-duplicate image search)

.

V3

시맨틱 이미지 클러스터링 (Semantic Image Clustering)

.

V3

대비 손실이 있는 Siamese 네트워크를 사용한 이미지 유사도 추정 (Image similarity estimation using a Siamese Network with a contrastive loss)

.

V3

삼중(triplet) 손실이 있는 Siamese 네트워크를 사용한 이미지 유사도 추정 (Image similarity estimation using a Siamese Network with a triplet loss)

.

V3

이미지 유사도 검색을 위한 메트릭 학습 (Metric learning for image similarity search)

.

V2

TensorFlow Similarity를 사용한 이미지 유사도 검색을 위한 메트릭 학습 (Metric learning for image similarity search using TensorFlow Similarity)

.

V3

NNCLR을 사용한 자기 지도 대조 학습 (Self-supervised contrastive learning with NNCLR)

.

비디오

V3

CNN-RNN 아키텍처를 사용한 비디오 분류 (Video Classification with a CNN-RNN Architecture)

.

V3

컨볼루션 LSTM을 사용한 다음 프레임 비디오 예측 (Next-Frame Video Prediction with Convolutional LSTMs)

.

V3

트랜스포머를 사용한 비디오 분류 (Video Classification with Transformers)

.

V3

비디오 비전 트랜스포머 (Video Vision Transformer)

.

성능 레시피

V3

트레이닝 성능 향상을 위한 그래디언트 중앙화 (Gradient Centralization for Better Training Performance)

.

V3

비전 트랜스포머에서 토큰화 학습하기 (Learning to tokenize in Vision Transformers)

.

V3

지식 증류 (Knowledge Distillation)

.

V3

FixRes: 트레이닝-테스트 해상도 불일치 수정 (FixRes: Fixing train-test resolution discrepancy)

.

V3

LayerScale을 사용한 클래스 어텐션 이미지 트랜스포머 (Class Attention Image Transformers with LayerScale)

.

V3

통합 어텐션으로 컨볼루션 네트워크 강화 (Augmenting convnets with aggregated attention)

.

V3

컴퓨터 비전에서 리사이즈 학습 (Learning to Resize)

.

기타

V2

AdaMatch를 통한 반지도 및 도메인 적응 (Semi-supervision and domain adaptation with AdaMatch)

.

V2

Contrastive SSL을 위한 Barlow Twins (Barlow Twins for Contrastive SSL)

.

V2

지도를 통한 일관성 트레이닝 (Consistency training with supervision)

.

V2

증류식 비전 트랜스포머 (Distilling Vision Transformers)

.

V2

초점 변조(Focal Modulation): 셀프 어텐션을 대체하는 (Focal Modulation: A replacement for Self-Attention)

.

V2

이미지 분류를 위한 Forward-Forward 알고리즘 사용 (Using the Forward-Forward Algorithm for Image Classification)

.

V2

자동 인코더를 사용한 마스크 이미지 모델링 (Masked image modeling with Autoencoders)

.

V2

🤗 트랜스포머로 무엇이든 모델 세그먼트 (Segment Anything Model with 🤗Transformers)

.

V2

SegFormer와 Hugging Face 트랜스포머를 사용한 시맨틱 세그멘테이션 (Semantic segmentation with SegFormer and Hugging Face Transformers)

.

V2

SimSiam을 이용한 자기 지도 대조 학습 (Self-supervised contrastive learning with SimSiam)

.

V2

지도 대조 학습 (Supervised Contrastive Learning)

.

V2

Recurrence와 트랜스포머의 만남 (When Recurrence meets Transformers)

.

V2

YOLOV8 및 KerasCV를 통한 효율적인 객체 감지 (Efficient Object Detection with YOLOV8 and KerasCV)

.


Table of contents