- 원본 링크 : https://keras.io/examples/vision/
- 최종 수정일 : 2024-04-01
컴퓨터 비전 (Computer Vision)
목차
이미지 분류
★
V3
처음부터 이미지 분류 (Image classification from scratch)
.
★
V3
간단한 MNIST convnet (Simple MNIST convnet)
.
★
V3
EfficientNet으로 하는 미세 조정을 통한 이미지 분류 (Image classification via fine-tuning with EfficientNet)
.
V3
비전 트랜스포머로 이미지 분류 (Image classification with Vision Transformer)
.
V3
.
V3
최신 MLP 모델을 사용한 이미지 분류 (Image classification with modern MLP models)
.
V3
이미지 분류를 위한 모바일 친화적인 트랜스포머 기반 모델 (A mobile-friendly Transformer-based model for image classification)
.
V3
TPU에서 폐렴 분류 (Pneumonia Classification on TPU)
.
V3
컴팩트 컨볼루션 트랜스포머 (Compact Convolutional Transformers)
.
V3
ConvMixer로 이미지 분류 (Image classification with ConvMixer)
.
V3
.
V3
인볼루션 신경망 (Involutional neural networks)
.
V3
Perceiver로 이미지 분류 (Image classification with Perceiver)
.
V3
Reptile을 사용한 퓨샷 학습 (Few-Shot learning with Reptile)
.
V3
.
V3
Swin 트랜스포머를 사용한 이미지 분류 (Image classification with Swin Transformers)
.
V2
소규모 데이터 세트에 대해 비전 트랜스포머 트레이닝 (Train a Vision Transformer on small datasets)
.
V2
어텐션이 없는 비전 트랜스포머 (A Vision Transformer without Attention)
.
V3
글로벌 컨텍스트 비전 트랜스포머를 이용한 이미지 분류 (Image Classification using Global Context Vision Transformer)
.
V3
BigTransfer(BiT)를 사용한 이미지 분류 (Image Classification using BigTransfer (BiT))
.
이미지 세그멘테이션
★
V3
U-Net과 유사한 아키텍처를 사용한 이미지 세그멘테이션 (Image segmentation with a U-Net-like architecture)
.
V3
DeepLabV3+를 사용한 다중 클래스 시맨틱 세그멘테이션 (Multiclass semantic segmentation using DeepLabV3+)
.
V2
BASNet을 사용한 매우 정확한 경계 세그멘테이션 (Highly accurate boundaries segmentation using BASNet)
.
V3
.
객체 감지
V2
RetinaNet을 이용한 객체 감지 (Object Detection with RetinaNet)
.
V3
전이 학습을 통한 키포인트 감지 (Keypoint Detection with Transfer Learning)
.
V3
비전 트랜스포머를 사용한 객체 감지 (Object detection with Vision Transformers)
.
3D
V3
CT 스캔의 3D 이미지 분류 (3D image classification from CT scans)
.
V2
단안 깊이 추정 (Monocular depth estimation)
.
★
V3
NeRF를 사용한 3D 체적 렌더링 (3D volumetric rendering with NeRF)
.
V3
PointNet을 사용한 포인트 클라우드 세그멘테이션 (Point cloud segmentation with PointNet)
.
V3
PointNet을 사용한 포인트 클라우드 분류 (Point cloud classification)
.
OCR
V3
캡챠 읽기를 위한 OCR 모델 (OCR model for reading Captchas)
.
V2
손글씨 인식 (Handwriting recognition)
.
이미지 강화
V3
이미지 노이즈 제거를 위한 컨볼루셔널 오토인코더 (Convolutional autoencoder for image denoising)
.
V3
MIRNet을 사용한 저조도 이미지 향상 (Low-light image enhancement using MIRNet)
.
V3
Efficient Sub-Pixel CNN을 사용한 이미지 초해상도 (Image Super-Resolution using an Efficient Sub-Pixel CNN)
.
V2
.
V3
저조도 이미지 향상을 위한 Zero-DCE (Zero-DCE for low-light image enhancement)
.
데이터 보강
V3
이미지 분류를 위한 CutMix 데이터 보강 (CutMix data augmentation for image classification)
.
V3
이미지 분류를 위한 MixUp 보강 (MixUp augmentation for image classification)
.
V3
견고성 향상을 위한 이미지 분류를 위한 RandAugment (RandAugment for Image Classification for Improved Robustness)
.
이미지 & 텍스트
★
V3
.
V2
듀얼 인코더를 이용한 자연어 이미지 검색 (Natural language image search with a Dual Encoder)
.
비전 모델 해석 가능성
V3
Convnets이 학습한 내용 시각화 (Visualizing what convnets learn)
.
V3
통합 그래디언트를 통한 모델 해석 가능성 (Model interpretability with Integrated Gradients)
.
V3
비전 트랜스포머 표현 조사 (Investigating Vision Transformer representations)
.
V3
Grad-CAM 클래스 활성화 시각화 (Grad-CAM class activation visualization)
.
이미지 유사도 검색
V2
중복에 가까운 이미지 검색 (Near-duplicate image search)
.
V3
시맨틱 이미지 클러스터링 (Semantic Image Clustering)
.
V3
.
V3
.
V3
이미지 유사도 검색을 위한 메트릭 학습 (Metric learning for image similarity search)
.
V2
.
V3
NNCLR을 사용한 자기 지도 대조 학습 (Self-supervised contrastive learning with NNCLR)
.
비디오
V3
CNN-RNN 아키텍처를 사용한 비디오 분류 (Video Classification with a CNN-RNN Architecture)
.
V3
컨볼루션 LSTM을 사용한 다음 프레임 비디오 예측 (Next-Frame Video Prediction with Convolutional LSTMs)
.
V3
트랜스포머를 사용한 비디오 분류 (Video Classification with Transformers)
.
V3
비디오 비전 트랜스포머 (Video Vision Transformer)
.
성능 레시피
V3
트레이닝 성능 향상을 위한 그래디언트 중앙화 (Gradient Centralization for Better Training Performance)
.
V3
비전 트랜스포머에서 토큰화 학습하기 (Learning to tokenize in Vision Transformers)
.
V3
지식 증류 (Knowledge Distillation)
.
V3
FixRes: 트레이닝-테스트 해상도 불일치 수정 (FixRes: Fixing train-test resolution discrepancy)
.
V3
LayerScale을 사용한 클래스 어텐션 이미지 트랜스포머 (Class Attention Image Transformers with LayerScale)
.
V3
통합 어텐션으로 컨볼루션 네트워크 강화 (Augmenting convnets with aggregated attention)
.
V3
컴퓨터 비전에서 리사이즈 학습 (Learning to Resize)
.
기타
V2
AdaMatch를 통한 반지도 및 도메인 적응 (Semi-supervision and domain adaptation with AdaMatch)
.
V2
Contrastive SSL을 위한 Barlow Twins (Barlow Twins for Contrastive SSL)
.
V2
지도를 통한 일관성 트레이닝 (Consistency training with supervision)
.
V2
증류식 비전 트랜스포머 (Distilling Vision Transformers)
.
V2
초점 변조(Focal Modulation): 셀프 어텐션을 대체하는 (Focal Modulation: A replacement for Self-Attention)
.
V2
이미지 분류를 위한 Forward-Forward 알고리즘 사용 (Using the Forward-Forward Algorithm for Image Classification)
.
V2
자동 인코더를 사용한 마스크 이미지 모델링 (Masked image modeling with Autoencoders)
.
V2
🤗 트랜스포머로 무엇이든 모델 세그먼트 (Segment Anything Model with 🤗Transformers)
.
V2
.
V2
SimSiam을 이용한 자기 지도 대조 학습 (Self-supervised contrastive learning with SimSiam)
.
V2
지도 대조 학습 (Supervised Contrastive Learning)
.
V2
Recurrence와 트랜스포머의 만남 (When Recurrence meets Transformers)
.
V2
YOLOV8 및 KerasCV를 통한 효율적인 객체 감지 (Efficient Object Detection with YOLOV8 and KerasCV)
.
Table of contents
- 처음부터 이미지 분류
- 간단한 MNIST convnet
- EfficientNet으로 하는 미세 조정을 통한 이미지 분류
- 비전 트랜스포머로 이미지 분류
- 어텐션 기반 심층 다중 인스턴스 학습(MIL)을 사용한 분류
- 최신 MLP 모델을 사용한 이미지 분류
- MobileViT - 이미지 분류를 위한 모바일 친화적인 트랜스포머 기반 모델
- TPU에서 폐렴 분류
- 컴팩트 컨볼루션 트랜스포머
- ConvMixer로 이미지 분류
- EANet(외부 어텐션 트랜스포머)을 사용한 이미지 분류
- 인볼루션 신경망
- Perceiver로 이미지 분류
- Reptile을 사용한 퓨샷 학습
- SimCLR을 사용한 대조 사전 트레이닝을 사용한 반지도 이미지 분류
- Swin 트랜스포머를 사용한 이미지 분류
- 소규모 데이터 세트에 대해 비전 트랜스포머 트레이닝
- 어텐션이 없는 비전 트랜스포머
- 글로벌 컨텍스트 비전 트랜스포머를 이용한 이미지 분류
- BigTransfer(BiT)를 사용한 이미지 분류
- U-Net과 유사한 아키텍처를 사용한 이미지 세그멘테이션
- DeepLabV3+를 사용한 다중 클래스 시맨틱 세그멘테이션
- BASNet을 사용한 매우 정확한 경계 세그멘테이션
- Composable 완전 컨볼루션 네트워크를 사용한 이미지 세그멘테이션
- RetinaNet을 이용한 객체 감지
- 전이 학습을 통한 키포인트 감지
- 비전 트랜스포머를 사용한 객체 감지
- CT 스캔의 3D 이미지 분류
- 단안 깊이 추정
- NeRF를 사용한 3D 체적 렌더링
- PointNet을 사용한 포인트 클라우드 세그멘테이션
- PointNet을 사용한 포인트 클라우드 분류
- 캡챠 읽기를 위한 OCR 모델
- 손글씨 인식
- 이미지 노이즈 제거를 위한 컨볼루셔널 오토인코더
- MIRNet을 사용한 저조도 이미지 향상
- Efficient Sub-Pixel CNN을 사용한 이미지 초해상도
- 단일 이미지 초해상도를 위한 향상된 깊은 Residual 네트워크
- 저조도 이미지 향상을 위한 Zero-DCE
- 이미지 분류를 위한 CutMix 데이터 보강
- 이미지 분류를 위한 MixUp 보강
- 견고성 향상을 위한 이미지 분류를 위한 RandAugment
- 이미지 캡션
- 듀얼 인코더를 이용한 자연어 이미지 검색
- Convnets이 학습한 내용 시각화
- 통합 그래디언트를 통한 모델 해석 가능성
- 비전 트랜스포머 표현 조사
- Grad-CAM 클래스 활성화 시각화
- 중복에 가까운 이미지 검색
- 시맨틱 이미지 클러스터링
- 대비 손실이 있는 Siamese 네트워크를 사용한 이미지 유사도 추정
- triplet 손실이 있는 Siamese 네트워크를 사용한 이미지 유사도 추정
- 이미지 유사도 검색을 위한 메트릭 학습
- TensorFlow Similarity를 사용한 이미지 유사도 검색을 위한 메트릭 학습
- NNCLR을 사용한 자기 지도 대조 학습
- CNN-RNN 아키텍처를 사용한 비디오 분류
- 컨볼루션 LSTM을 사용한 다음 프레임 비디오 예측
- 트랜스포머를 사용한 비디오 분류
- 비디오 비전 트랜스포머
- 트레이닝 성능 향상을 위한 그래디언트 중앙화
- 비전 트랜스포머에서 토큰화 학습하기
- 지식 증류
- FixRes - 트레이닝-테스트 해상도 불일치 수정
- LayerScale을 사용한 클래스 어텐션 이미지 트랜스포머
- 통합 어텐션으로 컨볼루션 네트워크 강화
- 컴퓨터 비전에서 리사이즈 학습
- AdaMatch를 통한 반지도(Semi-supervision) 및 도메인 적응
- Contrastive SSL을 위한 Barlow Twins
- 지도를 통한 일관성 트레이닝
- 증류식 비전 트랜스포머
- 초점 변조 - 셀프 어텐션을 대체하는
- 이미지 분류를 위한 Forward-Forward 알고리즘 사용
- 자동 인코더를 사용한 마스크 이미지 모델링
- 🤗 트랜스포머로 무엇이든 모델 세그먼트
- SegFormer와 Hugging Face 트랜스포머를 사용한 시맨틱 세그멘테이션
- SimSiam을 이용한 자기 지도 대조 학습
- 지도 대조 학습
- Recurrence와 트랜스포머의 만남
- YOLOV8 및 KerasCV를 통한 효율적인 객체 감지