최신논문
이미지는 재구성 및 생성을 위해 32개의 토큰만큼 가치가 있습니다.
작성자
dd
작성일
2024-07-04 12:08
조회
485
https://arxiv.org/abs/2406.07550
생성 모델의 최근 발전은 고해상도 이미지의 효율적인 합성에서 이미지 토큰화의 중요한 역할을 강조했습니다. 이미지를 잠재 표현으로 변환하는 토큰화는 픽셀을 직접 처리하는 것에 비해 계산 요구 사항을 줄이고 생성 프로세스의 효과성과 효율성을 향상시킵니다. VQGAN과 같은 이전 방법은 일반적으로 고정된 다운샘플링 계수를 가진 2D 잠재 그리드를 사용합니다. 그러나 이러한 2D 토큰화는 인접한 영역이 종종 유사성을 나타내는 이미지에 존재하는 내재적 중복성을 관리하는 데 어려움이 있습니다. 이 문제를 극복하기 위해 이미지를 1D 잠재 시퀀스로 토큰화하는 혁신적인 접근 방식인 Transformer-based 1-Dimensional Tokenizer(TiTok)를 소개합니다. TiTok은 보다 컴팩트한 잠재 표현을 제공하여 기존 기술보다 훨씬 더 효율적이고 효과적인 표현을 제공합니다. 예를 들어, 256 x 256 x 3 이미지를 32개의 개별 토큰으로 줄일 수 있으며, 이는 이전 방법으로 얻은 256개 또는 1024개 토큰보다 상당히 줄었습니다. TiTok은 컴팩트한 특성에도 불구하고 최첨단 접근 방식과 경쟁할 만한 성능을 달성합니다. 구체적으로, 동일한 생성기 프레임워크를 사용하여 TiTok은 1.97 gFID를 달성하여 ImageNet 256 x 256 벤치마크에서 MaskGIT 기준보다 4.21만큼 상당히 우수한 성능을 보였습니다. TiTok의 장점은 고해상도에 관해서는 더욱 중요해집니다. ImageNet 512 x 512 벤치마크에서 TiTok은 최첨단 확산 모델 DiT-XL/2(gFID 2.74 대 3.04)보다 우수한 성능을 보일 뿐만 아니라 이미지 토큰을 64배 줄여 생성 프로세스를 410배 더 빠르게 진행합니다. 성능이 가장 좋은 변형은 DiT-XL/2(gFID 2.13 대 3.04)보다 상당히 우수한 성능을 보이는 동시에 고품질 샘플을 74배 더 빠르게 생성할 수 있습니다.
생성 모델의 최근 발전은 고해상도 이미지의 효율적인 합성에서 이미지 토큰화의 중요한 역할을 강조했습니다. 이미지를 잠재 표현으로 변환하는 토큰화는 픽셀을 직접 처리하는 것에 비해 계산 요구 사항을 줄이고 생성 프로세스의 효과성과 효율성을 향상시킵니다. VQGAN과 같은 이전 방법은 일반적으로 고정된 다운샘플링 계수를 가진 2D 잠재 그리드를 사용합니다. 그러나 이러한 2D 토큰화는 인접한 영역이 종종 유사성을 나타내는 이미지에 존재하는 내재적 중복성을 관리하는 데 어려움이 있습니다. 이 문제를 극복하기 위해 이미지를 1D 잠재 시퀀스로 토큰화하는 혁신적인 접근 방식인 Transformer-based 1-Dimensional Tokenizer(TiTok)를 소개합니다. TiTok은 보다 컴팩트한 잠재 표현을 제공하여 기존 기술보다 훨씬 더 효율적이고 효과적인 표현을 제공합니다. 예를 들어, 256 x 256 x 3 이미지를 32개의 개별 토큰으로 줄일 수 있으며, 이는 이전 방법으로 얻은 256개 또는 1024개 토큰보다 상당히 줄었습니다. TiTok은 컴팩트한 특성에도 불구하고 최첨단 접근 방식과 경쟁할 만한 성능을 달성합니다. 구체적으로, 동일한 생성기 프레임워크를 사용하여 TiTok은 1.97 gFID를 달성하여 ImageNet 256 x 256 벤치마크에서 MaskGIT 기준보다 4.21만큼 상당히 우수한 성능을 보였습니다. TiTok의 장점은 고해상도에 관해서는 더욱 중요해집니다. ImageNet 512 x 512 벤치마크에서 TiTok은 최첨단 확산 모델 DiT-XL/2(gFID 2.74 대 3.04)보다 우수한 성능을 보일 뿐만 아니라 이미지 토큰을 64배 줄여 생성 프로세스를 410배 더 빠르게 진행합니다. 성능이 가장 좋은 변형은 DiT-XL/2(gFID 2.13 대 3.04)보다 상당히 우수한 성능을 보이는 동시에 고품질 샘플을 74배 더 빠르게 생성할 수 있습니다.
전체 0