Replies: 7 comments
-
Post-Training Quantization (PTQ)[1] Quantization granularity
[2] Dynamic Range Clipping
[3] Rounding
Quantization-Aware Training (QAT)
STE
Binary/Ternary Quantization[1] Binary (+1 or -1)
[2] Ternary: +1, 0, -1
Mixed-Precision Quantization
|
Beta Was this translation helpful? Give feedback.
-
4/13 30분, Part 1 동영상 시청
4/15 1시간, 나머지 동영상 시청
|
Beta Was this translation helpful? Give feedback.
-
1) Post-Training Quantization
1-2) Linear quantization on Activation
1-3) Adaptive rounding
2) Quantization-Aware Training
3) Binary/Ternary Quantization
4) Mixed-Precision Quantization
|
Beta Was this translation helpful? Give feedback.
-
생각보단 어렵지는 않았음
|
Beta Was this translation helpful? Give feedback.
-
4/13 PART I 재정리 + PART II 내용 이해 4/15 PART II 정리
|
Beta Was this translation helpful? Give feedback.
-
4.25 bit 계산 방법
1. 데이터 표현 (4비트)각 원소를 4비트로 양자화(quantize)한다고 가정하면, 2. 스케일 팩터 표현 (4비트)16개 원소가 하나의 그룹으로 묶여서 스케일 팩터를 공유한다고 가정하고, 3. 원소당 평균 비트 수 계산전체 비트 수는 데이터 비트와 스케일 팩터 비트를 합산하여: 이를 16개 원소로 나누면 원소당 사용 비트 수는: |
Beta Was this translation helpful? Give feedback.
-
아래는 이론적 연구를 넘어 실제 제품과 서비스에 적용되어 성과를 보인 사례들입니다.
Qdrant를 활용한 OpenAI 임베딩 최적화
실시간 임베디드 AI (예: 스마트 카메라, 드론 등) 결론 임베디드 벡터 검색 엔진 (Vespa, Qdrant)이 고차원 임베딩의 메모리와 연산 비용을 줄이기 위해 binary quantization을 이용하고, FPGA/ASIC 기반 임베디드 AI 시스템 및 실시간 영상 분석 장비 등이 binary/ternary quantization 기법을 활용하여 경량 모델을 구현, 빠른 추론과 낮은 전력 소모를 달성하고 있습니다. 이와 같이, 연구 단계에서 제안된 기법들이 실제 상용 시스템과 임베디드 애플리케이션에 적용되어 효율성과 성능 측면에서 실질적인 이점을 제공하고 있음을 알 수 있습니다. |
Beta Was this translation helpful? Give feedback.
-
.
Beta Was this translation helpful? Give feedback.
All reactions