1. 개요 및 연구동기
몇 가지 예를 통해 학습하는 것은 기계학습의 주요 과제로 남아있다.
지도학습기반의 딥러닝 패러다음은 적은 데이터에서 새로운 개념을 빠르게 학습하기 위한 만족스러운 솔루션을 제공하지 않는다. 우리는 이 작업에서 심층 신경망을 기반으로 한 학습과 외부 기억으로 신경 네트워크를 강화하는 아이디어를 사용한다. 이 프레임워크는 작은 레이블이 있는 support set와 레이블이 없는 예제를 해당 레이블에 매핑하는 네트워크를 학습하므로 새로운 클래스 유형에 적응하기 위한 fine tuning이 필요하지 않다. 그런다음 비전 및 언어 작업에 대한 one-shot learning 문제를 정의한다. 우리의 알고리즘은 기존 방식에 비해 One-shot 정확도를 향상시킨다.
데이터 증강 및 정규화 기술들은 과적합 문제를 완화하지만 직접적으로 해결하지는 못한다. 우리는 이 문제가 모델의 매개변수적 측면에 기인한다고 보았다. 대조적으로 non-parametric 기법들은 치명적인 망각을 겪지 않으면서도 새로운 사례에 대한 예측을 빠르게 수행할 수 있다. 우리는 두 방법의 장점을 통합하는 것을 목표로 한다.
우리 작업의 새로운 점은 두 가지 이다.
1. 주의력과 기억력을 가지도록 하기 위해 matching nets를 제안한다.
2. 훈련 절차는 간단한 기계학습 원리를 기반으로 한다. 즉, 테스트 조건과 훈련 조건이 일치한다. 즉 테스트 조건과 훈련조건이 일치한다.
2. Model
일회성 학습을 해결하기 위한 비 모수적 접근방식은 두 가지 구성요소를 기반으로 한다.
1. 신경망의 디자인 (섹션 3) (작은) support set S 가 주어지면 각 S에 대한 함수 $c_S$(또는 classifier), 즉 $S \rightarrow c_S(.)$ 매핑을 정의한다.
2. support set $S$ 에서 일회성 학습에 맞춰진 훈련 전략을 사용한다.
2.1 Model architecture
최근 몇 년 동안 많은 그룹에서는 외부 메모리 및 기타 구성 요소를 사용하여 신경망 구조를 강화하여 "컴퓨터와 유사" 하게 만드는 방법을 조사했다. 우리는 seq2seq[2], memory network[29], pointer network[27] 와 같은 모델에서 영감을 얻었다. 이러한 모델 들에는 유용한 정보를 저장할 수 있도록 차별화된 neural attention mechanism이 포함된다. 일반적인 용도로는 기계번역, 음성인식, 또는 질의응답이 있다.
3. Related Work
3.1 Memory Augmented Neural Networks
최근 고정 벡터의 "static" 분류를 넘어 해당 클래스를 지정하며 분류하는 모델이 늘어나면서 산업 프로그램이 재편되었다. 이는 음성, 번역, 학습 프로그램 과 같은 다양한 작업에서 LSTM 을 대규모로 채택한 점에서 가장 주목할만 하다. 가장 핵심구성요소는 콘텐츠 기반의 attention 과 신경망, Nerual Turing Machine[4], Memory Networks[29] 이다. 우리 작업은 LSTM이 순차적으로 제시된 데이터로부터 신속하게 학습하는 방법 metalearning paradigm of [21] 과는 다르게, 데이터를 세트로 취급한다. [15]에서 정의한 원샷 학습 방법은 [6]에서 제시된 평가 기술 및 모델과 관련이 있으며 이에 대해서는 섹션 4에서 논의한다.
3.2 Metric Learning
섹션 2에서 설명한 것처럼 content based attention 과 kernel based nearest neighbor and metric learning 사이에는 많은 링크가 있다[1]. 가장 관련성이 높은 이전 연구는 [18],[20] 이다. loss 에서 pair wise 비교 대신 전제 support set $S$를 쓴다는 점을 제외하면 매우 유사하다.
4. Experiments
이 섹션에서는 매칭 네트워크 모델을 기존 연구들과 비교하며 설명한다. 모든 실험은 기본 작업인 N-way K-shot 작업을 중심으로 진행된다.
4.1 Image Classification Results
vision 문제에 대해 우리는 raw pixel matching, Baseline Classifier, MANN, Convolutional Siamese Net의 재구현 으로 4가지 Baseline 을 고려했다. 기본 분류기는 이미지를 훈련데이터 세트 중 하나로 분류하도록 훈련되었지만 불공정한 이점을 제공하지 않도록 6개의 클래스만 분류하도록 했다. 그런 다음 가장 가까운 이웃 일치를 위해 softmax 이전의 feature를 사용했다. 이는 컴퓨터 비전[3] 에서 일반적으로 사용되는 전략으로 많은 작업에서 탁월한 결과를 얻었다.
5. Conclusion
이 논문에서는 one shot 분류 작업에서 최첨단 성능을 발휘할 수 있는 Matching Networks를 소개했다. 이 작업에는 몇 가지 주요 통찰이 있다.
1) one shot 학습을 수행하도록 훈련시키면 학습이 훨씬 쉽다.
2) 비모수적 구조를 사용하면 네트워크가 새로운 훈련세트를 더 쉽게 기억하고 적응할 수 있다.
3) ImageNet의 축소버전 및 언어 모델링 작업인 ImageNet 에 대한 새로운 one shot 작업을 정의했다.
이 작업의 명백한 단점은 support set $S$ 가 커짐에 따라 gradient 업데이트에 대한 계산비용이 비싸진다는 것이다. 이 문제를 완화하기 위해 sparse sampling 기반 방법들이 있다. 미래의 과제이다. 또한 ImageNet 의 하위작업에서 보여준 것처럼 라벨 분포에 명백한 편향이 존재할 경우(such as being fine grained), 모델이 어려움을 겪는다. 흥미로운 도전과제라고 생각한다.
참고할만한 references
섹션 3.2 : content based attention 과 kernel based nearest neighbor and metric learning 사이에는 많은 링크가 있다[1].
'컴퓨터과학' 카테고리의 다른 글
[논문읽기] Semi-supervised Spatial Temporal Attention Network for Video Polyp Segmentation (0) | 2023.10.16 |
---|---|
[논문읽기] Sleep classification from wrist‑worn accelerometer data using random forests (0) | 2023.10.12 |
html <select> 태그의 옵션과 <optgroup> (0) | 2023.10.09 |
numpy.vectorize 함수 (0) | 2023.10.05 |
[pytorch] 모델 구조 수정 과정에서 모델 크기를 줄였는데 VRAM 사용량이 그대로인 경우 (0) | 2023.10.04 |
댓글