Active Learning

적절한 자기주도 학습 데이터를 찾는 방법 (하지만 사람의 간섭은 필요, 나 이거 보르겠어요. 답을 알려 주세요.)

https://blogs.nvidia.co.kr/2020/01/29/what-is-active-learning/?fbclid=IwAR1RLqrs8GXeTTlN1P_pdSf2mrJViTNXl1SzbNyICtKPAMRQdf98Um6uwqg

목적 : 데이터셋 구축 정의 : 다양한 데이터를 자동으로 찾는 머신 러닝을 위한 학습용 데이터 선택 방식 장점 : 사람이 직접 큐레이션(curation)하는데 걸리는 시간 보다 훨씬 짧은 시간 안에 더 좋은 데이터 세트를 구축하는 것입니다.

구성 :

  1. 학습을 완료한 모델을 통해 수집된 정보를 확인한 후,
  2. 그 정보 중에서 인지하기 어려운 프레임을 표시하도록 합니다.
  3. 그리고 그 프레임들을 학습용 데이터에 추가합니다.
  4. 이 과정을 반복하면 좀 더 복잡한 상황에서 모델이 물체를 정확하게 인지하는 능력이 향상됩니다.

기존 학습 데이터 선정 방법

  • 랜덤 샘플링(random sampling)은 데이터 풀에서 동일한 간격으로 프레임을 추출해 가장 일반적인 시나리오를 포착합니다. 하지만 드물게 등장하는 패턴은 제외하는 경우가 있습니다.
  • 메타데이터 기반 샘플링(metadata-based sampling)을 이용하면 기본 태그(예: 비, 야간 등)를 사용해 데이터를 선택해 자주 접할 수 있는 어려운 상황을 쉽게 찾을 수 있지만, 트랙터 트레일러나 의족을 착용하고 길을 건너는 사람처럼 쉽게 분류하기 어려운 특수한 프레임은 놓칩니다.
  • 수동 큐레이션(manual curation)을 이용하면 메타데이터 태그도 사용하고, 동시에 주석 작업자들이 직접 보고 확인하는 작업을 거칩니다. 이 방식은 오류가 발생하기 쉽고, 확장하기 어렵고, 또 많은 시간이 소요되는 작업입니다.

엑티브 러닝 기반 데이터 선정 방법

  • 기존 방식으로 학습 후 모델 생성
  • 모델에서 탐지 못하는 데이터(이상상황) 따로 저장
  • 주석 작업자가 라벨링 실시

장점

능동적 학습은 수동 큐레이션 대비 자율주행 DNN의 감지 정확성을 향상시킬 수 있다는 것을 이미 입증했습니다. [상세]

엔비디아 자체 조사 결과, 능동적 학습 데이터를 이용해 학습을 할 경우 수동으로 선택한 데이터 대비 보행자 감지 정확성은 3배, 자전거 감지 정확성은 4.4배 향상된다는 것을 알 수 있었습니다.

results matching ""

    No results matching ""