powerpoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ......

47

Upload: others

Post on 09-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트
Page 2: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

2

Page 3: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

3

Page 4: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

4

Page 5: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

5

Page 6: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

6

Page 7: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

7*그림 출처 : 디오텍

딥러닝의활용분야가점차넓어지면서General한데이터가아닌

기업/연구자가원하는Fit한데이터의수집및레이블링이슈가중요.

7

Page 8: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

88

8

Page 9: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

99

9

Page 10: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

1010

10

Page 11: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

1111

11

Page 12: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

1212

12

Page 13: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

1313

13

Page 14: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

1414

14

Page 15: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

15 15

Page 16: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

1616

16

Page 17: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

1717

17

Page 18: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

1818

18

Page 19: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

19 19

Page 20: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

데이터를원하는기업/연구자양질의데이터 ㅣ 빠르고정확하게

일반유저매력있는보상ㅣ언제어디서든투잡가능

20 20

Page 21: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

데이터품질보장

21 21

Page 22: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

촬영수집 Classification Bounding BoxInstance

Segmentation 22 22

Page 23: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

녹음수집 Transcription Classification23 23

Page 24: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

상황별텍스트수집

OCRTranscription

Classification etc24 24

Page 25: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

국내사용자

7천명필리핀사용자

1.7만명

빠르고다양한데이터생산

25

Page 26: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

200만필리핀사용자를보유한Pera Swipe의파트너쉽.

Pera Swipe의잠금화면

Select Star 플랫폼으로접속.

26 26

Page 27: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

// Human-in-the-Loop 방식의한계

생산성및작업효율을획기적으로높일

기술개발필요성에직면!

모바일크라우드소싱으로한번에많은사용자가참여하여전체작업시간은줄었지만개개인의레이블링 작업시간은여전히수작업으로,투입되는인원/시간대비아웃풋이비례함.

27 27

Page 28: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

28

반자동레이블링시스템쉽고빠른데이터가공

28

Page 29: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

29

초기데이터레이블링

모델선택및Transfer Learning

자율주행용 얼굴인식용 일반용

재학습및성능향상

29

Page 30: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

30

초기데이터레이블링

모델선택및Transfer Learning

자율주행용 얼굴인식용 일반용

재학습및성능향상

Active Learning

30

Page 31: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

31

초기데이터레이블링

모델선택및Transfer Learning

자율주행용 얼굴인식용 일반용

재학습및성능향상

Active Learning

작업난이도예측통한작업자배치

31

Page 32: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

32

반자동레이블링시스템: Active Learning

학습에가장도움이되는데이터부터레이블링하면서학습하는방법론

Labeled DataUnlabeled DataHuman

Labeling

Uniform하게일부데이터선택

초기세팅

32

Page 33: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

33

반자동레이블링시스템: Active Learning

학습에가장도움이되는데이터부터레이블링하면서학습하는방법론

Labeled Data

AI ModelUnlabeled Data

① Training

② Inference

③가장학습에도움이될Unlabeled Data선택!

④ Human Labeling

Loop 반복Loop 반복

33

Page 34: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

Learning Loss for Active Learning (Yoo,D., & Kweon, I. S., CVPR 2019)

학습에가장도움이될레이블링대상을Unlabeled Data의 Training Loss를예측하여선택하자!

34

Page 35: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

Learning Loss for Active Learning (Yoo,D., & Kweon, I. S., CVPR 2019)

학습에가장도움이될레이블링대상을Unlabeled Data의 Training Loss를예측하여선택하자!

35

학습과정에서Loss Prediction도같이학습!

Page 36: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

Learning Loss for Active Learning (Yoo,D., & Kweon, I. S., CVPR 2019)

Labeled Data

AI ModelUnlabeled Data

① Training

② Inference

③ Loss가가장큰 K개의Unlabeled Data선택!

④ Human Labeling

② Loss Prediction

학습에가장도움이될레이블링대상을Unlabeled Data의 Training Loss를예측하여선택하자!

36

Page 37: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

Learning Loss for Active Learning (Yoo,D., & Kweon, I. S., CVPR 2019)

학습에가장도움이될레이블링대상을Unlabeled Data의 Training Loss를예측하여선택하자!

37

레이블링데이터수

딥러닝모델성능

레이블링이진행될수록모델성능과작업효율이향상!

Page 38: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

38

초기데이터레이블링

모델선택및Transfer Learning

자율주행용 얼굴인식용 일반용

재학습및성능향상

Active Learning

작업난이도예측통한작업자배치

38

Active Learning

Page 39: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

작업자레벨에따라참여가능난이도조절

반자동레이블링시스템

작업난이도에따라작업보상차등

모델예측된BBox 선택후수정제출

39 39

Page 40: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

40

UC Berkeley에서 Deep Drive Dataset 구축시Fast–RCNN 모델기반으로반자동레이블링시도.

수동레이블링대비60% 작업시간절감

40

Page 41: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

41

수동레이블링대비60% 작업시간절감

개발 1차목표!

UC Berkeley에서 Deep Drive Dataset 구축시Fast–RCNN 모델기반으로반자동레이블링시도.

41

Page 42: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

설립후 9개월, 40개고객사

네이버랑파파고도넣어주세요

42 42

Page 43: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

한국전력 & KAIST AI 연구센터전봇대부품 Bounding Box & Line Segmentation

43 43

Page 44: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

한국정보화진흥원인공지능학습용데이터구축사업인도(人道) 보행영상수집

X명의사용자가현재까지 30만장수집참여 (목표 40만장)

44 44

人道 (4개월내 40만장구축)

Page 45: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

LG CNS한국어기계독해질문 & 답변생성1400명이참여하여 KorQuAD 2.0 구축

45 45

Page 46: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트

카카오벤처스 4억원투자유치

셀렉트스타는최근빠른사용자경험개선속도와맡은데이터생산실행력을인정받아카카오벤처스로부터 4억원의시드투자를유치하였습니다.

셀렉트스타는앞으로도다양한데이터의대량생산을위한유저풀확장과의뢰수행능력고도화를위한인공지능어시스턴스시스템개발, 데이터생산파이프라인안정화연구를통해최선, 최고의데이터를생산하기위해끊임없이노력하겠습니다.

46 46

Page 47: PowerPoint 프레젠테이션‹ 호욱... · 2020-06-15 · 20 20. 데이터품질장 21 ... Instance Segmentation 22 22. 녹음수집 Transcription Classification 23 23. 상황별텍스트