인공지능사업화를위한 데이터과학추진전략 · 학습 sw 개발 모델 연구...
TRANSCRIPT
2009 ~ 2014 2013 ~ 2017
빅데이터 기술 발전 단계
2016 ~ 2020
Smart Level 1Format and Schema
기계 가독성 데이터▶ Automated
▶ Cost Reduction
Smart Level 2Pattern with Volume
기계학습가능데이터▶ Predictable
▶ Proactive Service
Smart Level 3Context in Network
의미이해 가능 데이터▶ Reasonable
▶ Smart Behavior
빅데이터에서 스마트 데이터로
2
0
2
4
6
8
10
12
14
90% 95% 99%
데이터품질과 DNN 성능(CNN Classification)
Errors(%)
DataAccuracy
0
2
4
6
8
10
12
14
N 2N 4N
데이터크기와 DNN 성능(CNN Classification)
Errors(%)
Volume
5
학습데이터의 크기, 품질
7
원시데이터수집 / 분석
원시데이터정제 / 필터링
기계학습용데이터준비
기계학습,모델최적화
모델최적화,패턴추출
지능시스템품질평가
분석결과시각화/평가
노이즈포함원시데이터
데이터분석,모델선정
도메인과문제의이해
데이터 과학의 표준 절차
8
데이터 큐레이션 6단계
이미지, 음성, 텍스트, 센서, 웹, 소셜 데이터 등
원시 데이터 수집/구축과 기본 메타데이터 생성
데이터의 안전한 저장과 이질적 데이터의
통합, 중복제거, 데이터 셋 버전 관리
데이터 정제, 오류/이상 데이터 식별,
분석, 학습을 위한 데이터 변환
데이터 집계/통계 분석,
데이터 어노테이션, 학습준비
학습/분석 알고리즘
선정과 실험, 최적화
기계학습
품질 평가
수집/구축
저장관리/통합
정제/변환
학습/분석 준비
학습/분석 최적화
품질 평가, 검증
9
현대자동차 삼성전자 국방부ETRI KT 솔트룩스
웹/소셜 데이터 수집, 정제음성 인식/합성 데이터 구축
수천 개의 웹/소셜 데이터 소스로부터 하루수백만 데이터 수집, 추출과 실시간 분석
20개국 이상의 다국어와 지역별, 성별나이별 음성 인식과 합성을 위한 데이터 구축
삼성전자 언론진흥재단 신한은행
심층 자연어처리, 의미이해를 위한 대규모고품질, 다국어 코퍼스(말뭉치) 구축
지식 그래프/베이스 구축
NH은행 우리은행 삼성전자
인공지능 고객 상담시스템, 심층 질의응답,NLU와 의미분석을 위한 지식 베이스 구축
다국어 자동번역 코퍼스 구축
IBM LG전자 김앤장
번역메모리, NMT 기반의 자동번역 엔진구현을 위한 다국어 병렬 코퍼스 구축
데이터 큐레이션 사례
영상/이미지 데이터 어노테이션
부산시 솔트룩스 관광공사
DNN기반 이미지, 영상 인식 서비스와자율자동차 구현을 위한 고품질 어노테이션
자연어처리 코퍼스 구축
10
사람과 기계의 협력, Human-in-the-Loop
1. 학습용 데이터 셋 2. 기계 학습 3. 품질(신뢰도) 평가
5. 실용 AI 시스템▪ 문제와 목표 이해 ▪ 시스템 제약조건
▪ 기계학습 전문지식 ▪ 도메인 전문지식 4. 휴먼 큐레이션
Human-in-the-loop+
(데이터 추가 수정/정제) (모델 최적화)
수집/구축 변환/저장 연계/검색 분석/지능화 발견/예측 시각화/결정 평가/피드백
업
무
• 데이터 소스 관리
• 데이터 수집
• 메타 데이터 추출
• 분석용 데이터 구축
• 텍스트/이미지 래핑/변환
• 가비지 제거
• 자동 분류
• 주제 추출
• 자연어처리
• 저장과 색인
• 데이터 연계
• 연계 데이터 검증
• 분석 대상 데이터검색
• 분석 위한 데이터전처리
• 통계, 연관, 시계열, 네트워크 분석
• 분석/예측 모델최적화
• 기계학습, 딥러닝수행
• 상황 조기 감지, 시계열, 공간 패턴발견
• 의외성 발견
• 분석/발견 결과의해석
• 신뢰성 검증
• 분석결과 정리와시각화
• 대안 추천과 근거제시
• 위험 분석
• 의사결정과 실행지원
• 분석 및 의사결정효과/영향력 평가
• 고객 및 전문가 피드백
• 분석 개안선 도출
도
구
• 웹 크롤러
• 빅데이터 수집/관리 엔진
• 언어자원 구축 도구
• 사전 정체/통합도구
• 형태소, 개체명, 구문, 의미역 분석
• SVM 등 자동 분류기
• 사건(이벤트) 및정보 추출
• 색인 시스템
• 의미기반 데이터매핑
• 시맨틱 검색
• 패싯 필터링
• 데이터 클러스터링
• ETL 및DBMS 도구들
• 통계분석 패키지(R 외)
• CRF, SVM, 베이지안 넷 외
• 감성/사회망분석, 추론
• 딥러닝 예측, 회귀모델
• 이슈감지(CEP), 랭킹 도구
• 통계분석 검증 도구
• 샘플링 정량,정성평가
• 근거검색, 연관검증 도구
• Rainbow, R 등의시각화, 대시보드
• 의사결정 지원시스템
• Deep QA
• 시나리오 수립 도구
• 실시간 소셜 피드백 수집, 분석
• 크라우드 소싱, SNS 분석
• 포커스 그룹 인터뷰 (델파이 외)
사람
• 수집 데이터 소스검토
• 수집 및 관리 정책수립
• 데이터 유용성 정성평가
• (전문가) 분석 데이터 구축
• NLP, 분류 위한사전, 학습 데이터구축
• 필터링 품질 검증, 사전/규칙 추가
• 저장/검색 시스템의 운용
• 검색주제, 필터링범위 선정
• 검색결과 평가와개선
• 데이터 연계 체계수립
• ETL 규칙 작성 및관리
• 분석 모델 최적화수행
• 기계학습, 딥러닝품질 개선
• 확대 연관 분석 대상 선정/적용
• 다양한 조건의 분석결과 비교
• 분석 결과 정량/정성 검증
• 분석 정확성, 재현성 확인
• 이슈/이벤트 패턴도출, 설정
• Middle-out 의외성 발견
• 시각화 목표, 개념설계
• 다양한 그래프 대시보드 구성
• 지식베이스 구축과 질의응답
• 추천품질 검증, 시나리오 구성
• 분석 결과 및 의사결정 피드백 분석
• 전문가/사용자 인터뷰 검증
• 프로젝트 보고서작성, 평가
• 시사점, 개산안 도출과 반영
12
프로세스, 도구 그리고 훈련된 사람
13
기업 데이터 지능화
문서중앙화/자동분류 (현대자동차) 정보허브/비정형분석 (포스코) 정보포털/군집 (삼성중공업)
신기술 센싱/예측 (삼성전자,KISTEP) 개인 맞춤 추천 (KT IPTV) 차세대 미디어 플랫폼 (KBS)
15
고객 데이터 지능화 (현대차 사례)
• 소셜 빅데이터 기반 차량 사용자 경험 분석: 내수, 북미,
중국 출시 예정 10개 차급 30 차종 빅데이터 약 100만 건
수집
• 빅데이터 기반 차급/지역별 소비자 담론 조사: 차량 내
이슈 기술 테마 3개에 대한 소셜 미디어 데이터 약 6.5만
건 수집(북미)
• 신차 반응 조사 및 당사 사양 경쟁력 분석: 6개 차급 18
차종(약 27만 건)에 대한 경쟁사 및 당사 판매차량 사양
경쟁력 분석
• 고객 니즈 분석 및 실시간 리스크 모니터링을 위한 멀티 채널
외부 데이터 수집
• 전세계 다양한 채널에 대한 On-Demand 데이터 수집
(고객사 보유 1,500개 사이트 + α), 커스텀 데이터
수집과 분석
• 멀티 채널 외부 데이터를 활용한 적극적 마켓 센싱으로
고객 만족도 향상 및 시장 경쟁력 강화
대화매니저
대화 모델
NLU(자연어이해)
음성인식
텍스트/UI 입력
NLG(자연어생성)
음성합성
UX생성
챗봇의 구성 (규칙 기반)
19
서비스채널들
대화형 인공지능
지식베이스
대화학습
선호추천
사용자 모델
추론
심층 질의응답 엔진지식 관리 매니저
톡봇의 구성 (지식기반)
코어지식• 정답타입(X) = 직업
• 직업(Y) = X
• 고향(Y) = 경상도
• 출신대(Y) = 경희대
• 경험(Y) = 감옥수감
• 출신대(Y.아내) = 출신대(Y)
• 직업(Y.아내) = 음악가
• 직업(Y.동료) = 인권변호사
• 나이(Y) = 환갑 + 4
경상도가 고향인 이 사람은 경희대 재학
중 감옥에 수감된 바 있으며, 같은 대학
출신의 음악가와 결혼 후 부산에서 후에
정치인이 된 유명 인권 변호사와 같은
직장에서 근무했다. 4년전 환갑이었던
이사람의 현 직업은 무엇인가?
NLU
단순탐색(그래프매칭)
????
복합추론
시맨틱추론
공간추론
규칙추론
불확실확률추론
문재인(90%)
박영선(17%)
박근혜(5%)
…
노무현
김정숙문재인아내
대통령 직업
직업
대한민국
수반
경희대
졸업
근무
친구
법무법인 부산
고향
성악
숙명여고
졸업
직업
인권변호
서대문구치소
졸업
1953.1.24
생일거제도
업무
수감
근무
파편화된 지식의
학습과 증강
20
심층 질의응답 Deep QA
22
1. 지식학습 단계
상담 로그, 매뉴얼 등 각종
데이터 수집/통합, NLP와
딥러닝 기반 언어/지식 학습
2. 심층QA 단계
지식베이스 구축과 추론,
지식/검색/생성 기반의
심층 QA 엔진들을 앙상블
3. 대화모델링 단계
심층 대화 모델링과 의도
분석기를 최적화, 앙상블
QA 시스템과 통합/검증
4. 상담서비스 단계
스마트폰, 전화 등의 다양한
채널 통한 AI 자동 상담, 미처
리
상담에 대한 인간 전문가 연결