이정훈115.71.239.101/myresume/pdf/leejunghoon_portfolio.pdf ·...
TRANSCRIPT
Date of birth: 1993/08/22
University: 경기대학교
Major: 응용통계학과
Double Major: 컴퓨터과학과
Address: 수원시 장안구 천천동
E-mail: [email protected]
Github: https://github.com/vhrehfdl
Phone: 010-7722-4623
Lee Jung Hoon 01
Fake News Detection Using Deep
Learning
2018 Journal of Information Processing System
(JIPS)
유해영상 탐지
2018.05 ~ 2018.10
온라인 가이드 서비스
2017.03 ~ 2017.11
로고 컬렉터
2017.02 ~ 2017.02
국악음원 탐색기
2017.01 ~ 2017.01
애플이모션
2016.09 ~ 2016.12
장학금 탐색기
2016.07 ~ 2016.09
자연어를 이용한 유해 영상 탐지
2018년 정보처리학회 추계학술대회
딥러닝 기법을 이용한 가짜뉴스 탐지
2018년 정보처리학회 춘계학술대회
감성분석 연구동향
2018년 정보처리학회 춘계학술대회
2018 정보처리학회 춘계학술대회 최우수논문상
2018 교내 캡스톤 대회 우수작품상
2018 인공지능 R&D 챌린지 본선 진출 (12위)
2017 인공지능 R&D 챌린지 본선 진출 (21위)
이정훈Lee Jung Hoon
청소년들은 개인방송에 사용되는 유행어와 욕설을 일상생활에서 거리낌 없이 따라하고 있다.
하지만 1분당 400시간의 영상이 업로드 되는 유튜브를 사람이 일일이 확인하는 것은 물리적으로
불가능하다. 그래서 음성인식과 자연어처리 기술을 활용해 자동으로 유해영상을 검출하는
시스템을 만들었다.
Lee Jung Hoon 02
( 그림1 ) 유해 영상 화면
유해 영상은 이미지 좌측 상단 위에 Warning 마크가 있다.
유해 등급은 제목 좌측에
Lee Jung Hoon 03
Web Server : Nginx
Google Speech API
RDBMS : MySQL
Library : Scrapy
Language : Java, PHP, Python
FFMPEG
SNS가 급속도로 확산되며 거짓 정보를 언론으로 위장한 형태인 가짜뉴스는 큰 사회적 문제가
되고 있다. 이를 해결하기 위해 과학기술정보통신부에서는 가짜뉴스 탐지 대회를 개최하였다.
임무1 : 기사 제목과 본문이 불일치하는 가짜뉴스 찾기.
임무2 : 기사 본문의 여러 단락 중 맥락과 일치하지 않는 단락 찾기.
Lee Jung Hoon 04
중앙일보, 동아일보, 조선일보, 한겨레, 매일경제 5개 뉴스에서 약 10만개의 뉴스기사를 수집해
학습데이터로 사용했다.
임무1 : 31000개 ( 진짜 15500개 / 가짜 15500개 )
임무2 : 68000개 ( 진짜 34000개 / 가짜 34000개 )
신경망에 입력할 벡터를 생성하기 위해 단어 임베딩을 실시한다. 10만개의 데이터 셋을 Fasttext와
Word2vec에 적용하여 비교한 결과 Fasttext의 성능이 더 좋았기 때문에 Fasttext를 사용했다.
한국 : 문재인김정은 : ?
박근혜 : 새누리당 : ?
한국 : 서울도쿄 : 1
Word2vec Batch : 5000Epochs : 50
미국, 데니스, 로드먼
문재인, 이명박, 대통령
일본 0.71
Batch : 20000Epochs : 100
평양, 북한, 미국 문재인, 대통령, 이명박
일본 0.73
Fasttext Epochs : 5 미국, 북한, 중국 대통령, 문재인, 추미애
일본 0.76
Epochs : 100 미국, 북한, 중국 대통령, 문재인, 추미애
일본 0.63
< Word2vec과 Fasttext의 학습 결과 >
Lee Jung Hoon 05
딥러닝 프레임 워크 : Tensorflow 단어 임베딩 : FAST TEXT Language : Python
Label Description Optimized
Filter Size 필터 크기 3
Num Filter 필터개수 256 ( 기사 제목 )1024 ( 기사 본문 )
Dropout 드롭아웃 0.5
12 Alpha 학습률 0.1
Batch Size 학습 미니배치 크기 64
Embedding Dim 단어 임베딩 백터 차원 수 128
Fasttext에 의해 미리 학습된 벡터들을 이용하는 Convolution Neural Network이다.
Lee Jung Hoon 06
아이작 뉴턴이 인용한 문구 중“내가 더 멀리 보았다면 이는 거인들의 어깨 위에 올라서 있었기
때문이다”라는 명언이 있다. 이 명언은 “과거 연구를 바탕으로 현재 문제를 해결했다”는 것을
의미한다. 따라서 나도 사람의 감정을 분석하고 상담해주는 프로그램을 만들기 위해 과거에서
현재까지 연구되었던 감성분석 연구들을 비교, 분석하였다.
감성분석은 2001년 채팅메세지 분석을 시작으로 2008년부터 본격적으로 연구가 진행되었다.
2012년 이후 SNS가 유행하면서 Twitter를 분석 데이터로 활용한 연구가 많이 진행되고 있다.
2001년부터 최근 연구흐름을 분석해보면 감성분석은 SNS, 상품후기, 영화평 등 다양한 분야에
활용되는 것을 알 수 있다.
감성분석은 사전기반 방식과 기계학습기반 방식으로 나뉘어진다. 사전기반 방식은 감성사전이
정교하고 방대하게 구성되어 있을수록 분석의 정확성이 높아진다. 기계학습기반 방식은 좋은 분류
모델을 생성할 때까지 알고리즘의 parameter를 수정하며 학습과 검증을 반복한다.
적용분야 결과물
SNS 유명인 감정상태 파악, 일기예보 만족도 분석, 사회이슈 찬반 파악
상품 후기 상품평 자동분류, 상품평 의미분석
영화평 영화 흥행 예측, 감성 키워드에 따른 영화 검색 시스템
뉴스 북한뉴스의 긍정, 부정과 북한 도발과의 연관성 비교
나는 일기를 자주 쓴다. 일기를 읽다보면 감정 표현과 일정을 많이 작성하는 것을 알 수 있다.
그래서 학교에서 배웠던 통계기법과 인공지능을 활용해 감정을 파악하고 일정을 달력에
등록시켜주는 프로그램을 만들었다.
Lee Jung Hoon 07
[ 감정 분석 리포트 ]
일기를 분석해 감정 상태를 파악 후 주간, 월간,
연간 단위로 분석 그래프를 제공한다.
[ 감정 캘린더 ]
월별 단위로 감정 상태를 보여준다. 사과가
둥근 형태이면 긍정, 반쪽이면 부정을
의미한다.
Lee Jung Hoon 08
[ 일정 캘린더 ]
일정은 일기에서 시간, 장소, 행동을 추출하여
캘린더에 등록된다. 일정이 여러 개가
존재하면‘+3’같이 숫자로 표시한다.
[ 일정추가 ]
일정 제목, 약속 시간, 출발지, 도착지,
교통수단을 입력하면 출발시간을 계산하여
알림을 준다.
Web Server : Nginx
Google Map & Place API
RDBMS : PostgreSQL
Library : Konlpy
Language : Java, PHP, Python
OpenCV
Lee Jung Hoon 09
대학생들은 비싼 등록금 때문에 장학금을 찾는다. 하지만 종류가 많아 ‘자신의 조건에 맞는 장학
금을 찾기 힘들다’는 문제가 있다. 그래서 장학금을 편리하게 찾도록 “장학금 탐색기”를 만들
었다.
Lee Jung Hoon 10
[ 사용자 조건 입력 ]
대학교, 전공, 소속 등 사용자 조건을
입력한다.
[ 매칭된 장학금 목록 ]
조건에 맞는 장학금 목록을 보여준다.
Web Server : Apache
Crawling : Snoopy
RDBMS : MySQL
Library : Gmail SMTP
Language : Java, PHP
국악은 전공자가 아닌 일반인에게는 낯설고 생소한 분야로 사람들에게서 점점 잊혀지고 있다.
‘국악음원 탐색기'는 국악을 모르는 사용자도 국악을 즐길 수 있도록 분위기, 악기, 장르 3개의
태그만 선택하면 조건과 일치하는 국악을 추천해준다.
Lee Jung Hoon 11
[ 국악 상세 정보 ]
조건과 일치하는 국악의 제목과 상세 정보를
보여준다.
[ 태그 선택하기 ]
분위기, 악기, 장르 태그를 선택하면 조건과
일치하는 국악을 추천해준다.
Web Server : Apache
Android Custom Media Player
RDBMS : MySQL
Library : Snoopy Class
Language : Java, PHP
Lee Jung Hoon 12
과거에는 가족 단위의 패키지 여행을 선호했다면, 최근에는 혼자서 떠나는 배낭여행이 유행하고 있다.
그리고 젊은 세대는 직접 만나는 것보다 온라인에서 만나는 것을 선호한다. 이러한 배경과 특성을
반영하여 가이드와 여행객을 매칭해주는 온라인 가이드 플랫폼을 만들었다.
Web Server : Nginx
Naver, Kakao, Google Login API
RDBMS : MySQL
Library : WebSocket
Language : Java, PHP, JavaScript
Google Map API
[ 온라인 가이드 ]
가이드가 지도에 마커를 찍으면 여행객의
스마트폰으로 위치를 전송해 길안내를
실시한다.
[ 채팅창 ]
가이드는 웹페이지에서 여행객에게 채팅으로
가이드 해준다.
Lee Jung Hoon 13
주위 친구들의 소비 패턴을 관찰해보면 선호하는 브랜드 상품을 주로 구매한다는 것을 알 수 있었다.
브랜드 충성도가 높은 고객들을 위해 같은 브랜드 제품을 많이 구매하면 혜택을 주는 이벤트를
기획했다. 그래서 같은 브랜드 로고를 10개 이상 모으면 해당 브랜드 할인 쿠폰을 주는 로고
컬렉터를 만들었다.
[ 로고 적립 ]
각 브랜드 별로 적립 횟수를 보여준다.
[ 로고 수집 ]
사진에서 Google Cloud Vision API를 사용해
로고를 검출한다.
Web Server : Apache
Google Cloud Vision API
RDBMS : MySQL
Library : GCM
Language : Java, PHP
과학기술정보통신부에서는 SNS 등을 통해 무작위적으로 유포되는 합성사진이 진짜와 구별이
어려울 정도로 정교해지고 있으며 명예 훼손, 명의 도용, 사실 왜곡 등 합성사진 유포로 유발되는
사회 문제의 심각성이 커지고 있다는 점에 주목했다. 이를 해결하기 위해 합성 사진 탐지 대회를
개최하였다.
임무1 : 진짜 얼굴 이미지와 GAN 기술을 통해 합성된 얼굴 이미지 판별
임무2 : 진짜 얼굴 이미지와 얼굴 일부 합성, 얼굴 교체 등의 방법으로 합성된 이미지 판별
Lee Jung Hoon 14
- 1차 필터 : 얼굴이 포함되어 있는지 여부를 확인하는 신경망
- 2차 필터 : 입력 이미지 크기 별로 합성 이미지와 진짜 이미지를 판별하는 신경망 앙상블
- 두 가지 필터를 통과하여 입력 이미지가 합성일 확률을 산출
- 2차 필터에서는 앙상블을 구성하는 각 모델별 예측 확률의 평균 값을 최종 확률로 산출
Lee Jung Hoon 15
- 1차 필터 : 얼굴이 포함된 영역을 크롭하는 신경망
- 얼굴 부위별 필터 : 합성된 부위 별로 가장자리 번짐과 잘림 처리를 구분하여 학습시킨 신경망
- 해당 필터들을 순차적으로 통과하면서 입력 이미지가 합성일 확률을 산출
Description Optimized
CNN 아키텍쳐 Resnet 50
학습 클래스 수 2 ( 진짜 / 가짜 )
학습 데이터 수 약 33만장
테스트 데이터 수 약 9만장
학습 epoch 수 1~10
딥러닝 프레임 워크 : Pytouch
Progressive GAN
데이터 셋 : celebA
알고리즘 : GAN
Language : Python
CNN