2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 no. 7 2018년 5월 4차...

31
1 No. 7 2018년 5월 4 차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외 기업을 중심으로 연세대학교 4 차 산업혁명 플랫폼 http://4ir.yonsei.ac.kr 03722 서울시 서대문구 연세로 50 경영관 406 호 02-2123-3222 [email protected]

Upload: others

Post on 16-Oct-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

1

No. 7

2018년 5월

4 차 산업혁명 브리프

음성인식 인공지능

시스템의 시장현황:

국내외 기업을 중심으로

연세대학교 4 차 산업혁명 플랫폼

http://4ir.yonsei.ac.kr

03722 서울시 서대문구 연세로 50 경영관 406 호

02-2123-3222

[email protected]

Page 2: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

2

목 차

I.

서론…………………………………………………………………………………..

3p

II.

음성 인터페이스 시스템의 산업 동향

2.1. 해외시장 현황

4p

2.1.1. 아마존………………………………………………………………….. 4p

2.1.2. 구글………………………………………………………………………. 5p

2.1.3. 애플………………………………………………………………………... 6p

2.1.4. 마이크로소프트……………………………………………………… 6p

2.1.5.

2.2.

기타………………………………………………………………………..

국내시장 현황

8p

2.2.1. 삼성………………………………………………………………………........ 8p

2.2.2. SKT………………………………………………………………………………. 9p

2.2.3. KT………………………………………………………………………………… 9p

2.2.4. 네이버…………………………………………………………………………. 9p

2.2.5. 카카오 ……………………………………………………………………….. 11p

III. 보이스 UI 발전 방향 ………………………………………………… 12p

IV. 사용자 인식 및 만족………………………………………………….. 16p

V. 음성 인터페이스 전망 및 결론…………………………………….. 28p

Page 3: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

3

VI. 참고문헌……………………………………………………………………………………….. 30p

Page 4: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

4

1. 서론

오래 전부터, 사람들은 음성을 이용하여 기계에게 명령을 내리고, 소통하는 꿈을 꾸곤

했다. 음성이야 말로 인간이 가장 오랫동안 사용해 온 의사 소통 도구이기 때문이다.

1968년 스탠리 큐브릭 감독의 영화 “2001 : 스페이스 오디세이(Space Odyssey)”에서는

인공지능 수퍼컴퓨터이자 악역으로 HAL9000이 등장하였으며 스타트랙(Star Trek) 시리즈

에서는 별다른 입력장치 없이 우주 함선 U.S.S. 엔터프라이즈에 탑재된 슈퍼컴퓨터를

"Computer!"이라고 부르는 것만으로도 호출이 가능한 모습을 볼 수 있다.

음성 인식 기기의 시초는 1952년 미국 벨 연구소의 숫자 인식 시스템인 오드리(Audry)인

것으로 보인다. 이후 IBM이 1963년에 만든 기기 슈박스(Shoebox)는 음성을 통해 16개의

영어 단어를 인식할 수 있었다. 그 후 IBM은 대규모 음성 인식 시스템을 개발하는 데

성공했고 2000년대 들어 Apple의 시리(Siri), Google의 나우(Now), 삼성의 S보이스 등 개

인 비서형 음성인식 시스템이 출시되면서 본격 상용화되기에 이르렀다.

이들 음성인식 시스템은 먼저 각 기업의 스마트폰에 탑재되었으며 이후 사물 인터넷(이

하 IoT)가 결합됨에 따라 본격적으로 경쟁에 불이 붙을 것으로 예측되고 있고 지난 CES

2017에서는 실제로 올해의 핵심 기술 중 하나로 음성 인식, 제어를 꼽은 바 있다.

음성 인식 AI는 이제 막 시작 단계에 있는 시장으로 볼 수 있다. 시장 조사에 따르면 시

장은 향후 약 43%씩 성장하여 2020년에는 21억불 정도 규모에 이르고, 전 세계 가구

중 3.3%가 해당 기술을 사용할 것으로 예상되고 있다. 1 본 보고서에서는 음성인식 AI

시장 현황 및 발전 정도를 확인하고 이에 따른 시사점을 도출하고자 한다.

1 최지혜, 음성인식 AI 비서 시장의 현황과 시사점

Page 5: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

5

2. 음성 인식 시스템의 산업 동향

2.1. 해외 시장

최초로 스피커 형태 기기에 음성인식 AI 비서를 탑재한 제품은 아마존(Amazon)의

에코(Echo)이다. 그러나 곧 구글(Google)이 나우(Now)를 발전시킨 어시스턴트를 내

놓았으며 에코의 경쟁상대로 홈(Home)을 출시했다. 또한 마이크로소프트 역시 인

보크(Invoke)를 내놓으며 경쟁에 뛰어들고 있다.

2.1.1. 아마존

음성인식 AI 비서를 출시한 것은 아마존이 먼저이다. 2014년 11월 아마존은 음

성인식 비서 AI인 에코를 출시하며 성공적이라는 평가를 받았다. 아마존은 에코

이전 이북 리더인 킨들, 태블릿 PC인 Fire 등을 출시한 바 있다. 에코는 음성인

식 비서 서비스인 알렉사(Alexa)는 사용자의 음성을 알아듣고 연결된 네트워크

를 통해 날씨를 알려주거나, 질문에 대한 답 검색, 음악 재생, 물건 주문, 스케

줄 관리 등이 가능하다. 에코는 원거리 음장 음성 인식 기술을 적용하여 주위

소음에 방해 받지 않고 명령을 인식할 수 있으며 아마존의 자체 클라우드 시스

템인 아마존 웹 서비스를 통해 질문을 분석하고 명령을 수행하게 된다. 아마존

은 2015년 알렉사 소프트웨어와 연동할 수 있는 알렉사 스킬 키트(Alexa Skills

Kit)를 공개하기도 하였는데, 이 덕분에 외부 개발자들은 이를 이용하여 에코와

연동할 수 있는 애플리케이션이나 서비스를 추가할 수 있게 되었다. 2 다른 기

업들의 경우 자유로이 알렉사(Alexa)의 음성인식 및 피드백 시스템을 활용할 수

2 ibid

Page 6: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

6

있기 때문에 장기적으로 에코가 홈 오토메이션 시스템을 제어하는 허브 기능할

수 있다는 예측도 제기되고 있으며 현재 미국 내에서 높은 소비자 만족도를 최

고를 기록하고 있으며 미국내 에코의 점유율은 70.6%로 과반 이상의 점유율을

보이고 있다. 3

아마존은 이 외에도 다양하게 라인업 확대를 이어나가고 있다. 2016년 3월 아마

존 탭과 에코 닷을 출시하여 각각 충전식 스피커와 스피커가 없는 음성인식 기

기를 선보였으며 2017년에는 카메라를 탑재한 에코 룩과 터치 스크린을 결합한

에코 쇼도 출시한 바 있다.

2.1.2. 구글

구글은 검색 기능을 확대하여 안드로이드 기반 지능형 개인 비서인 나우를 먼

저 내놓으며 음성 인식 시스템 시장에 뛰어들었다. 나우는 질문에 대답하거나

추천을 생성하고, 웹서비스에 대한 요청을 처리하는 자연 언어 사용자 인터페이

스를 사용하는 방식으로 돌아간다. 4 이후 구글은 구글 나우에서 AI 기능을 강

화한 버전으로 구글 어시스턴트를 구축하였으며 이어 홈 오토메이션을 주력 기

능으로 한 구글 홈을 출시했다. 이용자는 구글 홈을 이용하여 음악 재생, 일기

예보 확인, 물건 주문 등을 할 수 있다. 구글은 지난 2014년 네스트 랩(Nest

Lab)을 인수하여 구글 네스트라는 플랫폼을 구축하고 IoT 전용 OS인 브릴로

(Brillo)를 출시하였다. 구글은 AI 스피커를 이용하여 기존 플랫폼을 연결하는 인

3 양의정, 'AI스피커 1위' 아마존, 영상 통화 메시징 갖춘 '에코 쇼' 공개‘, 녹색경제(2017,05,10)

4 이규섭, 인공지능기반 음성인식, 사람보다 낫다(해외사업자의 음성인식기술 활용 서비스 중심으

로), KT경제경영연구소(2016,09.30)

Page 7: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

7

터페이스를 구축하고자 한다. 아마존과 비교하였을 때 구글은 기존에 보유하고

있던 강력한 검색 엔진과 오랜 기간에 걸쳐 축적된 사용자 데이터 등 상대적으

로 이점을 보유하고 있다.

외부 개발자들 역시 구글 홈에 서비스를 연동시킬 수 있다. 지난 2016년 12월

“Actions on Google”로 명명된 구글 어시스턴트 개발자용 플랫폼이 개발되었으

며 외부 개발자들은 이 플랫폼을 활용하여 서드파티 서비스를 연동시킬 수 있

다.

2.1.3. 애플

애플은 2011년 음성인식 기능인 시리(Siri)를 선보인 바 있다. 처음 시리는 실용

성이 부족하고 음성 인식 능력이 부족한 것으로 평가되었으나 점차 확장성을

늘려가고 있다.시리는 다른 알렉사나 구글 어시스턴트와는 다르게 딥러닝과 AI

기능을 이용한 내부 처리 시스템을 차용하고 있기 때문에 인터넷에 연결되어

있지 않을 때도 사용이 가능하다. 애플은 2014년부터 자사의 기기에 설치된

홈 앱을 통해 스마트기기나 액세서리를 조작할 수 있도록 IoT 플랫폼을 제공해

왔는데, 이를 바탕으로 최근 홈팟(Homepod)을 출시하기에 이르렀다. 홈팟은 애

플의 인공지능 음성 비서인 시리를 탑재하였으며 기기 내부에 빔포밍스피커와

4인치 서브 우퍼를 장착하여 오디오 기능을 강화하였다.

2.1.4. 마이크로소프트

마이크로 소프트는 2014년 개인 디지털 비서인 코타나를 출시했다. 코타나는

윈도우 10 운영체제에 우선적으로 적용되었으며 2015년 Ios와 안드로이드 OS

Page 8: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

8

에서도 코타나를 이용할 수 있게 되었다. 코타나는 머신 러닝기법을 이용하여

사용자의 개별 행동 방식을 학습하고 이에 적응할 수 있기 때문에 사용자에게

능동적으로 데이터 기반 맞춤형 서비스를 제공한다. 또한 코타나는 푸른색의 후

광을 이용하여 18가지 감정을 표현할 수 있기 떄문에 이용자들이 상대와 대화

하는 것과 같은 경험을 할 수 있다. 5

마이크로소프트는 최근 음향기기업체인 Harman/Kardon과 협력하여 AI 스피커

인 인보크(Invoke)를 출시했으며 HP의 기기에도 코타나를 적용하기로 계약을

체결한 바 있다.

표 1. AI 비서 서비스 비교

5 최지혜, 음성인식 AI의 가능성과 시사점

애플 시리 구글 어시스턴트 마이크로소프트 코

타나

구동 방식 홈버튼으로 구동 가

구동명령어로만 가

물리적 키로 구동

가능

사용자 프로필 기기 내 저장 클라우드 저장 클라우드에 저장

주 검색엔진 울프램 알파 구글 빙

주 웹브라우저 확인 불가 크롬 엣지

연동 기기 애플에서 출시된 모

든 기기

스마트폰(픽셀), 스

피커(구글 홈) 등

윈도우 10 OS 기반

PC, 모바일 기기, 스

Page 9: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

9

자료 : Search Engine Land & Fillehippo/ 최지혜, 음성인식 AI의 가능성과 시사점

2.1.5. 기타

중국의 경우 병음 체계를 기반으로 하고 있으며, 글자 수도 매우 많기 때문에

음성 인식 인터페이스가 매우 필요한 조건을 가지고 있다. 대표적 검색 엔진 기

업 Baidu의 경우 인공지능기반 음성인식 시스템 딥스피치를 개발하였고, 음성

인식 AI 비서 서비스인 Duer을 모바일 애플리케이션으로 출시한 바 있다.

일본에서는 NTT 도코모, 도요타, 후지쯔 등이 음성 인식 AI에 관여하고 있다.

NTT는 3G샤베테 콘서비스인 아이모도의 개인향 컨시어지 서비스인 아이컨쉐류

를 발전시켜 NTT 도코모 샤베테콘쉐루를 개발했다. 샤베테콘쉐루는 음성인식

기술을 차용하고 NTT의 강력한 네트워크 기술을 이용하여 외국어 통역 서비스

를 제공한다. 6 또 라인은 vinclu라는 스타트업을 인수하였다. Vinclu는 스마트홈

기기를 제어하고 물건을 주문하는 등의 홈 오토메이션 기기인 게이트박스

(Gatebox)를 개발하여 인간 형상으로 AI 를 구현할 수 있도록 했다.

2.2. 국내 시장

66 이규섭, 인공지능기반 음성인식, 사람보다 낫다(해외사업자의 음성인식기술 활용 서비스 중심으

로), KT경제경영연구소(2016,09.30)

피커(Inovke)

Page 10: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

10

2.2.1. 삼성7

삼성은 그동안 자사 핸드폰에 S-보이스를 탑재하여 애플의 시리와 경쟁해왔다.

이후 2017년 3월 말 자사의 갤럭시 s8에 AI 비서 UI인 빅스비를 출시하였다.

빅스비는 외국어 번역, 상품 정보 제공, GPS 설정시 장소 정보 제공, 정보 탐색,

메신저 문자 발신 등이 가능하다.

삼성은 핸드폰 뿐만 아니라 다양한 제품으로 빅스비를 확대 적용하고 있는데,

패밀리허브 2.0 냉장고에 빅스비를 적용하였으며 향후 TV를 포함한 가전제품에

빅스비를 모두 적용할 예정이다. 올해 하반기에는 빅스비를 탑재한 인공지능(AI)

스피커를 출시할 예정에 있다.

2.2.2. SKT

국내에 인공지능 AI 스피커를 최초로 출시한 기업이 바로 SKT이다. SKT의 ‘누구’

는 음성인식을 통해 작동하며 스피커를 통해 연결된 기기들을 제어하고 날씨

등의 정보를 제공하며 KEB 하나은행과 함께 음성 금융 서비스를 제공하고 있다.

8

2.2.3. KT

KT는 SKT의 ‘누구’와 유사한 Al 음성인식 스피커 ‘기가지니’를 출시하여 활발한

마케팅을 벌이고 있다. 기가지니 역시 관련 가전제품을 제어하고, 알람, 스케쥴

7 박영민, 삼성, 하반기 AI스피커 출시…'빅스비2.0' 시동, 지디넷 코리아(2018.02.27)

8 차은지, '말로 하는' 금융서비스...은행권, 텍스트 넘어 음성인식 고도화 '승부', .EBIN(2018.02.

Page 11: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

11

관리, 날씨 등 정보 제공 등의 서비스를 이용할 수 있도록 하며, 특히 카메라를

이용하여 홈캠으로도 사용할 수 있다는 점을 특징으로 갖는다. 기가지니의 경우

자동차와 연동하여 차량 제어를 할 수 있는 등 다양한 영역으로 확장을 계획하

고 있다.

2.2.4 네이버 9,10

네이버는 AI 알고리즘을 적용한 음성인식 비서 클로바를 탑재한 AI 스피커 ‘프

렌즈’를 2017년 10월 출시했다. 클로바는 사용자가 이용할 경우 데이터를 누적

하여 사용자의 선호를 파악하고 스스로 판단할 수 있도록 설계되었다. 최근 네

이버는 LG 유플러스와 함께 인터넷 TV와 IoT 서비스를 제공하는 스마트홈서비

스 ‘유플러스 우리집AI’와 프렌즈 플러스를 선보이며 집안의 모든 가전 제품을

제어할 수 있는 능력을 선보였다. 또한 네이버는 AI 스피커에 가상화폐 시세 조

회서비스도 탑재하였으며 더불어 음성 통화 기능을 추가하여 현재 SKT, KT 및

LG 유플러스 3사가 중심으로 돌아가고 있는 통신 시장에 도전장을 내밀기도 하

였다.

2.2.5 카카오 11

카카오의 경우 음성인식 시스템인 ‘뉴톤’을 개발하여 외부 개발자에게 개발툴을

공개하기도 하였다. 현재 카카오앱, 카카오 내비 등에 뉴톤이 탑재되어 있으며

9 신무경, 네이버, AI 스피커에 음성통화 기능 추가, 동아닷컴(2018.03.02)

10 정문경,네이버, AI 플랫폼 '클로바'에 전화 기능 넣는다, 뉴스토마토(2018.03.04)

11 장형태, '카카오 미니' 10만대 판매 돌풍 독자기술 '카카오 I'로 AI 영토 넓힌다, 조선비즈

(2018.03.05)

Page 12: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

12

이후 다른 앱에도 이를 확대 적용할 예정에 있다. 또한 카카오는 여러 업체와

손잡고 AI 시장에 영향력을 확대하기 위해 노력 중에 있다. 현대 자동차(음성인

식 네비게이션), 삼성전자(스마트 가전), 포스코(스마트홈)등과 손잡고 카카오의

AI 서비스를 제공하고 있으며 카카오 I 오픈빌더를 무료로 제공하여 사용자를

늘릴 계획에 있다.

최근 자체 기술인 인공지능 스피커 카카오 미니를 2017년 11월 출시하여 약

10만대를 파는 성과를 올리기도 하였다. 카카오 미니는 택시 부르기, 교통 안내,

음식 주문 등 생활 밀착형 서비스 제공에 집중하고 있으며 향후 카메라를 탑재

한 카카오 미니 업그레이드 버전을 출시하고, 올바른 운동 자세를 교정하는 등

의 서비스를 제공할 예정이다.

3. 보이스 UI의 발전 방향

3.1. Voice UI 인프라 개발

Voice UI는 사람의 음성 인식을 통해 컴퓨터나 기기를 조정할 수 있도록 한다. 갈수

록 이 기술은 현저히 발달하고 있다. 90년대에는 인터넷, 2000년대에는 모바일, 그리

고 현재의 혁신은 바로 voice UI다.

최근 몇 년간 우리 현대 기술은 큰 발전을 보여왔고, 그 중 음성 인식 기기들의 경

우 인식률이 거의 95퍼센트 정확성에 도달하고 있다.12 일반 인간보다 높은 정확성

을 선보이고 있는 것이다. 본 기술이 발전하면 발전할수록 음성 기반 시설이 확장될

것으로 예측되고 있으며 이미 아마존, 애플, 구글, 마이크로 소프트 등 유수 기업들

12 Voice is the next big thing : Why Now?( https://medium.com/point-nine-news/voice-is-the-next-big-thing-

913b9bbf9016)

Page 13: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

13

은 음성 기반 하드웨어, 소프트웨어를 사용한 플랫폼 등을 속속들이 선보이고 있다.

보이스 인프라 개발은 크게 3개의 요인으로 분류할 수 있다: 1) 음성을 인터페이스

로서 구현할 수 있게 만들어주는 하드웨어의 확대 보급 2) 개발자들의 음성 우선

어플리케이션 제작을 지원하는 소프트웨어 환경 구축, 3) 인프라의 효율적인 유통과

금전적 보상을 가능하게 하는 환경 조성 등이 바로 그러한 요인이다.

3.1.1. 음성인식 기기의 확장 보급

우선 음성인식 기기란 주요 입출력 인터페이스가 음성인 지능형 장치를 말한

다. 현재 음성인식 기기 시장에서 강세를 보이고 있는 것은 2014년 11월 가장

먼저 출시된 아마존의 에코로 앞서 언급된 바와 같이 미국 시장의 약 70%를

점유하고 있는 것으로 보이나, 구글의 홈, 소니의 LF-S50G, 애플의 홈팟, 삼성

의 빅스비에 이르기까지 많은 기업들이 음성 인식 기기를 내놓고 있으며, 디

바이스의 기능 향상 역시 빠르게 진행되고 있는 실정이다.

3.1.2. 음성 인식 애플리케이션 개발을 위한 소프트웨어 블록 구현

기업들은 음성 인식 API를 개발업자들에게 개방하여 음성 인식 애플리케이션

개발을 촉진하고 있다. 음성 인식 기술이 향상됨과 동시에 많은 개발자들이

이러한 애플리케이션 개발에 참여하고 있어 비용도 빠르게 낮아지고 있기 때

문에 많은 기업들이 API 제품을 보다 저렴한 가격에 제공할 수 있게 되었다.

일례로 아마존은 음성과 텍스트를 이용하여 대화형 인터페이스를 구축할 수

있는 렉스(Lex), 텍스트를 문맥과 발음까지 구분하여 재현하는 폴리(Poly) 등을

선보이기도 하였으며 상당수 제품은 구글 스피치 API를 탑재하고 있기도 하다.

3.2. 음성 인식 기기의 효율적 유통 및 기능 확대를 가능하게 하는 환경의

Page 14: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

14

조성

음성 인식 애플리케이션 및 기기의 보급이 확대됨에 따라 이들 장치의 효율적

인 유통과 화폐 보상을 가능하게 하는 플랫폼이 등장하였을 뿐 아니라, 데이

터 분석, 마케팅 서비스 제공 등 이들 기기를 이용하여 새로운 기능을 제공하

는 관련 서비스 영역이 점차 등장하고 있다. 실제로 2017년 아마존의 알렉사

와 관련된 서비스는 15,069개에 이른다.

3.2.1. Voice UI 의 기술적 발전13

음성 인식 기술의 발전으로 인해 사람들은 목소리만으로도 기기를 제어할 수

있게 되었으며 더 많은 일을 할 수 있게 되었다. 오늘날 빠른 기술 발전 덕분에

음성 인식 기술은 더 빠르게 영리해지고 있으며, 사용자들의 행동 패턴을 빠르게

학습하여 더 편안한 생활을 지원하고 있는 것이다. 그렇다면 기술적 측면에서 음

성 인식 기술을 발달할 수 있게 만드는 요인은 무엇일까? 아마존에 따르면 음성

인식 기술을 가속화시키는 요인으로는 아래의 4가지를 꼽을 수 있다. 첫째로 상

당수의 웹 서비스와 IoT가 개방되어 있다는 사실이다. 이들은 음성 인식 기술과

결합하여 센서 뿐 아니라 목소리를 이용할 수 있기 때문에 통합적인 스마트 홈

서비스를 제공할 수 있다. 두 번째로는 과학 접근성의 향상이다. 과학 기술은 이

제 전문가들의 영역이 아니다. 누구든 자동 음성 인식(automatic speech

recognition), 자연어 이해(natural language understanding) 텍스트를 음성으로 전

환하는 기술(and text to speech) 등에 접근하고 이를 이용하여 새로운 무엇인가를

만들어낼 수 있다. 많은 기업들이 자신들의 음성인식 플랫폼에 대한 제3자 접근

13What Is a Voice User Interface (VUI)? (https://developer.amazon.com/alexa-skills-kit/vui)

Page 15: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

15

을 허용하고 있으며 이를 통해 새로운 애플리케이션이나 기술을 선보이고 있기

도 하다. 세 번째로는 음성 인식 기술을 담게 되는 하드웨어의 발전이다. 소프트

웨어가 괄목할 만한 발전을 이룬다고 하여도, 이를 담는 그릇인 하드웨어의 발전

이 함께 하지 않으면 음성 인식 기술의 구현은 어려웠을지도 모른다. 그러나 현

재 보이스 입출력을 담당하는 하드웨어의 기술 역시 혁신을 거듭하고 있어 몇

달 전과 비교하여 더 작은 크기에 더 우수한 성능을 가진 기기를 만나는 것이

어렵지 않다. 마지막으로 아마존은 음성 인식 기술 발전에 가장 크게 기여하는

요소로 AI를 꼽는다. AI를 기반으로 한 머신 러닝의 발전은 음성 인식 기술을 탑

재한 기기로 하여금 사용자의 언어 습관, 선호도 및 문맥까지도 이해하여 서비스

를 제공할 수 있도록 만들어주고 있는 것이다. 라이나 생명 등 상당수 기업에서

는 이미 음성인식 AI를 이용한 전화상담 서비스를 시행하고 있으며, 고객들로부

터 긍정적인 반응을 이끌어내고 있는 상황이다.

앞서 음성 인식기술의 활용 현황에서 관찰했듯, 음성 인식 기술은 가상 비서

영역에서 가장 적극적으로 활용되고 있는 것으로 보인다. 인공지능과 결합하여

스마트폰 기반 대화형 개인 비서, 스피커형 홈허브, 챗봇 등 신산업에 확대 적용

되면서 최고의 사용자 인터페이스(UI)로 각광받고 있는 것이다. 이러한 기술을 개

발, 확보하기 위해 글로벌 사업자들은 스타트업을 인수하거나 기술 투자를 전개

하고 있으며 이를 통한 기존 사업 영역을 넘어 새로운 사업 확장을 추진하고 있

어 이 후 다양한 영역에서도 두각을 나타낼 것으로 예측되고 있다.

또 하나의 주목할만한 발전은 소비자의 개별 수요에 맞춘 서비스 제공과 결합된

상품의 등장이다.14 HBO 및 Netflix와 같은 OTT 플랫폼은 시청자의 큐레이션 욕구를

14 Customization and Curation: The Key to a Personalized Viewing

Page 16: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

16

충족시킬 수 있도록 사용자의 시청 데이터를 사용하여 시청자에게 맞춤 설정된 재

생 목록과 콘텐츠를 제공하고 있으며 이를 통해 선택의 폭을 넓히고 프리미엄 콘텐

츠를 직관적이고 선별 된 형식으로 선보이고 있다. 또한 스마트 재생 목록을 사용하

여 콘텐츠 소유자가 라이브러리를 쉽게 구축할 수 있다는 점도 장점으로 꼽히고 있

다. 큐레이션은 콘텐츠 소유자가 자신의 라이브러리를 쉽게 구성 할 수있을뿐 아니

라 관여하는 콘텐츠를 효율적으로 시청자에게 전달할 수 있는 수단인 것이다. 이는

음성인식 기기와 결합하여 소비자들에게 더욱 혁신적인 서비스를 제공하는데 이용

되고 있다. 지난 2013년 KT는 다음 커뮤니케이션과 함께 음성인식기능과 큐레이션

서비스를 결합한 ‘매직 보이스’를 처음 선보인 바 있으며, 이제 업계에서 큐레이션

서비스는 선택이 아닌 필수로 여겨지고 있다. 삼성전자의 빅스비, LG전자의 딥씽큐

등은 모두 소비자의 패턴을 학습하여 서비스를 제공하는 기능을 지니고 있으며 제

품을 더 많이 사용할수록 사용자의 취향에 맞는 서비스를 제공할 수 있게 된다.

IPTV 업계에서 역시 큐레이션 서비스는 필수이다. SK브로드밴드는 자사의 IPTV에 인

공지능 기반의 자연어 인식 음성검색 기능과 추천기능을 추가하였으며 고객의 시청,

검색 이력 등을 분석하여 추천영화, TV 다시 보기 서비스 등을 제공하고 있다. 또한

LG 유플러스의 경우 IPTV 서비스와 네이버의 AI 서비스를 결합한 바 있으며 나아가

유튜브, 넷플릭스 등 OTT 업체와의 제휴를 통해 콘텐츠 기반을 확대하고 있다. 15

4. 사용자 인식 및 만족

Experience(http://www.zype.com/video-customization-and-curation/)

15 주인 따라 골라주는 TV 이제 선택아닌 필수

(http://moneys.mt.co.kr/news/mwView.php?type=1&no=2018051416598058903&outlink=1)

Page 17: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

17

많은 기업들이 다양한 보이스 UI 제품을 내놓아 시장 내 경쟁이 높아지고 있으며

기업들은 음성 인식 제품 시장을 선점하기 위해 치열한 경합을 벌이고 있다. 시장

선점을 통해 자사 기술을 기술 표준으로 만들 수 있게 되는 만큼 소비자의 마음을

사로잡는 것도 기업들에게는 매우 중요한 일이라고 하겠다.

경영학, 혹은 심리학적으로 소비자의 상품 선호도를 살필 때 어느 정도 소비자가 상

품에 선호도를 느끼는지를 몰입과 관여도로 살필 수 있으며 소비자가 어떤 제품을

선택할지 분석하는 데에 중요한 배경을 주는 것이 몰입도와 관여도라고 볼 수 있다.

몰입이란 무엇인가? 몰입 이론(flow theory) 에 의하면 몰입이란 어떤 것에 깊이 빠

져들어 어느 한곳에 모든 정신을 집중하는 일을 말한다(Csikszentmihalyj, 1991). 노

박의 인터넷 소비자 몰입에 대한 연구에서는 몰입(Flow)을 구매에 직접적으로 영향

을 주는 요인으로 보고 있다(Novak et. Al 2000). 플로우 이론은 음성 인식 기술의 특

징을 고려할 때 더욱 의미를 갖는데, 중요한 것은 음성 인식 기반 기기들아 소비자

가 몸소 체험하는 형식의 교류가 이루어지는 상품이라는 사실이다. 플로우, 즉 몰입

은 몰입에 기반한 상호 작용성, 컴퓨터 유희성, 컴퓨터 불안감 등을 통해 서비스 만

족, 태도, 그리고 소비자의 사용 의도에 영향을 주게 된다(성기문 외, 2009). 즉 음성

인식 기기에 대한 몰입이 성공적으로 이루어질 때 사용자는 높은 만족도를 느끼게

되며, 음성 인식 기기의 경우 사용자와의 상호 의존을 통해 사용자의 학습 패턴 등

을 학습할 수 있게 된다. 상호의존성, 대화의 다양성과 깊이, 구성원간의 관계유지,

구성원 간의 이해, 그리고 사회적 전환활동 등 역시 몰입 수준에 긍정적인 영향을

주게 된다(김봉준 외, 2004). 재미, 기술 숙련도, 이용 용이성, 즉시 접속 가능성, 도

전감 등의 요인 또한 몰입도에 긍정적인 영향을 끼치는 요인이다.

몰입도에 이어 관여도란 특정상황에서 특정자극에 의해 야기 되는 지각된 개인의

Page 18: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

18

중요성 또는 관심의 정도를 의미하며, 상품 선호도와 관계가 있다(Antil, 1984). 구매

상황에서 소비자는 스스로가 제품에 대하여 얼마나 관심을 가지고 있으며 중요시

여기는지, 즉 관여수준에 따라 구매에 대한 태도가 달라지게 된다. 관여도의 개념은

마케팅 및 소비자 행동 분야에서 다양한 방식으로 적용되고 있다.

이러한 측면에서 몰입과 관여도는 소비자의 음성인식 기술 소비에 영향을 준다고

볼 수 있다. 이용자 만족도를 통해 기업들은 충성도를 확보하게 됨으로써 시장 점유

율을 높일 수 있게 되며(백영석 외, 2015) 기술 발전에 기여할 수도 있게 된다.

사람들이 음성 인식 기기를 이용하여 가장 많이 하는 활동은 무엇일까? 리서치

회사인 Creative Solution and Experian는 아마존 에코를 사용하는 사용자들 1,300명

을 대상으로 설문 조사를 실시하였는데, 이에 따르면 가장 인기가 높은 기능은 노래

재생 기능(유, 무료 및 자녀에게 틀어주는 용도 모두 포함)이었으며 조명 제어, 타이

머 설정이 그 뒤를 이었다. 16

16 The voice-first user interface has gone

mainstream(https://www.recode.net/2016/6/7/11868200/the-voice-first-user-interface-has-gone-

mainstream)

Page 19: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

19

출처 : Creative strategies, in Consumer Smart Survey

IFTTT 사용자 1,500명을 대상으로 시행한 설문조사에서도 비슷한 결과가 나왔으며 이에

더해 사용 빈도가 높은 기능으로 날씨 확인이 있었다. 응답자 중 약 70%가 음성 인식

기기를 사용한지 1년이 채 되지 않았으며 98%가 5년 후에도 음성 인식 기기를 사용할

것이라 응답하였다. 사용 중인 인터페이스 비율은 아마존의 알렉사가 가장 높았다. 응답

자 중 70%가 아마존 에코, 에코 닷, 에코 탭을 이용하고 있었으며 8%의 유저는 알렉사

0 20 40 60 80

타이머 설정

노래 재생

뉴스 읽어주기

알람 설정

시간 확인

농담 따먹기

블루투스를 이용하여 핸드폰에 연결

조명 제어

쇼핑 카트에 물건 담기

유료 음악 서비스 접속

할일 추가

아마존 프라임에서 물건 구매

스마트 온도계 조절

자녀에게 음악 틀어주기

달력에 스케쥴 기입

기타

무엇인가 기록

우버에 전화

그림 1. 아마존 에코의 사용 영역(다중 체크)

단위 : %

Page 20: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

20

기기와 구글 홈을 동시에 이용하고 있다고 응답했다. 17

비슷하게 시리 및 구글 어시스턴트를 이용하는 518명을 대상으로 한 설문조사에서

는 인터넷 검색, 길 찾기, 전화 걸기 등의 기능을 이용하는 것으로 드러났다.

출처 : Creative Strategies in Consumer Smart Survey

이러한 결과는 사람들이 아직 GUI 스마트 폰을 활용할 때 보다 음성 인식 기기를 사용

할 때 보다 간단한 기능만을 사용하고 있음을 나타내는 것으로 보인다. 음성 인식 기기

를 광고할 때 많은 업체들이 대신 쇼핑을 해주는 기능을 홍보하지만, 디자인 업체인

Huge가 발표한 설문조사에 따르면 500명의 응답자 중 오직 14.3%만이 쇼핑에 스마트

17 2017 Voice assistant trends(https://ifttt.com/blog/2017/07/voice-assistant-trends-infographic)

그림2. 시리,OK 구글 및 구글 보이스 기능 이용 빈도

Page 21: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

21

홈 기기를 사용하고 있었으며 응답자의 8.33%는 사용 중인 음성인식 기기에 쇼핑 기능

이 있다는 사실조차 알지 못했다.

반면 또 다른 Voice Ui를 활용한 가상 비서에 대한 설문을 보면 2017년 소비자들은 대

개 상품에 대한 만족을 느낀다는 것으로 나타나고, 자주 사용하는 것으로 나타났다. 가장

장점으로 꼽는 점은 편리성 (ease of use), 정확정 (accuracy), 그리고 기능성 (functionality)

이었다. 해당 연구는 아마존 알렉사와 구글 홈 제품들을 대상으로 한 설문조사 연구였으

며 이 설문은 대쉬봇 (Dashbot)이라는 로봇 분석 플랫폼이고 연구는 2017년도에 진행된

설문이다. Dashbot 플랫폼 주관하에 Survata 라는 샌프란시스코에 독립 연구 기관과 협

력하여 1010명의 사용자를 2017년 11월 16일 – 11월 17일 동안 온라인으로 설문을 진

행하여 기사로 출시된 내용이다.

출처 : “Impact of Alexa and Google Home on Consumer Behavior”, Chatbots Magazine, 2017.

그림 3. 기기 사용 빈도

Page 22: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

22

사용의 빈도성을 보면 소비자의 57%가 음성인식 기기를 하루에 여러 번 사용하는 것으

로 답해왔고, 17.4%는 최소 하루에 한 번 사용하는 것으로 응답했다. 소비자 74% 가 매

일 가상 비서를 사용하는 것이다.

출처 : “Impact of Alexa and Google Home on Consumer Behavior”, Chatbots Magazine, 2017

또한 제품이 일상의 루틴을 바꾸었냐고 물어봤을 때, 소비자들의 20% 뿐만이 “아니오”나

“잘 모르겠다”라고 답하였다. 부가 설명을 물어본 경우, 많은 사람들은 오히려 기대 이상

으로 활용적이라 놀랐다고 답하였고, 가상 비서에 대한 의존성이 커지는 게 느껴진다고

말할 정도였다.

그림 4. 음성인식기기가 당신의 행동 또는 일상을 바꾸고 있습니까?

Page 23: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

23

출처 : “Impact of Alexa and Google Home on Consumer Behavior”, Chatbots Magazine, 2017.

어떤 용도로 아마존 알렉사와 구글 홈 제품들이 사용되고 있는지 사례를 보는지 질문하

였을 때 가장 많이 이용했던 기능은 음악 듣기였고, 그 다음이 날씨 예보 확인이었다. 놀

랍게도 가정 자동화 (home automation)이 가장 낮은 빈도를 보였다. 스포츠 경기결과 정

보 확인과 게임도 가상 비서 사용 사례에서 낮은 빈도를 보였다.

63%의 응답자가 음악을 하루 종일 여러 번 듣는다고 했고, 53%의 응답자가 정보 확인

기능 역시 하루에 여러 번 이용하고 있다고 응답했다. 일기 예보 확인도 흔한 활동이고,

일상적인 루틴으로 나타났다. 43%의 응답자가 매일 일기 예보를 확인하고, 38% 하루에

여러 번 확인하고 있었다. 게임 기능을 이용하는 응답자의 경우 의외로 30% 밖에 없었

지만, 게임을 하는 응답자중 과반수 이상인 56%는 하루에 한번 이상 이용한다고 밝혔다.

그림 5. 사용 기능의 종류

Page 24: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

24

남성과 여성에 따라 차이도 있었다. 설문 결과 남성이 더 가정자동화에 가상 비서를 많

이 사용하는 것으로 드러났다(남성은 30%, 여성은 24%). 스포츠 경기 정보 이용률의 경

우 남성 응답자는 46%, 여성 응답자는 24%로 나타났다. 남성의 54%는 기기를 통해 뉴

스를 접하는 반면 여성은 44%였고, 일기예보 확인은 여성의 경우 73%가 이용하였으며

남자는 65%였다. 음악 감상과 정보 확인도 여성이 조금 더 사용하는 걸로 나타났다.

사용자 만족도에 대한 조사는 다음과 같다.

출처 : “Impact of Alexa and Google Home on Consumer Behavior”, Chatbots Magazine, 2017.)

사용자들은 기기가 사용자 명령을 인지하는 것과 명령을 응답하는 능력에 전반적인 만족

도를 보였다. 43%는 “매우 만족”으로 응답했고 31%가 “어느 정도 만족”으로 응답했으며

13%의 경우 불만족하는 것으로 나타났다.

그림 6. 사용자 만족도

Page 25: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

25

또한 사용자들에게 음성인식 기기의 가장 놀라운 점을 물었을 때 사람들은 기기가 명령

을 인지하는 능력, 다양한 기능, 사용 편리성, 응답의 속도와 정확성, 기기의 지능, 그리

고 편의성 등을 꼽았다.

기기의 유머 감각과 업데이트 없이도 더 “스마트”해지는 가상 비서, 스피커의 고화질적인

부분이 거의 인간과 흡사하다고 답하기도 했다. 이 점이 가장 가상비서의 인상 깊은 응

답이라고 판단할 수 있다.

알렉사과 구글홈을 5점 만점에서 평가를 부탁한 뒤 다른 이에게 추천할 의향이 있냐고

물었을 때 결과는 다음과 같았다.

출처 : “Impact of Alexa and Google Home on Consumer Behavior”, Chatbots Magazine, 2017

그림 7. 전체 기기의 평점

Page 26: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

26

출처 : “Impact of Alexa and Google Home on Consumer Behavior”, Chatbots Magazine, 2017

위의 조사를 종합하여 볼 때 VUI의 가장 문제 중 하나로는 VUI가 무엇을 할 수 있는

지를 소비자들이 정확히 인식하지 못하고 있다는 것을 꼽을 수 있다. 2016년 Microsoft

Research UK는 평소 음성 비서 기기를 사용하는 14명을 대상으로 심층 인터뷰를 진행하

였으며, 고객들의 가장 큰 불만 중 하나가 바로 기기가 실제로 무엇을 할 수 있는지를

잘 모른다는 것이라는 점을 지적한 바 있다. 18사용시 기기가 어떤 기능을 가지고 어떻게

동작하는지, 학습이 이루어지고 있는지 여부에 대해 예측하기 어렵다는 것이다.

일부 사용자들의 경우 음성을 기기와의 커뮤니케이션의 수단으로서 적극적으로 받아들이

고 있으나, 상당수의 경우 아직 음성을 인터페이스로서 이용하는 데 불편을 느끼고 있다.

Microsoft 의 Ewa Luga는 사용자들이 음성 인식 기기와 상호 작용을 하기 위해서는 문장

18 “Like Having a Really bad PA”: The Gulf between User Expectation and Experience of

Conversational Agents (2016.1.1), Ewa Luger, Proceedings of CHI 2016

그림 8. 다른 이에게 추천하고 싶은 정도

Page 27: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

27

구조를 단순화하고, 악센트를 변경하여 기기가 목소리를 인식하기 쉽도록 변경해야 한다

는 점을 지적했다.19 자동차의 음성 제어 시스템을 중점으로 시행한 유타 대학의 연구20

에 따르면 사용자가 음성 UI를 사용하는 경우 최대 27초 가량 주의가 산만해지는 것으

로 드러났다. 음성 UI를 사용하는 경우 보통 멀티 태스킹 능력이 요구되기 때문에 이러

한 인지적 노력은 더욱 필요한 것으로 보인다.

또한 아마존 에코를 대상으로 한 코넬 대학의 조사21에 따르면 에코 사용자 중 73.4%가

커뮤니케이션 대상이기 전에 도구로 인식하고 있었으며 15.1%가 사람에 가까운 것으로

인식하고 있었다. 종합하여 사용자의 515는 에코를 전혀 의인화하여 인식하지 않았으며,

오직 19.5%만이 에코를 의인화하여 커뮤니케이션의 대상으로 인식하고 있는 것으로 보

인다. 이러한 연구는 기업들이 아직 음성 인식 기기의 역할을 과대 평가하고 있으며 당

분간은 보다 편리하며 음성 인식화된 스마트 폰 수준에 머물러 있을 것이라는 예측을 가

능하게 한다.

5. 음성 인터페이스 산업 전망 및 결론 22

19 Voice Interfaces Are Here. Are They Necessary?( https://www.fastcodesign.com/90135740/voice-

interfaces-are-here-are-they-

necessary?partner=rss&utm_content=buffer67543&utm_medium=social&utm_source=twitter.com

&utm_campaign=buffer)

20 Talking to your car is often distracting(https://www.eurekalert.org/pub_releases/2014-10/uou-

tty100314.php)

21 “Alexa is my new BFF”: Social Roles, User Satisfaction, and Personification of the Amazon Echo,

Amanda Purington, Jessie G. Taft, Shruti Sannon,Natalya N. Bazarova, Samuel Hardman Taylor,

Cornell University.

22 김범근, [생활 속으로 들어오는 인공지능] 불붙은 ‘AI 스피커 신세계‘, 이투데이(2018.03.05)

Page 28: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

28

인공 지능은 4차 산업혁명의 핵심 기술이라고 여겨지고 있으며, 국가 및 기업들

간 활발한 지원이 이루어지고 있다. 현재 독일과 미국이 인공 지능 및 4차 산업혁

명 기술 시장을 장악하고 있으나 중국, 일본 등이 이를 빠르게 추격하고 있으며 한

국 및 기타 국가들 역시 4차 산업혁명의 흐름을 따라잡기 위해 정부 측면에서 노

력하고 있다. 최근까지 성장세를 보여왔던 스마트폰 시장의 경우 스마트폰 기술 혁

신이 더디어짐에 따라 성장 속도가 줄어들고 있으며 대부분의 수요를 교체 수요에

의존해야 하는 상황이라 예측되고 있다. 이러한 상황에서 기업은 새로운 활로로서

사물인터넷(IoT)에 주목하고 있으며 많은 기업들이 AI 음성 인식 비서를 탑재한 스

피커를 출시함으로써 경쟁을 벌이고 있다. 오늘날 스마트폰 뿐 아니라, 가정용 음성

중심 기기까지 포함하는 경우, 이러한 형태의 음성 인식 기기는 약 3천 3백만대에

이를 것으로 예상되고 있다.23

한국의 경우 각 기업들과의 협력을 통해 음성 인식 금융 서비스, 종합 홈 오토메이

션AI 시서비스 제공 등 새로이 열린 AI 시장 선점을 목표로 활발하게 움직이고 있

다. 또한 애플, 마이크로소프트, 삼성 등 고객 충성도를 확보하고 있으며 자사 하드

웨어 제품을 내놓고 있는 기업의 경우 AI 비서 서비스를 자사 제품에 적용함으로써

고객 충성도를 높이고, 시장 점유율 역시 극대화하고자 하는 움직임을 보이고 있는

데 이는 시장 점유뿐 아니라 향후 음성 인터페이스의 표준을 선점하려는 노력으로

볼 수 있을 것이다. 특정 음성 인식 AI 소프트웨어나 스피커를 이용하여 더 많은

기기를 제어할수록 고객의 편의성을 극대화하고 시장을 점유할 기회가 높아질 것

23 Voice Interfaces Are Here. Are They Necessary?( https://www.fastcodesign.com/90135740/voice-

interfaces-are-here-are-they-

necessary?partner=rss&utm_content=buffer67543&utm_medium=social&utm_source=twitter.com

&utm_campaign=buffer)

Page 29: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

29

이기 때문이다.

반면 음성 인식 서비스 시장이 확대됨에 따라 부작용 이야기도 심심치 않게 흘러

나오고 있는 것이 사실이다. 먼저 먼저 이용자의 프라이버시 문제가 대두되고 있다.

매우 쉽게 음성이 수집되어 악용될 수 있기 때문이다. AI 스피커를 통해 무작위로

수집된 데이터가 기업들에게 저장되어 기업들의 파놉티콘 문제도 꾸준히 제기되고

있으며, 데이터 도난 및 해킹에 대한 우려도 존재한다.

음성 인식오류 등 AI 기술 자체의 내재적인 움직임 역시 문제가 되고 있다. 빠른

개선이 이루어지고 있는 것은 사실이나 아직 음성이나 문자 인식 오류가 빈번한

상황이기 때문이다. 이러한 문제를 해결하기 위해서는 보안 및 규제 문제 등이 먼

저 선결 과제로 지적되고 있으며 기술적인 측면에서는 음성 인식률을 높이고 자연

언어 처리기술 및 빅데이터 및 인공지능 분야에서의 연구가 지속적으로 개선되어

야 할 것이라고 보인다.

Page 30: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

30

6. 참고문헌

글로벌 ICT 기업의 가상비서서비스 동향, 진흥윤, 정보통신정책연구원(2015.10.01)

글로벌 IT 업체 동향 브리핑, 디지에코 보고서,

디지털 플랫폼과 인공지능의 이해, 김민식, 이가희, 정보통신정책연구원(2017.10.02)

한국의 성장동력, CES에서 길을 찾다, 이준, KIET (2017.02)

음성인식 AI 비서 시장의 현황과 시사점, 최지혜, 이선희, 정보통신정책연구원(2017.05)

양의정, 'AI스피커 1위' 아마존, 영상 통화 메시징 갖춘 '에코 쇼' 공개‘, 녹색경제(2017,05,10)

이규섭, 인공지능기반 음성인식, 사람보다 낫다(해외사업자의 음성인식기술 활용 서비스 중심으로),

KT경제경영연구소(2016,09.30)

박영민, 삼성, 하반기 AI스피커 출시…'빅스비2.0' 시동, 지디넷 코리아(2018.02.27)

김범근, [생활 속으로 들어오는 인공지능] 불붙은 ‘AI 스피커 신세계‘, 이투데이(2018.03.05)

장형태, '카카오 미니' 10만대 판매 돌풍 독자기술 '카카오 I'로 AI 영토 넓힌다, 조선비즈

(2018.03.05)

차은지, '말로 하는' 금융서비스...은행권, 텍스트 넘어 음성인식 고도화 '승부', .EBIN(2018.02.

신무경, 네이버, AI 스피커에 음성통화 기능 추가, 동아닷컴(2018.03.02)

정문경,네이버, AI 플랫폼 '클로바'에 전화 기능 넣는다, 뉴스토마토(2018.03.04)

주인 따라 골라주는 TV 이제 선택아닌 필수, Moneys(2018.05.16)

아마존 공식 홈페이지

2017 Voice assistant trends(https://ifttt.com/blog/2017/07/voice-assistant-trends-infographic)

Merritt, Arte. “The Impact of Alexa and Google Home on Consumer Behavior” (2017)

https://chatbotsmagazine.com/the-impact-of-alexa-and-google-home-on-consumer-behavior-

c5753d838a38

Voice Interfaces Are Here. Are They Necessary?( https://www.fastcodesign.com/90135740/voice-

interfaces-are-here-are-they-

necessary?partner=rss&utm_content=buffer67543&utm_medium=social&utm_source=twitter.com

&utm_campaign=buffer)

Page 31: 2018 54ir.yonsei.ac.kr/wp-content/uploads/2018/05/voice-brief.pdf · 1 No. 7 2018년 5월 4차 산업혁명 브리프 음성인식 인공지능 시스템의 시장현황: 국내외

31

“Alexa is my new BFF”: Social Roles, User Satisfaction, and Personification of the Amazon Echo,

Amanda Purington, Jessie G. Taft, Shruti Sannon,Natalya N. Bazarova, Samuel Hardman Taylor,

Cornell University.

“Like Having a Really bad PA”: The Gulf between User Expectation and Experience of Conversational

Agents (2016.1.1), Ewa Luger, Proceedings of CHI 2016

Talking to your car is often distracting(https://www.eurekalert.org/pub_releases/2014-10/uou-

tty100314.php)

The voice-first user interface has gone mainstream(https://www.recode.net/2016/6/7/11868200/the-

voice-first-user-interface-has-gone-mainstream)

Voice is the next big thing : Why Now?( https://medium.com/point-nine-news/voice-is-the-next-big-thing-

913b9bbf9016)

What Is a Voice User Interface (VUI)? (https://developer.amazon.com/alexa-skills-kit/vui)

연세대학교 경영연구소 연구 조교 김서희

연구 조교 이수지

연세대학교 경영연구소

박사 후 연구원 이서영