© kim, lee and chung, 2005. all rights are reserved. 김명호halra.knuw.ac.kr/multi/ch2.pdf ·...

© 김명호멀티미디어 시스템 © Kim, Lee and Chung, 2005. All rights are reserved.

제 2장. 사운드

2장 – 사운드2/63멀티미디어 시스템 개론

목차

사운드의 개념

사운드 데이터 코딩

미디

음성 데이터의 처리

음성을 기반으로 한 사용자 인터페이스

요약 및 참고문헌


사운드의 개념

사운드의 원리

– 정의

» 물체의 진동으로 인해 일어나는 물리적 현상

예) 바이올린 현을 켜거나 심벌즈를 부딪칠 때 나는 진동

– 물리적 원리

» 물체의 진동이 주변 공기로 퍼지면서 형성된 압력이 가해지면서

생성

– 파형

» 일정 간격으로 같은 패턴을 반복하는 압력의 파동 모양


사운드의 개념 (계속)

한주기 (one period)

공기압(air pressure)

시간의 경과

진폭(amplitude)

한주기 (one period)

공기압(air pressure)

시간의 경과

진폭(amplitude)

공기압에 의해 형성된 파형


사운드의 개념 (계속)– 주파수 (frequency)

» 1초당 주기 수, 주기 값의 역수

– 주기

» 같은 파형이 한 번 나타나는 데 소요되는 시간

» 주기적인 형태의 사운드(periodic sounds)인지할 수 있는 주기성을 갖는 사운드

악기, 성악, 바람 소리, 새의 지저귐

» 비주기적인 형태의 사운드(non-periodic sounds)주기적 사운드의 반대 개념

기침, 재채기, 노이즈, 물이 흐르는 소리


사운드의 개념 (계속)사운드 신호의 가청 주파수

– 사람의 대역폭 : 20 Hz ~ 20 kHz» 음악 사운드 및 음성의 주파수

» 멀티미디어 시스템에서 주로 사용됨

» 가청 주파수의 대역폭은 동물마다 다름 : 예) 박쥐

– 사운드 신호의 변조, 하드웨어 설계 등 사운드 데이터 처리에

이용

» 샘플링

아날로그 신호를 디지털 데이터로 변환

샘플링 기법 : 일정한 시간 간격으로 알아낸 아날로그 신호의 크기를디지털 데이터의 형태로 저장

원래의 아날로그 신호가 갖는 주기보다 2 배 이상 빠른 주기로

샘플링 하면 원래 신호와 거의 차이가 없는 사운드 정보를 얻게 됨

예) CD : 1 초에 44.1 k 번(44.1 kHz) 샘플링



주파수와 사운드의 강도

– 주파수

» 초당 주기 수(Hz) 또는 초당 사이클(cycle) 수(cps)

표 2 - 1 주파수 영역의 구분

구분 해당 범위

초 저주파(infrasonic) 0 ~ 20 Hz

인간의 가청 영역(audiosonic) 20 Hz ~ 20 kHz

초음파(ultrasonic) 20 kHz ~ 1 GHz

극 초음파(hypersonic) 1 GHz ~ 10 THz


사운드의 개념 (계속)– 사운드의 강도(intensity)

» 심리적인 요인을 배제한 물리적인 사운드의 크기

cf. 세기(loudness) : 심리적으로 느끼는 사운드의 크기

» 데시벨(decibel)사운드의 강도를 표현하는 기준 단위

고통 임계값 (threshold of pain) : 100 dB ~ 120 dB사운드 매체를 표현하고자 할 때 처리할 사운드의 강도를 어느 정도의

범위로 잡느냐 하는 결정에 유용하게 사용될 수 있음

dB = 20 log10(A / B)



진폭(amplitude)

시간의 경과

(a) 아날로그 파형

(b) 푸리에 분석된 결과

진폭(amplitude)

주파수의 크기

진폭(amplitude)

시간의 경과

(a) 아날로그 파형

(b) 푸리에 분석된 결과

진폭(amplitude)

주파수의 크기

스펙트럼

– 파형

» 푸리에 (Fourier) 분석을

이용해 여러 개의 다양한

주파수와 진폭을 갖는

스펙트럼 인자로 분해하여

표현 가능

아날로그 신호에 푸리에 분석을 적용한 예


사운드의 개념 (계속)» 각 스펙트럼 인자들을 중첩(superimpose)시키면 분석되기

이전의 원래의 파형 모양에 근사하게 됨

스펙트럼 인자들의 개수를 증가시키거나 더 큰 주파수

범위에서 스펙트럼 인자들을 구하면 더 정확한 파형 모양을

얻을 수 있음

» 고 차원의 사운드 처리 기법들을 다룰 수 있으므로, 다양한

응용 분야에 이용되고 있음



☞ 푸리에 분석

=> 아무리 복잡한 형태의 파형 이라도 진동수와 진폭이 다른 여러

개의 사인파들의 합으로 나타낼 수 있음

f(t) = A sin at + B sin bt + C sin ct + D sin dt + E sin et+ . . .[ f(t) : 시간 t에 따른 기압, 기체 밀도 등의 변화를 나타낸 함수A, B, C, D, E, … : 진폭을 나타내는 상수a, b, c, d, e, … : 진동수를 나타내는 상수 ]


사운드 데이터 코딩

사운드 데이터 코딩(coding)– 인코딩 (encoding)

» 아날로그 사운드 신호를 디지털 신호로 변환한 후 전송 선로를

통하여 전송하거나 기억 장소에 저장하기 전에 압축하는 과정

– 디코딩 (decoding)» 전송되거나 기억 장소에 저장된 디지털 신호를 원래의 아날로그

사운드 신호로 복원하는 과정

– 코딩 기법

» 파형 코딩

» 음원 코딩

» 혼성 코딩


사운드 데이터 코딩 (계속)

음질

(MOS)매우좋음

좋음

보통

나쁨

매우나쁨

혼성 코딩

파형 코딩

전송률 (Bit Rate)

음원 코딩

2 4 8 16 32 46

음질

(MOS)매우좋음

좋음

보통

나쁨

매우나쁨

혼성 코딩

파형 코딩

전송률 (Bit Rate)

음원 코딩

2 4 8 16 32 46

음성의 코딩 방법에 따른 음질 비교



파형 코딩 (waveform coding)– 사운드를 1 차원 시 계열(time-series) 데이터로 규정하여

사운드의 파형 자체를 복원 가능하도록 코딩하는 방법

– PCM, DPCM, ADPCM 방법 존재

» 4장에서 더 자세히 다룸


사운드 데이터 코딩 (계속)– PCM

» 연속적으로 변화하는 아날로그 신호의 강도를 주기적으로

샘플링 하는 방법

» 양자화 잡음 (quantization noise)표현된 신호 값과 원래 신호 값과의 차이

원래 아날로그 신호가 갖고 있는 강도의 변화 폭이 작거나

디지털 데이터의 단위당 비트 수가 클수록 그 크기가 감소



시간의 경과s1 s2 s3 s4 s5 s60

1

2

3

4

5

6

7

신호의강도

시간의 경과s1 s2 s3 s4 s5 s60

1

2

3

4

5

6

7

0

1

2

3

4

5

6

7

신호의강도

아날로그 신호를 PCM 방식을 통해 코딩하는 예


사운드 데이터 코딩 (계속)– DPCM

» 바로 이전에 샘플링 되었던 신호 값과의 차이를 코딩하는 방법

아날로그 신호는 인접한 범위 내에서 그 크기 변화가 심하지 않기

때문에 DPCM이 가능

– ADPCM» 미리 예상한 신호 값과 원래의 신호 값의 차이에 따라

스케일(scale)을 다르게 하여 코딩하는 방법

압축 알고리즘의 단순성과 뛰어난 음질로 여러 분야에서 응용 되고

있음



– 예) 사람의 음성

» 대역폭: 약 4 kHz, 샘플링: 8 kHz(16 kHz)

» 샘플 당 사용되는 데이터 최소 비트 수 : 2 bits

» 코딩에 필요한 최소 전송률 : 8 kHz * 2 bits = 16 Kbps

» 16 Kbps 이상의 전송률을 사용하면, 원음과 가깝게 재현할

수 있음


사운드 데이터 코딩 (계속)– SBC (Sub-band coding)

» 아날로그 신호를 주파수 대역 상에서 다수 개의 주파수 대역으로

분리하고, 그 후에 각 아날로그 신호에 대해 코딩 방법을 적용

예. 1) 아날로그 신호의 주파수 대역을 5개로 분할

2) 각 주파수 대역에서만 성분을 갖도록 하는 대역 통과 필터를

통과시킴

3) 5개의 새로운 신호를 얻게 됨

4) 각각의 새로운 신호에 대해 PCM, DPCM, ADPCM 등의

기존에 사용되고 있는 음성 코딩 방법을 적용

» 장점

인간의 청각 특성을 이용한 처리가 용이

특정 주파수 대역에 대한 코딩 과정에서 일어날 수 있는 양자화

에러는 다른 주파수 대역의 코딩에 영향을 미치지 않음


사운드 데이터 코딩 (계속)음원 코딩 (source coding)– 인간의 음성 생성 과정을 기본 모델로 하는 음성 코딩 기법

– 장점

» 음성을 몇 개의 파라미터로 코딩 하므로, 정보량이 작음

– 단점

» 기존에 개발된 음성 생성 모델이 인간의 음성 생성 과정에 비해

매우 단순함

» 원음으로부터 여기 신호 추출 과정이 어려우므로, 고품질 합성음

코딩에 적절치 않음

– 적용 사례

» 미국 표준 부호기인 LPC-10(linear predictive coding), MELP(mixed excitation linear prediction)

암호와 방어를 요구하는 군(military) 용 시스템 등 비상용

시스템에서 많이 사용됨


사운드 데이터 코딩 (계속)– 혼성 코딩 (hybrid coding)

» 파형 코딩을 이용하여 여기 신호를 생성하고, 음원 코딩을

사용하여 조음 기관의 공명 특성을 반영하는 정보를 재현

» 적용 사례

RELP(Residual Excited Linear Prediction),

MBE(Multi-Band Excitation)

MP-LPC(Multi Pulse LPC)

CELP(Codebook Linear Excited Prediction)


사운드 데이터 코딩 (계속)사운드 데이터 저장

– 사운드 카드

» Analog-to-Digital / Digital-to-Analog Converter 역할

– 오디오 화일 포맷

■ waveformMS와 IBM에 의해서 지원 받고 있는 포맷 (wav)압축 없이 사운드 데이터를 저장

■ CD-Audio 필립스 사와 소니 사의 공동 연구 결과로 등장한 CD의 사운드

정보를 담기 위해 사용하고 있는 포맷 (cda)

■ Creative VoiceCreative Lab의 Sound Blaster와 Sound Blaster Pro 오디오

카드에서 사운드 정보를 저장하는데 사용하고 있는 포맷 (voc)


사운드 데이터 코딩 (계속)■ MP3

MPEG-1 Audio Layer-3의 줄임말로, 효과적인 오디오 신호의

사용을 위해 고안된 압축 방식

지각 코딩(Perceptual Coding) 기법 사용

인간의 감각적인 특성(청각 심리 모델)을 사용하여 감도가 낮은 세부의

정보를 생략하여 코딩량을 절감하는 방법

디지털 사운드를 미리 분석해서 인간의 두뇌가 걸러낼 사운드를

미리 잘라내는 방식으로 압축을 수행

압축 과정1. 인간의 가청 주파수를 32 개의 밴드로 분해

2. 분해된 각각의 신호를 서브밴드 코딩, 변형 이산 코사인 변환, 허프만 코딩을 통해

다시 코딩 (각각이 18 개의 밴드로 또 다시 분해되므로, 총 576 밴드)3. 각 밴드에서 가장 강한 음의 성분에 대한 정보만을 선택하고, 나머지 음에 대한

정보를 삭제

4. MP3 화일 완성


사운드 데이터 코딩 (계속)■ Real Audio

네트워크로 데이터를 전송하는 실시간 스트리밍 기술에 의해

만들어진 화일 포맷 (ra, ram, rm)

■ WMA, WMVMS사가 만들었으며, 스트리밍을 지원하고 데이터 용량이 MP3의

절반 수준인 화일 포맷 (wma, wmv)

■ VQFNTT에 의해서 개발된 오디오 압축 기술(TwinVQ) 로 만들어진

디지털 화일 포맷 (vqf)

원음을 12:1 ~ 96:1 까지 압축할 수 있으며, 스트리밍을 지원


사운드 데이터 코딩 (계속)■ A2b

AT&T가 개발한 오디오 화일 포맷으로서, 특허 낸 압축

알고리즘으로 20:1까지 압축 가능 (a2b)CryptoLib라는 보안 라이브러리를 사용해 저작권 문제를 해결

■ OGGMP3에 대항하기 위해 만들어진 무료 음악 화일 포맷 (ogg)5:1~18:1에 이르기 까지 높은 압축율을 자랑하며, 다양한

음질을 설정할 수 있음


미디 (Musical Instrument Digital Interface)

미디

– 각 악기들이 일관된 표준 인터페이스를 따름으로써, 서로

다른 회사의 악기들을 연결하여 연주할 수 있도록 함

– 구성요소

» 하드웨어 연결(connect) 미디 장치 사이의 연결이나 전자 신호를 다루는 미디 케이블

» 데이터 포맷

음악 연주 정보의 코딩과 미디 메시지


미디 (계속)

미디 장치 (device)– 미디 표준(하드웨어 연결 및 데이터 포맷)을 만족시키며

채널을 통해 미디 표준을 만족하는 다른 기기(악기)들과

통신할 수 있는 기기(악기)들을 총칭

» 신디사이저(synthesizer)일반적으로 키보드(건반) 인터페이스를 통해 음을 합성하는

하드웨어

최근에는 키보드와 음원 모듈이 분리된 형태로 제공됨

포터블 키보드 v.s. 마스터 키보드 (미디 제어 기능이 탁월)

» 샘플러

임의의 자연 사운드를 파형으로 받아, 미디 악기의 음원으로

사용하는 기기


미디 (계속)» 미디 인터페이스

PC, 마스터 키보드, 미디 음원 모듈을 연결시켜 주는 미디 장치

컴퓨터 주변 장치 변화에 따라 USB포트용 미디 인터페이스, 블루투스를

기반으로 한 무선 미디 인터페이스 등이 개발 또는 출시 중에 있음

» 시퀀서

신디사이저가 컴퓨터로 보낸 음악 데이터를 편집할 수 있는 미디 프로그램

요즘은 단순 미디 만을 연출하지 않고 오디오 및 비디오를 합성 접목하고 있음

» 소프트 신디 사이저

컴퓨터에 내장되어 있는 소프트 신디 사이저

Microsoft® 의 GS Wavetable

사운드 카드에 내장되어 있는 소프트 신디 사이저

가상 소프트웨어 신디사이저 : CPU를 이용해 PCM 데이터를 디코딩 함


미디 (계속)

미디 네트워크 구성

– 커넥터에 의한 하드웨어 연결

» 신디사이저, 미디 인터페이스, 컴퓨터, 미디 음원 모듈, 스피커, 믹서, 이펙터 등

» 연결 방법

“In”, “Out”, “Thru”


미디 (계속)

미디 연결의 전형적인 형태


미디 (계속)

미디 규약 (protocol)– 미디 메시지 전송 방법과 미디 메시지의 의미를 규정

– 미디 코드(code) : 미디 메시지를 처리하는 Byte 단위

» 상태 Byte와 데이터 Byte로 구성 : MSB로 구분

미디 메시지 = 1 개의 상태 Byte + 0~2 개의 데이터 Byte로 구성

상태 Byte는 상위 4 bits(채널 메시지) 와 하위 4bits(채널)로 나뉨

데이터 Byte는 상태 Byte에 따라 설정됨

10bits = 전송 시의 동기화를 위한 2 bits + 미디 코드 Byte (8bits)

» 31.250 KBaud(bps)로 미디 네트워크에 방송(broadcast)


미디 (계속)

음의 강도

(건반을 누른 속도)

Note Number

(건반의 위치)

채널 표시

(1 채널은 피아노)

Note on 이벤트(건반 누름)

20 = 323c = 60 (C4음)0 = 1ch9 = note on

001000000011110000001001

Data ByteStatus Byte

음의 강도


Note Number

(건반의 위치)

채널 표시



20 = 323c = 60 (C4음)0 = 1ch9 = note on

001000000011110000001001


음의 강도


Note Number

(건반의 위치)

채널 표시



20 = 323c = 60 (C4음)0 = 1ch9 = note on

001000000011110000001001


음의 강도


Note Number

(건반의 위치)

채널 표시



20 = 323c = 60 (C4음)0 = 1ch9 = note on

001000000011110000001001


A 신디사이저에서 B 신디사이저로 전달되는 미디 메시지 예


미디 (계속)

Pitch bender changes0v0vEn

n : 사운드 채널 번호 - 각 악기에 할당된 채널 번호를 나타낸다.k : 음조(note) 번호 - 음표 선택에 관련된 것이다.v : 속도(velocity) - 건반을 치는 속도나 세기에 관련된 것이다.c : 제어기(controller) – pedal의 세기를 표현한 것이다.p : 프로그램 번호 – 지정되어 있는 128 가지의 voice 중 하나를 지정하는 데 쓰인다.Note off : 128 개의 건반 중 하나를 눌렀다가 떼는 것을 표시한다.Note on : 한 건반이 눌려졌다는 것을 의미한다.Polyphonic key pressure – 건반 1 개가 눌려진 후, 그 압력(pressure)에 얼마나 반응하느

냐와 관련된 메시지이다.Program change – 음색 버튼을 누르거나 음색 번호 증감키로 음색을 변화시킬 때 생성되

는 메시지이다.Channel pressure – 한 개의 건반에 대한 압력 신호가 그 사운드의 모든 음에서 적용되게

하는 메시지이다.Control change – 컨트롤러들의 움직임을 나타낸다.Pitch bender changes – 피치 벤더(pitch bender)가 움직인 것을 표시한다. 피치 벤더란

신디사이저에서 손잡이 또는 바퀴 모양으로 생긴 것인데, 건반 옆

에 위치해 있다. 건반을 눌러 사운드가 나는 상태로 피치 벤더를

움직이면 미세한 단위로 음높이의 변화를 일으킬 수 있다.

Channel pressure0vDn

Program Change0pCn

Control change0v0cBn

Polyphonic key pressure(건반에 관련)

0v0kAn

Note on0v0k9n

Note off0v0k8n

MeaningData Byte 2Data Byte 1Status Byte(hex)

Pitch bender changes0v0vEn

n : 사운드 채널 번호 - 각 악기에 할당된 채널 번호를 나타낸다.k : 음조(note) 번호 - 음표 선택에 관련된 것이다.v : 속도(velocity) - 건반을 치는 속도나 세기에 관련된 것이다.c : 제어기(controller) – pedal의 세기를 표현한 것이다.p : 프로그램 번호 – 지정되어 있는 128 가지의 voice 중 하나를 지정하는 데 쓰인다.Note off : 128 개의 건반 중 하나를 눌렀다가 떼는 것을 표시한다.Note on : 한 건반이 눌려졌다는 것을 의미한다.Polyphonic key pressure – 건반 1 개가 눌려진 후, 그 압력(pressure)에 얼마나 반응하느

냐와 관련된 메시지이다.Program change – 음색 버튼을 누르거나 음색 번호 증감키로 음색을 변화시킬 때 생성되

는 메시지이다.Channel pressure – 한 개의 건반에 대한 압력 신호가 그 사운드의 모든 음에서 적용되게

하는 메시지이다.Control change – 컨트롤러들의 움직임을 나타낸다.Pitch bender changes – 피치 벤더(pitch bender)가 움직인 것을 표시한다. 피치 벤더란

신디사이저에서 손잡이 또는 바퀴 모양으로 생긴 것인데, 건반 옆

에 위치해 있다. 건반을 눌러 사운드가 나는 상태로 피치 벤더를

움직이면 미세한 단위로 음높이의 변화를 일으킬 수 있다.

Channel pressure0vDn

Program Change0pCn

Control change0v0cBn

Polyphonic key pressure(건반에 관련)

0v0kAn

Note on0v0k9n

Note off0v0k8n

MeaningData Byte 2Data Byte 1Status Byte(hex)

여러 가지 미디 메시지들의 예


미디 (계속)미디 규약 발전

– GM 1(General MIDI Level 1) » 미디 장비 제조업자와 컨텐츠 제공업자 사이의 호환성을 위한 플랫폼을

지원하기 위해 Yamaha® 제안한 국제적인 표준 규약(1991)

– GM 2(General MIDI Level 2) » GM1을 확장했으며, GS, XG를 포함하는 국제적인 표준 규약(1999)

» 2003년 9월에 버전 1.1로 업데이트

– GM Lite» GM 1에 정의된 풀셋을 지원할 수 없는 장비들을 위해서 만들어진 규약

» 모바일 애플리케이션에서 사용 가능 (2001)

– XMidi (eXtended MIDI)» 기존 미디 문제점을 극복한 새로운 미디 시스템으로서 제안된 프로젝트

» 벨기에의 Eric Lukac-Kuruc이 창시(1999)


음성 데이터 처리

음성 인식

– 음성에 포함된 언어적인 정보를 추출하여 컴퓨터가

이해할 수 있는 표현 방법으로 변환하는 과정

» 패턴 정합법

참조 패턴과 주어진 입력 패턴을 비교하여 둘 간의 유사성

정도를 측정

예) 동적 정합법 (dynamic time warping) : 인식 대상 어휘가

작은 고립 단어 인식에 사용됨

» 지식에 기반을 둔 방법

사람의 음성 인식 과정을 규칙(rule)의 형태로 저장한 후

입력되는 음성에 대하여 저장된 규칙을 적용하여 인식하는

방법

예) Spectrogram Reading Expert 시스템


음성 데이터 처리 (계속)» 벡터 양자화를 이용한 방법

입력 패턴과 양자화 코드북 내에 있는 코드워드라고 불리는 일종의

표준 패턴들 사이의 거리를 측정하여 거리가 가장 가까운

코드워드에 입력 패턴을 매칭하는 방법

벡터 양자화 과정


음성 데이터 처리 (계속)» 통계학적 방법

은닉 마르코프 모델(Hidden Markov Model) : 가장 널리 쓰이는 방법

HTK(HMM ToolKit) HMM을 이용한 음성 인식 시스템 중에 최근의 연구에 많이 쓰임

HMM을 만들고 조작하는 데 사용되는 포터블 툴킷

C 소스로 된 라이브러리 모듈과 툴로 구성되어 있음

예) SPHINX, SONIC

» 신경 회로망 (Neural Network) 뇌의 정보처리 과정을 공학적으로 모델링 한 방법

고립 단어, 음소 인식에 뛰어난 성능을 보임

» HMM/NN 혼성 네트워크

기존의 신경 망 모델에 HMM 방법을 첨가 하는 방법


음성 데이터 처리 (계속)HMM의 통계적 방법의 범주 안에서 신경망을 도입하는 방법

HMM 인식 방법을 신경 회로망의 형태로 재구성하여 음성 인식을

수행하는 방법

예) Viterbi-net, Alpha-net


음성 데이터 처리 (계속)– 음성 인식 과정 : 화자에 의해 발성된 음성이 여러 단계를 거쳐

최종적으로 컴퓨터에 의해 인식되는 것

» 전처리 (preprocessing) 음성 신호로부터 의미 있는 음성 구간을 검출하고, 음향학적인

파라미터로 변환

» 분할 (segmentation) 인식을 위해 정의된 인식 단위로 입력된 음성을 잘라내는 것

» 인식 (recognition) 분할된 음성 단위들을 인식하는 것


음성 데이터 처리 (계속)

전처리(특징 추출)

분할 인식 과정

표준패턴생성

훈련 과정

인식 결과

음성 입력

음성 인식기 훈련 과정

전처리(특징 추출)

분할 인식 과정

표준패턴생성

훈련 과정

인식 결과

음성 입력

음성 인식기 훈련 과정

음성 인식 과정


음성 데이터 처리 (계속)음성 인식의 분류

기준 분류 내용

화자 독립 불특정 다수의 화자의 음성 만을 인식

화자 종속 특정한 화자의 음성을 인식

고립 단어 인식 하나의 단어 만이 발성되었음을 인식

연결 단어 인식여러 개의 단어가 짧은 휴지 기간을 가지고 서로 연결되어 있음을 인식

연속 음성 인식일상적인 대화체처럼 여러 단어를 연속적으로 발음한것을 인식

핵심어 인식 일상 대화체에서 핵심 단어만 인식

인식 대상의 어휘

인식 대상



화자 인식

– 음성에 포함되어 있는 화자 정보를 추출하여 개인을

확인하는 기술

– 인식 대상에 따라 분류

» 화자 식별

입력된 미지의 음성이 등록된 여러 화자 중 어떤 화자에 의해

발성된 음성인 지를 판정

예) 자동 회의록 작성

» 화자 확인(검증)입력된 음성이 지정된 화자의 것인지 여부 판정

예) 신분 확인, 출입 통제



화자 식별과 화자 인식 비교

화자 수와 무관화자 수에 비례오류 확률

1 회N 회비교 횟수

승인(accept) / 거부(reject)특정 화자결정 방법

1 개화자 수(N)대상 패턴

화자 확인화자 식별방

법항목



화자 인식 과정

특징 추출 결정 인식 화자

음성 입력

유사도 비교

화자 정보

특징 추출 결정 인식 화자

음성 입력

유사도 비교

화자 정보



– 음성 인식과의 비교

» 음성 인식

발성된 음성의 언어적 측면에 초점

» 화자 인식

발성된 음성에 포함된 화자의 개인성 정보에 초점



음성 합성

– 기계를 이용하여 사람의 음성을 인공적으로 생성해 내는 것

» 합성된 음성 신호를 실제로 말할 때 나타나는 발음 현상을

적용하여 일상 대화에서 듣게 되는 음성 신호와 같게 만들어

주어야 함

– 고려해야 할 사항

» 음향학적 측면

인간의 실제 음성에 더 가까운 사운드를 내기 위함

» 언어학(음운학)적 측면

동일한 단어가 문맥에 따라 다른 발음되는 현상을 고려함

예) “신을 신고 신고하러 간다”, “양복 한 벌” v.s. “옷 한 벌”


음성 데이터 처리 (계속)– 분류

» 제한 어휘 합성 기법

미리 정해진 수의 어휘를 저장하고, 조합하여 음성 신호 생성

구현은 쉽지만 어휘를 단순 연결하므로, 나오는 사운드가

부자연스럽고 어색함

예) 자동 응답 시스템, 지하철 등의 안내 방송

» 무제한 어휘 합성 기법

임의의 문장을 입력 받아 무제한으로 음성을 합성

예) TTS(Text-to-Speech)



TTS(Text-to-Speech)– 정의

» 임의의 문장을 입력 받아 해당하는 음성 신호로 변환하는 음성

합성 장치

– 종류

» 코퍼스(Corpus) 기반 TTS, 감정(Emotion) 기반 TTS 기계적인 음성 합성에서 탈피하여, 자연스러운 음성 합성을 만드는

방법으로서 제안된 기법


음성 데이터 처리 (계속)– 코퍼스 기반 TTS의 음성 합성 과정

» 전처리

입력 받은 문장을 분석하여, 일반적인 문자 이외의 글자에 대해서

어떻게 발음할 것인지를 결정

» 언어 처리부

구문 분석 단계로서, 문장 내의 각 단어들이 어떤 품사로 쓰이고 있는

지를 결정하고, 문장의 운율 정보를 합성음에 반영하기 위해 정확한

문장 구조를 파악하는 부분

형태소 분석부 : 입력된 문장의 품사들을 분류

구문 분석부 : 분류된 품사들을 가지고 운율 정보를 생성

발음 변환부 : 입력된 문장을 소리 나는 대로 변환

» 합성부

실제로 사람의 목소리에 가까운 합성음을 생성해 내는 단계



문장 입력 전처리 언어 처리부 합성부 합성음

음성 입력

음성 분석부

Corpus

대용량 음성

데이터베이스

단위 음성

데이터베이스


음성 입력

음성 분석부

Corpus

대용량


음성 입력

음성 분석부

Corpus

대용량 음성

데이터베이스

단위 음성

데이터베이스


음성 입력

음성 분석부

Corpus

대용량

코퍼스 기반 TTS 시스템의 음성 합성 과정


음성 데이터 처리 (계속)– 활용 예제 (표 2 – 4 참고)

» TTS 가 사용중인 국정 알림터

http://www.allim.go.kr/warp/webapp/speech/list?meta_id=syn_speech

» VoiceWarehttp://www.voiceware.co.kr/demo/demo_text.html

» CoreVoice 웹 사이트

http://www.corevoice.com

» 동아닷컴 뉴스 듣기 서비스

http://www.donga.com

» ARS 텔레뱅킹 및 전화 주문을 위한 TTS

» 자동차 네비게이션 시스템에 TTS가 도입됨



http://www.voiceware.co.kr/demo/demo_text.html

http://www.corevoice.com/

http://www.donga.com/


음성을 기반으로 하는 사용자 인터페이스

음성 데이터의 활용

– 정보통신 분야

» 휴대폰 음성인식

음성 작동 다이얼, 통화자 확인Sanyo®, Toshiba ®, Innovative Devices ® 의 음성 작동 전화 개발

잡음 환경에서 동작 가능한 잡음 처리 알고리즘 개발

» 대화형 음성인식

연속된 다량의 어휘의 처리가 가능한 음성 인식기 개발

의미 분석 및 대화 흐름 처리가 가능한 대화형 음성 인식기 개발

» 말하는 웹 브라우저 : IBM Home Page Reader for Low Vision Users

음성 명령 만으로 인터넷에 접속해 필요한 정보 검색

사용자와 대화하면서 인터넷을 검색한 후 내용을 낭독

TTS가 탑재된 ViaVoice 음성 인식 엔진을 사용


음성을 기반으로 하는 사용자 인터페이스 (계속)

– 운송 분야

» 자동차 네비게이션 시스템

내장형 음성 작동 시스템을 탑재

네비게이션 목적지 지정을 위한 음성 인식 모듈 개발

– 교육 분야

» IBM SpeechViewer™

» 인간의 언어 습관을 교정

– 재활 분야

» 음성으로 작동하는 휠체어

» 음성 인식 프로세서를 통한 문서 작성

– 보안 분야

» 사용자 출입을 위한 신원 확인과 조회



VoiceXML– 음성 응답 애플리케이션 개발을 위한 음성 대화형 마크업 언어

– 전화로 음성을 통해 인터넷 정보를 검색할 수 있는 기능을

지원 (전화 + 인터넷)

– 장점

» 기존 웹 기반 서비스를 활용하여 음성 정보 시스템을 구축할 수 있게 됨

웹 기반 서비스 = 비즈니스 로직 + 사용자 인터페이스(HTML -> VoiceXML)

» 음성 합성 및 음성 인식 기술을 기반으로 한 음성 정보 시스템으로의

다양한 입출력이 가능하게 됨

» 인터넷을 사용하므로, 국내외 음성 정보 서비스가 가능하게 됨

– 스펙(specification)» VoiceXML 2.0 Recommendation : 2004년 3월 16일 발표

» VoiceXML 2.1 Working Draft : 2004년 3월 23일 ~ 현재



– 전체 구조

ASR(Automatic Speech Recognition),DTMF(Dual Tone Multi Frequency)

VXML

HTML

인터넷

VXML

HTML

VoiceXML 게이트웨이(사용자의 전화를 받을 수 있는 장치 +

VoiceXML 파일 해석기음성 인식 장치 + 음성 합성 장치)

TTS,Audio Player

웹 서버

ASR : 자동 음성 인식DTMF: 전화 버튼을 통해 보내지는 신호


VXML

HTML

인터넷

VXML

HTML



TTS,Audio Player

웹 서버


VXML

HTML

인터넷

VXML

HTML



TTS,Audio Player

웹 서버

ASR : 자동 음성 인식DTMF: 전화 버튼을 통해 보내지는 신호

VoiceXML 기반 시스템 구조와 VoiceXML 문서 처리 과정



<?xml version="1.0"? encoding=”euc-kr” ?><vxml version="1.0">

<menu><prompt><emp> 날씨, 스포츠, 경제, 정치 중에 원하시는 서비스를 말씀해 주세요.<enumerate /></emp>

</prompt><choice next=”weather.vxml”>날씨</choice> <choice next=”sports.vxml”>스포츠 </choice> <choice next=”economy.vxml”>경제</choice> <choice next=”politics.vxml”>정치 </choice> <nomatch> 죄송합니다. 다시 한 번 말씀해 주세요.<enumerate /></nomatch><noinput> 한 가지만 말씀해 주십시오. </noinput>

</menu></vxml>

VoiceXML 문서 예제



<vxml>: VoiceXML 문서의 시작을 나타내는 엘리먼트이다.<menu>: 여러 가지 선택할 수 있는 메뉴를 사용자에게 제시하고 그 중에하나만을 선택할 수 있도록 설계된 다이얼로그를 나타내는 엘리먼트이다.<choose>: <menu>에서 선택할 수 있는 각각의 아이템을 나타내는엘리먼트이다.<enumerate>: 사용자가 선택할 수 있는 모든 선택 메뉴를 자동적으로생성하는 엘리먼트이다.<emp>: 강조해서 말해야 할 텍스트의 영역을 설정하는 엘리먼트이다.<prompt>: 미리 녹음된 오디오 화일과 함께 음성 합성될 텍스트 데이터를들려 준 후, 사용자의 입력을 기다리는 엘리먼트이다.<nomatch>: 사용자가 입력한 내용이 음성 및 DTMF 문법과 매치되지 않을경우에 생기는 이벤트를 처리하는 엘리먼트이다.<noinput>: 사용자의 입력이 없을 경우에 생기는 이벤트를 처리하는엘리먼트이다.

VoiceXML 엘리먼트에 대한 설명



음성 정보 시스템: 날씨, 스포츠, 경제, 정치 중에 원하시는 서비스를 말씀해 주세요.시스템 사용자: 과학음성 정보 시스템: 죄송합니다. 다시 한 번 말씀해 주세요.시스템 사용자: 날씨음성 정보 시스템: weather.vxml로 이동

음성 정보 시스템과 시스템 사용자의 대화


요약

사운드의 특성에는 주파수, 강도, 스펙트럼이 있다

사운드 데이터 코딩에는 파형 코딩, 음원 코딩, 혼성 코딩, 사운드 데이터 저장의 방법이 있다

미디는 전자 음악을 생성하고 편집하는데 널리

사용되고 있는 전자 악기들의 연결 표준이다

음성 인식, 화자 인식, 음성 합성, TTS 등의 기법을

통해 음성 데이터를 처리한다

VoiceXML은 음성을 기반으로 한 사용자

인터페이스이다


참고문헌

Buford, John F. K., ”Multimedia Systems,” New York: Addision-Wesley Pub. Company, 1994.Rosenborg, V. et al., ”A Guide To Multimedia,” Indiana: New Riders Pub. Company, 1993.Andleigh, P. K. and Kiran Thakrar, “Multimedia Systems Design,”Prentice Hall, 1996.Steinmetz, R. and Klara Nahrstedt, “Multimedia: computing, communications and applications,” Prentice Hall, 1995.Rabiner, L. and Biing-Hwang Juang, “Fundamentals of Speech Recognition,” Prentice Hall, 1993.Saito, S. and Kazuo Nakata, “Fundamentals of Speech Signal Processing,” Academic Press, 1981.Furui, S., “Digital Speech Processing, Synthesis and Recognition,”Dekker, 1991. Kondoz, A. M., “Digital Speech,” John Wiley & Sons Ltd., 1994.


참고문헌 (계속)Rabiner, L. R. and B. H. Juang, “An Introduction to Hidden Markov Models,” IEEE ASSP Magazine, January 1986.Burton, D. K., “Text-Dependent Speaker Verification Using Vector Quantization Source Coding,” IEEE Transactions on Acoustic, Speech, and Signal Processing, Vol. ASSP-35, No. 2, February 1987. T. Kawaharam M.Araki and S. Doshta, “Reducing Syntactic Perplexity of User Utternaces with Automaton Dialogue Model,”Proc. Of International Symposium on Spoken Dialogue, pp.65~67, Kyoto, 1993.Y. Sobashima, “Local Context analysis of Dialogues using Bilingual Corpus,” Proc. of International Symposium on Spoken Dialogue, pp 61 ~ 64, Kyoto, 1993M.T. Vo, A. Waibel, “Multimodal Human-Computer Interaction,”Proceedings ISSD-93, pp.95 ~ 101, 1993


참고문헌 (계속)Lindblom, J. and P. Hedelin, “Packet loss concealment based on sinusoidal extrapolation,” Acoustics, Speech, and Signal Processing, IEEE International Conference on Vol.1, pp.173∼176, 2002Gunduzhan, E. and K. Momtahan, “Linear prediction based packet loss concealment algorithm for PCM coded speech, Speech and Audio Processing,” IEEE Transactions on Vol.9, Nov, pp.778∼785, 2001오영환, 음성 언어 정보 처리, 홍릉과학 출판사, 1998장경애, 정민화, 김재인, 구명완, “코퍼스기반 음성 합성기의데이터베이스 감축 방안,” 말소리 44호

Ferencz, A., S. Choi, H. Song, and M. Koo, “Corpus-based implementation of the Korean Hansori Text-to-speech synthesis,”Eurospeech, 2001Kim Silverman et. al., “Design and collection of a corpus of polyphones and prosodic contexts for speech synthesis research and development,” Eurospeech, 1999


참고문헌 (계속)Ralf Steinmetz, Klara Nahrstedt, “Multimedia Fundamentals,”Volume 1박섭형, “음성 웹 애플리케이션 구축을 위한 VoiceXML,” 한빛미디어, 2001웹 문서

– 미디:http://www.hongmidi.com/main.html– http://www.midi.org/about-midi/gm/gminfo.shtml– http://www.borg.com/~jglatt/index.htm– http://www.interq.or.jp/japan/se-inoue/e_pic7_1_h.htm#4– 오디오 압축 포맷: http://www.sericyb.com.au/sc/audio.html– http://sound.media.mit.edu/mpeg4/audio/#mpeg2 – 음성 인식: http://htk.eng.cam.ac.uk/ – http://cslr.colorado.edu/beginweb/speech_recognition/sonic.html– TTS: http://tcts.fpms.ac.be/synthesis/introtts.html– VoiceXML Spec: http://www.w3.org/TR/2004/REC-voicexml20-

20040316/

© kim, lee and chung, 2005. all rights are reserved. 김명호halra.knuw.ac.kr/multi/ch2.pdf ·...

Documents