국가기록원 음성 기록물의 복원과 분석 -...

10
CONSERVATION OF THE ARCHIVES 37 기록물 보존복원 제5호, PP.37~462012국가기록원 음성 기록물의 복원과 분석 강 홍 구* 국가기록원의 음성 기록물은 우리나라의 근현대사를 담은 중요한 기록물이다. 하지만 아날로그로 녹음된 방식은 시간이 지남에 따라 손실을 피할 수 없어 디지털로 변환하여 관리 및 서비스할 필요성이 있다. 그에 따라 왜곡이 발생한 부분에 대해 본래의 정보를 복원 하는 작업은 매우 중요하며, 본 논문은 음성 기록물의 훼손 종류에 따라 5가지의 카테고리로 분류하고 음량, 정상 잡음, 돌발 잡음에 맞는 복원 알고리즘을 적용하였다. 특히 기존에는 음성이 훼손된 부분을 순차적으로 청취하여 개별적으로 문제를 해결해야 했기 때 문에 방대한 자료를 복원하기는 불가능했지만 자동 복원 알고리즘을 도입하여 보다 효율적인 방식으로 복원할 수 있게 되었다. Ⅰ. 서 론 지난 100여 년간 음성 및 오디오 데이터를 효과적으로 저장 하기 위한 기술은 매우 급격히 발전되어 왔다. 특히, 디지털 방 식으로 저장된 데이터는 아날로그 방식과는 달리 시간에 따른 열화 없이 반영구적으로 보존할 수 있으므로 그만큼 보관 및 관리하는 데 드는 노력이 현저하게 줄어들며, 언제든 처음 녹 음했을 때의 음질을 유지할 수 있다. 하지만 아날로그 방식은 시간이 지남에 따라 녹음된 LP판이나 자기테이프의 변형에 따른 데이터의 손실을 피할 수 없으며, 반복적으로 재생할 경우에도 저장 매체의 변형이 따를 수밖에 없는 한계점을 지니고 있다. 이러한 문제를 해결하기 위해 현재 아날로그 데이터를 디지 털로 변환하기 위한 필요성이 대두되고 있으며, 변환 과정에 서 왜곡이 발생한 부분에 대해 신호처리 기법을 이용하여 본 래의 정보를 복원하려는 작업 역시 매우 중요하다. 예를 들면 LP판의 경우 판 위에 위치해 있는 핀이 비정형적으로 동작함에 따라 임펄스 형태의 잡음을 생성하며, 자기테이프 또한 먼지나 이물질, 그리고 테이프의 물리적 변형에 의해 다양한 형태의 잡음이 생성된다. iZotopeRX는 오디오 신호를 복원하는 프로그램으로, 사용 자로 하여금 직접 잡음의 위치와 종류를 식별하게 하고, 이 후 복원 기술을 적용하는 반자동 형태를 취하고 있다 1) .이때 문에 방대한 음성 자료를 순차적으로 청취하여 훼손된 부분을 판별한 후, 개별적으로 문제를 해결하는 것은 시간 및 비용 측면에서 매우 비효율적이며, 그 효과 또한 기대하기 어렵다. 따라서 자동으로 왜곡을 보정하고 복원하기 위한 연구에 대한 중요성은 매우 크다. 자동 복원 시스템의 효율을 높이기 위해 서는 왜곡의 특성에 따라 신호를 분류하기 위한 기술이 선행 되어야 하며, 신호처리 기법을 응용하여 각각의 왜곡에 적합 한 복원 방식을 개발하여야 한다. 국가기록원 음성 자료는 우리나라의 근현대부터 현재까지 의 중요하고 의미 있는 음성 자료들을 모아놓은 것으로 이것 을 분석하고 복원하는 것은 매우 큰 의의가 있다. 기존의 연 구들은 특정한 잡음에 대한 실험을 하였으나, 본 연구는 축적 된 매우 방대한 양의 데이터베이스에 대한 훼손 정도 분석과 복원을 한다. * 연세대학교 전기전자공학과 교수 [email protected]

Upload: others

Post on 02-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

CONSERVATION OF THE ARCHIVES 37

기록물 보존복원 제5호, PP.37~46│2012│

국가기록원 음성 기록물의 복원과 분석

강 홍 구*

국가기록원의 음성 기록물은 우리나라의 근현대사를 담은 중요한 기록물이다. 하지만 아날로그로 녹음된 방식은 시간이 지남에 따라

손실을 피할 수 없어 디지털로 변환하여 관리 및 서비스할 필요성이 있다. 그에 따라 왜곡이 발생한 부분에 대해 본래의 정보를 복원

하는 작업은 매우 중요하며, 본 논문은 음성 기록물의 훼손 종류에 따라 5가지의 카테고리로 분류하고 음량, 정상 잡음, 돌발 잡음에

맞는 복원 알고리즘을 적용하였다. 특히 기존에는 음성이 훼손된 부분을 순차적으로 청취하여 개별적으로 문제를 해결해야 했기 때

문에 방대한 자료를 복원하기는 불가능했지만 자동 복원 알고리즘을 도입하여 보다 효율적인 방식으로 복원할 수 있게 되었다.

Ⅰ. 서 론

지난100여년간음성및오디오데이터를효과적으로저장

하기위한기술은매우급격히발전되어왔다.특히,디지털방

식으로저장된데이터는아날로그방식과는달리시간에따른

열화없이반영구적으로보존할수있으므로그만큼보관및

관리하는데드는노력이현저하게줄어들며,언제든처음녹

음했을때의음질을유지할수있다.하지만아날로그방식은

시간이지남에따라녹음된LP판이나자기테이프의변형에따른

데이터의손실을피할수없으며,반복적으로재생할경우에도

저장매체의변형이따를수밖에없는한계점을지니고있다.

이러한문제를해결하기위해현재아날로그데이터를디지

털로변환하기위한필요성이대두되고있으며,변환과정에

서왜곡이발생한부분에대해신호처리기법을이용하여본

래의정보를복원하려는작업역시매우중요하다.예를들면

LP판의경우판위에위치해있는핀이비정형적으로동작함에

따라임펄스형태의잡음을생성하며,자기테이프또한먼지나

이물질,그리고테이프의물리적변형에의해다양한형태의

잡음이생성된다.

iZotopeRX는오디오신호를복원하는프로그램으로,사용

자로하여금직접잡음의위치와종류를식별하게하고,이

후복원기술을적용하는반자동형태를취하고있다1).이때

문에방대한음성자료를순차적으로청취하여훼손된부분을

판별한후,개별적으로문제를해결하는것은시간및비용

측면에서매우비효율적이며,그효과또한기대하기어렵다.

따라서자동으로왜곡을보정하고복원하기위한연구에대한

중요성은매우크다.자동복원시스템의효율을높이기위해

서는왜곡의특성에따라신호를분류하기위한기술이선행

되어야하며,신호처리기법을응용하여각각의왜곡에적합

한복원방식을개발하여야한다.

국가기록원음성자료는우리나라의근현대부터현재까지

의중요하고의미있는음성자료들을모아놓은것으로이것

을분석하고복원하는것은매우큰의의가있다.기존의연

구들은특정한잡음에대한실험을하였으나,본연구는축적

된매우방대한양의데이터베이스에대한훼손정도분석과

복원을한다.

* 연세대학교 전기전자공학과 교수 [email protected]

Page 2: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

38 CONSERVATION OF THE ARCHIVES

II. 국가기록원 음성 자료

실험에사용한데이터베이스는국가기록원에서현재소장

하고있는데이터로,15,735개의음성파일이며전체가약

16,000시간의재생시간을가지고있는방대한데이터베이스

이다.대부분이음성만을포함하고있는것이특징이다.

그림1은데이터베이스의연도별파일의개수를나타낸다.

1940년대에녹음된파일부터최근2008년까지녹음된파일

이며주로1990년대녹음된데이터가주를이루고있다.녹음

매체별파일의개수는표1과같다.

1900년대에주로사용되었던녹음테이프의숫자가가장많

은빈도수를차지하고있다.

III. 음성의 분류 및 복원 알고리즘

1. 음성 자료의 분류

그림2와같이음성자료를구분하기위해서4가지의파라

미터를사용하며왼쪽부터차례대로잡음을검출한뒤에복원

하는순서를거치게된다.우선음압을측정하여음량의크기

가너무작거나큰경우는음량카테고리에포함시킨다.음량

은-26dBov로조정하였다.잡음카테고리는정상(stationary)

잡음과돌발(abrupt)잡음으로구분할수있다.정상잡음은

배경잡음의통계적특성에변화가별로없는신호로서

잡음의파워스펙트럼을추정하여스펙트럼신호대잡음비

(SNR)를예측하는방식으로잡음이섞여있는정도를측정

할수있다.돌발잡음은단구간에너지의2차미분계수와

고대역에너지의양을측정하여검출하고이것을선형예측

기법을사용하여품질을개선한다.마지막으로왜곡과음성

소실카테고리는음성의정보가크게변형되거나소실된경

우이다.소실된음성의경우주파수밴드별에너지를기준으로

측정하여판단할수있으며,복원이매우어렵기때문에구

분만하도록한다.

2. 음량 측정 및 조절

음량을측정할때에는전체구간이아닌음성구간만을기

준으로음량을측정해야한다.이것을유효음압수준(Active

SpeechLevel)이라고한다11).

우선,음성신호의envelope, 를구하기위해다음과같은

식을이용한다.

(1)

여기서, 는음성을exponential평균한값이다. 는시간

상수의값으로 로정의된다.여기서 는시간상수로

0.03초값을쓰고는샘플간의시간차로샘플링주파수의역

수값이다.

음성신호의envelope을임계값과비교해서크면음성이

임계값보다활성화되었다고하고그때마다숫자를누적한

다.각각의샘플마다값이지속적으로누적되면묵음(혹은정

그림1. 연도별 파일의 개수

표1. 녹음 매체별 파일의 개수

녹음테이프 카세트 녹음테이프 릴 음반 CD

12,413 2,025 730

그림2. 음성 자료의 분류 방법과 카테고리

Page 3: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

CONSERVATION OF THE ARCHIVES 39

상잡음)이있는부분에서의값은매우커지고상대적으로

큰값을가지는음성부분의값은묵음구간에비해누적량이

적다.이후유효수준의파워와임계값의파워가margin

(=15.9dB,tolerance0.5)안에들어오게되면그값을유효음

압수준으로정의한다11).그리고이후음량조절시이득값을

곱해서-26dBov로일정하게음량을조절한다.

3. 신호 대 잡음비 측정과 정상 잡음 제거

음성신호는정상잡음이더해진형태로나타나기때문에

음성의크기가조절된이후에는정상잡음의크기또한함께변

화하는문제가있다.이논문에서는정상잡음의제거를위해

MMSE예측기를사용한OM-LSA(OptimallyModifiedLog-

SpectralAmplitude)방식을도입하였다2).잡음추정기는

음질향상시스템의전체성능을결정하는핵심부분으로잡음이

음성에비해상대적으로느리게변화한다는가정에근거하여,

일반적으로음성이존재하지않는구간에서측정된신호의

평균파워를잡음의파워스펙트럼으로추정한다.여기서계

산된잡음의파워스펙트럼정보는신호대잡음비추정기에

사용되고여기서계산된선행신호대잡음비,사후신호대

잡음비등의정보는이득추정기에서사용된다.이때,신호

대잡음비추정기에서추정된선행신호대잡음비(apriori

SNR)값을가지고정상잡음이얼마나포함되어있는지를측

정하였다.

4. 돌발 잡음 위치 검출

돌발잡음의경우일반적인잡음과달리그크기가매우

크고,빠르게변화하며잡음이존재하는시간이매우짧은특

성을갖는다.이와같은특성으로인해돌발잡음의크기를

추정하는것은매우어려운일이며,특히음성이존재하는구

간에서돌발잡음이발생하는경우엔그크기를추정하기매

우어렵다.따라서일반적인돌발잡음제거기법은비선형필

터를사용하는방향으로개발되었다4) 5) 6) 7).하지만충격잡음이

존재하는구간을찾지못하면음성이왜곡되는문제가있다.

신호의단구간에너지나변화량을관찰하여돌발잡음이존

재하는구간을결정할수있는데이때일정기준값보다큰구

간을선택하게된다.이런배경신호를추정하기위해서는추

가적인기법이필요하다.특히피치의특성이시간축에서는

충격잡음과유사한특성을가지므로Whitening에대한성능

향상도기대할수없다8) 9).이를해결하기위해모음의주기성

을이용한알고리즘도제안되었으나충격잡음이반복해서나

타나는경우에서취약하다10).

본논문은주파수축에서는고대역에너지를이용하고시간

축에서는2차미분계수의단구간에너지를이용한돌발잡음

검출방법을사용하였다12).

4.1. 2차 미분 계수를 이용한 돌발 잡음 검출

2차미분계수는신호가급격하게변하는부분에서큰값을

가지게되기때문에시간축에서신호가급변하는부분을찾아

낼수있다는장점을가진다5).입력신호를 으로정의하면

입력의2차미분계수 은다음과같다.

(2)

그에대한단구간에너지 은다음과같다.

(3)

배경신호를추정하고그보다급격하게값이튀는부분을

찾기위해서recursivemedianfilter(RMF)를이용한다.배경

신호의2차미분계수의단구간에너지 은다음과같다.

(4)

식에서은필터의좌,우길이를나타낸다.이값을상수 와

비교하여충격잡음을검출한다.

(5)

은충격잡음검출결과를나타낸다.여기서 는5로

설정하였다.

하지만2차미분계수가지니는문제점은음성의유성음구

간에서피치의영향때문에falsealarm이일어난다는것이다.

Page 4: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

40 CONSERVATION OF THE ARCHIVES

4.2. 고대역 에너지를 이용한 돌발 잡음 검출

음성의모음은주파수의저대역에에너지가집중되어있

는데반해돌발잡음은전체적으로평탄한주파수응답을갖

는다4).이성질을이용하여고대역에있는에너지를이용하여

돌발잡음의발생위치를추정할수있다12).

일반적으로돌발잡음은고대역에자리잡고있기때문에

본논문에서는15k에서17k대역의에너지를파라미터로사용

하였다.물론대부분의음성자료가48k나혹은44.1k로샘플링

되어있어서20k이상대역의정보도얻을수있지만카세트

테이프냐혹은릴테이프냐에따라서최대주파수가다르기

때문에17k이상의대역은사용하지않았다.고대역에너지

은다음과같이정의된다.

(6)

은 의Fourier변환계수를의미하며 와 은각

각주파수와프레임인덱스이다.이후로는2차미분계수를

사용했을때와마찬가지로RMF와배경신호에대한비를고

려한다.

(7)

배경신호 로부터정규화과정을거쳐기준값과비교한다.

(8)

은주파수축에서의돌발잡음검출결과를나타낸다.

최종돌발잡음구간은고대역에너지를이용하여잡음이

검출된구간안에서2차미분계수또한돌발잡음이어야최종

결과를돌발잡음으로결정한다.

5. 음성 신호에 대한 모델링이 포함된 돌발 잡음 제거 시스템

일반적으로음성신호,특히모음은formant와pitch정보로

나누어모델링한다.선형예측필터(LPC)의잔여신호에장

구간예측기법을적용하면pitch정보를모델링할수있다9).

장구간예측기법에의하면현재의잔여신호는한pitch

lag이전의잔여신호에일정한pitchgain을곱한것으로모

델링할수있다.

(9)

식에서 은선형예측필터에의한잔여신호를나타내며

은장구간예측필터를위한프레임인덱스, 은프레임길

이를나타낸다.또한 과 은pitch의주기와pitchgain

으로써아래와같이구할수있다13) 14).

(10)

pitch의주기는현재프레임과의상호상관도가가장높은

지연값 를찾는것으로구하게된다.pitch의주기를찾는프

레임단위 은일반적으로약5ms이다.위의식에서피치의

주기를자연수가아닌소수값을가지도록하기위해서주어진

신호를3배로interpolation한신호에상관도를구하여더정

확하게pitch모델링을하였다13).

이후일반적인음성합성과정에서는먼저장구간예측

필터를이용하여pitch를재합성하고선형예측필터를이용

하여formant정보를다시합성하는순서로진행되며장구간

예측필터를이용한pitch의합성은재귀적인합성기법을이용

한다.

Page 5: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

CONSERVATION OF THE ARCHIVES 41

(11)

는pitch를모델링하고난후의추정오차이다.하지만재

귀적합성방법은돌발잡음이median필터에의해제거되면서

발생한음성의왜곡이뒤에pitch에영향을미치게된다.

재귀적합성기법은음성부호화에서는유용하지만음성신호

복원에는적합하지않다.따라서본시스템에서는신호의잔

여신호 를다음과같이구한다.

(12)

은장구간예측필터를이용해모델링한pitch정보로서

돌발잡음을제거하기전의잔여신호에서pitch모델링오차를

뺀값이다.이와같이원신호에서pitch신호를모두저장하

였다가돌발잡음이제거된신호에이를더하면왜곡이이후

샘플에영향을미치지않는다15).

그림5는장구간예측기법을적용한돌발잡음제거시스템의

구조를나타낸것이다.

그림5. 장구간 예측 기법을 적용한 돌발 잡음 제거

위의돌발잡음제거시스템은앞선음량조절과정상잡

음이제거된이후에적용이된다.특히정상잡음을제거하고

나면2차미분계수나고대역에너지의배경잡음이제거되면

서돌발잡음을제거한결과는더욱뛰어나다15).

6. 소실 검출

국가기록원의음성자료에서소실분류에속하는신호는저

대역에신호가몰려있고음성의특성이나타나는주파수

대역에는정보가전혀나타나지않는다.

소실파일은1kHz아래대역에에너지가몰려있는특징을

가지고있으며,이로말미암아음성이웅웅거리는소리만나게

된다.소실신호는음성부분의소리가작지않고정상잡음

또한많이포함되어있지않기때문에지금까지설명한방법

으로는구분해낼수없는문제점을지니고있다.그렇기때

문에전체에너지와1kHz아래의저대역밴드의에너지의비로

소실음성을검출해내는방법을제안한다.그림4. 저장된 pitch 신호를 사용하여 복원한 음성

그림6. 소실 신호의 스펙트로그램

그림3. 재귀적 음성 합성의 영향

Page 6: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

42 CONSERVATION OF THE ARCHIVES

그림7의상단그래프에서볼수있듯이정상신호와소실

신호의시간축그래프만으로는두가지를구별할수없다.하

단그래프는해당프레임의에너지비를나타낸것으로정상

신호와소실신호의경향이차이가나는것을확인할수있다.

굵은선으로표시된부분이음성이있는부분으로,이부분에서

에너지비의평균을보면정상은26%이고소실은45%로소실

이매우높은것을확인할수있다.소실음성자료들의평균

값은44%로,기준값40%가넘는파일은소실로분류하였다.

그림8은음량의분포를나타내는히스토그램이다.복원전

음량은-26dBov를중심으로가장그수가많았지만,음량이

작은경우가59%를차지하여녹음이나A/D변환과정에서의

에너지레벨이작게변환되었음을알수있다.음량조절후

에는-26dBov로음량이조절된것을볼수있다.-26dBov

외에다른값을가지는파일들은복원전에음량이너무크거나

너무작았던탓에음성이있는위치가정확하지않게검출되

었기때문이다.

IV. 국가기록원 음성 자료의 분석 및 복원 결과

1. 음량의 분포

그림7. 저정상 신호(좌)와 소실(우) / 전체에 대한 저대역 밴드 에너지 비(아래) / 음성의 위치(굵은 선)

그림8. 음량의 분포 조정 전(좌) -26dBov로 조정한 후(우)

Page 7: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

CONSERVATION OF THE ARCHIVES 43

그림9에서위에있는그래프는각각의연도별로음량의평

균과그의표준편차를표시한것이다.연도별로음량이분포

된형태를보면1970년대전후로녹음된자료들의음량의

소리가작은것을알수있다.조절후에는-26dBov를중

심으로음량이조절되고표준편차도많이줄어들었다.

매체별로음량의분포를살펴보면릴로녹음된음성자료들

이소리가작으며전체적으로도음량이작게변환되어있다.

조절후에는눈에띄게음량이잘조절되었다.

그림9. 음량 연도별 분포 복원 전(좌) 조절 후(우)

그림10. 매체별 음량 분포(카세트/릴/CD)

그림11. SNR의 분포

2. 신호 대 잡음비의 분포

Page 8: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

44 CONSERVATION OF THE ARCHIVES

복원전신호대잡음비의분포를보면10dB를중심으로왼

쪽에치우쳐있어복원필요성이많음을보여준다.복원후에

는전체적으로10dB이상의효과를얻을수있었다.

그림12는신호대잡음비의평균과표준편차를나타낸그

래프이다.연도별신호대잡음비를보면비교적최근에녹음

된파일들의상태가좋고오래된음성자료일수록녹음상태

가좋지않다는것을알수있다.복원후에는전체적인SNR

이10dB의선을상회하게나왔음을알수있다.

매체별신호대잡음비를보면카세트와릴은10dB평균값

을가지는반면에CD는약간낮은값을가지고있음을알수

있다.CD로녹음된파일들의경우카세트와릴에비해수가적

고음악이깔려있거나혹은음악만있는파일이있어서현재

의음성의음량이나신호대잡음비를구하는알고리즘에적합

지않은파일들이일부포함되어있어서작게나온경향을띠

었다.복원후에는특히릴에서의성능이매우좋아졌다.

3. 돌발 잡음의 검출 및 제거

그림14의왼쪽그래프는복원전의신호로음량이-33dBov

이고SNR은3dB이다.처음부분과중간에돌발잡음이섞여

있다.오른쪽의그래프는음량이조절되고정상잡음이제거

된뒤에돌발잡음을제거한결과이다.돌발잡음이깨끗하게

제거되었을뿐아니라소리도매끄럽게들리는것을확인할

수있다.

돌발잡음은전체파일에대해서검색을해야정확한자료

를얻을수있지만알고리즘을모든대상에대해서적용하면

시간이많이걸리기때문에처음에서30초떨어진지점에서

10분동안의구간에서돌발잡음을검출하였다.

전체파일중에서1,580개의파일에서돌발잡음이검출되

었으며0.2초보다도짧은돌발잡음들이41%를차지하고있

었다.특정구간에서만찾은것이기때문에이자료는참고

수치로생각하는것이바람직하다.

그림12. 연도별 SNR

그림13. 매체별 SNR(카세트/릴/CD)

Page 9: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

CONSERVATION OF THE ARCHIVES 45

소실파일은시작지점에서30초떨어진지점에서30초동

안의구간에서의에너지비율을측정하여검출하였다.전체

파일에서899개가소실파일로검출되었다.

전체15,735개의파일에대한결과이다.

4. 소실 파일의 검출 5. 국가기록원 음성 자료의 구분 결과

그림14. 전체적인 검출 및 복원 결과

Ⅴ. 결 론

국가기록원음성기록물은우리나라의근현대사를보존하

는기록물로매우중요한성격을띤다.본논문은훼손된음

성기록물의신호특성을기준으로크게네가지의카테고리

를만들고,각각의카테고리에맞는검출방법을이용하여구

분하였다.또한음량,정상잡음,돌발잡음을복원하였으며

이는앞으로음성기록물을관리하고서비스하는데도움이

될것이다.

더나아가음성이외부적으로더해진정상잡음이나돌발

잡음으로침해된것이아니라소리자체가변형되어왜곡된

경우를복원하는노력또한필요하다.

표2. 음성 자료의 구분 결과 - 해당 파일의 숫자와 퍼센트

음량 정상 잡음 돌발 잡음 소실

대 소 양호 소음 정상 포함 정상 소실

6,455 9,280 5,671 10,064 14,155 1,580 14,836 899

41% 59% 36% 64% 90% 10% 94% 6%

Page 10: 국가기록원 음성 기록물의 복원과 분석 - archives.go.krarchives.go.kr/archivesdata/upFile/palgan/1390806432877.pdf · 2014-01-27 · 본 논문은 주파수 축에서는

46 CONSERVATION OF THE ARCHIVES

│참고문헌│

1. iZotopeRX, audio repair toolkit http://www.izotope.com/products/audio/rx/

2. Y. Ephraim and D. Malah. 1985. “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,”

IEEE Trans. on Acoust., Speech and Signal Process., vol. 33, pp. 443-445.

3. I. Cohen and B. Berdugo. 2001. “Speech enhancement for nonstationary noise environments,” Signal Process., vol. 81, pp. 2401-4218.

4. S. V. Vaseghi. 2000. dvanced digital signal processing and noise reduction, 2nd ed., John Wiley & Sons.

5. T. Kasparis and J. Lane. 1993. “Suppression of impulsive disturbances from audio signals,” Electronics letters, vol. 29, no. 22, pp.

1926-1927.

6. A. J. Efron and H. Jeen. 1994. “Detection in impulsive noise based on robust whitening,” IEEE Trans. on Signal Process., vol. 42, no. 6,

pp. 1572-1576.

7. S. R. Kim and A. Efron. 1995. “Adaptive robust impulse noise filtering,” IEEE Trans. on Signal Process., vol. 43, no. 8, pp. 1855-1866,

8. I. Kauppinen, 2002, “Methods for detecting impulsive noise in speech and audio signals,” in Proc. IEEE Int Conf. on Digital Signal

Process. 2002, vol. 2, pp. 967-970.

9. T. F. Quatieri. 2001. Discrete-time speech signal processing, Prentice Hall.

10. J. Beh, K. Kim and H. Ko. 2007. “Noise estimation for robust speech enhancement in transient noise environment,” in Proc.

KSCSP 2007, vol. 24, no. 1, pp. 35-36.

11. ITU-T. 2011. ITU-T recommendation P. 56, ITU-T.

12. 최민석, 신호선, 황영수, 강홍구. 2011. “음성 신호에서의 시간-주파수 축 충격 잡음 검출 시스템,” 한국음향학회지 제30권 제2

호 pp. 73~79.

13. ITU-T. 1996. ITU-T recommendation G. 729, ITU-T.

14. A. M. Kondoz. 1994. Digital speech - coding for low bit rate communication systems, John wiley & sons.

15. M. Choi and H. Kang. 2011. “Transient noise reduction in speech signal with a modified long-term predictor,” EURASIP Journal on

Advances in Signal Processing.