pattern 인식을 이용한 noise 검출

Pattern 인식을 이용한

Noise 검출200811459 조휘열

목 차

개 요

목 적

데이터 마이닝

결 론

데이터 수집 Target Data Preprocessing & Transform Data Data Mining

개 요

음악 파일 분석

음악 파일에는 일정한 패턴이 있을 것이다

제한 사항

음악 파일 역시 bit sequence 로 표현 bit sequence 속에 pitch, duration, key-signal, time-signal

정보가 모두 포함

그 패턴을 우리는 ‘멜로디’라고 할 수 있음 보다 계산된 음악이 가능 표절 검사에도 사용할 수 있음

음악 파일 하나에는 수많은 bit sequence 가 있고 , 그 크기가 방대 하나의 음악이 아닌 여러 음악을 보아야 한다 .

목 적

패턴을 이용해서 잡음을 추출

+ 잡음

+ 패턴

데이터 수집 (1/2) 출처 :

http://archive.ics.uci.edu/ml/datasets/Bach+Chorales

바흐의 화음 소프라노로 구성되어 있으며 Rawdata format 은 lisp 기반

http://archive.ics.uci.edu/ml/datasets/Bach+Chorales

데이터 수집 (2/2)

Raw Data

데이터 마이닝 (1/8)

Attribute & Domain start_time : 1/16 음표로 계산하여 수치화한 시작 시간

{0,1,2,3, … } pitch : 음높이 . MIDI number 로 표현한다

<ex> C4 = 60, C#4 = 61, C5 = 72 domain = {60, … , 75}

duration : 음의 지속 길이 {1,2,3, … , 16} keysignal : flat 과 sharp 의 수 . 양수면 sharp, 음수면 flat

{-4, … , 4} timesignal : 한 마디의 1/16 음표 개수 {12, 16} fermata : 늘임표 등 기타 표현 {0, 1}


Target Data eval attribute 를 생성 eval (1: 원본 데이터 / 0: 잡음 데이터 )

Preprocessing & Transform Data

lisp 파일을 excel 로 옮김 첫 번째 화음과 두 번째 화음을 구별하기 위한 ‘ no’ attribute 추가 각 attribute 의 domain 을 이용하여 임의의 값들을 잡음으로 추가

데이터 마이닝 (3/8) 전체 스트림


일반 추론 부분

패턴을 이용하여 단순한 추론을 하는 부분 eval 만 target data


일반 추론 부분 ( 계속 )Neural Network Analysis C 5.0 Algorithm Analysis

pitch/duration 의 distribution

pitch/duration 을 이용한Neural Network

Analysis


규칙 분석 부분


규칙 분석 부분 ( 계속 )

Target : Pitch C 5.0 Algorithm 사용 (

최적 )

Target : duration C 5.0 Algorithm 사용 (

최적 )

Target : keysignal C 5.0 Algorithm 사용 (

최적 )

Target : timesignal C 5.0 Algorithm 사용 (

최적 )

Target : fermata Neural Network 사용 (

최적 )

데이터 마이닝 (8/8) Knowledge

Noise 검출 !

결 론 (1/2)

Clementine 11.1 을 이용하여 Noise 검출

문제점

4477 개의 data set 을 기준으로 Noise 를 직접 만들고 패턴을 분석하여 오류를 검출해냄

생성한 1583 개의 Noise 중에서 50 개밖에 검출되지 못하는 결과 ?

임의로 생성한 Noise 가 Noise 가 아닌 것과 패턴이 일치 기존 data set 의 양이 충분치 못하여 확실한 pattern 검출이 안됨

결 론 (2/2)

각각의 attribute 를 Modeling 한 결과와 한꺼번에 동일한

Modeling 알고리즘을 돌렸을 경우 차이를 확인

보다 많은 data set 과 많은 데이터를 처리할 resource 가

충분하다면 보다 정확한 패턴을 찾아 낼 수 있을 것이며 , 이는

data set 의 Noise 를 더욱 충분히 줄일 수 있을 것으로 기대

pattern 인식을 이용한 noise 검출

Documents