pattern 인식을 이용한 noise 검출
DESCRIPTION
Pattern 인식을 이용한 Noise 검출. 200811459 조휘열. 목 차. 개 요. 목 적. 데이터 마이닝. 데이터 수집 Target Data Preprocessing & Transform Data Data Mining. 결 론. 개 요 . 음악 파일 분석. 음악 파일 역시 bit sequence 로 표현 bit sequence 속에 pitch, duration, key-signal, time-signal - PowerPoint PPT PresentationTRANSCRIPT
Pattern 인식을 이용한
Noise 검출200811459 조휘열
목 차
개 요
목 적
데이터 마이닝
결 론
데이터 수집 Target Data Preprocessing & Transform Data Data Mining
개 요
음악 파일 분석
음악 파일에는 일정한 패턴이 있을 것이다
제한 사항
음악 파일 역시 bit sequence 로 표현 bit sequence 속에 pitch, duration, key-signal, time-signal
정보가 모두 포함
그 패턴을 우리는 ‘멜로디’라고 할 수 있음 보다 계산된 음악이 가능 표절 검사에도 사용할 수 있음
음악 파일 하나에는 수많은 bit sequence 가 있고 , 그 크기가 방대 하나의 음악이 아닌 여러 음악을 보아야 한다 .
목 적
패턴을 이용해서 잡음을 추출
+ 잡음
+ 패턴
데이터 수집 (1/2) 출처 :
http://archive.ics.uci.edu/ml/datasets/Bach+Chorales
바흐의 화음 소프라노로 구성되어 있으며 Rawdata format 은 lisp 기반
데이터 수집 (2/2)
Raw Data
데이터 마이닝 (1/8)
Attribute & Domain start_time : 1/16 음표로 계산하여 수치화한 시작 시간
{0,1,2,3, … } pitch : 음높이 . MIDI number 로 표현한다
<ex> C4 = 60, C#4 = 61, C5 = 72 domain = {60, … , 75}
duration : 음의 지속 길이 {1,2,3, … , 16} keysignal : flat 과 sharp 의 수 . 양수면 sharp, 음수면 flat
{-4, … , 4} timesignal : 한 마디의 1/16 음표 개수 {12, 16} fermata : 늘임표 등 기타 표현 {0, 1}
데이터 마이닝 (2/8)
Target Data eval attribute 를 생성 eval (1: 원본 데이터 / 0: 잡음 데이터 )
Preprocessing & Transform Data
lisp 파일을 excel 로 옮김 첫 번째 화음과 두 번째 화음을 구별하기 위한 ‘ no’ attribute 추가 각 attribute 의 domain 을 이용하여 임의의 값들을 잡음으로 추가
데이터 마이닝 (3/8) 전체 스트림
데이터 마이닝 (4/8)
일반 추론 부분
패턴을 이용하여 단순한 추론을 하는 부분 eval 만 target data
데이터 마이닝 (5/8)
일반 추론 부분 ( 계속 )Neural Network Analysis C 5.0 Algorithm Analysis
pitch/duration 의 distribution
pitch/duration 을 이용한Neural Network
Analysis
데이터 마이닝 (6/8)
규칙 분석 부분
데이터 마이닝 (7/8)
규칙 분석 부분 ( 계속 )
Target : Pitch C 5.0 Algorithm 사용 (
최적 )
Target : duration C 5.0 Algorithm 사용 (
최적 )
Target : keysignal C 5.0 Algorithm 사용 (
최적 )
Target : timesignal C 5.0 Algorithm 사용 (
최적 )
Target : fermata Neural Network 사용 (
최적 )
데이터 마이닝 (8/8) Knowledge
Noise 검출 !
결 론 (1/2)
Clementine 11.1 을 이용하여 Noise 검출
문제점
4477 개의 data set 을 기준으로 Noise 를 직접 만들고 패턴을 분석하여 오류를 검출해냄
생성한 1583 개의 Noise 중에서 50 개밖에 검출되지 못하는 결과 ?
임의로 생성한 Noise 가 Noise 가 아닌 것과 패턴이 일치 기존 data set 의 양이 충분치 못하여 확실한 pattern 검출이 안됨
결 론 (2/2)
각각의 attribute 를 Modeling 한 결과와 한꺼번에 동일한
Modeling 알고리즘을 돌렸을 경우 차이를 확인
보다 많은 data set 과 많은 데이터를 처리할 resource 가
충분하다면 보다 정확한 패턴을 찾아 낼 수 있을 것이며 , 이는
data set 의 Noise 를 더욱 충분히 줄일 수 있을 것으로 기대