신입생 교육 java project: personalized document classifier on shared repository

8
신신신 신신 Java Project: Personalized Document Classifier on Shared Repository IDS+IDB 08’ 신신신 신신 Java Project IDS 신 신신신 , 신신신 , 신신신 2008. 01. 15

Upload: tavon

Post on 05-Jan-2016

23 views

Category:

Documents


2 download

DESCRIPTION

신입생 교육 Java Project: Personalized Document Classifier on Shared Repository. IDS+IDB 08’ 신입생 교육 Java Project IDS 팀 연종흠 , 남광현 , 박성찬 2008. 01. 15. 상황. 신입생 교육 조교로부터 전달받은 요구사항이 ‘ 재미없다 ’ 는 선배들의 조언을 받아들여 , 연구실 내부 문서 관리 시스템이라는 기본 조건 위에 새로운 아이디어를 덧붙여 보기로 함. 기본 아이디어. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 신입생 교육  Java Project: Personalized Document Classifier on Shared Repository

신입생 교육 Java Project:

Personalized Document Classifieron Shared Repository

IDS+IDB 08’ 신입생 교육 Java Project IDS 팀

연종흠 , 남광현 , 박성찬

2008. 01. 15

Page 2: 신입생 교육  Java Project: Personalized Document Classifier on Shared Repository

– Copyright 2008 by CEBT

상황

신입생 교육 조교로부터 전달받은 요구사항이 ‘재미없다’는 선배들의 조언을 받아들여 , 연구실 내부 문서 관리 시스템이라는 기본 조건 위에 새로운 아이디어를 덧붙여 보기로 함

Page 3: 신입생 교육  Java Project: Personalized Document Classifier on Shared Repository

– Copyright 2008 by CEBT

기본 아이디어

각자가 자기만의 분류 체계를 갖고 있다면 좋지 않을까 ?

이를테면 , 사용자 a 가 문서 A 를 자기 분류 체계 Ca 상의 분류 Ca-1, Ca-2 로 정의하여 갖고 있으며 또한 공개하고 있다면 ,

시스템은 자동으로 이 문서 A 를 사용자 b 에게는 Cb 상의 분류 Cb-1 로 분류하여 보여주고 , 사용자 c 에게는 Cc 상의 분류 Cc-1, Cc-2, Cc-3 으로 분류하여 보여준다 .

즉 , 누가 어떻게 올린 자료든 유저가 정한 분류 체계로 자동으로 분류된다는 것 .

Page 4: 신입생 교육  Java Project: Personalized Document Classifier on Shared Repository

– Copyright 2008 by CEBT

수학적 정의

Users : U = {U1, U2, … , Un}

Documents : D = {d1, d2, … , dm}

User Concepts : UCi = {Ci1, Ci2, … , Cil}

유저 한 명당 하나의 Concept Set 을 갖고 있음

Cij 는 D 의 부분집합

Subsumption : Cij ≤ Cik

– 같은 User Concpets 집합에 포함된 경우에 계층 관계 정의 가능

Mapping between User Concepts

Mij : P(Ci) → P(Cj)

Page 5: 신입생 교육  Java Project: Personalized Document Classifier on Shared Repository

– Copyright 2008 by CEBT

어떻게 하지 ?

Ontology Mapping Algorithm 응용 혹은 고안 ?

Heuristic 고안

Machine Learning 응용

Page 6: 신입생 교육  Java Project: Personalized Document Classifier on Shared Repository

– Copyright 2008 by CEBT

그런데 이거 어려울 것 같아 ! 왜 ?

Ontology Mapping 은 성숙한 분야가 아님 자동 Mapping 의 성능은 만족스럽지 못함

각 사용자가 각 사용자마다의 Mapping 을 필요로 하므로 , 최소 O(N*N) 의 공간 복잡도 너무 높음 !

Page 7: 신입생 교육  Java Project: Personalized Document Classifier on Shared Repository

– Copyright 2008 by CEBT

그래도 어떻게든 되지 않을까 ?

문제가 Ontology Mapping 에 비해 간단 !

Relation, Constraints 등이 없는 그냥 taxonomy

개인이 사용하는 taxonomy 의 크기도 크지 않을 것임

대상이 ‘연구실 내’이므로 , 유저 집합의 크기가 크지 않을 것임 !

n(U) ≤ 30

Page 8: 신입생 교육  Java Project: Personalized Document Classifier on Shared Repository

– Copyright 2008 by CEBT

그 밖의 이슈

이거 의미가 있는 건가 ?

구현이 기존 ‘재미없는’ 스펙에 비해 크게 복잡해질 텐데 ?

방학 중에 어느 정도의 완성도를 갖출 수 있을까 ?