신입생 교육 java project: personalized document classifier on shared repository
DESCRIPTION
신입생 교육 Java Project: Personalized Document Classifier on Shared Repository. IDS+IDB 08’ 신입생 교육 Java Project IDS 팀 연종흠 , 남광현 , 박성찬 2008. 01. 15. 상황. 신입생 교육 조교로부터 전달받은 요구사항이 ‘ 재미없다 ’ 는 선배들의 조언을 받아들여 , 연구실 내부 문서 관리 시스템이라는 기본 조건 위에 새로운 아이디어를 덧붙여 보기로 함. 기본 아이디어. - PowerPoint PPT PresentationTRANSCRIPT
신입생 교육 Java Project:
Personalized Document Classifieron Shared Repository
IDS+IDB 08’ 신입생 교육 Java Project IDS 팀
연종흠 , 남광현 , 박성찬
2008. 01. 15
– Copyright 2008 by CEBT
상황
신입생 교육 조교로부터 전달받은 요구사항이 ‘재미없다’는 선배들의 조언을 받아들여 , 연구실 내부 문서 관리 시스템이라는 기본 조건 위에 새로운 아이디어를 덧붙여 보기로 함
– Copyright 2008 by CEBT
기본 아이디어
각자가 자기만의 분류 체계를 갖고 있다면 좋지 않을까 ?
이를테면 , 사용자 a 가 문서 A 를 자기 분류 체계 Ca 상의 분류 Ca-1, Ca-2 로 정의하여 갖고 있으며 또한 공개하고 있다면 ,
시스템은 자동으로 이 문서 A 를 사용자 b 에게는 Cb 상의 분류 Cb-1 로 분류하여 보여주고 , 사용자 c 에게는 Cc 상의 분류 Cc-1, Cc-2, Cc-3 으로 분류하여 보여준다 .
즉 , 누가 어떻게 올린 자료든 유저가 정한 분류 체계로 자동으로 분류된다는 것 .
– Copyright 2008 by CEBT
수학적 정의
Users : U = {U1, U2, … , Un}
Documents : D = {d1, d2, … , dm}
User Concepts : UCi = {Ci1, Ci2, … , Cil}
유저 한 명당 하나의 Concept Set 을 갖고 있음
Cij 는 D 의 부분집합
Subsumption : Cij ≤ Cik
– 같은 User Concpets 집합에 포함된 경우에 계층 관계 정의 가능
Mapping between User Concepts
Mij : P(Ci) → P(Cj)
– Copyright 2008 by CEBT
어떻게 하지 ?
Ontology Mapping Algorithm 응용 혹은 고안 ?
Heuristic 고안
Machine Learning 응용
…
– Copyright 2008 by CEBT
그런데 이거 어려울 것 같아 ! 왜 ?
Ontology Mapping 은 성숙한 분야가 아님 자동 Mapping 의 성능은 만족스럽지 못함
각 사용자가 각 사용자마다의 Mapping 을 필요로 하므로 , 최소 O(N*N) 의 공간 복잡도 너무 높음 !
– Copyright 2008 by CEBT
그래도 어떻게든 되지 않을까 ?
문제가 Ontology Mapping 에 비해 간단 !
Relation, Constraints 등이 없는 그냥 taxonomy
개인이 사용하는 taxonomy 의 크기도 크지 않을 것임
대상이 ‘연구실 내’이므로 , 유저 집합의 크기가 크지 않을 것임 !
n(U) ≤ 30
– Copyright 2008 by CEBT
그 밖의 이슈
이거 의미가 있는 건가 ?
구현이 기존 ‘재미없는’ 스펙에 비해 크게 복잡해질 텐데 ?
방학 중에 어느 정도의 완성도를 갖출 수 있을까 ?