정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털...

20
정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 : 서울여대 문정과 정보검색이론수업 특강 발표자 : 김혜영 발표일 : 2006. 11. 24() 주교재 : 디지털시대의 정보표현과 검색, Heting Chu , 장혜란 옮김, 2006

Upload: others

Post on 25-Jul-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

정보검색이론과 실제- 인터넷 포털 검색을 중심으로

강 의 : 서울여대문정과 ‘정보검색이론’수업특강

발표자 : 김혜영

발표일 : 2006. 11. 24(금)

주교재 : 디지털시대의 정보표현과 검색, Heting Chu 저, 장혜란 옮김, 2006

Page 2: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

2/20서울여대 정보검색이론 특강 2006. 11. 24

인터넷 검색시스템 구성

정보 표현과 검색언어

인터페이스

데이터베이스

탐색 매커니즘

인터페이스

주교재 p22 그림1.1 정보표현과 검색과정

정보표현

질의작성

(정보요구의 표현)

Page 3: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

3/20서울여대 정보검색이론 특강 2006. 11. 24

현장 실무자의 고민

어떻게 하면 검색이용자가 검색결과에 만족하게 할 수 있을까?

어떻게 하면 보다 ‘많은’ 이용자가 ‘여러 번’ 검색하게 만들 수 있을까?

그래서 결국

왜냐? 검색 = 돈 이니까

Page 4: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

4/20서울여대 정보검색이론 특강 2006. 11. 24

어떻게 하면

검색이용자가 만족하게검색결과에

할 수 있을까?

Page 5: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

5/20서울여대 정보검색이론 특강 2006. 11. 24

검색이용자

Page 6: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

6/20서울여대 정보검색이론 특강 2006. 11. 24

실제 이용자는 어떤 질의어를 입력할까?

검색 질의어 특성검색이용자 | 검색결과 | 만족

키워드 빈익빈 부익부 현상 존재

인기키워드에 대한 다양한 변종 쿼리 존재

ex. 싸이월드, 사이월드, ㅅ이월드, 싸이, tktldnjfem

검색횟수

비율

인기 검색어 1위 시대 하나의 키워드, 그리고 붙여쓰기

고유 키워드 어절수

짧은 단어로 정보 요구 표현 ex. 독일

지식검색의 영향으로 긴 키워드 점차 증가 추세

그러나 띄어쓰기 정확히 안 함

ex. 호박죽만드는법, 영어회화잘하는법

[참고] 주교재 p110 6.1.3.5 신속/편의 지향법

1어절 키워드

60% 이상 차지

Page 7: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

7/20서울여대 정보검색이론 특강 2006. 11. 24

용어의 변형, 변환이 어떻게 일어나는가?

검색 질의어 보정 / 변형

1. 개념/패싯 분석

탐색요구를 개념집단 또는 패싯으로 분해

2. 용어의 변형 검토

식별된 개념의 동의어, 광의어, 협의어, 기타 변형 검토

3. 통제 어휘로 변환

통제어휘 사용 시, 이 용어들을 통제어휘로 변환

[참고] 주교재 p91-99 5. 질의 표현

한일축구 동영상

이론 실 서비스

nike

‘동영상’ 이런 질의어는 데이터 형식에 대한 패싯

‘nike’ 이런 질의어는 ‘나이키’와 동의어

tjdnfdueo

‘서울여대’로 변환 후 검색 (영한타 자동변한 기능)

야휴

‘야후’의 오타로 간주, ‘야후’ 로 변환 후 사이트 검색

알집 다운로드

‘다운로드’ 이런 질의어는 데이터 형식에 대한 패싯

검색이용자 | 검색결과 | 만족

Page 8: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

8/20서울여대 정보검색이론 특강 2006. 11. 24

용어의 변형, 변환이 어떻게 일어나는가?

검색 질의어 보정 / 변형

4. 불리언 연산

동의어 OR / 관련 패싯 AND / 불필요한 패싯 NOT

5. 기타 검색 기법 사용

대소문자 구별 / 절단/ 용어 가중치 / 질의 확장

[참고] 주교재 p91-99 5. 질의 표현

이론 실 서비스

프라다 가방

{ 프라다 & 가방 | PRADA & 가방 }

INFORMATION

소문자 ‘information’ 으로 변환해서 확장검색

검색이용자 | 검색결과 | 만족

WW*

‘WWAN’ 이란 단어를 정확히 모를 때, 절단검색

수능

Page 9: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

9/20서울여대 정보검색이론 특강 2006. 11. 24

검색결과

Page 10: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

10/20서울여대 정보검색이론 특강 2006. 11. 24

정보원을 어떻게 수집하고 가공 할 것인가?

검색결과를 구성하는 데이터

Field-Record형 DB

검색이용자 | 검색결과 | 만족

[참고] 주교재 p18-19 1.3.1 데이터베이스

Page 11: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

11/20서울여대 정보검색이론 특강 2006. 11. 24

정보원을 어떻게 수집하고 가공 할 것인가?

검색결과를 구성하는 데이터

Full Text형 DB

검색이용자 | 검색결과 | 만족

[참고] 주교재 p18-19 1.3.1 데이터베이스

접근권한 변화 등 트랜젝션 관리가 중요한 내부 DB

좋은 피드 1차 서핑 + 기계 크롤링을 수집하는 내외부DB

전문 웹 크롤러가 수집 관리하는 외부 DB

Page 12: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

12/20서울여대 정보검색이론 특강 2006. 11. 24

어떤 필드를 어떤 방식으로 색인 할 것인가?

데이터 색인 방식

기계보조색인

검색이용자 | 검색결과 | 만족

[참고] 주교재 p33 2.1.2 기계보조색인과 자동색인

2.1.3 하이퍼구조의 색인

하이퍼구조의 색인자동색인

구글 웹문서 - ‘반역자’로 검색 시 본문에 해당 키워드가 없는데도,타 문서의 링크 분석을 통해 해당 문서의 색인으로 포함됨

웹사이트 – 서퍼가 1차로 색인어 지정, 이후 기계 색인

Page 13: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

13/20서울여대 정보검색이론 특강 2006. 11. 24

어떤 필드를 어떤 방식으로 색인 할 것인가?

데이터 색인 방식

색인 모델링 – 언어적 관점

검색이용자 | 검색결과 | 만족

[참고] 주교재 p60 4.1 자연어

1. 어떤 용어를 색인 해야 하는가? - stop-list ex. 이, 가, 는 같은 조사 vs go-list ex. 명사, 동사, 형용사

2. 어떤 용어가 중요한 용어인가?

볼드처리가 되어있는 단어? 제목에 있는 단어? 고유명사와 같은 명사?

3. 어떤 단위로 용어를 색인 해야 하는가? - 음절단위 (N-Gram) ex. ★:*:장미가족태그교실:*:★

- 형태소단위 ex. 제부도에 가는 방법

- 어절단위

- 입력된 단위 전체 ex. 마시멜로 이야기 (공백제거 튜닝)

- 특수문자 단위 ex. 블로그 태그

Page 14: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

14/20서울여대 정보검색이론 특강 2006. 11. 24

어떤 방식으로 전체 검색결과를 보여줄 것인가?

검색결과 인터페이스

한국형 통합검색 인터페이스

검색이용자 | 검색결과 | 만족

[참고] 주교재 p85 5.1.2.4 다수 데이터베이스 탐색

외국형 통합검색 인터페이스

Page 15: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

15/20서울여대 정보검색이론 특강 2006. 11. 24

어떤 방식으로 세부 검색결과를 보여줄 것인가?

검색결과 인터페이스

검색결과 세부 고려 요소

검색이용자 | 검색결과 | 만족

[참고] 주교재 p213 10.3.2.1 디스플레이 특성

참고) 자동화된 스페셜 시도

http://www.lycos.com/retriever.html

Page 16: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

16/20서울여대 정보검색이론 특강 2006. 11. 24

만족

Page 17: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

17/20서울여대 정보검색이론 특강 2006. 11. 24

이용자는 원하는 정보검색 스타일에 맞추려면?

정보검색 유형별 만족도

건초더미(검색시스템 또는 데이터베이스) 에서 바늘 (문헌 또는 정보) 찾기

1. 알고 있는 건초더미에서 알고 있는 바늘 찾기 예) ‘우리은행’ 검색 → ‘바로가기’ 영역에서 사이트 클릭

2. 알지 못하는 건초더미에서 알고 있는 바늘 찾기 예) ‘정보검색이론 특강자료’ 검색 → 웹문서 검색에서 파일 찾기

3. 알지 못하는 건초더미에서 알지 못하는 바늘 찾기 예) ‘겨울여행 추천’ 검색 → 다양한 검색영역에서 세부검색주제 찾기

4. 건초더미에서 어떠한 바늘이라도 찾기 예) ‘강동원’ 열혈 팬이 UCC, 뉴스 등 모든 검색영역에서 ‘강동원’ 탐색

5. 건초더미에서 가장 날카로운 바늘 찾기 예) ‘9713번노선’ → 버스노선 스페셜에서 9713번 노선도 보기

6. 건초더미에서 대부분의 날카로운 바늘 찾기 예) 지역정보에서 ‘안면도 펜션’ 검색 → 폔션 연락처 모두 찾기

7. 건초더미에 있는 모든 바늘 찾기 예) 개별카페 내에서 운영자가 ‘등업 신청한 회원’ 모두 찾기

8. 건초더미에 바늘이 없음을 확인하기 예) 자신의 주민등록번호 검색 → 검색결과에 나오지 않음을 확인

9. 건초더미에서 바늘과 유사한 것 찾기 예) 1차로 검색된 문서와 유사한 문서 검색 기능

10. 새로운 바늘이 나타날 때마다 알려주기 예) 뉴스 검색결과 RSS

11. 건초더미들이 있는 장소를 찾기 예) ‘취업’ 검색 → ‘카페명 ‘ 영역에서 ‘취업뽀깨기’ 카페 클릭

12. 바늘이건 건초더미이건 무엇이든지 찾기

검색이용자 | 검색결과 | 만족

[참고] 주교재 p103 제6장 검색접근 방법

Page 18: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

18/20서울여대 정보검색이론 특강 2006. 11. 24

어떻게 검색결과 Top5에서 원하는 결과를 얻게 할까?

검색 순위화 요소

엔진 정확도

검색이용자 | 검색결과 | 만족

[참고] 주교재 p165 8.4.2.4 순위화 기법

- 제목, 내용 등의 검색필드 위치에 따른 가중치

- 빈도에 따른 가중치(TF-IDF)- 단어간 인접도에 따른 가중치

- 최신 정보에 대한 가중치

- 인용이 많이 된 페이지에 대한 가중치 (Page Rank)

- 클릭, 추천, 조회수에 대한 가중치 (인기도 접근법)

- 신뢰도가 높은 작성자에 대한 가중치

문서 신뢰도

최신성

Page 19: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

19/20서울여대 정보검색이론 특강 2006. 11. 24

이용자에게 꼭 보여주고 싶은 양질의 정보만 검색되게 하려면?

검색결과 퀄리티 향상 방법검색이용자 | 검색결과 | 만족

스팸필터

- 사이트 홍보하는 낚시성 문서 필터링

- 악성코드를 심는 문서 필터링

- 반복적으로 인기키워드를 노출하는 문서 필터링

- 중복된 문서가 검색되지 않도록 필터링 (특히 ‘펌’을 기반으로 한 UCC 검색영역들)

- 문서의 길이, 내용의 독창성, 부가 정보의 이용여부 등을 기반으로 내용 필터링

정보성 필터

중복필터

- 연결되지 않은 문서, 접근권한이 없어진 문서 필터링

데드링크 필터

Page 20: 정보검색이론과 실제 - 시루 로그정보검색이론과 실제 - 인터넷 포털 검색을 중심으로 강의: 서울여대문정과‘정보검색이론’ 수업특강

20/20서울여대 정보검색이론 특강 2006. 11. 24

감사합니다

이 저작물은 크리에이티브 커먼즈의

저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.

이용허락조건을 보려면, http://creativecommons.org/licenses/by-nc-nd/2.0/kr/ 을 클릭하시거나,

크리에이티브 커먼즈 코리아에 문의해주세요.

시루로그 http://siru.pe.kr

메일주소 [email protected]