retrieval of information in document image databases .pdf

Upload: sebastian-codd

Post on 03-Apr-2018

231 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/28/2019 Retrieval of Information in Document Image Databases .pdf

    1/6

    2 0 0 9 IEEE I n t e r n a t i o n a l A d v a n c e C o m p u t i n g C o n f e r e n c e (IACC 2 0 0 9 )P a t i a l a , I n d i a , 6 - 7 March 2 0 0 9R e t r i e v a l Of I n f o r m a t i o n I n D o c u m e n tI m a g e D a t a b a s e s U s i n g P a r t i a lWord I m a g e M a t c h i n g T e c h n i q u eS e e m a Y a d a v , D r . S u d h i r S a w a r k a rM G M c o l l e g e o f E n g g . K a l a m b o l i , D a t t a M e g h e C O E , A i r o l iE m a i l : c o n t a c t s e e m a 2 0 0 0 @ y a h o o . com

    A b s t r a c t i n f o r m a t i o n f r o m i m a g e d a t a t h a n f r o m t e x t d a t a . T h u s ,W i t h t h e p o p u l a r i t y a n d i m p o r t a n c e o f d o c u m e n t t h e s t u d y o f i n f o r m a t i o n r e t r i e v a l i n d o c u m e n t i m a g ei m a g e s a s a n i n f o r m a t i o n s o u r c e , i n f o r m a t i o n r e t r i e v a l d a t a b a s e s i s a n i m p o r t a n t s u b j e c t i n k n o w l e d g e a n d d a t ai n d o c u m e n t i m a g e d a t a b a s e s h a s b e c o m e a c h a l l e n g e . e n g i n e e r i n g .I n t h i s p a p e r , a n a p p r o a c h w i t h t h e c a p a b i l i t y o f Now a d a y s m i l l i o n s o f d i g i t a l d o c u m e n t s a r em a t c h i n g p a r t i a l w o r d i m a g e s t o a d d r e s s t w o i s s u e s i n c o n s t a n t l y t r a n s m i t t e d f r o m o n e p o i n t t o a n o t h e r o v e rd o c u m e n t i m a g e r e t r i e v a l : w o r d s p o t t i n g a n d s i m i l a r i t y t h e I n t e r n e t . T h e m o s t common f o r m a t o f t h e s e d i g i t a lm e a s u r e m e n t b e t w e e n d o c u m e n t s h a s b e e n p r o p o s e d . d o c u m e n t s i s t e x t , i n w h i c h c h a r a c t e r s a r e r e p r e s e n t e dI n i t i a l l y , e a c h w o r d i m a g e i s r e p r e s e n t e d b y a p r i m i t i v e b y m a c h i n e c o d e s . . T o m a k e b i l l i o n s o f t r a d i t i o n a l a n ds t r i n g . T h e n , a n i n e x a c t s t r i n g m a t c h i n g t e c h n i q u e i s l e g a c y d o c u m e n t s a v a i l a b l e a n d a c c e s s i b l e o n t h eu t i l i z e d t o m e a s u r e t h e s i m i l a r i t y b e t w e e n t h e s t r i n g I n t e r n e t , t h e y a r e s c a n n e d a n d c o n v e r t e d t o d i g i t a lg e n e r a t e d o f t h e q u e r y w o r d w i t h t h e w o r d s t r i n g i m a g e s u s i n g d i g i t i z a t i o n e q u i p m e n t . A l t h o u g h t h eg e n e r a t e d f r o m t h e d o c u m e n t . B a s e d o n t h e s i m i l a r i t y , t e c h n o l o g y o f D o c u m e n t I m a g e P r o c e s s i n g ( D I P ) m aywe c a n f i n d o u t how a w o r d i m a g e i s r e l e v a n t t o t h e b e u t i l i z e d t o a u t o m a t i c a l l y c o n v e r t t h e d i g i t a l i m a g e so t h e r a n d , c a n b e d e c i d e d w h e t h e r o n e i s a p o r t i o n o f o f t h e s e d o c u m e n t s t o t h e m a c h i n e - r e a d a b l e t e x t f o r m a tt h e o t h e r . I n o r d e r t o d e a l w i t h v a r i o u s c h a r a c t e r f o n t s , a u s i n g O p t i c a l C h a r a c t e r R e c o g n i t i o n ( O C R )p r i m i t i v e s t r i n g w h i c h i s t o l e r a n t t o s e r i f a n d f o n t t e c h n o l o g y , w h i c h i s t y p i c a l l y n o t a c o s t e f f e c t i v e a n dd i f f e r e n c e s t o r e p r e s e n t a w o r d i m a g e h a s b e e n u s e d . p r a c t i c a l wa y t o p r o c e s s a h u g e n u m b e r o f p a p e rU s i n g t h i s t e c h n i q u e o f i n e x a c t s t r i n g m a t c h i n g , o u r d o c u m e n t s . T h e r e a s o n b e h i n d t h i s i s t h e t e c h n i q u e o fm e t h o d i s a b l e t o s u c c e s s f u l l y h a n d l e t h e p r o b l e m o f l a y o u t a n a l y s i s i s s t i l l i m m a t u r e i n h a n d l i n g d o c u m e n t sh e a v i l y t o u c h i n g c h a r a c t e r s . From t h e e x p e r i m e n t a l w i t h c o m p l i c a t e d l a y o u t s . A n o t h e r r e a s o n i s , f o r t h er e s u l t s o n a v a r i e t y o f d o c u m e n t i m a g e d a t a b a s e s i t i s d o c u m e n t i m a g e s o f p o o r q u a l i t y t h e O C R t e c h n o l o g yc o n f i r m e d t h a t t h e p r o p o s e d a p p r o a c h i s f e a s i b l e , v a l i d , i s u n a b l e t o r e c o g n i z e t h e c h a r a c t e r a c c u r a t e l y .a n d e f f i c i e n t i n d o c u m e n t i m a g e r e t r i e v a l . I n r e c e n t y e a r s , t h e r e h a s b e e n much i n t e r e s t i nt h e r e s e a r c h a r e a o f D o c u m e n t I m a g e R e t r i e v a l ( D I R )I n d e x T e r m s D o c u m e n t i m a g e r e t r i e v a l , p a r t i a l w o r d [ 1 ] , [ 2 ] . D I R i s r e l e v a n t t o d o c u m e n t i m a g e p r o c e s s i n gi m a g e m a t c h i n g , p r i m i t i v e s t r i n g , w o r d s e a r c h i n g , . ( D I P ) , b u t t h e r e a r e some e s s e n t i a l d i f f e r e n c e s b e t w e e nt h e m . I n a D I P s y s t e m d i f f e r e n t t e x t a r e a s i n a p a g e1 . I n t r o d u c t i o n d o c u m e n t i s a n a l y s e d f i r s t t h e n t h e r e l a t i o n s h i p a m o n gMODERN t e c h n o l o g y h a s m a d e i t p o s s i b l e t o t h e s e t e x t a r e a s i s f o u n d o u t , a n d t h e n i t i s c o n v e r t e d t op r o d u c e , p r o c e s s , s t o r e , a n d t r a n s m i t d o c u m e n t i m a g e s a m a c h i n e - r e a d a b l e v e r s i o n u s i n g OCR, i n w h i c h e a c he f f i c i e n t l y . I n a n a t t e m p t t o move t o w a r d t h e p a p e r l e s s c h a r a c t e r o b j e c t i s a s s i g n e d t o a c e r t a i n c l a s s . T h e u s e ro f f i c e , l a r g e q u a n t i t i e s o f p r i n t e d d o c u m e n t s a r e c a n g e t t h e r e l e v a n t i n f o r m a t i o n f o r t h e q u e r y u s i n g t h ed i g i t i z e d a n d s t o r e d a s i m a g e s i n d a t a b a s e s . I f we l o o k DIR s y s t e m . M o r e o v e r , w o r d s , r a t h e r t h a n c h a r a c t e r s ,t h r o u g h t h e d o c u m e n t s s t o r e d i n d i g i t a l l i b r a r i e s f o r e g . , a r e t h e b a s i c u n i t s o f m e a n i n g i n i n f o r m a t i o n r e t r i e v a l .d i g i t a l l i b r a r y o f o u r u n i v e r s i t y , o n l i n e s t o r a g e o f b o o k s , T h e r e f o r e , d i r e c t l y m a t c h i n g w o r d i m a g e s i n as t u d e n t s t h e s e s e t c . a r e s i m p l y s c a n n e d a n d a r c h i v e d i n d o c u m e n t i m a g e i s a n a l t e r n a t i v e wa y t o r e t r i e v ei m a g e f o r m t h a t c a n n o t e m p l o y t h e c u r r e n t p o w e r f u l i n f o r m a t i o n f r o m t h e d o c u m e n t . I n s h o r t , DIR a n d D I Ps e a r c h e n g i n e s o v e r t e x t . D u e t o t h e p o p u l a r i t y a n d a d d r e s s d i f f e r e n t n e e d s a n d h a v e d i f f e r e n t m e r i t s o fi m p o r t a n ce o f d o c u m e n t i m a g e s many o r g a n i z a t i o n s t h e i r o w n . S i n c e t h e i n f o r m a t i o n i s d i r e c t l y r e t r i v e da r e d e p e n d e n t o n d o c u m e n t i m a g e d a t a b a s e s t o f u l f i l l f r o m d o c u m e n t i m a g e s u s i n g t h e DIR s y s t e m h i g h e rt h e i r r e q u i r e m e n t N o w . H o w e v e r , s u c h d a t a b a s e s a r e p e r f o r m a n c e i s a c h i e v e d i n t e r m s o f r e c a l l , p r e c i s i o no f t e n n o t e q u i p p e d w i t h a de qu a t e i n d e x i n f o r m a t i o n , a n d p r o c e s s i n g s p e e d .T h i s m a k e s i t d i f f i c u l t t o r e t r i e v e u s e r - r e l e v a n t

    9 7 8 - 1 - 4 2 4 4 - 1 8 8 8 - 6 / 0 8 / f $ 2 5 . 0 0 Q 2 0 0 8 I E E E 5 5 2

  • 7/28/2019 Retrieval of Information in Document Image Databases .pdf

    2/6

    1 . 1 R e l a t e d W o rk t o u c h i n g c h a r a c t e r s a n d i t d o e s n o t r e q u i r e a n y t r a i n i n gA m e t h o d d e s c r i b e d b y C h e n a n d B l o o m b e r g p r i o r t o u s e . T h e p r o p o s e d p a r t i a l w o r d i m a g e m a t c h i n ga u t o m a t i c a l l y s e l e c t s e n t e n c e s a n d k e y p h r a s e s t o c r e a t e t e c h n i q u e i s s o m e w h a t s i m i l a r t o t h a t o f w o r da s u m m a r y f r o m a n i m a g e d d o c u m e n t w i t h o u t a n y n e e d r e c o g n i t i o n b a s e d o n H i d d e n M a r k o v M o d e l s .f o r r e c o g n i t i o n o f t h e c h a r a c t e r s i n e a ch w o r d . L i u a n d T h e t e c h n i q u e i s t e s t e d i n t w o a p p l i c a t i o n s o fJ a i n p r o p o s e d a m e t h o d o f s i m i l a r i t y m e a s u r e f o r f o r m s d o c u m e n t i m a g e r e t r i e v a l . O n e a p p l i c a t i o n i s t o s e a r c ht h a t i s i n s e n s i t i v e t o t r a n s l a t i o n , s c a l i n g , m o d e r a t e f o r u s e r - s p e c i f i e d w o r d s a n d t h e i r v a r i a t i o n s i ns k e w , a n d i m a g e q u a l i t y f l u c t u a t i o n s . N i y o g i a n d d o c u m e n t i m a g e s ( w o r d s p o t t i n g ) . T h e u s e r ' s q u e r yS r i h a r i [ 3 ] d e s c r i b e d a n a p p r o a c h t o r e t r i e v e w o r d a n d a w o r d i m a g e o b j e c t e x t r a c t e d f r o mi n f o r m a t i o n f r o m d o c u m e n t i m a g e s s t o r e d i n a d i g i t a l d o c u m e n t s a r e f i r s t r e p r e s e n t e d b y t w o r e s p e c t i v el i b r a r y b y m e a n s o f k n o w l e d g e - b a s e d l a y o u t a n a l y s i s f e a t u r e s t r i n g s . T h e n , t h e s i m i l a r i t y b e t w e e n t h e t w oa n d l o g i c a l s t r u c t u r e d e r i v a t i o n t e c h n i q u e s , i n w h i c h f e a t u r e s t r i n g s i s e v a l u a t e d . B a s e d o n t h e e v a l u a t i o n , wes i g n i f i c a n t s e c t i o n s o f d o c u m e n t s , s u c h a s t h e t i t l e , a r e c a n e s t i m a t e how t h e d o c u m e n t w o r d i m a g e i s r e l e v a n tu t i l i z e d . T a n g e t a l . [ 4 ] p r o p o s e d m e t h o d s f o r a u t o m a t i c t o t h e u s e r - s p e c i f i e d w o r d . F o r e x a m p l e , w h e n t h e u s e rk n o w l e d g e a c q u i s i t i o n i n d o c u m e n t i m a g e s b y k e y s i n t h e q u e r y w o r d " s t r i n g . " O u r m e t h o d d e t e c t sa n a l y z i n g t h e g e o m e t r i c s t r u c t u r e a n d l o g i c a l s t r u c t u r e w o r d s s u c h a s " s t r i n g s " a n d " s u b s t r i n g . " O u ro f t h e i m a g e s . He e t a l . [ 5 ] p r o p o s e d a n i n d e x a n d e x p e r i m e n t s o n r e a l d o c u m e n t i m a g e s , i n c l u d i n gr e t r i e v a l m e t h o d b a s e d o n t h e s t r o k e d e n s i t y o f C h i n e s e s c a n n e d b o o k s , s t u d e n t t h e s e s , j o u r n a l / c o n f e r e n c ec h a r a c t e r s . d e r i v a t i o n t e c h n i q u e s , i n w h i c h s i g n i f i c a n t p a p e r s , e t c . , s h o w p r o m i s i n g p e r f o r m a n c e b y o u rs e c t i o n s o f d o c u m e n t s , s u c h a s t h e t i t l e , a r e u t i l i z e d . p r o p o s e d a p p r o a c h t o w o r d s p o t t i n g i n d o c u m e n tS p t i z d e s c r i b e d d u p l i c a t e d o c u m e n t d e t e c t i o n [ 6 ] , i m a g e s .C h a r a c t e r S h a p e C o d i n g i n f o r m a t i o n r e t r i e v a l [ 7 ] ,s h a p e b a s e d w o r d r e c o g n i t i o n [ 8 ] , a n d d o c u m e n tr e c o n s t r u c t i o n [ 9 ] , w i t h o u t r e s o r t i n g t o c h a r a c t e r ( a )r e c o g n i t i o n . C h a r a c t e r s ha p e c o de s e n co d e w h e t h e r o r F i g . 1 . D i f f e r e n t s p a c i n g : ( a ) s e p a r a t e d a d j a c e n tc h a r a c t e r s , ( b ) o v e r l a p p e d a d j a c e n t c h a r a c t e r s , a n d ( c )n o t t h e c h a r a c t e r i n q u e s t i o n f i t s b e t w e e n t h e b a s e l i n e t o u c h i n g a d j a c e n t c h a r a c t e r sa n d t h e x - l i n e o r , i f n o t , w h e t h e r i t h a s a n a s c e n d e r o r 2 . D e s c r i p t i o n o f f e a t u r e s t r i n g f o r t h ed e s c e n d e r , a n d t h e n u m b e r a n d s p a t i a l d i s t r i b u t i o n o f word imaget h e c o n n e c t e d c o m p o n e n t s . T o g e t c h a r a c t e r s h a p e T h e w o r d o b j e c t s a r e e x t r a c t e d f r o m d o c u m e n tc o d e s , c h a r a c t e r c e l l s m u s t f i r s t b e s e g m e n t e d . T h i s i m a g e s v i a some i m a g e p r o c e s s i n g s u c h a s s k e wm e t h o d i s t h e r e f o r e u n s u i t a b l e f o r d e a l i n g w i t h w o r d s e s t i m a t i o n a n d c o r r e c t i o n , c o n n e c t e d c o m p o n e n tw i t h c o n n e c t e d c h a r a c t e r s . A d d i t i o n a l l y , i t i s l e x i c o n l a b e l i n g , w o r d b o u n d i n g , e t c . T h e f e a t u r e e m p l o y e d i nd e p e n d e n t , a n d i t s p e r f o r m a n c e i s s o m e w h a t a f f e c t e d b y o u r a p p r o a c h t o r e p r e s e n t w o r d b i t m a p i m a g e s i s t h et h e a p p r o p r i a t e n e s s o f t h e l e x i c o n t o t h e d o c u m e n t L e f t - t o - R i g h t P r i m i t i v e S t r i n g ( L R P S ) , w h i c h i s a c o d eb e i n g p r o c e s s e d . I n m e t h o d d e s c r i b e d b y S p i t z a n d T a n s t r i n g s e q u e n c e d f r o m t h e l e f t m o s t o f a w o r d t o i t sc h a r a c t e r s e g m e n t a t i o n i s a n e c e s s a r y s t e p b e f o r e r i g h t m o s t . L i n e a n d t r a v e r s a l f e a t u r e s a r e u s e d t od o w n s t r e a m p r o c e s s e s c a n b e p e r f o r m e d . I n many e x t r a c t t h e p r i m i t i v e s o f a w o r d i m a g e . When wec a s e s , e s p e c i a l l y w i t h d o c u m e n t i m a g e s o f p o o r q u a l i t y , e x t r a c t f e a t u r e s f r o m w o r d b i t m a p s , we h a v e t o t a k ei t i s n o t e a s y t o s e p a r a t e c o n n e c t e d c h a r a c t e r s . i n t o c o n s i d e r a t i o n t h e s i z e , f o n t a n d s p a c i n g o f t h e w o r dM o r e o v e r , t h e w o r d , r a t h e r t h a n t h e c h a r a c t e r , i s p r i n t e d i n t h e d o c u m e n t . I t i s e a s y t o f i n d a wa y t o c o p en o r m a l l y a b a s i c u n i t o f u s e f u l m e a n i n g i n d o c u m e n t w i t h d i f f e r e n t s i z e s . F o r a w o r d i m a g e i n a p r i n t e d t e x t ,i m a g e r e t r i e v a l . t w o c h a r a c t e r s c o u l d b e s p a c e d a p a r t b y a f e w w h i t eA s e g m e n t a t i o n - f r e e w o r d i m a g e m a t c h i n g c o l u m n s c a u s e d b y i n t e r c h a r a c t e r s p a c i n g , a s s h o w n i na p p r o a c h i s u s e d t o a v o i d d i f f i c u l t i e s o f t o u c h i n g F i g . 1 a . B u t , i t i s a l s o c o m m o n f o r o n e c h a r a c t e r t oc h a r a c t e r s , i t t r e a t s e a c h w o r d o b j e c t a s a s i n g l e , o v e r l a p a n o t h e r b y a f e w c o l u m n s d u e t o k e m i n g , a si n d i v i s i b l e e n t i t y , a n d a t t e m p t s t o r e c o g n i z e i t u s i n g s h o w n i n F i g . l b . W o r s e s t i l l , a s s h o w n i n F i g . I c , t w of e a t u r e s o f t h e w o r d a s a w h o l e . o r m o r e a d j a c e n t c h a r a c t e r s m a y t o u c h e a ch o t h e r d u e1 . 2 P r o p o s e d Method t o c o n d e n s e d s p a c i n g . I n e x a c t f e a t u r e s t r i n g m a t c h i n gI n t h i s p a p e r , a n i m p r o v e d d o c u m e n t i m a g e r e t r i e v a l t e c h n i q u e c a n b e u t i l i z e d t o h a n d l e t h e p r o b l e m o fa p p r o a c h w i t h t h e a b i l i t y o f m a t c h i n g p a r t i a l w o r d s e p a r a t i n g t o u c h i n g c h a r a c t e r s .i m a g e s h a s b e e n p r o p o s e d . 2 . 1 LRPS F e a t u r e R e p r e s e n t a t i o nS t e p 1 : . Word i m a g e s a r e r e p r e s e n t e d b y f e a t u r e A w o r d i s e x p l i c i t l y s e g m e n t e d , f r o m t h e l e f t m o s t t o t h es t r i n g s . r i g h t m o s t , i n t o d i s c r e t e e n t i t i e s . E a c h e n t i t y , c a l l e d aS t e p 2 : A f e a t u r e s t r i n g m a t c h i n g m e t h o d b a s e d o n p r i m i t i v e h e r e , i s r e p r e s e n t e d u s i n g d e f i n i t e a t t r i b u t e s .d y n a m i c p r o g r a m m i n g i S t h e n u t i l i z e d t o e v a l u a t e t h e Aprmtvpisdcibdungawoupe(,)s i m i l a r i t y b e t w e e n t w o f e a t u r e s t r i n g s o r a p a r t o f t h e m w h e r e p i s t h e L i n e - o r - T r a v e r s a l A t t r i b u t e ( L T A ) o f t h eT h e a dv a n t a g e o f u s i n g t h e t e c h n i q u e o f i n e x a c t p r i m i t i v e , a n d c o i s t h e A s c e n d e r - a n d - D e s c e n d e rf e a t u r e s t r i n g m a t c h i n g , i s t h a t i t c a n s u c c e s s f u l l y A t t r i b u t e ( A D A ) . A s a r e s u l t , t h e w o r d i m a g e i sh a n d l e n o t o n l y k e m n i n g , b u t a l s o w o r d s w i t h h e a v i l y

    2 0 0 9 IEEE I n t e r n l a t i o n l a l A d v a n c e C o m p u t i n g C o n f e r e n c e ( I A C C 2 0 0 9 ) 8 5 5 3

  • 7/28/2019 Retrieval of Information in Document Image Databases .pdf

    3/6

    e x p r e s s e d a s a s e q u e n c e P o f p i ' s P = < p 1 p 2 . . p n > = ( 1 , 2 . D e t e c t t h e m i d p o i n t Am o f a l i n e s e g m e n t A i A ,0 1 ) ( G 2 , 0 2 ) ( 0( ) n ) > , ( 1 ) 3 . C a l c u l a t e R ( A m , O ) f o r d i f f e r e n t O s , f r o m w h i c hw h e r e t h e ADA o f a p r i m i t i v e c o C Q = { " x , " " a , " " A , " W e s e l e c t 0 max a s t h e A s ' s r u n d i r e c t i o n ." D , " " Q " } , w h i c h a r e d e f i n e d a s : D , " " Q " } , w h i c h a r e 4 . I f R ( A m , O m a x ) l i s n e a r o r l a r g e r t h a n t h e x - h e i g h t , t h ed e f i n e d a s : p i x e l s c o n t a i n i n g Am , b e t w e e n t h e b o u n d a r y p o i n t s A l" x " : T h e p r i m i t i v e i s b e t w e e n t h e x - l i n e ( a n a n d A r a l o n g t h e d i r e c t i o n O m a x , a r e e x t r a c t e d a s ai m a g i n a r y l i n e a t t h e x - h e i g h t r u n n i n g s t r o k e l i n e .p a r a l l e l w i t h t h e b a s e l i n e , a s s h o w n i n F i g . I n t h e e x a m p l e o f F i g . 2 , t h e s t r o k e l i n e s a r e e x t r a c t e d2 ) a n d t h e b a s e l i n e . a s i n F i g . 2 a , w h i l e t h e r e m a i n d e r i s a s i n F i g . 2 b ." a " : T h e p r i m i t i v e i s b e t w e e n t h e t o p b o u n d a r y A c c o r d i n g t o i t s d i r e c t i o n , a l i n e i s c a t e g o r i z e d a s o n ea n d t h e x - l i n e . o f t h r e e b a s i c s t r o k e l i n e s : v e r t i c a l s t r o k e l i n e , l e f t d o w n" A " : T h e p r i m i t i v e i s b e t w e e n t h e t o p b o u n d a r y d i a g o n a l s t r o k e l i n e , a n d r i g h t - d o w n d i a g o n a l s t r o k ea n d t h e b a s e l i n e . l i n e . A c c o r d i n g t o t h e t y p e o f s t r o k e l i n e s , t h r e e b a s i c" D " : T h e p r i m i t i v e i s b e t w e e n t h e x - l i n e a n d t h e p r i m i t i v e s a r e g e n e r a t e d f r o m e x t r a c t e d s t r o k e l i n e s .b o t t o m b o u n d a r y . M e a n w h i l e , t h e i r A D A s a r e a s s i g n e d c a t e g o r i e s b a s e d" Q " : T h e p r i m i t i v e i s b e t w e e n t h e t o p - b o u n d a r y o n t h e i r t o p - e n d a n d b o t t o m - e n d p o s i t i o n s . T h e i ra n d t h e b o t t o m b o u n d a r y LTAs a r e r e s p e c t i v e l y e x p r e s s e d a s :T h e d e f i n i t i o n o f x - l i n e , b a s e l i n e , t o p b o u n d a r y , a n d " 1 " : V e r t i c a l s t r a i g h t s t r o k e l i n e , s u c h a s i n t h eb o t t o m b o u n d a r y may b e f o u n d i n F i g . 2 . A w o r d b i t m a p c h a r a c t e r s " 1 , " " d , " " p , " " q , " " D , " " P , " e t c F o r t h ee x t r a c t e d f r o m a d o c u m e n t i m a g e a l r e a d y c o n t a i n s t h e p r a c " x " " D , " w e f u r t h e ri n f o r m a t i o n o f t h e b a s e l i n e a n d x - l i n e , w h i c h i s a p r i m i t i v e w h o s e ADA i s x o rb y p r o d u c t o f t h e t e x t l i n e e x t r a c t i o n f r o m t h e p r e v i o u s c he c k w h e t h e r t h e r e i s a d o t over t h e v e r t i c a l s t r o k es t a g e . l i n e . I f t h e a n s w e r i s " y e s , " t h e LT A o f t h e2 . 2 G e n e r a t i n g L i n e - o r - T r a v e r s a l A t t r i b u t e p r i m i t i v e i s r e a s s i g n e d a s " 1 . "LTA g e n e r a t i o n c o n s i s t s o f t w o s t e p s . W e e x t r a c t t h e " v " : R i g h t - d o w n d i a g o n a l s t r a i g h t s t r o k e l i n e , s u c hs t r a i g h t s t r o k e l i n e f e a t u r e f r o m t h e w o r d b i t m a p f i r s t , a s i n t h e c h a r a c t e r s " v , " " w , " " V , " " W , " e t c .a s s h o w n i n F i g . 2 a . A t t h i s s t a g e o n l y t h e v e r t i c a l " w " : L e f t - d o w n d i a g o n a l s t r a i g h t s t r o k e l i n e , s u c hs t r o k e l i n e s a n d d i a g o n a l s t r o k e l i n e s a r e e x t r a c t e d T h e a s i n t h e c h a r a c t e r s " v , "w," " z , " e t c . F o r t h es e c o n d s t e p i s t o c o m p u t e t h e t r a v e r s a l f e a t u r e s o f t h e p r i m i t i v e w h o s e ADA i s " x " o r " A , " w e f u r t h e rr e m a i n d e r p a r t . F i n a l l y , t h e f e a t u r e s f r o m t h e a b o v e c h e c k w h e t h e r t h e r e a r e t w o h o r i z o n t a l s t r o k e l i n e st w o s t e p s a r e a g g r e g a t e d t o g e n e r a t e t h e LTAs o f t h e c o n n e c t e d w i t h i t a t t h e t o p a n d b o t t o m . I f s o , t h ec o r r e s p o n d i n g p r i m i t i v e s . LT A o f t h e p r i m i t i v e i s r e a s s i g n e d a s " z . "2 . 2 . 2 T r a v e r s a l F e a t u r ed L [ l k L i L 4 y 1 > - t e .. dgs,EzxfF A f t e r t h e p r i m i t i v e s b a s e d on t h e s t r o k e l i n e f e a t u r e s a r ee x t r a c t e d a s d e s c r i b e d a b o v e , t h e p r i m i t i v e s o f t h er i i i *l L 3 1 i s f i i l i w a r e m a i n d e r p a r t i n t h e w o r d i m a g e ar e c o m p u t e d b a s e d

    o n t r a v e r s a l f e a t u r e s . T o e x t r a c t t r a v e r s a l f e a t u r e s , wes c a n t h e word image colum n by column, and t h et r a v e r s a l n u m b e r T N i s r e c o r d e d b y c o u n t i n g t h e n u m b e ro f t r a n s i t i o n s f r o m b l a c k p i x e l t o w h i t e p i x e l , o r v i c ev e r s a , a l o n g e a c h c o l u m n . T h i s p r o c e s s i s n o t c a r r i e do u t o n t h e p a r t r e p r e s e n t e d b y t h e s t r o k e l i n e f e a t u r e sd e s c r i b e d a b o v e . A c c o r d i n g t o t h e v a l u e o f T N d i f f e r e n tF i g . 2 . P r i m i t i v e s t r i n g e x t r a c t i o n ( a ) S t r a i g h t s t r o k e f e a t u r e c o d e s a r e a s s i g n e d a s f o l l o w s :l i n e f e a t u r e s , ( b ) r e m a i n d e r p a r t o f ( a ) , ( c ) t r a v e r s a l " & " : T he r e i s n o i m a g e p i x e l i n t h e c o l u m nT N = 2 , ( d ) t r a v e r s a l T N = 4 , ( e ) t r a v e r s a l T N = 6 . I t c o r r e s p o n d s t o t h e b l a n k i n t e r c h a r a c t e r s p a c e . .2 . 2 . 1 S t r a i g h t S t r o k e L i n e F e a t u r e h e a l t h , . b . m . R o a t 0 n ) h e a l t h AA r u n - l e n g t h - b a s e d m e t h o d i s u t i l i z e d t o e x t r a c t healIi heaIts t r a i g h t s t r o k e l i n e s f r o m w o r d i m a g e s . We u s e R ( a , O ) t o

    r e p r e s e n t a d i r e c t i o n a l r u n , w h i c h i s d e f i n e d a s a s e t o f hea1 th C o i u r e r ) h e a I t hb l a c k c o n c a t e n a t i n g p i x e l s t h a t c o n t a i n s p i x e l a , a l o n gt h e s p e c i f i e d d i r e c t i o n 0 , R ( a , O ) i s t h e r u n l e n g t h o f R health hea I t h( a , O ) , w h i c h i s t h e n u m b e r o f b l a c k p o i n t s i n t h e r u n . F i g 3 . D i f f e r e n t f o n t sT h e s t r a i g h t s t r o k e l i n e d e t e c t i o n a l g o r i t h m i ss u m m a r i z e d a s f o l l o w s : . I n c a s e o f k e r n i n g we c a n i n s e r t a s p a c e p r i m i t i v e1 . A l o n g t h e m i d d l e l i n e ( b e t w e e n t h e x - l i n e a n d b e t w e e n t h e m . . . . . f T N = 2 , t w o p a r a m e t e r s a r e u t i l i z e db a s e l i n e ) , d e t e c t t h e b o u n d a r y p a i r [ A l , A r ] o f e a c h t o a s s i g n i t a f e a t u r e c o d e . O n e i s t h e r a t i o o f i t s b l a c ks t r o k e , w h e r e A 1 A r a r e t h e l e f t a n d r i g h t b o u n d a r y p i x e l n u m b e r t o x h e i g h t , K . T h e o t h e r i s i t s r e l a t i v ep o i n t s , r e s p e c t i v e l y , p o s i t i o n w i t h r e s p e c t t o t h e x - l i n e a n d t h e b a s e l i n e ,5 5 4 2 0 0 9 IEEE I n t e r n l a t i o n l a l A d v a n c e C o m p u t i n g C o n f e r e n c e ( I A C C 2 0 0 9 )

  • 7/28/2019 Retrieval of Information in Document Image Databases .pdf

    4/6

    & = D m / D b , w h e r e Dm i s t h e d i s t a n c e f r o m t h e t o p m o s t t h e c h a r a c t e r " b " i s " ( l , A ) ( o , x ) ( c , x ) , " T a b l e 1 l i s t s t h es t r o k e p i x e l i n t h e c o l u m n t o t h e x - l i n e a n d Db i s t h e p r i m i t i v e s t r i n g . t o k e n s o f a l l c h a r a c t e r s i n t h e a l p h a b e t .d i s t a n c e f r o m t h e b o t t o m m o s t s t r o k e p i x e l t o t h e C h P s Fb a s e l i n e . ( x M X I A { v ( A ) ( w - A A )b B xx OA)(e.AAXOAA"n" a < 0 2 and < 0 - 3 ).,~~~~~~ ~ ~ ~ ~ ~ ~.x, ( c .x ' ) 0s A ) C O . A ) ( c ) A * A )u K < 0 : 2 a n d c > 3 , a n d 9 A . x ) ( A 1 ( x ) IEA A)

    c"K, t0 d0

  • 7/28/2019 Retrieval of Information in Document Image Databases .pdf

    5/6

    a s : y a k , - ) = v ( - , b k ) = - I f o r a k # - b k # - ( 4 ) 4 A p p l i c a t i o n :Word S e a r c h i n g, 4 a k , & ) = v ( & , b k ) = - 1 f o r a k # & - b k # & - , ( 5 ) O n e o f t h e a p p l i c a t i o n o f o u r p r o p o s e d p a r t i a l w o r da n d t h e m a t c h i n g s c o r e b e t w e e n t w o p r i m i t i v e s " ~ & " i s i m a g e m a t c h i n g t e c h n i q u e i s i n w o r d s p o t t i n g .g i v e n b y S e a r c h i n g / l o c a t i n g a u s e r - s p e c i f i e d k e y w o r d i n i m a g e8 - ( & , & ) = 2 ( 6 ) f o r m a t d o c u m e n t s h a s b e e n a t o p i c o f i n t e r e s t f o r manyw h i l e t h e m a t c h i n g s c o r e b e t w e e n t w o p r i m i t i v e s y e a r s . I t h a s i t s p r a c t i c a l v a l u e f o r d o c u m e n ta i a n d b j i s d e f i n e d a s 8 - ( a i , b j ) = 8 - ( ( G a i , z o a i ) , c b i n f o r m a t i o n r e t r i e v a l . F o r e x a m p l e , b y u s i n g t h i sj , c o b j ) = 1 ( G a i , , G b j ) + 8 2 Q z o a i , , c o b j ) ( 7 ) t e c h n i q u e , t h e u s e r c a n l o c a t e a s p e c i f i e d w o r d i nw h e r e 8 1 i s t h e f u n c t i o n s p e c i f y i n g t h e m a t c h v a l u e d o c u m e n t i m a g e s w i t h o u t a n y p r i o r n e e d f o r t h e i m a g e sb e t w e e n t w o e l e m e n t s x ' a n d y ' o f L T A . I t i s d e f i n e d t o b e O C R - p r o c e s s e d .a s : 4 . 1 S y s t e m O v e r v i e w8 1 I ( x ' , y ' ) { 1 i f x ' = y ' ( 8 ) T h e o v e r a l l s y s t e m s t r u c t u r e i s i l l u s t r a t e d i n F i g . 4 .( - e l s e When a d o c u m e n t i m a g e i s p r e s e n t e d t o t h e s y s t e m , i tS i m i l a r l y , 8 - 2 i s t h e f u n c t i o n s p e c i f y i n g t h e m a t c h v a l u e g o e s t h r o u g h p r e p r o c e s s i n g , a s i n m a n y d o c u m e n t i m a g eb e t w e e n t w o e l e m e n t s x " a n d y " o f ADA. I t i s d e f i n e d p r o c e s s i n g s y s t e m s . I t i s p r e s u m e d t h a t p r o c e s s e s s u c h a sa s : s k e w e s t i m a t i o n a n d c o r r e c t i o n i f a p p l i c a b l e , a n d o t h e r8 - 2 ( x " , y " ) = { 1 i f x " I = y " ( 9 ) i m a g e - q u a l i t y r e l a t e d p r o c e s s i n g , a r e p e r f o r m e d i n t h e{ - 1 e l s e f i r s t m o d u l e o f t h e s y s t e m .F i n a l l y , maximum s c o r e i s n o r m a l i z e d t o t h e i n t e r v a l T h e n , a l l o f t h e c o n n e c t e d c o m p o n e n t s i n t h e i m a g e[ 0 , 1 I ] , w i t h 1 c o r r e s p o n d i n g t o a p e r f e c t m a t c h : a r e c a l c u l a t e d u s i n g a n e i g h t - c o n n e c t e d c o m p o n e n t......A ..10) a n a l y s i s a l g o r i t h m . T h e r e p r e s e n t a t i o n o f e a c h( I 0 c o n n e c t e d c o m p o n e n t i n c l u d e s t h e c o o r d i n a t e s a n dw h e r e VA * ( n , n ) m a t c h i n g s c o r e b e t w e e n t h e s t r i n g A d i m e n s i o n s o f t h e b o u n d i n g b o x . W o r d o b j e c t s a r ea n d i t s e l f . T h e maximum o p e r a t i o n i n ( 1 0 ) a n d t h e b o u n d e d b a s e d on a m e r g e r o p e r a t i o n on t h e c o n n e c t e dr e s t a r t i n g r e c u r r e n c e o p e r a t i o n i n ( 2 ) e n s u r e t h e a b i l i t y c o m p o n e n t s . A s a r e s u l t , t h e l e f t , t o p , r i g h t , a n d b o t t o mo f p a r t i a l w o r d m a t c h i n g . I f t h e n o r m a l i z e d maximum c o o r d i n a t e s o f e a c h w o r d b i t m a p a r e o b t a i n e d .s c o r e i n ( 1 0 ) i s g r e a t e r t h a n a p r e d e f i n e d t h r e s h o l d 6 , M e a n w h i l e , t h e b a s e l i n e a n d x - l i n e l o c a t i o n s i n e a c ht h e n we r e c o g n i z e t h a t o n e w o r d i m a g e i s m a t c h e d w o r d a r e a l s o a v a i l a b l e f o r s u b s e q u e n t p r o c e s s i n g .w i t h t h e o t h e r ( o r p o r t i o n o f i t ) . E x t r a c t e d w o r d b i t m a p s w i t h b a s e l i n e a n d x - l i n eOn t h e o t h e r h a n d , t h e s i m i l a r i t y o f m a t c h i n g t w o i n f o r m a t i o n a r e t h e b a s i c u n i t s f o r t h e d o w n s t r e a mw h o l e w o r d i m a g e s i n t h e i r e n t i r e t y ( i . e . , no p a r t i a l p r o c e s s o f w o r d m a t c h i n g , a n d a r e r e p r e s e n t e d w i t h t h em a t c h i n g i s a l l o w e d ) c a n b e e v a l u a t e d s y s t e m a t i c a l l y u s e o f p r i m i t i v e s t r i n g s a su s i n g t a b u l a r c o m p u t a t i o n . I n t h i s a p p r o a c h , a b o t t o m - d e s c r i b e d i n S e c t i o n 2 .u p a p p r o a c h i s u s e d t o c o m p u t e V ( i , j ) W e f i r s t c o m p u t eV ( i , j ) f o r t h e s m a l l e s t p o s s i b l e v a l u e s o f i a n d j , a n d ieaclt h e n c o m p u t e t h e v a l u e o f V ( i j ) f o r i n c r e a s i n g v a l u e s o f -i a n d j . T a b l e 2 i l l u s t r a t e s t h e s c o r e t a b l e c o m p u t i n g omWV ' - n ) l i i n I I I O n ; j I n j ) l

    POM- P i ~ ~ ~ ~~?t t

    b yaggregating4thehrates pr m iie t r n tokensWhenaruer k e y sn g aqeywr,tesse eeaea c c o r d i n gt o t h e c h a r a c t e r 1e u e c o f t h e w o r d ,witiscorpndgwrd rmtveokn(P)bthep e c i a lp r i m i t i v e a"&" En e r e btwee t w a d a e t ageatn h hrctr'piieItigtknt c a n 1e s e 4 httemxmmsoeahee codn otecaatrsqec ftewr,wtin~~~~~~~~~~~'Phl orsod otemthoftecaatr teseilpiiiv & netdbtentoajcns e u e c "halh intewod"nhaty.PT.o xmpe heWToftewod"eat"s5 5 6 2 0 0 9 I E E E ~ ~ ~ ~ ~ ~ ~ 1 1ntrainlAvneCmuigCneec(I C209

  • 7/28/2019 Retrieval of Information in Document Image Databases .pdf

    6/6

    ( & , & ) ( l , A ) ( & , & ) ( n , x ) ( l , A ) ( o , x ) ( & , & ) ( l , A ) ( n , x ) ( l , x ) . a n d R e t r i e v a l M e t h o d o f C h i n e s e D o c u m e n t I m a g e s , " P r o f F i f t hT h i s p r i m i t i v e s t r i n g i s m a t c h e d w i t h t h e p r i m i t i v e I n t ' l C o n f D o c u m e n t A n a l y s i s a n d R e c o g n i t i o n ( I C D A R ' 9 9 ) , p p .s t r i n g o f e a hordobjec i n t h d o c u e n t imge t o 6 8 5 - 6 8 8 , 1 9 9 9 .s t r i n g o f e a c h word o b j e c t i n t h e document i m a g e t o [ 6 ] A . L . S p i t z , " D u p l i c a t e D o c u m e n t D e t e c t i o n , " P r o c . S P I E ,m e a s u r e t h e s i m i l a r i t y b e t w e e n t h e t w o . A c c o r d i n g t o D o c u m e n t R e c o g n i t i o n I V , v o l . 3 0 2 7 , p p . 8 8 - 9 4 , 1 9 9 7 .t h e s i m i l a r i t y m e a s u r e m e n t , we can e s t i m a t e how t h e [ 7 ] A . F . S m e a t o n a n d A . L . S p i t z , " U s i n g C h a r a c t e r S h a p e C o d i n gw o r d i n t h e d o c u m e n t i m a g e i s r e l e v a n t t o t h e q u e r y f o r I n f o r m a t i o n R e t r i e v a l , " P r o c . F o u r t h I n t ' l C o n f . D o c u m e n tA n a l y s i s a n d R e c o g n i t i o n , p p . 9 7 4 - 9 7 8 , 1 9 9 7 .word. [ 8 ] A . L . S p i t z , " S h a p e - B a s e d Word R e c o g n i t i o n , " I n t ' l J . Document4 . 2 E x p e r i m e n t a l R e s u l t s A n a l y s i s a n d R e c o g n i t i o n , v o l . 1 , n o . 4 , p p . 1 7 8 - 1 9 0 , 1 9 9 9 .E x p e r i m e n t i s c a r r i e d o u t on t h e d i g i t a l l i b r a r y o f o u r [ 9 ] A . L . S p i t z , " P r o g r e s s i n D o c u m e n t R e c o n s t r u c t i o n , " P r o c . 1 6 t hu n i v e r s i t y s t o r e s w h i c h c o n s i s t o f h u g e n u m b e r o f o l d I n t ' l C o n f P a t t e r n R e c o g n i t i o n , v o l . 1 , p p . 4 6 4 - 4 6 7 , 2 0 0 2 .[ 1 0 ] Z . Yu a n d C .L . T a n , " I m a g e - B a s e d D o c u m e n t V e c t o r s f o r T e x ts t u d e n t t h e s e s a n d b o o k s . T h e s e d o c u m e n t s a r e R e t r i e v a l , " P r o c . 1 5 t h I n t ' l C o n f P a t t e r n R e c o g n i t i o n , v o l . 4 , p p .a c c e s s i b l e o n t h e I n t e r n e t . U s i n g t h e PDF f i l e s o f 3 9 3 - 3 9 6 , 2 0 0 0 .s ca n n e d b o o k s a n d s t u d e n t s t h e s e s NUSDL d o c u m e n ti m a g e d a t a b a s e i s g e n e r a t e d .I n F i g . 6 . T h e d o c u m e n t i m a g e i s s t o r e d i n a PDFf i l e w h i c h i s a c c e s s i b l e a t t h e Web s i t e o f IEEE X p l o r eo n l i n e p u b l i c a t i o n s . T h e w o r d s " s t r i n g , " " s t r i n g s , " a n d" s u b s t r i n g " i n d i f f e r e n t f o n t s a r e c o r r e c t l y d e t e c t e d a n dl o c a t e d i n t h e d o c u m e n t w h e n " s t r i n g " i s u s e d a s t h eq u e r y w o r d .5 C o n c l u s i o nI n o u r modem s o c i e t y d o c u m e n t i m a g e s h a v e b e c o m e a

    p o p u l a r i n f o r m a t i o n s o u r c e , a n d i n f o r m a t i o n r e t r i e v a li n d o c u m e n t i m a g e d a t a b a s e s i s a n i mp o r t a n t t o p i c i nk n o w l e d g e a n d d a t a e n g i n e e r i n g r e s e a r c h . D o c u m e n ti m a g e r e t r i e v a l w i t h o u t O C R h a s i t s p r a c t i c a l v a l u e , b u ti t i s a l s o a c h a l l e n g i n g p r o b l e m . I n t h i s p a p e r , we h a v ep r o p o s e d a w o r d i m a g e m a t ch i n g a p pr o a ch w i t h t h ea b i l i t y o f m a t c h i n g p a r t i a l w o r d s . T o m e a s u r e t h es i m i l a r i t y o f t w o w o r d i m a g e s , e a c h w o r d i m a g e i sr e p r e s e n t e d b y a p r i m i t i v e s t r i n g . T h e n , a n i n e x a c ts t r i n g m a t c h i n g t e c h n i q u e i s u t i l i z e d t o m e a s u r e t h es i m i l a r i t y b e t w e e n t h e t w o p r i m i t i v e s t r i n g s g e n e r a t e df r o m t h e t w o w o r d i m a g e s . B a s e d o n t h e m a t c h i n gs c o r e , we c a n e s t i m a t e how o n e w o r d i m a g e i s r e l e v a n tt o t h e o t h e r a n d d e c i d e w h e t h e r o n e i s a p o r t i o n o f t h eo t h e r . T h e p r o p o s e d w o r d i m a g e a p p r o a c h i s a p p l i c a b l ei n t w o d o c u m e n t i m a g e r e t r i e v a l p r o b l e m s , i . e . , w o r ds p o t t i n g a n d d o c u m e n t s i m i l a r i t y m e a s u r e m e n t .E x p e r i m e n t s h a v e b e e n c a r r i e d o u t o n v a r i o u sd o c u m e n t i m a g e s s u c h a s s c a n n e d b o o k s , s t u d e n t st h e s e s , a n d j o u r n a l / c o n f e r e n c e p a p e r s d o w n l o a d e d f r o mt h e I n t e r n e t , a s w e l l a s UW d o c u m e n t i m a g e s . T h e t e s tr e s u l t s c o n f i r m t h e v a l i d i t y a n d f e a s i b i l i t y o f t h ea p p l i c a t i o n s o f t h e p r o p o s e d w o r d m a t c h i n g a p p r o a c ht o d o c u m e n t i m a g e r e t r i e v a l .REFERENCES[ 1 ] D . D o e r m a n n , " T h e I n d e x i n g a n d R e t r i e v a l o f D o c u m e n tI m a g e s : A S u r v e y , " C o m p u t e r V i s i o n a n d I m a g e U n d e r s t a n d i n g , v o l .7 0 , n o . 3 , p p . 2 8 7 - 2 9 8 , 1 9 9 8 .[ 2 ] M . M i t r a a n d B . B . C h a u d h u r i , " I n f o r m a t i o n R e t r i e v a lf r o m D o c u m e n t s : A S u r v e y , " I n f o r m a t i o n R e t r i e v a l , v o l . 2 , n o s .2 / 3 , p p . 1 4 1 - 1 6 3 , 2 0 0 0 .[ 3 ] D . N i y o g i a n d S . S r i h a r i , " T he U s e o f D o c u m e n t S t r u c t u r eA n a l y s i s t o R e t r i e v e I n f o r m a t i o n f r o m D o c u m e n t s i n D i g i t a lL i b r a r i e s , " P r o c. S P I E , D o c u m e n t R e c o g n i t i o n I V , v o l . 3 0 2 7 , p p .2 0 7 - 2 1 8 , 1 9 9 7 .[ 4 ] Y . Y . T a n g , C . D. Y a n , a n d C . Y . S u e n , " D o c u m e n t P r o c e s s i n g f o rA u t o m a t i c K n o w l e d g e A c q u i s i t i o n , " IEEE T r a n s . K n o w l e d g e a n dD a t a E n g . , v o l . 6 , n o . 1 , p p . 3 - 2 1 , F e b . 1 9 9 4 .[ 5 ] Y . H e , Z . J i a n g , B . L i u , a n d H . Z h a o , " C o n t e n t -B a s e d I n d e x i n g

    2 0 0 9 IEEE I n t e r n l a t i o n l a l A d v a n c e C o m p u t i n g C o n f e r e n c e ( I A C C 2 0 0 9 ) 5 5 7