efficient and flexible information retrieval using monetdb/x100 sándor héman cwi, amsterdam marcin...

Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Upload: emma-ryan

Post on 20-Jan-2016

218 views

Category:

Documents

0 download

Report

Download

Tags:

Embed Size (px):

TRANSCRIPT

Efficient and Flexible Information Retrieval Using

MonetDB/X100

Sándor HémanCWI, Amsterdam

Marcin Zukowski, Arjen de Vries, Peter BonczJanuary 08, 2007

Background

Process query-intensive workloads over large datasets efficiently within a DBMS

Application Areas Information Retrieval Data mining Scientific data analysis

Page 3: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

MonetDB/X100 Highlights

Vectorized query engine Transparent, light-weight compression

Page 4: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Keyword Search

Inverted index: TD(termid, docid, score)

TopN( Project( MergeJoin( RangeSelect( TD1=TD, TD1.termid=10 ), RangeSelect( TD2=TD, TD2.termid=42 ), TD1.docid = TD2.docid), [docid = TD1.docid, score = TD1.scoreQ + TD2.scoreQ]), [score DESC], 20)

Page 5: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Keyword Search

Inverted index: TD(termid, docid, score)

TopN( Project( MergeJoin( RangeSelect( TD1=TD, TD1.termid=10 ), RangeSelect( TD2=TD, TD2.termid=42 ), TD1.docid = TD2.docid), [docid = TD1.docid, score = TD1.scoreQ + TD2.scoreQ]), [score DESC], 20)

Page 6: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Keyword Search

Inverted index: TD(termid, docid, score)

TopN( Project( MergeJoin( RangeSelect( TD1=TD, TD1.termid=10 ), RangeSelect( TD2=TD, TD2.termid=42 ), TD1.docid = TD2.docid), [docid = TD1.docid, score = TD1.scoreQ + TD2.scoreQ]), [score DESC], 20)

Page 7: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Keyword Search

Inverted index: TD(termid, docid, score)

TopN( Project( MergeJoin( RangeSelect( TD1=TD, TD1.termid=10 ), RangeSelect( TD2=TD, TD2.termid=42 ), TD1.docid = TD2.docid), [docid = TD1.docid, score = TD1.scoreQ + TD2.scoreQ]), [score DESC], 20)

Page 8: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Vectorized Execution [CIDR05]

Volcano based iterator pipeline

Each next() call returns collection of column-vectors of tuples Amortize overheads Introduce parallelism Stay in CPU Cache

Vectors

Page 9: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 10: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 11: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 12: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 13: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Light-Weight Compression

Compressed buffer-manager pages: Increase I/O bandwidth Increase BM capacity

Favor speed over compression ratio CPU-efficient algorithms

>1 GB/s decompression speed Minimize main-memory overhead

RAM-CPU Cache decompression

Page 14: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Naïve Decompression1. Read and

decompress page

2. Write back to RAM

3. Read for processing

Page 15: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

RAM-Cache Decompression1. Read and

decompress page at vector granularity, on-demand

Page 16: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 17: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 18: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 19: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 20: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Page 21: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

2006 TREC TeraByte Track X100 compared to custom IR systems

Others prune index

System #CPUs P@20 Throughput (q/s)

Throughput /CPU

X100 16 0.47 186 13

X100 1 0.47 13 13

Wumpus 1 0.41 77 77

MPI 2 0.43 34 17

Melbourne Univ 1 0.49 18 18

Page 22: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Thanks!

Page 23: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

MonetDB/X100 in Action

Corpus: 25M text documents, 427GB docid + score: 28GB, 9GB compressed

Hardware: 3GHz Intel Xeon 4GB RAM 10 disk RAID, 350 MB/s

Page 24: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

MonetDB/X100 [CIDR’05]

Vector-at-a-time instead of tuple-at-a-time Volcano

Vector = Array of Values (100-1000)

Vectorized Primitives• Array Computations • Loop Pipelinable very fast• Less Function call overhead

Vectors are Cache Resident

RAM considered secondary storage

Page 25: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

MonetDB/X100 [CIDR’05]

Vector-at-a-time instead of tuple-at-a-time Volcano

Vector = Array of Values (100-1000)

Vectorized Primitives• Array Computations • Loop Pipelinable very fast• Less Function call overhead

Vectors are Cache Resident

RAM considered secondary storagedecompress

Page 26: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

MonetDB/X100 [CIDR’05]

Vector-at-a-time instead of tuple-at-a-time Volcano

Vector = Array of Values (100-1000)

Vectorized Primitives• Array Computations • Loop Pipelinable very fast• Less Function call overhead

Vectors are Cache Resident

RAM considered secondary storage

decompress

Page 27: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Vector Size vs Execution Time

Page 28: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Compression docid: PFOR-DELTA

Encode deltas as a b-bit offset from an arbitrary base value:

deltas withinget encoded

deltas outside range are stored as uncompressed exceptions

score: Okapi -> quantize -> PFOR compress

)2,[ bbasebase

Page 29: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Compressed Block Layout Forward growing

section of bit-packed b-bit code words

Page 30: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Compressed Block Layout Forward growing

section of bit-packed b-bit code words

Backwards growing exception list

Page 31: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Naïve Decompression Mark ( ) exception

positions

for(i=0; i < n; i++) { if (in[i] == ) { out[i] = exc[--j] } else { out[i]=DECODE(in[i]) }}

Page 32: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Patched Decompression Link exceptions into

patch-list Decode:

for(i=0; i < n; i++) { out[i]=DECODE(in[i]);}

Page 33: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Patched Decompression Link exceptions into

patch-list Decode:

for(i=0; i < n; i++) { out[i]=DECODE(in[i]);}

Patch:for(i=first_exc; i<n; i += in[i]) { out[i] = exc[--j];}

Page 34: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Patched Decompression Link exceptions into

patch-list Decode:

for(i=0; i < n; i++) { out[i]=DECODE(in[i]);}

Patch:for(i=first_exc; i<n; i += in[i]) { out[i] = exc[--j];}

Page 35: Efficient and Flexible Information Retrieval Using MonetDB/X100 Sándor Héman CWI, Amsterdam Marcin Zukowski, Arjen de Vries, Peter Boncz January 08, 2007

Patch Bandwidth

Project Goals and Status Peter Boncz (VU Amsterdam) Munich April 22+23, 2013

Joanne Zukowski Associate VP Economic & Workforce Development York Technical College

EGÉSZSÉGÜGYBEN HASZNÁLATOSPalyazati/eukodrendszer… · egÉszsÉgÜgyben hasznÁlatos adatbÁzisok És kÓdrendszerek endrei dóra Ágoston istván boncz imre pécs, 2015

Tager-Flusberg & Zukowski (2009) 147-173

New Frontier High School Building Management Plan By: Ian ZukowskiIan Zukowski Alexander Lewis Nicholas Facciolo

The Delicate Art of Designing Platformers - Adventure …returntoadventuremountain.com/files/MarioPlatoformerPublic.pdf · The Delicate Art of Designing Platformers By Chris Zukowski

Vrije Universiteit, Amsterdam Faculty of Sciences, Computer … › ~boncz › msc › 2014-SinzianaFilip.pdf · 2015-03-26 · Vrije Universiteit, Amsterdam Faculty of Sciences,

Project Overview for the Technical User Community Peter Boncz (VU Amsterdam) Barcelona @ UPC November 19+20, 2012

CIS 375 Final Presentation Doug Code § Brad Lloyd § Michelle Zukowski

Dissertação Mestrado - Linguagem Visual de Embalagens - Kenny Zukowski

Dr. Boncz Imre - PTE ETK Webszerverltsp.etk.pte.hu/portal/wp/File/Doktoriiskola/Tezisfuzetek/boncz... · megmentett életek költsége a mortalitás várható csökkenésének, illetve

LDBC & The Social Network Benchmark Peter Boncz Database Architectures (DA) @ CWI Special chair “Large-Scale Data Engineering” @ VU event.cwi.nl/lsde2015

class 5 column stores 2daslab.seas.harvard.edu/classes/cs165/doc/class_slides/... · 2017. 9. 6. · MonetDB/X100: Hyper-Pipelining Query Execution Peter A. Boncz, Marcin Zukowski,

HUNGARY - EURORDIS · PDF fileHUNGARY – EUROPLAN ... Katalin Brunner, patient representative (HUFERDIS) ... Németh, Károly Fogarassy, Péter Horváth, Katalin Brunner, Beáta Boncz,

Sándor Héman Marcin Zukowski Niels Nes Lefteris Sidirourgos Peter Boncz Positional Update Handling in Column Stores

8th TUC Meeting - Peter Boncz (CWI). Query Language Task Force status

Project Goals and Status Peter Boncz (CWI & VU Amsterdam) Amsterdam April 3, 2014

Peter Boncz (CWI) Sjoerd Mullenderupdate actions Jens TeubnerXQUF parsing Niels Neslogging

exploiting Emergent Schemas to make RDF systems more efficienthomepages.cwi.nl/~boncz/ISWC2016-boncz-pham.pdf · Emergent Schemas •Detect the “DB-schema” in RDF data automatically!

Large-Scale Data Engineering 2.pdf · “MonetDB/X100: Hyper-Pipelining Query Execution ” Boncz, Zukowski, Nes, CIDR’05 . event.cwi.nl/lsde2015 : SCAN : SELECT . PROJECT . next()

Dutch-Belgium DataBase Day University of Antwerp, 2004.12.03 MonetDB/x100 Peter Boncz, Marcin Zukowski, Niels Nes

Benchmarking Graph Data Management Systemshomepages.cwi.nl/~boncz/snb-challenge/graph... · Benchmarking Graph Data Management Systems EDBT Summer School 2015 Peter Boncz ... –

Query Optimization and Execution in Vectorwise MPPhomepages.cwi.nl/~boncz/msc/2012-AndreiCosteaAdrianIonescu.pdf · Query Optimization and Execution in Vectorwise MPP Master's Thesis

Keynote IDEAS 2013 - Peter Boncz

MonetDB/XQuery InfoMgmt 2009 Peter Boncz [email protected] (CWI Amsterdam) Querying XML Data Sources using MonetDB/XQuery

Alumno: Del Canto Zukowski, Araceli Nahir Nro Cuota: 1 Canto... · 2018. 11. 21. · DOCUMENTO NO VALIDO COMO FACTURA Alumno: Del Canto Zukowski, Araceli Nahir DNI: 29663272 Condicion

0061 Boncz Eg Fin eBook

LAW OFFICES Zukowski, Rogers, Flood ... - Illinois Leaks

Dr. Jean Carlos Zukowski. Tópicos Conceitos de Revelação, Inspiração e Iluminação EGW e a questão da Autoridade

MonetDB/XQuery: Using a Relational DBMS for XML Peter Boncz CWI The Netherlands

Entanglement Holographyentangle2016/deboer.pdf · 2016. 6. 1. · Asplund, Callebaut, Zukowski, 1604:06287 . ... integral over the entire boundary with murky convergence properties

Big Data Infrastructures & Technologies - …homepages.cwi.nl/~boncz/bads/03-The Hadoop Ecosystem.pdf · Big Data Infrastructures & Technologies Hadoop Streaming ... Big Data Infrastructures

EDF2012 Peter Boncz - LOD benchmarking SRbench

Database Techniek Martin Kersten Peter Boncz CWI

D5.5.1 Dissemination Report Y1ldbcouncil.org/sites/default/files/LDBC_D5.5.1.pdf · 22.09.2013 0.1 Peter Boncz Initial draft 23.09.2013 1.0 Peter Boncz Final version after reviewer

efficient and flexible information retrieval using monetdb/x100 sándor héman cwi, amsterdam marcin...

Documents

scoreq td2

rangeselect td2

score desc

gbdocid score

array of values

time volcanovector

cache residentram

mbsmonetdbx100 cidr05