realtime search

69
哈哈哈哈哈哈哈哈哈哈哈 哈哈哈哈哈哈哈哈哈哈哈 Realtime Search 罗罗

Upload: -

Post on 22-Nov-2014

919 views

Category:

Documents


3 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Realtime Search

罗磊

Page 2: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Reference

A Billion Queries Per Day Bigtable: A Distributed Sorage System for Str

uctured Data Large-scale Incremental Processing Using Dist

ributed Transactions and Notifications

Page 3: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Realtime Search @ Twitter

Page 4: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 5: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 6: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Posting list format and early query terminal Only evaluate as few documents as possible be

fore terminating the query Rank documents in reverse time order (newest

documents first)

Page 7: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 8: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 9: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 10: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 11: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 12: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 13: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Index memory model

Page 14: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 15: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 16: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 17: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 18: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 19: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 20: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 21: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 22: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 23: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 24: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 25: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 26: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 27: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 28: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 29: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 30: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 31: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Lock-free algorithms and data structures

Page 32: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 33: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 34: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 35: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 36: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 37: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 38: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 39: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 40: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 41: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 42: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 43: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 44: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 45: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Page 46: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Realtime Search @ Twitter

Q & A

Page 47: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Realtime Search @ Google

Page 48: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Arguement about MapReduce

MapReduce: A major step backwards MapReduce and Parallel DBMSs: Friend or Fo

e MapReduce: A Flexible Data Processing Tool

Page 49: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Google's realtime search

Google's indexing system stores tens of petabytes of data and processes billions of updates per day on thousands of machines. MapReduce and other batch-processing systems cannot process small updates individually as they rely on creating large batches for efficiency.

Page 50: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Avoid indexes duplicates

MapReduce can't deal with any update MapReduce must be run again over the entire r

epository

Page 51: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Where to store index at Google

DBMS Can't handle the sheer volume of data: Google's in

dexing System store tens of petabytes across thousands of machines.

Bigtable Can't provide tools to help programmers maintain

data invariants in the face of concurrent updates

Page 52: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Percolator

Incremental processing model it maintains a very large repository of documents a

nd update it efficiently Processing many updates concurrently

Page 53: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Percolator

Percolator provides two main abstractions for performing incremental processing at large scale: ACID transactions over a random-access repositor

y observers, a way to organize an incremental compu

tation

Page 54: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Percolator

Page 55: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transaction is a must

Page 56: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transaction is a must

Page 57: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transaction is a must

Page 58: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transcation on Percolar

Page 59: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transcation on Percolar

Page 60: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transcation on Percolar

Page 61: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transcation on Percolar

Page 62: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transcation on Percolar

Page 63: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Transcation on Percolar

Transcation processing is complicated by the possibility of client failure table server failure does not affect the system since

Bigtable guarantees that written locks persist across talbe server failures

A transaction will not clean up a lock unless it suspects that a lock belongs to a dead or stuck worker

Page 64: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Notifications

Transactions let the user mutate the table while maintaining invariants, but users also need a way to trigger and run the transactions

To provide notifications, Percolator maintans a special "observation" column.

Page 65: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Optimization

Reduce RPC batching when reading from the same table ser

ver Hacking on Linux kernel to support high threa

d counts

Page 66: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Evaluation

Page 67: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Evalution

Page 68: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Realtime Search @ Google

Q & A

Page 69: Realtime search

哈工大信息检索研究中心哈工大信息检索研究中心

Realtime Search

Realtime Search @ Twitter Realtime Search @ Google

Thank you