三⽉月⼀一⽇日
アマゾン データ サービス ジャパン株式会社新製品発表会
インフラでの悩み
代表取締役
得上 ⻯竜⼀一
株式会社
マイニング
ブラウニー
私、
・2006年設⽴立・クローラの開発・運⽤用・リサーチ・テキストマイニング
様々なDBの検討
サーバの調達
インフラでの悩み
様々なDBの検討
サーバの調達
インフラでの悩み
Amazon
EC2
様々なDBの検討
サーバの調達
効率的な
インフラの利⽤用
インフラでの悩み
Amazon
EC2
様々なDBの検討
サーバの調達
効率的な
インフラの利⽤用
インフラでの悩み
Amazon
EC2
AmazonSQS
様々なDBの検討
サーバの調達
⼤大量のデータを
保存できる
データベース
効率的な
インフラの利⽤用
インフラでの悩み
Amazon
EC2
AmazonSQS
様々なDBの検討
サーバの調達
⼤大量のデータを
保存できる
データベース
効率的な
インフラの利⽤用
インフラでの悩み
Amazon
EC2
AmazonSQS
クローラだけではない様々なDBの検討
クローラだけではない様々なDBの検討
クローラだけではない
システム停⽌止
なしでスケール
できず断念
様々なDBの検討
クローラだけではない
システム停⽌止
なしでスケール
できず断念
様々なDBの検討
クローラだけではない
システム停⽌止
なしでスケール
できず断念
Sharding
+ReplicaSetの
インフラコスト
の⼤大きさで断念
様々なDBの検討
クローラだけではない
システム停⽌止
なしでスケール
できず断念
Sharding
+ReplicaSetの
インフラコスト
の⼤大きさで断念
様々なDBの検討
SimpleDB
クローラだけではない
システム停⽌止
なしでスケール
できず断念
Sharding
+ReplicaSetの
インフラコスト
の⼤大きさで断念
10Gの容量では
⾜足りず⼀一部で
のみ利⽤用
様々なDBの検討
SimpleDB
検討を重ねたクローラだけではない
莫⼤大な数の1Kbyte以下の細かいデータ例)「吾輩は猫である」 Size:約700Kbyte⽂文の数:9200単語:14,000種類、250,000単語
テキスト
マイニング
Dynamoとの出会い検討を重ねた
Dynamoとの出会い検討を重ねた
SimpleDB
Dynamoとの出会い1billion個の
レコードでは
⾜足りず
⼀一部での利⽤用に
検討を重ねた
SimpleDB
Dynamoとの出会い1billion個の
レコードでは
⾜足りず
⼀一部での利⽤用に
検討を重ねた
SimpleDB
S3
Dynamoとの出会い1billion個の
レコードでは
⾜足りず
⼀一部での利⽤用に
検索機能の
弱さで断念
検討を重ねた
SimpleDB
S3
Dynamoとの出会い1billion個の
レコードでは
⾜足りず
⼀一部での利⽤用に
検索機能の
弱さで断念
検討を重ねた
SimpleDB
S3
Cassandra
Dynamoとの出会い1billion個の
レコードでは
⾜足りず
⼀一部での利⽤用に
運⽤用の⼿手間
インフラコスト
の⼤大きさで断念
検索機能の
弱さで断念
検討を重ねた
SimpleDB
S3
Cassandra
論⽂文Dynamoとの出会い
この論⽂文に出会ってから論⽂文|Dynamo:Amazonʼ’s Highly Available Key-‑value Store
Traditionally production systems store their state in relational databases. For many of the more common usage patterns of state persistence, however, a relational database is a solution that is far from ideal. Most of these services only store and retrieve data by primary key and do not require the complex querying and management functionality offered by an RDBMS. This excess functionality requires expensive hardware and highly skilled personnel for its operation, making it a very inefficient solution. In addition, the available replication technologies are limited and typically choose consistency over availability. Although many advances have been made in the recent years, it is still not easy to scale-out databases or use smart partitioning schemes for load balancing.
そして今⽇日この論⽂文に出会ってから
そして今⽇日
2007年
この論⽂文に出会ってから
そして今⽇日
2007年
2008年
この論⽂文に出会ってから
そして今⽇日
2007年 2009年
2008年
この論⽂文に出会ってから
SimpleDB
そして今⽇日
2007年 2009年
2008年
この論⽂文に出会ってから
2010年
2011年SimpleDB
クローラのデータストアそして今⽇日|Amazon DynamoDBが⽇日本でも使えるようになりました。|⽇日本-‑⽶米国間のレイテンシの問題も解決| | |最⾼高のパフォーマンスで使えるようになりました|
テキストマイニング
mitsubachi
クローラの
PaaS
クローラが
集めたデータの
保存先に
クローラのデータストア
ビッグデータと共に
hotaru
テキスト
マイニングの
SaaS
テキストマイニ
ングの過程で
発⽣生する⼤大量の
データの処理に
テキストマイニング
ビッグデータと共に|この1年でHadoopは当たり前のようになりました。| |今年ビッグデータと呼ばれる⼤大規模なデータの処理|が今以上に当たり前になってきます。| |ビッグデータの保存先として、|Amazon DynamoDBほど適したデータストアは|他にはありません。|