how to fail at benchmarking?

@pingtimeout#FailAtBenchs

Comment rater ses benchmarks ?

Pierre Laporte Ingénieur performances - Datastax

@pingtimeout pierre.laporte@datastax.com

http://tiny.cc/FailAtBenchs @pingtimeout#FailAtBenchs

Agenda

• Intro

• Pourquoi cette session ?

• Comment se planter ?

• Que mesurer ?

• Comment mesurer ?

• « Coordinated Omission » ?

• Quel état d’esprit ?

@YourTwitterHandle@YourTwitterHandle@pingtimeout#FailAtBenchs

Cassandra

• NoSQL

• Scalabilité linéaire

• Toujours disponible

Datastax Enterprise (DSE)• Plateforme complète

• Certifiée

• Sécurisée

• Search (Apache Solr)

• Analytics (Hadoop, Spark)

• Simplicité opérationnelle (OpsCenter)

Pourquoi ce talk ?

I have not failed, I have just found 10,000 ways that won't work.

- Thomas Edison

Progresser

Faire des erreursTrouver des solutions

Ne pas blâmer

Benchmarks

Comment se planter ?

Exemple

• Bench d’une API REST : POST /login

• 100.000 logins

• 1 utilisateur

• Temps de réponse de chaque login

• Mesure dès le premier résultat

• Une exécution (longue)

• Sur un portable de dev

• Moyenne des résultats

• Projection utilisation CPU <=> Capacité restante

Un problème ?

Caches

• « 100.000 logins d’un unique utilisateur »

• Caches CPU (L1, L2, L3, …)

• TLB

• Cache de Base de Données

• Cache Hibernate (query, L2, …)

• …

Précision d'horloge

• « Temps de réponse de chaque login »

• login ~> 5ms

• System.currentTimeMillis() ~> 1ms

• ±1 <=> ±20%

• System.nanoTime() "provides nanosecond precision, but not necessarily nanosecond resolution »

• Source: Javadoc

Temps de chauffe

• « Mesure dès le premier résultat »

• Chargement des classes

• Profiling du code

• Optimisations (Inlining, compilation, élimination de locks, …)

Confiance dans les résultats

• « Une exécution (longue) »

• Bruit de fond ?

• Compétition ?

• Quelle confiance dans les mesures ?

• « Sur un portable de dev »

Environnement

• « Sur une seule machine »

Environnement

Métriques

• « Moyenne des résultats »

Projection de capacité

• Utilisation CPU ≈ 50%

• Capacité restante ≈ … ?

Que mesurer ?

Moyenne

• Supprimer les points gênants

• « Moyenne de deux nombres » = … ?

• Pourquoi l’utilise-t-on ?

• Est-ce suffisant ?

Métriques utiles

• Histogramme

• Centiles

• 90ème

• 95ème

• 99ème

• …

• Maximum

Combien de 9 ?

• 99% ?

• 99,99% ??

• Ça dépend.

• Pour 500 utilisateurs

• 99% signifie… ?

Combien de 9 ?

• Si 1.000.000 utilisateurs

• 99% signifie… ?

• 10.000 utilisateurs.

Comment font les autres ?

• 5.000.000 joueurs simultanés

• 12.000.000 par jour

• 67.000.000 par mois• Quels centiles mesurer ?

Maximum

• « Boarf, surement un timeout, on peut l’ignorer »

• Random dev devant un temps de réponse de 60s

• Acceptable ?

• Temps réel ?

• Jeux vidéo ?

• Appli mobile ?

Genèse d’un benchmark

• Une question bien spécifique

• Des exigences précises

• Exemple

• Site de e-commerce

• « Avec mes 5 serveurs d’application, 20.000 articles en base, et 1.000 clients simultanés, est-ce que la commande d’article prend moins de 50ms en moyenne, 100ms une fois sur 10 et 300ms au pire ? »

Environnement

• POC:

• TomEE

• Glassfish

• Weblogic

Charge

Exigences

• « Avec mes 5 serveurs d’application, 20.000 articles en base, et 1.000 clients simultanés, est-ce que la commande d’article prend moins de 50ms en moyenne, de 100ms une fois sur 10 et de 300ms au pire ? »

Épilogue d’un benchmark

• Réponse obtenue

• Satisfaisante… ou pas.

• Résultats Contextuels

• Environnement

• Charge

• Contraintes

• Compromis

Vérités statistiques

99ème centile en moyenne

• Application typique en 2012

• 100 « Web objects »/page

• ≈ 100 requêtes HTTP/page

• Probabilité d’éviter le 99ème centile ?

• 0.99n, sur n requêtes

• 0.99100 ≈ 36.6%

La loi Normale

• Le client dit :

• Moyenne = 100ms

• Écart type = 20ms

• Médiane = 120ms

• Maximum = 1s

• Quel est le 99% ?

Aucune idée.

Quartet d'Anscombe

Loi Normale et latence

• Le temps de réponse ne suit pas une distribution Normale.

• Dropwizard metrics :

Loi Normale et latence

• Remplacer metrics par HdrHistogram

• Plage de valeurs

• Précision

• Empreinte mémoire constante

• http://hdrhistogram.github.io/HdrHistogram/

Représentation

Puzzles

Puzzler #1

• Un problème ?

Puzzler #1 complet

Puzzler #1 - nouvel essai

• -XX:+AggressiveOpts

• Qui connaît ?

• Qu’est-ce que cela fait ?

Aggressive Opts ?

• Augmente le pool de Fixnum de 128 à … ?

• À vous de trouver

• Astuces

• set_aggressive_opts_flags() dans arguments.cpp

• java -XX:+PrintFlagsFinal

• C’est presque tout.

Puzzler #2 - QCM

• Que fait ce code ?

1. Il pousse un juron2. Il ne fait pas ce qu’on pense3. Il bench Hotspot4. Il crée environ 10.000 objets

Puzzler #2 - QCM

1. Il pousse un juron2. Il ne fait pas ce qu’on pense3. Il bench Hotspot4. Il crée environ 10.000 objets

Puzzler #2 - solution

• Après ~10.000 itérations, le code est supprimé

Coordinated Omission

Java 8 Enterprisy REST API

CO client

Runner

• Simuler de lonnnngues pause (11 secondes)

• GC

• autre tâche bloquante

• Technique: ^Z

Récapitulatif - Timeline

Récapitulatif avant run

• Fréquence = 1 req/s

• Durée totale = 100s

• Longue pause = 11s

• Temps de réponse nominal ≈ 10ms

Attentes - Débit

Attentes - Latence

Attentes - centiles

• Calcul anticipé des centiles (en secondes)

• Max ∈ ]10; 11]

• 99% ∈ ]9; 10]

• 98% ∈ ]8; 9]

• 95% ∈ ]5; 6]

• 90% ∈ ]0; 1]

Réalité

Wait… What?

Réalité

Pourquoi ?

Réalité - Débit

100ème requête

Réalité - Latence

100ème requête

CO - Définition

• Interval entre les points = i

• Latence nominale << i

• Valeurs extrêmes > x

• Requêtes suivantes retardées

• Après la période néfaste

Qu’est-ce qui est mesuré ?

• 99% des bonnes requêtes

• ≠ 99% de toutes les requêtes

Une erreur fréquenteI rarely see load testers that don't suffer from it, including common testers used in the industry (JMeter, Grinder, HP LoadRunner), benchmarks (YCSB, SPECeverything, etc.), and custom build testers I see used by many low latency shops. » — Gil Tene

Tester le test

• Tester le testeur

• Remplacer le SUT par un noop

• Temps de réponse: 0

• Test ^Z

• Vérifier les hypothèses

Correction

• Connaître le temps d’envoi de chaque requête

• Utiliser ce temps comme temps de départ

• Effet:

• Faire apparaître les requêtes retardées

• Connaître l’interval entre les envois

• Utiliser HdrHistogram

• Classe Histogram

• copyCorrectedForCoordinatedOmission(…)

• recordValueWithExpectedInterval(…)

Récap

The successful man will profit from his mistakes and try again in a different way

- Dale Carnegie

Des résultats contextuels

Sources

• https://groups.google.com/d/msg/mechanical-sympathy/

• http://latencytipoftheday.blogspot.fr/

• http://www.websiteoptimization.com/speed/tweak/average-number-web-objects/

• http://tylervigen.com/

• Hotspot source code

Merci pour votre attention !

how to fail at benchmarking?

chaque login login

capacit utilisation

post login

chaque login mesure

failatbenchsmtriques

utilisateur temps

dev moyenne

chauffe mesure ds

Engineering

lecture 3 how to fail

benchmarking yourself, how to make it easy, simple,...

how to fail with agile

how to-fail-golden-drum2

don’t settle for old-school scm: fail faster? how about...

call center benchmarking: how good is

how to avoid social media fail

how not to fail in asia

how to-fail-golden

how sequencing experiments fail - babraham institute

how to fail to succeed

how we fail to protect freshwater

martin weigel- how to (not) fail

cassandra - how to fail?

how to fail at a makerspace

how silos fail

how to-fail-30th-oct-2012

how not to fail lemons tech

fail fast, fail cheap: how errors make us better

how to make a church fail