la question de la langue à l'époque de google

94
La question de la langue à l’époque de Google Frédéric Kaplan frederic.kaplan@ep!.ch twitter : @frederickaplan

Upload: frederic-kaplan

Post on 06-May-2015

23.407 views

Category:

Economy & Finance


0 download

DESCRIPTION

Exposé donné aux Entretiens du Nouveau Monde Industriel 2012

TRANSCRIPT

Page 1: La question de la langue à l'époque de Google

La question de la langue à l’époque de Google

Frédéric Kaplan

frederic.kaplan@ep!.chtwitter : @frederickaplan

Page 2: La question de la langue à l'époque de Google

40 milliards / an

Chi"re d’a"aires de Google

(en $)

Page 3: La question de la langue à l'époque de Google

... simplement en vendant des mots.

Page 4: La question de la langue à l'époque de Google

110 millions / jour

Page 5: La question de la langue à l'époque de Google

4.5 millions / heure

Page 6: La question de la langue à l'époque de Google

75 000 / min

Page 7: La question de la langue à l'époque de Google

À la #n de cet exposé, Google aura gagné environ2 millions de dollars.

Page 8: La question de la langue à l'époque de Google

L’histoire de Google tient en deux algorithmes : l’un l’a rendu populaire, l’autre l’a rendu riche.

Page 9: La question de la langue à l'époque de Google

L’un a créé une valeur d’usage, l’autre une valeur d’échange.

Page 10: La question de la langue à l'époque de Google

1L’algorithme qui a rendu

Google célèbre

Page 11: La question de la langue à l'époque de Google

Altavista — 1996

Page 12: La question de la langue à l'époque de Google

Google — 1998

Page 13: La question de la langue à l'époque de Google

PageRank L’algorithme qui a permis à Google de devenir la porte d’entrée du web.

Page 14: La question de la langue à l'époque de Google
Page 15: La question de la langue à l'époque de Google

Brin et Page travaillent sur le Standford Library Technologies Project

Page 16: La question de la langue à l'époque de Google

Comment classer les résultats de recherche pour un mot-clé donné ?

Page 17: La question de la langue à l'époque de Google

Hypothèse

Les documents les plus importants sont ceux qui sont le plus cités.

Page 18: La question de la langue à l'époque de Google

Mais certaines citations valent plus que d’autres.

Page 19: La question de la langue à l'époque de Google

Et comment sait-on qu’un document est important ?Par le nombre de citations.

Page 20: La question de la langue à l'époque de Google

Une formule récursive.

Page 21: La question de la langue à l'époque de Google

La valeur PageRank d’un document est liée au nombre de documents qui le citent et à leur propre valeur PageRank.

Page 23: La question de la langue à l'époque de Google

Brin et Page proposent alors une analogie.

Le web est un ensemble de documents. Chaque hyperlien correspond à une citation.

Page 24: La question de la langue à l'époque de Google

Dans sa version « pure », Pagerank incarne un certain idéal démocratique.

« Dans l’esprit de PageRank ». Dominique Cardon. Exposé Colloque Arc-Info. Nov 2012

Page 25: La question de la langue à l'époque de Google

Mais pour bien fonctionner, il faudrait que personne ne tente d’optimiser ses documents en fonction de l’algorithme.

Page 26: La question de la langue à l'époque de Google

Mais, évidemment, ce n’est pas le cas.

Page 27: La question de la langue à l'époque de Google

Des algorithmes se sont massivement développés pour tromper l’algorithme de classement de Google.

Page 28: La question de la langue à l'époque de Google

Ils optimisent les textes et leurs intertextualités pour arriver en premier dans les résultats de recherche.

Page 29: La question de la langue à l'époque de Google

Une première guerre «linguistique » a commencé.

Page 30: La question de la langue à l'époque de Google

Mars 2000 : Éclatement de la « Bulle Internet ».

Page 31: La question de la langue à l'époque de Google

Beaucoup de « start-ups » proposant une valeur d’usage, mais pas de valeur d’échange ne résistèrent pas.

Page 32: La question de la langue à l'époque de Google

Google a eu une meilleure idée que de simplement vendre de la publicité.

Page 33: La question de la langue à l'époque de Google

Brin et Page ont réalisé qu’ils accumulaient du capital linguistique grâce au nombre croissant d’utilisateurs qui s’exprimaient au travers de services de Google.

Page 34: La question de la langue à l'époque de Google

Il leur su$sait d’exploiter ce capital.

Page 35: La question de la langue à l'époque de Google

2l’algorithme qui a rendu

Google riche

Page 36: La question de la langue à l'époque de Google

Un algorithme qui organise automatiquement la spéculation autour des mots a permis de créer le premier marché linguistique mondial.

Page 38: La question de la langue à l'époque de Google

L’algorithme de Google a élargi et en partie libéralisé ce marché.

Page 39: La question de la langue à l'époque de Google

1

2

3

4

5

6

7

8

9

10

Page 40: La question de la langue à l'époque de Google

Tous les mots peuvent donner lieu à des enchères...

Page 41: La question de la langue à l'époque de Google

L’algorithme classe automatiquement les annonces selon un calcul en quatre étapes.

Page 42: La question de la langue à l'époque de Google

1. Enchère sur un mot clé (E)

Une entreprise choisit un mot ou une expression, par exemple « vacances » et le prix maximum qu’elle serait prête à payer en cas de clic.

Google propose une estimation du montant de l’enchère à proposer pour avoir de bonnes chances d’être dans la première page des résultats proposés.

Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux spéci#ques.

Page 43: La question de la langue à l'époque de Google

2. Calcul du score de qualité de la publicité (Q)

Google donne un score à la publicité sur une échelle de un à dix.

Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En gros, ce score mesure à quel point la publicité « fonctionne ».

C’est un point essentiel, car Google ne gagne de l’argent que si les internautes choisissent e"ectivement de cliquer sur le lien proposé par la publicité.

L’algorithme exact qui produit le score de qualité de la publicité reste secret et modi!able à loisir par Google.

Page 44: La question de la langue à l'époque de Google

3. Calcul du rang (R)

Le Rang est l’Enchère multipliée par le Score. Une publicité ayant un bon score peut ainsi compenser une enchère plus faible et arriver devant.

R = E * Q

Page 45: La question de la langue à l'époque de Google

4. Calcul du prix à payer en cas de clic (P)

Le prix que paye une entreprise 1 si un internaute clique sur sa publicité n’est pas le prix de l’enchère, mais le prix de l’enchère 2 juste en dessous de sa propre enchère modulée par la qualité relative entre cette deuxième enchère et celle de l’entreprise.

Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2 est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de l’enchère 1, Q2 la qualité de l’enchère 2.

Page 46: La question de la langue à l'époque de Google

Ce jeu d’enchères est recalculé pour chaque requête de chaque utilisateur — des millions de fois par seconde

Page 47: La question de la langue à l'époque de Google

Cet algorithme génère40 de milliards de dollars par an.

Page 48: La question de la langue à l'époque de Google

Le marché linguistique ainsi créé par Google est déjà global et multilingue.

Page 49: La question de la langue à l'époque de Google

La « Bourse des mots » qui lui est associée donne une indication relativement juste des grands mouvements sémantiques mondiaux.

Page 50: La question de la langue à l'époque de Google

ski

sun screen

or

world cup

Page 51: La question de la langue à l'époque de Google

Google a réussi à étendre le domaine du capitalisme à la langue elle-même, à organiser la vente de « mots » à l’échelle planétaire.

Page 52: La question de la langue à l'époque de Google

Ces autres projets et innovations technologiques peuvent être analysés à travers ce prisme.

Page 53: La question de la langue à l'époque de Google
Page 54: La question de la langue à l'époque de Google

Quand Google corrige à la volée un mot que vous avez mal orthographié, il transforme un matériau sans valeur en une ressource économique potentiellement rentable.

Page 55: La question de la langue à l'époque de Google

Quand Google prolonge une phrase que vous avez commencée à taper, il ramène votre expression dans le domaine de la langue qu’il peut exploiter.

Page 56: La question de la langue à l'époque de Google

la langueexploitable

commercialement

la langue vivante

Page 57: La question de la langue à l'époque de Google

Googlish

English

Page 58: La question de la langue à l'époque de Google

Googlais

Français

Page 59: La question de la langue à l'époque de Google

Bingish

Anglais

Page 60: La question de la langue à l'époque de Google

Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google (GMail, Google Docs, Google+, etc.)

Page 61: La question de la langue à l'époque de Google

Nous sommes déjà des millions chaque jour à écrire et à parler par le biais de Google.

Page 62: La question de la langue à l'époque de Google

Les acteurs du capitalisme linguistique doivent développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour pouvoir modéliser et in!échir la langue.

Page 63: La question de la langue à l'époque de Google

Le capitalisme linguistique n’est pas une économie de l’attention.

Page 64: La question de la langue à l'époque de Google

C’est une économie de l’expression.

Page 65: La question de la langue à l'époque de Google

L’objectif n’est tant de capter les regards, mais d’être un médiateur de l’écrit.

Page 66: La question de la langue à l'époque de Google

Attention Intention

Économie de l’attention

Lieu de la médiation

Page 67: La question de la langue à l'époque de Google

Intention Expression

Économie de l’expression

Lieu de la médiation

Page 68: La question de la langue à l'époque de Google

Du fait de ces médiations, la langue elle-même risque de se transformer.

Page 69: La question de la langue à l'époque de Google

Première hypothèse (2011)

Les technologies du capitalisme linguistique conduiraient à la régularisation de la langue.

Plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation serait e$cace.

Page 70: La question de la langue à l'époque de Google

Mais cette régularisation se base essentiellement sur une analyse statistique des écrits de l’Internet. Or beaucoup de ces écrits ne sont pas des ressources pures, ce sont des écrits déjà in!uencés par des algorithmes.

Page 71: La question de la langue à l'époque de Google

Il nous fait donc désormais distinguer deux types de ressources linguistiques :

(a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.)

(b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, articles écrits par des algorithmes, spam). 

Page 72: La question de la langue à l'époque de Google

« La qualité se dégrade petit à petit au fur et à mesure quand on applique des algorithmes de traduction automatique »

« Quality degrades gradually as and when we measure applies algorithms to machine translation »

« Calidad degrada gradualmente a medida y cuando la medida se aplica algoritmos de traducción automática »

« Qualité se dégrade progressivement au fur et à mesure est appliquée algorithmes de traduction automatique »

La modi#cation de la syntaxe dans des chaînes de traduction automatique illustre un certain de type de pollution.

Page 73: La question de la langue à l'époque de Google

« Mr. and Mrs. Dursley, of number four, Privet Drive, were proud to say that they were perfectly normal, thank you very much. They were the last people you'd expect to be involved in anything strange or mysterious, because they just didn't hold with such nonsense. »

« Mr. but Mrs. Dursley, of number four, Privet Drive, were glad to declare that they were impeccably standard, thanks much. They were the !nal folks you'd look for to be included in whatever or recondite, resulting from the fact that they simply didn't keep with such gibberish. “

Les distorsions sémantiques introduites par le ‘Text Spinning’ illustrent un autre type de pollution :

Page 74: La question de la langue à l'époque de Google

Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires.

Page 75: La question de la langue à l'époque de Google

Un humain peut, dans certains cas, faire la di"érence, mais il est di$cile de construire des algorithmes pour faire automatiquement cette distinction.

Page 76: La question de la langue à l'époque de Google

Au fur et à mesure que la quantité de ressources secondaires devient signi#cative par rapport aux ressources primaires, les modèles statistiques peuvent se modi#er pour intégrer le vocabulaire, les formulations et les tournures des algorithmes.

Page 77: La question de la langue à l'époque de Google

Ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 

Page 78: La question de la langue à l'époque de Google

Google voit les ressources secondaires comme un danger, une pollution pour ses modèles.

Page 79: La question de la langue à l'époque de Google

Pour lutter contre cette « pollution » croissante, Google a modi#é en 2011 son service Google Translate.

Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent. 

cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API

Page 80: La question de la langue à l'époque de Google

Cela ne su$ra pas.

Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique.

Page 81: La question de la langue à l'époque de Google

Sur les 30 meilleurs éditeurs de Wikipedia, les 2/3 sont des bots

> R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011 > http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits

Page 82: La question de la langue à l'époque de Google

D’ici deux ans, une proportion signi#cative des messages sur les réseaux sociaux sera peut-être produite par des bots.

> Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19 Issue 2, March + April 2012

Page 83: La question de la langue à l'époque de Google
Page 84: La question de la langue à l'époque de Google

Ainsi, textes humains et algorithmiques se mêlent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que d’autres algorithmes analysent pour ensuite structurer nos propres productions linguistiques.

Page 85: La question de la langue à l'époque de Google

Avec le capitalisme linguistique, la langue elle-même se transforme pour intégrer les biais linguistiques des machines et les contraintes de l’économie linguistique planétaire.

Page 86: La question de la langue à l'époque de Google

Nous assistons peut-être une nouvelle phase de « grammatisation » de la langue, une nouvelle rétroaction de la technologie et de l’économie sur la langue naturelle.

Page 87: La question de la langue à l'époque de Google

Dans un temps intermédiaire apparait quelque chose comme une lingua franca, un pidgin ou un créole, dont la syntaxe et le vocabulaire sont liés aux capacités linguistiques des machines et aux valeurs marchandes des mots.

Page 88: La question de la langue à l'époque de Google

La nouvelle créolisation

Page 89: La question de la langue à l'époque de Google

Il me semble primordial d’étudier ces nouveaux phénomènes linguistiques.

Page 90: La question de la langue à l'époque de Google

1. Modéliser l’évolution de la langue commerciale. Produire les dictionnaires du Googlish et du Bingish.

Page 91: La question de la langue à l'époque de Google

2. Modéliser les nouveaux dialectes algorithmiques. Construire des algorithmes pour les reconnaitre.

Page 92: La question de la langue à l'époque de Google

3. Détecter et documenter les phénomènes de créolisation.

Page 93: La question de la langue à l'époque de Google

Cela constitue un axe de nos recherches au DHLAB

Page 94: La question de la langue à l'époque de Google

frederic.kaplan@ep!.chtwitter:@frederickaplan