la question de la langue à l'époque de google

Post on 06-May-2015

23.407 Views

Category:

Economy & Finance

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Exposé donné aux Entretiens du Nouveau Monde Industriel 2012

TRANSCRIPT

La question de la langue à l’époque de Google

Frédéric Kaplan

frederic.kaplan@ep!.chtwitter : @frederickaplan

40 milliards / an

Chi"re d’a"aires de Google

(en $)

... simplement en vendant des mots.

110 millions / jour

4.5 millions / heure

75 000 / min

À la #n de cet exposé, Google aura gagné environ2 millions de dollars.

L’histoire de Google tient en deux algorithmes : l’un l’a rendu populaire, l’autre l’a rendu riche.

L’un a créé une valeur d’usage, l’autre une valeur d’échange.

1L’algorithme qui a rendu

Google célèbre

Altavista — 1996

Google — 1998

PageRank L’algorithme qui a permis à Google de devenir la porte d’entrée du web.

Brin et Page travaillent sur le Standford Library Technologies Project

Comment classer les résultats de recherche pour un mot-clé donné ?

Hypothèse

Les documents les plus importants sont ceux qui sont le plus cités.

Mais certaines citations valent plus que d’autres.

Et comment sait-on qu’un document est important ?Par le nombre de citations.

Une formule récursive.

La valeur PageRank d’un document est liée au nombre de documents qui le citent et à leur propre valeur PageRank.

Brin et Page proposent alors une analogie.

Le web est un ensemble de documents. Chaque hyperlien correspond à une citation.

Dans sa version « pure », Pagerank incarne un certain idéal démocratique.

« Dans l’esprit de PageRank ». Dominique Cardon. Exposé Colloque Arc-Info. Nov 2012

Mais pour bien fonctionner, il faudrait que personne ne tente d’optimiser ses documents en fonction de l’algorithme.

Mais, évidemment, ce n’est pas le cas.

Des algorithmes se sont massivement développés pour tromper l’algorithme de classement de Google.

Ils optimisent les textes et leurs intertextualités pour arriver en premier dans les résultats de recherche.

Une première guerre «linguistique » a commencé.

Mars 2000 : Éclatement de la « Bulle Internet ».

Beaucoup de « start-ups » proposant une valeur d’usage, mais pas de valeur d’échange ne résistèrent pas.

Google a eu une meilleure idée que de simplement vendre de la publicité.

Brin et Page ont réalisé qu’ils accumulaient du capital linguistique grâce au nombre croissant d’utilisateurs qui s’exprimaient au travers de services de Google.

Il leur su$sait d’exploiter ce capital.

2l’algorithme qui a rendu

Google riche

Un algorithme qui organise automatiquement la spéculation autour des mots a permis de créer le premier marché linguistique mondial.

L’algorithme de Google a élargi et en partie libéralisé ce marché.

1

2

3

4

5

6

7

8

9

10

Tous les mots peuvent donner lieu à des enchères...

L’algorithme classe automatiquement les annonces selon un calcul en quatre étapes.

1. Enchère sur un mot clé (E)

Une entreprise choisit un mot ou une expression, par exemple « vacances » et le prix maximum qu’elle serait prête à payer en cas de clic.

Google propose une estimation du montant de l’enchère à proposer pour avoir de bonnes chances d’être dans la première page des résultats proposés.

Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux spéci#ques.

2. Calcul du score de qualité de la publicité (Q)

Google donne un score à la publicité sur une échelle de un à dix.

Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En gros, ce score mesure à quel point la publicité « fonctionne ».

C’est un point essentiel, car Google ne gagne de l’argent que si les internautes choisissent e"ectivement de cliquer sur le lien proposé par la publicité.

L’algorithme exact qui produit le score de qualité de la publicité reste secret et modi!able à loisir par Google.

3. Calcul du rang (R)

Le Rang est l’Enchère multipliée par le Score. Une publicité ayant un bon score peut ainsi compenser une enchère plus faible et arriver devant.

R = E * Q

4. Calcul du prix à payer en cas de clic (P)

Le prix que paye une entreprise 1 si un internaute clique sur sa publicité n’est pas le prix de l’enchère, mais le prix de l’enchère 2 juste en dessous de sa propre enchère modulée par la qualité relative entre cette deuxième enchère et celle de l’entreprise.

Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2 est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de l’enchère 1, Q2 la qualité de l’enchère 2.

Ce jeu d’enchères est recalculé pour chaque requête de chaque utilisateur — des millions de fois par seconde

Cet algorithme génère40 de milliards de dollars par an.

Le marché linguistique ainsi créé par Google est déjà global et multilingue.

La « Bourse des mots » qui lui est associée donne une indication relativement juste des grands mouvements sémantiques mondiaux.

ski

sun screen

or

world cup

Google a réussi à étendre le domaine du capitalisme à la langue elle-même, à organiser la vente de « mots » à l’échelle planétaire.

Ces autres projets et innovations technologiques peuvent être analysés à travers ce prisme.

Quand Google corrige à la volée un mot que vous avez mal orthographié, il transforme un matériau sans valeur en une ressource économique potentiellement rentable.

Quand Google prolonge une phrase que vous avez commencée à taper, il ramène votre expression dans le domaine de la langue qu’il peut exploiter.

la langueexploitable

commercialement

la langue vivante

Googlish

English

Googlais

Français

Bingish

Anglais

Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google (GMail, Google Docs, Google+, etc.)

Nous sommes déjà des millions chaque jour à écrire et à parler par le biais de Google.

Les acteurs du capitalisme linguistique doivent développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour pouvoir modéliser et in!échir la langue.

Le capitalisme linguistique n’est pas une économie de l’attention.

C’est une économie de l’expression.

L’objectif n’est tant de capter les regards, mais d’être un médiateur de l’écrit.

Attention Intention

Économie de l’attention

Lieu de la médiation

Intention Expression

Économie de l’expression

Lieu de la médiation

Du fait de ces médiations, la langue elle-même risque de se transformer.

Première hypothèse (2011)

Les technologies du capitalisme linguistique conduiraient à la régularisation de la langue.

Plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation serait e$cace.

Mais cette régularisation se base essentiellement sur une analyse statistique des écrits de l’Internet. Or beaucoup de ces écrits ne sont pas des ressources pures, ce sont des écrits déjà in!uencés par des algorithmes.

Il nous fait donc désormais distinguer deux types de ressources linguistiques :

(a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.)

(b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, articles écrits par des algorithmes, spam). 

« La qualité se dégrade petit à petit au fur et à mesure quand on applique des algorithmes de traduction automatique »

« Quality degrades gradually as and when we measure applies algorithms to machine translation »

« Calidad degrada gradualmente a medida y cuando la medida se aplica algoritmos de traducción automática »

« Qualité se dégrade progressivement au fur et à mesure est appliquée algorithmes de traduction automatique »

La modi#cation de la syntaxe dans des chaînes de traduction automatique illustre un certain de type de pollution.

« Mr. and Mrs. Dursley, of number four, Privet Drive, were proud to say that they were perfectly normal, thank you very much. They were the last people you'd expect to be involved in anything strange or mysterious, because they just didn't hold with such nonsense. »

« Mr. but Mrs. Dursley, of number four, Privet Drive, were glad to declare that they were impeccably standard, thanks much. They were the !nal folks you'd look for to be included in whatever or recondite, resulting from the fact that they simply didn't keep with such gibberish. “

Les distorsions sémantiques introduites par le ‘Text Spinning’ illustrent un autre type de pollution :

Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires.

Un humain peut, dans certains cas, faire la di"érence, mais il est di$cile de construire des algorithmes pour faire automatiquement cette distinction.

Au fur et à mesure que la quantité de ressources secondaires devient signi#cative par rapport aux ressources primaires, les modèles statistiques peuvent se modi#er pour intégrer le vocabulaire, les formulations et les tournures des algorithmes.

Ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 

Google voit les ressources secondaires comme un danger, une pollution pour ses modèles.

Pour lutter contre cette « pollution » croissante, Google a modi#é en 2011 son service Google Translate.

Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent. 

cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API

Cela ne su$ra pas.

Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique.

Sur les 30 meilleurs éditeurs de Wikipedia, les 2/3 sont des bots

> R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011 > http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits

D’ici deux ans, une proportion signi#cative des messages sur les réseaux sociaux sera peut-être produite par des bots.

> Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19 Issue 2, March + April 2012

Ainsi, textes humains et algorithmiques se mêlent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que d’autres algorithmes analysent pour ensuite structurer nos propres productions linguistiques.

Avec le capitalisme linguistique, la langue elle-même se transforme pour intégrer les biais linguistiques des machines et les contraintes de l’économie linguistique planétaire.

Nous assistons peut-être une nouvelle phase de « grammatisation » de la langue, une nouvelle rétroaction de la technologie et de l’économie sur la langue naturelle.

Dans un temps intermédiaire apparait quelque chose comme une lingua franca, un pidgin ou un créole, dont la syntaxe et le vocabulaire sont liés aux capacités linguistiques des machines et aux valeurs marchandes des mots.

La nouvelle créolisation

Il me semble primordial d’étudier ces nouveaux phénomènes linguistiques.

1. Modéliser l’évolution de la langue commerciale. Produire les dictionnaires du Googlish et du Bingish.

2. Modéliser les nouveaux dialectes algorithmiques. Construire des algorithmes pour les reconnaitre.

3. Détecter et documenter les phénomènes de créolisation.

Cela constitue un axe de nos recherches au DHLAB

frederic.kaplan@ep!.chtwitter:@frederickaplan

top related