creation d’un indicateur de niveau de garantie en …

BULLETIN FRANÇAIS D’ACTUARIAT, Vol. 12, n° 24, juin – décembre 2012, pp. 15 - 34

CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE

Jean-Marc AOUIZERATE1

Gras Savoye2

Résumé :

Cet article propose un indicateur synthétique qui évalue le niveau des garanties de

complémentaires santé pour chaque poste de dépenses. Il présente l'avantage majeur de

pouvoir comparer de manière homogène des garanties exprimées sur des assiettes

différentes (B.R.3, frais réels, P.M.S.S.4, euro,...). Son estimation peut être obtenue en

observant uniquement la consommation médicale en évitant ainsi de recourir à la lecture

directe des tableaux de garanties. L'avantage de ce procédé est de pouvoir être déployé

massivement sur un large panel de contrats. Cet indice représente le taux de couverture

fictif qu'aurait une garantie si elle était appliquée à la consommation médicale de

l'ensemble du portefeuille. Sa valeur mesurant la performance des garanties est comprise

entre 0% et 100% (100% étant la prise en charge intégrale des dépenses). Son champ

d'application est assez vaste : tarification, benchmark, pilotage technique, suivi d'un

portefeuille...

Mots-clefs : Imputation Multiple - Augmentation de Données - Indicateur de

Garanties - Assurance Frais de Santé

Abstract:

This paper proposes a synthetic indicator that estimates the level of additional health

guarantees for each medical expenses item. It presents the major advantage to compare, in a

homogeneous way, guarantees expressed on different bases (B.R., real costs, P.M.S.S.,

euro...). It can be estimate only by observing the medical consumption without needing to

read the guarantees tables. Other advantage, this process can be massively deployed on a

large panel of contracts. This index represents the artificial cover rate of a guarantee applied

to the medical consumption of the entire customer's portfolio. Its value measuring the

performance guarantees sits between 0% and 100% (100% being the complete coverage of

1 Jean-Marc Aouizerate est actuaire en prévoyance et santé collective. Contact : [email protected] 2 Ces travaux ont été effectués de 2008 à 2010 au sein du Département Prévoyance et Retraite de Gras Savoye. 3Base de Remboursement de la Sécurité sociale

4Plafond Mensuel de la Sécurité Sociale

16 J.-M. AOUIZERATE

the spending). It has a large field of applications: pricing, benchmark, technical piloting,

portfolio control...

Keywords: Multiple Imputation - Data Augmentation - Guarantees Indicator -

Health Insurance

1. INTRODUCTION

Un contrat complémentaire frais de santé se compose de plusieurs garanties

élémentaires pour chacun des postes de dépenses (consultations/visites de généralistes,

prothèses dentaires remboursées, monture adulte, ...). Chaque poste peut recouvrir un ou

plusieurs actes médicaux définis selon la nomenclature de la Sécurité sociale (par exemple,

une consultation de généraliste est codifiée avec la lettre-clé "C").

Les garanties ont une influence majeure sur le comportement de consommation

médicale, comme le montre notamment une étude menée par l'IRDES 1 [BUC02]. L'article

met en évidence que, selon l'hypothèse du risque moral tel qu'il est défini par les

économistes, une meilleure prise en charge des dépenses par le régime complémentaire

incite à dépenser davantage. En effet, la part des frais restant à la charge du bénéficiaire

peut avoir un effet dissuasif et l'encourager à maîtriser davantage ses dépenses en le

responsabilisant. Pour cette raison, le nombre d'actes et les prix augmentent généralement

avec le niveau des garanties. La prise en compte de ce critère devient alors indispensable

pour pouvoir étudier la consommation médicale de manière objective. Les garanties

constituent un paramètre incontournable au même titre que le sexe, l'âge, la CSP ou encore

la localisation géographique.

L'intégration de ce facteur est généralement confrontée à deux problématiques :

Premièrement, comme indiqué dans l'article de l'IRDES [BOC00], il existe une

multitude d'expressions possibles pour définir une garantie sur un poste donné. Le

comparatif entre des garanties exprimées sur des assiettes différentes peut s'avérer être

difficile dans un bon nombre de situations. Lorsque les garanties sont exprimées sur une

même assiette, la comparaison est instantanée. Par exemple, il est immédiat qu'une garantie

à 400% de la B.R. est plus élevée qu'un autre à 300% de la B.R. En revanche, comment

comparer une garantie à 90% des frais réels avec une garantie à 400% de la B.R. ? La

réponse est moins évidente puisqu'aucune des deux garanties n'est supérieure à l'autre dans

tous les cas de figure. Le prix de l'acte considéré permettra de déterminer laquelle des deux

1Institut de Recherche et Documentation en Economie de la Santé

CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 17

garanties offrira le meilleur remboursement. En fait, il existe un montant de frais réels

charnière à partir duquel la garantie exprimée en pourcentage des frais réels devient plus

performante que celle en pourcentage de la B.R. Dans cette situation précise, un classement

des garanties ne peut pas être réalisé en lecture directe.

Deuxièmement, l'accès aux garanties nécessite bien souvent d'aller se reporter

directement aux contrats pour lire les tableaux de garanties. Cette action manuelle, peut

alors demander un temps de traitement pouvant être très long si le périmètre d'étude

recouvre un nombre important de contrats.

L'indicateur proposé a pour objectif d'apporter une solution pratique et

opérationnelle permettant de traduire automatiquement la notion de garantie sur les

différents postes d'un contrat.

L'article s'articule en quatre parties : les méthodes existantes, la problématique, la

définition de l'indicateur de garantie et enfin, le traitement spécifique à apporter aux

données manquantes.

2. PANORAMA DES METHODES EXISTANTES

Plusieurs méthodes permettant de juger de l'efficacité d'une garantie sont définies ci-

après.

2.1 La valeur de l'expression de garantie

La garantie peut être mesurée directement par la valeur appliquée à l'assiette servant

de référence pour le calcul du remboursement : soit un montant forfaitaire ou bien un

pourcentage d'une base quelconque (BR ou PMSS). A titre d'exemples, une garantie à

400% de la BR est supérieure à une garantie à 300% de la BR ou encore, une garantie

forfaitaire de 300 € est supérieure à une garantie forfaitaire de 200 € .

Cette solution est la plus triviale et ne nécessite aucun traitement mais elle ne peut

s'appliquer que dans le cas précis où les garanties sont exprimées sur la même assiette. Or,

lorsque les périmètres étudiés sont vastes, il est rare que toutes les garanties soient

exprimées de manière identique.

2.2 Le montant remboursé dans une situation de référence

Cette méthode, telle que décrite dans un article de l'IRDES [COU04] consiste à

comparer les différentes garanties mises en application dans un cas concret en définissant

18 J.-M. AOUIZERATE

des biens de référence. Par exemple, en déterminant le remboursement d'un contrat pour

une prothèse dentaire céramo-métalique fixe coûtant 750 €. Cet indicateur présente

l'avantage de reposer sur un concept simple et pratique à la fois. En revanche, le coût de la

prothèse servant d'exemple ne représente qu'une situation particulière.

2.3 Le montant maximum

Un autre indicateur, défini dans un mémoire du C.E.A. [CRE95], consiste à retenir

le montant maximum remboursé sur un contrat pour un acte donné. Comme précédemment,

le concept est relativement simple et ne repose que sur une seule situation. L'avantage est

qu'il peut être estimé massivement par traitement informatique en observant l'historique de

consommation. En revanche, les valeurs aberrantes doivent être préalablement ôtées pour

éviter que le maximum ne soit établi à partir de l'une d'entre elles.

2.4 Le taux de couverture

Le taux de couverture est défini comme étant égal à la somme des montants

remboursés rapportée au total des montants engagés. A consommation identique, le taux de

couverture croît avec le niveau des garanties. L'utilisation de cet indicateur présente

cependant un biais majeur : le prix des actes influe sur le taux de couverture. Différents

facteurs tels que les garanties, la localisation géographique ou encore la CSP ont une

influence certaine sur les frais réels moyens par acte. Or, à garanties égales, les actes les

plus chers sont les moins bien couverts. Le taux de couverture ne reflète donc pas

uniquement le niveau des garanties mais aussi le mode de consommation d'actes plus ou

moins chers. Par exemple, des actes aux prix raisonnables peuvent être mieux couverts avec

de faibles garanties que d'autres plus coûteux bénéficiant d'un régime haut de gamme. En

conséquence, le taux de couverture ne donne une bonne indication du niveau des garanties

que si le prix des actes reste homogène.

2.5 Synthèse des différents indicateurs

Les principales caractéristiques des indicateurs de niveau de garantie (méthodes

existantes et celle proposée) sont résumées dans le tableau suivant :


SYNTHESE

Méthode Automatisation

à partir de l'historique

Intégration de la volatilité du prix des actes

Comparaison de différentes

assiettes Remarques

La valeur de l'expression

non non non Applicable que dans un cas précis

Le montant maximum

oui non oui Très sensible aux valeurs aberrantes

La situation de référence

non non oui Ne reflète qu'un unique cas

Le taux de couverture

oui oui oui Biaisé par le prix des actes

L'indicateur proposé

oui oui oui Le biais précédent est corrigé

3. LA PROBLEMATIQUE

Reprenons l'exemple précédent : « Comment comparer une garantie à 90% des frais

réels avec une autre à 400% de la BR ? ». Appliquons celui-ci dans le cas d'une prothèse

dentaire de type « SPR50 » dont le montant des frais réels s'élève à 500 €.

La Sécurité sociale rembourse : 70%107,50 € , soit 75,25 € , la garantie à 90% des

frais réels : 374,75 € et celle à 400% de la BR : 424,75 €. Si le montant des frais réels

s'élevait à 800 €, la première garantie rembourserait : 644,75 € et la deuxième : 430 €.

Lorsque le montant des frais réels dépasse (430 75, 25) / 90% = 561, 40 €, la

garantie à 90% des frais réels offre un meilleur remboursement que celle à 400% de la BR.

Selon l'importance des montants de dépenses engagées, l'une ou l'autre des garanties

peut être la plus avantageuse. De ce fait, il n'est pas possible d'effectuer une comparaison

entre deux garanties, qui serait systématiquement vérifiée dans toutes les situations.

L'exemple suivant illustre la problématique de comparaison entre les deux garanties

évoquées précédemment.

20 J.-M. AOUIZERATE

Figure 1: Comparatif de garanties

4. LE PRINCIPE

Bien que naturelle, l'utilisation du taux de couverture pour mesurer la performance

des garanties présente un biais important : les écarts de prix des actes consommés sur un

même poste de dépenses.

L'idée maîtresse de cet indicateur est d'apporter un correctif afin de neutraliser l'effet

du prix des actes. Le taux de couverture corrigé n'est plus celui réellement observé sur la

consommation médicale du contrat étudié. Ce nouveau taux est simulé en appliquant les

garanties du contrat à une base commune de dépenses servant de référentiel, à savoir :

l'ensemble des prestations du portefeuille. En procédant ainsi, les taux de couvertures sont

évalués dans les mêmes conditions. Les différences de coûts des actes n'ont alors plus

d'incidence dans le calcul du taux de couverture. Contrairement à la méthode employée par

l'IRDES, l'indicateur ne porte plus sur une seule situation de référence, mais sur l'ensemble

des cas observés sur le portefeuille. L'indicateur se positionne dans une situation moyenne

qui intègre la volatilité des prix.

Cet indicateur pourrait être défini comme suit :

Définition. Indicateur de garanties

Pour un poste de dépenses donné, il s'agit du taux de couverture fictif qu'aurait un

contrat si ses garanties étaient appliquées sur l'ensemble du portefeuille.


Une simulation de garantie ligne à ligne sur l'ensemble d'un portefeuille est souvent

trop lourde à mettre en œ uvre. Pour contourner cette difficulté, la simulation est approchée

en utilisant la dispersion des frais réels moyens par acte sur l'ensemble du portefeuille. Pour

chaque poste, la distribution des frais réels est discrétisée par tranches de coûts. Les pas des

tranches sont calibrés en fonction des postes de dépenses et sont exprimés selon l'assiette de

garantie la plus utilisée (par exemple, des tranches de 2% du PMSS pour les montures ou

les verres, de 50% de la BR pour les consultations ou les prothèses dentaires...)

Pour le poste d'un contrat étudié, les étapes à suivre sont les suivantes :

- Définir des tranches de dépenses sur le poste considéré,

- Calculer, sur le périmètre étudié (contrat), le taux de couverture de chaque

tranche T , (Montant des remboursements rapporté au montant des frais

réels), 1

- Calculer, sur l'ensemble du portefeuille, pour chacune d'entre-elles, le poids

des frais réels (Montant des frais réels de la tranche rapporté à l'ensemble

des frais réels),

- Calculer, pour chaque tranche T : (poids de la tranche T ) (taux de

couverture de la tranche T ),

- Sommer ces produits. La traduction mathématique avec 11 tranches 1= { ] , ] | {1, 2,..,11}}k k kT x k

est la suivante : Soient sur le i -ème décompte, les frais réels notés iFR , les remboursements de la

Sécurité sociale iSS , les remboursements complémentaires iCO et le nombre d'actes in .

Soient P l'ensemble des décomptes du portefeuille et C l'ensemble des décomptes du

contrat étudié tel que C P .

Le poids de la tranche kT calculée sur l'ensemble P des décomptes du portefeuille :

{ / }

,

1=

i FR n Ti i ki P

P ki

i P

FRPoids

FR

(1)

Le taux de couverture de la tranche kT calculé sur l'ensemble C des décomptes du

contrat :

1y compris les remboursements d'autres mutuelles

22 J.-M. AOUIZERATE

{ / } { / }

,{ / }

1 1=

1

i FR n T i FR n Ti i k i i ki C i C

C ki FR n Ti i k

i C

SS COCouverture

FR

(2)

Au final, l'indicateur sur le contrat étudié :

11

, , ,=1 (1) (2)

=P C P k P kk

Indicateur Poids Couverture

Avec la répartition des frais réels observée en 2007 sur le portefeuille Gras Savoye

et un contrat ayant une garantie à 400% de la B.R. sur le poste prothèses dentaires,

l'indicateur est obtenu de la façon suivante :

Tranches de dépense

1=] , ]k k kT

Répartition des F.R. sur

le portefeuille

,P kPoids

Taux de couverture sur

le contrat

,C kCouverture

Produit

, ,P k C kPoids Couverture

100% B.R.* 0,02% 100,00% 0,02% ]100% B.R.-200% B.R.] 0,10% 100,00% 0,10% ]200% B.R.-300% B.R.] 6,26% 100,00% 6,26% ]300% B.R.-400% B.R.] 12,18% 100,00% 12,18% ]400% B.R.-500% B.R.] 31,50% 100,00% 31,50% ]500% B.R.-600% B.R.] 30,64% 74,17% 22,73% ]600% B.R.-700% B.R.] 13,27% 73,44% 9,75% ]700% B.R.-800% B.R.] 3,42% 63,74% 2,18% ]800% B.R.-900% B.R.] 1,14% 57,24% 0,65% ]900% B.R.-1000% B.R.] 0,74% 50,68% 0,38% 1000% B.R. 0,74% 42,46% 0,31%

Indicateur de garantie 11

, ,=1= =P k C kk

Poids Couverture 86,05%

*B.R. = 50 2,15 = 107,50

La valeur de l'indicateur de 86,05% correspond à une estimation du taux de

couverture obtenu en appliquant les garanties du contrat considéré sur l'ensemble des

prestations observées sur le portefeuille.

5. LES DONNEES MANQUANTES

Le calcul de l'indicateur à partir de l'historique d'un contrat nécessite de connaître le

taux de couverture de chaque tranche de dépense. Pour cela, il faut disposer au minimum de

l'observation d'un acte dans chacune des tranches, ce qui n'est pas toujours le cas. En effet,

les taux de couverture sont d'autant plus difficiles à observer que les effectifs couverts sont


faibles et que la tranche considérée est peu courante. Dans une moindre mesure, le niveau

d'intervention du régime complémentaire peut influencer le prix des actes et favoriser

l'observation de certaines tranches au détriment d'autres.

En négligeant ce dernier point, les taux de couverture manquants peuvent être

considérés comme Missing At Random (MAR). En d'autres termes, la probabilité qu'une

observation soit manquante ne dépend que des variables observées et pas de la valeur. La

méthode Data Augmentation utilisée plus loin suppose que cette hypothèse soit vérifiée.

Figure 2: Exemple : prothèse dentaire

Par bénéficiaire, 39% des tranches n'ont pas pu être observées. La solution proposée

est de compléter ces informations manquantes selon la nature des dépenses :

- Les frais réels, de même que les remboursements de la Sécurité sociale,

sont remplacés par les données moyennes observées sur le portefeuille sur

la tranche considérée,

- Les remboursements complémentaires sont simulés à partir d'une

modélisation statistique, la méthode dite d’« Imputation Multiple avec Data

Augmentation » (Méthode de Monte Carlo par Chaîne de Markov). Cette

technique permet de prendre en compte les corrélations entre les tranches

de couverture tout en conservant l'incertitude liée aux données manquantes.

5.1 L'Imputation Multiple

La solution envisagée pour les remboursements complémentaires est d'estimer les

valeurs manquantes par la méthode d’« Imputation Multiple » qui permet de générer

plusieurs jeux de données où les valeurs manquantes sont complétées par plusieurs valeurs

24 J.-M. AOUIZERATE

plausibles. L'intérêt de cette méthode est de refléter correctement l'incertitude des valeurs

manquantes tout en préservant les aspects importants des distributions ainsi que les

relations entre les variables. Cette technique constitue une alternative intéressante pour

contrer le problème des données manquantes. Développés en premier par Rubin [RUB87]

dans un contexte de sondage avec non-réponse puis par Schafer [SCH97], ces modèles

d'imputation multiple s'inscrivent dans un cadre bayésien visant à générer des données

manquantes.

Ce processus décrit par Rubin s'organise en trois étapes :

- Imputation : Chaque donnée manquante est complétée par > 1m valeurs

simulées afin de générer m jeux de données. Différentes méthodes peuvent

être utilisées pour le remplacement des données manquantes : score de

propension, régression (linéaire, log-linéaire ou logistique) ou encore

MCMC.

- Analyse : Les m jeux de données complétées peuvent ainsi être analysés

indépendamment par des techniques classiques de régression pour obtenir

une estimation des paramètres d'intérêt de la modélisation. Un grand

avantage de cette méthode réside dans la faculté de pouvoir utiliser des

méthodes statistiques standard sur des ensembles complets de données,

après imputation.

- Combinaison des résultats : Les m jeux de données sont ensuite

combinés pour estimer les paramètres d'intérêt du modèle. L'assemblage

des résultats des m analyses permet ainsi de refléter la variabilité

supplémentaire due aux données manquantes. Une étude de la variance peut

ensuite être menée pour mesurer l'influence de la non-observation des

données sur les estimations.

Figure 3: Méthodologie de l'imputation multiple


La méthode choisie pour simuler les valeurs manquantes est une méthode de Monte

Carlo par Chaîne de Markov (M.C.M.C) dite d' Augmentation de Données ou Data

Augmentation. Les paragraphes suivants esquissent une ébauche succincte des notions

sous-jacentes dont elle découle.

5.2 Méthodes de Monte Carlo par Chaîne de Markov (M.C.M.C.)

5.2.1 Généralités

Les méthodes de Monte Carlo par Chaînes de Markov ont été initialement élaborées

pour répondre à des problématiques physiques telles que l'exploration des distributions

d'équilibre des interactions moléculaires. Leur essor depuis le début des années 90 est

essentiellement dû au développement des techniques informatiques et notamment grâce aux

vitesses de calcul qui n'ont cessé de s'accroître. Elles sont utilisées principalement pour

l'échantillonnage de variables aléatoires, le calcul d'intégrales et l'optimisation de fonctions

lorsqu'il n'existe pas de solutions analytiques, ou pour résoudre des problèmes en grande

dimension. Les méthodes les plus connues sont : l'algorithme de Hastings-Métropolis,

l'échantillonneur de Gibbs et la Data Augmentation. Pour approfondir le sujet de manière

plus détaillée, le lecteur pourra se référer à l'ouvrage de Christian Robert [ROB96].

5.2.2 Principe des méthodes M.C.M.C.

L'idée sous-jacente des méthodes MCMC est de construire une chaîne de Markov

prenant la forme d'une marche guidée pour explorer l'espace multidimensionnel des

paramètres pour parvenir à estimer une distribution de probabilité en les échantillonnant

périodiquement.

Les méthodes MCMC s'inscrivent dans une approche d'inférence bayésienne où

l'information des paramètres inconnus est contenue dans la loi de distribution a posteriori

( | )p y qui est obtenue en utilisant le Théorème de Bayes :

Théorème 5.1 (Théorème de Bayes) La version continue du théorème de Bayes

découle directement des théorèmes des probabilités totales et composées.

La densité de conditionnellement à y notée ( | )p y est donnée par la relation

suivante :

( | ) ( ) ( | ) ( )

( | ) = =( ) ( | ) ( )

p y p p y pp y

p y p y p d

La distribution a priori de ce paramètre aléatoire ( )p et la vraisemblance ( | )p y

26 J.-M. AOUIZERATE

des observations y définissent ainsi le cadre du modèle.

Le facteur de normalisation ( )p y est une constante indépendante de ce qui réduit

le théorème de la façon suivante :

( | ) ( | ) ( )p y p y p

Plusieurs finalités de l'analyse bayésienne peuvent se résumer à calculer, quelle que

soit la fonction g où l'espérance existe, l'expression suivante :

( ( ) | ) = ( ) ( | )g y g p y dy

Or, il n'est quasiment jamais possible d'obtenir l'expression précédente

analytiquement, d'où la nécessité de recourir à des simulations.

Le principe général des méthodes de Monte Carlo est de tirer aléatoirement un

échantillon ( )m selon ( | )p y pour chaque valeur de m jusqu'à M , pour ensuite utiliser

la relation de convergence suivante :

.

( )

=1

1( ) ( ( ) | )

M p sm

m

g g yM

Les méthodes de Monte Carlo par Chaînes de Markov permettent de générer une

chaîne de Markov ( )m dont les échantillons sont distribués asymptotiquement selon la loi a

posteriori ( | )p y .

5.2.3 Data Augmentation

L'algorithme Data Augmentation est une méthode de Monte Carlo par Chaînes de

Markov particulièrement adaptée pour traiter les problèmes de données manquantes. Cette

technique proposée par Tanner et Wong [TAN87] est une forme particulière de

l'échantillonneur de Gibbs, elle fut développée ensuite par Schafer dans les ouvrages

suivants [SCH97] [SCH98].

Le principe de la méthode d'augmentation des données consiste à assimiler les

observations manquantes comme des paramètres supplémentaires à estimer. L'échantillon

ainsi augmenté est traité comme s'il était complet afin d'exploiter l'échantillonnage de

Gibbs. Dans la problématique étudiée ici, mqtY et obsY s'appliquent aux montants des

remboursements complémentaires moyens dans chacune des tranches de dépenses,

désigne les moyennes et covariances correspondantes.

Sous hypothèse que les données suivent une distribution normale multivariée,

l'augmentation de données peut être appliquée en répétant alternativement les deux étapes

suivantes :


- Etape « I-step » : Imputation des données manquantes ( 1) ( )( / , )t t

mqt mqt obsY P Y Y

Partant d'une estimation du vecteur moyenne et de la matrice de covariance, les

données manquantes sont simulées pour chaque observation indépendamment. En notant

mqtY les variables ayant des données manquantes et obsY celles ayant des valeurs observées,

les données manquantes sont alors tirées selon la distribution conditionnelle aux données

observées.

- Etape « P-step » : Distribution des paramètres a posteriori

( 1) ( 1)( / , )t tobs mqtP Y Y

Partant d'une base complétée, cette étape consiste en la simulation a posteriori du

vecteur moyenne et de la matrice de covariance. Cette estimation sera ensuite utilisée dans

l'étape « I-step ». Le déroulement de cette étape va dépendre de l'information a priori dont

on dispose sur les paramètres.

La chaîne de Markov ainsi créée : 1 (1) 2 (2) ( )( , ), ( , ),..., ( , )t tmqt mqt mqtY Y Y converge en

probabilité vers la distribution prédictive a posteriori des données ( , / )mqt obsP Y Y . Par ce

biais, sont simulés alternativement données manquantes et paramètres. Cette méthode

nécessite des valeurs de départ pour les paramètres, une bonne pratique peut consister à les

initialiser en appliquant des algorithmes Espérance-Maximisation.

5.3 Application de la méthode aux tranches de dépenses non observées

5.3.1 Postulats requis pour la Data Augmentation

L'application de la méthode de Data Augmentation nécessite que les données

manquantes soient de type M.A.R. pour éviter que les résultats ne soient biaisés. Comme

indiqué précédemment, les tranches non observées sont supposées vérifier globalement

cette hypothèse.

L'hypothèse que les données suivent une loi normale multivariée doit également

pouvoir être vérifiée. Bien que l'allure générale de la distribution soit en forme de

« cloche », l'hypothèse de normalité n'est pas validée pour deux raisons. Premièrement, la

plupart des tests statistiques ont rejeté cette hypothèse. Deuxièmement, une distribution

normale prévoit des valeurs négatives, or les remboursements complémentaires sont par

définition positifs. Pour autant, Schafer et Graham [SCH02] précisent que la méthode reste

efficace même dans les cas où les données ne se conforment pas complètement à ce postulat

28 J.-M. AOUIZERATE

de normalité et qu'elle fournit d'excellents résultats dans un bon nombre de situations.

Bien que les données ne suivent pas rigoureusement une loi normale, la robustesse

de la méthode à cette hypothèse permet néanmoins de l'appliquer.

5.3.2 Phase Imputation

Le nombre de simulations retenu est de 5 jeux de données en suivant les

préconisations de Rubin, avec imputation par la méthode MCMC avec Data Augmentation.

Les valeurs de départ des paramètres sont initialisées par un algorithme

E.M.(Expectation-Maximization)

Chacune des observations a été pondérée par son montant des frais réels afin que les

tranches soient prises en compte selon l'importance de leur volume de dépenses.

Comme chaque état d'une chaîne de Markov a une influence sur le suivant, 200

itérations ont été réalisées avant la première imputation puis 100 entre les suivantes. Cette

pratique permet d'éliminer les séries de dépendance sur les valeurs de départ pour tendre

vers une distribution stationnaire.

En supposant qu'il n'y avait a priori pas d'information sur l'estimation des moyennes

et des covariances, la distribution de Jeffreys ([SCH97], page 154) a été retenue.

La méthode MCMC avec Data Augmentation a ensuite été appliquée sur les cinq

jeux de données afin qu'ils deviennent entièrement complétés. Pour cela, les paramètres

d'intérêts (moyennes et covariances) ont été évalués de proche en proche comme le montre

l'exemple suivant.

Figure 4: Estimation de la moyenne par Data Augmentation


La connaissance de toutes les dépenses moyennes sur les cinq jeux ainsi complétés

va permettre de calculer l'indicateur de garantie pour chacun des contrats. Préalablement,

une phase d'analyse doit être effectuée sur chaque jeu pour vérifier la cohérence des

données imputées. Eventuellement, une action pourra être menée sur celles qui ne

respectent pas certaines règles communes à l'ensemble des garanties définies dans la section

suivante.

5.3.3 Phase Analyse

Dans cette phase d'analyse statistique, plutôt que d'appliquer un modèle de

régression comme le prévoit la méthodologie générale d'imputation multiple telle qu'elle est

décrite par Rubin, la cohérence des valeurs imputées va être testée, pour les modifier si

besoin.

Les critères qui ont été testés sont les suivants :

- Les remboursements complémentaires moyens doivent être positifs,

- Les remboursements complémentaires moyens additionnés aux autres

dépenses ne peuvent pas dépasser le montant des frais réels,

- Les remboursements complémentaires moyens imputés doivent être

supérieurs à ceux de la tranche précédente.

Ce test a permis de mettre en évidence que 3% des tranches imputées avaient des

remboursements complémentaires hors normes. Ces valeurs ont ensuite été corrigées de

telle sorte à ce que la logique assurantielle liée aux garanties soit respectée.

A ce stade, cinq jeux de données complètes et cohérentes bénéficiant pour chaque

contrat d'un indicateur de niveau de garantie synthétique ont été créés. Ces jeux doivent

ensuite être combinés pour en obtenir un seul.

5.3.4 Phase Combinaison des résultats

En s'inspirant de la méthodologie proposée par Rubin, l'indicateur de niveau de

garantie Indic est obtenu simplement en prenant la moyenne des cinq indicateurs iIndic

calculés sur chaque jeu d'imputation.

En notant l'imputation i , pour un contrat donné, l'indicateur vaut :

5

=1

1=

5i

iIndic Indic

En moyenne par contrat, la variance inter-imputation (écart-type de 0,11%) reste très

nettement inférieure à celle intra-imputation (écart-type de 15,4%). Ce constat tend à

30 J.-M. AOUIZERATE

prouver que l'inférence liée à la non observation des données manquantes préserve

l'information contenue dans le calcul de l'indicateur.

L'objectif recherché a été atteint en intégrant la volatilité liée à la non observation

dans la construction de l'indice proposé.

6. APPLICATIONS PRATIQUES DE L'INDICATEUR

6.1 Correspondance de l'indicateur en libellés de garantie usuels

A des fins commerciales, l'indicateur de garantie peut être converti dans une

expression de garantie courante. Le niveau de garantie peut être représenté en fonction de la

valeur de l'indicateur. Cette approche permet de savoir quel niveau de garantie il faudrait

appliquer à l'ensemble du portefeuille pour obtenir un taux de couverture souhaité. Le

calcul de la correspondance se fait par itérations successives en faisant augmenter la

garantie jusqu'à ce que la valeur de l'indicateur recherchée soit atteinte.

Figure 5: Correspondance entre Indicateurs et Garanties

Dans l'exemple d'une couronne dentaire, pour atteindre un taux de couverture de

90%, il faudrait mettre en place une garantie à 400 % de la BR. Cette indication peut

fournir une première approche à une entreprise pour la guider dans son choix de garanties à

mettre en place, selon l'efficacité recherchée.


6.2 Benchmark

Dans le cadre d'un benchmark d'une entreprise avec son secteur d'activité, les

indicateurs de garanties des principaux postes peuvent être comparés sur un seul et même

graphique en utilisant une représentation par secteurs. Le positionnement de l'entreprise par

rapport à son référentiel est alors immédiat.

Figure 6: Exemple d'application : Benchmark

Dans cet exemple, l'entreprise possède globalement des garanties de niveau

supérieur à son secteur d'activité. Ce constat peut alors l'aider dans le pilotage de son

régime en lui fournissant des éléments de comparaisons synthétisés en une page.

6.3 Influence des garanties sur le mode de consommation

Comme indiqué précédemment, le niveau de garantie a une influence certaine sur les

prix et la fréquence de consommation. L'exemple suivant illustre l'une des deux

composantes : l'incidence sur les prix. Ces données sont estimées à partir de l'ensemble du

portefeuille.

32 J.-M. AOUIZERATE

Figure 7: Prix d'une monture selon la garantie

A titre d'exemple, le prix moyen d'une monture peut être majoré de près 50% entre

une faible garantie et une garantie haut de gamme.

7. CONCLUSIONS

Cet article présente la méthodologie à suivre pour la mise en place d'un indicateur de

garanties dans le cadre de régimes complémentaires santé. Cette approche novatrice

utilisant notamment des méthodes M.C.M.C. permet de quantifier l'efficacité des garanties

de manière homogène quel que soit leur mode d'expression. Le calcul peut être automatisé

à grande échelle ce qui lui permet de trouver ainsi une utilité dans de nombreuses

applications telles que la tarification ou des études comparatives. Cet indicateur constitue

un nouvel outil pratique apportant une aide au pilotage de régimes complémentaires frais de

santé.


REFERENCES

[BOC00] BOCOGNANO A., COUFFINHAL A., DUMESNIL S., GRIGNON M.

(2000) : La complémentaire maladie en France : qui bénéficie de quels remboursements ?

Résultats de l'enquête Santé Protection Sociale 1998, CREDES, n°1317, octobre 2000, p.

150-86

[BUC02] BUCHMUELLER T., COUFFINHAL A., GRIGNON M., PERRONNIN

M., SZWARCENSZTEIN (2002) : Consulter un généraliste ou un spécialiste : influence

des couvertures complémentaires sur le recours aux soins, Question d'économie de la santé,

Bulletin d'information en économie de la santé, CREDES, n°47, janvier 2002

[COU04] COUFFINHAL A., PERRONNIN M. (2004) : Accès à la couverture

complémentaire maladie en France : Une comparaison des niveaux de remboursement,

Enquêtes ESPS 2000-2002, CREDES, n°1521, avril 2004, p.29-30

[CRE95] CRETY L., WENCKER A. (1995) : Frais de santé : de la tarification à la

maîtrise des dépenses, Mémoire d'actuariat, C.E.A. (Centre d'Etudes Actuarielles), p. 117

[DRO02] DROESBEKE J.J., FINE J., SAPORTA G. (2002) : Méthodes bayésiennes

en statistique, Editions Technip, 2002

[GEM84] GEMAN S., GEMAN D. (1984) : Stochastic Relaxation, Gibbs

Distribution and the Bayesian Restoration of Images, IEEE Transactions on Pattern

Analysis and Machine Intelligence, n°6, p. 721-741

[LEN05] LENGAGNE P., PERRONNIN M. (2005) : Questions d'économie de la

santé, Bulletin d'information en économie de la santé, CREDES, n°100, novembre 2005

[NAK05] NAKACHE J.P., GUEGUEN A. (2005) : Analyse multidimensionnelle de

données incomplètes, Revue de statistique appliquée, vol. LIII, n°3, p. 35-62

[ROB96] ROBERT C.P. (1996) : Méthodes de Monte Carlo par chaînes de Markov,

Economica, Paris

[RUB78] RUBIN D.B. (1978) : Multiple imputation in sample surveys - A

phenomenological Bayesian approach to nonresponse, Proceedings of the Survey Research

Methods Section, American Statistical Association, p. 20--34

[RUB87] RUBIN D.B. (1987) : Multiple Imputation for Nonresponse in Surveys,

John Wiley & sons

[SCH97] SCHAFER J.L. (1997) : Analysis of Incomplete Multivariate Data by

Simulation, Chapman and Hall, New-York

34 J.-M. AOUIZERATE

[SCH98] SCHAFER J.L., OLSEN M.K. (1998) : Multiple Imputation for

Multivariate Missing Data Problems : a Data Analyst's Perspective, Multivariate

Behavorial Research, vol. 33, p. 545-571

[SCH02] SCHAFER J.L., GRAHAM J.W. (2002) : Missing Data: Our View of the

State of the Art, Psychological Methods, vol. 7, n°2, p. 147-177

[TAN87] TANNER M.A., WONG W.H. (1987) : The Calculation of Posterior

Distributions by Data Augmentation, Journal of American Statistical Association, vol. 82,

n°398, p. 528-540

[WAY03] WAYMAN J.C. (2003) : Multiple Imputation For Missing Data: What Is

It And How Can I Use It?, Annual Meeting of the American Educational Research

Association, Chicago, IL.

creation d’un indicateur de niveau de garantie en …

Documents