Statistique bayésienne
La statistique bayésienne est une approche statistique fondée sur l'inférence bayésienne. On utilise le terme de bayésienne pour la différencier de la statistique fréquentiste (ou statistique classique) qui ne sait traiter que les grands échantillons (où elle donne les mêmes résultats que la bayésienne par des procédés moins coûteux en calcul). La statistique bayésienne est surtout utilisée lorsque l'on n'a que de petits échantillons, typiquement quand chaque observation est elle-même très coûteuse (par exemple campagne de prospection pétrolière par voie sismique). Contrairement à la statistique classique, elle n'exige pas au départ qu'on se fixe une hypothèse précise à confirmer ou infirmer, ce qui la rend utile en data mining.
En statistique bayésienne :
- on interprète les probabilités comme un degré de croyance plutôt que comme la fréquence limite d'un phénomène
- on modélise les paramètres du modèle par des lois de probabilité
- on infère des paramètres devenant d'autant plus plausibles à mesure qu'on affine cette distribution de probabilité au fur et à mesure que sont connus de nouveaux résultats d'observation[1].
Méthode
Une analyse bayésienne demande au départ une première modélisation très brute des connaissances. On estime à cette fin les ordres de grandeur vraisemblables des résultats (par exemple une moyenne, mais éventuellement aussi d'autres informations) et on leur associe une distribution de probabilité.
Le nombre de distributions de probabilité ayant la même moyenne étant infini, la distribution choisie sera la moins informée de toutes celles qui respectent les contraintes, puisque n'introduisant aucune information parasite, conformément au principe d'entropie maximale.
Cette information « floue » de départ est ensuite affinée par les observations à l'aide de la loi de Bayes[1], et donne ainsi une distribution a posteriori reflétant l'information apportée par les observations.
Bibliographie
- (en) Dennis Victor Lindley, Introduction to probability and statistics from a Bayesian viewpoint, Cambridge, Cambridge University Press,
- Christian Robert, Le Choix bayésien, Springer Verlag, coll. « Statistiques et probabilités appliquées », 658 p. (ISBN 978-2287251733)
- (en) Andrew Gelman, John B Carlin, Hal S Stern et Donald B Rubin, Bayesian Data Analysis, Chapman CRC, , 3e éd., 675 p. (ISBN 978-1439840955)
- (en) Andrew Gelman et Cosma Shalizi, « Philosophy and the practice of Bayesian statistics (with discussion) », British Journal of Mathematical and Statistical Psychology, vol. 66, , p. 8-18
- Christian Robert, « L'Analyse statistique bayésienne », Courrier des statistiques, (lire en ligne)
- (en) Peter E. Rossi, Greg M. Allenby et Rob McCulloch, Bayesian Statistics and Marketing, Wiley, , 368 p. (ISBN 978-0-470-86367-1)
- (en) Simon Jackman, Bayesian Analysis for the Social Sciences, Hoboken, New Jersey, Wiley,
- (en) Jeff Gill, Bayesian Methods : A Social and Behavioral Approach, CRC Press, (1re éd. 2002)
Notes et références
- (en) Larry Wasserman, All of Statistics : A Concise Course in Statistical Inference, New York, Springer-Verlag, , 461 p. (ISBN 978-0387402727), p. 176