Aller au contenu

Statistique bayésienne

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 16 juillet 2015 à 08:24 et modifiée en dernier par 87.231.59.238 (discuter). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

La statistique bayésienne est une approche statistique fondée sur l'inférence bayésienne. On utilise le terme de bayésienne pour la différencier de la statistique fréquentiste (ou statistique classique) qui ne sait traiter que les grands échantillons (où elle donne les mêmes résultats que la bayésienne par des procédés moins coûteux en calcul). La statistique bayésienne est surtout utilisée lorsque l'on n'a que de petits échantillons, typiquement quand chaque observation est elle-même très coûteuse (par exemple campagne de prospection pétrolière par voie sismique). Contrairement à la statistique classique, elle n'exige pas au départ qu'on se fixe une hypothèse précise à confirmer ou infirmer, ce qui la rend utile en data mining.

En statistique bayésienne :

  • on interprète les probabilités comme un degré de croyance plutôt que comme la fréquence limite d'un phénomène
  • on modélise les paramètres du modèle par des lois de probabilité
  • on infère des paramètres devenant d'autant plus plausibles à mesure qu'on affine cette distribution de probabilité au fur et à mesure que sont connus de nouveaux résultats d'observation[1].

Méthode

Une analyse bayésienne demande au départ une première modélisation très brute des connaissances. On estime à cette fin les ordres de grandeur vraisemblables des résultats (par exemple une moyenne, mais éventuellement aussi d'autres informations) et on leur associe une distribution de probabilité.

Le nombre de distributions de probabilité ayant la même moyenne étant infini, la distribution choisie sera la moins informée de toutes celles qui respectent les contraintes, puisque n'introduisant aucune information parasite, conformément au principe d'entropie maximale.

Cette information « floue » de départ est ensuite affinée par les observations à l'aide de la loi de Bayes[1], et donne ainsi une distribution a posteriori reflétant l'information apportée par les observations.

Bibliographie

Notes et références

  1. a et b (en) Larry Wasserman, All of Statistics : A Concise Course in Statistical Inference, New York, Springer-Verlag, , 461 p. (ISBN 978-0387402727), p. 176