Le mathoscope: Optimisation des chaînes de production dans l'industrie sidérurgique ...

17 déc. 2009

Optimisation des chaînes de production dans l'industrie sidérurgique ...

TEL :: [tel-00441557, version 1]
http://tel.archives-ouvertes.fr/tel-00441557/en/
L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur.
...

Aucun commentaire:

Enregistrer un commentaire

Le mathoscope

17 déc. 2009

Optimisation des chaînes de production dans l'industrie sidérurgique ...

Aucun commentaire:

Pourquoi Linux ?

Dans les blogs de Maths

Abonnements

Archives du Mathoscope

Recherche sur le mathoscope

Librairie

Liens