17 déc. 2009

Optimisation des chaînes de production dans l'industrie sidérurgique ...

TEL :: [tel-00441557, version 1]
http://tel.archives-ouvertes.fr/tel-00441557/en/
L'apprentissage par renforcement est la réponse du domaine de l'apprentissage numérique au problème du contrôle optimal. Dans ce paradigme, un agent informatique apprend à contrôler un environnement en interagissant avec ce dernier. Il reçoit régulièrement une information locale de la qualité du contrôle effectué sous la forme d'une récompense numérique (ou signal de renforcement), et son objectif est de maximiser une fonction cumulante de ces récompenses sur le long terme, généralement modélisée par une fonction dite de valeur.
...

Aucun commentaire:

Pourquoi Linux ?

Pauvreté-précarité : Agissons pour ceux qui en ont besoin