Academia.eduAcademia.edu

Filtrage non linéaire par noyaux de convolution: application à un procédé de dépollution biologique

2004

ECOLE NATIONALE SUPÉRIEURE AGRONOMIQUE DE MONTPELLIER N◦ attribué par la bibliothèque Année 2004 THÈSE pour obtenir le grade DOCTEUR EN SCIENCE Ecole Doctorale : Information, Structures, Systèmes Formation Doctorale : BIOSTATISTIQUE Filtrage non linéaire par noyaux de convolution Application à un procédé de dépollution biologique par Vivien ROSSI soutenue publiquement le 2 décembre 2004 devant le jury composé de : MM. P. DEL MORAL L. DEVROYE G. DUCHARME F. LE GLAND B. PORTIER G. TRYSTRAM J.P. STEYER J.P. VILA Professeur Université de Nice Professeur Université McGill Professeur Université Montpellier II Dir. de recherche IRISA/INRIA Rennes Maître de Conf. Université Paris-Sud Professeur ENSIA Massy Dir. de recherche INRA Narbonne Dir. de recherche INRA Montpellier Examinateur Rapporteur Président Rapporteur Membre invité Rapporteur Membre invité Directeur de Thèse Remerciements Après l’obtention de la maîtrise, ayant choisi de suivre la voie de la recherche, j’ai rencontré Jean-Pierre Vila afin de m’informer plus amplement sur ce métier. Il m’a accordé sa confiance en me proposant l’étude d’un premier projet. Il me l’a renouvelée en acceptant d’encadrer mon stage de DEA et surtout en me proposant ce sujet de thèse. Ce fut pour moi un plaisir de travailler sous sa direction durant ces trois années. Il m’a transmis sa rigueur scientifique et son ouverture d’esprit. Je reste impressionné par l’étendue de ses connaissances, tant théoriques qu’appliquées. Jean-Pierre Vila m’a laissé une grande liberté pour aborder ce travail. Ses conseils et son soutien ont été particulièrement précieux pour son accomplissement. J’espère que notre collaboration ne s’arrêtera pas avec cette thèse. Merci infiniment à Luc Devroye, François Le Gland et Gilles Trystram qui ont donné leur accord, malgré un emploi du temps que je devine accablant, pour assumer la tâche ingrate de rapporteur. Tous trois, dans nos échanges de travail ont témoigné à mon égard d’une grande simplicité, très appréciable dans les moments tendus de la fin de thèse. Je tiens à exprimer ma profonde gratitude à Pierre Del Moral, pour l’intérêt qu’il a porté à mon travail et pour l’honneur qu’il m’a fait en participant au jury de cette thèse. Je lui suis extrêmement reconnaissant des discussions scientifiques qui ont encouragé et guidé mes recherches. Toute ma gratitude à Bruno Portier pour ses nombreux conseils qui ont grandement contribué au bon déroulement de ce travail. Je le remercie vivement de sa présence dans le jury. Grâce à Jean-Pierre Vila j’ai eu la chance de travailler avec Jean-Philippe Steyer. Cette collaboration m’a permis de confronter mes travaux méthodologiques à la réalité et d’élargir le champ de mes connaissances. Merci à Jean- 4 Philippe Steyer d’avoir accepté spontanément d’être membre du jury. Il a toujours fait preuve d’un grande disponibilité en dépit de ses nombreuses sollicitations. Qu’il trouve ici l’expression de ma profonde reconnaissance. Je remercie aussi Gilles Ducharme pour sa participation à ce jury. Sa présence est pour moi très symbolique, puisque j’ai découvert la statistique au travers de ses cours. Il a, de surcroit, toujours tenu un rôle central dans la formation qui m’a mené jusqu’à cette thèse. Ses grandes qualités pédagogiques ont influé sur ma décision de m’orienter vers la recherche en statistique. Une des particularités des thèses réalisées au sein de l’INRA est l’utilisation d’un comité de pilotage, un petit groupe de chercheurs qui se réunit une fois l’an pour évaluer le travail effectué et échanger des idées. Le soutien apporté par ce comité est inestimable. Je voudrais réserver une attention toute particulière à ses membres pour les précieux conseils qu’ils m’ont apportés. Parmi eux Nadine Hilgert et Marc Joannidès n’ont pu, hélas, faire partie du jury. Qu’ils soient assurés de ma profonde sympathie. J’ai une pensée reconnaissante pour les membres de l’UMR Analyse des Systèmes et Biométrie de Montpellier. Ils m’ont chaleureusement accueilli et permis de travailler dans des conditions privilégiées durant ces trois années. Plusieurs prénoms me viennent à l’esprit : Alain, Brigitte, Cécile, Christophe, Isabelle, Laurent, Luc, Pascal, Philipe, Véronique, Vincent. Merci à tous. Je n’oublie pas les anciens thésards du laboratoire, Gérard, Nicolas, Pierre-André qui n’ont pas été avares de bons conseils. Cette thèse n’aurait pu voir le jour sans un soutien financier. Il me fut accordé par un partenariat INRA - Région Languedoc Roussillon, je remercie sincèrement mes deux cofinanceurs. Par ailleurs, sur un plan plus personnel, je tiens à dire à mes proches, membres de ma famille et amis, combien j’ai apprécié leur sollicitude et leurs encouragements qui me sont allés droit au coeur. Enfin, je remercie particulièrement Stéphanie, pour son infinie patience et son soutien affectif de tous les instants durant ces trois années. Table des matières Introduction 9 I Etat de l’art 15 1 Un point sur le filtrage non linéaire en temps discret 1.1 Problématique . . . . . . . . . . . . . . . . . . . . . 1.2 Solution théorique . . . . . . . . . . . . . . . . . . . 1.3 Solutions actuellement proposées . . . . . . . . . . . 1.3.1 Filtre de Kalman . . . . . . . . . . . . . . . 1.3.2 Filtre de Kalman étendu . . . . . . . . . . . 1.3.3 Filtre de Kalman étendu dual . . . . . . . . . 1.3.4 Approches par les méthodes de Monte Carlo 1.3.5 Approches par réseaux de neurones . . . . . 1.4 Objectifs et pistes explorées . . . . . . . . . . . . . 17 17 18 19 19 19 20 21 22 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Filtres usuels 2.1 Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Filtre de Kalman étendu . . . . . . . . . . . . . . . . . . . . . . . 2.3 Filtres de Monte Carlo classiques . . . . . . . . . . . . . . . . . . 2.3.1 Procédure “Sequential Importance Sampling” (SIS) ou “ Importance Sampling” (IS) pour le filtrage . . . . . . . . 2.3.2 Notations et objets utilisés en théorie du filtrage particulaire 2.3.3 Distances utilisées pour évaluer les filtres . . . . . . . . . 2.3.4 Filtre de Monte Carlo pondéré . . . . . . . . . . . . . . . 2.3.5 Filtre de Monte Carlo à mémoire limitée . . . . . . . . . . 2.3.6 Filtre de Monte Carlo à oubli exponentiel . . . . . . . . . 2.4 Filtres avec interaction . . . . . . . . . . . . . . . . . . . . . . . 27 28 29 30 31 35 38 39 42 43 45 6 TABLE DES MATIÈRES 2.4.1 2.5 2.6 Procédure SIS-R ou “Sampling Importance Resampling” pour le filtrage . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Arbres généalogiques et processus d’evolution . . . . . . 2.4.3 Filtre Particulaire avec interaction . . . . . . . . . . . . . Filtres particulaires régularisés . . . . . . . . . . . . . . . . . . . 2.5.1 Filtre particulaire pré-régularisé . . . . . . . . . . . . . . 2.5.2 Filtre particulaire post-régularisé . . . . . . . . . . . . . . Conclusion du deuxième chapitre . . . . . . . . . . . . . . . . . . 46 48 49 52 53 55 58 II Utilisation des noyaux de convolution en filtrage particulaire 61 3 Estimation de la densité du filtre optimal pour un système dynamique non linéaire 63 3.1 Notations relatives à l’estimation non paramétrique par noyaux de convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.2 Filtre par noyau à mémoire complète . . . . . . . . . . . . . . . . 65 3.3 Filtre par noyau à mémoire limitée . . . . . . . . . . . . . . . . . 74 3.4 Filtre par noyau avec sélection . . . . . . . . . . . . . . . . . . . 78 3.5 Filtre par noyaux avec ré-échantillonnage . . . . . . . . . . . . . 92 3.6 Le fléau des grandes dimensions . . . . . . . . . . . . . . . . . . 105 3.7 Conclusion du troisième chapitre . . . . . . . . . . . . . . . . . . 106 4 Estimation de l’état d’un système dynamique 4.1 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Régression par la méthode des noyaux . . . . . . . . . . . 4.1.2 Estimation de l’espérance par le filtre à mémoire complète 4.1.3 Estimation de l’espérance par le filtre à mémoire tronquée 4.1.4 Estimation de l’espérance par le filtre avec sélection . . . 4.1.5 Estimation de l’espérance par le filtre avec ré-échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Mode conditionnel . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Estimation du mode par les filtres à convolution simple . . 4.2.2 Estimation du mode par le filtre à convolution avec rééchantillonnage . . . . . . . . . . . . . . . . . . . . . . . 4.3 Conclusion du quatrième chapitre . . . . . . . . . . . . . . . . . 109 110 110 111 119 122 126 128 130 133 136 TABLE DES MATIÈRES 7 5 Estimation conjointe états-paramètres d’un système dynamique 5.1 Approche empirique . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Estimateurs des Moindres Carrés conditionnels . . . . . . . . . . 5.2.1 Estimateur théorique . . . . . . . . . . . . . . . . . . . . 5.2.2 L’estimateur en pratique . . . . . . . . . . . . . . . . . . 5.3 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . 5.4 Problèmes d’optimisation relatifs à l’estimation de paramètres . . 5.5 Estimation des paramètres par une approche bayésienne . . . . . . 5.5.1 Algorithme de filtrage pour des systèmes dynamiques paramétrés . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2 Etude des propriétés théoriques . . . . . . . . . . . . . . 5.6 Conclusion du cinquième chapitre . . . . . . . . . . . . . . . . . 139 140 141 141 143 147 152 155 157 159 163 6 Perspectives d’application au contrôle de systèmes dynamiques 165 6.1 Introduction d’une commande prédéterminée . . . . . . . . . . . 165 6.2 Estimation d’un contrôle optimal prédictif . . . . . . . . . . . . . 167 7 Positionnement par rapport aux filtres particulaires 169 7.1 Formalisation de type filtre particulaire de l’algorithme du filtre par convolution avec ré-échantillonnage . . . . . . . . . . . . . . 169 7.2 Filtres particulaires construits à partir d’une approximation de la vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 III Applications 179 8 Applications sur des simulations 8.1 Problèmes de filtrage . . . . . . . . . . . . . . . . . . . . 8.1.1 Système linéaire . . . . . . . . . . . . . . . . . . 8.1.2 Systèmes non linéaires . . . . . . . . . . . . . . . 8.1.3 Choix de l’estimateur de l’état . . . . . . . . . . . 8.1.4 Filtre particulaire avec la vraisemblance estimée . 8.2 Problèmes d’estimation de paramètres en cours de filtrage . 8.2.1 Minimisation stochastique d’une fonction de coût . 8.2.2 Estimateur des moindres carrés conditionnels . . . 8.2.3 Estimateur du maximum de vraisemblance . . . . 8.2.4 Approche bayésienne . . . . . . . . . . . . . . . . 8.3 Conclusion du huitième chapitre . . . . . . . . . . . . . . 181 181 181 183 187 188 189 189 192 197 203 213 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 9 Application à un bio-procédé de dépollution 9.1 Présentation du problème . . . . . . . . . . 9.2 Filtrage du bioprocédé . . . . . . . . . . . 9.2.1 Phase de simulations du bioprocédé 9.2.2 Traitement des données réelles . . . 9.3 Conclusion du neuvième chapitre . . . . . . TABLE DES MATIÈRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 216 220 220 227 237 Conclusion 239 IV Annexes 241 A Eléments de théorie de l’estimation non paramétrique par noyaux de convolution 243 A.1 Estimation de la densité . . . . . . . . . . . . . . . . . . . . . . . 243 A.1.1 Convergences stochastiques . . . . . . . . . . . . . . . . 243 A.1.2 Notations et formalisations . . . . . . . . . . . . . . . . . 244 A.1.3 Quelques résultats de convergences . . . . . . . . . . . . 245 A.2 Estimation de l’espérance . . . . . . . . . . . . . . . . . . . . . . 252 A.2.1 Notations et formalisations . . . . . . . . . . . . . . . . . 253 A.2.2 Quelques résultats de convergence . . . . . . . . . . . . . 253 B Algorithmes B.1 Minimisation Stochastique de Fabian . . . . . . . . . . . . . . B.2 Algorithme du filtre avec sélection . . . . . . . . . . . . . . . . B.3 Algorithme du filtre avec ré-échantillonnage . . . . . . . . . . . B.4 Algorithme de filtrage pour des systèmes dynamiques paramétrés . . . . 257 257 258 259 260 C Présentation des procédés biotechnologiques 263 C.1 Description d’un bioprocédé . . . . . . . . . . . . . . . . . . . . 264 C.2 Modélisation par bilan de matière . . . . . . . . . . . . . . . . . 265 Introduction Les progrès scientifiques permettent de mieux comprendre notre environnement. Ainsi, certaines activités humaines basées sur des principes naturels jusqu’a présent mal compris sont, aujourd’hui, en partie décryptées et les acteurs sont identifiés. Il est donc possible de formaliser et d’optimiser ces activités avec des outils scientifiques. La part de l’empirisme bien que diminuée, joue cependant encore un rôle fondamental dans la formalisation. Une part importante des nombreux phénomènes actuellement modélisés s’exprime sous forme de systèmes dynamiques. La modélisation par système dynamique est quasi transversale à tous les domaines scientifiques : elle s’applique, par exemple, aussi bien au guidage de missile qu’à la croissance de bactéries. Plus simplement, supposons que l’on s’intéresse à l’évolution dans le temps de l’état d’un objet, caractérisé par une ou plusieurs variables. Souvent, la complexité des phénomènes considérés ne permet pas de mesurer directement les valeurs de l’état. Il faut alors se contenter de quantités auxiliaires appelées variables d’observations. Ce contexte définit le domaine d’application du filtrage. Le terme filtrage est intuitif, en effet, les données observées sont filtrées pour extraire de l’information sur l’état. Le cas des bioréacteurs de dépollution, notre objet d’application privilégié, donne une illustration concrète d’un contexte de filtrage. Le bioréacteur fonctionne de la façon suivante : l’eau polluée alimente le réacteur, les bactéries contenues dans le réacteur consomment les polluants pour se développer, tout en dégageant différents gaz. Le réacteur restitue ainsi en sortie de l’eau “propre”. Le filtrage consiste ici à estimer les concentrations de biomasses et polluants, grâce à des quantités mesurables, indirectements liées à ces concentrations, telles que les débits de gaz, le pH du réacteur,. . . . Souvent l’objectif n’est pas seulement de connaître l’état du système mais de contrôler son évolution. Si on revient à l’exemple du missile, atteindre la cible est plus important que de connaître précisément sa position à chaque instant. Pour 10 Introduction le bioreacteur, il est impératif que la concentration de polluants en sortie reste toujours inférieure à une norme européenne. Les estimations des concentrations des biomasses et polluants servent donc à réguler le bioréacteur pour que cette contrainte soit toujours respectée. Les problèmes de filtrage sont donc souvent au centre de procédures de contrôle et d’automatisation de tâches. Cependant ce mémoire se limite à l’étude des filtres. Le domaine du filtrage se divisent en deux grandes catégories : -Les systèmes linéaires, situation la plus simple : Kalman([84]) a construit un algorithme récursif de filtrage qui, lorsque le bruit sur le système est additif et gaussien, fournit la meilleure estimation de l’état, le filtre optimal. Si le bruit n’est pas gaussien, le filtre n’est plus optimal, mais il garde de bonnes propriétés. Il est actuellement, pour cette raison, le filtre le plus utilisé en pratique dans le cas linéaire. -Les systèmes non linéaires constituent le cadre de recherche privilégié en filtrage car il n’existe pas de solution de dimension finie([19]). Ce travail de thèse se situe au coeur de ce contexte. Dans la pratique, les ingénieurs utilisent le filtre de Kalman étendu (FKE), méthode dérivée du cas linéaire. Bien que les résultats obtenus soient généralement satisfaisants, sa justification théorique (Picard[108]) repose sur des hypothèses vérifiées seulement par quelques systèmes particuliers. Mais si le filtre est mal initialisé ou le système fortement non linéaire, la qualité du filtrage en pâtit. De nombreuses variantes du FKE visant à corriger ces défaillances sont apparues, cependant aucune d’elles n’offre de garantie théorique de résultat. Des méthodes basées sur un maillage de l’espace d’état (Kitagawa[87]) ont été développées ; les performances sont globalement satisfaisantes sur des systèmes de petite dimension. Le nombre de points nécessaire à un maillage de qualité constante croît rapidement avec la dimension de l’espace d’état. L’utilisation en ligne de ce type de procédures est donc à proscrire. D’autres approches basées sur les méthodes de Monte Carlo, les filtres particulaires et leurs variantes sont récemment apparues. Elles visent à estimer la distribution du filtre optimal par des particules simulées dont l’évolution est liée aux observations. C’est une approche intéressante car elle s’appuie sur des résultats théoriques (Del Moral[42]) autres que la loi forte des grands nombres. De plus, les performances de ce type d’approche surpassent généralement celles du FKE. Mais elles connaissent aussi quelques défaillances hors de certaines hypothèses, Introduction 11 notamment lorsque le bruit sur le système est trop faible. La piste explorée par cette thèse se classe parmi les méthodes de Monte Carlo puisque les approches proposées s’appuient sur la génération d’un grand nombre de variables aléatoires. Cependant, elles diffèrent des filtres particulaires en plusieurs points. La loi de probabilité du filtre optimal est supposée admettre une densité que l’on cherche à estimer, alors que l’approche usuelle par filtres particulaires estime la mesure associée au filtre optimal. Certes les filtres particulaires régularisés ([104]) fournissent une estimation de la densité mais qui est basée sur une approximation par la mesure empirique de la loi du filtre optimal. Ce principe de régularisation est notamment recommandé pour des problèmes de filtrage mal posés (i.e. rapport signal sur bruit trop petit ou trop grand, cf. Del Moral & Miclo [34]). La différence fondamentale avec les filtres particulaires réside dans le rôle joué par la densité associée au bruit sur le modèle d’observation. En effet, la mise en pratique des filtres particulaires requiert un bruit additif sur le modèle d’observation : ainsi peut-on évaluer la vraisemblance d’une particule et bâtir une mesure empirique. Ces méthodes particulaires sont alors défaillantes si les observations sont faiblement bruitées et deviennent impraticables si les observations ne sont pas bruitées. Pour nos approches, des systèmes de particules complets, c’est-àdire des états et des observations, sont générés pour construire les filtres. Le problème de filtrage peut alors se traiter comme un problème classique de régression. L’avantage principal est de s’autoriser ainsi à filtrer des systèmes dynamiques plus généraux : la faiblesse du bruit sur le système ne dégrade pas la qualité, bien au contraire, et il n’est pas nécessaire de connaître la forme analytique de la vraisemblance des observations. Les systèmes dynamiques, dotés de bruits non additifs, ne posent ainsi aucune difficulté, tant sur plan pratique que théorique. Plus précisément, nos filtres sont basés sur une technique d’estimation fonctionnelle par noyaux de convolution. Depuis un certain nombre d’années, ces outils sont utilisés au Laboratoire d’Analyse des Systèmes et Biométrie, de l’INRA à Montpellier,pour l’étude de systèmes dynamiques incertains, pour leur identification Hilgert & al. ([76]) ou pour leur contrôle Hilgert([75]), Wagner ([127]). Ce mémoire se divise en quatre grandes parties. Les trois premières constituent la thèse proprement dite et la quatrième regroupe les annexes. La première, propose un état de l’art dans le domaine du filtrage. Les approches usuelles sont rapidement présentées dans le premier chapitre, notamment, 12 Introduction les filtres de Kalman et ses dérivés, les approches issues de réseaux de neurones et les méthodes de type Monte Carlo. Le second chapitre est l’occasion de présenter, plus en détail, les filtres les plus courants dont le filtre de Kalman, le FKE, ainsi que les filtres particulaires. La partie se rapportant aux filtres particulaires est la plus détaillée puisque notre approche se classe parmi les méthodes de Monte Carlo. De plus, les résultats de convergence vers le filtre optimal des filtres particulaires les positionnent comme références, en théorie du filtrage non linéaire. La seconde partie rassemble les développements méthodologiques originaux de ce mémoire, pour les problèmes de filtrage non linéaire. Nous présentons tout d’abord, au troisième chapitre, différentes techniques pour estimer la densité du filtre optimal ainsi que les résultats théoriques obtenus. Comme souvent, en pratique, le filtrage consiste à fournir une estimation de la valeur de l’état, et non une densité, nous étudions cet aspect du filtrage au quatrième chapitre. En particulier, nous proposons des techniques d’estimation de l’espérance conditionnelle et du mode conditionnel de l’état. L’étude théorique de ces estimateurs est aussi réalisée. De plus, il est assez courant que les systèmes dynamiques rencontrés en pratique ne soient pas parfaitement connus. Généralement, cette méconnaissance s’exprime sous forme de paramètres inconnus, qu’il est alors important de pouvoir estimer. Le cinquième chapitre porte sur ce délicat problème. Deux types d’approches sont étudiées : une par optimisation d’une fonction, de vraisemblance ou de somme de carrés conditionnels, l’autre par des techniques bayésiennes. Précédemment, il a été mentionné que les problèmes de filtrage sont souvent au coeur d’une procédure de contrôle d’un système dynamique. Dans cette optique, le cas de l’introduction d’une variable de commande dans le système dynamique est envisagé au sixième chapitre. Nous proposons seulement une perspective d’adaptation de nos approches, à la commande de systèmes dynamiques. Aucune étude théorique n’est réalisée pour ce contexte. Enfin, la parenté de nos approches avec les filtres particulaires étant assez forte, nous éclaircissons ce point lors du septième chapitre qui clôt la seconde partie. La troisième partie de la thèse est consacrée aux applications. En premier lieu, dans le huitième chapitre, nos procédures de filtrage sont comparées à celles couramment rencontrées dans la littérature sur différents systèmes dynamiques artificiels. Il ressort que les performances de nos filtres, malgré leurs hypothèses Introduction 13 d’utilisation plus faibles, sont tout à fait comparables à celles des filtres particulaires usuels. Le cas des systèmes dynamiques, avec des paramètres inconnus à estimer, y est aussi considéré. L’approche bayésienne semble très prometteuse, au regard des exemples considérés. Le neuvième chapitre est entièrement dédié à l’application centrale de cette thèse, l’étude d’un bio-réacteur de retraitement d’eaux usées. La principale difficulté est liée aux nombreuses incertitudes sur le système dynamique modélisant ce bioprocédé. De plus s’ajoute, pour le traitement des données expérimentales, le problème de la fiabilité des capteurs. Une présentation détaillée du bio-réacteur de retraitement d’eaux usées est donnée en annexe. 14 Introduction Première partie Etat de l’art Chapitre 1 Un point sur le filtrage non linéaire en temps discret 1.1 Problématique Le thème central de ce mémoire est le filtrage non linéaire en temps discret. Les premiers travaux relatifs à ce domaine sont dus aux ingénieurs. Il existe en effet, de nombreux problèmes pratiques qui relèvent de cette théorie. Notamment, toutes les situations pour lesquelles il est difficile, voire impossible, pour des raisons physiques ou financières, de mesurer l’état d’un système et où il faut alors se contenter de mesurer des quantités auxiliaires. Souvent le filtrage est utilisé à des fins de contrôle dans le but de faire évoluer l’état du système non observé dans le sens que l’on désire. Parmi les nombreux exemples, citons un type de bioprocédés qui nous intéresse plus particulièrement, la dépollution biologique : les variables d’états du système sont les concentrations des polluants (substrats) et des bactéries (biomasses) contenus dans un bioréacteur. Il est impossible de les mesurer sans stopper le bioréacteur. Les variables observées sont par exemple des débits de gaz en sortie du bioréacteur. Le contrôle s’effectue ici sur le débit d’entrée du fluide pollué dans le réacteur, de manière à maintenir la qualité de l’effluent de sortie à un seuil donné et ceci quelles que soient les variations de la charge polluante en entrée. Cette opération est continue dans le temps, mais comme il est souvent d’usage en pratique, le système est discrétisé puisque les mesures ne s’effectuent qu’à intervalles de temps réguliers. Plus généralement, tous les phénomènes physiques, chimiques ou biologiques 18 Filtrage non linéaire en temps discret pouvant être modélisés par un système de la forme (1.1) relèvent de la théorie du filtrage en temps discret.  xt = ft (xt−1 , εt ) (1.1) yt = ht (xt , ηt ) Description des variables : -les xt ∈ IRd sont les variables d’état -les yt ∈ IRq sont les variables observées -les εt sont les bruits du modèle d’état -les ηt sont les bruits du modèle d’observation Les bruits sont indépendants des autres variables, ils servent à modéliser les aléas du système. Comme il a été expliqué précédemment, l’objet du travail est d’estimer les densités conditionnelles des variables d’états non observées, xt , connaissant y1 , · · · , yt les valeurs des variables observées jusqu’à l’instant t. Le problème ne se ramène pas simplement à une inversion des fonctions ht car d’une part, elles ne sont pas toujours injectives et d’autre part, le bruit ηt engendre de l’incertitude. Le fait de considérer toutes les observations du passé permet de mieux prendre en compte l’effet du bruit sur le signal, ce qui idéalement permet d’aboutir à une estimation de xt qui soit la plus vraisemblable étant donné les observations. 1.2 Solution théorique La solution théorique du problème constitue le filtre optimal : la loi conditionnelle de l’état xt sachant toutes les observations jusqu’à l’instant t, y1 , . . . , yt . Mais en pratique, il est souvent intéressant d’estimer la valeur de l’état xt plutôt que toute la loi conditionnelle. L’estimation de l’état dépend alors du critère choisi. Par exemple, pour le critère classique de l’erreur quadratique moyenne l’estimation optimale est l’espérance de xt connaissant (yt , · · · , y1 ) : IE[xt |y1 , · · · , yt ] Dans de nombreux cas, il est suffisant d’estimer seulement l’état. Mais pour les cas plus complexes, où la loi de (xt |y1, · · · , yt ) est multimodale, il est préférable d’estimer la loi p(xt |y1 , · · · , yt ) elle-même. Cependant, la plupart du temps, il faut se contenter d’estimer seulement la moyenne, la variance ou de localiser les modes. Bien entendu, excepté pour quelques cas particuliers développés par la suite, il est 1.3 Solutions actuellement proposées 19 très difficile voire impossible, de déterminer le filtre optimal de manière exacte. De nombreuses méthodes d’approximation de ce filtre utilisant différents outils mathématiques ont émergé. Quelques unes sont évoquées dans les paragraphes suivants. 1.3 Solutions actuellement proposées 1.3.1 Filtre de Kalman Dans le cas où les fonctions f et h sont linéaires et les bruits blancs gaussiens, le problème a été résolu par Kalman[84] en 1960. Il a construit un algorithme itératif, appelé filtre de Kalman, qui à chaque instant t fournit un x̂t minimisant l’erreur quadratique moyenne. L’utilisation de cette méthode s’est donc généralisée, du fait de sa simplicité de mise en oeuvre, de sa très bonne performance et du faible coût en temps de calcul. De plus, en supprimant l’hypothèse de bruit gaussien, tout en restant dans le cadre du système dynamique linéaire, le filtre de Kalman fournit encore l’estimation linéaire de variance minimale de l’état du système, c’est-à-dire, une estimation sous-optimale de IE[xt |y1 , · · · , yt ]. Cette robustesse du filtre de Kalman, par rapport à la nature du bruit, est la principale raison de la généralisation de son emploi en pratique. Cependant, quelques inconvénients demeurent. Il est nécessaire de connaître les variances des bruits blancs et des informations sur x0 pour assurer une bonne initialisation du filtre, car celle-ci joue un rôle important dans la convergence du filtre quand l’état initial n’est qu’approché. Lorsque ces quantités sont totalement ou partiellement inconnues, il est encore possible de les estimer en cours de filtrage. Dans ([21]) on trouvera quelques articles relatifs à ces problèmes. Mais il ne subsiste alors aucun résultat théorique. Il ressort de la pratique de ces méthodes que la convergence est souvent liée à la stabilité du système. 1.3.2 Filtre de Kalman étendu Dans le cas général où les fonctions ft et ht sont non linéaires, l’approche classique de Kalman ne peut plus s’appliquer telle quelle. Comme le filtre de Kalman 20 Filtrage non linéaire en temps discret est optimal pour les systèmes linéaires, il est naturel de linéariser à chaque pas de temps le système (1.1) pour se ramener à un contexte où l’on peut l’utiliser. Cette démarche donne globalement de bons résultats. Elle est donc devenue la méthode la plus couramment utilisée dans la pratique. Dans la littérature, très riche sur ce sujet, elle est connue sous le nom de filtre de Kalman étendu, souvent notée FKE. Quelques résultats fondamentaux sont présentés dans [94] ou [72]. Pour des variantes du FKE, on peut se référer à [21]. Pour utiliser le filtre de Kalman étendu, il est donc nécessaire de rajouter l’hypothèse de dérivabilité sur les fonctions ft et ht du système (1.1). Le premier problème soulevé par cette démarche est le choix du point en lequel s’effectue, à chaque pas de temps, la linéarisation, ce que l’on nomme techniquement la trajectoire nominale. En général ce point correspond à l’estimation obtenue au pas de temps précédent. En pratique, c’est l’unique procédé utilisé par les ingénieurs pour les problèmes non linéaires. Il est rapide et donne de bons résultats pour beaucoup de systèmes. Cependant, s’il y a de fortes non-linéarités ou s’il est mal initialisé, il est mis en défaut. De plus, l’utilisation du filtre de Kalman étendu n’est justifié théoriquement que pour certains cas particuliers ([108]). 1.3.3 Filtre de Kalman étendu dual Il existe aussi des méthodes développées à partir du filtre de Kalman étendu pour le cas où les fonctions ft et ht du modèle dynamique dépendent de paramètres inconnus. Les approches naïves consistant à rajouter les paramètres inconnus comme variables d’états du système entraînent généralement la divergence du filtre. Une autre approche consiste à coupler deux filtres de Kalman étendus, l’un estimant l’état du système et l’autre les paramètres. Cette méthode donne de bons résultats dans des domaines d’application très variés ; pour plus de détails on peut se référer aux travaux de Wan([72],[128]). Bien entendu, comme pour toutes les généralisations du filtre de Kalman, il n’y a pas de résultats théoriques assurant la convergence vers le filtre optimal. Cependant, sous les hypothèses de bruits gaussiens, la phase d’estimation des paramètres revient à maximiser une fonction de vraisemblance conditionnelle marginale de l’état du système. L’estimation peut être alors considérée comme de type maximum de vraisemblance, justifiant ainsi cette approche. 1.3 Solutions actuellement proposées 21 De nombreuses méthodes ont été développées pour concurrencer le filtre de Kalman étendu et ses variantes, sur lesquelles on ne s’étendra pas (cf. Chen[21]). A présent, donnons quelques précisions sur les alternatives à Kalman : les filtres particulaires et les filtres à réseaux de neurones, qui sont à la base de notre approche. 1.3.4 Approches par les méthodes de Monte Carlo Un des objectifs courants du filtrage est la détermination des premiers moments ou des modes de la distribution conditionnelle p(xt |y1, · · · , yt ). La méthode de Monte Carlo pondérée fut l’une des premières méthodes de Monte Carlo utilisées à cet effet. Ces méthodes basées sur des simulations de grandes quantités de variables aléatoires, fournissent une estimation de la mesure associée au filtre optimal. Leur utilisation est justifiée par la loi forte des grands nombres. Les premiers articles relatifs à ce sujet sont assez anciens, ils datent des années 70(Akashi & al.[3], Handschin[71]). Cependant les ordinateurs de l’époque étant relativement peu puissants, la recherche sur ce thème n’a commencé à se développer qu’à partir des années 80 ([26],[87],[43]). Les performances actuelles des microprocesseurs ont favorisé le développement de nombreuses approches dont la plupart sont rassemblées dans Doucet & al.([56]). Nous ne donnons ici qu’une description sommaire des différentes méthodes introduites. Pour plus de détails sur ces méthodes et leurs évolutions, on peut se référer à Oudjane([104]) ou Doucet([59]). Filtres de Monte Carlo Pondérés L’idée de la méthode est d’approcher par simulation la loi conditionnelle conjointe des états. Elle consiste à faire évoluer N trajectoires indépendantes suivant la loi du processus d’état et à les pondérer à chaque instant suivant leurs vraisemblances par rapport à l’observation courante. On en tire ainsi une distribution conditionnelle empirique de l’état. La loi forte des grands nombres, permet de caractériser √ l’erreur commise par rapport à la vraie loi conditionnelle, elle est d’ordre O(1/ N ). Cependant en pratique, cet algorithme n’est pas satisfaisant car on observe une dégénérescence des pondérations dans le temps : toute la masse se regroupe sur une seule particule, entraînant ainsi la divergence du filtre. Des variantes à mémoire limitée ont permis de supprimer ce problème. Un résultat de convergence uniforme vers le filtre optimal a été démontré par Del Moral[39] sous des conditions d’ergodicité du modèle. Il existe aussi des variantes à oubli 22 Filtrage non linéaire en temps discret exponentiel avec des résultats de convergence uniforme sous des conditions plus fortes. Cependant, hors du cadre de leurs hypothèses, ces variantes ne permettent pas d’améliorer les performances du filtre de Monte Carlo pondéré. Ces méthodes ont donc été abandonnées avec l’apparition d’un nouvel outil, les filtres particulaires avec interactions. Ces filtres améliorent l’exploration de l’espace par les particules et ralentissent la dégénérescence des poids en les réinitialisant régulièrement. Ces filtres sont présentés brièvement dans la section suivante. Filtres Particulaires avec interaction Les filtres particulaires avec interactions, constituent la dernière génération des filtres de Monte Carlo. Ils ont été introduits simultanément par Gordon & al.([68]), Kitagawa([88]) et Del Moral & al.([34]) dans le milieu des années 90. La particularité de ces filtres, réside dans le fait que les particules simulées n’évoluent pas indépendamment les unes des autres. En effet, les particules les plus vraisemblables au regard des observations se voient attribuer les poids les plus forts, elles sont donc multipliées en conséquence aux dépens des particules peu vraisemblables. De ce fait, le système de particules se concentre dans les régions intéressantes de l’espace d’état. L’exploration de l’espace est ainsi orientée par les observations. Des résultats de convergence vers le filtre optimal sont obtenus sous des hypothèses assez fortes. Les tentatives visant à affaiblir les hypothèses n’ont pas permis d’obtenir un filtre efficace en temps long. De plus, lorsque le bruit d’état est faible ou nul, les ré-échantillonnages successifs appauvrissent le système des particules ce qui entraîne encore une dégénérescence des particules. Certaines théories heuristiques de bruitage artificiel des particules ont été développées mais aucune méthode systématique n’a émergé. 1.3.5 Approches par réseaux de neurones De nombreux auteurs ont cherché à utiliser cet outil à des fins de filtrage ou contrôle de systèmes non linéaires. De façon générale, il a été démontré ([25],[79]) que les réseaux de neurones à couches possèdent des propriétés d’approximateurs universels : toute fonction régulière à valeurs dans un compact, peut être approchée à un degré de précision fixé par un réseau de neurones de type perceptron multi-couches. Cependant, l’usage des réseaux de neurones soulève trois problèmes majeurs : le choix de l’architecture, le nombre de neurones et l’optimisation des poids du réseau. Pour les deux premiers problèmes, des critères classiques de sélection de 1.3 Solutions actuellement proposées 23 modèles peuvent être utilisés ; pour plus de détails on pourra se référer à [125]. Quant au troisième, les algorithmes de minimisation de type gradient et les méthodes quasi-Newton sont conseillés, mais ils nécessitent de gros temps de calcul. Ceci a causé la disgrâce des réseaux de neurones avant la montée en puissance des microprocesseurs. L’article d’Haykin [73] rassemble et compare les derniers résultats intéressants obtenus en filtrage avec différents types de réseaux de neurones : perceptrons multi-couches, réseaux récurrents et réseaux à bases radiales. Nous donnons cidessous, quelques précisions sur l’utilisation de ces différents types de réseaux pour le filtrage non linéaire. Réseaux de type perceptron Les perceptrons sont les premiers réseaux de neurones apparus : ils sont constitués d’une ou plusieurs couches cachées contenant chacune un certain nombre de neurones. Les flux entrants dans les neurones de la première couche cachée sont des combinaisons linéaires des entrées du réseau. En appliquant à chaque neurone une fonction de transfert de type sigmoïdal sur les flux entrants, nous obtenons les flux sortants. L’opération se répète ainsi d’une couche cachée à l’autre. L’idée d’utiliser un réseau comme filtre fut logiquement mise en avant, notamment par Parisini et Zoppoli [105]. Ils utilisent pour l’apprentissage du réseau une fonction de coût différente à chaque itération, basée sur la connaissance du modèle et des observations. Pour déterminer x̂t le filtre doit prendre en compte y1 , · · · , yt . Le réseau doit donc avoir une entrée de plus à chaque itération. Ceci conduit à un réseau différent avec plus de paramètres à estimer, à chaque itération. Ce procédé n’est donc pas adapté au filtrage en ligne. Parisini et Zoppoli ont contourné le problème (cf. [4]) en considérant un filtre à mémoire tronquée. Le réseau garde alors la même structure, d’une itération à l’autre. Ils ont proposé deux méthodes d’apprentissage du réseau, une en cours de filtrage et l’autre non. Les résultats expérimentaux obtenus sont souvent meilleurs que ceux obtenus par le filtre de Kalman étendu, mais il n’y a pas de résultats théoriques. Réseaux récurrents Réduit à l’estimation d’état, le filtre optimal est l’espérance de l’état connaissant toutes les observations passées. Plutôt que de l’approximer en restreignant la 24 Filtrage non linéaire en temps discret mémoire, il est possible d’utiliser une structure récurrente qui fera par conséquent intervenir toutes les observations du passé. C’est ce qui est fait par Lo[99]. Les réseaux qu’il utilise n’ont qu’une couche cachée mais le flux sortant des neurones au temps (t − 1) est ré-injecté dans le flux entrant des neurones au temps t. Lo a démontré qu’il est possible d’approcher, à une précision fixée, le filtre optimal par un réseau de neurones récurrent, en faisant tendre simultanément l’ensemble d’apprentissage et le nombre de neurones vers l’infini. Pour l’apprentissage des réseaux récurrents, il utilise les méthodes développées dans [130] et [107]. En pratique, cela soulève plusieurs problèmes : comme toujours le choix du nombre de neurones, mais aussi et surtout celui des données pour l’apprentissage, puisqu’en filtrage l’observation de l’état xt du système est a priori difficile ou impossible. Cependant, sur les exemples évoqués dans [99], ces réseaux de neurones récurrents donnent de meilleurs résultats que le filtre de Kalman étendu, et ce, pour des réseaux à peu de neurones, mais avec un très gros ensemble d’apprentissage. Réseaux à bases radiales Une autre famille de réseaux est aussi utilisée à des fins de filtrage, les réseaux à bases radiales. La particularité de ces réseaux est que chaque neurone de la couche cachée est caractérisé par un noyau, fonction à base radiale. Le flux entrant dans un neurone est formé des entrées du réseau. Le flux sortant est la valeur de l’application du noyau sur le flux entrant. La sortie du réseau est une combinaison linéaire de tous les flux sortants. Les paramètres à estimer sont donc les centres des noyaux ainsi que leurs dispersions et les coefficients de la combinaison linéaire. L’ouvrage de Yee [133] donne une idée du champ d’application de ces réseaux ainsi que de leurs bonnes propriétés théoriques. En effet, ils sont asymptotiquement équivalents aux estimateurs à noyau du type Nadaraya-Watson. La démonstration faite dans [133] est basée sur les travaux de Xu [132]. Pour utiliser ces réseaux de façon pratique en filtrage, il faut aussi tronquer la mémoire du filtre, de façon à bénéficier de la même structure de réseau à chaque itération, car le nombre d’entrées est alors constant. Dans ses travaux [133], Yee, compare les performances des réseaux à bases radiales avec celles du filtre de Kalman étendu et des réseaux récurrents de Lo. Les résultats qu’il obtient sont intéressants puisque sur les exemples traités le réseau à bases radiales se comporte mieux que le filtre de Kalman étendu et presque aussi bien que le réseau récurrent. De plus, la taille de l’échantillon d’apprentissage utilisé par Yee est ac- 1.4 Objectifs et pistes explorées 25 ceptable (N = 800) en comparaison de celle de Lo (N = 200000), mais il n’a pas de résultats théoriques. 1.4 Objectifs et pistes explorées L’objectif principal est la mise en place d’une méthode de filtrage, en temps réel, basée sur la connaissance du système dynamique et de données observées y1 , · · · , yt . Dans un premier temps, la construction d’un filtre à l’aide de réseaux de neurones a été envisagée. Les procédures mises en place par Lo([99]) et Yee([133]), n’utilisent pas les fonctions ft et ht (qui caractérisent le modèle) ni les propriétés statistiques des bruits, mais nécessitent des échantillons {(xi , yi), i = 1, · · · , t} de données de taille assez grande, voire très grande pour Lo, ce qui n’est pas réaliste dans de nombreuses situations. L’approche de Parisini et Zoppoli ([105]) est différente. Ils supposent connaître uniquement les fonctions ft et ht , et cherchent un réseau de neurones de type perceptron minimisant une fonction de coût. Cependant ils n’ont aucune garantie qu’un tel réseau soit voisin du filtre optimal. Cette approche utilisant des hypothèses en adéquation avec notre objectif, une technique similaire a donc été envisagée. Les résultats obtenus avec les réseaux de neurones, qu’ils soient de type récurrent ou perceptron, furent toujours bien inférieurs à ceux obtenus par Lo([99]) ou Yee([133]). Par conséquent, les investigations dans cette direction n’ont pas été poursuivies. Ce travail de prospection dans l’univers des réseaux de neurones, s’il n’a pas abouti à la construction d’un réseau capable d’estimer le filtre optimal, nous a permis, en revanche, d’approfondir nos connaissances sur les réseaux de neurones à bases radiales. La manipulation de ces derniers nous a amenés à concevoir le principe des filtres présentés dans cette thèse. Les réseaux à bases radiales récupèrent les bonnes propriétés de l’estimateur à noyau de Nadaraya-Watson mais, comme pour tous les réseaux de neurones, ils nécessitent une phase d’apprentissage. Or, on souhaite obtenir un filtre uniquement à partir du système (1.1), sans base de données d’apprentissage. Un moyen naturel de régler le problème est de générer des données à partir du système (1.1) et de procéder ensuite à l’apprentissage. Mais il demeure alors une autre difficulté, l’apprentissage d’un réseau de neurones est généralement lourd en terme de 26 Filtrage non linéaire en temps discret temps de calcul. Ainsi, pour notre approche du filtrage par réseau à base radiale, les données simulées ne servent pas pour effectuer l’apprentissage, mais sont utilisées comme paramètres du réseau : pour fixer les centres des fonctions de base de chaque neurone. L’avantage de cette méthode est de dispenser de toute optimisation de paramètres et du coup de s’autoriser à filtrer en ligne . Bien entendu, pour obtenir des résultats théoriques, il est nécessaire de simuler un grand nombre de données et de connaître la nature statistique exacte des bruits du système dynamique. Cette démarche fournit une estimation consistante de IE[xt |y1 , · · · , yt ] à l’aide d’une fonction de la forme d’un réseau à bases radiales. La généralisation de ce principe, nous a permis de construire plusieurs filtres pour estimer p(xt |y1 , . . . , yt ). La mise en place de tels filtres relève de deux domaines statistiques : les filtres de Monte Carlo et l’estimation de densité par la méthode du noyau de convolution. En pratique, des particules sont générées de manière semblable à celle des filtres de type Monte Carlo, sauf qu’une particule n’est pas seulement une succession, au cours du temps, d’états x̃t mais une succession, au cours du temps, de couples états-observations (x̃t , ỹt ). De plus, aucune pondération n’est directement affectée à ces couples de particules qui constituent un maillage naturel de l’espace. Pour obtenir les estimations de IE[xt |y1 , · · · , yt ] ou de p(xt |y1 , · · · , yt ) il suffit d’appliquer un noyau de convolution sur les variables observées y1 , · · · , yt par rapport à ce maillage. Cette approche connaît bien sûr les mêmes problèmes que le filtre de Monte Carlo pondéré : lorsque le temps t augmente, la dimension de l’espace augmente aussi. Comme le nombre de particules ( ou le nombre de noeuds de la maille ) est constant il est tout à fait possible qu’aucune des particules simulées ne soit “proche” du véritable état, ce qui entraîne inévitablement la divergence du filtre. Heureusement, certaines variantes, comparables aux variantes des filtres de Monte Carlo, permettent d’éviter cette situation délicate. L’étude de ces différentes variantes, pour le filtre par noyau de convolution, ainsi que leurs propriétés théoriques, la convergence vers le filtre optimal et sa vitesse, constitue la part principale de l’apport méthodologique de cette thèse. Les autres aspects méthodologiques portent sur le problème de l’introduction, dans le système dynamique, de paramètres inconnus θ à estimer. Enfin, sur un plan pratique, l’objectif visé est l’application des techniques de filtrage, développées durant cette thèse, au modèle d’un bioréacteur de retraitement d’eaux usées. Chapitre 2 Filtres usuels La première partie de ce chapitre est bien sûr consacrée au filtre de Kalman ([84]), puisque cette méthode est la référence pour les systèmes dynamiques linéaires. Ce filtre sera utile par la suite pour évaluer les performances de nos différentes approches. Il est démontré qu’il est impossible d’avoir une solution de dimension finie ([19]) aux problèmes de filtrage non linéaire. Les méthodes développées pour résoudre ces problèmes sont donc approximatives. Leurs qualités théoriques sont alors liées à leur convergence asymptotique vers le filtre optimal. Bien qu’il ne bénéficie pas de résultats théoriques, le filtre de Kalman étendu (FKE) est couramment employé par les ingénieurs pour le traitement de systèmes dynamiques non linéaires, ce qui en fait l’approche de référence pour ces systèmes. La seconde partie de ce chapitre lui est logiquement consacrée. L’objectif de toute nouvelle méthode de filtrage non linéaire est donc d’avoir en pratique un comportement supérieur à celui du FKE. Le comportement imparfait du FKE a engendré un grand nombre de variantes plus ou moins robustes. Tout comme le FKE, ces variantes ne reposent sur aucun résultat théorique. La littérature disponible sur ce sujet est très vaste, [83], [72] ou [21] en fournissent un bon aperçu. Les parties suivantes de ce chapitre sont consacrées aux filtres particulaires. Bien que ces filtres ne soient pas encore très répandus chez les ingénieurs, leur apport à la théorie du filtrage est incontestable. En effet, il n’existe pas d’autre méthode dotée de résultats de convergence, utilisables en ligne. Cependant, le comportement en pratique n’est pas toujours très bon. Les causes sont identifiées et comme pour le FKE un certain nombre de variantes ont émergé. Leur 28 Filtres usuels comportement en pratique est sensiblement supérieur à celui des premiers filtres particulaires. Ceci est en particulier vérifié pour les filtres bootstrap([67]), les filtres particulaires avec interaction([39]) ou les filtres particulaires régularisés ([104],[95],[102],[129],[81]) qui font l’objet des dernières parties du chapitre. 2.1 Filtre de Kalman Soit le système linéaire suivant, cas particulier du système (1.1) :  xt = Ft−1 xt−1 + ct−1 + Gt−1 εt−1 yt = Ht xt + dt + ηt où : - Ft , ct , Gt , Ht , dt sont des coefficients déterministes, à valeurs respectivement dans IRd×d , IRd , IRd×k , IRq×d , IRq - Les bruits blancs εt et ηt sont gaussiens, à valeurs respectivement dans IRk et IRq , avec Qt et Rt comme matrices de covariances. De plus, ils sont mutuellement indépendants et indépendants de l’état initial du système x0 . - x0 est gaussien de moyenne x¯0 et de covariances Q0 . Le contexte du système linéaire avec des bruits additifs gaussiens permet de construire le filtre optimal à chaque instant. En effet, le caractère linéaire conserve la nature gaussienne du bruit, la distribution de xt |y1, · · · , yt est donc gaussienne. Il est ainsi facile de calculer x̂t = IE[xt |y1 , · · · , yt ], l’estimateur généralement utilisé en pratique. x̂t et sa matrice de covariances Pt sont alors déterminées par les équations récurrentes suivantes : Conditions initiales du filtre  x̂0 = x¯0 P0 = Q0 Etape de prédiction  − x̂t = Ft−1 x̂t−1 + ct−1 ′ Pt− = Ft−1 Pt−1 Ft−1 + Gt−1 Qt−1 G′t−1 Etape de correction  − −  x̂t = x̂t + Kt [yt − (Ht x̂t + dt )] P = [I − Kn Ht ]Pt−  t Kt = Pt− Ht′ [Ht Pt− Ht′ + Rt ]−1 2.2 Filtre de Kalman étendu 29 Le terme Kt est appelé gain de Kalman. Les suites des covariances {Pt } et des gains {Kt } étant indépendantes des observations il est donc possible de les pré-calculer, le temps de calcul durant le filtrage en sera diminué. 2.2 Filtre de Kalman étendu A présent considérons un système dynamique non-linéaire, autre cas particulier de (1.1) :  xt+1 = ft (xt ) + gt (xt )Wt yt = ht (xt ) + ηt Les fonctions ft et ht sont supposées dérivables. On se ramène au contexte précédent en linéarisant les équations du système. Pour cela, on se donne une suite {x̄t } appelée trajectoire nominale. Puis on effectue les approximations : ft (x) ≃ ft (x̄t ) + ∇ft (x̄t )(x − x̄t ) gt (x) ≃ gt (x̄t ) ht (x) ≃ ht (x̄t ) + ∇ht (x̄t )(x − x̄t ) Remarque : Pour le choix de x̄t , il est préférable de prendre un estimateur de xt , en général on utilise x bt , l’estimation obtenue à l’instant t. A partir des approximations précédentes et en posant Ft ct Gt Ht dt = = = = = ∇ft (x̄t ) ft (x̄t ) − Ft x̄t gt (x̄t ) ∇ht (x̄t ) ht (x̄t ) − Ht x̄t nous obtenons une approximation du système non linéaire précédent par le système linéaire suivant  xt+1 = Ft xt + ct + Gt Wt yt = Ht xt + dt + ηt Il est maintenant possible d’appliquer le filtre de Kalman standard à ce système linéaire. C’est l’unique procédé utilisé en pratique par les ingénieurs pour les problèmes non linéaires. Il est rapide et donne de bons résultats pour beaucoup de systèmes 30 Filtres usuels non linéaires. Cependant s’il y a de fortes non-linéarités ou s’il est mal initialisé, il est mis en défaut. L’utilisation du filtre de Kalman étendu n’est justifié théoriquement que pour certains cas particuliers (Picard [108]). 2.3 Filtres de Monte Carlo classiques Le principe de base des filtres de Monte Carlo est présenté dans cette partie. Comme toute méthode de Monte Carlo, ces filtres s’appuient sur un grand nombre de simulations. Dans le cas du filtrage, les quantités simulées sont des particules émulant une trajectoire possible du système dynamique. C’est pourquoi les filtres de Monte Carlo sont souvent appelés filtres particulaires. Une étude détaillée des filtres particulaires simples et des filtres particulaires avec interaction est réalisée dans Oudjane([104]), Del Moral & Miclo([34]), Del Moral([28]) ou encore Doucet & al.([56]). Les résultats de convergence et de stabilité que nous évoquons, dans la suite, y sont notamment démontrés. Les filtres particulaires ou filtres de Monte Carlo sont basés sur les procédures SIS :“Sequential Importance Sampling” (filtre particulaire simple) et SIS-R : “Sequential Importance Sampling-Resampling” (filtre particulaire avec interaction). Un état de l’art des méthodes de filtrage basées sur ces deux procédures est réalisé par Doucet([58]). Liu & Chen ([97]) effectuent le même travail de synthèse de l’emploi de ces deux procédures mais dans le cadre d’une étude générale des systèmes dynamiques. Ces approches considèrent le problème du filtrage d’un point de vue plus probabiliste. Dans cette optique, le filtre optimal est la loi de probabilité de l’état xt conditionnée par les observations, i.e. p(xt |y1 , · · · , yt ). Le problème est alors d’estimer cette loi. A cette fin, des trajectoires d’état sont générées suivant le système dynamique, à partir desquelles une mesure empirique est construite en s’appuyant sur les observations y1 , · · · , yt . Généralement, la loi forte des grands nombres assure la convergence de cette mesure empirique vers la mesure associée à xt |y1 , · · · , yt . Le filtre de Monte Carlo pondéré est la première approche de Monte Carlo utilisée pour le filtrage non linéaire. Dès les années 70, l’idée de faire évoluer N trajectoires indépendantes suivant le processus d’état et de les pondérer à chaque instant t par leurs vraisemblances calculées pour l’observation yt , est exposée dans plusieurs articles. Les capacités de calcul des ordinateurs étant alors très limitées, ces approches ne furent pas développées. A partir des années 80, l’évolution rapide de l’informatique a donné un regain 2.3 Filtres de Monte Carlo classiques 31 d’intérêt à ces méthodes. En effet la convergence étant asymptotique, il faut générer un grand nombre de trajectoires pour avoir une estimation de qualité. Cependant, les filtres de Monte Carlo pondérés ont montré quelques défaillances en temps long. Par exemple, il est assez courant que, parmi toutes les trajectoires simulées, une seule hérite de tout le poids attribué par la vraisemblance en l’observation. Cette dégénérescence des poids entraîne inévitablement la divergence du filtre. Toutefois l’étude de ce filtre est très intéressante car elle introduit de manière naturelle le principe de base des filtres particulaires. Ces filtres de Monte Carlo pondérés classiques ont été améliorés pour obtenir les filtres particulaires avec interaction. Ces derniers diffèrent essentiellement, de leurs prédécesseurs, par la nature de l’évolution des trajectoires. Elles n’évoluent plus indépendamment les unes des autres, mais subissent une sélection : certaines se reproduisent et d’autres meurent. L’esprit de cette approche s’apparente aux algorithmes génétiques (Cf. Cerf[16], Del Moral & Miclo[35] ou Holland[77]) qui sont des procédures d’optimisation calquées sur l’évolution des gènes lors de la sélection naturelle des espèces. Dans cette partie du chapitre, quelques uns des principaux filtres particulaires sont détaillés. La présentation débute par les plus anciens, qui sont d’ailleurs les plus simples, et se termine par les plus récents, les filtres avec interaction. Au préalable, pour simplifier la description de ces filtres, certaines notations souvent employées par les auteurs de ce domaine seront introduites. La procédure “Sequential Importance Sampling” ou, en français, “tirage séquentiel suivant une fonction d’importance” étant le coeur de tous les filtres de Monte Carlo simples, est rappelée en premier lieu. 2.3.1 Procédure “Sequential Importance Sampling” (SIS) ou “ Importance Sampling” (IS) pour le filtrage La procédure “ Importance Sampling” est couramment utilisée pour améliorer la qualité des estimations d’intégrales par les méthodes de Monte Carlo. La démarche est naturelle. Elle consiste simplement à donner plus d’importance aux points les plus cruciaux. Cette procédure souvent désignée par “Bayesian Importance Sampling” dans la littérature, possède de bonnes propriétés théoriques puisqu’elle est asymptotiquement sans biais et vérifie le théorème central limite. La procédure “Sequential Importance Sampling” est l’adaptation de l’“Importance Sampling” (IS) au problème du filtrage. 32 Filtres usuels Avant d’exposer la procédure SIS, rappelons le principe du tirage suivant une fonction d’importance (IS). Ainsi, l’ordre chronologique d’introduction des différentes approches est respecté et l’introduction de SIS sera alors plus naturelle. Pour une présentation plus détaillée de ces méthodes originelles, on pourra se reporter par exemple à Doucet([58] ou [59]). Les développements suivants en sont largement inspirés. Le tirage suivant une fonction d’importance est une des méthodes classiques de Monte Carlo pour les chaînes de Markov cachées. Rappelons tout d’abord le principe des procédures de Monte Carlo pour l’estimation d’espérance. Le contexte d’application est tout à fait en adéquation avec notre cadre de travail : - Le signal non observé est un processus markovien (xt , t ∈ IN) de distribution initiale π0 et de probabilité de transition p(xt |xt−1 ) connue. - Les observations (yt , t ∈ IN), sont indépendantes conditionnellement aux xt avec comme distribution p(yt |xt ) connue. Soit f une fonction intégrable par rapport à la loi p(x0:t |y0:t ). Son espérance est notée Z I(f ) = Ep(x0:t |y0:t ) (f (x0:t )) = f (x0:t )p(x0:t |y0:t )dx0:t Pour estimer I(f ) par l’approche classique de Monte Carlo, il suffit de générer N trajectoires x̃i0:t , i = 1, . . . , N suivant la loi p(x0:t |y0:t ). Ces trajectoires permettent alors de calculer une mesure empirique de p(x0:t |y0:t) : N 1 X pb (x0:t |y0:t ) = δi N i=1 x̃0:t N Il est alors possible d’estimer I(f ) : N 1 X ¯ IN (f ) = f (x̃i0:t ) N i=1 et par la loi forte des grands nombres lim I¯N (f ) = I(f ) ps. N →∞ Cette méthode d’estimation est tout à fait satisfaisante du point de vue théorique. Elle bénéficie d’un théorème de limite centrale. Cependant un problème se 2.3 Filtres de Monte Carlo classiques 33 pose en pratique. Dans la plupart des cas, il est impossible de générer des trajectoires suivant p(x0:t |y0:t ) à chaque instant t, car la loi a posteriori p(x0:t |y0:t ) est connue à un coefficient de normalisation près. Le tirage suivant une fonction d’importance (IS) est la solution alternative à ce problème. Puisqu’il n’est pas possible de générer directement des trajectoires suivant p(x0:t |y0:t ), il suffit de les générer suivant une autre loi πimp (x0:t |y0:t ), la fonction d’importance. La seule contrainte pour le choix de πimp est : p(x0:t |y0:t ) > 0 ⇒ πimp (x0:t |y0:t ) > 0. Sous cette condition, l’espérance de f s’écrit : I(f ) = Ep(x0:t |y0:t ) (f (x0:t )) = Z f (x0:t )p(x0:t |y0:t )dx0:t = Z f (x0:t ) p(x0:t |y0:t) πimp (x0:t |y0:t )dx0:t πimp (x0:t |y0:t ) = Z f (x0:t ) p(y0:t |x0:t )p(x0:t ) πimp (x0:t |y0:t)dx0:t p(y0:t)πimp (x0:t |y0:t) = Eπimp [f (.)w(.)] Eπimp w(.) avec w(x0:t ) = p(y0:t |x0:t )p(x0:t )/πimp (x0:t |y0:t ). Pour estimer I(f ), il suffit de générer N trajectoires x̃i0:t , i = 1, . . . , N suivant la loi d’importance πimp (x0:t |y0:t ), de les pondérer à l’aide de w puis de normaliser ces poids : PN 1 i i i=1 f (x̃0:t )w N IbN (f ) = P N 1 i i=1 w N = avec pour les poids d’importance : p(y0:t |x̃i0:t )p(x̃i0:t ) w̃ = πimp (x̃i0:t |y0:t) i et PN i=1 i f (x̃i0:t )ŵ i i ŵ = w / N X j=1 wj pour i = 1, . . . , N. 34 Filtres usuels L’estimation IbN (f ) de I(f ), bien que biaisée, est, elle aussi, consistante par la loi forte des grands nombres (Geweke[64]). Dans la littérature statistique, cette procédure est généralement dénommée “Bayesian importance sampling”. La procédure SIS est simplement la généralisation séquentielle de la procédure IS présentée ci-dessus. La mise en oeuvre est simple, il faut tout d’abord choisir le nombre de particules N et la probabilité qui va jouer le rôle de la fonction d’importance : πimp (x0:t |y0:t). Puis, il suffit d’appliquer l’algorithme suivant, d’après Doucet[58] : - Initialisation au temps t = 0 Génération de N particules x̃i0 ∼ πimp (x0 |y0 ), i = 1, · · · , N Pondération des particules w0i = Normalisation des poids w̃0i p(y0 |x̃i0 )p(x̃i0 ) πimp (x̃i0 |y0) w0i = PN (j) j=1 w0 - Pour les instants t ≥ 1 Evolution des N particules x̃it ∼ πimp (x̃t |x̃i0:t−1 , y0:t) où x̃i0:t = (x̃i0:t−1 , x̃it ) i Pondération des particules wti = wt−1 p(yt |x̃it )p(x̃it |x̃it−1 ) πimp (x̃it |x̃i0:t−1 , y0:t ) wi Normalisation des poids w̃ti = PN t (j) j=1 wt A chaque instant t, il est ainsi possible d’estimer la mesure de probabilité mt des états sachant les observations, (x0:t |y0:t ) : mN t = N X i=1 w̃ti δx̃i0:t 2.3 Filtres de Monte Carlo classiques 35 Les filtres particulaires que nous présentons dans la suite, excepté les filtres avec interaction, sont des cas particuliers de cet algorithme général. Le grand avantage de cet algorithme est qu’il est parallélisable, donc un important gain de temps est potentiellement envisageable. Les performances de ce filtre ne sont toutefois pas très bonnes. En effet, la convergence en fonction du nombre de particules N est assez lente et dépend de l’instant t. Des précisions seront données lors des descriptions des filtres particulaires. De plus en pratique, il diverge souvent et le choix de la fonction d’importance est fondamental pour sa performance. Remarque : Le problème du choix de la fonction d’importance a été étudié de manière à empêcher la divergence de l’algorithme : Doucet([58]) détaille le problème. La divergence de l’algorithme est la conséquence de l’annulation progressive des poids de toutes les particules excepté d’une seule qui récupère tout le poids de la mesure. Une première tentative pour empêcher cette divergence a consisté à contrôler la variance des poids. Mais Kong & al. ([92]) ont montré que la variance des poids ne peut que croître (stochastiquement) avec le temps. La divergence de cet algorithme est donc inévitable. Toutefois, pour retarder la divergence on peut choisir la fonction d’importance qui minimise la variance des poids. Il faut alors prendre (cf. [59]) πimp (xt |x̃i0:t−1 , y0:t ) = p(xt |x̃it−1 , yt). Cette fonction d’importance n’est pas calculable analytiquement en général mais on peut toujours l’approximer par des méthodes de Monte Carlo. Elle est notamment utilisée dans ([43],[92]). L’étape de pondération de l’algorithme devient alors : i wti = wt−1 p(yt |x̃it−1 ). A présent, avant de décrire plus en détail les filtres particulaires usuels, introduisons les notations souvent employées par les auteurs de ce domaine. 2.3.2 Notations et objets utilisés en théorie du filtrage particulaire Dans cette partie, sont seulement évoqués, les objets mathématiques à la base de cette approche. La présentation s’appuie sur le travail de Bartoli et Del Moral ([6]), auquel on peut se référer pour de plus amples détails. Soit une suite de variables aléatoires, X = {Xn ; n ∈ IN}, à valeurs dans un espace mesurable (E, E). Définition 2.3.1 (Noyau markovien) Une transition markovienne ou un noyau 36 Filtres usuels de Markov sur E est une famille de probabilités {Q(x, .) mesure de probabilité sur E; x ∈ E} indexée par les points de E, telle que pour tout A ∈ E, l’application x 7→ Q(x, A) soit mesurable. Transposons à la suite X : pour toute valeur Xn−1 = x, la probabilité de transition Qn (x, .) caractérise les transitions possibles de l’état Xn−1 vers un nouvel état Xn : Qn (x, dy) = P (Xn ∈ dy|Xn−1 = x) où dy voisinage infinitésimal de y ∈ E. La définition suivante est importante, car l’hypothèse de mélangeance intervient dans de nombreux résultats de convergence des filtres particulaires. Définition 2.3.2 (Noyau mélangeant) Le noyau positif Q défini sur E est dit mélangeant, s’il existe une constante 0 < c ≤ 1 (constante de mélange) et une mesure positive non nulle λ telles que 1 cλ(A) ≤ Q(x, A) ≤ λ(A) c pour tout x ∈ E, et tout A ∈ E. Définition 2.3.3 (Chaîne de Markov) Soit Ω = E IN = E × E × · · · , alors la suite X = {Xn ; n ∈ IN} définie sur (Ω, E, Pµ ) telle que Z Pµ (X0 ∈ A0 , . . . , Xn ∈ An ) = ··· x0 ∈A0 Z µ(dx0 )Q1 (x0 , dx1 ) · · · Qn (xn−1 , dxn ) xn ∈An est une chaîne de Markov à valeurs dans E, de loi initiale µ et de transition {Qn ; n > 0}. De plus, lorsque les transitions de probabilité ne dépendent pas de n, la chaîne de Markov X est homogène. 2.3 Filtres de Monte Carlo classiques 37 Formalisation du système dynamique Soient (E, E) et (F, F ) deux espaces mesurables. On suppose que le couple signal-observation (X, Y ) = {(Xt , Yt ); t ∈ IN} est une chaîne de Markov sur E × F de loi initiale µ0 et de transition de probabilité {Mt ; t ∈ IN∗ }, toutes deux définies par  µ0 d(x0 , y0 ) = g0 (x0 , y0 )ν0 (dx0 )γ0 (dy0 )  Mt (xt−1 , yt−1 ), d(xt , yt ) = gt (xt , yt)Qt (xt−1 , dxt )γt (dyt ) avec -γt , respectivement νt , t ∈ IN une suite de mesures de probabilité sur F , respectivement E. -gt , t ∈ IN, une suite de fonctions mesurables positives sur E × F -Qt , t ∈ IN∗ , est un noyau markovien sur E. Plus précisément, le processus d’état du système dynamique, X = {Xt ; t ∈ IN} est une chaîne de Markov inhomogène avec {Qt ; t ∈ IN∗ } comme noyau de transition. c’est-à-dire : P (Xt ∈ dx|Xt−1 = xt−1 , . . . , X0 = x0 ) = P (Xt ∈ dx|Xt−1 = xt−1 ) = Qt (xt−1 , dx). Si l’on note X0:t = (X0 , · · · , Xt ) et ν0:t sa distribution de probabilité alors on a P (X0:t ∈ dx0:t ) = ν0:t (dx0:t ) = ν0 (dx0 )Q1 (x0 , dx1 ) · · · Qt (xt−1 , dxt ) La distribution des observations Yt conditionnellement à l’état Xt s’écrit alors P (Yt ∈ dy|Xt = x) = gt (x, y)γt (dy) Dans la suite pour simplifier les expressions on considère la fonction de vraisemblance marginale définie pour tout x ∈ E : Ψt (x) = gt (x, Yt ). Les observations {Yt ; t ∈ IN∗ } étant indépendantes conditionnellement aux variables d’état {Xt ; t ∈ IN∗ }, la distribution de Y1:t = (Y1 , · · · , Yt ) conditionnée par X1:t , s’écrit comme le produit des vraisemblances marginales : P (Y1:t ∈ dy1:t |X1:t ) = t Y i=1 Ψi (xi )γi (dyi ) 38 Filtres usuels Le filtre optimal, i.e. la loi conditionnelle de l’état Xt sachant les observations du passé Y1:t , est noté πt (dx) = P (Xt ∈ dx|Y1:t ) t ∈ IN∗ avec π0 (= ν0 ) la distribution de l’état initial X0 . 2.3.3 Distances utilisées pour évaluer les filtres Diverses métriques sont considérées car le problème du contrôle de l’erreur des filtres varie de l’une à l’autre. Oudjane([104]) en donne un développement complet. Les filtres particulaires fournissant une approximation de la mesure associée au filtre optimal, il est nécessaire de considérer les distances sur les ensembles de mesures. Bien que certaines des distances évoquées soient définies sur des domaines plus vastes, l’étude est restreinte à M(E), l’ensemble des mesures positives sur l’ensemble E. Définition 2.3.4 (Distance moyenne faible) Df (µ, µ′) = sup IE| < µ − µ′ , φ > | kφk=1 pour toutes mesures µ, µ′ ∈ M(E), éventuellement aléatoires. Où la fonction φ R est mesurable sur E, normée à 1 et le produit scalaire < µ, φ >= φdµ. Définition 2.3.5 (Variation totale) kµ − µ′ k = 2 sup |µ(A) − µ′ (A)| A pour toutes mesures µ, µ′ ∈ M(E) où A est un borélien de E. Définition 2.3.6 (Taux de contraction sous la variation totale) Soit Q un noyau markovien défini sur E. Le taux de contraction de Q pour la variation totale est kQµ − Qµ′ k β(Q) = sup kµ − µ′ k µ,µ′ ∈M Cette quantité β(Q) s’appelle aussi coefficient de Dobrushin est vérifie β(Q) ∈ [0, 1] (cf. Bartoli & Del Moral [6]). 2.3 Filtres de Monte Carlo classiques 39 Proposition 2.3.1 (contraction de l’erreur) Pour toutes mesures de probabilité µ, µ′ ∈ M(E) et pour toute fonction Ψ positive et bornée sur E alors kQµ − Qµ′ k ≤ β(Q)kµ − µ′ k kΨ · µ − Ψ · µ′ k ≤ min{γ, γ ′}kµ − µ′ k avec γ= kΨk < µ, Ψ > et γ= kΨk < µ′ , Ψ > Où Ψ · µ désigne le produit projectif entre la fonction Ψ et la mesure µ définit par (Ψ · µ)(dx) = Ψ(x)µ(dx) Ψ(x)µ(dx) =R < µ, Ψ > Ψ(x)µ(dx) Démonstration : Une démonstration de la première inégalité est proposée dans Oudjane([104]) p40. Une démonstration de la seconde inégalité est obtenue par Hürzeler([80]) p99-100. Remarque : Sous les hypothèses de mélangeance de la définition 2.3.2, on a β(Q) ≤ 1 − c (cf. Del Moral & al.[30] ou Del Moral[28]). 2.3.4 Filtre de Monte Carlo pondéré Le filtre de Monte Carlo pondéré est un cas particulier de l’algorithme SIS avec pour fonction d’importance πimp = Qt . Ce choix est naturel, puisque les particules sont ainsi générées suivant la dynamique du système. De plus, la phase de pondération de l’algorithme est simplifiée. Mais cette fonction d’importance a un défaut : les particules sont générées sans prendre en compte les observations y1:t . La loi de l’état initial, supposée connue, est notée π0 : X0 ∼ π0 . L’objectif est encore d’estimer la mesure πt , le filtre optimal πt (dx) = P (Xt ∈ dx|y1 , · · · , yt ). L’étape initiale consiste à générer N particules, (x̃10 , · · · , x̃N 0 ) i.i.d. ∼ π0 . Avec ces N particules, on peut calculer une estimation de π0 : π0N = N X i=1 ω0i δx̃i0 avec ω0i = 1 , i = 1, · · · , N N 40 Filtres usuels A présent, il possible d’entamer la procédure récursive du filtre de Monte Carlo pondéré. On la décrit pour un instant t > 0 quelconque : (i) Evolution de chacune des particules suivant le noyau markovien : pour chaque i on génère x̃it ∼ Qt (x̃it−1 , .). On considère à présent la nouvelle particule x̃i0:t = (x̃i0:t−1 , x̃it ), qui est la concaténation de tous les états successifs de la iéme trajectoire. (ii) Correction des poids associés aux particules suivant leurs vraisemblances respectives : i Ψt (x̃it )ωt−1 ωti = PN i i i=1 Ψt (x̃t )ωt−1 On obtient ainsi les approximations N π0:t = N X ωti δx̃i0:t et πtN = N X ωti δx̃it i=1 i=1 Le schéma suivant synthétise bien les deux étapes de la procédure récursive : πtN = N X i=1 évolution ωti δx̃it −−−−→ Qt (.,.) N πt+1|t = N X i=1 correction ωtiδx̃it+1 −−−−−→ Ψt (.) N πt+1 = N X i ωt+1 δx̃it+1 i=1 L’évolution du filtre d’un temps à l’autre est donc régie par l’opérateur linéaire Rt = Ψt Qt défini sur M(E). Ainsi πt = Rt (πt−1 ) et en généralisant l’expression, πt = Rt:1 π0 . Avant de préciser les propriétés du filtre de Monte Carlo pondéré, il reste une dernière notion à introduire : le coefficient de transport de l’erreur. Ce coefficient est souvent utilisé pour caractériser les majorants de l’erreur des filtres de Monte Carlo. Le coefficient de transport de l’erreur supx∈E Ψt (x) < Qt πt−1 , Ψt > R où le produit scalaire < Qt πt−1 , Ψt >= E Ψt (x)(Qt πt−1 )(dx). Par extension, le produit γ̄t · · · γ̄1 est noté γ̄t:1 . γ̄t = 2.3 Filtres de Monte Carlo classiques 41 Ce coefficient caractérise l’apport de l’observation sur la mesure prédictive. Globalement, γ̄t est grand lorsque l’observation yt modifie sensiblement la prédiction πt|t−1 . Propriétés du filtre de Monte Carlo pondéré Une majoration de l’erreur selon la distance moyenne faible de l’estimation de π0:t , la loi de toute la trajectoire (X0 , . . . , Xt |y1 , . . . , yt ), est obtenue en appliquant la loi des grands nombres : Théorème 2.3.1   γ̄t:1 N sup IE | < π0:t − π0:t , φ > ||Y1:t ≤ 2 √ N kφk=1 Démonstration : Voir ([104] p79) Il existe d’autres résultats, de convergence, intéressants dans la littérature, par exemple : Del Moral([41]) pour la première preuve en norme L2 , Del Moral([38]) ou Del Moral & Miclo([34]) pour les normes Lp , . . . L’avantage de cette approche est que la qualité de l’approximation n’est pas liée à la dimension de l’espace d’état ni à la nature des non linéarités du système. Il suffit d’être capable de générer et de faire évoluer des particules. Le temps requis pour cette tâche peut être plus ou moins important suivant la dimension ou la complexité du système. Mais il reste toujours très raisonnable pour les ordinateurs actuels. Cependant, en pratique, cet algorithme fonctionne très mal : plus ou moins rapidement, toute la masse se regroupe sur une seule particule, provoquant ainsi la dégénérescence des pondérations. La conséquence directe est donc la divergence du filtre. De plus, toutes les particules possédant des poids quasi nuls continuent à évoluer et donc à gaspiller du temps de calcul. Ce problème s’explique bien d’un point de vue théorique ; la borne du théorème 2.3.1 peut croître très vite dans le temps pour un nombre N de particules fixé. L’approximation n’est donc pas uniforme en temps. Pour contourner cette difficulté, plusieurs variantes du filtre de Monte Carlo pondéré ont été introduites. La première consiste à limiter la mémoire du filtre. Ainsi les particules ayant un poids quasi nul en début de filtrage ne sont plus condamnées à garder un poids insignifiant à tous les instants successifs. Une autre va- 42 Filtres usuels riante, moins brutale, consiste à oublier progressivement le passé : plus une observation est ancienne, moins elle a d’influence sur les poids des particules. Ces deux approches sont rapidement exposées dans les parties suivantes. 2.3.5 Filtre de Monte Carlo à mémoire limitée L’idée est simple, on utilise uniquement les T observations les plus récentes pour estimer le filtre optimal. On s’intéresse alors à la loi de xt |yt , · · · , yt−T . C’est une idée assez ancienne, elle est apparue avec les extensions du filtre de Kalman ([83]) pour stabiliser le filtre lorsque le système est mal connu. Le filtre limité aux T dernières observations se note  P [Xt ∈ dx|Y1:t ] si t ≤ T πt,T (dx) = P [Xt ∈ dx|Yt−T :t ] sinon N Le filtre de Monte Carlo à mémoire limitée à T observations se note πt,T , il est construit à l’aide de l’algorithme suivant : L’initialisation est identique à celle du filtre de Monte Carlo à mémoire complète : Génération de N particules : (x̃10 , · · · , x̃N 0 ) i.i.d. ∼ π0 Calcul du filtre : N π0,T = N X avec ω0i = ω0i δx̃i0 i=1 1 , N i = 1, · · · , N (i) Evolution x̃it ∼ Qt (x̃it−1 , .). (ii) Correction : i Ψt (x̃it )ωt−1 ωti = PN i i i=1 Ψt (x̃t )ωt−1 Ψt (x̃it ) ωi Ψt−T (x̃it−T ) t−1 ωti = PN si t ≤ T, Ψt (x̃it ) i i=1 Ψt−T (x̃it−T ) ωt−1 ainsi on obtient N πt,T = N X i=1 ωti δx̃it sinon 2.3 Filtres de Monte Carlo classiques 43 Propriétés du filtre de Monte Carlo à mémoire limitée P. Del Moral a montré, sous des conditions d’ergodicité, un résultat de convergence uniforme en temps du filtre de Monte Carlo à mémoire limitée vers le filtre optimal. Le théorème suivant précise ce résultat. Théorème 2.3.2 On suppose le système homogène avec un bruit additif sur les observations : à chaque instant t, le noyau de transition Qt = Q, la fonction d’observation ht = h et les bruits Vt sur les observations sont identiquement distribués. Supposons de plus que les deux conditions suivantes soient vérifiées : (i) Le noyau de transition Q possède une unique mesure invariante µ telle que pour toute fonction φ mesurable bornée sur E (espace des états), et toute mesure de probabilité ν sur P(E), limt→∞ | < Qt ν − µ, φ > | = 0 et limt→∞ sup < µ, Φt >= 0 où Φt (x) = | < Qt δx − µ, φ > | pour tout x ∈ E. (ii) La fonction d’observation h est telle que supt≥0 IE[h(Xt ) − IE[h(Xt )]]2 < ∞, i.e.V ar(h(Xt )) < ∞ Alors il existe une fonction croissante T : IN → IN telle que N lim sup IE| < πt,T (N ) − πt , φ > | = 0 N →∞ t≥0 Démonstration : La démonstration est l’objet de l’article (Del Moral [39]). La limitation de la mémoire assure une plus grande stabilité au filtre, mais en dehors du cadre des hypothèses fortes du théorème, les performances demeurent insuffisantes. 2.3.6 Filtre de Monte Carlo à oubli exponentiel Comme pour le filtre à mémoire limitée, l’idée de réduire progressivement l’influence des anciennes observations date des extensions du filtre de Kalman ([83]). Cette fois la mémoire du filtre n’est pas tronquée brutalement mais la part des anciennes observations dans la vraisemblance est écrasée progressivement. L’implémentation est tout à fait similaire à celle du filtre de Monte Carlo pondéré, 44 Filtres usuels excepté l’introduction du coefficient d’oubli α ∈ [0; 1] dans l’étape de correction : (i) Evolution : x̃it ∼ Qt (x̃it−1 , .). (ii) Correction : ainsi on obtient i Ψt (x̃it )(ωt−1 )α ωti = PN i i α i=1 Ψt (x̃t )(ωt−1 ) πtα,N = N X ∀ i ωti δx̃it i=1 De cette manière, plus le facteur d’oubli α est proche de un, moins la mémoire est écrasée. Réciproquement, plus α est proche de zéro, plus la mémoire est écrasée. Propriétés du filtre de Monte Carlo à oubli exponentiel Tout d’abord nous donnons un résultat général pour, πtα , le filtre à oubli exponentiel sans approximation particulaire. Il assure, sous de fortes conditions, la convergence uniforme vers le filtre optimal lorsque α → 1, c’est-à-dire lorsque la mémoire augmente. Théorème 2.3.3 Si pour tout entier t ≥ 1 il existe - Deux constantes 0 < mt < Mt telles que pour tout x̃ ∈ E : mt ≤ Ψt (x̃) ≤ Mt . Soit γ̃t = Mt /mt - Une constante de mélange εt ≥ ε > 0 et une mesure positive λt telles que pour tout x̃ ∈ E : εt λt ≤ Qt (x̃, .) ≤ ε1t λt . (i.e. le noyau de transition du système dynamique est mélangeant) - Une constante C > 0 telle que IE[log γ̃t ] ≤ C Alors pour tout facteur d’oubli 0 ≤ α ≤ 1, on a IEkπtα − πt k ≤ 2C(1 − α) log(3)ε4 2.4 Filtres avec interaction 45 Démonstration : La démonstration du théorème, basée sur des techniques hilbertiennes, repose fortement sur les hypothèses de mélange et de vraisemblance bornée strictement positive (voir [104] p87-88). Pour l’approximation particulaire, le corollaire suivant en découle. Afin de caractériser la convergence en fonction du nombre de particules, α est défini comme une fonction de N telle que limN →∞ α(N) = 1. Corollaire 2.3.3.1 Sous les mêmes hypothèses que celles du théorème précédent on a α(N ),N sup IE| < πt kφk=1 avec α(N) = 1 − − πt , φ > | ≤ √  1  4C 2 + 8C + 1/4 4 N log N log(3)ε √ 1 log N Démonstration : Une démonstration est donnée dans [104] p88-90. Comme pour le filtre à mémoire limitée le comportement n’est pas satisfaisant lorsque le système dynamique ne vérifie pas les hypothèses du théorème. D’une manière générale, les filtres de Monte Carlo pondérés, à mémoire limitée ou oubli progressif sont victimes du défaut de la fonction d’importance πimp = Qt : les particules sont générées à partir du système dynamique sans tenir compte des observations. Il est donc peu probable qu’elles explorent la zone intéressante de l’espace. Les filtres particulaires avec interaction ont donc été introduits afin de régler ce problème. 2.4 Filtres avec interaction La principale innovation des filtres avec interaction est que l’étape d’évolution des particules va se faire en tenant compte des observations. Dès 1993, Gordon & al. ([68]) proposent de prendre en compte les observations lors de la phase d’évolution des particules, suivant la procédure SIR : “sampling importance resampling”. Le filtre ainsi obtenu, nommé “bootstrap filter”, surpasse largement le FKE. Le “bootstrap filter” rencontrant les mêmes défaillances que les filtres de Monte Carlo, Gordon propose une version robustifiée empiriquement ([67]). Dans le même temps, Kitagawa([88]) proposa un “Monte Carlo filter” basé aussi sur la procédure SIR. Les résultats obtenus sur divers exemples furent très 46 Filtres usuels encourageants et confirmèrent notamment la supériorité de cette approche sur le FKE. Cependant, pour tous les filtres évoqués ci-dessus, les particules ne sont plus générées de manière indépendante. Il n’est plus possible d’utiliser directement la loi forte des grands nombres pour obtenir des propriétés théoriques. Mais parallèlement à ces travaux, Del Moral ([44],[43],[42]) proposa le filtre particulaire avec interaction, également basé sur le SIR, plus riche en résultats théoriques : pour l’étude de sa convergence on peut se référer à Del Moral([41]), LeGland & Oudjane([95]), pour la démonstration du théorème central limite à Del Moral & Guionnet ([36]) ou Del Moral & al. ([32]) et enfin pour l’étude des grandes déviations à Del Moral & Guionnet ([37]). Del Moral a, de plus, réalisé des extensions de ces travaux au cas où l’observation est en temps continu. Mais ceux-ci sortent du cadre de cette thèse. Pour une étude complète des méthodes particulaires, dans un contexte plus large que le filtrage, on peut consulter Del Moral([28]) ou Del Moral & Miclo([34]). Avant de présenter le filtre particulaire avec interaction, il apparaît intéressant de développer la procédure SIS-R qui, de par son caractère général, englobe la plupart des filtres par interaction de la littérature. 2.4.1 Procédure SIS-R ou “Sampling Importance Resampling” pour le filtrage La mise en oeuvre est semblable au filtre SIS, mis à part l’ajout d’une étape de “bootstrap” avant l’évolution vers l’instant suivant. Il faut à nouveau choisir le nombre de particules N et la loi de probabilité qui va jouer le rôle de la fonction d’importance : πimp (x0:t |y0:t ). On applique ensuite l’algorithme suivant : - Initialisation au temps t = 0 2.4 Filtres avec interaction 47 Génération de N particules x̃i0 ∼ πimp (x0 |y0), i = 1, · · · , N Pondération des particules w0i = p(y0 |x̃i0 )p(x̃i0 ) πimp (x̃i0 |y0 ) wi Normalisation des poids w̃0i = PN 0 j=1 w0j - Pour les instants t ≥ 1 - Etape SIS : Evolution des N particules x̃it ∼ πimp (xt |x̃i0:t−1 , y0:t ) et x̃i0:t = (x̃i0:t−1 , x̃it ) Pondération des particules wti = i wt−1 p(yt |x̃it )p(x̃it |x̃it−1 ) πimp (x̃it |x̃i0:t−1 , y0:t ) wi Normalisation des poids w̃ti = PN t j j=1 wt Estimation de la mesure de probabilité mt de (x0:t |y0:t ) PN i mN t = i=1 w̃t δx̃i0:t - Etape Ré-échantillonnage : Génération de N trajectoires x̃i0:t ∼ mN t Cet algorithme réduit les problèmes de dégénérescence rencontrés par l’algorithme SIS, mais en contrepartie, il soulève plusieurs problèmes. Du point de vue pratique, les calculs ne sont plus parallélisables et, du point de vue théorique, les particules générées ne sont plus indépendantes après l’étape de rééchantillonnage. Cependant Berzuini & al. ([13]) ont établi un théorème centrale limite pour la procédure SIS-R lorsque l’étape de ré-échantillonnage est effectuée à chaque instant. 48 Filtres usuels Remarques : Il existe de nombreuses variantes (Pitt & Shephard [109], Crisan & al.[24]). Parfois, certaines n’effectuent pas systématiquement l’étape de rééchantillonnage car celle-ci cause une perte de diversité temporaire au sein des particules. Plusieurs travaux concernent le nombre N de particules à utiliser, par exemple Doucet([58]), Liu et Chen([97]). En effet, l’étape de ré-échantillonnage permet de changer le nombre de particules d’une étape à l’autre. Un critère indicateur du niveau de dégénérescence, introduit par Kong & al.([92]) et Liu ([96]), permet de le déterminer. Le caractère sélectif de certaines étapes de l’algorithme SIS-R, rappelle le principe des algorithmes de minimisation tels que les algorithmes génétiques ou de recuit simulé. L’étude d’objets mathématiques plus généraux, comme les processus d’évolution, permet de caractériser ce lien. Quelques précisions, sur ce sujet, sont données dans la partie suivante. 2.4.2 Arbres généalogiques et processus d’evolution Tout au long de ce mémoire, nous concentrons notre étude sur l’estimation de l’état du système à l’instant courant. Cependant, comme nous l’évoquerons par la suite, il est possible de s’intéresser à tous les états de l’instant initial jusqu’à l’instant présent, et ainsi considérer des trajectoires. Dans ce cadre, les particules deviennent des processus dont l’évolution est régie par un principe de mutation/sélection. Le problème peut alors être formalisé par un arbre généalogique représentant l’évolution ancestrale des particules. Cette formalisation est exposée en détail par Del Moral([28, 29]). Son principal intérêt est de donner un cadre théorique unifié à de nombreuses techniques d’estimation, souvent empiriques, issues de domaines variés : physique biologie, mathématique,. . . La grande variété des champs d’application provient du fait qu’une large gamme de problèmes peut s’interpréter en terme de modèle d’évolution. Sur le plan statistique, le mécanisme au coeur du processus d’évolution : mutation/sélection, s’assimile à une technique de simulation de type acceptation/rejet, voir Del Moral & Doucet[31]) pour une étude récente de cet aspect. Pour plus de détails, sur tous les domaines d’application, la bibliographie et les résultats asymptotiques de cette généralisation des approches particulaires aux processus d’évolution, on peut consulter Del Moral([28]). 2.4 Filtres avec interaction 49 Après cet aperçu du caractère général des approches particulaires, nous retournons vers le problème particulier du filtrage non linéaire. Nous poursuivons la présentation des filtres usuels, par le filtre particulaire avec interaction qui fut l’un des premiers filtres avec ré-échantillonnage à avoir été proposé. 2.4.3 Filtre Particulaire avec interaction Le filtre particulaire avec interaction introduit par Del Moral([44]) est aussi un cas particulier de l’algorithme SIS-R avec, comme fonction d’importance, πimp = Qt . C’est la même fonction d’importance que les filtres de Monte Carlo classiques, mais sa spécificité est de faire interagir les particules entre elles lors de l’étape d’évolution. Cette famille de filtres est actuellement une des plus performantes en matière d’estimation de la mesure associée au filtre optimal. Comme nous l’avons expliqué précédemment pour le cas général du filtre SIS-R, l’évolution des particules au temps suivant est soumise à un critère de sélection : les particules les plus vraisemblables au regard des observations ont une forte probabilité d’évoluer et, bien sûr, les moins vraisemblables risquent de disparaître. Afin d’éviter que le nombre de particules diminue, une particule peut ici avoir plusieurs descendants. C’est en général le cas pour les plus vraisemblables. Ainsi au cours du temps, les particules se positionnent naturellement dans la partie intéressante de l’espace. Le phénomène de sélection décrit ci-dessus se ramène en pratique à une phase d’échantillonnage avant la phase d’évolution : L’initialisation est identique à celle du filtre de Monte Carlo à mémoire complète : Génération de N particules (x̃10 , · · · , x̃N 0 ) i.i.d. ∼ π0 Calcul du filtre π0N = N X i=1 ω0i δx̃i0 avec ω0i = 1 , i = 1, · · · , N N 50 Filtres usuels (i) N Echantillonnage : on génère (x̃1t−1 , · · · , x̃N t−1 ) ∼ πt−1 . (ii) Evolution des particules : x̃it|t−1 ∼ Qt (x̃it−1 , .) (iii) Pondération des particules : ωti Ψt (x̃it|t−1 ) = PN i=1 Ψt (x̃it|t−1 ) on obtient ainsi l’approximation du filtre optimal πtN = N X ωti δx̃it|t−1 i=1 Comme pour les filtres précédents, la représentation sous forme de schéma synthétise bien le principe de la procédure récursive : πtN = N X i=1 bootstrap ωti δx̃it|t−1 −−−−−→ πtN N N X 1 X évolution 1 δ i −−−−→ δi N i=1 x̃t Qt (.,.) N i=1 x̃t+1|t N N X 1 X pondération N i −−−−−→ πt+1 = ωt+1 δx̃it+1|t δi N i=1 x̃t+1|t Ψt+1(.) i=1 Le premier résultat de convergence de cet algorithme a été obtenu par Del Moral ([41]). Nous donnons dans le théorème suivant les premières majorations obtenues dans la littérature Théorème 2.4.1 Si pour tout t ≥ 1, supx∈E Ψt (x) = Mt < ∞ alors sup IE[| < πt − kφk=1 πtN , φ t 1 X t+1−k 2 βt:k+1 γ̄t:k > ||Y1:t ] ≤ √ N k=1 et si de plus, pour tout entier t ≥ 1, 0 < mt = inf x∈E < Qt (x, .), Ψt > alors les deux inégalités suivantes sont satisfaites : sup IE[| < πt − kφk=1 πtN , φ sup IE[| < πt − kφk=1 t 2 X > ||Y1:t ] ≤ √ βt:k+1 γt:k N k=1 πtN , φ t Cp X γt:k > | |Y1:t ] ≤ √ N k=1 p 1 p 2.4 Filtres avec interaction 51 Qt Qt où γk = Mk /mk , γt:k = l=k βl , βk = β(Qk ) est le taux l=k γl , βt:k = de contraction du noyau Qk sous la variation totale (voir Def 2.3.6) et Cp =  1/p p 2 √1π 8 2 Γ( p+1 ) . En rajoutant l’hypothèse : pour tout entier k ≥ 1, il existe 2 une constante de domination ck et une mesure de probabilité νk ∈ P(E) telle que Qk (x, .) ≤ ck νk , on a l’inégalité suivante : sup IE[| < πt − kφk=1 πtN , φ t 2γt 4 X √ √ + βt:k+1 γ̄t:k γk−1ck > ||Y1:t] ≤ N N k=2 Des résultats avec des bornes plus fines et de convergence uniforme dans le temps sont présentés dans Del Moral([28]), Del Moral & Miclo([34]). Ils ne sont pas retranscrits ici, car cela nécessiterait l’introduction d’un certain nombre de notions, qui ne sont pas nécessaires aux développements méthodologiques de cette thèse. Cependant, afin de donner une intuition de l’amélioration de la vitesse sous l’hypothèse de mélangeance, on peut remarquer que tous les coefficients βl vérifiraient alors une condition du type βl < 1 − ǫ avec ǫ ∈]0, 1[. Ainsi, la tendance “explosive” des coefficients γt:k serait compensée par les βt:k . Ce filtre se comporte mieux que les variantes du filtre de Monte Carlo pondéré, mais il connaît les mêmes difficultés. Dans les situations, où le bruit sur les observations est faible ou absent et où le bruit sur le modèle d’état est faible, il diverge aussi. Cette divergence du filtre est encore due à la dégénérescence des particules. Le ré-échantillonnage systématique à chaque instant semble parfois favoriser la dégénérescence. Pour améliorer le comportement du filtre, certains auteurs (voir par exemple Kong & al. [92]) ont proposé des méthodes avec échantillonnage périodique. Cependant, malgré leurs résultats théoriques, aucune de ces méthodes ne semble s’imposer, le comportement du filtre demeurant imparfait. Selon certains auteurs dont Oudjane([104]), le caractère discret du filtre est un facteur déterminant dans ce phénomène de divergence. D’autres approches estimant la densité du filtre optimal, et non sa mesure, ont donc été proposées : une étape de régularisation est ajoutée dans l’algorithme. Cette régularisation consiste à construire une estimation de la densité à partir de l’approximation discrète de la mesure. Le caractère diffus de la densité assure une plus grande diversité de particules et ainsi réduit les risques de divergence. La régularisation peut se faire de plusieurs manières différentes ; deux sont détaillées dans la partie suivante. 52 Filtres usuels 2.5 Filtres particulaires régularisés L’intérêt pratique de la régularisation évoqué ci-dessus peut se caractériser du point de vue théorique. Lorsque le modèle dynamique est mal posé, c’est à dire lorsque le rapport signal sur bruit est soit très grand, soit très petit, les filtres particulaires sont en difficulté (cf. Del Moral & Miclo[34]). Pour contourner ce problème, il est possible de travailler sur le même modèle en modifiant simplement l’amplitude des bruits. Bien que l’on commette une erreur en ne travaillant pas sur le bon système, si le système est suffisamment stable (cf. Del Moral & Miclo[34]), on obtient encore des estimations convergentes. Une telle modification, de l’amplitude des bruits, revient à régulariser les mesures empiriques produites par les filtres particulaires usuels. La régularisation des mesures empiriques peut être effectuée à l’aide de noyaux de convolution. Ce type d’approche à des fins de filtrage est utilisé par Warnes([129]), Hürzeler & Künsch ([81]), Musso & al.([102]), LeGland & Oudjane ([95]) ou encore Oudjane([104]). L’apport d’Oudjane en la matière étant conséquent, une large part de cette section est inspirée de ses travaux. La première partie du troisième chapitre étant consacrée à l’estimation fonctionnelle par noyaux de convolution, on pourra s’y reporter par avance pour obtenir des précisions sur les objets considérés dans la section suivante. Détaillons seulement les notations introduites. Soient K le noyau de convolution, K : IRd → IR : x = (x1 , · · · , xd ) 7→ K(x), h le facteur de dispersion ou la “fenêtre” du noyau, α = (α1 , · · · , αd ) ∈ INd , et Di f = ∂f /∂xi la ième dérivée partielle d’une fonction f de IRd : Kh (x) |α| α! xα Dαf . = = = = = 1/hK(x/h) α1 + · · · + αd α1 ! · · · αd ! xα1 1 · · · xαd d D1α1 · · · Ddαd f W 2,1 est l’espace de Sobolev des fonctions mesurables sur IRd dont les dérivées jusqu’à l’ordre 2 sont dans L1 , et enfin πtN,h est le filtre particulaire régularisé avec le noyau Kh . Le filtre particulaire avec interaction est au coeur de cette approche. Pour ga- 2.5 Filtres particulaires régularisés 53 rantir une plus grande diversité des particules, Oudjane([104]) propose de remplacer l’étape “bootstrap” par une étape de simulation à partir d’une densité. Cette densité est la régularisation par convolution de l’approximation de la mesure du filtre optimal. Il est possible de régulariser l’approximation de la mesure du filtre optimal à deux étapes de l’algorithme : avant ou après l’étape de correction. Nous décrivons dans ce qui suit la mise en place de ces deux approches. 2.5.1 Filtre particulaire pré-régularisé Le filtre particulaire pré-régularisé repose sur une régularisation de la mesure N,h empirique avant la correction des pondérations des particules. Le passage de πt−1 à πtN,h se résume en quatre étapes synthétisées par le schéma suivant : N,h Echantillonnage πt−1 −−−−−−−−−→ N N 1 X 1 X Prédiction N,h δ i −−−−−→ πt|t−1 = δi Qt N i=1 x̃t−1 N i=1 x̃t|t−1 Régularisation Correction Kh Ψt N,h N,h N,h N,h −−−−−−→ πtN,h = Ψt · νt|t−1 −−−−−−−→ νt|t−1 = Kh ∗ πt|t−1 πt|t−1 L’avantage de cette approche est que la fonction de vraisemblance s’applique à N,h tout le support de νt|t−1 . En contrepartie la phase d’échantillonnage est très lourde à mettre en oeuvre. Il faut avoir recours à des procédures du type acceptation-rejet, ce qui augmente considérablement le temps de calcul. Les résultats suivants donnent un aperçu des propriétés théoriques du filtre pré-régularisé. Ils sont tirés de Oudjane([104]) ou LeGland & Oudjane([95]). Les deux théorèmes suivants assurent la convergence faible : Théorème 2.5.1 Si pour tout k = 1, · · · , t : - La vraisemblance moyenne définie comme < Qk (x, .), Ψk > est bornée inférieurement, et la vraisemblance est bornée supérieurement : il existe mk > 0 et Mk < ∞ tels que mk = inf x∈E < Qk (x, .), Ψk > et Mk = supx∈E Ψk (x). Soit γk = Mk /mk et γn:m = γn γn+1 · · · γm - Pour tout x ∈ E, Qk (x, .) est absolument continue par rapport à la mesure de Lebesgue, avec comme densité qk (x, .) ∈ W 2,1 , vérifiant |qk (x, .)|2,1 ≤ Dk RP α 2 1/2 avec Dk constante positive et |qk (x, .)|2,1 = ( . |α|=2 |D qk (x, u)| du) 54 Filtres usuels Alors sup IE[| < πt − kφk=1 πtN,h , φ t 1 X βk+1:t γk:t > ||Y1:t ] ≤ 2[h a2 Dmax + √ ] N k=1 2 avec Dmax = maxk=1,··· ,t {Dk } et a2 = 2 max|α|=2 R IRd |xα |K(x)dx Le théorème suivant donne un résultat plus fort sous une hypothèse de domination du noyau de transition Qk , Théorème 2.5.2 Si pour tout k = 1, · · · , t : - La vraisemblance moyenne est bornée inférieurement, et la vraisemblance est bornée supérieurement : il existe mk > 0 et Mk < ∞ tels que mk = inf x∈E < Qk (x, .), Ψk > et Mk = supx∈E Ψk (x). Soit γk = Mk /mk et γn:m = γn γn+1 · · · γm - Le noyau de transition Qk (x, .) est dominé : il existe une constante ck et une mesure de probabilité νk telles que Qk (x, .) ≤ ck νk . - Le filtre optimal prédictif πk|k−1 est absolument continu par rapport à la mesure de Lebesgue, avec comme densité fk|k−1 ∈ W 2,1 , vérifiant |fk|k−1|2,1 ≤ Dk avec Dk variable aléatoire positive mesurable par rapport à la σ−algèbre engendrée par Y1:k−1. Alors sup IE[| < πt − kφk=1 πtN,h , φ t+1 2 X > ||Y1:t ] ≤ 2[h a2 Dmax + √ ] βk+1:t γ̄k:tγk−1ck N k=2 2 Le théorème suivant montre un résultat de convergence en variation totale pour le filtre pré-régularisé. Les hypothèses font intervenir la notion de classe d’un noyau, la définition précise de cette notion est donnée dans la première partie du chapitre 3. A titre indicatif, les noyaux de convolution courants, tels que le noyau gaussien ou d’Epanechnikof sont de classe 2. Théorème 2.5.3 Soit K un noyau de régularisation de classe 2. Si pour tout k = 1, · · · , t : 2.5 Filtres particulaires régularisés 55 - Le filtre optimal prédictif πk|k−1 est absolument continu par rapport à la mesure de Lebesgue, avec comme densité fk|k−1 ∈ W 2,1 , vérifiant |fk|k−1|2,1 ≤ Dk avec Dk variable aléatoire positive mesurable par rapport à la σ−algèbre engendrée par Y1:k−1 . - Pour tout x ∈ E, Ik = supx∈E Alors - Si K ∈ L2 et IE[kπt − IRd IRd |ud+1 |Qk (x, u)du < ∞ |xd+1 |K 2 (x)dx < ∞ : 1/2 πtN,h k|Y1:t ] - Si K ∈ Lp et (IE[kπt − R R R IRd 2 ≤ [h a2 Dmax + 2 d/2 t (1 + Imax )kKk2 X √ Ad ] βk:t γ̄k:t Nhd k=1 |xd+1 |K(x)dx < ∞ : πtN,h kp |Y1:t ])1/p t 1/2 (1 + Imax )kKkp X ] βk:t γ̄k:t ≤ 2[h a2 Dmax + Cp,d √ N 1/4 hd(p−1)/(2p) k=1 2 avec Imax = max1≤k≤t Ik , Ad constante uniquement dépendante de N et Cp,d = 1/(2p)  p/2 p+1 (d+3)/2 8√ Ad Γ( 2 ) 2 π √ Le terme en 1/ N 1/4 hd(p−1)/(2p) dans la borne supérieure ci-dessus, résulte de l’utilisation des résultats de Holmström & Klemelä [78]. 2.5.2 Filtre particulaire post-régularisé Le filtre particulaire post-régularisé repose sur une régularisation de la mesure N,h empirique après la correction des pondérations des particules. Le passage de πt−1 à πtN,h se résume en quatre étapes synthétisées par le schéma suivant : Echantillonnage N,h πt−1 −−−−−−−−−→ N N 1 X 1 X Prédiction N,h = δx̃it−1 −−−−−→ πt|t−1 δi Qt N i=1 N i=1 x̃t|t−1 Correction Régularisation Ψt Kh N,h N,h −−−−−−−→ πtN,h = Kh ∗ π̃tN,h −−−−−−→ π̃tN,h = Ψt · πt|t−1 πt|t−1 L’inconvénient de cette approche est que la fonction de vraisemblance ne s’applique uniquement qu’aux N particules. En contrepartie la phase d’échantillonnage est plus rapide. En effet, l’estimation s’obtient à partir d’un mélange 56 Filtres usuels de noyaux. Elle est donc facilement simulable, lors de l’échantillonnage au pas suivant. Comme pour le filtre pré-régularisé, les résultats théoriques suivants sur le filtre post-régularisé sont tirés de Oudjane([104]) ou LeGland & Oudjane([95]). Des résultats analogues, au cas précédent, ont été obtenus. Les deux théorèmes suivants sont donc relatifs à la convergence faible : Théorème 2.5.4 Si pour tout k = 1, · · · , t : - La vraisemblance moyenne est bornée inférieurement, et la vraisemblance est bornée supérieurement : il existe mk > 0 et Mk < ∞ tels que mk = inf x∈E < Qk (x, .), Ψk > et Mk = supx∈E Ψk (x). Soit γk = Mk /mk et γn:m = γn γn+1 · · · γm - Pour tout x ∈ E, Q(x, .) est absolument continue par rapport à la mesure de Lebesgue, avec comme densité qk (x, .) ∈ W 2,1 , vérifiant kqk (x, .)k2,1 ≤ Dk avec Dk constante positive. - Mk′ = max{kΨk k, 2 Mk′ /mk et γ̄ ′ = Mk′ /m̄k . Pk i=1 kDi Ψk k, Pk i,j=1 kDi Dj Ψk k} < ∞, soit γ ′ = Alors sup IE[| < πt − kφk=1 πtN,h , φ t 2 X ′ > ||Y1:t] ≤ 2[h a2 Dmax + √ ] βk+1:t γk:n N k=1 2 avec Dmax = maxk=1,··· ,t {Dk } et a2 = 2 max|α|=2 Théorème 2.5.5 Si pour tout k = 1, · · · , t : R IRd |xα |K(x)dx - La vraisemblance moyenne est bornée inférieurement, et la vraisemblance est bornée supérieurement il existe mk > 0 et Mk < ∞ tels que mk = inf x∈E < Qk (x, .), Ψk > et Mk = supx∈E Ψk (x). Soit γk = Mk /mk et γn:m = γn γn+1 · · · γm - Le noyau de transition Qk (x, .) est dominé : il existe une constante ck et une mesure de probabilité νk telles que Qk (x, .) ≤ ck νk . 2.5 Filtres particulaires régularisés 57 - πk est absolument continue par rapport à la mesure de Lebesgue, avec comme densité fk ∈ W 2,1 , vérifiant kfk k2,1 ≤ Dk , avec Dk variable aléatoire positive mesurable par rapport à la σ−algèbre engendrée par Y1:k−1. Alors sup IE[| < πt − kφk=1 πtN,h , φ t+1 2 X > ||Y1:t ] ≤ 2[h a2 Dmax + √ ] βk+1:t γ̄k:n γk−1ck N k=2 2 Comme pour le filtre pré-régularisé, le cas de la convergence en variation totale a aussi été étudié : Théorème 2.5.6 Soit K un noyau de régularisation d’ordre 2. Si pour tout k = 1, · · · , t : - La vraisemblance moyenne est bornée inférieurement, et la vraisemblance est bornée supérieurement : il existe mk > 0 et Mk < ∞ tels que mk = inf x∈E < Qk (x, .), Ψk > et Mk = supx∈E Ψk (x). Soit γk = Mk /mk et γn:m = γn γn+1 · · · γm - πk est absolument continue par rapport à la mesure de Lebesgue, avec comme densité fk ∈ W 2,1 , vérifiant kfk k2,1 ≤ Dk , avec Dk variable aléatoire positive mesurable par rapport à la σ−algèbre engendrée par Y1:k−1. - Pour tout x ∈ E, Ik = supx∈E Alors - Si K ∈ L2 et R IRd IE[kπt −πtN,h k|Y1:t] Si K ∈ Lp et R R |ud+1 |Qk (x, u)du < ∞ |xd+1 |K 2 (x)dx < ∞ : 1/2 2 ≤ [h a2 Dmax +2 IRd IRd (d+1)/2 t (1 + Imax )kKk2 X √ βk:t γ̄k:t γmax Ad ] Nhd k=1 |xd+1 |K(x)dx < ∞ : t 1/2 X ′ (1 + Imax )kKkp √ (IE[kπt −πt N, hkp |Y1:t])1/p ≤ 2[h2 a2 Dmax +2γmax Cp,d βk:t γ̄k:t ] N 1/4 hd(p−1)/(2p) k=1 avec Imax = max1≤k≤t Ik , γmax = max1≤k≤t γk , Ad constante uniquement dépen1/(2p) √  p/2 ′ ) Ad dante de N et Cp,d = 2(d/2+1) 3 8√π Γ( p+1 2 58 Filtres usuels Remarque : Oudjane([104]) et LeGLand & Oudjane([95]) ont aussi étudié le cas où le noyau d’évolution du filtre optimal est mélangeant. Ils obtiennent des résultats de convergence uniforme. 2.6 Conclusion du deuxième chapitre Dans ce chapitre, les différentes approches utilisées pour les problèmes de filtrage ont été présentées. Hors du contexte des systèmes dynamiques linéaires où le filtre de Kalman est la solution du problème, il n’est pas possible de calculer exactement le filtre optimal. Le recours aux approximations est donc inévitable pour le problème général du filtrage non linéaire. La première approximation introduite est le filtre de Kalman étendu qui peut fonctionner correctement ou tout aussi bien diverger. Comme il ne s’appuie sur aucun résultat théorique, il n’y a aucune garantie de comportement. Les nombreuses variantes du filtres de Kalman étendu (cf. Chen [21]), visant à stabiliser son comportement, n’ont pas été présentées ici, car elles aussi ne possèdent pas de support théorique et ne sont d’aucun intérêt pour notre approche. Parmi les autres approximations du filtre optimal, les filtres de Monte Carlo ou filtres particulaires tiennent une place importante. Ces méthodes ont été présentées de manière détaillée pour plusieurs raisons. D’une part, elles conjuguent propriétés théoriques et bonnes performances en pratique et, d’autre part, notre approche est bâtie suivant le même principe d’approximation par simulation. Cependant, ces filtres particulaires ont quelques faiblesses. Pour les filtres classiques, tels que le filtre de Monte Carlo pondéré ou tous les filtres issus de la procédure SIS, pour un nombre de particules constant dans le temps, il est quasiment inévitable d’observer la divergence du filtre en temps long. Les filtres de deuxième génération issus de la procédure SIS-R, tels que le filtre particulaire avec interaction, réduisent ce problème de divergence mais ne le corrigent pas complètement, surtout pour les systèmes faiblement bruités. Le phénomène de divergence étant attribué au caractère discret des approximations fournies par les filtres, la dernière amélioration des filtres consiste alors à régulariser la mesure empirique obtenue. La dégénérescence des particules est ainsi évitée, puisque les étapes d’échantillonnage s’effectuent sur des densités. Les filtres particulaires régularisés constituent donc les filtres particulaires les plus performants. Malgré tout, comme leurs prédécesseurs ils sont sensibles à la faiblesse du bruit. Pour le cas extrême, où l’observation n’est pas bruitée aucun des 2.6 Conclusion du deuxième chapitre 59 filtres particulaires ne peut être rigoureusement calculé. Notre approche, présentée dans le chapitre suivant, est le prolongement naturel de cette idée de régularisation. Plutôt que de passer par des mesures discrètes, nous proposons de travailler directement sur des densités. Les problèmes liés au caractère discret des mesures sont ainsi naturellement éludés et de plus, il est possible de filtrer, en toute rigueur, des systèmes dynamiques dont les observations ne sont pas bruitées. Mais l’avantage essentiel de notre approche est d’affaiblir les hypothèses de mise en oeuvre. En effet, pour tous les filtres particulaires, il est nécessaire de connaître la forme analytique de la vraisemblance des observations alors que, pour nos approches, il est seulement nécessaire de pouvoir générer des observations selon une loi donnée. 60 Filtres usuels Deuxième partie Utilisation des noyaux de convolution en filtrage particulaire Chapitre 3 Estimation de la densité du filtre optimal pour un système dynamique non linéaire L’objectif du filtrage est d’estimer la densité conditionnelle de l’état sachant les observations, c’est à dire la densité de xt |yt , · · · , y1 . Les nouveaux filtres que nous proposons s’appuient sur des estimateurs à noyaux. En effet, selon la théorie de l’estimation fonctionnelle, en convoluant des noyaux à des mesures empiriques, il est possible d’estimer de manière convergente des densités de probabilité. Dans un premier temps, les objets fondamentaux de l’estimation fonctionnelle sont donc introduits, leurs propriétés théoriques utiles à nos approches sont données dans l’annexe A.1. Puis, dans le reste du chapitre, sont présentés les différents filtres que nous avons construits à partir de noyaux de convolution. Le premier est le filtre par noyau à mémoire complète. Il est l’analogue du filtre de Monte Carlo pondéré. Le second est une variante à mémoire limitée, l’analogue du filtre de Monte Carlo à mémoire limitée. Ensuite, le filtre avec sélection est introduit ; sa particularité est d’effectuer un tri sur les particules simulées. La présentation de nos filtres se termine sur le filtre par noyau avec ré-échantillonnage. Il correspond aux filtres issus de SIS-R et plus particulièrement aux filtres régularisés. Avant d’entamer la présentation des filtres à convolution, il est important de préciser un dernier point. Nous avons pris le parti d’estimer la densité conditionnelle de l’état à l’instant t, p(xt |yt , · · · , y1 ), mais toutes les approches présentées s’adaptent immédiatement à l’estimation de la densité conditionnelle de toute la 64 Estimation de la densité du filtre optimal trajectoire des états, p(xt , · · · , x1 |yt , · · · , y1 ). Sur le plan théorique, cela n’a quasiment aucune conséquence, la seule différence majeure est sur le plan pratique. En effet, il est alors nécessaire de conserver en mémoire (dans l’ordinateur), tous les “ancêtres” de l’état de chacune des particules, ce qui peut devenir problématique en temps long. De plus, en suivant le même principe d’estimation fonctionnelle, il serait possible d’estimer p(xt+l |yt, · · · , y1), la densité prédictive de l’état à l pas en avant. 3.1 Notations relatives à l’estimation non paramétrique par noyaux de convolution Les noyaux de convolution forment une famille d’applications adaptée à l’estimation de fonctions. Ils sont souvent notés K, de l’anglais Kernel. Définition : Un noyau K est une application de IRd → IR, bornée, positive, symétrique, intégrable par rapport à la mesure de Lebesgue et d’intégrale 1. La contrainte de positivité imposée ici au noyau n’est pas obligatoire. Il est possible d’utiliser des noyaux négatifs sur une partie de leur support. Les estimateurs à noyaux de convolution étant utilisés dans cette thèse comme des outils au service du filtrage, il n’est pas nécessaire de se placer dans le contexte le plus général. Une grande variété de résultats est ainsi plus aisément accessible. Définition : Un noyau de Parzen-Rosenblatt est un noyau vérifiant lim kxkd K(x) = 0 kxk→∞ Définition : L’estimateur fn associé à K de la densité f des variables aléatoires X1 , · · · , Xn indépendantes identiquement distribuées, est n 1 X x − Xi fn (x) = ) = (Khn ∗ µn )(x) K( d nhn i=1 hn x ∈ IRd P où hn est un réel lié à n, souvent appelé largeur de la fenêtre, et µn = n1 ni=1 δXi est la mesure empirique associée aux X1 , · · · , Xn . En d’autres termes, fn est la densité empirique obtenue en régularisant la mesure empirique des X1 , · · · , Xn , par convolution avec h1d K( h·n ). Par commodité, la notation suivante est introduite n Khn (y) = y 1 K( ) d hn hn y ∈ IRd . 3.2 Filtre par noyau à mémoire complète 65 Les résultats de convergences de fn vers f , sous différents modes, sont obtenus en rajoutant différentes hypothèses sur le noyau. Nous ne rappelons ici que les résultats utiles à notre approche du filtrage. Avant d’énoncer des résultats précisant la vitesse de convergence, il est nécessaire d’introduire comme dans ([51],[78]) quelques notations et notions particulières. Pour clarifier la lecture rappelons que d est la dimension de x. Soient α = (α1 , · · · , αd ) ∈ INd , x = (x1 , · · · , xd ) ∈ IRd et Di f = ∂f /∂xi la ième dérivée partielle d’une fonction f de IRd , rappelons les notations : |α| = α1 + · · · + αd α! = α1 ! · · · αd ! α x = xα1 1 · · · xαd d D α f = D1α1 · · · Ddαd f . Enfin, l’espace de Sobolev des fonctions dont les dérivées partielles au sens des distributions D α f , avec |α| ≤ s, sont intégrables, est noté W s,1 . Définition 3.1.1 (Noyau de classe s) Soit s ≥ 1. Un noyau de classe s est une fonction Borel-mesurable K telle que (i) K est symétrique, i.e., K(−x) = K(x), x ∈ IRd R (ii) K=1 R α (ii) x K(x)dx = 0 si 1 ≤ |α| ≤ s − 1 R α (iv) x |K(x)|dx < ∞ si |α| = s K peut être négatif, ce n’est donc pas forcément une densité. 3.2 Filtre par noyau à mémoire complète Le type de formalisation du système dynamique discret n’a pas un rôle important pour notre approche, elle est très souple, il doit pouvoir s’écrire sous la forme :  xt ∼ Qt (xt−1 , ·) (3.1) yt ∼ Gt (xt , ·) Plus précisément, il n’est pas nécessaire de connaitre la forme analytique de Qt et Gt . Il suffit d’être capable de simuler des couples (xt , yt ). S: 66 Estimation de la densité du filtre optimal Par exemple, il est possible de considérer un système de la forme classique suivante : S:  xt = ft (xt−1 , εt ) yt = ht (xt , ηt ) (3.2) Les objets suivants du système (3.2) sont toujours supposés connus, à chaque instant t : π0 ft ht ε t ∼ Lε t ηt ∼ Lηt la distribution de probabilité de l’état initial x0 . la fonction d’évolution du modèle d’état. la fonction d’observation. la loi de probabilité, simulable, de εt . la loi de probabilité, simulable, de ηt . Remarque : Ces hypothèses sont semblables à celles requises par les filtres de Monte Carlo, à l’exception de la dernière qui est plus faible. En effet, la mise en place des algorithmes de Monte Carlo suppose que l’on connaisse toujours la forme analytique de la densité de Lηt . Conservons les notations utilisées dans la partie relative aux filtres particulaires : πt désigne la mesure de probabilité de xt |y1:t , c’est à dire le filtre optimal. Pour notre approche, supposons que cette mesure admet une densité notée p(xt |y1:t). Or par définition, la densité conditionnelle est le quotient de la densité conjointe de xt , y1:t par la densité marginale de y1:t : p(xt |y1:t ) = pXY (xt , y1:t) . pY (y1:t ) Notre approche consiste donc à estimer les densités pXY et pY par la méthode des noyaux de convolution. Les estimateurs construits à partir de ces méthodes nécessitent beaucoup d’observations pour être de bonne qualité. En général, dans les situations de filtrage, les couples (xt , yt ) ne sont pas accessibles puisque xt n’est pas observé. Mais on a suffisamment d’information sur le système (3.2) pour en générer autant qu’on le désire. La formalisation du problème selon le point de vue de l’estimation fonctionnelle permet d’éclairer ce point : −Notons zt = (xt , y1:t ) −Pour tout t, il existe une mesure µt , telle que zt ∼ µt −Pour tout t, il existe une mesure νt , telle que y1:t ∼ νt 3.2 Filtre par noyau à mémoire complète 67 Pour calculer pnXY une estimation par noyau de convolution de la densité pXY , il faut générer n représentants de µt . On procède de la manière suivante : - Génération de n états initiaux x̃i0 (i = 1, · · · , n), suivant la loi π0 . - Evolution des n états initiaux x̃i0 suivant S (3.2), t fois successivement et généi rations “d’observations” correspondantes ỹ1:t = ỹ1i , . . . , ỹti, selon le modèle S. i On obtient ainsi n, z̃ti = (x̃it , ỹ1:t ) qui sont des représentants de µt . Grâce à ces derniers, on construit une estimation empirique de µt : n µnt = 1X δ i. n i=1 z̃t Pour obtenir l’estimation de la densité pXY il suffit de convoluer cette mesure empirique avec un noyau K : n pnXY (zt ) = Khn ∗ µnt (zt ) 1X Khn (zt − z̃ti ) = n i=1 L’estimation de pY s’effectue de la même manière avec les mêmes observations simulées. Ainsi l’estimation empirique de νt est définie par n νtn 1X δi = n i=1 ỹ1:t et celle de la densité pY par n pnY (y1:t ) = Khn ∗ νtn (y1:t ) = 1X i ). Khn (y1:t − ỹ1:t n i=1 Finalement, on obtient une estimation de p(xt |y1:t ) en effectuant le quotient des deux estimations précédentes : pn (xt |y1:t) = pnXY (zt ) pnY (y1:t ) Pn i i=1 Khn (zt − z̃t ) P = n i i=1 Khn (y1:t − ỹ1:t ) Les noyaux convolution Khn intervenant au dénominateur et au numérateur bien que notés de la même façon sont différents (zt = (xt , y1:t ) ∈ IRtq+d et y1:t ∈ 68 Estimation de la densité du filtre optimal IRtq ). On ne les a pas différenciés jusqu’à présent car ils jouent le même rôle. Mais pour l’étude de certaines propriétés théoriques il est nécessaire de les différencier. Notons K 1 le noyau mis sur les xt et K 2 le noyau mis sur les y1:t , ce qui donne pour l’estimation de la densité conditionnelle de xt sachant y1:t : n p (xt |y1:t) = Pn i=1 i ) Kh1n (xt − x̃it )Kh2n (y1:t − ỹ1:t Pn i 2 i=1 Khn (y1:t − ỹ1:t ) L’expression ci-dessus est la conséquence du choix d’un noyau Khn (zt − z̃ti ) i de la forme Kh1n (xt − x̃it )Kh2n (y1:t − ỹ1:t ). Convergence ponctuelle Les démonstrations réalisées dans cette partie généralisent les résultats obtenus par Youndjé ([134],[135]) et les adaptent au contexte du filtrage. Les résultats de Youndjé s’appliquent exclusivement au contexte de l’estimation fonctionnelle classique à partir d’une base de couples observés {(X1 , Y1 ), . . . , (Xn , Yn ) ∈ IR2 }. De plus, il est utile de préciser que les résultats de Youndjé s’inspirent des idées développées par Bosq et Lecoutre ([14]). Théorème 3.2.1 (convergence ponctuelle en moyenne quadratique) Si les noyaux K 1 et K 2 sont de Parzen-Rosenblatt, si pY est positive et continue au point y1:t et si p(xt |y1:t ) est bornée alors lim hn = 0 n→∞ lim nhntq+d = ∞ n→∞ ) =⇒ lim IE[pn (xt |y1:t ) − p(xt |y1:t )]2 = 0 n→∞ i L’espérance est calculée ici par rapport à toutes les variables simulées (x̃it , ỹ1:t ), pour i = 1, . . . , n, pour une trajectoire d’observations y1:t fixée. Démonstration : 3.2 Filtre par noyau à mémoire complète  pn (xt |y1:t )  n n IE[p (y )] − p (y ) 1:t 1:t Y Y IE[pnY (y1:t )] pn (xt |y1:t ) − p(xt |y1:t ) = + pnXY (xt , y1:t ) − p(xt |y1:t ) IE[pnY (y1:t )]  pn (xt |y1:t )  n n IE[p (y )] − p (y ) 1:t 1:t Y Y IE[pnY (y1:t )] = + pnXY (xt , y1:t ) − pXY (xt , y1:t ) IE[pnY (y1:t )] + p D’après le Lemme A.1.1 (Bochner) on a (xt , y1:t ) pXY (xt , y1:t)  − IE[pnY (y1:t )] pY (y1:t ) XY lim hn → 0 ⇒ lim IE[pnY (y1:t )] = pY (y1:t ) n→∞ n→∞ ce qui entraîne lim n→∞ (xt , y1:t ) pXY (xt , y1:t )  = 0. − IE[pnY (y1:t )] pY (y1:t ) p XY De plus le théorème A.1.1 prouve que lim hn → 0, lim nhntq+d → ∞ ⇒ IE[pnXY (xt , y1:t ) − pXY (xt , y1:t )]2 = 0 n→∞ n→∞ soit encore pnXY (xt , y1:t ) − pXY (xt , y1:t ) 2 ] → 0. n→∞ IE[pnY (y1:t )] Il ne reste plus qu’à étudier le comportement de h pn (x |y ) i2 t 1:t n n IE IE[p (y )] − p (y ) 1:t 1:t Y Y IE[pnY (y1:t )] lim IE[ Majorons tout d’abord l’estimation de la densité conditionnelle : Pn i i 2 1 i=1 Khn (xt − x̃t )Khn (y1:t − ỹ1:t ) n Pn p (xt |y1:t ) = i 2 i=1 Khn (y1:t − ỹ1:t ) = Pn i=1 Wi Kh1n (xt − x̃it ) 69 70 Estimation de la densité du filtre optimal avec i ) K 2 (y1:t − ỹ1:t Wi = Pn hn 2 i i=1 Khn (y1:t − ỹ1:t ) i = 1, · · · , n En appliquant l’inégalité de Jensen, on aboutit à n 2 p (xt |y1:t ) ≤ n X i=1 Wi Kh1n (xt − x̃it )2 on obtient alors i h 2 1 n IE pn (xt |y1:t)2 IE[pnY ] − pnY |ỹ1:t , . . . , ỹ1:t ≤ = n X i=1 n X i=1 2 h  i i Wi IE[pnY ] − pnY IE Kh1n (xt , x̃it )2 |ỹ1:t  Wi IE[pnY ] − pnY 2 Z i Kh1n (xt − x̃it )2 p(x̃it |ỹ1:t )dx̃it n 2 Z 1 X  n n Wi IE[pY ] − pY K 1 (u)2 p(x̃t + uhn |y1:t )du = d hn i=1 2 M(y1:t )  n n IE[p ] − p ≤ Y Y hdn Z K 1 (u)2 du où M(y1:t ) = supxt p(xt |y1:t ). Et d’après la démonstration du théorème A.1.1 Z h i2 tq n n nhn IE IE[pY (y1:t )] − pY (y1:t ) → pY (y1:t ) K 2 (u)2du. On en déduit finalement  i2 h pn X|Y n n tq+d IE[p ] − p nhn IE Y Y IE[pnY (y1:t )] ≤ M(y1:t )nhtq n IE h i2 R n n IE[pY (y1:t )] − pY (y1:t ) K 1 (u)2 du IE[pnY (y1:t )]2 R R M(y1:t ) K 1 (u)2 du K 2 (u)2du → pY (y1:t ) ce qui achève la démonstration. 3.2 Filtre par noyau à mémoire complète 71 Théorème 3.2.2 (convergence ps) Si les deux noyaux K 1 et K 2 sont de ParzenRosenblatt, positifs et bornés, si pY est positive et continue au point y1:t et si p(xt , y1:t ) est continue au point (xt , y1:t ) alors limn→∞ hn = 0 =⇒ lim pn (xt |y1:t ) = p(xt |y1:t ) ps nhtq+d n n→∞ limn→∞ log n = ∞ Démonstration : On a pn (xt |y1:t) = pn (xt , y1:t ) pn (y1:t ) Le théorème A.1.2 assure que sous les hypothèses du théorème 3.2.2 : pn (xt , y1:t ) → p(xt , y1:t) pn (y1:t ) → p(y1:t ) ps ps Comme par hypothèse p(y1:t ) > 0 on en déduit le résultat. Convergence uniforme Théorème 3.2.3 (convergence L1 ps) Si les noyaux K 1 et K 2 sont de ParzenRosenblatt, positifs et bornés, si pY est positive et continue au point y1:t et si xt 7→ p(xt , y1:t ) est continue presque partout, alors Z limn→∞ hn = 0 =⇒ lim |pn (xt |y1:t ) − p(xt |y1:t)|dxt = 0 ps nhtq+d n n→∞ limn→∞ log n = ∞ Démonstration : Le résultat découle du théorème 3.2.2 et du théorème de Glick A.1.4. Pour l’étude de la vitesse de convergence L1 intégrée, dans le théorème cidessous, nous considérons le noyau K̃ 1 = K 1 K 2 , utilisé pour estimer la loi conjointe de (xt , y1:t) = zt . Théorème 3.2.4 (vitesse de convergence L1 intégrée) Si les densités pY et pXY appartiennent à W s,1 et les noyaux K̃ 1 ∈ L1 (IRtq+d ) et K 2 ∈ L1 (IRtq ) sont de classe s ≥ 1. Si pour certains ε > 0 on a pour (K, f, a) = {(K̃ 1 , pXY , tq + R R d), (K 2 , pY , tq)}, kxka+ǫ K(x)2 dx < ∞ et (1 + kxka+ǫ )f (x)dx < ∞ alors pour tout hn > 0 on a q hZ i n s IE |p (xt |y1:t) − p(xt |y1:t )|dxt = O(hn ) + O(1/ nhntq+d ) 72 Estimation de la densité du filtre optimal L’espérance est calculée ici par rapport à toutes les variables aléatoires simui lées (x̃it , ỹ1:t ) et aussi par rapport à la trajectoire d’observations y1:t . Démonstration : Il n’est pas nécessaire de restreindre l’espérance à l’ensemble B+ = {y1:t : pY (y1:t ) > 0} car il est facile de voir que IE hZ i n |p (xt |y1:t ) − p(xt |y1:t )|dxt = IEB+ hZ i |p (xt |y1:t ) − p(xt |y1:t)|dxt . n Cependant, dans la suite, nous supposerons que y1:t ∈ B+ : pn (xt |y1:t) − p(xt |y1:t ) = pnXY (zt ) pXY (zt ) − pnY (y1:t ) pY (y1:t ) = pnXY pXY − n pY pY = pnXY pY − pXY pnY pnY pY pnXY pY − pnXY pnY + pnXY pnY − pXY pnY = pnY pY pnXY (pY − pnY ) + pnY (pnXY − pXY ) = pnY pY = i 1 h n pXY − pXY + (pY − pnY )pnX|Y pY 3.2 Filtre par noyau à mémoire complète 73 On en déduit que 1 h n |p (xt , y1:t ) − pXY (xt , y1:t )| pY (y1:t ) XY i +|pY (y1:t ) − pnY (y1:t )|pnX|Y (xt |y1:t ) |pn (xt |y1:t) − p(xt |y1:t )| ≤ ce qui entraîne Z n |p (xt |y1:t ) − p(xt |y1:t )|dxt 1 h ≤ pY (y1:t ) Z |pnXY (xt , y1:t) − pXY (xt , y1:t )|dxt Z i n +|pY (y1:t ) − pY (y1:t )| pnX|Y (xt |y1:t )dxt Z 1 h |pnXY (xt , y1:t ) − pXY (xt , y1:t )|dxt = pY (y1:t ) i +|pY (y1:t ) − pnY (y1:t )| Finalement on obtient hZ i |pn (xt |y1:t ) − p(xt |y1:t )|dxt IEy1:t ZZ = |pn (xt |y1:t ) − p(xt |y1:t)|dxt pY (y1:t )dy1:t ≤ + ZZ Z |pnXY (xt , y1:t ) − pXY (xt , y1:t )|dxt dy1:t |pY (y1:t ) − pnY (y1:t )|dy1:t ce qui s’écrit aussi   IEy1:t kpnX|Y − pX|Y kL1 ≤ kpnXY − pXY kL1 + kpnY − pY kL1 On en déduit   IE kpnX|Y − pX|Y kL1 ≤ IE[kpnXY − pXY kL1 ] + IE[kpnY − pY kL1 ]. d’après le corollaire A.1.10.1 p p   IE kpnX|Y − pX|Y kL1 = O(hsn ) + O(1/ nhntq+d ) + O(hsn ) + O(1/ nhtq n) p tq+d = O(hsn ) + O(1/ nhn ) 74 Estimation de la densité du filtre optimal Remarques : La qualité de l’estimation est liée au nombre n d’observations simulées. Plus la dimension des observations est grande plus n doit être grand. Or, ici, la dimension des observations y1:t augmente avec le temps, ce qui s’exprime au travers des conditions hn → 0 et nhntq+d → ∞ lorsque n → ∞. Ainsi, pour avoir une qualité stable dans le temps, n doit donc croître lorsque t croît. En pratique, cela est problématique car le temps de calcul augmente donc aussi avec le temps. Il est donc impératif de modifier cette approche pour stabiliser le temps de calcul. Une première idée naturelle est de limiter la mémoire du filtre : ainsi pour un nombre constant n de données simulées la précision reste stable au cours du temps. Une autre idée, est de faire en sorte que les observations générées soient dans la zone intéressante de l’espace. Ce qui conduit à effectuer une sélection sur les observations simulées. Nous détaillons ces deux approches dans la suite de ce chapitre. 3.3 Filtre par noyau à mémoire limitée La formalisation du système dynamique discret est la même que pour le filtre à mémoire complète : S:  xt = ft (xt−1 , εt ) yt = ht (xt , ηt ) Les quantités suivantes sont supposées connues : π0 ft ht ε t ∼ Lε t ηt ∼ Lηt la distribution de probabilité de l’état initial x0 . la fonction d’évolution du modèle d’état. la fonction d’observation. la loi de probabilité, simulable, de εt . la loi de probabilité, simulable, de ηt . La limitation de la mémoire utilisée pour estimer le filtre optimal, bien que souvent effectuée en pratique (cf. §2.3.5), n’est en général pas rigoureuse. La justification de cette démarche nécessite l’ajout d’une hypothèse sur le système dynamique. Nous proposons l’hypothèse suivante : 3.3 Filtre par noyau à mémoire limitée 75 ∀ ǫ > 0, ∃ T ∈ IN : ∀t ∈ IN∗ , Z sup |p(xt |y1 , . . . , yt ) − p(xt |yt−T , . . . , yt )|dxt < ǫ y1 ,...,yt Le théorème suivant permet de faire un lien entre la mélangeance du système dynamique et la limitation de la mémoire du filtre. Théorème 3.3.1 Si les fonctions d’évolution de l’état, ft , admettent des constantes de mélange ct ∈]0, 1[ (au sens de la définition 2.3.2), telles que c = inf t∈IN ct > 0 alors Z |p(xt |y1, . . . , yt ) − p(xt |yt−T , . . . , yt )|dxt ≤ (1 − c)T sup yt ,...,y1 Démonstration : Ce résultat est démontré dans Del Moral([28]) p509-510. Sous cette hypothèse forte, il est tout à fait légitime d’estimer p(xt |yt−T :t ) = p(xt |yt−T , . . . , yt ) plutôt que p(xt |y1 , . . . , yt ). Par définition, p(xt |yt−T :t) = pXYT (xt , yt−T :t ) . pYT (yt−T :t ) On va donc estimer les densités pXYT et pYT de la même manière que dans le cas à mémoire complète. On utilise des notations et des hypothèses analogues : −zt,T = (xt , yt−T :t ) pour t > T et zt,T = (xt , y1:t ) sinon −Pour tout t il existe une mesure µt,T telle que zt,T ∼ µt,T −Pour tout t il existe une mesure νt,T telle que yt−T :t ∼ νt,T Pour calculer pnXYT et pnYT les estimations par convolution des densités pXYT et pYT , on applique exactement la même procédure que dans la partie précédente : - Génération de n états initiaux x̃i0 (i = 1, · · · , n), suivant la loi π0 . - Evolution des n états initiaux x̃i0 suivant S (3.2), t fois successivement et généi i i rations d’observations correspondantes ỹt−T :t = ỹt−T , . . . , ỹt , selon le modèle S. i i On obtient ainsi n réalisations z̃t,T = (x̃it , ỹt−T :t ) qui sont des représentants de µt,T . Grâce à ces derniers, on construit les estimations empiriques de µt,T et νt,T : n µnt,T = 1X δi n i=1 z̃t,T n n et νt,T = 1X δi n i=1 ỹt−T :t 76 Estimation de la densité du filtre optimal Pour obtenir les estimations des densités pXYT et pYT , il suffit de convoluer ces mesures empiriques avec un noyau K : n pnXYT (zt,T ) = Kh n ∗ µnt (zt,T ) et 1X i = ) Khn (zt,T − z̃t,T n i=1 n n (yt−T :t ) = pnYT (yt−T :t ) = Khn ∗ νt,T 1X i Khn (yt−T :t − ỹt−T :t ). n i=1 Finalement, en effectuant le quotient de ces deux estimations, on obtient une estimation de p(xt |yt−T :t ) : pn (xt |yt−T :t ) = pnXYT (zt,T ) pnYT (yt−T :t ) Pn i ) Khn (zt,T − z̃t,T = Pn i=1 i i=1 Khn (yt−T :t − ỹt−T :t ) Pour l’étude de la convergence, travaillons à un instant t fixé et avec une mémoire de longueur T fixée. Soit l’estimation de p(xt |yt−T :t) définie à l’aide des noyaux K 1 et K 2 de manière semblable au cas à mémoire complète : pn (xt |yt−T :t ) = = pnXY (zt,T ) pnY (yt−T :t ) Pn Convergence ponctuelle i=1 i Kh1n (xt − x̃it )Kh2n (yt−T :t − ỹt−T :t ) Pn i 2 i=1 Khn (yt−T :t − ỹt−T :t ) Théorème 3.3.2 (convergence ponctuelle en moyenne quadratique) Si les noyaux K 1 et K 2 sont de Parzen-Rosenblatt, si pY est positive et continue au point yt−T :t alors ) lim hn = 0 n→∞ =⇒ lim IE[pn (xt |yt−T :t ) − p(xt |yt−T :t )]2 → 0 n→∞ lim nhTn q+d = ∞ n→∞ i L’espérance est calculée ici par rapport à toutes les variables simulées (x̃it , ỹt−T :t ), pour i = 1, . . . , n, pour une trajectoire d’observations yt−T :t fixée. 3.3 Filtre par noyau à mémoire limitée 77 Démonstration : La démonstration est la même que celle du théorème 3.2.1. Théorème 3.3.3 (convergence ps) Si les noyaux K 1 et K 2 sont de Parzen-Rosenblatt, positifs et bornés, si pY est positive et continue au point yt−T :t et si p(xt , yt−T :t ) est continue au point (xt , yt−T :t ) alors limn→∞ hn = 0 T q+d =⇒ lim pn (xt |yt−T :t ) = p(xt |yt−T :t ) n n→∞ = ∞ limn→∞ nhlog n ps Démonstration : C’est la même démonstration que pour le théorème 3.2.2. Remarque : L’avantage évident dans le cas à mémoire limitée est que le temps t n’intervient plus sur le nombre de trajectoires n à générer pour assurer la convergence asymptotique. Cependant, l’erreur commise en tronquant ainsi la mémoire du filtre est difficile à quantifier et dépend beaucoup de la nature du système étudié. Convergence uniforme Théorème 3.3.4 (convergence L1 ps) Si les noyaux K 1 et K 2 sont de ParzenRosenblatt, positifs et bornés, si pY est positive et continue au point yt−T :t et si xt 7→ p(xt , yt−T :t ) est continue presque partout alors limn→∞ hn = 0 T q+d =⇒ lim n n→∞ limn→∞ nhlog =∞ n Z |pn (xt |yt−T :t) − p(xt |yt−T :t )|dxt = 0 ps Démonstration : Le résultat découle du théorème 3.3.3 et du théorème de Glick A.1.4. Comme précédemment, pour l’étude de la vitesse de convergence L1 intégrée, nous considérons le noyau K̃ 1 = K 1 K 2 , utilisé pour estimer la loi conjointe de (xt , yt−T :t ) = zt . Théorème 3.3.5 (vitesse de convergence L1 intégrée) Si les densités pY et pXY appartiennent à W s,1 et les noyaux K̃ 1 ∈ L1 (IRT q+d ) et K 2 ∈ L1 (IRT q ) sont de classe s ≥ 1. Si pour certains ε > 0 on a pour 78 Estimation de la densité du filtre optimal R R (K, f, a) = {(K̃ 1 , pXY , T q +d), (K 2 , pY , T q)}, kxka+ǫ K(x)2 dx < ∞ et (1+ kxka+ǫ )f (x)dx < ∞ alors pour h > 0 on a q hZ i n s IE |p (xt |yt−T :t) − p(xt |yt−T :t )|dxt = O(hn ) + O(1/ nhTn q+d ) L’espérance est calculée ici par rapport à toutes les variables aléatoires simui lées (x̃it , ỹt−T :t ) et aussi par rapport à la trajectoire d’observations yt−T :t . Démonstration : C’est la même démonstration que celle du théorème 3.2.4. Remarque : Le principal avantage de cette méthode est que la dimension des noyaux K est fixe. Le nombre n de trajectoires à générer peut rester constant au cours du temps. Cependant, l’hypothèse, émise en début de partie, autorisant la troncature de la mémoire, est très difficile à vérifier en pratique. L’erreur commise par la troncature de la mémoire est donc difficile à quantifier. De plus, en pratique, comme pour le cas précédent, le filtre peut diverger si aucune des données simulées n’est voisine de la trajectoire observée. La méthode la plus simple pour remédier à ce dernier problème, est de générer des trajectoires qui soient voisines de la trajectoire observée. A cette fin, il faut effectuer une sélection sur les trajectoires simulées. Nous avons bâti suivant ce principe le filtre présenté dans la partie suivante. 3.4 Filtre par noyau avec sélection L’approche par filtres particulaires avec interaction (cf. §.2.4.3) consiste grossièrement à sélectionner les particules qui ont le droit de continuer à vivre : à un instant t, les particules ont une probabilité d’évoluer au temps t + 1 liée à leur vraisemblance par rapport aux observations. Concrètement, une particule très vraisemblable au temps t aura plusieurs descendants au temps t + 1 et une particule peu vraisemblable a de fortes chances de ne pas en avoir. Le problème pratique de cette approche est qu’il faut être en mesure de calculer la vraisemblance d’une particule. Dès que le bruit sur le modèle d’observation n’est plus additif cela peut être très compliqué. A fortiori l’absence de bruit est rédhibitoire. Un autre problème est que, si aucune des particules courantes n’est intéressante (vraisemblance nulle), le filtre va inévitablement diverger. Si le nombre de particules est grand, cet événement est peu probable, mais au fil du temps cette 3.4 Filtre par noyau avec sélection 79 probabilité augmente. Nous avons choisi une méthode de sélection plus simple et plus brutale pour construire ce filtre. On cherche à estimer la densité p(xt |y1:t) pour la suite y1:t i observée et elle seule. L’idéal serait de générer des trajectoires avec ỹ1:t = y1:t , la séquence précisément observée. Malheureusement les trajectoires considérées sont des variables aléatoires continues, cela est donc impossible. Mais il est tout à fait possible de générer et de sélectionner des trajectoires dont les observations sont dans un voisinage de y1:t . Ainsi on s’assure de toujours générer des trajectoires intéressantes et utilisables à des fins d’estimation. Considérons toujours le système suivant : S:  xt = ft (xt−1 , εt ) yt = ht (xt , ηt ) A chaque instant t, il existe une mesure µt telle que (xt , y1:t ) ∼ µt . Pour estii mer la densité p(xt |y1:t ) cherchons n réalisations de µt , (x̃it , ỹ1:t ) où i = 1, · · · , n i telles que ỹ1:t ∈ Bǫ (y1:t ) avec Bǫ (y1:t ) = {ỹ1:t ∈ IRq×t : ∀ l = 1, · · · , t kỹl − yl k ≤ ǫ} Les états x̃it , permettent de construire une estimation de la densité condition nelle p xt |Bǫ (y1:t ) qui est d’autant plus proche de la densité recherchée p(xt |y1:t ) que ǫ est proche de zéro. Nous proposons dans la suite, une méthode stable en temps de calcul, intuitive et simple produisant de tels états. Génération d’observations sous contraintes Une fois le nombre n de données fixé, une méthode naïve pour les générer consiste à simuler des trajectoires de longueur t suivant le système S jusqu’à en obtenir n telles que leur vecteur d’observation respectif vérifie ỹ1:t ∈ Bǫ (y1:t ). Evidemment une telle approche n’est pas optimale, puisque dès qu’une des t observations ỹl de la trajectoire ỹ1:t ne vérifie pas kỹl − yl k < ǫ, ce n’est pas la peine de continuer à la faire évoluer puisqu’elle sera rejetée. L’algorithme (tab. 3.1) prend en compte cette considération. 80 Estimation de la densité du filtre optimal Soit un instant t fixé, posons i = 1 : Tant que i ≤ n k = 1 Initialisation x′0 ∼ π0 S : x′0 → (x′1 , y1′ ) Si ky1′ − y1 k < ǫ : k = k + 1 Sinon : retour à l’intialisation k>1 S : x′k−1 → (x′k , yk′ ) Si kyk′ − yk k < ǫ et k = t : x̃it = x′k et i = i + 1 Si kyk′ − yk k < ǫ et k < t : k = k + 1 Sinon : retour à l’intialisation fin du Tant que TAB . 3.1 – Algorithme de filtre avec sélection simple Remarque : Nous avons ainsi construit un algorithme qui évite de faire évoluer certaines des trajectoires inutiles. En effet, dès qu’une observation de la trajectoire sort du tube on cesse de la faire évoluer. Cependant, il présente un problème, le temps de calculs requis augmente avec t, ce qui n’est pas compatible avec le filtrage en ligne. En conséquence, en pratique il serait préférable de modifier cet algorithme. Par exemple, en considérant simultanément un ensemble d’états, et de ne pas faire évoluer systématiquement tous les états x̃it−1 , i = 1, . . . , n vers l’instant suivant mais plutôt d’effectuer un tirage aléatoire de taille n parmi ceux dont les observations sont dans le tube. De cette manière le temps de calcul serait stabilisé par rapport à t, mais un autre problème est introduit : les particules ainsi générées ne seront plus indépendantes. Bien que les variantes de l’algorithme semblent plus intéressante en pratique, l’étude des propriétés théorique est seulement réalisée pour l’algorithme simple (tab. 3.1). Les réalisations d’états obtenues à l’aide de l’algorithme (tab. 3.1), x̃it , i = 1, . . . , n sont des représentants de la mesure π̃t (dx) = P (Xt ∈ dx|Bǫ (y1:t )). On 3.4 Filtre par noyau avec sélection 81 peut ainsi construire l’estimation empirique n π̃tn 1X δ i. = n i=1 x̃t  On est alors en mesure d’estimer la densité p xt |Bǫ (y1:t ) en convoluant cette mesure empirique. On obtient ainsi l’estimation : n  1X Khn (xt − x̃it ) pn xt |Bǫ (y1:t ) = n i=1 L’obtention du résultat suivant est immédiate : Théorème 3.4.1 (convergence en moyenne quadratique) Si le noyau K est de Parzen-Rosenblatt, alors ) lim hn = 0   n→∞ =⇒ lim IE[pn xt |Bǫ (y1:t ) − p xt |Bǫ (y1:t ) ]2 = 0 d n→∞ lim nhn = ∞ n→∞ L’espérance est calculée ici par rapport à toutes les variables simulées pour une trajectoire d’observation y1:t fixée. Démonstration : Ce résultat est une application directe du théorème A.1.1 Remarque : Il est possible, en ajoutant quelques hypothèses, de construire une estimation de p(xt |y1:t ). Cette approche est développée dans la suite. Pour  ce faire, il faut caractériser la proximité entre p xt |Bǫ (y1:t ) et la densité que  l’on cherche à estimer : p xt |y1:t . Dans cette optique, exprimons tout d’abord  p xt |Bǫ (y1:t ) comme une densité conditionnelle ponctuelle : Lemme 3.4.1 Si pY et pXY (xt , .) sont continues sur Bǫ (y1:t ) alors il existe ǫ1 , ǫ2 ∈ Bǫ (0IRt ) tel que  pXY (xt , y1:t + ǫ2 ) p xt |Bǫ (y1:t ) = pY (y1:t + ǫ1 ) Démonstration : D’après le théorème de Bayes R p (xt , u1:t )du1:t  B (y ) XY p xt |Bǫ (y1:t ) = ǫR 1:t p (u1:t )du1:t Bǫ (y1:t ) Y 82 Estimation de la densité du filtre optimal Par définition d’une intégrale Z vol(Bǫ (y1:t )) inf pY (u1:t ) ≤ Bǫ (y1:t ) Bǫ (y1:t ) pY (u1:t )du1:t ≤ vol(Bǫ (y1:t )) sup pY (u1:t ) Bǫ (y1:t ) Comme pY est continue sur le compact Bǫ (y1:t ), il existe ym , yM ∈ Bǫ (y1:t ) tels que pY (ym ) = inf Bǫ (y1:t ) pY (u1:t ) et pY (yM ) = supBǫ(y1:t ) pY (u1:t ). L’expression précédente s’écrit aussi Z pY (u1:t )du1:t ≤ vol(Bǫ (y1:t ))pY (yM ). vol(Bǫ (y1:t ))pY (ym ) ≤ Bǫ (y1:t ) Soit la fonction D : [0, 1] → IR Z α 7→ Bǫ (y1:t ) pY (u1:t )du1:t − vol(Bǫ (y1:t ))pY (ym × (1 − α) + yM × α) elle est continue, D(0) ≥ 0 et D(1) ≤ 0. Il existe d’après le théorème des valeurs intermédiaires, α0 ∈ [0, 1] tel que D(α0 ) = 0. Comme Bǫ (y1:t ) est convexe, ỹ = (1 − α0 ) × ym + α0 × yM ∈ Bǫ (y1:t ) et donc ỹ − y1:t = ǫ1 ∈ Bǫ (0IRt ). Donc Z pY (u1:t )du1:t = vol(Bǫ (y1:t ))pY (y1:t + ǫ1 ). Bǫ (y1:t ) Ce qui achève la première partie de la démonstration. De même : vol(Bǫ (y1:t )) inf pXY (xt , u1:t ) ≤ Bǫ (y1:t ) et Z Bǫ (y1:t ) Z pXY (xt , u1:t )du1:t Bǫ (y1:t ) pXY (xt , u1:t )du1:t ≤ vol(Bǫ (y1:t )) sup pXY (xt , u1:t ) Bǫ (y1:t ) En appliquant exactement le même raisonnement que précédemment, on en déduit qu’il existe ǫ2 = ǫ2 (xt ) ∈ Bǫ (0IRt ) tel que Z pXY (xt , u1:t )du1:t = vol(Bǫ (y1:t ))pXY (xt , y1:t + ǫ2 ). Bǫ (y1:t ) Ce qui termine la démonstration du lemme 3.4.1. 3.4 Filtre par noyau avec sélection 83 Théorème 3.4.2 Si pour tout xt , pY et pXY (xt , .) sont continues sur Bǫ (y1:t ), alors  lim |p(xt |y1:t) − p xt |Bǫ (y1:t ) | = 0 ǫ→0 Démonstration : D’après le lemme 3.4.1 on a  pXY (xt , y1:t ) pXY (xt , y1:t + ǫ2 ) |p(xt |y1:t ) − p xt |Bǫ (y1:t ) | = | − | pY (y1:t ) pY (y1:t + ǫ1 ) comme limǫ→0 ǫ1 = 0 et que pour tout xt , limǫ→0 ǫ2 = 0 on a le résultat. Théorème 3.4.3 Si pour tout xt , pY et pXY (xt , .) sont continues sur Bǫ (y1:t ), alors Z  lim |p(xt |y1:t ) − p xt |Bǫ (y1:t ) |dxt = 0 ǫ→0 Démonstration : D’après le lemme 3.4.1 on a D(xt , ǫ) = p(xt |y1:t ) − p xt |Bǫ (y1:t ) =  pXY (xt , y1:t ) pXY (xt , y1:t + ǫ2 ) − pY (y1:t ) pY (y1:t + ǫ1 ) Toujours d’après le lemme 3.4.1 limǫ→0 ǫ1 = 0 et pour tout xt , limǫ→0 ǫ2 = 0 on a donc limǫ→0 D(xt , ǫ) = 0 pour tout xt . D’après le théorème de Scheffe (Devroye[47] p2-p25) Z Z |D(xt , ǫ)|dxt = 2 D(xt , ǫ)+ dxt avec D(xt , ǫ)+ =  D(xt , ǫ) si D(xt , ǫ) > 0 0 sinon or pour tout xt limǫ→0 D(xt , ǫ)+ = 0 et D(xt , ǫ) ≤ pX|Y le théorème de convergence dominée entraîne le résultat.  Comme nous l’avons évoqué précédemment, pn xt |Bǫ (y1:t ) est aussi un estimateur de p(xt |y1:t), à condition que ǫ → 0. 84 Estimation de la densité du filtre optimal Convergence ponctuelle Corollaire 3.4.3.1 Si le noyau K est de Parzen-Rosenblatt alors lim hn = 0 n→∞ lim nhdn = ∞ n→∞ ) =⇒ lim ǫ→0 n→∞  IE[pn xt |Bǫ (y1:t ) − p(xt |y1:t )]2 = 0 L’espérance est calculée ici par rapport à toutes les variables simulées pour une trajectoire d’observation y1:t fixée. Démonstration :    IE[pn xt |Bǫ (y1:t ) − p(xt |y1:t )]2 ≤ IE[pn xt |Bǫ (y1:t ) − p xt |Bǫ (y1:t ) ]2  +[p xt |Bǫ (y1:t ) − p(xt |y1:t )]2 Or d’après le théorème 3.4.1, pour tout ǫ ∈ IR+ on a lim hn = 0 n→∞ lim n→∞ nhdn =∞ ) =⇒   lim IE[pn xt |Bǫ (y1:t ) − p xt |Bǫ (y1:t ) ]2 = 0 n→∞ et d’après le théorème 3.4.2 on a aussi  lim[p xt |Bǫ (y1:t ) − p(xt |y1:t )]2 = 0 ǫ→0 On en déduit le résultat. Ces résultats sont très intéressants puisqu’ils assurent la convergence du filtre avec sélection vers le filtre optimal. De plus, l’asymptotique de la convergence est indépendante du temps t. Cependant il ne faut pas perdre de vue que ce gain théorique se traduit par une augmentation significative du temps de calcul en pratique. Le résultat du corollaire précédent peut aussi s’obtenir d’une autre manière.  Il suffit de considérer pn xt |Bǫ (y1:t ) comme une forme particulière de l’estimation de la densité conditionnelle de xt sachant y1:t . Soit N le nombre de données i i qu’il a fallu générer pour en obtenir n, (x̃it , ỹ1:t ) telles que ỹ1:t ∈ Bǫn (y1:t ) pour i = 1, . . . , n. C’est à dire N correspond au nombre d’étape d’initialisation de l’algorithme (tab. 3.1). Alors en prenant pour K 2 la densité uniforme sur la boule B1 (01:t ) et hN = ǫ, l’estimation de p(xt |y1:t ) suivante : 3.4 Filtre par noyau avec sélection pN X|Y (xt |y1:t ) = PN i=1 85 i Kh1N (xt − x̃it )Kh2N (y1:t − ỹ1:t ) . PN i 2 i=1 KhN (y1:t − ỹ1:t ) (3.3)  correspond bien à pn xt |Bǫ (y1:t ) . Cette estimation (3.3), étant un filtre à mémoire tq+d complète, sa convergence est assujettie à l’hypothèse limN →∞ NhN = ∞. Ce nombre N est aléatoire mais dépend de n et ǫ. Le lemme suivant précise le lien entre n et N, ce qui permettra, par la suite, d’obtenir certains résultats de convergence du filtre avec sélection. A présent, on va faire décroître ǫ vers zéro en fonction de n, on introduit donc la notation ǫn . Lemme 3.4.2 Soit N le nombre de données qu’il aurait fallu générer pour en i i obtenir n, (x̃it , ỹ1:t ) telles que ỹ1:t ∈ Bǫn (y1:t ) pour i = 1, . . . , n. Si la densité des observations PY est continue sur Bǫn (y1:t ) et positive en y1:t , si K 2 est un noyau symétrique à support compact alors on peut trouver hN de la forme hN = ǫn /δ tel que KhN soit nul en dehors de Bǫn (y1:t ) et lorsque n → ∞, il existe b ∈ IR+ tel que n = b ps n→∞ Nhtq N lim log N n × = b ps n n→∞ log tq Nhtq N ǫn lim Démonstration : Tout d’abord, si K 2 est un noyau à support compact symétrique, il existe δ > 0 tel que pour tout kxk > δ, K 2 (x) = 0 et si kxk ≤ δ alors K 2 (x) > 0. En prenant, hN = ǫn /δ, on a bien que Kh2N est nul en dehors de Bǫ (y1:t ), ce qui montre le premier point. D’après la loi forte des grands nombres pour ǫ fixé, lim n/N = lim P (Bǫ (y1:t )) ps n→∞ n→∞ Autrement dit, n/N correspond à l’estimateur empirique de la proportion P (Bǫ (y1:t )). Pour s’assurer de la convergence de n/N vers P (Bǫn (y1:t )), lorsque ǫn , il est nécessaire que la convergence de l’estimateur de la proportion soit uniforme. Le lemme suivant garantit ce résultat : 86 Estimation de la densité du filtre optimal Lemme 3.4.3 Soit pn l’estimateur empirique d’une proportion p, on a P ( sup |pn − p| > ε) ≤ 8(n + 1) exp{− p∈[0,1] nε2 } 32 i.e. pn converge uniformément p.s., en p, vers p. Démonstration du Lemme : Le résultat repose sur le théorème de Vapnik & Chervonenkis (cf . Devroye & al. [50]). On a P ( sup |pn − p| > ε) = P (sup |νn (A) − ν(A)| > ε) A∈A p∈[0,1] où A = {[0, p]; p ∈ [0, 1]} ν(A) = P (Zi ∈ A|Zi ∼ U[0, 1]) = p P νn (A) = n1 n1=1 1IA (Zi ) = pn D’après le théorème de Vapnik & Chervonenkis, on a l’inégalité suivante P (sup |νn (A) − ν(A)| > ε) ≤ 8s(A, n) exp{− A∈A nε2 } 32 où s(A, n) = n + 1 est le coefficient de recouvrement de A (“the shatter coefficient”). 2 Comme la série de terme général 8(n + 1) exp{− nε } est convergente, on a que 32 la convergence de pn vers p est presque sûrement uniforme en p. Fin de la démonstration du Lemme. D’autre part, d’après le théorème de Lebesgue, on a R Bǫn (y1:t ) pY (u)du ǫtq n = P Bǫn (y1:t )  ǫtq n → pY (y1:t ) lorsque n → ∞  Comme n/N → P Bǫn (y1:t ) presque sûrement, on en déduit n → pY (y1:t ) Nǫtq n p.s. lorsque n → ∞ 3.4 Filtre par noyau avec sélection 87 Si on pose b = pY (y1:t ), on a n n→∞ Nǫtq n lim = b ps nǫdn lim n→∞ = b ps Nǫntq+d nǫdn = bδ tq+d n→∞ Nhtq+d N lim ps Montrons à présent le second point : on a n ≈ bNǫtq n p.s. lorsque n ≈ ∞ on en déduit log N ≈ log soit encore n − log b ǫtq n p.s. lorsque n ≈ ∞ log N = 1 p.s. n→∞ log n ǫtq lim n Finalement log N n = b p.s. × n n→∞ log tq Nhtq N ǫn lim Théorème 3.4.4 Les observations sont supposées générées suivant l’algorithme de sélection sur la boule Bǫn (y1:t ). Si les hypothèses suivantes sont vérifiées : - Les noyaux K 1 et K 2 sont de Parzen-Rosenblatt - La densité des observations pY est bornée et est continue sur Bǫn (y1:t ) - K 2 est un noyau symétrique à support compact - hN est tel que Kh2N soit nul en dehors de Bǫn (y1:t ) Alors presque sûrement lim ǫn = 0 n→∞ lim n→∞ nǫdn =∞ ) =⇒  lim IE[pn xt |Bǫn (y1:t ) − p(xt |y1:t )]2 = 0 n→∞ 88 Estimation de la densité du filtre optimal L’espérance est calculé par rapport à toutes les variables simulées, pour une trajectoire d’observations y1:t fixée. Démonstration :  i Les n observations (x̃it , ỹ1:t ) utilisées pour construire pn xt |Bǫn (y1:t ) sont issues de la loi µt mais ne sont pas de bons représentants puisqu’elles sont issues d’un i tri. Soit N le nombre d’observations (x̄it , ȳ1:t ) simulées pour en obtenir n dans 2 Bǫ (y1:t ). En prenant un noyau K à support compact et hN tel que toutes les observations en dehors de Bǫn (y1:t ) aient un poids nul on peut écrire  pn xt |Bǫn (y1:t ) = pN X|Y (xt |y1:t ) = PN i=1 i Kh1N (xt − x̄it )Kh2N (y1:t − ȳ1:t ) PN i 2 i=1 KhN (y1:t − ȳ1:t ) i avec (x̄it , ȳ1:t ) de bons représentants de µt , c’est à dire non triés. Cette démonstration s’inspire de la démonstration du théorème 3.2.1 :  pN (xt |y1:t )  N N p (xt |y1:t ) − p(xt |y1:t ) = IE[pY (y1:t )] − pY (y1:t ) IE[pN Y (y1:t )] N + pN XY (xt , y1:t ) − pXY (xt , y1:t ) IE[pN Y (y1:t )] + p (xt , y1:t ) pXY (xt , y1:t)  − pY (y1:t ) IE[pN Y (y1:t )] XY d n Comme d’après le lemme 3.4.2 ǫn = δhN et limn→∞ N hnǫtq+d → b ∈ IR+ p.s., on N a limn→∞ hN = 0 p.s. et limn→∞ Nhtq N = ∞ p.s., en appliquant le Lemme A.1.1 (Bochner) on a que lim IE[pN Y (y1:t )] = pY (y1:t ) p.s. n→∞ En effet : N IE[pN Y (y1:t )] = IE[IE[pY (y1:t )|N]] 1 = IE[IE[KhN (ȳ1:t − y1;t )|N]] (3.4) 1 Comme IE[KhN (ȳ1:t − y1;t )|N] ≤ supy1:t pY (y1:t ), d’après le théorème de convergence dominée on a 1 lim IE[pN Y (y1:t )] = IE[ lim IE[KhN (ȳ1:t − y1;t )|N]] n→∞ n→∞ 3.4 Filtre par noyau avec sélection 89 comme limn→∞ hN = 0 p.s., on en déduit (3.4). Et (3.4) entraîne lim n→∞ p (xt , y1:t ) pXY (xt , y1:t )  = 0. − IE[pN pY (y1:t ) Y (y1:t )] XY Le théorème A.1.1 entraîne que si limn→∞ hN = 0 et limn→∞ Nhtq N = ∞ alors 2 lim IE[pN XY (xt , y1:t ) − pXY (xt , y1:t )|N] = 0 N →∞ Il existe donc un M > 0 et un NM tel que pour tout N > NM 2 IE[pN XY (xt , y1:t ) − pXY (xt , y1:t )|N] ≤ M D’après le théorème de convergence dominée on a 2 limn→∞ IE[pN XY (xt , y1:t ) − pXY (xt , y1:t )] 2 = IE[limn→∞ IE[pN XY (xt , y1:t ) − pXY (xt , y1:t )|N] ] Comme n → ∞ entraîne hN → 0 p.s. et Nhtq N → ∞ p.s., on en déduit 2 lim IE[pN XY (xt , y1:t ) − pXY (xt , y1:t )|N] = 0 p.s. n→∞ soit encore 2 lim IE[pN XY (xt , y1:t ) − pXY (xt , y1:t )] = 0 p.s. n→∞ On en déduit lim IE[ n→∞ pN XY (xt , y1:t ) − pXY (xt , y1:t ) 2 ] = 0 p.s. IE[pN Y (y1:t )] Il ne reste plus qu’a étudier le comportement de IE h pN (x |y ) i2 t 1:t N N IE[p (y )] − p (y ) 1:t 1:t Y Y IE[pN Y (y1:t )] D’après la démonstration du théorème 3.2.1, il existe une suite positive AN → A ∈ IR+ telle que tq+d NhN IE h pN X|Y IE[pN Y (y1:t )]  IE[pN Y] − pN Y  N]2 ≤ AN On peut donc encore utiliser le théorème de convergence dominée et le lemme 3.4.2 permet de conclure la démonstration. 90 Estimation de la densité du filtre optimal Théorème 3.4.5 (convergence ps) Les observations sont supposées générées suivant l’algorithme de sélection sur la boule Bǫn (y1:t ). Si les hypothèses suivantes sont vérifiées : - Les noyaux K 1 et K 2 sont de Parzen-Rosenblatt positifs et bornés - La densité des observations pY est continue sur Bǫn (y1:t ) et positive en y1:t . - La densité conjointe p(xt , y1:t ) est continue au point (xt , y1:t ) - K 2 est un noyau symétrique à support compact - hN est tel que Kh2N soit nul en dehors de Bǫn (y1:t ) Alors  lim ǫn = 0  n→∞ n =⇒ lim =∞  n→∞ log n tq ǫ n  lim pn xt |Bǫn (y1:t ) = p(xt |y1:t ) ps n→∞ Démonstration : Le résultat s’obtient de la même manière que la démonstration du théorème 3.4.4. On se ramène à  pn xt |Bǫn (y1:t ) = pN X|Y (xt |y1:t ) Puis le lemme 3.4.2 et le théorème 3.2.2 permettent de conclure. Convergence uniforme Comme pour le cas précédent on s’intéresse aux propriétés de l’estimation  p xt |Bǫn (y1:t ) définie par (3.3). n Théorème 3.4.6 (convergence L1 ps) Si les noyaux K 1 et K 2 sont de ParzenRosenblatt, positifs et bornés, si pY est positive et continue au point y1:t et si xt 7→ p(xt , y1:t ) est continue presque partout alors Z limn→∞ ǫn = 0 |pn xt |Bǫn (y1:t ) − pn (xt |y1:t)|dxt = 0 ps lim limn→∞ logn n = ∞ =⇒ n→∞ tq ǫn Démonstration : Le résultat découle du théorème 3.4.5 et du théorème de Glick A.1.4. 3.4 Filtre par noyau avec sélection 91 Théorème 3.4.7 (vitesse de convergence L1 intégrée) Les observations sont supposées générées suivant l’algorithme de sélection sur la boule Bǫ (y1:t ). Si les hypothèses suivantes sont vérifiées : - Les densités pY et pXY appartiennent à W s,1 - Les noyaux K̃ 1 ∈ L1 (IRtq+d ) et K 2 ∈ L1 (IRtq ) sont de classe s ≥ 1. - Pour certains ε > 0 on a pour (K, f, a) = {(K 1 , pXY , tq + d), (K 2 , pY , tq)} R R kxka+ǫ K(x)2 dx < ∞ et (1 + kxka+ǫ )f (x)dx < ∞. - Le noyau K 2 est symétrique à support compact, - hN est tel que Kh2N soit nul en dehors de Bǫn (y1:t ) Alors presque sûrement pour tout ǫn > 0, i hZ p  IE |pn xt |Bǫn (y1:t ) − p(xt |y1:t )|dxt = O(ǫsn ) + O(1/ nǫdn ) L’espérance est calculée par rapport à toutes les variables simulées ainsi que par rapport à la trajectoire d’observations y1:t . Démonstration : D’après les considérations faites dans la démonstration du théorème 3.4.4, si N désigne le nombre d’observations qu’il aurait fallu générer pour en obtenir n dont l’observation soit dans Bǫn (y1:t ), d’après la démonstration du théorème 3.2.4, on a i hZ  N |pn xt |Bǫn (y1:t ) − p(xt |y1:t )|dxt ≤ kpN IEy1:t XY − pXY kL1 + kpY − pY kL1 . On en déduit   IE kpnX|Bǫn Y − pX|Y kL1 ≤ IE[kpnXY − pXY kL1 ] + IE[kpnY − pY kL1 ]. d’après le corollaire A.1.10.1 p p   IE kpnX|Y − pX|Y kL1 = O(hsn ) + O(1/ Nhntq+d ) + O(hsn ) + O(1/ Nhtq n) p tq+d s = O(hn ) + O(1/ Nhn ) le lemme 3.4.2 permet de conclure. Ce filtre avec sélection est plus satisfaisant que le filtre à mémoire tronquée puisqu’il n’est pas nécessaire d’ajouter une hypothèse sur le modèle. De plus, la 92 Estimation de la densité du filtre optimal qualité de l’estimation est liée à ǫ dont le choix est à la charge de l’utilisateur et comme nous le montrerons dans la suite, le nombre n d’observations à générer n’est pas dépendant du temps. Cependant, avant d’envisager son utilisation pour effectuer du filtrage en ligne, il est impératif d’étudier le choix de la valeur de ǫ : plus ǫ sera petit, plus l’estimation sera de qualité, mais, plus le temps requis pour réaliser les générations d’observations, et donc calculer l’estimation sera long. Cette inconstance du temps de calcul du filtre avec sélection suivant les valeurs de ǫ va à l’encontre du filtrage en ligne. Un filtre construit à l’aide d’une procédure de sélection moins brutale ne devrait pas connaître ces difficultés. Le dernier filtre que nous proposons, dans la partie suivante, s’appuie donc sur une procédure de sélection comparable à celle des filtres particulaires avec interaction. 3.5 Filtre par noyaux avec ré-échantillonnage Nous envisageons une méthode de sélection des trajectoires moins violente que la précédente, inspirée des filtres particulaires avec interactions développés par Pierre Del Moral ([40][38]). Pour ces derniers, toutes les trajectoires n’ont pas les mêmes chances de continuer à évoluer. Il en est de même dans la méthode que nous proposons maintenant, à la différence près que la sélection s’effectue sans utiliser la vraisemblance des observations. En effet, dans notre cas, la sélection peut encore s’effectuer avec l’estimation par noyau de convolution de la densité de l’observation. Cette approche semble a priori avoir les mêmes avantages que les filtres particulaires avec interactions : les trajectoires conservées restent dans la zone de l’espace intéressante au vu des observations y1:t . Ainsi la qualité du filtre devrait se dégrader moins vite dans le temps. Cependant, notre méthode, s’appuyant sur un échantillonnage suivant l’estimation de la densité, offre plusieurs avantages : la diversité des particules est conservée et aussi leur indépendance. Décrivons à présent une procédure de filtrage par noyaux de convolution avec une étape de ré-échantillonnage à chaque pas de temps, avec pn0 = p0 et t ≥ 0 : 3.5 Filtre par noyaux avec ré-échantillonnage Etape 1 : 93 Génération de n états x̄it ∼ pnt pour i = · · · , n Etape 2 : Génération des n particules i i Pour tout i = · · · , n on obtient z̃t+1 = (x̃it+1 , ỹt+1 ) i en appliquant le système (3.2) à x̄t . Etape 3 : Estimation du filtre optimal : pnt+1 (xt+1 |y1:t+1) Pn i ) Kh (zt+1 − z̃t+1 = Pni=1 n i i=1 Khn (yt+1 − ỹt+1 ) t = t + 1 puis retour à l’étape 1 Remarque : dans ce filtre, le conditionnement par y1:t , non explicite dans la construction de l’estimateur de la densité, est pris en compte au travers de la loi pnt qui sert à l’étape 1, à générer les particules. Un grand nombre de variantes sont envisageables, notamment en ce qui concerne le ré-échantillonnage à l’étape 1. Plus précisément, selon la nature du système dynamique, il n’est pas forcément utile de ré-échantillonner à chaque instant. Pour répondre à cette question, dans le cadre des filtres particulaires, Liu([92],[96]) a introduit un critère de décision basé sur la variance des poids associés aux particules, une adaptation à cette approche est certainement envisageable. Les théorèmes suivants garantissent la consistance du filtre avec ré-échantillonnage. Tout d’abord introduisons la variation totale entre le filtre optimal et son estimation obtenue par le filtre avec ré-échantillonnage à l’instant t. Soit 1 ∆n,t = kpnt (xt |y1:t ) − pt (xt , |y1:t )kL1 (3.5) 2 Théorème 3.5.1 Si K est un noyau de Parzen-Rosenblatt positif, si p(·|y1:t−1) est continue et positive en yt pour tout t, si hqn,t+1 = o(∆n,t ) alors ( nhd+q limn→∞ logn,tn = ∞ =⇒ lim kpnt (xt |y1:t) − pt (xt , |y1:t)kL1 = 0 ps n→∞ limn→∞ hn,t = 0 94 Estimation de la densité du filtre optimal Démonstration : Montrons le théorème par récurrence sur t. Pour t = 1 le résultat est vrai d’après le Théorème 3.2.3. Supposons qu’il soit vrai jusqu’à l’instant t, montrons le pour t + 1. D’après l’hypothèse de récurrence on a lim ∆n = 0 ps n→∞ Soit p̄nt , la densité construite à l’aide de l’échantillon x̄1t , . . . , x̄nt tiré suivant pnt . Nous allons montrer qu’il existe un sous-échantillon x̄it1 , . . . , x̄itM qui complété par un nouvel échantillon ẋit1 , . . . , ẋitN , constitue un échantillon de pt . La technique employée s’inspire d’une démonstration de Devroye([47] p46-49) assurant la robustesse des estimateurs à noyaux. Considérons les trois fonctions suivantes : alors on a fn = min(pn t ,pt ) 1−∆n gn = n pn t −min(pt ,pt ) ∆n kn = pt −min(pn t ,pt ) ∆n pnt = ∆n · gn + (1 − ∆n ) · fn pt = ∆n · kn + (1 − ∆n ) · fn Ainsi chaque x̄it généré suivant pnt est une réalisation de gn avec une probabilité ∆n . Soient les variables aléatoires Zi qui valent 1 si x̄it ∼ gn et 0 si x̄it ∼ fn . Les Zi P suivent donc une loi de Bernoulli Zi ∼ B(∆n ) et Nn = Zi suit une binomiale Nn ∼ B(n, ∆n ). Soit Mn = n − Nn le nombre de x̄it générés suivant pnt qui sont des réalisations de fn . Notons x̄it1 , . . . , x̄itM ce sous échantillon, 1 ≤ i1 < · · · < iM ≤ n. Soient IM = {i1 , . . . , iM } et IN = {1, . . . , n} − IM . Considérons à présent l’échantillon défini par  i x̄t si i ∈ IM i pour i = 1, . . . , n x̃t = ẋit avec ẋit ∼ kn , si i ∈ IN Donc x̃1t , . . . , x̃nt est un échantillon de loi pt qui a Mn éléments communs avec x̄1t , . . . , x̄nt , l’échantillon de loi pnt . En appliquant le système dynamique aux x̄1t , . . . , x̄nt et aux x̃it , pour i ∈ IN , on 3.5 Filtre par noyaux avec ré-échantillonnage 95 1 n i obtient (x1t+1 , yt+1 ), . . . , (xnt+1 , yt+1 ) et (x̃it+1 , ỹt+1 ), pour i ∈ IN . Ainsi on peut en1 n 1 1 ) et (x̃1t+1 , ỹt+1 ), . . . core construire deux échantillons (xt+1 , yt+1 ), . . . , (xnt+1 , yt+1 n n . . . , (x̃t+1 , ỹt+1 ) avec Mn couples en commun. Le premier sert à construire l’estimateur du filtre optimal fourni par le filtre avec ré-échantillonnage : pnt+1 (xt+1 |y1:t+1 ) = Pn i=1 i ) Khn (xt+1 − xit+1 )Khn (yt+1 − yt+1 Pn i i=1 Khn (yt+1 − yt+1 ) Le second, sert à construire l’estimateur à noyau classique du filtre optimal : p̃nt+1 (xt+1 |y1:t+1 ) = Pn i=1 i ) Khn (xt+1 − x̃it+1 )Khn (yt+1 − ỹt+1 Pn i i=1 Khn (yt+1 − ỹt+1 ) L’expression ci-dessus, donne une estimation de la densité de xt+1 conditionnellement aux y1:t+1 , la seule présence, de la dernière observation, yt+1 , dans l’expresi sion découle du fait que tous les couples (xit+1 , yt+1 ), i = 1, . . . , n, sont générées à partir de p(xt |y1:t ). Les anciennes observations y1:t interviennent donc de manière implicite. Cet estimateur du filtre optimal sert à décomposer la distance L1 entre le filtre optimal et son estimation par le filtre avec ré-échantillonnage : kpnt+1 (xt+1 |y1:t+1 ) − pt+1 (xt+1 |y1:t+1 )kL1 ≤ kpnt+1 (xt+1 |y1:t+1 ) − p̃nt+1 (xt+1 |y1:t+1 )kL1 +kp̃nt+1 (xt+1 |y1:t+1 ) − pt+1 (xt+1 |y1:t+1 )kL1 Le Théorème 3.2.3, assure que ( nhd+q limn→∞ logn,tn = ∞ limn→∞ hn,t = 0 =⇒ lim kp̃nt+1 (xt+1 |y1:t+1 )−pt+1 (xt+1 |y1:t+1 )kL1 = 0 n→∞ ps il reste donc uniquement à étudier le cas de kpnt+1 (xt+1 |y1:t+1 )−p̃nt+1 (xt+1 |y1:t+1 )kL1 = Z |pnt+1 (xt+1 |y1:t+1)−p̃nt+1 (xt+1 |y1:t+1 )|dxt+1 Soit Dn (xt+1 ) = pnt+1 (xt+1 |y1:t+1 ) − p̃nt+1 (xt+1 |y1:t+1 ) 96 Estimation de la densité du filtre optimal alors, par définition : Pn i=1 Dn (xt+1 ) = − Pn i=1 Pn i=1 = i ) Khn (xt+1 − xit+1 )Khn (yt+1 − yt+1 Pn i i=1 Khn (yt+1 − yt+1 ) − Pn + Pn − Pn i ) Khn (xt+1 − x̃it+1 )Khn (yt+1 − ỹt+1 Pn i i=1 Khn (yt+1 − ỹt+1 ) i ) Khn (xt+1 − xit+1 )Khn (yt+1 − yt+1 Pn i i=1 Khn (yt+1 − yt+1 ) i=1 i=1 i=1 i ) Khn (xt+1 − xit+1 )Khn (yt+1 − yt+1 Pn i i=1 Khn (yt+1 − ỹt+1 ) i ) Khn (xt+1 − xit+1 )Khn (yt+1 − yt+1 Pn i i=1 Khn (yt+1 − ỹt+1 ) i ) Khn (xt+1 − x̃it+1 )Khn (yt+1 − ỹt+1 Pn i i=1 Khn (yt+1 − ỹt+1 ) il suit |Dn (xt+1 )| ≤ n X i=1 i ) Khn (xt+1 − xit+1 )Khn (yt+1 − yt+1 1 1 − Pn i i i=1 Khn (yt+1 − yt+1 ) i=1 Khn (yt+1 − ỹt+1 ) × Pn n X 1 i ) Khn (xt+1 − xit+1 )Khn (yt+1 − yt+1 i i=1 Khn (yt+1 − ỹt+1 ) i=1 + Pn − n X i=1 i ) Khn (xt+1 − x̃it+1 )Khn (yt+1 − ỹt+1 3.5 Filtre par noyaux avec ré-échantillonnage 97 i i Du fait que (x̃it+1 , ỹt+1 ) = (xit+1 , yt+1 ) pour i ∈ IM , il découle Pn i ) Kh (xt+1 − xit+1 )Khn (yt+1 − yt+1 P |Dn (xt+1 )| ≤ Pn i=1 n n i i i=1 Khn (yt+1 − yt+1 ) i=1 Khn (yt+1 − ỹt+1 ) × X i∈IN i )− Khn (yt+1 − yt+1 X i∈IN i ) Khn (yt+1 − ỹt+1 X 1 i ) Khn (xt+1 − xit+1 )Khn (yt+1 − yt+1 i (y − ỹ ) K t+1 h n t+1 i=1 i∈I + Pn − X i∈IN N i ) Khn (xt+1 − x̃it+1 )Khn (yt+1 − ỹt+1 Comme le noyau est une densité, on en déduit Z P i∈IN |Dn (xt+1 )|dxt+1 ≤ + P P i i (y − y ) + K t+1 h n t+1 i∈IN i∈IN Khn (yt+1 − ỹt+1 ) Pn i i=1 Khn (yt+1 − ỹt+1 ) Finalement on obtient Z |Dn (xt+1 )|dxt+1 ≤ 2 P i∈IN 2Nn ≤ n ≤ 2 P i i ) − i∈IN Khn (yt+1 − ỹt+1 Khn (yt+1 − yt+1 ) Pn i i=1 Khn (yt+1 − ỹt+1 ) 1 Nn Nn nhqn 1 n Le Théorème 3.2.2, assure que P i i ) + i∈IN Khn (yt+1 − ỹt+1 Khn (yt+1 − yt+1 ) Pn i i=1 Khn (yt+1 − ỹt+1 ) P i∈IN P i i ) + N1n i∈IN Khn (yt+1 − yt+1 ) Khn (yt+1 − ỹt+1 P n 1 i i=1 Khn (yt+1 − ỹt+1 ) n 2 max K i i=1 Khn (yt+1 − ỹt+1 ) Pn n 1X i ) → p(yt+1 |y1:t ) Khn (yt+1 − ỹt+1 n i=1 et par hypothèse p(yt+1 |y1:t) > 0. ps 98 Estimation de la densité du filtre optimal Donc pour assurer la convergence de kDn kL1 il suffit de montrer que Nn /(nhqn,t+1 ) tend vers zéro presque sûrement. Or, Nn /n est l’estimation fréquentiste de la proportion ∆n,t . Comme ∆n /hqn,t+1 → 0 ps, pour que Nn /(nhqn,t+1 ) tende aussi vers zéro presque sûrement, il suffit de s’assurer que la convergence de l’estimateur empirique, pn , d’une proportion proportion, p, est uniforme en p. Comme le lemme 3.4.3 assure ce résultat, on en déduit donc Nn − ∆n | → 0 ps n comme ∆n → 0 ps on a encore | Nn → 0 ps n ce qui achève la démonstration du Théorème. Le théorème 3.5.1 garantit la consistance du filtre avec ré-échantillonnage. Cependant, il n’est pas aisé de déterminer une suite hn,t vérifiant les conditions du théorème. En ajoutant, une contrainte de bornitude sur la vraisemblance des observations du modèle, il est possible d’établir ce résultat pour une une largeur de fenêtre hn homogène au cours du temps. ce résultat est établi par le théorème suivant : Théorème 3.5.2 Si K est un noyau de Parzen-Rosenblatt positif, si p(·|y1:t−1 ) est continue et positive en yt pour tout t, s’il existe M > 0 tel que p(yt |xt ) ≤ M pour α tout t, s’il existe α ∈]0, 1[ tel que nh2q n = O(n ) alors ( d+q n =∞ limn→∞ nh log n =⇒ lim kpnt (xt |y1:t ) − pt (xt , |y1:t )kL1 = 0 ps n→∞ limn→∞ hn = 0 Démonstration : Le début de la démonstration est identique au début de la démonstration du théorème 3.5.1, jusqu’à l’inégalité : P P Z i i i∈IN Khn (yt+1 − yt+1 ) + i∈IN Khn (yt+1 − ỹt+1 ) P |Dn (xt+1 )|dxt+1 ≤ 2 n i i=1 Khn (yt+1 − ỹt+1 ) 2Nn ≤ n ≤ 1 Nn P i∈IN 1 2Nn hqNn Nn nhqn P P i i ) + N1n i∈IN Khn (yt+1 − yt+1 ) Khn (yt+1 − ỹt+1 P n 1 i i=1 Khn (yt+1 − ỹt+1 ) n K( i∈IN 1 n i yt+1 −ỹt+1 hn hqNn Pn i=1 ) + 1 Nn P K( i∈IN i ) Khn (yt+1 − ỹt+1 i yt+1 −yt+1 hn hqNn ) 3.5 Filtre par noyaux avec ré-échantillonnage 99 Le Théorème 3.2.2, assure que n 1X i ) → p(yt+1 |y1:t ) Khn (yt+1 − ỹt+1 n i=1 ps et par hypothèse p(yt+1 |y1:t) > 0. 1 Nn P K( i yt+1 −ỹt+1 ) 1 Nn P K( i yt+1 −yt+1 ) hn et sont Montrons à présent que i∈IN i∈IN hqNn presque sûrement bornées asymptotiquement. Considérons tout d’abord le premier terme et par alléger les notations soit Xi = K( hn hqNn i yt+1 −ỹt+1 ) hn q hNn pour tout i ∈ IN . Soient Mn = IE[Xi |Ft ] et Zi = Xi − Mn avec Ft l’ensemble les variables simulées jusqu’à l’instant t. Les variable Z1 , . . . , Zn sont identiquement distribuées et indépendantes conditionnellement à Ft . On a Nn X Nn (Nn − 1) Zi )4 ] = Nn IE[Z14 ] + IE[( IE[Z12 ]2 2 i=1 car IE[Zi Zj Zk Zl ] = IE[IE[Zi |Ft ]IE[Zj Zk Zl |Ft]] = 0 pour tout triplet (j, k, l) de {1, . . . , n} − i. On en déduit, d’après l’inégalité de Markov-Tchebychev Nn 1 X Zi > ε) ≤ P( Nn i=1 ≤ 1 Nn PNn i=1 ε4 Zi 4 IE[Z14 ] IE[Z12 ]2 + Nn3 ε4 2Nn2 ε4 Etudions à présent les termes IE[Z12 ] et IE[Z14 ] : IE[Z12 ] = IE[IE[Z12 |Ft]] = IE[IE[X12 |Ft ] − IE[Xi |Ft ]2 ] ≤ IE[IE[X12 |Ft ]] (3.6) 100 Estimation de la densité du filtre optimal Or IE[X12 |Ft ] = Z = Z hn K(u)2 p̃(yt+1 − hu|y1:t)du h2q Nn ≤ Z K(u)2 Mdu hqNn ≤ M1 hqNn K( i yt+1 −ỹt+1 )2 hn p̃(ỹt+1 |y1:t )dỹt+1 h2q Nn R avec M1 = M K 2 . M est la borne supérieure de la vraisemblance d’une observation connaissant l’état, M existe par hypothèse. On a bien p̃(ỹt+1 |y1:t ) ≤ M car bien que cette densité des ỹt+1 découle d’une loi jointe p̃(x̃t+1 , ỹt+1 |y1:t ) le lien entre x̃t+1 et ỹt+1 est conforme au modèle. En effet, ỹt+1 s’obtient en appliquant l’équation d’observation du système à x̃t+1 . Ainsi on peut écrire Z p̃(ỹt+1 |y1:t ) = p̃(x̃t+1 , ỹt+1 |y1:t)dx̃t+1 Z = p(ỹt+1 |x̃t+1 )p̃(x̃t+1 |y1:t)dx̃t+1 Z ≤ M p̃(x̃t+1 |y1:t )dx̃t+1 ≤ M On obtient finalement IE[Z12 ] ≤ M1 . hqNn (3.7) A présent étudions le cas de IE[Z14 ] : Or 4 IE[Z14 ] = IE[IE[Z 1 |Ft ]] h = IE IE[X14 |Ft ] − 4IE[Xi3 |Ft ]IE[Xi |Ft ] − 4IE[Xi |Ft ]IE[Xi |Ft]3 i +6IE[Xi2 |Ft ]IE[Xi |Ft ]2 + IE[X1 |Ft ]4 i h ≤ IE IE[X14 |Ft ] + 6IE[Xi2 |Ft ]IE[Xi |Ft ]2 IE[X12 |Ft ] ≤ M1 hqNn 3.5 Filtre par noyaux avec ré-échantillonnage IE[X1 |Ft ] ≤ et Mhqn hqNn IE[X14 |Ft] = Z = Z hqn K(u)4 p̃(yt+1 − hu|y1:t )du h4q Nn ≤ Z K(u)4 Mdu h3q Nn ≤ M2 h3q Nn R avec M2 = M 101 K( i yt+1 −ỹt+1 )4 hn p̃(ỹt+1 |y1:t )dỹt+1 h4q Nn K 4 . On obtient M1 M 2 h2q M2 n + 6 q 3q 2q hNn hNn hNn IE[Z14 ] ≤ (3.8) En appliquant (3.7) et (3.8) à (3.6), on déduit finalement P( Nn M2 M12 6M1 M 2 1 X Zi > ε) ≤ + + 4 4 Nn i=1 Nn3 hqNn ε4 2Nn2 h2q Nn3 h3q Nn ε Nn ε α Comme par hypothèse, il existe α > 0 tel que Nh2q N = O(N ) la série de terme 2 2 M1 1M est convergente. D’après le lemme de Bogénéral N 3 hM3q2 ε4 + N6M 3 q 4 + 4 2Nn2 h2q n hNn ε n Nn Nn ε P n rel Cantelli, on en déduit que N1n N i=1 Zi converge presque sûrement vers zéro lorsque Nn tend vers l’infini. Soit encore i i yt+1 −ỹt+1 y −ỹ K( t+1hn t+1 ) 1 X K( hn ) − IE[ |Ft ] = 0 lim q q Nn →∞ Nn h h N N n n i∈I ps N comme 0 ≤ IE[ hqNn . où hn ≤ ment borné. Donc 1 Nn P i∈IN K( K( i yt+1 −ỹt+1 ) hn |Ft ] q hNn i yt+1 −ỹt+1 hn hqNn ) ≤ Mhqn hqNn est presque sûrement asymptotique- 102 Estimation de la densité du filtre optimal En appliquant le même raisonnement à ment à la même conclusion. Ainsi pour Nn grand on a Z |Dn (xt+1 )|dxt+1 P 2Nn hqNn ≤ nhqn ≤ Soit finalement pour n et Nn grands Z 1 Nn 4Nn n 1 n K( i yt+1 −yt+1 1 n Pn hn hqNn i∈IN M hqn hqNn i=1 + ) on aboutit exacte- M hqn hqNn i ) Khn (yt+1 − ỹt+1 M i i=1 Khn (yt+1 − ỹt+1 ) Pn |Dn (xt+1 )|dxt+1 = O( Nn ) n ps Comme on l’a montré lors de la démonstration du théorème 3.5.1, on a que Nn → 0 presque sûrement. Ce qui termine la démonstration du théorème 3.5.2. n Comme pour les autres filtres, il est possible de préciser la vitesse de convergence. C’est l’objet du théorème suivant. Théorème 3.5.3 (vitesse de convergence L1 intégrée) Si pour tout t les densités p(yt |y1:t−1 ) = pY et p(xt , yt |y1:t−1 ) = pXY appartiennent à W s,1 et les noyaux K̃ 1 ∈ L1 (IRq+d ) et K 2 ∈ L1 (IRq ) sont de classe s ≥ 1. Si pour certains ε > 0 on a pour (K, f, a) = {(K̃ 1 , pXY , q + d), (K 2 , pY , q)}, R R kxka+ǫ K(x)2 dx < ∞ et (1 + kxka+ǫ )f (x)dx < ∞ alors pour tout hn > 0 on a q hZ i n s IE |p (xt |y1:t ) − p(xt |y1:t )|dxt = ut [O(hn ) + O(1/ nhnq+d )] avec ut = 2t − 1. L’espérance est calculée par rapport à toutes les variables simulées et à la trajectoire d’observations y1:t . Démonstration : Tout d’abord, effectuons une décomposition comparable à celle de la démonstration du théorème 3.2.4 : 3.5 Filtre par noyaux avec ré-échantillonnage 103 pnXY (xt , yt |y1:t−1 ) pXY (xt , yt |y1:t−1 ) − pnY (yt |y1:t−1 ) pY (yt |y1:t−1 ) pn (xt |y1:t ) − p(xt |y1:t ) = pnXY pXY − n pY pY = pnXY pY − pXY pnY = pnY pY = pnXY pY − pnXY pnY + pnXY pnY − pXY pnY pnY pY = pnXY (pY − pnY ) + pnY (pnXY − pXY ) pnY pY = i 1 h n pXY − pXY + (pY − pnY )pnX|Y pY On en déduit que |pn (xt |y1:t ) − p(xt |y1:t )| ≤ |pnXY (xt , yt |y1:t−1 ) − pXY (xt , yt |y1:t−1 )| pY (yt |y1:t−1 ) + |pY (yt |y1:t−1 ) − pnY (yt |y1:t−1 )|pnX|Y (xt |y1:t) pY (yt |y1:t−1 ) Finalement on obtient   IEyt |y1:t−1 kpnX|Y − pX|Y kL1 ≤ kpnXY − pXY kL1 + kpnY − pY kL1 On en déduit   IE kpnX|Y − pX|Y kL1 ≤ IE[kpnXY − pXY kL1 ] + IE[kpnY − pY kL1 ]. Considérons à présent l’estimation p̃n (xt |y1:t ) introduite lors de la démonstration du théorème 3.5.2, dont les variables de bases (x̃it , ỹti) sont générées exactement suivant pXY (xt , yt |y1:t−1 ). Alors on a les décompositions suivantes : IE[kpnXY − pXY kL1 ] ≤ IE[kpnXY − p̃nXY kL1 ] + IE[kp̃nXY − pXY kL1 ] et IE[kpnY − pY kL1 ] ≤ IE[kpnY − p̃nY kL1 ] + IE[kp̃nY − pY kL1 ] 104 Estimation de la densité du filtre optimal D’après le corollaire A.1.10.1 IE[kp̃nXY et − pXY kL1 ] = O(hsn ) q + O(1/ nhnq+d ) p IE[kp̃nY − pY kL1 ] = O(hsn ) + O(1/ nhqn ) A présent, étudions IE[kpnXY − p̃nXY kL1 ]. Considérons à nouveau, la quantité ∆n (3.5) introduite précédemment : 1 ∆n = kpnt−1 (xt−1 |y1:t−1 ) − pt−1 (xt−1 , |y1:t−1 )kL1 2 n Rappelons que pXY et p̃nXY ont Nn couples différents avec Nn ∼ B(n, ∆n ). Ainsi on a Z X 1 n n Khn (xt − xit )Khn (yt − yti ) | kpXY − p̃XY kL1 = n i∈I N −Khn (xt − x̃it )Khn (yt − ỹti)|dxt dyt 2Nn n Nn or IE[ n |∆n ] = ∆n donc on en déduit ≤ IE[kpnt (xt , yt |y1:t−1 ) − p̃nt (xt , yt |y1:t−1 )kL1 ] ≤ IE[kpnt−1 (xt−1 |y1:t−1 ) − pt−1 (xt−1 , |y1:t−1)kL1 Par le même raisonnement, on obtient IE[kpnt (yt |y1:t−1 )−p̃nt (yt |y1:t−1 )kL1 ] ≤ IE[kpnt−1 (xt−1 |y1:t−1 )−pt−1 (xt−1 , |y1:t−1 )kL1 . Il en découle i h IE kpn (xt |y1:t ) − p(xt |y1:t )kL1 ≤2IE[kpnt−1 (xt−1 |y1:t−1 ) − pt−1 (xt−1 , |y1:t−1 )kL1 p +O(hsn ) + O(1/ nhnq+d ) Comme pour t = 1, d’après le corollaire A.1.10.1, on a q i h s n IE kp (x1 |y1 ) − p(x1 |y1 )kL1 ≤ O(hn ) + O(1/ nhnq+d ) On en déduit le résultat. Cette démonstration termine la partie de ce chapitre consacrée à la présentation de nos filtres par convolution. Avant de conclure le chapitre, il est important de discuter du fait que les observations considérées pour construire nos filtres sont souvent de grandes dimensions ce qui pose généralement des problèmes aux estimateurs de densité par noyaux de convolution. 3.6 Le fléau des grandes dimensions 105 3.6 Le fléau des grandes dimensions Tous les filtres proposés dans ce chapitre sont construits à partir de noyaux de convolution. Or, les estimateurs de densité à noyau rencontrent des difficultés lorsque les données sont de grandes dimensions. Ce problème, aussi appelé fléau de la dimension, est lié à la dispersion des données dans un espace à grande dimension. Sur le plan théorique cela se traduit par les conditions nhdn → ∞ et hn → ∞ lorsque n → ∞, avec la dimension des données. Nos filtres devraient a priori être victimes de ce problème. Sur le plan théorique c’est le cas, puisque la dimension des données, dépendante du temps dans le cas des systèmes dynamiques, intervient dans les résultats. Mais, comme le montre Del Moral([28]), la dimension intervient aussi dans la convergence des processus empiriques. Ce problème n’est pas liée à l’utilisation de noyaux de convolution pour construire nos filtres. Cependant, comme on pourra le voir au travers des applications des derniers chapitres, nos filtres ne sont pas victimes du fléau des grandes dimensions. La première raison que l’on peut évoquer pour expliquer le bon comportement de nos filtres est que le nombre d’observations utilisées pour les construire n’est pas limité. Ainsi, même pour de grandes dimensions, en générant un très grand nombre d’observations, on peut pallier le problème de la rareté des données. Cependant, ce raisonnement ne tient pas pour le filtre par convolution à mémoire complète. En effet, la condition limn→∞ nhntq+d = ∞ fait que, quel que soit le nombre n de particules prises au départ, il sera forcément insuffisant à partir d’un certain instant t. Mais encore une fois, en pratique, la qualité du filtre ne se dégrade pas comme on aurait pu le craindre. Aucune justification théorique rigoureuse de cette propriété intéressante n’est donnée dans ce mémoire. Nous proposons uniquement une explication empirique à cette délicate question. L’hypothèse que l’on peut avancer est que le cadre du filtrage est différent du contexte usuel de l’estimation de densité. Les particules utilisées pour construire les filtres sont toutes générées suivant le même système dynamique, donc pour de nombreux modèles elles ne vont pas trop se disperser. En effet, bien que la dimension des observations augmente rapidement, le volume de la zone de l’espace les contenants augmente beaucoup moins vite. Par conséquent, il n’y a pas de problème de rareté des données et la qualité des estimations reste correcte au coeur de cette zone. Mais, si le modèle considéré accroît systématiquement les distances entre parti- 106 Estimation de la densité du filtre optimal cules, c’est à dire s’il n’est pas stable, l’augmentation de la dispersion des particules va inévitablement entraîner, à court terme, leur rareté dans l’espace et causer ainsi la divergence du filtre. Les filtres modifiés, comme le filtre à mémoire tronqué ou avec écrasement du passé atténuent ce problème sans complètement le régler. Seuls, le filtre avec sélection et le filtre avec ré-échantillonnage contournent définitivement le problème du fléau de la dimension. Le filtre avec sélection cantonne les observations dans une boule, ainsi le volume de la zone de l’espace contenant les particules associées reste stable dans le temps. Pour le filtre avec ré-échantillonnage, l’étape de ré-échantillonnage a pour effet immédiat de réduire le volume de la zone contenant les particules, évitant du coup la dispersion des particules dans le temps. 3.7 Conclusion du troisième chapitre Les filtres par convolution présentés dans ce chapitre possèdent tous des propriétés de convergence théorique vers le filtre optimal. Cependant, les conditions garantissant la convergence ne sont pas toutes équivalentes. Comme on l’a évoqué dans la section précédente, le filtre à mémoire complète se dégrade inévitablement au fil du temps s’il est construit avec un nombre constant de particules. La variante avec écrasement du passé ralentit, en pratique cette dégénérescence mais comme les conditions théoriques assurant la convergence sont les mêmes la dégradation du filtre est encore inévitable en temps long. A cause, de ces difficultés, on ne peut que déconseiller l’utilisation pratique du filtre à mémoire complète et de sa variante à mémoire écrasée. Les hypothèses de convergence de l’autre variante, le filtre à mémoire tronquée, permettent d’obtenir un filtrage de qualité correcte au fil du temps, avec un nombre constant de particules. Mais ceci est vrai à condition que, pour le système dynamique considéré, seules les observations récentes apportent de l’information sur l’état. En admettant cette forte hypothèse, plusieurs problèmes se posent alors : comment varie au cours du temps la profondeur de la mémoire nécessaire au filtrage ? Existe-il une profondeur optimale ? Si oui, comment la trouver ? Avant d’envisager l’utilisation pratique du filtre à mémoire tronquée, il serait nécessaire d’approfondir ces questions. Nous n’avons pas effectué cette étude car les autres filtres que nous avons développés ne sont pas soumis à ces difficultés. 3.7 Conclusion du troisième chapitre 107 Les hypothèses assurant la convergence du filtre avec sélection garantissent la stabilité de la qualité du filtrage au fil du temps, avec un nombre constant de particules. Cependant, en pratique, le filtre avec sélection pose quelques difficultés. L’étape de sélection de l’algorithme peut parfois être très exigeante, c’est-à-dire avoir un taux de rejet très élevé, et ainsi prendre beaucoup de temps. Une utilisation en ligne de ce filtre, tel qu’il est présenté, n’est donc pas recommandée, mais il reste très intéressant pour une utilisation hors ligne. Pour l’employer en ligne, il faudrait étudier la propagation de la boule de sélection au travers du système dynamique afin d’en définir le rayon adapté à chaque instant. Mais l’introduction d’une telle étape dans l’algorithme fait sortir le filtre du cadre de la démonstration que nous avons établi. Le filtre par convolution avec ré-échantillonnage est globalement le plus intéressant de tous les filtres que nous avons proposés dans ce chapitre. Théoriquement, il se dégrade moins vite dans le temps que le filtre à mémoire complète. Bien qu’il nécessite plus de particules que le filtre avec sélection, pour atteindre la même qualité d’approximation, le temps de calcul requis est constant à chaque instant t. Il est donc aussi bien adapté pour le filtrage en ligne, que hors ligne. Finalement il est doté des mêmes atouts que le filtre de Monte-Carlo avec interaction. Mais de plus, il a l’avantage de se passer de la connaissance analytique de la vraisemblance des particules, avantage fort appréciable, car il permet de traiter plus rigoureusement les systèmes dynamiques issus de modèles réels. De plus, grâce au ré-échantillonnage à partir d’une densité (estimée), il maintient la diversité et l’indépendance des particules. Chapitre 4 Estimation de l’état d’un système dynamique Le filtre par noyau de convolution développé dans le chapitre précédent met à notre disposition une estimation de la densité de p(xt |y1 , · · · , yt ). A partir de cette estimation, il est possible d’approximer l’état du système à l’aide de différentes quantités. Nous développons deux procédures au cours des différentes parties de ce chapitre. Elles sont basées sur des estimateurs classiques en statistique : l’espérance conditionnelle, et le mode conditionnel. Nous avons choisi de ne pas considérer le cas de la médiane conditionnelle pour les raisons évoquées dans le paragraphe suivant. Les estimations de médianes sont connues pour offrir une plus grande robustesse que les estimations de moyennes. Il est très pertinent d’utiliser une estimation de médiane dans des contextes où il est probable d’observer des données aberrantes. Dans notre cadre de travail, les particules sont simulées à l’aide du système dynamique modélisant le problème. Il est donc peu probable d’obtenir des données aberrantes. En pratique, la médiane et la moyenne sont donc très proches. En conséquence, nous ne réalisons aucune étude des propriétés théoriques de la médiane conditionnelle ou de son estimation. Toutefois, afin d’illustrer nos propos, quelques exemples de filtrage avec la médiane sont présentés dans le chapitre des applications. Rappelons que le calcul de la médiane empirique d’un échantillon dont les données sont de dimension supérieure à un est problématique car il n’y a pas unicité de la définition de la médiane spatiale. On est ainsi confronté au problème du choix de la médiane. Les premières définitions, pour les espaces euclidiens, ont été introduites par Mi- 110 Estimation de l’état d’un système lasevic & Ducharme([100]), puis une généralisation, aux espaces de Banach, a été faite par Kemperman([85]). De nombreux autres travaux ont suivi. Un éventail des médianes et quantiles multi-dimensionnels existants sont présentés par Chaudhuri ([20],[18]). Pour les applications, nous avons utilisée la définition de la médiane la plus simple à calculer, la L1 −Médiane. En pratique, il suffit de calculer indépendamment la médiane pour chacune des dimensions des observations. 4.1 Espérance conditionnelle A partir du contexte du filtre par noyau de convolution, il est aisé de construire un estimateur de l’espérance. Il est aussi possible de construire cet estimateur de manière totalement indépendante, c’est-à-dire sans faire intervenir l’estimation de la densité du filtre optimal. En effet, l’estimation de l’espérance conditionnelle peut se formaliser comme un problème de régression classique. Nous proposons de traiter aussi ce problème de régression avec les mêmes outils d’estimation non paramétrique : les estimateurs à noyau de convolution. Nous exposons tout d’abord les résultats classiques de régression par estimateurs à noyau puis nous les adaptons au contexte du filtrage. 4.1.1 Régression par la méthode des noyaux Le cas de la régression non linéaire se formalise de la même manière que l’estimation de densité : soit (X, Y ) un couple de variables aléatoires de loi µ. Cette fois, l’objectif est de trouver une application mesurable r telle que r(Y ) soit le plus proche de X au sens des moindres carrés. La solution de ce problème est IE[X|Y ] lorsque cette quantité existe. Pour assurer l’existence de r, il est nécessaire de supposer que IE|X| < ∞. r est une version déterminée de la fonction y 7→ IE[X|y]. La question de son unicité est ici éludée. Pour estimer r par la méthode des noyaux, il faut supposer que la loi ν de Y admet une densité g. Alors en tout point où g est non nulle Z φ(y) r(y) = avec φ(y) = xdµ(x, y) g(x) Il est alors possible de construire les estimateurs de f et φ associés au noyau K: gn (y) = (Khn ∗ νn )(y) R φn (y) = xKhn (y − t)dµn (x, t) 4.1 Espérance conditionnelle avec 111 n µn = n 1X 1X δ(Xi ,Yi) et νn = δY n i=1 n i=1 i Les mesures empiriques νn et µn sont les estimations naturelles des mesures ν et µ, associées aux observations {(X1 , Y1 ), · · · , (Xn , Yn )}. Nous obtenons alors l’estimateur de r, rn (y) = φn (y)/gn (y), soit, sous forme plus explicite Pn y−Yi i=1 Xi K( hn ) rn (y) = Pn . y−Yi i=1 K( hn ) Dans la littérature, rn est souvent rencontré sous le nom d’estimateur de NadarayaWatson. Les propriétés des estimateurs à noyau pour la régression, dans le contexte statistique classique où des couples (Xi , Yi), i = 1, . . . , n sont donnés, ont été abondamment étudiées. En effet, selon les hypothèses imposées au noyau K, la convergence en probabilité, presque complète ou en norme Lp vers r ont été démontrées (cf. Bosq [14], Sarda & Vieu[118] ou Györfi & al.[69]). Ferraty & Vieu[62] propose une étude complète et pédagogique des propriétés de rn . L’étude des propriétés, pour nos estimateurs construits à partir du filtre à mémoire complète et du filtre à mémoire tronquée, s’appuie sur certains de ces travaux. Plus précisément, pour ces deux cas, nous avons adapté au contexte du filtrage avec simulation de données, des résultats présentés par les auteurs précités ([14],[118],[62],[69]). Ces propriétés utiles à notre approche sont données dans l’annexe A.2. ( les notations employées dans l’annexe A sont conforme aux standard de l’estimation non paramétrique, c’est à dire, les rôles de x et y sont inversés). 4.1.2 Estimation de l’espérance par le filtre à mémoire complète Plaçons-nous dans le même cadre d’hypothèses que le filtre de Kalman : les fonctions ft et ht du système sont supposées connues. Il en est de même des propriétés statistiques des bruits et de π0 la loi de probabilité de l’état initial x0 . Pour simplifier, notre approche est exposée, sans perte de généralité, pour un système temps-invariant. Soit le système de la forme de (1.1) :  xt = f (xt−1 , εt ) yt = h(xt , ηt ) 112 Estimation de l’état d’un système Pour tout t, on suppose qu’à t fixé, la fonction ci-dessous est continue : (y1 , · · · , yt ) 7→ IE(xt |y1, · · · , yt). Cette fonction correspond donc au filtre optimal au sens de l’erreur quadratique moyenne. Le couple de variables aléatoires (y1:t , xt ) suit une loi que l’on note µt . Le filtre optimal peut alors aussi s’écrire sous la forme suivante IE(xt |y1 , · · · , yt ) = ψt (y1:t ) gt (y1:t ) R où ψt (Y ) = x xdµt (Y, x) et gt la densité de la distribution de y1:t . Il s’agit à présent de déterminer des estimateurs de ψt et gt , notés respectivement ψtn et gtn , à partir de n trajectoires indépendantes du processus (1.1). Pour construire ces estimateurs par la méthode des noyaux de convolution, il est donc nécessaire de disposer de n représentants de µt . Ce n’est pas le cas, mais la connaissance de (1.1), nous permet d’en générer. La méthode utilisée ici, pour générer les données, est semblable à celle développée au chapitre précédent, pour l’estimation de la densité du filtre optimal. Afin de faciliter la lecture nous la rappelons rapidement dans le paragraphe suivant. Génération des données Soit un représentant de l’état initial x̃0 ∼ π0 . En lui appliquant (1.1) t fois, deux séquences : (x̃1 , x̃2 , · · · , x̃t ) et (ỹ1 , · · · , ỹt ) sont engendrées. Il est alors possible de former le couple (ỹ1:t , x̃t ) qui est une réalisation de la loi µt . En répétant n 1 n fois cette opération, n réalisations de la loi µt : (ỹ1:t , x̃1t ), · · · , (ỹ1:t , x̃nt ) sont ainsi générées. Ces dernières permettent de construire l’estimation empirique µnt de µt . Les méthodes de convolution usuelles permettent, à partir de ces mesures empiriques, d’estimer E[xt |y1 , · · · , yt ]. Soit K un noyau de convolution de dimension qt, alors Pn y −ỹ i 1 n K( 1:thn 1:t ) × x̃it tq ψ (y ) i=1 1:t nh IEn (xt |y1 , · · · , yt ) = nt = n Pn y −ỹ i 1 gt (y1:t ) K( 1:t 1:t ) tq nhn i=1 hn correspond à l’estimateur de Nadaraya-Watson de IE(xt |y1 , · · · , yt ). ψtn et gtn sont respectivement les estimateurs de ψt et gt construits avec le noyau de convoluP n i ,x̃i et de νt , ν tion K et les estimateurs empiriques de µt , µnt = n1 ni=1 δỹ1:t t = t P n 1 i . i=1 δỹ1:t n 4.1 Espérance conditionnelle 113 Avant d’établir les propriétés de convergence de cet estimateur, il est intéressant de remarquer qu’il est possible de lui conférer une forme particulière : celle de la sortie d’un réseau de neurones à bases radiales, mais différente de celle correspondant à l’approche neuronale de Yee([133]) déjà citée. Cette formalisation n’est pas indispensable pour étudier l’estimateur. Cependant, comme elle est à l’origine de nos recherches sur les filtres par noyaux de convolution, nous pensons que sa présentation conserve un intérêt. Formalisation en réseau de neurones à bases radiales i Construisons un réseau à n neurones. Les ỹ1:t , i = 1, · · · , n, sont leurs centres i et les x̃t sont les coefficients de la combinaison linéaire de sortie. Soit K la fonction noyau commune à chacun des neurones. Les variables d’entrée sont les observations y1 , · · · , yt. La sortie du réseau Ftn a la forme : i Pn y1:t −ỹ1:t ) × x̃it K( i=1 h n n (4.1) IE (xt |y1 , · · · , yt ) = Pn i y1:t −ỹ1:t K( ) i=1 hn qui correspond à notre estimateur de Nadaraya-Watson de Ft . La figure (4.1) donne une représentation symbolique d’un tel réseau de neurones. y 1:t ~ y1 y 1:t 2 1:t ~ y2 ~ x 1t 2 ~ x 2t 1:t n IE x t y 1:t x~ nt y 1:t ~ yn 2 1:t F IG . 4.1 – Schéma d’un réseau à bases radiales y 1:t 114 Estimation de l’état d’un système Mise en place de l’algorithme décrit selon l’approche “Réseau” En théorie, il donc possible à chaque instant t, de construire un réseau de neurones à bases radiales qui fournisse une estimation du filtre optimal. Pour que le temps de construction d’un tel réseau reste compatible avec le filtrage en ligne, il est nécessaire que la structure du réseau évolue de manière “récursive” : les centres des neurones doivent évoluer dans le temps, parallèlement à l’état du système. Afin d’expliciter l’algorithme, décrivons, sans perte de généralité, les étapes principales qui le constituent, pour des états xt et des observations yt de dimension 1. Initialisation La loi de probabilité de l’état initial x0 , π0 est connue. n points, x̃10 , x̃20 , · · · , x̃n0 sont générés suivant π0 . Ils sont les états initiaux des trajectoires de références au centre des noyaux. L’application du système 1.1, à ces n points initiaux, engendre les n couples : (x̃11 , ỹ11), . . . , (x̃n1 , ỹ1n). Le poids associé à l’état de référence x̃it dans la combinaison linéaire de sortie du y −ỹ i réseau, K( 1:thn 1:t ), est noté wt,i . Du fait de l’absence d’information pour les états initiaux, tous les poids initiaux sont pris égaux à 1 : w0,i = 1 pour i = 1, · · · , n. Il est à présent possible de commencer le filtrage. Le temps de départ est t = 1, puisque, pour t = 0, tous les éléments intervenant dans l’algorithme ont été précisés ci-dessus. - Etape 1 Calcul des wt,i pour i = 1, · · · , n : wt,i = wt−1,i × exp n −k yt − ỹti 2 o k hn - Etape 2 Calcul de l’estimation de l’état : IEn (xt |y1, · · · , yt) = Pn i i=1 wt,i ×x̃t P n i=1 wt,i d’après (4.1). - Etape 3 Mise à jour des trajectoires de référence : application du système (1.1) aux couples i (x̃it , ỹti) pour obtenir (x̃it+1 , ỹt+1 ), pour i = 1, · · · , n. t = t + 1 et retour à l’étape 1. 4.1 Espérance conditionnelle 115 Remarque : En pratique, comme pour l’estimation de la densité du filtre optimal au chapitre précédent, il est préférable de modifier légèrement les étapes 2 et 3. Par exemple, à l’étape 2, il est possible d’ajouter un coefficient d’amortissement du passé a, a ∈]0, 1[. Cette démarche se justifie empiriquement par le fait que le système est bruité. L’expression de l’étape 2 devient ainsi wt,i = a wt−1,i × exp(−kyt − ỹti k2 /hn ). De plus, d’après la structure de l’étape 1, si un état de référence a un poids nul ; tous ses successeurs auront aussi un poids nul, cette trajectoire perd donc tout intérêt. Il est alors intéressant dans l’étape 3, de chercher les poids très faibles et de remplacer leurs états de référence par un de ceux qui ont les poids les plus élevés. Cette démarche est très voisine de celle utilisée dans le filtrage particulaire avec interaction. Etude de la convergence ponctuelle Le mode de convergence de IEn (xt |y1 , · · · , yt ) vers IE(xt |y1 , · · · , yt ) quand n tend vers l’infini est lié aux conditions imposées au noyau. Nous démontrons la convergence en probabilité dans ce qui suit. Pour plus de détails sur les autres modes de convergence, on peut se référer à ([14]). Théorème 4.1.1 Supposons que E(kxt k2 ) < ∞ et posons v(y1:t ) = V (xt |y1:t ). Si IEn (xt |y1 , · · · , yt ) est associé à un noyau de Parzen-Rosenblatt, alors en tout point de continuité y1:t de gt , IE(xt |y1 , · · · , yt ) et de v, tel que gt (y1:t ) 6= 0 nous avons n hn → 0, nhtq n → ∞ =⇒ IE (xt |y1 , · · · , yt ) → IE(xt |y1 , · · · , yt ) en probabilité Démonstration : On a IEn (xt |y1 , · · · , yt ) = ψt (y1:t ) ψtn (y1:t ) et IE(xt |y1 , · · · , yt ) = n gt (y1:t ) gt (y1:t ) avec gtn l’estimateur de la densité des y1:t associé au noyau K. D’après le théorème A.1.1 nous avons que gtn → gt en moyenne quadratique. 116 Estimation de l’état d’un système lorsque hn → 0 et nhtq n → ∞. Il reste à démontrer que ψtn tend vers ψt . Pour cela, mettons en évidence que V (ψtn ) tend vers zéro et que IE[ψtn (y1:t )] → ψt (y1:t ). (IE[ψtn (y1:t )] désigne l’espérance de la fonction aléatoire ψtn appliquée au point connu y1:t ) : IE[ψtn (y1:t )] = = = = = P y −ỹ i IE[ nh1tq ni=1 x̃it K( 1:thn 1:t )] n 1 ] IE[x̃1t Khn (y1:t − ỹ1:t IE[IE[x̃t Khn (y1:t − ỹ1:t )|ỹ1:t ]] IE[Khn (y1:t − ỹ1:t )IE[x̃t |ỹ1:t ]] (Khn ∗ Gt )(y1:t ) avec Gt (ỹ1:t ) = gt (ỹ1:t )IE[x̃t |ỹ1:t]. D’après le lemme de Bochner (cf. A.1.2), on a, lorsque hn tend vers 0 (Khn ∗ Gt )(y1:t ) → gt (y1:t )IE[xt |y1:t] = gt (y1:t ) ψt (y1:t ) gt (y1:t ) donc IE[ψtn (y1:t )] → ψt (y1:t ) Par ailleurs, V [ψtn (y1:t )] = = 1 V [x̃t Khn (y1:t − ỹ1:t )] nh 1 IE[x̃t x̃′t Kh2n (y1:t − ỹ1:t )] n ×IE[x̃t Khn (y1:t − ỹ1:t )]′ or i − IE[x̃t Khn (y1:t − ỹ1:t )] IE[x̃t x̃′t Kh2n (y1:t − ỹ1:t )] = IE[Kh2n (y1:t − ỹ1:t )IE[x̃t x̃′t |ỹ1:t ]] = (Kh2n ∗ Ht )(y1:t ) R 2 R 2 2 Khn dỹ1:t = h1tq [htq n (Khn / Khn dỹ1:t ) ∗ Ht ](y1:t ) n avec Ht (ỹ1:t ) = R 2 2 htq n Khn / Khn dỹ1:t on obtient gt (ỹ1:t )IE[x̃t x̃′t |ỹ1:t ]. ′ 2 htq n IE[x̃t x̃t Khn (y1:t En appliquant le lemme de Bochner au noyau − ỹ1:t )] → ce qui permet d’écrire nhtq nV [ψtn (y1:t )] → gt (y1:t )IE[xt x′t |y1:t ] Z gt (y1:t )IE[xt x′t |y1:t ] Z K 2 dỹ1:t K 2 dỹ1:t −htn gt (y1:t )2 IE[xt |y1:t ]IE[xt |y1:t ]′ Comme les deux termes du membre de droite sont finis, on en déduit le résultat. 4.1 Espérance conditionnelle 117 Théorème 4.1.2 (Vitesse de convergence ponctuelle sous condition de dérivabilité) Si les hypothèses suivantes sont vérifiées : H1 H2 H3 H4 H5 H6 y1:t est un point fixé de IRtq tel que gt (y1:t ) > 0. nhtq = ∞. limn→∞ hn = 0 et limn→∞ log n Le noyau K est borné, intégrable et à support compact. kxt k < M < ∞ IE(xt |y1:t ) et gt sont s > 0 fois continûment différentiables au voisinage de y1:t . - Le noyau K est d’ordre s. - Alors IEn (xt |y1 , · · · , yt ) − IE(xt |y1 , · · · , yt ) = O(hs ) + O( r log n ), nhtq p.co Démonstration : Adaptation du théorème A.2.1 au contexte du filtrage. Théorème 4.1.3 (Vitesse de convergence ponctuelle sous condition de Lipschitz) Si les hypothèses H1-H4 du théorème 4.1.2 sont vérifiées et si IE(xt |y1:t ) et gt sont β−lipschitziennes alors r log n ), p.co |IEn (xt |y1 , · · · , yt ) − IE(xt |y1, · · · , yt )| = O(hβ ) + O( nhtq Démonstration : Adaptation du théorème A.2.2 au contexte du filtrage. Etude de la convergence uniforme Pour l’étude de la convergence uniforme, je suppose que les observations y1:t appartiennent à un compact C. Théorème 4.1.4 (Vitesse de convergence uniforme sous condition de dérivabilité) Si les hypothèses suivantes sont vérifiées : H1 H2 H3 H4 H5 H6 H7 - Il existe m > 0 tel que inf y1:t ∈C gt (y1:t ) > m. nhtq = ∞. limn→∞ hn = 0 et limn→∞ log n Le noyau K est borné, intégrable et à support compact. kxt k < M < ∞ Le noyau K est lipschitzien sur C. IE(xt |y1:t ) et gt sont s > 0 fois continûment différentiables dans C. Le noyau K est d’ordre s. 118 Estimation de l’état d’un système Alors sup |IEn (xt |y1, · · · , yt) − IE(xt |y1 , · · · , yt )| = O(hsn ) + O( y1:t ∈C s log n ), nhtq n p.co Démonstration : Adaptation du théorème A.2.3 au contexte du filtrage. Théorème 4.1.5 (Vitesse de convergence uniforme sous condition de Lipschitz) Si les hypothèses H1-H5 du théorème 4.1.4 sont vérifiées et si IE(xt |y1:t ) et gt sont β−lipschitziennes sur C alors s log n sup |IEn (xt |y1, · · · , yt ) − IE(xt |y1 , · · · , yt )| = O(hβn ) + O( ), p.co nhtq y1:t ∈C n Démonstration : Adaptation du théorème A.2.4 au contexte du filtrage. Corollaire 4.1.5.1 (vitesse optimale) Soit −1 − 4+tq  n hn = α , 0<α<∞ log n alors sous les hypothèses du théorème 4.1.2 on a   −s n 2s+tq IE (xt |y1 , · · · , yt ) − IE(xt |y1 , · · · , yt ) = O ( ) log n n p.co et sous les hypothèses du théorème 4.1.4 on a  −s n 2s+tq ) sup |IE (xt |y1, · · · , yt ) − IE(xt |y1 , · · · , yt )| = O ( log n y1:t ∈C n  p.co Théorème 4.1.6 (vitesse optimale de la convergence en moyenne quadratique) Supposons les conditions suivantes vérifiées : - gt (y1:t ) > 0, y1:t point fixé de IRtq . - IE(xt |y1:t) et gt sont deux fois continûment différentiables au voisinage de y1:t . - limn→∞ hn = 0 et limn→∞ nhtq n = ∞. 2 - u 7→ IE[xt |u] est continue au point y1:t . - K est borné, intégrable, positif, symétrique et à support compact. - K est un noyau d’ordre 2. Alors en prenant −1 hn = αn− 4+tq , 0 < α < ∞ 4.1 Espérance conditionnelle 119 on a 4 IE[IEn (xt |y1 , · · · , yt ) − IE(xt |y1, · · · , yt)]2 = O(n− 4+tq ) Démonstration : Adaptation du théorème A.2.6 au contexte du filtrage. 4.1.3 Estimation de l’espérance par le filtre à mémoire tronquée Rappelons qu’en considérant un filtre avec une mémoire tronquée de longueur T , on suppose implicitement, que pour déterminer IE(xt |y1:t ) l’estimation de l’état xt , il est suffisant de connaître yt , yt−1 , · · · , yt−T . Cette hypothèse peut se justifier empiriquement par le fait que le système est bruité : plus une observation est ancienne moins elle est influente sur xt . Il existe alors un T tel que l’information apportée par y1 , · · · , yt−T −1 est négligeable comparée à celle apportée par yt−T , · · · , yt . Sur le plan pratique cette troncature est très bénéfique car, dans le cadre de l’approche par réseau à bases radiales, il est alors possible de construire un réseau avec une structure fixe dans le temps. De ce fait, la dimension des noyaux, appliqués en chaque neurone, est constante. Le problème se formalise de la même façon que précédemment. L’évolution de l’état du système xt est régie par (1.1) et seules les variables yt sont observées :  xt = f (xt−1 , εt ) yt = h(xt , ηt ) Le filtre tronqué optimal au sens de l’erreur quadratique moyenne est IE(xt |yt−T , · · · , yt ) Le couple de variables aléatoires (yt−T :t , xt ) suit la loi de probabilité µt,T . Le filtre optimal tronqué peut, par conséquent, s’écrire sous la forme suivante : IE(xt |yt−T , · · · , yt ) = ψt,T (yt−T :t ) gt,T (yt−T :t ) R où ψt,T (yt−T :t ) = xt xdµt,T (yt−T :t , xt ) et gt,T la densité de la distribution des yt−T :t . n Comme précédemment, on construit à l’aide des noyaux de convolution, ψt,T et n gt,T , estimateurs respectifs de ψt,T et gt,T . Pour ce faire, on génère un échantillon 120 Estimation de l’état d’un système de couples utilisés pour obtenir les mesures empiriques µnt,T et νt,T , ce qui conduit à: n ψt,T (yt−T :t ) = IEn (xt |yt−T , · · · , yt ) = n gt,T (yt−T :t ) 1 q nhT n Pn 1 q nhT n i=1 K( Pn i=1 i yt−T :t −ỹt−T :t ) hn K( × x̃it i yt−T :t −ỹt−T :t ) hn Etude de la convergence ponctuelle Nous supposons ici qu’il est possible de restreindre la mémoire à une profondeur T ∈ IN∗ . Théorème 4.1.7 Supposons que E(kxt k2 ) < ∞ et posons v(yt−T :t) = V (xt |yt−T :t ). n Si Ft,T est associé à un noyau de Parzen-Rosenblatt, alors en tout point de continuité yt−T :t de gt,T , Ft,T et de v, tel que gt,T (yt−T :t ) > 0 nous avons hn → 0, nhTn q → ∞ =⇒ IEn (xt |yt−T :t ) → IE(xt |yt−T :t ) en probabilité Démonstration : La démonstration est identique à celle du théorème 4.1.1. Théorème 4.1.8 (Vitesse de convergence ponctuelle sous condition de dérivabilité) Si les hypothèses suivantes sont vérifiées : H1 H2 H3 H4 H5 - H6 - yt−T :t est un point fixé de IRT q tel que gt (yt−T :t ) > 0. Tq = ∞. limn→∞ hn = 0 et limn→∞ nh log n Le noyau K est borné, intégrable et à support compact. kxt k < M < ∞ IE(xt |yt−T :t ) et gt,T sont s > 0 fois continûment différentiables au voisinage de yt−T :t . Le noyau K est d’ordre s. Alors IEn (xt |yt−T :t ) − IE(xt |yt−T :t ) = O(hsn ) + O( Démonstration : Voir théorème 4.1.2. s log n ), nhTn q p.co 4.1 Espérance conditionnelle 121 Théorème 4.1.9 (Vitesse de convergence ponctuelle sous condition de Lipschitz) Si les hypothèses H1-H4 du théorème 4.1.8 sont vérifiées et si IE(xt |yt−T :t ) et gt,T sont β−lipschitziennes alors s log n |IEn (xt |yt−T :t ) − IE(xt |yt−T :t )| = O(hβn ) + O( ), p.co nhTn q Démonstration : Voir théorème 4.1.3. Etude de la convergence uniforme Pour l’étude de la convergence uniforme, en plus de restreindre la mémoire à une profondeur T ∈ IN∗ , on suppose que les observations yt−T :t appartiennent à un compact C. Théorème 4.1.10 (Vitesse de convergence uniforme sous condition de dérivabilité) Si les hypothèses suivantes sont vérifiées : H1 H2 H3 H4 H5 H6 H7 - Il existe m > 0 tel que inf yt−T :t ∈C gt,T (yt−T :t ) > m. Tq limn→∞ hn = 0 et limn→∞ nh = ∞. log n Le noyau K est borné, intégrable et à support compact. kxt k < M < ∞ Le noyau K est lipschitzien sur C. IE(xt |yt−T :t ) et gt,T sont s > 0 fois continûment différentiables dans C. Le noyau K est d’ordre s. Alors sup |IEn (xt |yt−T :t) − IE(xt |yt−T :t )| = O(hsn ) + O( yt−T :t ∈C s log n ), nhTn q p.co Démonstration : Voir théorème 4.1.4. Théorème 4.1.11 (Vitesse de convergence uniforme sous condition de Lipschitz) Si les hypothèses H1-H5 du théorème 4.1.10 sont vérifiées et si IE(xt |yt−T :t) et gt,T sont β−lipschitziennes sur C alors s log n ), p.co sup |IEn (xt |yt−T :t) − IE(xt |yt−T :t )| = O(hβn ) + O( nhTn q yt−T :t ∈C 122 Estimation de l’état d’un système Démonstration : Voir théorème 4.1.5. Corollaire 4.1.11.1 (vitesse optimale) Soit hn = α  n log n 1 − 4+d , 0<α<∞ alors sous les hypothèses du théorème 4.1.8 on a   −s n 2s+T n q IE (xt |yt−T :t ) − IE(xt |yt−T :t ) = O ( ) log n p.co et sous les hypothèses du théorème 4.1.10 on a  −s n 2s+tq sup |IE (xt |yt−T :t ) − IE(xt |yt−T :t )| = O ( ) log n yt−T :t ∈C n  p.co Théorème 4.1.12 (vitesse optimale de la convergence en moyenne quadratique) Supposons les conditions suivantes vérifiées : - gt,T (yt−T :t ) > 0, yt−T :t point fixé de IRT q . - IE(xt |yt−T :t) et gt,T sont 2 fois continûment différentiables au voisinage de yt−T :t . - limn→∞ hn = 0 et limn→∞ nhTn q = ∞. - u 7→ IE[x2t |u] est continue au point yt−T :t . - K est borné, intégrable, positif, symétrique et à support compact. - K est un noyau d’ordre 2. Alors en prenant −1 hn = αn− 4+T q , 0 < α < ∞ on a 4 IE[IEn (xt |yt−T :t) − IE(xt |yt−T :t )]2 = O(n− 4+T q ) Démonstration : Voir théorème 4.1.6 4.1.4 Estimation de l’espérance par le filtre avec sélection i Dans cette partie, les particules (x̃it , ỹ1:t ), avec i = 1, . . . , n, sont générées i de manière à ce que ỹ1:t ∈ Bǫ (y1:t ). Les variables d’observation des particules 4.1 Espérance conditionnelle 123 simulées, sont ainsi contenues dans un tube de largeur ǫ centré sur les vraies observations y1:t . A partir de telles données, l’estimateur naturel est n 1X i x̃ . n i=1 t Cet estimateur a l’avantage d’être simple à calculer, mais la quantité qu’il estime est IE[xt |Bǫ (y1:t )]. Pour assurer sa convergence vers IE[xt |y1:t ], la largeur du tube ǫ doit impérativement tendre vers zéro. Remarquons que, cet estimateur naturel est en fait un cas particulier de l’estimateur général : Pn i i n i=1 Khn (y1:t − ỹ1:t ) × x̃t IE (xt |y1 , · · · , yt ) = P (4.2) n i i=1 Khn (y1:t − ỹ1:t ) i avec K un noyau à support compact et hn tel, que si ỹ1:t ∈ / Bǫ (y1:t ) alors Khn (y1:t − i ỹ1:t ) = 0. L’étude des propriétés de cet estimateur est plus délicate que celle des deux précédents. Etude de la convergence ponctuelle Théorème 4.1.13 (Vitesse de convergence ponctuelle sous condition de dérivabilité) Si les hypothèses suivantes sont vérifiées : - y1:t est un point fixé de IRtq tel que gt (y1:t ) > 0. - limn→∞ ǫn = 0 et limn→∞ log(nǫn −tq ) = ∞. H1 H2 n Le noyau K est symétrique, borné, intégrable et à support compact. hN est tel que KhN est nul en dehors de Bǫn (y1:t ). kxt k < M < ∞ La densité des observations gt est continue sur Bǫn (y1:t ) IE(xt |y1:t ) et gt sont s > 0 fois continûment différentiables au voisinage de y1:t . - Le noyau K est d’ordre s. H3 H4 H5 H6 H7 - H8 Alors presque sûrement n IE (xt |y1, · · · , yt ) − IE(xt |y1 , · · · , yt ) = O(ǫsn ) + O( s log(nǫ−tq n ) ), n 124 Estimation de l’état d’un système Démonstration : D’après les considérations de la démonstration du théorème 3.4.4 IEn (xt |y1, · · · , yt) = IEN (xt |y1:t ) D’après le théorème 4.1.2, FtN (y1:t ) − IE(xt |y1 , · · · , yt ) = O(hsn ) + O( s log N ), Nhtq N le lemme 3.4.2 donne donc le résultat. Théorème 4.1.14 (Vitesse de convergence ponctuelle sous condition de Lipschitz) Si les hypothèses H1-H6 du théorème 4.1.13 sont vérifiées et si IE(xt |y1:t ) et gt sont β−lipschitziennes alors presque sûrement s log(nǫ−tq n ) ) |IEn (xt |y1, · · · , yt) − IE(xt |y1 , · · · , yt )| = O(ǫβn ) + O( n Démonstration : Mêmes arguments que pour la démonstration du théorème 4.1.13. Etude de la convergence uniforme Pour l’étude de la convergence uniforme, les observations y1:t , sont supposées appartenir à un compact C. Théorème 4.1.15 (Vitesse de convergence uniforme sous condition de dérivabilité) Si les hypothèses suivantes sont vérifiées : H1 H2 H3 H4 H5 H6 H7 H8 - Il existe m > 0 tel que inf y1:t ∈C gt (y1:t ) > m. limn→∞ ǫn = 0 et limn→∞ log(nǫn −tq ) = ∞. n Le noyau K est symétrique, borné, intégrable et à support compact. hN est tel que KhN est nul en dehors de Bǫn (y1:t ). kxt k < M < ∞ Le noyau K est lipschitzien sur C. IE(xt |y1:t ) et gt sont s > 0 fois continûment différentiables dans C. Le noyau K est d’ordre s. Alors presque sûrement sup |IEn (xt |y1, · · · , yt ) − IE(xt |y1 , · · · , yt )| = O(ǫsn ) + O( y1:t ∈C s log(nǫ−tq n ) ) n 4.1 Espérance conditionnelle 125 Démonstration : Mêmes arguments que pour la démonstration du théorème 4.1.13. Théorème 4.1.16 (Vitesse de convergence ponctuelle sous condition de Lipschitz) Si les hypothèses H1-H6 du théorème 4.1.15 sont vérifiées et si IE(xt |y1:t ) et gt sont β−lipschitziennes sur C alors presque sûrement s log nǫ−tq n n β sup |IE (xt |y1 , · · · , yt ) − IE(xt |y1, · · · , yt )| = O(ǫn ) + O( ) n y1:t ∈C Démonstration : Mêmes arguments que pour la démonstration du théorème 4.1.13. Corollaire 4.1.16.1 (vitesse optimale) Soit (tq)1/s 0<α<∞ n1/(2s) alors sous les hypothèses du théorème 4.1.13 on a s ǫn = α IEn (xt |y1, · · · , yt) − IE(xt |y1 , · · · , yt ) = O  et sous les hypothèses du théorème 4.1.15 on a tq ( 2s s sup |IEn (xt |y1 , · · · , yt ) − IE(xt |y1 , · · · , yt )| = O  y1:t ∈C  + 1) log n  ps n  tq ( 2s + 1) log n  ps n Théorème 4.1.17 (vitesse de convergence en moyenne quadratique) Supposons les conditions suivantes vérifiées : H1 - gt (y1:t ) > 0, y1:t point fixé de IRtq . H2 - IE(xt |y1:t ) et gt sont deux fois continûment différentiables au voisinage de y1:t . H3 - limn→∞ ǫn = 0. H4 - u 7→ IE[x2t |u] est continue au point y1:t . H5 - K est borné, intégrable, positif, symétrique et à support compact. H6 - hN est tel que KhN est nul en dehors de Bǫn (y1:t ). H7 - K est un noyau d’ordre 2. Alors IE[IEn (xt |y1, · · · , yt) − IE(xt |y1 , · · · , yt )]2 = O(ǫ4n ) + O(1/n) 126 Estimation de l’état d’un système Démonstration : D’après le démonstration du théorème A.2.5 et les considérations du début de la démonstration du théorème 3.4.4 on a IE[IEn (xt |y1 , · · · , yt ) − IE(xt |y1, · · · , yt )]2 = IE[FtN (y1:t ) − IE(xt |y1 , · · · , yt )]2 = O(h4N ) + O(1/(Nhtq N )) le lemme 3.4.2 permet de conclure. Corollaire 4.1.17.1 Supposons les hypothèses du théorème 4.1.17 vérifiées, alors en prenant ǫn = O(n−1/4 ) on a IE[IEn (xt |y1 , · · · , yt ) − IE(xt |y1, · · · , yt )]2 = O(1/n) 4.1.5 Estimation de l’espérance par le filtre avec ré-échantillonnage L’estimation de l’espérance peut se faire indépendamment de l’estimation de la densité pour le filtre avec ré-échantillonnge. Cependant, le calcul de l’estimation de l’espérance s’intègre, aisément, dans l’algorithme décrit dans la partie 3.2.4 du chapitre précédent. Il suffit de calculer, juste après le ré-échantillonnage de l’étape 1, où x̄1t , . . . , x̄nt ∼ pnt : n 1X i x bnt = x̄ . (4.3) n i=1 t Théorème 4.1.18 Sous les hypothèses du théorème 3.5.2, si pour tout t le support de p(xt |y1:t) est contenu dans un compact Ct connu alors   lim hn = 0  n→∞ =⇒ lim |b xnt − IE[xt |y1:t ]| = 0 ps nhnq+d n→∞  =0  lim n→∞ log n Démonstration : Notons IEpt [x|y1:t ] = IE[xt |y1:t ] l’espérance du filtre optimal et IEpnt [x|y1:t ] l’espérance du filtre à convolution avec ré-échantillonnage. Comme x ∈ IRd , notons x = (u1 , . . . , ud ) et x bnt = (ûnt,1 , . . . , ûnt,d ). Par définiton, IEpt [x|y1:t ] = (IEpt [u1 |y1:t], . . . , IEpt [ud |y1:t]), nous devons donc montrer lim |ûnt,i − IEpt [ui |y1:t ]| = 0 p.s. n→∞ pour i = 1, . . . , d (4.4) Sans perte de généralité prouvons (4.4) pour u1 : |ûnt,1 − IEpt [u1 |y1:t ]| ≤ |ûnt,1 − IEpnt [u1 |y1:t ]| + |IEpnt [u1 |y1:t] − IEpt [u1 |y1:t]k 4.1 Espérance conditionnelle 127 Tout d’abord étudions le comportement du second terme : Z Z n |IEpnt [u1 |y1:t ] − IEpt [u1 |y1:t ]| = | u1 pt (u1 |y1:t )du1 − u1 pt (u1 |y1:t )du1 | Raisonnons par l’absurde : supposons que Z Z n lim sup | u1 pt (u1 |y1:t )du1 − u1 pt (u1 |y1:t )du1 | = a > 0 n→∞ Alors comme le support de p(xt |y1:t) est contenu dans le compact Ct connu, il en est de même des estimations pnt (xt |y1:t ), puisqu’on attribue alors un poids nul aux particules extérieures à Ct . Si on note Ct1 , la restriction de Ct à la première composante de xt , u1 on a alors : Z Z n a = lim sup | u1 pt (u1 |y1:t )du1 − u1 pt (u1 |y1:t )du1 | Ct1 n→∞ ≤ lim sup n→∞ Z Ct1 |u1 ||pnt (u1 |y1:t ) − pt (u1 |y1:t )|du1 ≤ lim sup max |u1| 1 n→∞ Ct ≤ Cb Z Cb |pnt (u1 |y1:t ) − pt (u1 |y1:t )|du1 lim max |u1| kpnt (u1 |y1:t ) − pt (u1 |y1:t )kL1 n→∞ Ct1 d’après le théorème 3.5.2 = 0 a.s., ce qui contredit 0 < a. On a donc lim |IEpnt [u1 |y1:t ] − IEpt [u1 |y1:t]| = 0 n→∞ p.s. Comme par hypothèse la densité pnt est restreinte à un compact connu, il existe un M > 0 tel que IEpnt [u41 |y1:t] ≤ M et IEpnt [u21 |y1:t ] ≤ M. Il reste à montrer que |ûnt,1 − IEpnt [u1 |y1:t ]| → 0 p.s.. Nous avons P |ûnt,1 − IEpnt [u1 |y1:t]| = | n1 ni=1 ūit,1 − IEpnt [u1 |y1:t ]| P = | n1 ni=1 Zi | (4.5) 128 Estimation de l’état d’un système où Zi = ūit,1 −IEpnt [u|y1:t]. Les variable Z1 , . . . , Zn sont identiquement distribuées et indépendantes conditionnellement à Ft−1 l’ensemble les variables simulées jusqu’à l’instant t − 1. On a IE[Zi2 ] ≤ M, IE[Zi4 ] ≤ M et IE[Zi |Ft−1 ] = 0 car en toute rigueur IEpnt [u|y1:t] = IEpnt [u|y1:t, Ft−1 ] puisque cette espérance dépend de Ft−1 au travers de pnt . On obtient n X n(n − 1) IE[( Zi )4 ] = nIE[Z14 ] + IE[Z12 ]2 2 i=1 car IE[Zi Zj Zk Zl ] = IE[IE[Zi |Ft−1 ]IE[Zj Zk Zl |Ft−1 ]] = 0 pour tout triplet (j, k, l) de {1, . . . , n} − i. On en déduit, d’après l’inégalité de Markov-Tchebychev Pn 4 n 1 1X i=1 Zi n Zi > ε) ≤ P( n i=1 ε4 IE[Z14 ] IE[Z12 ]2 ≤ + n3 ε4 2n2 ε4 M M2 + n3 ε4 2n2 ε4 ≤ 2 M Comme la série de terme général nM 3 ε4 + 2n2 ε4 est convergente, d’après le lemme de P Borel-Cantelli, on a que n1 ni=1 Zi converge presque sûrement vers 0. Le résultat (4.5) est ainsi prouvé. 4.2 Mode conditionnel Contrairement à la médiane, l’utilisation du mode de la distribution comme estimateur de l’état présente certains avantages. Tout d’abord, c’est un estimateur plus robuste que celui de la moyenne mais, comme il a été expliqué précédemment, cette qualité est moins critique dans ce contexte de filtrage. Le mode est plus avantageux que la moyenne, essentiellement lorsque la distribution d’intérêt est multimodale, avec un mode plus grand que les autres. Dans ce cas, la moyenne empirique peut fournir des valeurs totalement improbables (comprises entre deux modes) alors que le mode empirique fournit un des modes de la distribution. L’estimation du mode d’une densité de probabilité est un problème ancien de la statistique, (voir Sager([115]) pour une revue mathématique et historique), qui pose des difficultés hors du cadre des modèles paramétriques, notamment, pour l’estimation de densités à l’aide de noyaux de convolution. L’estimation du mode 4.2 Mode conditionnel 129 de la densité du filtre optimal, au travers de nos filtres, est donc assez délicate. En effet, au problème de l’estimation du mode pour l’estimateur à noyau de la densité, s’ajoute celui que la densité génératrice des particules n’est qu’une approximation de la densité du filtre optimal. Un des premier à considérer ce problème pour le cas univarié fut Parzen([106]). Il a montré, que sous certaines conditions, le maximum de l’approximation de la densité par noyau de convolution est un estimateur convergent et asymptotiquement normal du mode pour des variables indépendantes identiquement distribuées (i.i.d.). La plupart des nombreux développements consécutifs à ces travaux, s’interessent à la normalité asymptotique, par exemple on peut citer Samanta ([116]) pour le cas multivarié, Eddy ([60]), Romano ([114]) pour un affaiblissement des hypothèses. Vieu ([126]) en 1996, a comparé les estimateurs à noyaux du mode globaux et locaux (choix du hn ). Les propriétés de convergence et de normalité asymptotique ont aussi été établies pour le mode conditionnel par Samanta & Thavasneswaran ([117]). De même, des résultats ont aussi été obtenus pour des données dépendantes. Comme ce cas sort de notre contexte, nous ne nous étendrons pas sur ce point. Pour davantage d’information, on peut se référer, par exemple, à Berlinet & al. ([8]). La plupart des estimateurs du mode θ proposés dans la littérature, dont ceux évoqués ci-dessus, s’expriment sous la forme θ̂n ∈ argmax fn (θ) θ où fn est la densité estimée de l’échantillon x1 , . . . , xn . Parfois, ils sont aussi exprimés comme le zéro de la dérivée de fn , les hypothèses de convergence sont alors modifiées. Le principal problème est donc, qu’en pratique, le temps de calcul est très élevé. En effet, une procédure de maximisation, même optimisée, requiert toujours de nombreux calculs de la fonction fn et, pour minimiser le risque de tomber sur un maximum local il est préférable de renouveler plusieurs fois la maximisation avec des points de départ différents. De plus, comme l’a remarqué Devroye ([49]), ces méthodes usuelles de recherche de l”argmax” fonctionnent correctement seulement lorsque fn est assez régulière : continue, unimodale,. . . Finalement, en pratique, l’argmax est approximé par une maximisation sur un maillage de l’espace. Mais, lorsque la dimension de l’espace d’état augmente, le nombre de noeuds de la grille augmente exponentiellement, le temps de calcul devient donc considérable. Une telle technique n’est donc pas du tout adaptée au filtrage en ligne d’un système dynamique puisqu’elle est trop coûteuse en terme de temps de calculs. Par 130 Estimation de l’état d’un système contre une nouvelle approche du problème, proposée par Abraham & al. ([1]) semble bien mieux convenir. Ces auteurs proposent plutôt de prendre θ̂n ∈ argmax fn (θ). θ∈{x1 ,...,xn } Cela revient à prendre le maillage le plus naturel qui soit, puisque les points x1 , . . . , xn sont naturellement concentrés autour de leur mode. Ainsi, pratiquement, il est seulement nécessaire de calculer n fois, fn pour obtenir l’estimateur. Cette qualité numérique permet d’introduire l’estimation du mode en cours de filtrage. De plus, cet estimateur du mode a d’aussi bonnes propriétés théoriques que ses concurrents (Abraham & al. [1],[2]). Une adaptation de cette dernière approche est proposée, en plus de l’approche classique, pour nos filtres par convolution, dans la suite. Pour le contexte du filtrage, le mode m est défini par m ∈ argmax pt (xt |y1:t ). xt Naturellement, les estimations proposées sont de la forme m̂n ∈ argmax p̂nt (xt |y1:t ). xt où p̂nt (xt |y1:t ) est une estimation de la densité du filtre optimal. Selon la nature du filtre, à ré-échantillonnage ou pas, l’étude des propriétés théoriques de l’estimation du mode sera différente. Ces deux cas sont donc abordés au travers des deux sections suivantes. 4.2.1 Estimation du mode par les filtres à convolution simple Tous les développements de cette section sont réalisés pour le filtre à convolution simple. Cependant, ils restent totalement valables pour le filtre à mémoire tronquée, pour lequel il suffit de restreindre les dimensions. Nous généralisons au cas multivarié et adaptons au contexte du filtrage, l’approche proposée par Samanta & Thavaneswaran ([117]). Nous supposons que pour toutes observations y1:t , pt (xt |y1:t ) est uniformément continue en xt et admet un unique mode m défini par  pt m(y1:t )|y1:t = max pt (xt |y1:t ) xt 4.2 Mode conditionnel 131 L’ hypothèse d’unicité du mode peut sembler forte, cependant, le choix du mode comme estimateur de la valeur de l’état n’est pas pertinent en dehors de ce contexte. Tout d’abord, rappelons la forme de l’estimation du filtre optimal fourni par le filtre à convolution simple : Pn i Kh (xt − x̃it )Kh (y1:t − ỹ1:t ) n p̂t (xt |y1:t ) = i=1 Pn i i=1 Kh (y1:t − ỹ1:t ) L’estimation de m, m̂n est donc définie par  p̂nt m̂n |y1:t = max p̂nt xt |y1:t ) (4.6) xt Théorème 4.2.1 Soit z = (xt , y1:t ), si le noyau K est une densité bornée, si de plus − supz kzktq+d K(z) < ∞ − Il existe C > 0, tel que supz |K(z + v) − K(z)| ≤ Ckvk, v ∈ IRtq+d − La densité conjointe pXY est uniformément continue et vérifie R kzkγ pXY (z)dz < ∞ pour certains γ > 0 − La densité marginale pY est positive et continue au point y1:t − La densité du filtre optimal p(xt |y1:t ) est bornée pour y1:t alors limn→∞ hn = 0 tq+d =⇒ lim m̂n = m n→∞ limn→∞ nhlogn n = ∞ ps Démonstration : Soient pXY (xt , y1:t) la densité conjointe de xt et y1:t , pY (y1:t ) la densité marginale de y1:t . Suivant ces notations, leurs approximations respectives sont n 1X i n Kh (xt − x̃it )Kh (y1:t − ỹ1:t ) p̂XY (xt , y1:t ) = n i=1 et n p̂nY (y1:t ) = On a supxt |pt (xt |y1:t ) − p̂nt (xt |y1:t )| ≤ 1X i Kh (y1:t − ỹ1:t ) n i=1 1 sup |pXY (xt , y1:t) − p̂nXY (xt , y1:t )| p̂nY (y1:t ) xt | + sup pt (xt |y1:t ) 1 − xt pY (y1:t ) p̂nY (y1:t ) | 132 Estimation de l’état d’un système D’après le théorème A.1.3, on a lim sup |pXY (xt , y1:t ) − p̂nXY (xt , y1:t )| = 0 ps n→∞ xt de plus, selon le théorème A.1.2 on a aussi lim p̂nY (y1:t ) = pY (y1:t ) n→∞ ps Comme par hypothèse, pt (xt |y1:t ) est bornée, on en déduit lim sup |pt (xt |y1:t ) − p̂nt (xt |y1:t)| = 0 n→∞ xt ps d’où le résultat. Comme nous l’avons évoqué dans l’introduction de la partie sur le mode, il est possible de considérer un estimateur du mode, m̃n , ne faisant pas intervenir de procédure d’optimisation. Il est défini par :  (4.7) p̂nt m̃n |y1:t = max p̂nt xt |y1:t ) xt ∈Sn avec Sn = {x̃it }i=1,...,n . Le gain en terme de temps de calcul d’un tel estimateur est évident, puisqu’il suffit d’évaluer p̂nt , n fois pour l’obtenir. Cet estimateur (4.7), comme le montre le théorème 4.2.2, possède d’aussi bonnes propriétés théoriques que le précédent (4.6). Avant d’énoncer ce résultat, il est nécessaire d’introduire, conformément à Abraham & al. ([1], [2]), les ensembles “ligne de niveau” A(ǫ) : ∀ ǫ > 0, A(ǫ) = {x ∈ IRd : pt (x|y1:t ) > pt (m|y1:t ) − ǫ} ainsi que leurs diamètres diamA(ǫ) : diamA(ǫ) = sup{kx − yk : x, y ∈ A(ǫ)} Théorème 4.2.2 Sous les hypothèses du théorème 4.2.1, si de plus, pt (xt |y1:t ) vérifie A(ǫ) → 0 lorsque ǫ → 0 alors limn→∞ hn = 0 tq+d =⇒ lim m̃n = m n→∞ limn→∞ nhlogn n = ∞ ps Démonstration : La preuve s’inspire de Abraham & al. ([1]) et Romano ([114]). Elle utilise les deux lemmes suivants, dont la preuve est établie dans Abraham & al. ([1]). 4.2 Mode conditionnel 133 Lemme 4.2.1 Si A(ǫ) → 0 lorsque ǫ → 0 alors pour tout δ > 0, supVδc (m) pt < pt (m|y1:t ) Lemme 4.2.2 Si pt (xt |y1:t ) vérifie A(ǫ) → 0 lorsque ǫ → 0 alors, presque sûrement, pour tout δ > 0, maxSn ∩Vδ (m) pt → pt (m|y1:t ) avec Vδ (m) la boule ouverte de rayon δ centrée en m et Vδc (m) son complémentaire. Pour tout δ > 0, d’après le lemme 4.2.1, supVδc (m) pt < pt (m|y1:t ). Soit εδ = pt (m|y1:t ) −supVδc (m) pt , comme d’après le théorème 4.2.1, on a sup |pt − p̄nt | → 0 lorsque n tend vers l’infini, il existe N(εδ ) tel que pour tout n > N(εδ ) on a sup |pt − p̄nt | < εδ /2 Vδc (m) et donc sup p̄nt < pt (m|y1:t ) Vδc (m) par conséquent lim sup sup p̄nt < pt (m|y1:t ) n→∞ Vδc (m) soit encore lim sup n→∞ sup Vδc (m)∩Sn p̄nt < pt (m|y1:t ) Comme d’après le lemme 4.2.2, maxSn ∩Vδ (m) pt → pt (m|y1:t ) et que d’après le théorème 4.2.1, sup |pt − p̄nt | → 0, on en déduit lim sup sup n→∞ Vδc (m)∩Sn p̄nt < lim sup sup n→∞ Vδ (m)∩Sn p̄nt Comme ceci est vrai pour tout δ > 0 on en déduit le résultat. 4.2.2 Estimation du mode par le filtre à convolution avec rééchantillonnage La situation est plus délicate pour le filtre avec ré-échantillonnage. Il n’est pas possible d’appliquer le même raisonnement que pour les filtres à convolution 134 Estimation de l’état d’un système simple, considérés précédemment, puisque l’estimation du filtre optimal ne s’exprime pas comme le quotient d’une densité conjointe et d’une densité marginale. Elle est de la forme suivante Pn Kh (x̃i − xt )Kh (ỹti − yt ) n p̂t (xt |y1:t ) = i=1 Pn t i i=1 Kh (ỹt − yt ) avec les couples {(x̃it , ỹti)}i=1,...,n obtenus en appliquant le système dynamique à des états {x̄it−1 }i=1,...,n générés suivant p̂nt−1 (xt |y1:t). Pour simplifier l’étude théorique, nous ne prenons pas comme estimateur du mode, la valeur xt maximisant p̂nt (xt |y1:t ) mais, nous le calculons à partir de l’étape suivante dans l’algorithme de filtrage. Plus précisément, pour estimer le filtre optimal à l’instant t + 1, on génère tout d’abord n états {(x̄it }i=1,...,n suivant p̂nt (xt |y1:t ). Ces états intermédiaires, x̄it sont utilisés comme éléments de base pour estimer le mode. Par nécessité théorique, on suppose en générer un nombre nm pouvant être différent de n. Ainsi on considère une nouvelle approximation du filtre optimal m p̄n,n (xt |y1:t ) t nm 1 X K̄ (x̄i − xt ) = nm i=1 h̄ t (4.8) Où K̄ est un noyau éventuellement différent de K, le noyau utilisé pour construire le filtre. L’estimateur du mode est ainsi défini par rapport à l’approximation (4.8) : m (xt |y1:t ). m̂n,nm ∈ argmax p̄n,n t (4.9) xt La consistance asymptotique de m̂n,nm est assurée par le théorème qui suit. Théorème 4.2.3 Si le noyau K, utilisé pour le filtrage, est de Parzen-Rosenblatt positif et borné, si p(yt |y1:t−1 ) > 0 et si p(yt |y1:t−1 ) est continue en yt pour tout t, si le noyau K̄, utilisé pour estimer le mode, est une densité bornée, si de plus − supx kxkd K̄(x) < ∞ − Il existe C > 0, tel que supx |K̄(x + y) − K̄(x)| ≤ Ckyk, y ∈ IRd − Pour tout n, pnt (xt |y1:t ) est uniformément continue et vérifie R kxt kγ pnt (xt |y1:t )dxt < ∞ pour certains γ > 0 alors limn→∞ hn = 0 q+d n limn→∞ nh =∞ log n limnm →∞ h̄nm = 0 limnm →∞ nm h̄dnm log nm =∞ =⇒ lim n, nm →∞ m̂n,nm = m ps 4.2 Mode conditionnel 135 Démonstration : m m m sup |p̄n,n (xt |y1:t )]|+ (xt |y1:t ) − IE[p̄n,n (xt |y1:t) − pt (xt |y1:t)| ≤ sup |p̄n,n t t t xt xt ∈V m (xt |y1:t )] − K̄h ∗ pt (xt |y1:t )]| sup |IE[p̄n,n t xt + sup |K̄h ∗ pt (xt |y1:t )] − pt (xt |y1:t )| xt Le lemme de Bochner (A.1.1) assure que lim sup |K̄h ∗ pt (xt |y1:t )] − pt (xt |y1:t )| = 0 h→0 xt Pour tout n fixé, d’après le corollaire A.1.3.1, on a aussi m m lim sup |p̄n,n (xt |y1:t )]| = 0 ps (xt |y1:t ) − IE[p̄n,n t t nm →∞ xt Etudions le cas du troisième terme : R m |IE[p̄n,n (xt |y1:t)] − K̄h ∗ pt (xt |y1:t)]| = | K̄h (xt − u)p̂nt (u|y1:t)du t R − K̄h (xt − u)pt (u|y1:t )du| R ≤ K̄h (xt − u)|p̂nt (u|y1:t ) −pt (u|y1:t)|du R ≤ K̄(u)|p̂nt (u − h̄ xt |y1:t ) −pt (u − h̄ xt |y1:t )|du ≤ max K̄kp̂nt − pt kL1 Or d’après le théorème 3.5.2, on a kp̂nt − pt kL1 → 0 presque sûrement lorsque n → ∞. On en déduit lim m (xt |y1:t ) − pt (xt |y1:t )| = 0 sup |p̄n,n t n,nm →∞ xt ps d’où le résultat. De même que pour les filtres à convolution simple, il est possible de considérer un estimateur du mode ne faisant pas intervenir de procédure d’optimisation, comme celui proposé par Abraham & al. ([1], [2]). Soit m̃n,nm un tel estimateur : m (xt |y1:t ). m̃n,nm = arg max p̄n,n t xt ∈Snm avec Snm = {x̄it−1 }i=1,...,nm . (4.10) 136 Estimation de l’état d’un système Théorème 4.2.4 Sous les hypothèses du théorème 4.2.3, si de plus, pt (xt |y1:t ) vérifie A(ǫ) → 0 lorsque ǫ → 0 alors limn→∞ hn = 0 q+d n limn→∞ nh =∞ log n limnm →∞ h̄nm = 0 limnm →∞ nm h̄dnm log nm =⇒ lim n, nm →∞ m̃n,nm = m ps =∞ Démonstration : La preuve, proche de celle du théorème 4.2.2, s’inspire de Abraham & al. ([1]) et Romano ([114]). Pour tout δ > 0, d’après le lemme 4.2.1, supVδc (m) pt < pt (m|y1:t ). Soit εδ = m pt (m|y1:t )−supVδc (m) pt , comme d’après le théorème 4.2.3, on a sup |pt −p̄n,n |→ t 0 lorsque n et nm tendent vers l’infini, il existe N(εδ ) tel que pour tout n > N(εδ ) et Nm (εδ , n) tel que pour tout nm > Nm (εδ , n) on a m | < εδ /2 sup |pt − p̄n,n t Vδc (m) et donc m < pt (m|y1:t ) sup p̄n,n t Vδc (m) par conséquent lim sup m < pt (m|y1:t ) sup p̄n,n t n,nm →∞ Vδc (m) soit encore lim sup sup n,nm →∞ Vδc (m)∩Sn m < pt (m|y1:t ) p̄n,n t Comme d’après le lemme 4.2.2, maxSnm ∩Vδ (m) pt → pt (m|y1:t ) et que d’après m le théorème 4.2.3, sup |pt − p̄n,n | → 0, on en déduit t lim sup sup n,nm →∞ Vδc (m)∩Snm m < lim sup p̄n,n t sup n,nm →∞ Vδ (m)∩Snm m p̄n,n t Comme c’est vrai pour tout δ > 0, on en déduit le résultat. 4.3 Conclusion du quatrième chapitre Ce chapitre propose deux alternatives pour estimer la valeur de l’état du système dynamique, l’espérance et le mode de la densité du filtre optimal. En général, l’espérance est préférée au mode car elle à la propriété de minimiser l’erreur 4.3 Conclusion du quatrième chapitre 137 quadratique, cependant comme nous l’avons précédemment évoqué, le mode est intéressant pour des densités multimodales avec un mode prédominant. Les estimateurs de l’espérance et du mode sont bâtis à partir d’estimations de la densité du filtre optimal présentées dans le troisième chapitre. L’estimation du mode, par le biais des noyaux de convolution, requiert souvent beaucoup plus de temps de calcul que l’estimation de l’espérance, ce qui est très dissuasif pour du filtrage en ligne. Ce problème, d’ordre pratique, a pu être contourné, grâce à l’emploi d’une technique d’estimation rapide et efficace, inspirée des travaux d’Abraham & al. ([1],[2]). Finalement, nous avons établi, dans ce chapitre, deux techniques d’estimation de l’état d’un système dynamique à base de noyaux de convolution. Ces deux approches ont l’avantage d’être utilisables en ligne tout en étant consistantes. Ces estimations découlent toutes deux, de la densité estimée du filtre optimal. Plus généralement, il est possible d’utiliser cette densité estimée pour bâtir des estimateurs de l’état d’autres natures, tels que des intervalles de confiance ou des quantiles. L’étude des propriétés théoriques de tels estimateurs reste à réaliser, mais elle semble toutefois accessible, au vu des résultats du troisième chapitre et des nombreux travaux, dans la littérature, relatifs aux estimateurs non paramétriques. 138 Estimation de l’état d’un système Chapitre 5 Estimation conjointe états-paramètres d’un système dynamique Les paramètres d’un système dynamique et en particulier d’un modèle de bioprocédé sont souvent très mal connus, sinon totalement inconnus. D’un point de vue pratique il est donc très pertinent en filtrage de chercher à prendre en compte cette méconnaissance, et d’estimer simultanément les états et les paramètres inconnus. Le système dynamique plus général, ci-dessous, nous place dans un tel contexte :  xt+1 = ft (xt , θx , εt ) yt = ht (xt , θy , ηt ) (5.1) Dans la suite, θ = (θx , θy ) ∈ IRp désigne l’ensemble des paramètres inconnus. La nature statistique des bruits aléatoires εt et ηt est supposée totalement connue. Cependant si les variances des bruits sont inconnues, il suffit de supposer qu’ils sont réduits et de mettre leurs écarts-types en paramètres. L’estimation de paramètres de systèmes dynamiques est une tâche souvent difficile, car les données sont dépendantes. Dans le contexte du filtrage, c’est encore plus difficile puisque seulement une partie des données, les y1 , · · · , yt sont disponibles. 140 Estimation conjointe états-paramètres 5.1 Approche empirique Il est parfois possible, pour certains paramètres, de proposer des fonctions de coût à minimiser. C’est par exemple le cas, quand le bruit est additif sur le modèle d’observation et que les paramètres inconnus sont uniquement dans le modèle d’état :  xt+1 = ft (xt , θ, ε) (5.2) yt = ht (xt ) + ηt Pour un tel système, la fonction coût définie par l’expression T h 1 X 2 i2 C(θ) = yt − ht x bt (θ) − ση2 T t=1 avec x bt (θ) un estimateur de IE[xt |y1:t , θ], est naturelle. En effet, si xt remplace x bt (θ), par la loi forte des grands nombres on a que C → 0 lorsque T → ∞. Comme il est raisonnable de supposer que x bt (θ) est d’autant plus proche de xt que θ est proche de sa vraie valeur, il semble donc pertinent de minimiser C(θ). En pratique, pour notre approche, la minimisation de C(θ) n’est pas évidente car x bt (θ) est aléatoire, puisque dépendant des particules générées. Il faut donc avoir recours à des procédures de minimisation spéciales, très lourdes en terme de temps de calcul et qui visent la minimisation de IE[C(θ)]. De plus, théoriquement, il est très difficile, voire impossible, d’étudier l’erreur commise en minimisant cette fonction, sa justification n’étant qu’empirique. Nous préférons donc proposer une adaptation des estimateurs statistiques classiques à nos filtres, plutôt que de chercher des fonctions de coût originales et d’étudier leurs propriétés. Cependant, les résultats de la minimisation de C(θ) sur quelques exemples sont donnés, à titre indicatif, dans le chapitre portant sur les applications. Le problème théorique de la minimisation de C(θ) est essentiellement dû au terme x bt (θ). En effet, les propriétés statistiques de x bt (θ) sont inconnues et il en serait de même si on le remplaçait par IE[xt |y1:t , θ]. Un moyen simple pour éluder cet obstacle est d’utiliser uniquement les y1 , · · · , yt observés pour estimer les paramètres. Toutes les méthodes proposées par la suite sont basées sur ce principe. En premier lieu les estimateurs usuels en statistique sont considérés : les moindres carrés et le maximum de vraisemblance. Le calcul de ces deux estimateurs fait appel à une étape de minimisation ou maximisation, cette phase est assez problématique pour nos filtres. En effet, comme il a été évoqué précédemment 5.2 Estimateurs des Moindres Carrés conditionnels 141 certaines quantités considérées dans les deux cas sont aléatoires. Après une discussion autour de ce problème, est proposée une autre méthode d’estimation, dans l’esprit de Monte Carlo, évitant cette phase d’optimisation. 5.2 Estimateurs des Moindres Carrés conditionnels L’estimateur des moindres carrés usuel n’est pas ici applicable puisque seuls les yt sont à disposition et ils sont, de plus, dépendants. Considérons donc un estimateur des moindres carrés conditionnel, introduit pour traiter les séries chronologiques (Tong [124]). 5.2.1 Estimateur théorique Cette généralisation des moindres carrés, permet dans le cas de variables dépendantes, d’estimer des paramètres inconnus de leur distribution. Ces résultats présentés par Tong([124]) sont issus des travaux de Klimko et Nelson ([90]). Leur caractère général leur donne un grand intérêt, mais le calcul pratique de cet estimateur est souvent mal aisé. Soit le processus stochastique yt , t = 1, 2, · · · , défini sur un espace probabilisé (Ω, F , Pθ ), dont la distribution dépend du vecteur θ = (θ1 , · · · , θp ) appartenant à un ouvert d’un espace euclidien. Dans la suite, la vraie valeur des paramètres est notée θ0 . Soit Ft la tribu engendrée par y1 , · · · , yt , g(θ, Ft ) = IEθ [yt+1 |Ft ] et ut (θ) = yt − g(θ, Ft−1 ). Le processus {ut (θ0 )} introduit ci-dessus, est une différence de martingales, les propriétés de ces objets sont étudiées en détail par Stout ([123]). Etant donnés y1 , · · · , yT , pour estimer θ selon ce critère, il faut minimiser la somme des carrés conditionnels définie par QT (θ) = T −1 X t=1 (yt+1 − g(θ, Ft ))2 L’estimateur θT de θ0 , est donc solution du système d’équations ∂QT (θ) = 0 i = 1, · · · , p. ∂θi 142 Estimation conjointe états-paramètres La démonstration de la convergence de θT vers θ0 repose sur le contrôle du développement de Taylor à l’ordre 2 de QT . Il faut donc supposer que IEθ [yt+1 |Ft ] est deux fois différentiable par rapport à chacun des paramètres (θ1 , · · · , θp ). Les hypothèses du théorème étant faites sur des éléments du développement de Taylor, nous allons d’abord l’expliciter. Il existe un θ∗ , vérifiant kθ0 − θ∗ k ≤ kθ0 − θk tel que : QT (θ) = QT (θ0 ) + (θ − θ0 )′ ∂QT (θ0 ) 1 ∂ 2 QT (θ∗ ) + (θ − θ0 )′ (θ − θ0 ) ∂θ 2 ∂θ2 ∂QT (θ0 ) 1 + (θ − θ0 )′ VT (θ − θ0 ) = QT (θ0 ) + (θ − θ0 )′ ∂θ 2 1 ′ ∗ + (θ − θ0 ) RT (θ )(θ − θ0 ) 2 avec VT = ∂ 2 QT (θ0 ) ∂θ2 ∂ 2 QT (θ∗ ) − VT . ∂θ2 L’hypothèse fondamentale du théorème est RT (θ∗ ) = 2 VT → V T (5.3) ps où V est une matrice constante définie positive. Cependant, la fonction QT considérée ici, donne plus d’information sur cette hypothèse. En remarquant que T −1 T −1   X ∂g(θ, Ft ) ∂g(θ, Ft )   X ∂ 2 g(θ, Ft ) 1 u (θ ) VT = − t+1 0 ij i,j 2 ∂θi ∂θj ∂θi ∂θj t=1 t=1 l’ajout d’une hypothèse d’intégrabilité, entraîne par la loi forte pour les martingales ([123]) T −1 1 X ∂ 2 g(θ, Ft ) ut+1 (θ0 ) → 0 ps. T t=1 ∂θi ∂θj Il reste alors seulement à montrer, pour satisfaire l’hypothèse 5.3, que T −1 1  X ∂g(θ, Ft ) ∂g(θ, Ft )  →V T t=1 ∂θi ∂θj ps. A présent que les notations sont précisées, énonçons le théorème de Klimko et Nelson ([90]) : 5.2 Estimateurs des Moindres Carrés conditionnels 143 Théorème 5.2.1 Supposons que (i) limT →∞ supδ→0 (RT (θ∗ )ij /nδ) < ∞ ps, avec i, j ≤ p (ii) 5.3 est vérifiée (iii) T −1 ∂QT (θ0 )/∂θi → 0, ps avec i ≤ p Soient ε > 0, δ > 0 donnés et Nδ la sphère centrée en θ0 de rayon δ. Alors pour certains δ ∗ , 0 < δ ∗ < δ, il existe un événement E avec P (E) > 1 − ε et un entier T0 tels que, pour tout T > T0 , QT atteint un minimum relatif en θT ∈ Nδ∗ La démonstration s’appuie sur le théorème d’Egorov (voir [91]) et utilise les hypothèses pour majorer les termes du développement de Taylor. Elle est détaillée dans ([124]) et ([90]). Toutefois, il est important de noter qu’elle reste valable pour toute fonction QT vérifiant les hypothèses (i)-(iii). Corollaire 5.2.1.1 Sous les hypothèses du théorème précédent, il existe une suite d’estimateurs θT → θ0 ps, et pour ε > 0, il existe un événement E avec P (E) > 1 − ε et un T0 tels que sur E pour T > T0 , QT atteigne un minimum relatif en θT Des résultats de vitesse de convergences et de normalité asymptotiques sont aussi donnés dans ([90]) sous l’ajout d’autres hypothèses. Cet estimateur est intéressant, mais en général, et surtout dans notre contexte, la quantité g(θ, Ft ) = IEθ [yt+1 |Ft ] est inconnue. Il faut donc se contenter de l’estimer. Or, les noyaux de convolution appliqués sur les trajectoires simulées suivant le système nous permettent de construire un estimateur. L’étude de l’impact sur θT de la substitution de IEθ [yt+1 |Ft ] par un estimateur, lors d’un calcul pratique, est réalisée dans la section suivante. 5.2.2 L’estimateur en pratique Dans le contexte du filtrage, la quantité IEθ [yt+1 |Ft ] n’est pas accessible ; il faut alors la remplacer par un estimateur noté mt+1,n (θ). Dans un premier temps, nous précisons la forme de mt+1,n (θ) pour notre approche par noyaux de convolution. Le n ,différent du temps, représente l’asymptotique de l’estimateur. Dans notre cas, n correspond au nombre de trajectoires simulées. Dans un deuxième temps, nous étudions l’effet de cette substitution sur le plan théorique. 144 Estimation conjointe états-paramètres Construction de l’estimateur Rappelons tout d’abord la forme du système de notre cadre de travail  xt+1 = ft (xt , θx , εt ) yt = ht (xt , θy , ηt ). (5.4) Soit un instant t + 1 fixé. Supposons que les paramètres θ sont connus, les observations (y1 , · · · , yt+1 ) suivent alors une loi νt+1 . Si la densité de y1:t est notée gt R et ψt+1 (y1:t ) = yt+1 dνt+1 (y1:t , yt+1 ) alors IE[yt+1 |y1, · · · , yt ] = ψt+1 (y1 , · · · , yt ) gt (y1 , · · · , yt ) Mais les deux fonctions gt et ψt+1 dépendent des paramètres θ. Cette dépendance est prise en compte au travers des notations ψθ,t+1 et gθ,t . La quantité à estimer peut alors s’écrire sous la forme : ψθ,t+1 (y1 , · · · , yt ) gθ,t(y1 , · · · , yt ) Il suffit de construire des estimateurs de ψθ,t+1 et gθ,t . Or les fonctions ft ,ht et la distribution de l’état initial x0 sont connues. Donc pour un θ donné, il est possible de générer n trajectoires (x̃it , ỹti) où t ∈ IN∗ et i = 1, · · · , n suivant le système 5.4. Et pour tout i = 1, · · · , n, (ỹ1,i , · · · , ỹt+1,i ) ∼ νθ,t+1 . L’estimateur de IEθ [yt+1 |y1 , · · · , yt ], mt+1,n (θ), construit à partir de ces trajectoires est défini par IEθ [yt+1 |y1 , · · · , yt ] = mt+1,n (θ) = ψn,θ,t+1 (y1:t ) gn,θ,t(y1:t ) Pn i i i=1 Khn (ỹ1:t − y1:t )ỹt+1 P = n i i=1 Khn (ỹ1:t − y1:t ) où ψn,θ,t+1 et gn,θ,t sont respectivement les estimateurs de ψθ,t et gθ,t construits P i . avec le noyau de convolution K et l’estimateur empirique de νθ,t , νn,θ,t = n1 ni=1 δỹ1:t L’estimation de la fonction QT est ainsi définie par bT,n (θ) = Q T X t=1 (yt − mt,n (θ))2 et l’estimateur des moindres carrés associé est bT,n (θ) θbT,n = arg min Q θ 5.2 Estimateurs des Moindres Carrés conditionnels 145 Etude de ses propriétés théoriques Pour obtenir des résultats de convergence, il est nécessaire d’introduire une bT,n vers QT , car on a besoin hypothèse de type convergence uniforme sur θ de Q de la convergence des “argmin”. On sera confronté au même type de problème pour le maximum de vraisemblance. Comme on utilise un nombre fini d’estimateurs m1,n (θ), . . . , mT,n (θ) pour construibT,n , il suffit donc d’imposer la contrainte à ces derniers. re Q L’approche la plus simple consiste à introduire l’hypothèse H : ∀ t ∈ IN, mt,n (θ) converge uniformément en θ vers IEθ [yt+1 |Ft ] ps Théorème 5.2.2 Sous H et sous les hypothèses du théorème 5.2.1 Il existe une suite d’estimateurs θbT,n → θ0 ps, lorsque T et n tendent vers l’infini, et pour ε > 0, il existe un événement E avec P (E) > 1 − ε et un T0 tels que sur bT,n atteigne un minimum en θbT,n . E pour T > T0 , Q Démonstration : D’après le théorème 5.2.1, on sait que le résultat est vrai pour la suite d’estimateur θT , minimiseurs de QT . Comme pour tout T fixé, QT,n dépend d’un nombre fini d’estimateurs mt,n (θ) uniformément convergents, QT,n converge uniformément vers QT . Et donc θT,n converge vers θT ps. Cette hypothèse H est difficile à vérifier en pratique puisqu’elle dépend essentiellement du système dynamique considéré et du rôle tenu par le paramètre. Il est aussi possible, d’utiliser une hypothèse moins forte basée sur des propriétés d’épiconvergence. La propriété d’épi-convergence pour une suite de fonctions, garantit la convergence des argmin vers l’argmin de la fonction limite. Nous donnons ici uniquement les éléments utiles à notre problématique ; pour plus de détail sur ces notions, on peut se référer par exemple à Rockafellar & Wets([113] ou à Dal Maso ([27]). Définition 5.2.1 Soit une suite de fonction fn d’un espace métrique (E, d) dans ¯ S’il existe une fonction f telle que pour tout x ∈ E, IR. sup lim inf inf fn (y) = sup lim sup inf fn (y) = f (x) O∈Vx n→∞ y∈O O∈Vx n→∞ y∈O avec Vx ensemble des voisinages ouverts de x dans E, alors on dit que la suite fn est épi-convergente vers f 146 Estimation conjointe états-paramètres Le théorème suivant précise la propriété des suites épi-convergentes qui nous intéresse. Théorème 5.2.3 ( Corollaire 7.20 dans Dal Maso ([27]) Soient une suite fn épiconvergente vers f et xn un minimiseur de fn . Si x∗ est un point d’accumulation de (xn ) alors x∗ est un minimiseur de f et f (x∗ ) = lim sup fn (xn ). n→∞ Si (xn ) converge vers x∗ , alors x∗ est un minimiseur de f et f (x∗ ) = lim fn (xn ). n→∞ Comme, dans notre contexte, les estimations sont ponctuellement convergentes sous certaines conditions, le résultat du théorème 5.2.4 ci-dessous est intéressant. ¯ Définition 5.2.2 Une suite de fonction fn d’un espace métrique (E, d) dans IR est dite équi-continue si pour tout ǫ > 0 , il existe un η > 0 et un N tel que pour tout n > N, tout couple (x, y) vérifiant d(x, y) < η on a |fn (x) − fn (y)| < ǫ Théorème 5.2.4 ( Proposition 5.9 dans Dal Maso ([27]) Si une suite fn est équicontinue sur E, alors les deux propositions suivantes sont équivalentes : (i) fn est épi-convergente vers f (ii) fn convergence ponctuellement vers f Ainsi on peut remplacer l’hypothèse H par la suivante H′ : ∀ t ∈ IN, mt,n (θ) est équi-continue en θ Théorème 5.2.5 Sous H′ et sous les hypothèses du théorème 5.2.1, si - les observations yt sont contenues dans un compact G. - le noyau K est positif lipschitsien. - limn→∞ h = 0 et limn→∞ nhtd / log n = ∞. Il existe une suite d’estimateurs θbT,n → θ0 ps lorsque T et n tendent vers l’infini, et pour ε > 0, il existe un événement E avec P (E) > 1 − ε et un T0 tels que sur bT,n atteigne un minimum en θbT,n . E pour T > T0 , Q Démonstration : D’après les théorèmes énoncés au chapitre 4, si les y1 , · · · , yt sont contenus dans un compact G et le noyau K est positif lipschitsien, alors les conditions limn→∞ h = 0 et limn→∞ nhtd / log n = ∞ entraînent la convergence 5.3 Maximum de vraisemblance 147 presque sûre de mk+1,n (θ) vers IEθ [yk+1|y1 , · · · , yt ] sur G pour tout k ≤ t et pour tout θ. Donc à T fixé, Q̂T,n convergence presque sûrement vers QT , pour tout θ. Ainsi, d’après l’hypothèse H′ et le théorème 5.2.4, on a que Q̂T,n est épiconvergente presque surement vers QT . Le théorème 5.2.1 permet de déduire le résultat. 5.3 Maximum de vraisemblance Pour faciliter la lecture, rappelons la forme générale du système au coeur de notre étude :  xt+1 = ft (xt , θx , εt ) yt = ht (xt , θy , ηt ) où les fonctions ft ,ht et la nature statistique des bruits sont connues. L’idée de maximiser la vraisemblance de θ = (θx , θy ) ∈ IRp est naturelle, elle est donc apparue très tôt. Kitagawa([87],[88]) notamment a proposé une estimation de la vraisemblance. Bien entendu, la vraisemblance n’est pas généralement calculable, il faut alors avoir recours à des estimations. Or les approches de type Monte Carlo fournissent des estimations aléatoires. La maximisation est ainsi très lourde en terme de temps de calcul. Doucet([55]) a récemment étudié la question. Il propose deux méthodes de maximisation de type gradient. Les résultats obtenus sur différents exemples sont encourageants malgré quelques problèmes de variabilité du gradient. Les estimateurs de la vraisemblance, présentés dans cette partie, sont construits à partir de nos filtres par convolution. Le problème de la maximisation est discuté dans la section suivante. La vraisemblance des observations θ est par définition : L(θ) = p(y1, · · · , yt|θ) = p(y1|θ) t Y i=2 p(yi|y1 , · · · , yi−1 , θ). Suivant le filtre à noyau de convolution utilisé, l’estimateur de la vraisemblance varie. Les différents cas sont détaillés dans les sections suivantes. 148 Estimation conjointe états-paramètres Estimation du maximum de vraisemblance pour un filtre à mémoire complète Le cas du filtre à mémoire complète est très simple ; il n’est pas utile de décomposer la vraisemblance en produit de densités conditionnelles puisqu’une estimation immédiate est disponible : bn (θ) = pn (y1, · · · , yt |θ) L n 1X i i − y1:t ) Khn (ỹ1:t = n i=1 Ainsi comme estimateur du maximum de vraisemblance on prend bn (θ) θ̂n = arg max L θ Estimation du maximum de vraisemblance pour un filtre à mémoire tronquée Dans cette partie, on suppose que le filtre optimal ne requiert pas toute la mémoire (cf. §3.3). Concrètement, il est suffisant de connaître les T dernières observations : p(xt |y1 , · · · , yt ) = p(xt |yt−T , · · · , yt ). Lorsque la mémoire est tronquée, il est nécessaire de passer par la décomposition en produit de densités conditionnelles. Plus précisément : L(θ) = = t Y i=1 T Y i=1 p(yi |y1 , · · · , yi−1 , θ). p(yi |y1 , · · · , yi−1 , θ) = p(y1, · · · , yT |θ) t Y i=T +1 t Y i=T +1 p(yi|yi−T , · · · , yi−1, θ). p(yi |yi−T , · · · , yi−1, θ) L’estimateur s’obtient naturellement en substituant, aux densités, leurs estimations : bn,T (θ) = pn (y1 , · · · , yT |θ) L t Y pnT (yi|yi−T , · · · , yi−1, θ) i=T +1 Pn j j t n Y X 1 j=1 Khn (ỹi−T :i − yi−T :i ) i i Khn (ỹ1:T − y1:T ) = Pn j j n i=1 j=1 Khn (ỹi−T :i−1 − yi−T :i−1 ) i=T +1 5.3 Maximum de vraisemblance 149 Ainsi comme estimateur du maximum de vraisemblance on prend bn,T (θ) θ̂n,T = arg max L θ Estimation du maximum de vraisemblance pour un filtre avec sélection La situation est plus complexe à formaliser pour le filtre avec sélection. Dans ce cas il est nécessaire d’introduire des ȳti intermédiaires dans l’algorithme de génération. Il faut procéder de la manière suivante : - Au temps t > 1.  - Soient x̃it−1 , où i = 1, · · · , n des réalisations de p xt−1 |Bǫ (y1:t−1 ) . - Par évolution des n réalisations suivant le système dynamique sans sélection on obtient (x̄it , ȳti), où i = 1, · · · , n.  - Ainsi les ȳti , avec i = 1, · · · , n sont des réalisations de p yt |Bǫ (y1:t−1 ) . On peut alors construire un estimateur de la vraisemblance par convolution des ȳti : bn,ǫ (θ) = L t Y i=1  pn yi |Bǫ (y1:i−1 ) . n t Y 1X Khn (ȳij − yi ) = n j=1 i=1 Mais les variables ainsi simulées (x̄it , ȳti), ne sont pas utilisables pour continuer le filtrage. Il faut simuler des (x̃it , ỹti), telles que ỹti ∈ Bǫ (y1:t ). L’estimateur du maximum de vraisemblance est alors bn,ǫ (θ) θ̂n,ǫ = arg max L θ Estimation du maximum de vraisemblance pour un filtre avec ré-échantillonnage Comme pour le cas précédent, la formalisation n’est pas immédiate. Mais il n’est pas nécessaire, dans ce cas, d’introduire des variables intermédiaires. Toutes 150 Estimation conjointe états-paramètres les quantités nécessaires au calcul de l’estimateur sont calculées au cours de l’algorithme de filtrage par noyau avec ré-échantillonnage. En effet, plaçons-nous à un instant t fixé : - Soit pn (xt |y1 , · · · , yt ) l’ estimation du filtre optimal fournie par l’algorithme. - Génération des x̄it , pour i = 1, · · · , n suivant pn (xt |y1 , · · · , yt ). i - Evolution des x̄it suivant le système dynamique pour obtenir (x̃it+1 , ỹt+1 ) où i = 1, · · · , n. i - Ainsi les ỹt+1 , avec i = 1, · · · , n sont des réalisations de pn (yt+1 |y1:t ). i En appliquant à chaque instant t, un noyau de convolution aux ỹt+1 , on obtient l’estimation de la vraisemblance suivante : br (θ) = L n n t Y 1X Khn (ỹij − yi) n j=1 i=1 On prend donc comme estimateur du maximum de vraisemblance θ̂nr défini comme suit : br (θ) θ̂r = arg max L n θ n Propriétés théoriques des estimateurs Pour montrer la convergence de ces différents estimateurs de θ : θ̂n ,θ̂n,T , θ̂n,ǫ ou θ̂nr , il est nécessaire d’introduire, comme pour l’estimateur des moindres carrés conditionnel, une hypothèse de type convergence uniforme en θ, de l’approximation de la vraisemblance. Ainsi chacun des estimateurs considérés converge vers le maximum de la vraisemblance associé aux t données y1 , . . . , yt, lorsque n tend vers l’infini et le maximum de la vraisemblance converge presque sûrement vers θ (sous les hypothèses usuelles) lorsque t tend vers l’infini. Ce qui précède peut se résumer par le théorème suivant Théorème 5.3.1 Soit θt l’estimateur du maximum de vraisemblance de θ. Soit θn,t = arg max Ln (θ), avec Ln estimation de la vraisemblance L(θ) pour y1 , . . . , yt . Si Ln converge uniformément en θ vers L pour tout t alors lim θn,t = θt n→∞ ps 5.3 Maximum de vraisemblance 151 Démonstration : Par hypothèse, pour tout ǫ > 0, pour tout t, il existe un N tel que, pour tout n > N, on ait kθt − θn,t k ≤ ǫ. Cette hypothèse de convergence uniforme est très forte et très difficile à étudier en pratique. Comme dans le cas de l’estimation des moindres carrés conditionnels, pour certains de nos filtres à noyaux de convolution, on peut considérer une hypothèse plus faible d’équi-continuité. Il est possible d’utiliser cette hypothèse plus faible seulement pour les filtres convergeant ponctuellement. Or les résultats de convergence ponctuelle presque sûre ont été établis pour tous les filtres considérés ci-dessus, excepté le filtre avec ré-échantillonnage. Les hypothèses varient légèrement suivant l’estimateur considéré : bn Théorème 5.3.2 Soit θt l’estimateur du maximum de vraisemblance de θ. Si L est équi-continue en θ, si K est un noyau de Parzen-Rosenblatt positif et borné, si L est continue au point y1 , . . . , yt alors limn→∞ hn = 0 =⇒ lim θ̂n = θt nhtq n n→∞ =∞ limn→∞ log n ps Démonstration : Comme la vraisemblance correspond à la densité conjointe des y1 , . . . , yt, L(θ) = p(y1 , . . . , yt |θ), les hypothèses du théorème 3.2.2 étant vérifiées, on a la convergence ponctuelle presque sûre pour tout θ de Ln vers L. Ainsi, d’après le théorème 5.2.4, on a que Ln est épi-convergente vers L. D’où le résultat. Remarque : Dans ce théorème on suppose implicitement l’existence d’un unique maximum pour la fonction de vraisemblance. Même si ce n’est pas le cas, la propriété d’épi-convergence assure la convergence de θ̂n vers un élément de l’argmax de la vraisemblance. bn,T Théorème 5.3.3 Soit θt l’estimateur du maximum de vraisemblance de θ. Si L est équi-continue en θ, si K est un noyau de Parzen-Rosenblatt positif et borné, si L est continue au point yt−T , . . . , yt alors limn→∞ hn = 0 Tq =⇒ lim θ̂n,T = θt n n→∞ =∞ limn→∞ nh log n Démonstration : Idem théorème 5.3.2. ps 152 Estimation conjointe états-paramètres bn,ǫ Théorème 5.3.4 Soit θt l’estimateur du maximum de vraisemblance de θ. Si L est équi-continue en θ, si K est un noyau de Parzen-Rosenblatt positif et borné, si L est continue au point y1 , . . . , yt alors limn→∞ ǫn = 0 lim θ̂n,ǫn = θt limn→∞ logn n = ∞ =⇒ n→∞ ps tq ǫn Démonstration : Même raisonnement que pour le théorème 5.3.2, mis à part que l’on s’appuie sur le résultat de convergence ponctuelle du filtre avec sélection établi par le théorème 3.4.5. 5.4 Problèmes d’optimisation relatifs à l’estimation de paramètres L’estimation des moindres carrés et toutes les estimations de la vraisemblance proposées précédemment sont aléatoires conditionnellement aux observations. En effet, pour les calculer avec des observations y1:t fixées, il est nécessaire de générer des particules, suivant des lois de probabilités dépendantes de la valeur de θ. Pour obtenir des estimations classiques des moindres carrés ou du maximum de vraisemblance, il faut donc faire appel à des procédures d’optimisation stochastique pour minimiser l’espérance de l’estimation des moindres carrés ou pour maximiser l’espérance de l’estimation de la vraisemblance. L’étude des problèmes d’approximation et d’optimisation stochastiques est assez ancienne. La première approche est due à Robbins & Monro ([111]). Ils ont proposé une méthode pour calculer la solution d’une équation du type M(x) = m lorsque des Y (x) tels que IE[Y (x)] = M(x) sont uniquement observés. Parmi les nombreux travaux visant à étudier les propriétés théoriques des algorithmes d’approximation stochastique, on peut citer parmi les plus récents, ceux de Delyon([45]) ou de Chen & al. ([22]). Pour une étude plus générale de l’approximation stochastique on peut se référer à Delyon([46]). A noter que les travaux de Chen & al. ([22]) ont pour but de régler les problèmes de stabilité de l’algorithme initial de Robbins-Monro. Cependant, notre objectif est légèrement différent. Nous cherchons à minimiser ou maximiser l’espérance d’une fonction aléatoire. Peu de temps après RobbinsMonro, Kiefer & Wolfowitz ([86]) ont été les premiers à introduire une pro- 5.4 Problèmes d’optimisation 153 cédure de maximisation stochastique. Ces deux procédures sont à l’origine de nombreuses procédures d’optimisation stochastique, ainsi la technique récemment élaborée par Doucet([55]) est elle une modification de l’algorithme de RobbinsMonro. Le principal défaut de ces approches est la lenteur de leur convergence ; plusieurs procédures d’accélération de la convergence ont donc été proposées. Lors des applications, nous avons comparé les approches originales et l’approche avec accélération de la convergence mise au point par Fabian([61]). Les performances observées pour la procédure de Fabian sont supérieures à celles de la méthode standard de Kiefer-Wolfowitz. Les principes de sa mise en oeuvre sont exposés en annexe. Cependant, le temps de calculs requis est toujours très lourd et certains paramètres étant au choix de l’utilisateur, la prise en main de cette procédure de minimisation n’est donc pas aisée. Comme un des objectifs de cette thèse est de fournir des techniques d’estimation suffisamment rapides pour une utilisation en ligne, nous n’avons pas poussé plus avant les investigations sur cette voie. Bien entendu, pour une estimation des paramètres hors ligne, une telle approche est envisageable. Dans ce cas, pour chaque système considéré il sera nécessaire de réaliser une étape préliminaire pour régler les paramètres de l’algorithme de minimisation stochastique. Pour contourner le problème lié au caractère aléatoire des fonctions à minimiser ou maximiser, une approche, utilisable pour certains de nos filtres, est envisageable. Il s’agit de s’affranchir du caractère aléatoire, en restant sur une réalisation du hasard fixée. Cette approche s’apparente à des techniques d’optimisation sur des estimations MCMC, voir Geyer ([63]), pour une revue autour de cette question. Le principe est le suivant : pour tous les instants t du passé, les quantités aléatoires simulées sont identifiées à leurs réalisations, il est alors possible d’utiliser les algorithmes de minimisation classiques de type Gauss-Newton. L’estimation des paramètres est ainsi obtenue pour une réalisation aléatoire donnée. Malheureusement, cette technique, qui consiste à figer les variables aléatoires du passé n’est pas applicable à tous les filtres par convolution proposés. Elle peut uniquement s’appliquer au filtre à mémoire complète et au filtre à mémoire tronquée car aucune sélection n’est effectuée sur les particules. De cette manière, la fonction à optimiser n’est plus aléatoire. Pour le filtre avec sélection ou le filtre avec ré-échantillonnage, les étapes de sélection ou de ré-échantillonnage maintiennent un caractère aléatoire à la fonction à optimiser. Bien que les aléas soient figés, on reste dans le cadre de la minimisation stochastique. 154 Estimation conjointe états-paramètres En contrepartie, cette technique d’aléas figés semble particulièrement bien adaptée au cas des systèmes dynamiques contrôlés évoqué dans le chapitre suivant. En effet, la recherche du contrôle optimal dans le cadre stochastique, consiste à minimiser l’espérance d’une fonction aléatoire. Or, le caractère aléatoire est lié à la génération de particules utilisées pour prédire les états futurs du système. Par conséquent, toutes ces générations de particules sont réalisées sans aucune sélection. Ainsi, quel que soit le filtre utilisé, il est possible d’appliquer cette technique pour chercher la commande optimale. L’étude des propriétés théoriques de cette technique n’est pas réalisée ici. Il est important de noter que des résultats sur la moyenne d’estimations, calculés sur un ensemble de réalisations données, ne serait pas d’un grand intérêt puisque l’objectif de cette technique est de gagner du temps. Pour rester dans l’esprit de cette approche, il serait intéressant d’étudier le comportement de l’estimateur du paramètre (sur une réalisation du hasard), lorsque le nombre d’observations tend vers l’infini. Il semble donc que l’ajout d’une hypothèse d’ergodicité soit nécessaire à l’obtention de tels résultats théoriques. De plus, il est peut-être envisageable, d’adapter une démarche comparable à celle de l’approche plus générale présentée dans les paragraphes suivants. Des travaux de Hürzeler & Künsch ([82]), inspirés de techniques d’approximation et de maximisation de vraisemblance par des méthodes MCMC présentées par Geyer([63], offrent un cadre théorique général pour de telles démarches. L’idée est que les variables aléatoires, générées pour calculer l’estimation d’intérêt, restent valables lorsque les paramètres θ varient et qu’il suffit de faire varier leurs poids respectifs. Afin de préciser ce concept, soit une fonction coût u(θ) à optimiser définie par u(θ) = IEθ [g(θ, Y )] = Z g(θ, y)dPθ (y) où la fonction g est connue et la loi de probabilité de y dépend de θ. Soient Y1 , . . . , Yn un échantillon de Pθ alors une estimation MCMC de u(θ) est donnée par n 1X un (θ) = g(θ, Yi) n i=1 Pour optimiser un (θ), il faut donc avoir recours à des techniques d’optimisation stochastique. Mais si l’on suppose qu’il existe une loi de probabilité Q indépen- 5.4 Problèmes d’optimisation 155 dante de θ, telle que Pθ admette une densité fθ par rapport à Q, alors on a Z u(θ) = g(θ, y)fθ (y)dQ(y) Soient Y1 , . . . , Yn un échantillon de Q alors n 1X g(θ, Yi)fθ (Yi ) un (θ) = n i=1 ainsi il est possible d’optimiser un (θ) grâce aux techniques classiques (non stochastique). L’étude des propriétés théoriques de cette méthode d’optimisation statique est réalisée dans Geyer([63]). Une adaptation au contexte séquentiel du filtrage non linéaire, pour la maximisation de la vraisemblance, est réalisée par Hürzeler & Künsch ([82]) . Plusieurs problèmes se posent en pratique ; par exemple, pour certaines valeurs des paramètres, tous les poids associés aux variables peuvent être faibles, fournissant alors une estimation de mauvaise qualité. Cependant, cette approche demeure très attractive car elle permet de réaliser des optimisations à l’aide d’un seul échantillon. De plus, elle reste tout à fait valide lorsque la valeur des paramètres varie peu. Ainsi Cérou & al. [[17]) ont proposé une estimation du filtre dérivé basée sur ce principe. Bien entendu, Il est aussi possible d’utiliser une version stochastique de l’algorithme EM pour ce type de problème d’optimisation. Hürzeler & Künsch ([82]) proposent quelques références sur cette alternative, mais sa difficulté d’implémentation la rend rédhibitoire. 5.5 Estimation des paramètres par une approche bayésienne L’idée d’utiliser des méthodes particulaires à des fins d’estimation de paramètres n’est pas nouvelle. Pour une revue de la question, on peut consulter Doucet ([55]) ou Liu & West ([98]). Le principe général est simple : le paramètre θ est muni d’une loi a priori initiale p0 (θ) et le paramètre est ajouté dans l’état zt = (xt , θ). De manière analogue au filtre de Monte Carlo pondéré, à chaque instant la loi de θ est estimée. Plusieurs problèmes se posent alors pour l’évolution des θ̃ti générés, d’un instant t à t + 1. i La première approche consiste à ne faire subir aucune évolution aux θ̃t+1 = θ̃ti . 156 Estimation conjointe états-paramètres Cette technique parait assez rigoureuse théoriquement mais, en pratique, elle est catastrophique. L’exploration de différentes valeurs pour θ est uniquement réalisée dans l’étape d’initialisation. On aboutit donc quel que soit le filtre de Monte Carlo utilisé à une divergence de l’algorithme. En effet, pour le filtre pondéré classique tout le poids est rapidement attribué à une valeur qui a peu de chances d’être la bonne. Pour le filtre avec interaction, la diversité des valeurs de θ̃ti baisse inévitablement à chaque instant. L’idée naturelle pour éviter cette perte de diversité consiste à perturber un peu les valeurs des θ̃t pour continuer à explorer différentes valeurs des paramètres au i cours de l’algorithme. Leur évolution θ̃t+1 = θ̃ti + ηt est donc artificiellement bruitée (voir par exemple Liu & West ([98]). Ce type de méthode empirique peut être englobé dans un cadre plus rigoureux où l’on impose une dynamique artificielle aux paramètres (Kitagawa[89],Higuchi[74]). Une autre approche, proposée par Gilks & Berzuini ([65]), n’utilise pas de dynamique artificielle, mais un modèle de Markov caché. Mais cette dernière approche ne permet pas d’estimer la valeur des paramètres et soulève quelques problèmes théoriques. A notre connaissance, les méthodes de filtrage de type Monte-Carlo ne sont globalement pas efficaces, pour estimer les paramètres d’un système dynamique. Cela est, essentiellement, dû au caractère discret de la mesure de probabilité empirique associée aux paramètres. Plus simplement, ces procédures souffrent des mêmes problèmes que les filtres de Monte-Carlo. Pour contourner ce problème West([131]) a proposé de lisser la mesure empirique obtenue de la loi a posteriori des paramètres, avec une loi normale. Dans une certaine mesure, l’approche que nous proposons ici, est une généralisation de cette idée. En effet, la procédure de filtrage par noyau de convolution fournit uniquement des densités de probabilités. Le problème dû au caractère discret est ainsi naturellement éludé. Dans notre approche, le noyau peut bien sûr être une loi normale, d’où le lien avec West([131]). Mais tout autre fonction vérifiant les conditions imposées aux noyaux peut convenir. Il est vrai, que la convolution par un noyau peut être vue comme un bruit artificiel. Ainsi, notre approche pourrait s’apparenter à celles précitées. Cependant, il demeure certaines différences à son crédit. Notre démarche reste totalement rigoureuse, puisque nous utilisons le modèle naturel θt+1 = θt , les résultats de convergence sont établis dans la suite. Ce qui, en terme de bruitage artificiel de la dynamique, signifie que l’on a identifié toute une famille de bruits acceptables et que l’on a caractérisé la façon dont leur variance doit décroître vers zéro. 5.5 Approche bayésienne 157 En pratique, le problème va se présenter comme pour le filtre par noyau avec ré-échantillonnage. Une densité de probabilité des paramètres pnt (θ|y1:t ) est estimée à chaque instant t et à l’instant t + 1, un échantillon de θ̃ est tiré suivant pnt (θ|y1:t ) avant d’effectuer l’évolution des particules ainsi régénérées. Puis, en tenant compte de la nouvelle observation yt+1 , une nouvelle estimation de la densité conditionnelle des paramètres est construite. Il suffit ensuite de recommencer les mêmes opérations à chaque instant. Cette procédure d’estimation de θ s’intègre facilement à tous les filtres par noyau de convolution proposés. Afin de clarifier la formalisation de cette procédure, un algorithme permettant son implémentation est proposé dans la partie suivante. Avant de développer cet algorithme, précisons les quantités à estimer dans le cas d’un système dynamique contenant des paramètres θ inconnus. La densité cible est toujours p(xt |y1:t), il faut l’exprimer en fonction de θ : Z p(xt |y1:t ) = p(xt , θ|y1:t)dθ Les particules sont générées de manière à estimer la densité conjointe p(xt , θ|y1:t). Cette densité jointe joue un rôle central dans l’algorithme. Mais pratiquement, afin d’estimer des valeur de l’état et des paramètres, les densités marginales p(xt |y1:t ) et p(θ|y1:t ) vont aussi être estimées. L’algorithme exposé dans la partie suivante, construit ainsi des estimations de pb(xt |y1:t ) et de pb(θ|y1:t ) en appliquant un noyau de convolution à des particules générées suivant p(xt , θ|y1:t ). Remarque : Les paramètres θ étant des valeurs fixées, il peut paraître surprenant de leur appliquer une densité de probabilité. Cette densité représente en fait une connaissance a priori. Cette approche s’inscrit dans le débat entre les statistiques bayésiennes et les statistiques classiques. On ne s’étendra pas ici sur le sujet. Cette question est notamment discutée par Robert([112]) ou Bernardo & Smith ([11]). 5.5.1 Algorithme de filtrage pour des systèmes dynamiques paramétrés Soit p0 (θ) la loi a priori des paramètres. Elle représente l’incertitude sur les vraies valeurs inconnues de θ, θ0 . Son choix pose un problème théorique et pra- 158 Estimation conjointe états-paramètres tique. Mais il est raisonnable, de supposer que les spécialistes ayant fourni le système dynamique à étudier, aient une idée sur la nature de la loi, ou soient au moins en mesure de proposer un intervalle, ou une boule, contenant les valeurs des paramètres. Dans ce dernier cas, un choix naturel pour p0 (θ) est la loi uniforme sur l’intervalle ou sur la boule. L’algorithme ci-dessous, permet de calculer des estimations de p(xt , θ|y1:t ), p(xt |y1:t) et p(θ|y1:t). La première loi est l’élément clé de l’algorithme. Elle sert de générateur de variables aléatoires et est mise à jour à chaque instant. Les deux dernières loi de probabilité servent uniquement pour estimer xt et θ. Cet algorithme est proposé pour le filtre par convolution avec ré-échantillonnage car il en est l’extension naturelle. En pratique, l’utilisateur doit choisir la loi a priori p0 (θ) des paramètres, le nombre de particules n et la largeur de la fenêtre h. Initialisation : t = 1 - Génération des trajectoires : pour i = 1, · · · , n x̄i0 ∼ p0 (x), θ̄0i ∼ p0 (θ), ε̃i0 ∼ Lε0 , η̃1i ∼ Lη1 x̃i1 = f1 (x̄i0 , θ̄0i , ε̃i0 ) ỹ1i = h1 (x̃i1 , θ̄0i , η̃1i ) θ̃1i = θ̄0i - Estimation des densités : pbn1 (x, θ|y1 ) = Pn pbn1 (θ|y1 ) = Pn = Pn pbn1 (x|y1 ) -t = t + 1 i=1 i=1 i=1 Khn (ỹ1i − y1 ) × Khn (θ̃1i − θ) × Khn (x̃i1 − x) Pn i i=1 Khn (ỹ1 − y1 ) Khn (ỹ1i − y1 ) × Khn (θ̃1i − θ) Pn i i=1 Khn (ỹ1 − y1 ) Khn (ỹ1i − y1 ) × Khn (x̃i1 − x) Pn i i=1 Khn (ỹ1 − y1 ) Etape t : t > 1 Et1 - Génération des trajectoires : pour i = 1, · · · , n 5.5 Approche bayésienne 159 i (x̄it−1 , θ̄t−1 ) ∼ pbnt−1 (x, θ|y1:t−1 ), ε̃it−1 ∼ Lεt−1 , η̃ti ∼ Lηt i x̃it = ft (x̄it−1 , θ̄t−1 , ε̃it−1 ) i ỹti = ht (x̃it , θ̄t−1 , η̃ti) i θ̃ti = θ̄t−1 Et2 - Estimation des densités : Pn i yt ) × Khn (θ̃ti − θ) × Khn (x̃it − x) i=1 Khn (ỹt −P n pbt (x, θ|y1:t ) = n i i=1 Khn (ỹt − yt ) pbnt (θ|y1:t ) pbnt (x|y1:t ) = Pn = Pn i=1 i=1 -t = t + 1 et retour à Et1 . Khn (ỹti − yt ) × Khn (θ̃ti − θ) Pn i i=1 Khn (ỹt − yt ) Khn (ỹti − yt ) × Khn (x̃it − x) Pn i i=1 Khn (ỹt − yt ) Remarques : Cette technique d’estimation des paramètres peut s’adapter à une grande variété de filtres, notamment ceux de Monte Carlo, usuels ou avec interaction. Cependant, l’étude théorique réalisée dans la suite est uniquement valable pour le filtre par convolution avec ré-échantillonnage. De plus, il semble que cette approche puisse aussi s’appliquer à des systèmes dynamiques dont les paramètres θ varient dans le temps. Plus précisément dans les cas très généraux où la forme de l’évolution n’est pas connue mais est supposée assez lente. 5.5.2 Etude des propriétés théoriques L’étude des propriétés théoriques est effectuée pour l’algorithme présenté cidessus, c’est-à-dire lorsque l’on couple l’estimation de paramètres inconnus au filtre par convolution avec ré-échantillonnage. Théorème 5.5.1 Sous les hypothèses du théorème 3.5.2, ( q+d+q n limn→∞ nhlog =∞ n =⇒ lim kb pnt (x, θ|y1:t ) − pt (x, θ|y1:t )kL1 = 0 n→∞ limn→∞ hn = 0 ps 160 Estimation conjointe états-paramètres Démonstration : Ce résultat se démontre de la même façon que le théorème 3.5.2 en augmentant l’état, xt devient x′t = (xt , θ) et en prenant comme noyau d’évolution sur θ, l’identité. Le noyau d’évolution de x′t est alors Q′t = [Qt Id ]. Comme pour le problème du filtrage au chapitre 3, il est possible de préciser la vitesse de convergence, pour cela il faut considérer le noyau K̃ 1 utilisé pour estimer la densité conjointe de xt , yt , θ). Corollaire 5.5.1.1 (vitesse de convergence L1 intégrée) Si pour tout t les densités p(yt |y1:t−1 ) = pY et p(xt , yt , θ|y1:t−1 ) = pXY appartiennent à W s,1 et les noyaux K̃ 1 ∈ L1 (IRq+d+p ) et K 2 ∈ L1 (IRq ) sont de classe s ≥ 1, si pour certains ε > 0 on a pour (K, f, a) = {(K 2 , p(yt |y1:t−1 ), q), (K̃ 1, p(x, θ, yt |y1:t−1 ), d + p + R R q)}, kxka+ǫ K(x)2 dx < ∞ et (1 + kxka+ǫ )f (x)dx < ∞ avec hn > 0, si le noyau K 2 est borné, on a q hZ i n s IE |b pt (x, θ|y1:t ) − pt (x, θ|y1:t )|dxt = ut [O(hn ) + O(1/ nhq+d+p )] n avec ut = 2t − 1. L’espérance est calculée ici par rapport à toutes les variables aléatoires simulées et par rapport à la trajectoire d’observations y1:t . Démonstration : De même que pour la démonstration précédente, pour montrer ce résultat il suffit d’adapter une démonstration du chapitre 3. Ici il faut se rapporter à la démonstration du théorème 3.5.3. Le théorème 5.5.1 assure la convergence des quantités qui nous intéressent le plus, les lois marginales. Corollaire 5.5.1.2 Si le noyau K est borné, si pour tout t, p(yt |y1 , . . . , yt−1 ) > 0, alors limn→∞ hn = 0 et limn→∞ nhq+d+p / log n = ∞ entraînent n limn→∞ kb pnt (x|y1:t ) − pt (x|y1:t )kL1 = 0 ps limn→∞ kb pnt (θ|y1:t ) − pt (θ|y1:t )kL1 = 0 ps Démonstration : R R n R n | (b p (x, θ|y1:t ) − pt (x, θ|y1:t ))dθ|dx |b pt (x|y1:t ) − pt (x|y1:t )|dx = R n t ≤ |b pt (x, θ|y1:t ) − pt (x, θ|y1:t )|dθdx 5.5 Approche bayésienne 161 Le théorème 5.5.1 permet de conclure. Pour la convergence de pbnt (θ|y1:t ) c’est exactement la même démarche. La vitesse de convergence des lois marginales est donc supérieure à celle de la loi conjointe. Le corollaire suivant est immédiat : Corollaire 5.5.1.3 (vitesse de convergence L1 intégré) Sous les hypothèses du corollaire 5.5.1.1 IE[kb pnt (x|y1:t ) − pt (x|y1:t )kL1 ] = ut [O(hsn ) + O( √ IE[kb pnt (θ|y1:t ) − pt (θ|y1:t )kL1 ] = ut [O(hsn ) + O( 1 nhd+q+p n √ 1 nhd+q+p n )] )] avec ut = 2t − 1. Pour certains problèmes, il est plus intéressant de fournir une estimation de la valeur des paramètres plutôt que la densité a posteriori. Dans ce cas, un estimateur obtenu par cette procédure, peut être la moyenne de l’approximation de la loi conjointe. Soient (x̄it , θ̄ti ) générés à partir de pbnt (x, θ|y1:t ), notons n 1X i θ̄ θbtn = n i=1 t et n x bnt 1X i = x̄ n i=1 t Remarque : Il est possible d’améliorer ces estimations θbtn et x bnt par réduction de la variance d’échantillonnage (cf §2.3.1). Certains résultats établis au chapitre 4, permettent de démontrer la convergence de θbtn et x bnt vers respectivement IE[θ|y1:t ] et IE[xt |y1:t ]. Théorème 5.5.2 Si V ar[xt , θt |y1:t ] existe et est finie, alors limn→∞ hn = 0 et limn→∞ nhnd+q+p / log n = 0 entraînent lim |θbtn − IE[θ|y1:t ]| = 0 ps n→∞ lim |b xnt − IE[xt |y1:t ]| = 0 ps n→∞ 162 Estimation conjointe états-paramètres Démonstration : La démonstration est une adaptation de celle du théorème 4.1.18. Remarque : Les théorèmes précédents assurent que nos estimations convergent vers la loi a posteriori des paramètres ou vers IE[θ|y1:t ], selon le cas considéré. Ces quantités sont les estimateurs bayésiens de θ. Il est alors essentiel de préciser leurs propriétés théoriques. C’est l’objet du paragraphe suivant. Consistance des estimateurs bayésiens Les premiers résultats de consistance des approches bayésiennes sont dus à Doob ([53, 54]). Pour une étude plus complète on pourra se reporter à Schwartz ([120]). Le résultat que nous énonçons est démontré par Schervish ([119]) sur la base des travaux de Doob ([53, 54]). Théorème 5.5.3 S’il existe un estimateur consistant de θ0 ∈ Θ lorsque le nombre d’observations y1 , . . . , yt tend vers l’infini, alors toute loi a posteriori est consistante au sens suivant : Pour tout élément A de la tribu F associée à Θ, alors lim P (A|y1:t ) = IA (θ0 ) ps t→∞ où IA est la fonction indicatrice de A. Enfin, le résultat suivant est démontré dans Schwartz ([120]) : Théorème 5.5.4 S’il existe un estimateur consistant de θ0 ∈ Θ lorsque le nombre d’observations y1 , . . . , yt tend vers l’infini, alors lim IE[θ|y1:t ] = θ0 t→∞ ps Ces deux théorèmes assurent donc que les estimations fournies par notre algorithme convergent vers la vraie valeur des paramètres. La seule condition est que les observations y1 , . . . , yt contiennent suffisamment d’information pour estimer les paramètres. Cette condition peut s’interpréter comme une condition d’observabilité des paramètres. 5.6 Conclusion du cinquième chapitre 163 5.6 Conclusion du cinquième chapitre Les différentes approches d’estimation de paramètres proposées dans ce chapitre illustrent bien la grande capacité d’adaptation de nos filtres à convolution. Les premières, basées sur la maximisation de la vraisemblance estimée et la minimisation des moindres carrés conditionnels estimés possèdent cependant plusieurs défauts. Tout d’abord, ceux d’ordre pratique : le temps de calcul est trop élevé pour autoriser une utilisation en ligne, il faut choisir arbitrairement le nombre d’observations sur lequel on fait la minimisation. Celui d’ordre théorique : on a besoin d’une hypothèse de convergence uniforme, difficile à vérifier. Pourtant, comme on l’a évoqué, il est possible d’envisager une alternative à l’optimisation stochastique, moins coûteuse en terme de temps de calcul. Tout d’abord, il n’est pas certain que le temps de calcul soit suffisamment réduit pour une utilisation en ligne car, il est tout de même nécessaire d’utiliser un nombre T d’observation conséquent pour que les estimations puissent converger. En supposant que l’optimisation soit suffisamment rapide pour travailler en ligne, il est alors impossible de filtrer tant que t < T , ce qui peut être ennuyeux dans certaines situations. De plus, les propriétés théoriques de cette optimisation alternative ne sont pas clairement établies. L’approche bayésienne d’estimation des paramètres, présentée en dernier lieu, est parfaitement adaptée à un usage en ligne et ses propriétés théoriques sont clairement établies, sans l’ajout d’hypothèse supplémentaire. Donc cette dernière approche semble à première vue la plus intéressante. Toutefois, afin d’évaluer d’un point de vue pratique, le potentiel de ces différentes approches, une étude comparative est réalisée dans le chapitre des applications. 164 Estimation conjointe états-paramètres Chapitre 6 Perspectives d’application au contrôle de systèmes dynamiques Ce chapitre est l’occasion de proposer une adaptation de notre filtre à noyau de convolution au cas des systèmes contrôlés. L’intérêt de l’étude de ce type de système n’est plus à démontrer, puisque une grande variété de problèmes réels se présente sous la forme d’un système dynamique mal observé à contrôler. Pour les systèmes dynamiques contrôlés, le filtre fournit une estimation de l’état qui aide à déterminer la commande à appliquer au système, par la variable de contrôle, pour lui imposer le comportement désiré. L’introduction d’une variable de contrôle ut dans le système dynamique ne pose pas de difficulté particulière. Elle s’intègre facilement dans nos algorithmes d’estimation du filtre optimal. Nous proposons une manière de procéder dans la première partie de ce chapitre. La question du calcul d’un contrôle optimal, pour un objectif de contrôle donné, est bien plus délicate. Nous l’abordons dans la seconde partie, au travers d’approches comparables à celles utilisées pour l’estimation de paramètres au chapitre précédent. 6.1 Introduction d’une commande prédéterminée Considérons toujours la même classe générale de systèmes dynamiques à laquelle on applique à chaque instant t, un contrôle ut dont les valeurs sont déjà 166 Perspectives de contrôle de systèmes connues pour tout t.  xt = ft (xt−1 , ut , εt ) yt = ht (xt , ηt ) (6.1) Description des variables : -les xt ∈ IRd sont les variables d’état -les ut ∈ Cu ⊂ IRl sont les variables de contrôle, avec Cu un compact -les yt ∈ IRq sont les variables observées -les εt sont les bruits du modèle d’état -les ηt sont les bruits du modèle d’observation Le système peut se traiter exactement comme un système non contrôlé, pour tout ce qui concerne les générations de particules. En effet, le système (6.1) est équivalent au système suivant  xt = f˜t (xt−1 , εt ) yt = ht (xt , ηt ) avec f˜t (., .) = ft (., ut , .) (6.2) Comme la valeur de la variable ut est déterministe et connue à chaque instant t, cette formalisation est tout à fait valide. L’emploi de tous les filtres à noyaux de convolution présentés au troisième chapitre est donc totalement justifié pour le filtrage de ce systèmes. A fortiori, tous les résultats de convergence sont aussi valides. Intéressons nous maintenant au problème rencontré plus fréquemment et d’intérêt pratique considérable, la détermination des valeurs de la suite des contrôles ut , en fonction d’un certain objectif. En général, l’objectif est de suivre une trajectoire de référence ou de minimiser un critère. On se ramène alors souvent à un problème de minimisation par rapport à (ut , . . . , ut+T ) d’une fonction coût objectif Ct (ut , . . . , ut+T , xt , . . . , xt+T ). Selon la situation pratique à laquelle se réfère le système, on peut, soit vouloir par exemple minimiser Ct (ut , . . . , ut+T , xt , . . . , xt+T ) à chaque instant t, soit minimiser la moyenne des Ct (ut , xt ) sur un horizon fini ou infini, ou encore minimiser la variance des Ct (ut , . . . , ut+T , xt , . . . , xt+T ) sur un horizon fini ou infini . . . Toutes ces problématiques relèvent de la théorie du contrôle optimal. Dans le paragraphe suivant nous illustrons l’application de nos filtres à convolution à un problème type de contrôle optimal prédictif à horizon glissant. 6.2 Estimation d’un contrôle optimal prédictif 167 6.2 Estimation d’un contrôle optimal prédictif Considérons le cas, assez général, d’un contrôle prédictif sur un horizon glissant de longueur H. La commande optimale à l’instant t est ūt avec (ūt , · · · , ūt+H ) = argmin ut ,··· ,ut+H t+H X k=t Ck (uk , IE[xk |y1:t−1 , ut:k ]) Bien entendu, notre approche s’adapte au cas où la somme ci-dessus est pondérée. Après application de la commande optimale ūt ainsi calculée, on résout un problème d’optimisation analogue à l’instant t + 1, et ainsi de suite. Un exemple classique d’un tel problème de contrôle est le suivi de consigne par contrôle prédictif. On cherche à maintenir xt au plus près d’une trajectoire de référence x∗t . La fonction de coût associée est : (ūt , · · · , ūt+H ) = argmin ut ,··· ,ut+H t+H X k=t kx∗k − IE[xk |y1:t−1 , ut:k ]k2 La recherche de (ūt , · · · , ūt+H ) peut donc être réalisée en faisant intervenir les techniques développées au Chapitre 5. Pour des valeurs en cours de ut:k donné, et pour k = t, t+ 1, . . . , t+ H, IE[xk |y1:t−1 , ut:k ] pourra être estimée par une généralisation immédiate (prédiction d’état) des algorithmes de filtrage par convolution présentés dans le troisième chapitre. Ce calcul sera inséré dans une boucle d’optimisation du critère par rapport à ut , · · · , ut+H . On peut évidemment craindre une augmentation conséquente du temps de calcul. Chapitre 7 Positionnement par rapport aux filtres particulaires Nos filtres par noyaux de convolution sont proches des filtres particulaires usuels car, comme eux, ils sont basés sur une génération massive de variables aléatoires, appelées particules dans le contexte du filtrage. Cependant, les deux approches sont fondamentalement différentes, puisque les filtres par convolution sont basés sur une estimation de la densité conjointe état-observation, alors que les filtres particulaires estiment la mesure empirique de l’état, en pondérant judicieusement les particules générées. Toutefois, en modifiant quelque peu la présentation des filtres par convolution, on peut mettre en évidence la parenté entre les deux approches. Cette démarche est réalisée dans la suite pour le filtre par convolution avec ré-échantillonnage, mais il est tout à fait possible de la mener avec les autres filtres par convolution. 7.1 Formalisation de type filtre particulaire de l’algorithme du filtre par convolution avec ré-échantillonnage Soit πtn l’estimation du filtre optimal, πt , construite avec la méthode de rééchantillonnage. Utilisons aussi les notations employées en filtrage particulaire : Qt désigne le noyau d’évolution markovien, ψn désigne la fonction de pondération d’une particule définie, pour le filtre à convolution considéré, par ψn (x̃it ) = Khn (yt − ỹti). Ainsi notre filtre avec ré-échantillonnage peut se résumer en quatre 170 Relations avec les filtres particulaires étapes semblables à celles des filtres particulaires régularisés proposés par Oudjane([104]) : - Etape d’échantillonnage n x̃it−1 ∼ πt−1 pour i = 1, . . . , n → estimation de la mesure empirique µnt−1 = 1 n - Etape d’évolution Pn i=1 δx̃it−1 x̃it ∼ Qt (x̃it−1 , .) et ỹti ∼ ht (x̃it , ηt ) pour i = 1, . . . , n P → estimation de la mesure prédictive µnt|t−1 = n1 ni=1 δx̃it - Etape de pondération n n X 1X δx̃it 7→ ωtiδx̃it n i=1 i=1 avec Kh (yt − ỹti ) ωti = Pn n j j=1 Khn (yt − ỹt ) → Approximation de la mesure empirique du filtre optimal : µnt = - Etape de régularisation Pn i=1 ωtiδx̃it πtn (x) = (Khn ∗ µnt )(x) Pn i i = i=1 ωt Khn (x − x̃t ) = Ainsi on peut écrire Pn i=1 Khn (yt − ỹti)Khn (x − x̃it ) Pn i j=1 Khn (yt − ỹt ) πtn = Khn ∗ (ψn · Qt µnt−1 ) Cette formalisation dénature quelque peu les filtres par convolution, puisque l’idée de base, d’estimer la densité conjointe de (xt , yt ) est dissimulée pour mettre en lumière l’aspect pondération de particule. Cependant, elle permet de faire apparaître la différence essentielle entre les filtres particulaires courants et nos filtres par convolution : la nature de la fonction de pondération ψn des particules. Pour 7.1 Formalisation de type filtre particulaire 171 les filtres particulaires, il s’agit de la fonction de vraisemblance des observations, alors que pour nos filtres, on peut utiliser n’importe quel noyau vérifiant quelques hypothèses peu contraignantes. Ainsi, l’hypothèse de connaissance de la forme analytique de la vraisemblance n’est plus requise. Il est important de noter, que Del Moral & al. ([32],[33]) dans un contexte différent et pour d’autres raisons, ont utilisé une fonction de pondération autre que la vraisemblance car elle était inaccessible. Ils proposent une fonction de pondération pouvant s’apparenter à un noyau sur des observations générées, mais leur objectif n’est pas toutefois d’estimer la densité conjointe état-observation. Pour résumer, Del Moral & al. ([32],[33]) ont proposé une version où les observations sont régularisées. Hürzeler & Künsch([81]), Le Gland & Oudjane([95]) ou encore Musso & al.([102]) propose de régulariser les variables d’états. L’intérêt de ces régularisations est de stabiliser en pratique le comportement du filtre. Théoriquement, cela s’interpréte comme travailler sur le même système, mais avec des bruits d’amplitudes différentes, vérifiant ainsi un bon rapport signal/bruit assurant un meilleur fonctionnement des méthodes particulaires. En présentant les choses sous le même angle, les filtres par convolution introduits dans ce mémoire, consistent à régulariser tout le système dynamique, c’est à dire les états et les observations. Il est ainsi possible de les utiliser sur des systèmes dynamiques mal supportés par les autres filtres puisque la régularisation de tout le système, nous amène toujours à considérer un système dynamique, proche du vrai, ayant un bon rapport signal/bruit. En effet, la régularisation par noyau de convolution peut s’interpréter comme l’ajout d’un bruit dont l’amplitude est caractérisée par la fenêtre du noyau hn . Ainsi en pratique, les coefficients hn , utilisés avec les noyaux pour régulariser les états et les observations, modifient le rapport signal/bruit du système non régularisé. Les démonstrations établies peuvent alors s’interpréter comme suit : lorsque l’erreur que l’on commet par rapport au vrai système tend vers zéro, c’est à dire hn → 0 (en fonction de l’augmentation du nombre de particules), le filtre par convolution converge. Afin de comparer sur le plan théorique le filtre particulaire avec interaction et le filtre par convolution avec ré-échantillonnage, nous donnons une des propriétés théoriques du filtre particulaire (Del Moral & Jacod [33]) : 172 Relations avec les filtres particulaires Théorème 7.1.1 Pour toute fonction borélienne f bornée on a IE[|π̂tn (f ) − πt (f )|] ≤ ct kf k∞ √ n où πt est la mesure associée au filtre optimal à l’instant t, π̂tn son estimation obtenue par le filtre particulaire avec interaction avec n particules, πt (f ) = IE[f (xt )|y1:t ] et π̂tn (f ) = IEπ̂tn [f (xt )|y1:t ]. D’après Del Moral & Jacod ([33]) p53, les constantes ct évoluent typiquement comme exp(c t2 ) avec c > 0. Pour le filtre avec ré-échantillonnage on peut étudier la même quantité : Théorème 7.1.2 Sous les hypothèses du théorème 3.5.3, pour toute fonction borélienne f bornée on a IE[|p̂nt (f ) − pt (f )|] ≤ ut kf k∞ [A1 hsn + p A2 nhnq+d ] avec ut = 2t − 1, A1 et A2 positifs indépendants de f , n et t. Où pt est la densité associée au filtre optimal à l’instant t, p̂nt son estimation obtenue par le filtre par convolution avec ré-échantillonnage pour n particules. Démonstration : Elle découle du théorème 3.5.3. Bien que pour les deux filtres, les majorations de vitesse de convergence soient très mauvaises par rapport au temps t, celle du filtre avec ré-échantillonnage est tout de même meilleure lorsque t devient grand. Cependant, dans la mesure où ces majorations sont obtenues assez grossièrement, on ne peut pas rigoureusement conclure à la supériorité de l’un où l’autre des filtres. Del Moral & Jacod ([33]) conseillent de se reférer au théorème central limite afin de mieux appréhender l’erreur commise par le filtre avec interaction. Comme nous n’avons pas encore établi ce type de résultats pour nos filtres, nous ne pouvons les comparer sur ce plan-là. Pour résumer, les filtres particulaires sont convergents, les filtres avec convolution le sont aussi, mais grâce à l’hypothèse d’existence de la densité on peut montrer des résultats théoriques plus forts pour ces derniers, tels que, par exemple, la convergence en norme L1 . Au vu de la nature actuelle des résultats théoriques de convergence de nos différents filtres, pour les comparer aux autres filtres particulaires, il est nécessaire 7.2 Filtres particulaires avec la vraisemblance approximée 173 de les tester en pratique sur différents systèmes dynamiques et dans différentes conditions. Nous réalisons ce type d’étude au travers d’applications sur des systèmes simulés, au chapitre suivant. Comme cela a déjà été évoqué, le principal avantage de nos filtres est de ne pas exiger la connaissance de la forme analytique de la vraisemblance des particules. Or, en rajoutant une étape d’estimation de la vraisemblance dans l’algorithme de construction des filtres particulaires, il est possible de les mettre en place sous cette hypothèse moins forte. Bien, qu’une telle démarche soit empirique, il est possible de récupérer les résultats de convergences des filtres particulaires grâce aux résultats de Del Moral & al. ([32],[33]). Afin d’illustrer la remarque, cette adaptation des filtres particulaires au cas où la forme analytique de la vraisemblance est inconnue, est détaillée dans la section suivante. 7.2 Filtres particulaires construits à partir d’une approximation de la vraisemblance Les filtres particulaires avec interaction, ayant largement démontré leur supériorité sur les filtres de Monte Carlo usuels, sont donc utilisé comme supports à tous les développements réalisés. Cependant, il est tout à fait possible d’envisager les mêmes modifications sur les filtres de Monte Carlo pondérés. Tout d’abord rappelons la forme standard de l’algorithme du filtre particulaire avec interaction : Génération de n particules (x̃10 , · · · , x̃n0 ) i.i.d. ∼ π0 Calcul du filtre π0n = n X i=1 ω0i δx̃i0 avec ω0i = 1 , i = 1, · · · , n n 174 Relations avec les filtres particulaires (i) n Echantillonnage : on génère (x̃1t−1 , · · · , x̃nt−1 ) ∼ πt−1 . (ii) Evolution des particules : x̃it|t−1 ∼ Qt (x̃it−1 , .) (iii) Pondération des particules : Ψt (x̃it|t−1 ) ωti = Pn i i=1 Ψt (x̃t|t−1 ) on obtient ainsi l’approximation du filtre optimal πtn = n X ωti δx̃it|t−1 i=1 Comme nous sommes sous l’hypothèse, Ψt inconnue, il est impératif de modifier l’étape (iii). Afin d’être au plus proche de nos filtres par convolution, nous proposons d’estimer Ψt par des noyaux de convolution. Pour simplifier les explications, considérons à un instant t fixé, une observation yt donnée et une particule x̃t à pondérer. Nous sommes en mesure de générer une ou plusieurs observations correspondant à x̃t : ỹt1, . . . , ỹtN . A partir de ces observations, on peut estimer p(yt |x̃t ) à l’aide d’un noyau de convolution : N 1 X p̂ (yt |x̃t ) = Kh (yt − ỹti ). q Nh i=1 N Comme la quantité qui nous intéresse est Ψt (x̃it|t−1 ) = p(yt |x̃it|t−1 ) il suffit de substituer p̂N (yt |x̃it|t−1 ) à Ψt (x̃it|t−1 ) pour obtenir une approximation de ω̂ti de ωti dans l’algorithme précédent. L’introduction de cette modification dans l’algorithme du filtre particulaire avec interaction peut se transcrire comme suit : Génération de n particules : (x̃10 , · · · , x̃n0 ) i.i.d. ∼ π0 P Calcul du filtre : π0n = ni=1 ω0i δx̃i0 avec ω0i = n1 , i = 1, · · · , n 7.2 Filtres particulaires avec la vraisemblance approximée (i) n Echantillonnage : on génère (x̃1t−1 , · · · , x̃nt−1 ) ∼ πt−1 . (ii) Evolution des particules : x̃it|t−1 ∼ Qt (x̃it−1 , .) 175 (iii) Pondération des particules : Etape 0 i=1 Etape 1 Génération de N observations ỹt1 , . . . , ỹtN associées à la particule x̃it|t−1 P j Etape 2 Calcul de l’approximation p̂N (yt |x̃it|t−1 ) = N1hq N j=1 Kh (yt − ỹt ) Approximation du poids de x̃it|t−1 : ωti = p̂N (yt |x̃it|t−1 ) Etape 3 i=i+1. Si i>n étape 4, Sinon étape 1 ωti i P Etape 4 Normalisation des poids : ω̂t = n i i=1 ωt On obtient finalement l’approximation suivante du filtre optimal π̂tn = n X ωti δx̃it|t−1 i=1 Il n’est pas nécessaire d’expérimenter ce filtre en simulations, pour savoir que le temps de calcul, requis par ce dernier, sera beaucoup plus élevé, que celui requis par les filtres particulaires ou par nos filtres à noyaux. En effet, pour chacune des n particules, il faut générer N observations, concrètement, n ∗ N opérations supplémentaires sont à effectuer, à chaque instant t. Cependant, cet argument de temps de calcul excessif, en défaveur de ce filtre particulaire modifié, ne conservera pas sa pertinence bien longtemps, puisque la vitesse de calcul des microprocesseurs double tous les ans. Sur le plan théorique, il conserve des propriétés de convergence similaires à celles des filtres particulaires. En effet, Del Moral & al([32]), ont établi des résultats pour diverses situations. Or, le cas le plus général (p361-364), plus précisément le théorème 5.1, fournit des majorations, pour le filtre particulaire avec interaction π̃t , construit à partir d’un fonction de pondération autre que la vraisemblance : Théorème 7.2.1 (Théorème 5.1, Del Moral & al([32])) Sous des conditions de régularité du système dynamique, pour toute fonction f borélienne bornée, on a IE[|π̃tn (f ) − πt (f )|] ≤ Ft kf k 1/(2+q) n 176 Relations avec les filtres particulaires avec Ft exponentiels en t2 . Le filtre approximation π̃tn (f ) est construit à l’aide d’une fonction de pondération Ψn définie par Ψn (y) = nq/(2+q) Ψ(y n1/(2+q) ) y ∈ IRq et Ψ une fonction borelienne bornée vérifiant Z Z Ψ(y)dy = 1 et |y|Ψ(y)dy < ∞ L’estimation du filtre optimal s’écrit ainsi : n π̃tn (f ) = i i 1 X Ψn (y − ỹt )f (x̃t|t−1 ) PN i n i=1 i=1 Ψn (y − ỹt ) Dans notre contexte, si l’on pose K = Ψ et hn = n1/(2+q) , on a Ψn (y) = Kh (y). Donc l’estimation fournie par le filtre particulaire modifié s’écrit aussi n π̂tn (f ) 1X i = ω f (x̃it|t−1 ) n i=1 t n N i i 1 X 1 X Kh (y − ỹt )f (x̃t|t−1 ) = PN i n i=1 N j=1 j=1 Kh (y − ỹt ) j n N i 1 X 1 X Ψn (y − ỹt )f (x̃t|t−1 ) = PN j n i=1 N j=1 j=1 Ψn (y − ỹt ) j N n i 1 X 1 X Ψn (y − ỹt )f (x̃t|t−1 ) = PN j N j=1 n i=1 j=1 Ψn (y − ỹt ) N 1 X j,n = π̃ (f ) N j=1 t Ainsi le filtre π̂tn correspond à une moyenne de N filtres π̃t,j,n . On peut donc utiliser le résultat du théorème 7.2.1, il s’ensuit P IE[|π̂tn (f ) − πt (f )|] = IE[| N1 N π̃t,j,n (f ) − πt (f )|] j=1 P ,j,n ≤ N1 IE[ N j=1 |π̃t (f ) − πt (f )|] ≤ IE[|π̃t1,n (f ) − πt (f )|] Ft ≤ n1/(2+q) kf k 7.2 Filtres particulaires avec la vraisemblance approximée 177 Ce résultat, bien qu’il assure la consistance du filtre π̂tn , est un peu décevant, puisque le fait qu’on moyenne N fois, n’intervient pas dans la borne de majoration. Il est certainement possible de l’améliorer afin de faire apparaître un terme en Nn au numérateur à la place du N. Nous ne réalisons pas cette étude car, la borne étant explosive en t, l’amélioration obtenue ne serait pas réellement significative. Toutefois, dans la suite, nous comparons ce filtre avec les autres sur des applications, afin d’évaluer empiriquement, si le temps de calcul supplémentaire qu’il requiert se répercute sur la précision. 178 Relations avec les filtres particulaires Troisième partie Applications Chapitre 8 Applications sur des simulations 8.1 Problèmes de filtrage Pour les simulations de cette partie, la nature statistique des bruits est toujours supposée connue. Les fonctions d’évolution et d’observation du système dynamique sont elles aussi connues. 8.1.1 Système linéaire Le système considéré vérifie les hypothèses assurant la convergence du filtre de Kalman. Le filtre optimal est donc calculable, il permettra ainsi d’évaluer les performances de nos filtres. Soit le système     0.2 0.2   xt + 0.2εt  xt+1 = 0.5 −0.5     y = [1 1]xt + 0.1ηt t où εt ∼ N2 (0, I) et ηt ∼ N (0, 1). En rajoutant, l’hypothèse x0 ∼ N2 (0, 0.1) on est dans le cadre où le filtre de Kalman est optimal. Il est donc naturel de l’utiliser comme référence. On s’est intéressé à l’estimation de la densité pour l’instant t = 50. Kalman étant optimal, la vraie densité est donc connue. Il s’agit d’une loi gaussienne dont l’espérance et la variance sont fournies par le filtre de Kalman. Nous étudions le comportement de l’estimation pour le filtre à convolution avec 182 Applications sur des simulations ré-échantillonnage. Le tableau suivant rapporte les erreurs L1 obtenues en fonction du nombre de particules utilisées. Nombre de particules Erreur L1 estimée 1000 0.3843 5000 0.3244 10000 0.2821 20000 0.2609 50000 0.2428 100000 0.2366 1000000 0.0695 Afin de faciliter l’interprétation de ces résultats, les estimations de densité de quelques cas sont représentées sur la figure 8.1. Vrai densite Estimation : n=1000000 10 10 5 5 0 1 0.5 0 −1 −0.5 0 1 −1 −1 Estimation : n=10000 10 5 5 0 1 0 1 0.5 −1 −0.5 −1 −0.5 0 −1 Estimation : n=100000 10 0 0.5 0 0 0 0.5 0 −1 −0.5 −1 F IG . 8.1 – Estimation du filtre optimal à l’instant t = 50 0 8.1 Problèmes de filtrage 183 La convergence peut sembler assez lente, mais sur la figure 8.1 on constate que le support de la densité est correct même avec peu de particules. Il est donc certainement possible d’améliorer les performances en travaillant sur le choix de la largeur de la fenêtre h. 8.1.2 Systèmes non linéaires Exemple 1 Le système dynamique ci-dessous a été considéré par Lo([99]) et Yee([133]) :  xt+1 = 1.1 exp(−2x2t ) − 1 + 0.5 × εt (8.1) yt = x3t + 0.1 × ηt avec x0 ∼ N (−0.5, 0.12) et εt , ηt des bruits gaussiens centrés réduits indépendants. Pour évaluer les performances de leurs filtres à base de réseaux de neurones, Lo et Yee calculent la racine de l’erreur quadratique moyenne (RMSE) sur N = 500 trajectoires de t = 120 pas de temps : t N  1 X 1 X RMSE = ( kxi,k − x̂i,k k2 )1/2 t k=1 N i=1 Pour cet exemple, les RMSE sont aussi calculées sur N = 500 trajectoires de t = 120 pas de temps. Lo utilise pour les meilleures situations, 200000 données d’apprentissage sur un réseau récurrent complètement inter-connecté (NFFN, table 8.1) et un réseau récurrent en anneau (NFRN, table 8.1), tous deux à 8 neurones. Yee([133]) a aussi traité cet exemple avec un réseau à bases radiales (RBFN, table 8.1) mais seulement avec 800 données d’apprentissage et une mémoire T = 2. De plus, du travail de Yee, il ressort qu’en prenant un réseau avec une mémoire T = 1 le résultat obtenu est sensiblement identique au cas T = 2. En fait, cet exemple relève plus de l’inversion de fonction, mais nous l’avons tout de même utilisé pour comparer le comportement d’une large gamme de filtres. Les autre filtres considérés sont le filtre de Kalman étendu (FKE), ainsi qu’une de ses versions robustifiées, le filtre de Kalman étendu itéré (FKEI) puis la plupart des filtres particulaires évoqués précédemment : le filtre de Monte Carlo pondéré (MCP), le filtre de Monte Carlo pondéré à mémoire tronquée (MCPT), le filtre particulaire avec interaction (IPF) et le filtre avec interaction post-régularisé (PostReg). Pour nos filtres, nous avons testé le filtre par convolution simple (CF), le filtre par convolution à mémoire tronquée (CFT), le filtre avec sélection (CFS) 184 Applications sur des simulations et le filtre par convolution avec ré-échantillonnage (CFR). Pour tous les filtres particulaires et nos filtres par convolution, nous avons utilisé seulement 500 particules, un noyau K gaussien et une fenêtre hn = std(x̃i )n−0.2 . Pour les filtres à mémoire tronquée nous avons pris T = 2 comme Yee. Pour le filtre avec sélection, nous avons pris, ǫ = 0.1, pour la largeur du tube. Les résultats obtenus pour tous les filtres sont rassemblés dans la table 8.1 ci-dessous. Filtres FKE FKEI (Lo) RBFN (Yee) NFFN (Lo) NFRN (Lo) RMSE 1.3905 0.2806 0.2260 0.2120 0.2122 Filtres RMSE IPF 0.2135 PostReg 0.2137 MCP div div MCPT Filtres CFR CFS CF CFT RMSE 0.2199 0.2191 0.3791 0.2761 TAB . 8.1 – RMSE pour l’exemple 1 D’après la table 8.1, les réseaux récurrents de Lo obtiennent les meilleurs résultats, suivis de très près par les filtres particulaires avec ré-échantillonnages ou sélection et le réseau de neurones à base radiale de Yee. Les filtres particulaires classiques divergent complètement, le filtre de Kalman étendu est totalement en échec, et sa version robustifiée, le filtre de Kalman étendu itéré, s’en tire correctement. Le temps requis par l’apprentissage, avec 200000 observations, des réseaux de neurones récurrents ne justifie pas, à notre avis, le gain obtenu par rapport aux filtres particulaires, d’autant plus que le modèle (8.1) ici considéré est relativement simple, invariant dans le temps et à une dimension. Pour un modèle plus complexe, il est légitime de craindre une augmentation significative du temps d’apprentissage du réseau. Les approches particulaires sont, par contre, peu sensibles à ce facteur, puisqu’il suffit d’augmenter le nombre de particules, ce qui n’engendre pas d’augmentation de temps de calcul comparable à celle nécessaire aux réseaux récurrents. De plus, les filtres particulaires sont calculés seulement avec 500 particules, il est donc certainement possible de se rapprocher des performances des réseaux récurrents en augmentant le nombre de particules. Nous n’avons pas poussé davantage l’étude de cet exemple car la nature bijective de la fonction d’observation h réduit son intérêt. Toutefois, il ressort de cet exemple que les méthodes particulaires sont tout à fait compétitives avec les techniques employées généralement en pratique. 8.1 Problèmes de filtrage 185 Exemple 2 Soit le système non linéaire considéré par Mendès & al.([103]), Kitagawa([87], [88]), Doucet([56],[58]), . . . ( xt = yt = 25xt−1 1 x + 1+x 2 2 t−1 t−1 2 xt + w t 20 + 8 cos(1.2t) + vt avec x0 ∼ N (0, 5). Nous comparons les filtres particulaires et nos filtres à convolution sur trois situations différentes : Cas 1 Cas 2 Cas 3 : vt ∼ N (0, 1) et wt ∼ N (0, 0.12) : vt ∼ N (0, 1) et wt ∼ N (0, 1) : vt ∼ N (0, 10) et wt ∼ N (0, 1) Les résultats sont présentés dans les tables 8.2, 8.3 et 8.4. Ce sont les moyennes des erreurs quadratiques, MSE, sur N = 100 trajectoires avec t = 120 pas de temps, suivant le nombre de particules employées : 25, 50, 100, 500, 1000, 2500 et 5000. t N  1 X 1 X kxi,k − x̂i,k k2 MSE = t k=1 N i=1 Pour tous les filtres à convolution, nous avons utilisé un noyau K gaussien et une fenêtre hn = std(x̃i )n−0.2 . Pour les filtres à mémoire tronquée nous avons pris T = 3 et pour le filtre avec sélection, nous avons pris, ǫ = 1, pour la largeur du tube. Nb particules 25 50 100 500 1000 2500 5000 MCP div div div div div div div MCPT div div div div div div div IPF div div div div div div div Post-Reg div div div div div div div CF div div 14.15 11.69 11.80 10.75 10.96 CFT div 15.34 13.82 10.43 9.95 9.27 9.01 CFS div 10.87 9.50 9.26 9.23 9.23 9.26 TAB . 8.2 – Cas 1 : Moyennes des erreurs quadratiques CFR 23.62 14.81 10.30 8.08 7.91 7.59 7.66 186 Applications sur des simulations Il ressort de l’examen des résultats du tableau 8.2, comme on pouvait s’y attendre, que les filtres particulaires sont mis en défaut lorsque les observations sont faiblement bruitées. Nos filtres par convolution, par contre, se comportent correctement excepté lorsque le nombre de particules est très faible. Nb particules 25 50 100 500 1000 2500 5000 MCP 22.60 19.04 16.09 12.93 12.13 11.24 10.89 MCPT 18.75 15.36 13.21 11.02 10.50 10.14 10.11 IPF 23.93 16.62 13.23 10.26 10.18 10.14 10.12 Post-Reg 19.37 14.14 11.31 10.36 10.15 10.13 10.18 CF 18.82 16.78 14.77 13.45 13.51 13.25 13.57 CFT 18.22 15.04 13.23 11.49 11.39 10.97 10.95 CFS 15.31 12.48 10.92 10.58 10.47 10.51 10.52 CFR 18.92 15.02 12.59 10.49 10.26 10.15 10.10 TAB . 8.3 – Cas 2 : Moyennes des erreurs quadratiques Nb particules 25 50 100 500 1000 2500 5000 MCP 53.06 48.18 44.99 39.11 36.67 32.86 30.98 MCPT div 40.43 36.32 29.67 26.84 25.23 24.05 IPF 44.84 33.62 27.91 23.80 22.95 22.57 22.34 Post-Reg 46.36 32.97 27.62 22.88 22.31 22.66 22.45 CF 41.99 36.52 33.77 31.51 31.43 33.23 33.31 CFT 37.84 32.82 29.79 26.72 25.69 24.92 24.38 CFS 32.76 25.61 23.51 23.31 23.02 22.90 22.95 CFR 37.50 29.48 27.43 23.38 23.46 22.70 22.33 TAB . 8.4 – Cas 3 : Moyennes des erreurs quadratiques On constate que le filtre à sélection, CFS, obtient les meilleurs résultats pour de faibles nombres de particules. Cependant, il ne s’améliore plus significativement au-delà de 100 particules, cela est certainement dû au fait que la largeur du tube est fixée à 1. De plus, il requiert beaucoup plus de temps de calcul que tous les autres filtres. Plus généralement, on remarque que les filtres à convolution offrent de meilleures performances que les filtres particulaires, pour les petits nombres de particules. Les performances deviennent comparables lorsque le nombre de particules augmente. 8.1 Problèmes de filtrage 187 L’intérêt principal de nos filtres par convolution, par rapport aux filtres particulaires, est de ne pas exiger la connaissance de la forme analytique de la vraisemblance des observations. Cet affaiblissement des hypothèses, comme on a pu le voir au travers des exemples précédents, ne semble pas affecter significativement les performances. De plus, pour le traitement de ces exemples, aucun effort n’a été fait pour le choix du h. En travaillant sur ce point, il est certainement possible d’améliorer encore les performances des filtres par convolution. 8.1.3 Choix de l’estimateur de l’état Différents estimateurs pour la valeur de l’état ont été proposés au quatrième chapitre : l’espérance conditionnelle, le mode conditionnel et la médiane conditionnelle. Ces trois estimateurs, calculés à partir du filtre avec ré-échantillonnage, sont comparés sur le même système dynamique que l’exemple précédent : ( xt = yt = 25xt−1 1 x + 1+x 2 2 t−1 t−1 x2t + w t 20 + 8 cos(1.2t) + vt avec x0 ∼ N (0, 5), vt , wt ∼ N (0, 1). Le filtre à convolution avec ré-échantillonnage est construit avec un noyau gaussien et une fenêtre hn = std(x̃i )n−0.2 . Nous avons évalué les trois estimateurs, sur 500 trajectoires de 100 pas de temps, sous deux critères : l’erreur quadratique moyenne, MSE (table 8.5) et l’erreur absolue moyenne, MAE (table 8.6), t N  1 X 1 X |xi,k − x̂i,k | . MAE = t k=1 N i=1 Nb particules Espérance 50 15.5084 13.1587 100 500 11.1939 10.8949 1000 5000 10.6176 Médiane 18.5363 16.0070 14.1842 13.7804 13.4938 Mode 20.1440 17.7311 15.8261 15.3724 15.0608 TAB . 8.5 – Moyennes des erreurs quadratiques 188 Applications sur des simulations Nb particules Espérance 50 1.9910 1.8332 100 500 1.6746 1.6444 1000 5000 1.6066 Médiane 1.8211 1.6441 1.4885 1.4568 1.4260 Mode 1.8993 1.7116 1.5372 1.5023 1.4706 TAB . 8.6 – Moyennes des erreurs absolues Les résultats des tableaux 8.5 et 8.6, sont en accord avec les propriétés intrinsèques de ces estimateurs, à savoir que l’espérance minimise l’erreur quadratique moyenne et la médiane minimise l’erreur absolue moyenne. Il est donc raisonnable de penser que les estimations des densités fournies par le filtre sont de bonne qualité. Ces résultats illustrent de plus, le fait que l’estimateur de l’état doit nécessairement être choisi en fonction du problème considéré. 8.1.4 Filtre particulaire avec la vraisemblance estimée Lors du chapitre 7, relatif au positionnement de nos filtres à convolution par rapport aux filtres particulaires, nous avons proposé une adaptation du filtre particulaire avec interaction (IPF) au cas où la vraisemblance des observations est inconnue. Cette dernière application de type filtrage simple, toujours sur le même système, lui est consacrée : ( xt = yt = 25xt−1 1 x + 1+x 2 2 t−1 t−1 x2t + wt 20 + 8 cos(1.2t) + vt avec x0 ∼ N (0, 5), vt , wt ∼ N (0, 1). Nous comparons donc le comportement de l’IPF, l’IPFm sa version modifiée avec vraisemblance estimée et le filtre à convolution avec ré-échantillonnage (CFR). Dans tous les cas, les noyaux utilisés sont gaussiens avec hn = std(x̃i )n−0.2 . Les résultats présentés dans le tableau 8.7, sont les moyennes des erreurs quadratiques sur N = 500 trajectoires de t = 100 pas de temps, suivant le nombre de particules utilisées. 8.2 Problèmes d’estimation de paramètres Nb particules 50 100 500 1000 IPF 16.6865 12.4404 10.4035 10.2259 IPFm 17.3465 12.7122 10.5074 10.2277 189 CFR 14.4432 12.3516 10.6455 10.2820 TAB . 8.7 – Moyennes des erreurs quadratiques Les performances affichées (table 8.7) par le filtre IPFm sont tout à fait convenables. Mais sur cet exemple, on ne peut pas affirmer que le temps de calcul supplémentaire qu’il requiert soit justifié par rapport à ses performances. Une étude plus appronfondie, sur différents modèles, semble nécessaire pour l’établir de manière précise 8.2 Problèmes d’estimation de paramètres en cours de filtrage Dans ce sous-chapitre, nous allons comparer les performances d’estimation complémentaires de paramètres inconnus selon les trois approches envisagées au chapitre 5 : le maximum de vraisemblance, les moindres carrés et la technique bayésienne. De plus, en préamble, nous étudions l’approche empirique par minimisation d’une fonction de coût. De cette étude préliminaire, il ressort que l’emploi de techniques d’optimisation stochastiques nécessite de très gros temps de calculs. Pour contourner ce problème, nous appliquons la technique avec “aléas figés” pour construire les estimateurs du maximum de vraisemblance et des moindres carrés. De ce fait (cf. chapitre 5), seuls les filtres à convolution à mémoire complète et à mémoire tronquée restent utilisables. Leurs problèmes de divergence en temps long ne constituent pas ici une difficulté puisque l’optimisation est systématiquement réalisée sur un nombre T fixé d’observations. 8.2.1 Minimisation stochastique d’une fonction de coût Considérons dans cette partie un système de la forme suivante :  xt+1 = ft (xt , θ, ε) yt = ht (xt ) + ηt (8.2) 190 Applications sur des simulations Soit x bt (θ) un estimateur de IE[xt |y1:t , θ], ainsi la fonction de coût définie par l’expression T h 2 1 X i2 2 yt − ht x bt (θ) − ση C(θ) = T t=1 est naturelle . En effet, si xt remplace x bt (θ), par la loi forte des grands nombres on a que C → 0 lorsque T → ∞. Comme il est raisonnable de supposer que x bt (θ) est d’autant plus proche de xt que θ est proche de sa vraie valeur, il semble donc pertinent de minimiser C(θ). Or, cette fonction est aléatoire puisque les x bt (θ) sont aléatoires. Il faut donc utiliser des algorithmes stochastiques pour minimiser IE[C(θ)]. Dans les situations réelles, les bruits sur le système ne sont souvent pas connus, surtout pour le modèle d’état. Il est en effet, plus fréquent de connaître les caractéristiques de l’erreur d’observation ( par exemple, celles de l’erreur d’un appareil de mesure ). Pour nous situer dans ce contexte, nous avons supposé que les bruits sont blancs et gaussiens, que la variance de εt (le bruit sur le modèle d’état) est inconnue et celle de ηt (bruit d’observation) est connue. Estimation de la variance du bruit sur le modèle d’état Le système considéré comme support d’application est celui de Lo([99]) :  xt+1 = 1.1 exp(−2x2t ) − 1 + θ × εt yt = x3t + 0.1 × ηt avec x0 ∼ N (−0.5, 0.12) et εt , ηt des bruits gaussiens centrés réduits indépendants. Le paramètre inconnu est θ = σε . La vraie valeur de θ est θ0 = 0.5. Dans un premier temps, C(θ) est minimisée par la procédure de Kiefer-Wolfowitz([86]) pour T = 50. Les x bt (θ) sont obtenus suivant le filtre par convolution simple avec 800 particules et un noyau gaussien. Les résultats des deux situations étudiées, un point de départ éloigné de la vraie valeur et un point de départ proche de la vraie valeur sont représentés sur la figures 8.2. L’abscisse des figures représente les itérations de l’algorithme de minimisation. 8.2 Problèmes d’estimation de paramètres 191 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 7000 8000 9000 10000 0.61 0.6 0.59 0.58 0.57 0.56 0.55 0.54 0.53 0 1000 2000 3000 4000 5000 6000 F IG . 8.2 – Estimation de σε , départ σ̂ε =2 et σ̂ε =0.6 Dans les deux cas le processus semble aller dans la bonne direction mais il est très lent. Il faut toujours compter plusieurs jours de calcul, pour un processeur de type Pentium IV à 2Ghtz, pour effectuer les 10000 itérations, sans être sûr de la convergence. Comme l’objectif est de travailler en ligne nous ne pouvons pas utiliser cette méthode. Nous avons alors mis en place une procédure de minimisation stochastique plus raffinée, la méthode de Fabian([61]), détaillée en annexe. Comme on peut le 192 Applications sur des simulations voir sur la figure (8.3) la convergence est bien plus nette. 1.5 1 0.5 0 −0.5 −1 −1.5 −2 −2.5 −3 0 50 100 150 200 250 300 350 400 F IG . 8.3 – Estimation de σε , départ σ̂ε =2 Cependant, le temps de calcul est toujours assez long compte tenu de la complexité des itérations de la méthode de Fabian. De plus, il faut choisir plusieurs paramètres de réglage très influents sur la vitesse de convergence et la qualité du résultat. 8.2.2 Estimateur des moindres carrés conditionnels Le système considéré est encore celui de Lo([99]) avec variance d’état inconnue :  xt+1 = 1.1 exp(−2x2t ) − 1 + θ × εt yt = x3t + 0.1 × ηt avec x0 ∼ N (−0.5, 0.12) et εt , ηt des bruits gaussiens centrés réduits indépendants. La vraie valeur de θ est encore θ0 = 0.5. L’objectif est de minimiser la fonction suivante bT,n (θ) = Q T X t=1 (yt − mt,n (θ))2 8.2 Problèmes d’estimation de paramètres 193 avec mt,n (θ) l’estimation de IE[yt |y1:t−1 ] fournie par un filtre à convolution à n bT,n et l’estimateur mt,n (θ) sont plus ampleparticules. Cette fonction de coût Q ment détaillés au cinquième chapitre. Comme la fonction θ 7→ mt,n (θ) dépend des particules, elle est aléatoire. Pour contourner les difficultés inhérentes aux algorithmes de minimisation stochastiques, illustrées dans la section précédente, nous utilisons ici la technique de minimisation avec “aléas figés” exposée au cinquième chapitre. Avant de donner les résultats, nous en rappelons rapidement le principe, pour ce cas particulier. Il est toujours supposé que les variables aléatoires εt et ηt sont indépendantes entre elles et de tout le reste. Donc, pour une valeur de θ donnée, les bruits, εi1 , . . . , εnt et ηt1 , . . . ηtn générés pour construire les n trajectoires, nécessaires au filtre à mémoire complète, sont théoriquement valides et utilisables (même loi) pour une autre valeur de θ. Ainsi en conservant ces valeurs pour les bruits, la fonction θ 7→ mt,n (θ) n’est plus aléatoire, il est alors possible de la minimiser avec les algorithmes classiques. Intuitivement, cela peut s’interpréter comme une minimisation sur une réalisation du hasard donnée. A présent que le principe de la minimisation est rappelé, précisons le contexte des simulations. L’initialisation de l’algorithme de minimisation, fonction native de Matlabr , requiert la borne minimale et maximale pour θ ; nous avons pris 0 et 2, la vrai valeur étant θ0 = 0.5. Afin de caractériser leur impact, nous avons fait varier n, le nombre de particules employées ainsi que T , la longueur de la trajectoire considérée. Les résultats présentés dans les tableaux, Tab. 8.8, Tab. 8.9 et Tab. 8.10, regroupent : le maximum, l’écart type et la moyenne des erreurs absolues des estimations du paramètre sur 500 trajectoires différentes, pour respectivement T=20, T=50 et T=100. Pour compléter cette description des résultats, chacun des tableaux est accompagné d’une figure, respectivement Fig. 8.4, Fig. 8.5 et Fig. 8.6, regroupant les histogrammes des erreurs absolues pour différentes valeurs de n. 194 Applications sur des simulations Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 Max Ecart-Type Moy. 1.0792 0.1706 0.1812 0.7413 0.1552 0.1621 0.8186 0.1605 0.1694 0.8342 0.1612 0.1729 0.8640 0.1722 0.1755 0.8853 0.1819 0.1866 0.7924 0.1818 0.1787 TAB . 8.8 – Erreurs absolues sur 500 estimations avec T=20 (MC) 250 200 200 150 150 100 100 50 50 0 0 0.5 1 n=20 particules 1.5 0 200 200 150 150 100 100 50 50 0 0 0.2 0.4 0.6 n=500 particules 0.8 1 0 0 0 0.2 0.2 0.4 0.6 n=100 particules 0.8 0.4 0.6 n=5000 particules F IG . 8.4 – Histogrammes des erreurs absolues avec T=20 (MC) 1 0.8 8.2 Problèmes d’estimation de paramètres Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 195 Max Ecart-Type Moy. 0.5642 0.0889 0.1095 0.4722 0.0810 0.0991 0.5180 0.0753 0.0939 0.6752 0.0835 0.0928 0.7408 0.0993 0.0975 0.7333 0.1106 0.0985 0.9456 0.1217 0.1254 TAB . 8.9 – Erreurs absolues sur 500 estimations avec T=50 (MC) 200 200 150 150 100 100 50 50 0 0 0.2 0.4 0.6 n=20 particules 0.8 0 300 300 250 250 200 200 150 150 100 100 50 50 0 0 0.2 0.4 0.6 n=500 particules 0.8 0 0 0 0.2 0.2 0.4 0.6 n=100 particules 0.4 0.6 0.8 n=5000 particules F IG . 8.5 – Histogrammes des erreurs absolues avec T=50 (MC) 0.8 1 196 Applications sur des simulations Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 Max Ecart-Type Moy. 0.4059 0.0731 0.0951 0.3135 0.0597 0.0787 0.3565 0.0658 0.0823 0.4425 0.0716 0.0866 0.7056 0.0854 0.0877 0.5005 0.0909 0.0992 0.4589 0.1019 0.1456 TAB . 8.10 – Erreurs absolues sur 500 estimations avec T=100 (MC) 150 150 100 100 50 50 0 0 0.1 0.2 0.3 n=20 particules 0.4 0.5 0 300 120 250 100 200 80 150 60 100 40 50 20 0 0 0.2 0.4 0.6 n=500 particules 0.8 0 0 0 0.1 0.1 0.2 0.3 n=100 particules 0.4 0.2 0.3 0.4 n=5000 particules 0.5 F IG . 8.6 – Histogrammes des erreurs absolues avec T=100 (MC) 8.2 Problèmes d’estimation de paramètres 197 Les résultats présentés, cf. Tab. 8.8, 8.9, 8.10 et Fig. 8.4,8.5,8.6, sont globalement en accord avec les propriétés théoriques obtenues au cinquième chapitre. Plus précisement, la qualité des estimations s’améliore lorsque la taille de la mémoire T augmente, mais ce n’est pas clairement le cas lorsque le nombre de particules n augmente, alors que ça devrait l’être. En effet, il apparaît une dégradation lorsque le nombre de particule dépasse 1000. Plusieurs causes peuvent expliquer ce phénomène, le choix du hn n’est pas optimal et est peut être mal adapté pour de grands n, le filtre à mémoire complète se dégrade peut être trop pour T grand. Cependant, la qualité des estimations demeure correcte dans les différents cas de figures et le temps de calcul requis est sans comparaison avec les minimisations stochastiques, pour lesquelles il faut compter plusieurs jours de calculs pour une estimation. L’intérêt de cette technique d’estimation, les moindres carrés conditionnels avec “aléas figés”, est donc double. D’une part, les estimations obtenues sont correctes et d’autre part, le temps de calcul est tout à fait acceptable. Cependant, l’estimation est dépendante des réalisations d’erreurs particulières. La validité de l’estimation requiert une hypothèse d’ergodicité, sinon, il conviendrait de faire des estimations parallèles et de les moyenner. 8.2.3 Estimateur du maximum de vraisemblance Le système considéré est toujours celui de Lo([99]) avec variance d’état inconnue :  xt+1 = 1.1 exp(−2x2t ) − 1 + θ × εt yt = x3t + 0.1 × ηt avec x0 ∼ N (−0.5, 0.12) et εt , ηt des bruits gaussiens centrés réduits indépendants. La vraie valeur de θ est encore θ0 = 0.5. L’objectif est de maximiser l’approximation de la vraisemblance suivante n X i i bn (θ) = 1 L Kh (ỹ1:t − y1:t ) n i=1 fournie par le filtre à convolution à mémoire complète, construite avec n partibn (θ) est aléatoire, d’après les mêmes considérations que pour cules. La fonction L l’estimateur des moindres carrés conditionnels, nous utilisons la technique de minimisation avec “aléas figés” exposée au cinquième chapitre. La minimisation étant effectuée sur une réalisation du hasard fixée, tous les problèmes soulevés par l’optimisation stochastique sont ainsi contournés. 198 Applications sur des simulations Le contexte des simulations est le même que pour les moindres carrés conditionnels. L’algorithme de minimisation, fonction native de Matlabr est initialisé avec 0 et 2 comme bornes minimale et maximale pour θ. Nous avons aussi fait varier le nombre de particules employées n et la longueur de la trajectoire considérée T . Les résultats présentés dans les tableaux, Tab. 8.11, Tab. 8.12, regroupent : le maximum, l’écart type et la moyenne des erreurs absolues des estimations sur 500 trajectoires différentes, pour respectivement T=20 et T=50. Comme pour les cas précédents, chacun des tableaux est complété d’une figure, respectivement Fig. 8.7, Fig. 8.8, regroupant les histogrammes des erreurs pour différentes valeurs de n. Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 Max Ecart-Type Moy. 1.5000 0.1820 0.2069 0.8583 0.1382 0.1717 0.6924 0.1383 0.1707 0.8113 0.1353 0.1683 0.7848 0.1451 0.1757 0.9012 0.1545 0.1908 0.8397 0.1798 0.2235 TAB . 8.11 – Erreurs absolues sur 500 estimations avec T=20 (EMV) 250 150 200 100 150 100 50 50 0 0 0.5 1 1.5 n=20 particules 2 200 0 0 0.2 0.4 0.6 n=100 particules 0.8 140 120 150 100 80 100 60 40 50 20 0 0 0.2 0.4 0.6 n=500 particules 0.8 0 0 0.2 0.4 0.6 n=5000 particules 0.8 1 F IG . 8.7 – Histogrammes des erreurs absolues avec T=20 (EMV) 8.2 Problèmes d’estimation de paramètres Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 199 Max Ecart-Type Moy. 1.0191 0.1624 0.2268 0.7588 0.1324 0.2006 0.6954 0.1377 0.2070 0.7090 0.1378 0.2289 0.7469 0.1494 0.2699 0.7581 0.1587 0.3052 1.0323 0.1896 0.4004 TAB . 8.12 – Erreurs absolues sur 500 estimations avec T=50 (EMV) 140 120 120 100 100 80 80 60 60 40 40 20 20 0 0 0.5 1 n=20 particules 1.5 0 100 100 80 80 60 60 40 40 20 20 0 0 0.2 0.4 0.6 n=500 particules 0.8 0 0 0 0.2 0.4 0.6 n=100 particules 0.8 0.5 1 n=5000 particules 1.5 F IG . 8.8 – Histogrammes des erreurs absolues avec T=50 (EMV) 200 Applications sur des simulations Les résultats, Tab. 8.11,8.12 et Fig. 8.7,8.8, sont nettement inférieurs à ceux des moindres carrés conditionnels. Ils sont d’autant plus surprenants que le fait d’avoir augmenté T n’a pas amélioré le comportement, comme on pouvait s’y attendre mais l’a dégradé. Afin d’établir si ce phénomène est lié au filtre à mémoire complète, nous le remplaçons dans la suite par le filtre à mémoire tronquée ( 2 observations du passé), puisqu’il affiche de meilleures performances sur ce modèle (cf. Tab 8.1). Les résultats obtenus, pour l’estimateur du maximum de vraisemblance, estimé par le filtre à mémoire tronquée, sont présentés dans les tableaux 8.13, 8.14, 8.15 et leurs figures associées 8.9,8.10,8.11. Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 Max Ecart-Type Moy. 0.7035 0.1281 0.1534 0.7826 0.1322 0.1537 0.9101 0.1271 0.1749 0.5000 0.1282 0.1854 0.8285 0.1277 0.1956 0.5000 0.1362 0.2109 0.5000 0.1369 0.2363 TAB . 8.13 – Erreurs absolues sur 500 estimations avec T=20 (EMV) 200 200 150 150 100 100 50 50 0 0 0.2 0.4 0.6 n=20 particules 0.8 200 0 0 0.2 0.4 0.6 n=100 particules 0.8 1 0 0.1 0.2 0.3 n=5000 particules 0.4 0.5 120 100 150 80 100 60 40 50 20 0 0 0.2 0.4 0.6 n=500 particules 0.8 1 0 F IG . 8.9 – Histogrammes des erreurs absolues avec T=20 (EMV) 8.2 Problèmes d’estimation de paramètres Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 201 Max Ecart-Type Moy. 0.5000 0.1216 0.1588 0.5000 0.1257 0.1958 0.5000 0.1273 0.2128 0.5000 0.1190 0.2229 0.5000 0.1266 0.2517 0.5000 0.1244 0.2691 0.5000 0.1210 0.3035 TAB . 8.14 – Erreurs absolues sur 500 estimations avec T=50 (EMV) 120 140 100 120 100 80 80 60 60 40 40 20 0 20 0 0.1 0.2 0.3 n=20 particules 0.4 0.5 0 140 120 120 100 100 0 0.1 0.2 0.3 n=100 particules 0.4 0.5 0 0.1 0.2 0.3 0.4 n=5000 particules 0.5 80 80 60 60 40 40 20 20 0 0 0.1 0.2 0.3 n=500 particules 0.4 0.5 0 F IG . 8.10 – Histogrammes des erreurs absolues avec T=50 (EMV) 202 Applications sur des simulations Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 Max Ecart-Type Moy. 0.5000 0.1340 0.2095 0.5000 0.1157 0.2186 0.5000 0.1190 0.2546 0.5000 0.1198 0.2646 0.5000 0.1161 0.2858 0.5000 0.1108 0.3034 0.5000 0.1060 0.3258 TAB . 8.15 – Erreurs absolues sur 500 estimations avec T=100 (EMV) 120 140 100 120 100 80 80 60 60 40 40 20 0 20 0 0.1 0.2 0.3 0.4 0.5 0 0 0.1 n=20 particules 120 120 100 100 80 80 60 60 40 40 20 20 0 0 0.1 0.2 0.3 n=500 particules 0.4 0.5 0 0.1 0.2 0.2 0.3 n=100 particules 0.4 0.3 0.4 n=5000 particules F IG . 8.11 – Histogrammes des erreurs absolues avec T=100 (EMV) 0.5 0.5 8.2 Problèmes d’estimation de paramètres 203 Les performances de l’estimateur obtenu par le filtre à mémoire tronquée, cf. Tab. 8.13,8.14,8.15 et Fig. 8.9,8.10,8.11, sont légèrement supérieures à celles de l’estimateur obtenu par le filtre à mémoire complète. Cependant, elles demeurent encore nettement inférieures à celles de l’estimateur des moindres carrés conditionnels et l’incohérence sur l’évolution des performances suivant les valeurs de n et T subsiste. La technique par minimisation des moindres carrés semble donc préférable à la maximisation de la vraisemblance. Toutefois, une étude plus avancée permettrait certainement d’identifier la cause du mauvais fonctionnement du maximum de vraisemblance et d’y remédier. 8.2.4 Approche bayésienne Afin de compléter la comparaison des différentes méthodes d’estimation de paramètres, nous considérons une dernière fois le système de Lo([99]) avec variance d’état inconnue :  xt+1 = 1.1 exp(−2x2t ) − 1 + θ × εt yt = x3t + 0.1 × ηt avec x0 ∼ N (−0.5, 0.12) et εt , ηt des bruits gaussiens centrés réduits indépendants. La vraie valeur de θ est encore θ0 = 0.5. Pour l’estimation des paramètres par approche bayésienne, il suffit de donner une loi a priori aux paramètres inconnus. Pour garder des conditions comparables aux cas précédents, nous prenons, comme loi a priori pour θ, U[0, 2], la loi uniforme sur [0, 2]. Cette approche est différente des précédentes à base d’optimisation, car le paramètre est estimé tout au long du filtrage. Ainsi la question du choix de la longueur de la trajectoire T ne se pose plus. La valeur retenue pour l’estimation de θ, est, b IE[θ|y 1:120 ], l’estimation de l’espérance de θ connaissant toute la trajectoire des 120 observations. Cette estimation est obtenue par l’adaptation du filtre à convolution avec ré-échantillonnage, au cas de modèle contenant des paramètres inconnus, introduite au cinquième chapitre. Comme pour les autres approches, le tableau 8.16, rassemble : le maximum, l’écart type et la moyenne des erreurs absolues sur les estimations de 500 trajectoires au 120ème pas de temps, suivant n, le nombre de particules utilisées. Ce tableau est complété par la figure 8.12, regroupant les histogrammes des erreurs 204 Applications sur des simulations absolues pour différentes valeurs de n. Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 Max Ecart-Type Moy. 1.6224 0.2154 0.2408 1.1848 0.1560 0.1757 1.0135 0.1127 0.1339 0.9181 0.1069 0.1160 0.5257 0.0764 0.0924 0.3930 0.0667 0.0836 0.4472 0.0513 0.0562 TAB . 8.16 – Erreurs absolues sur 500 estimations (Bayes) 250 250 200 200 150 150 100 100 50 50 0 0 0.5 1 1.5 n=20 particules 2 200 0 0 0.5 1 n=100 particules 1.5 0.2 0.3 0.4 n=5000 particules 0.5 250 200 150 150 100 100 50 0 50 0 0.2 0.4 0.6 n=500 particules 0.8 0 0 0.1 F IG . 8.12 – Histogrammes des valeurs absolues des erreurs (Bayes) 8.2 Problèmes d’estimation de paramètres 205 L’approche bayésienne affiche de meilleures performances, cf. Tab. 8.16 et Fig. 8.12, que toutes les approches précédemment étudiées. De plus, le comportement suivant le nombre de particules, est en totale adéquation avec les résultats théoriques puisque l’erreur baisse lorsque n augmente. Mais cette technique bayésienne, en plus de ces bonnes performances, possède un gros avantage sur ses concurrentes, elle s’utilise “en ligne”. Il est donc possible de filtrer immédiatement, sans attendre d’avoir, comme pour les autres approches, une estimation de la valeur du paramètre après T pas de temps. Sur le plan du temps de calcul, l’introduction d’un paramètre inconnu ne ralentit quasiment pas le filtre. La méthode est encore plus rapide que les approches avec “aléas figés”. Cette approche bayésienne semble donc la mieux adaptée aux systèmes contenant des paramètres inconnus. En effet, elle les estime, tout en continuant le filtrage et sans augmentation significative du temps de calcul. Etudes complémentaires sur l’approche bayésienne Afin de mieux cerner le potentiel de cette approche bayésienne, nous l’étudions de manière plus approndie sur un autre système dynamique. Nous pourrons ainsi évaluer, sa robustesse par rapport aux nombres de paramètres inconnus, et l’impact de l’introduction de paramètres inconnus sur la qualité du filtrage. Le système considéré est celui de l’exemple 2, aussi étudié par Mendès & al.([103]), Kitagawa([87],[88]), Doucet([56],[58]), . . . ( 25xt−1 xt = 12 xt−1 + 1+x + 8 cos(1.2t) + vt 2 yt = x2t 20 t−1 + wt avec x0 ∼ N (0, 5), vt , wt ∼ N (0, 1). Les paramètres inconnus sont introduits progressivement dans le système. C’est toujours la procédure d’estimation bayésienne, développée au chapitre 5, qui est utilisée pour estimer ces paramètres. Introduction du premier paramètre inconnu Un paramètre inconnu est introduit dans le système qui devient alors ( θxt−1 xt = 12 xt−1 + 1+x + 8 cos(1.2t) + vt 2 yt = x2t 20 t−1 + wt 206 Applications sur des simulations La vraie valeur de θ est θ0 = 25. La loi a priori pour θ utilisée est une loi uniforme sur [15, 30], p0 (θ) = U[15, 30]. Les figures 8.13, 8.14, 8.15 et 8.16 représentent l’évolution, sur 500 pas de temps, de l’estimation de θ0 fournie par le filtre avec ré-échantillonnage. 28 27 26 25 24 23 22 21 20 19 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.13 – Estimation de θ0 = 25, avec n = 500 particules 28 27 26 25 24 23 22 21 20 0 50 100 150 200 250 300 350 400 450 F IG . 8.14 – Estimation de θ0 = 25, avec n = 1000 particules 500 8.2 Problèmes d’estimation de paramètres 207 26 25 24 23 22 21 20 19 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.15 – Estimation de θ0 = 25, avec n = 2000 particules 26 25 24 23 22 21 20 0 50 100 150 200 250 300 350 400 450 F IG . 8.16 – Estimation de θ0 = 25, avec n = 5000 particules Introduction d’un deuxième paramètre inconnu Après l’introduction d’un second paramètre inconnu, le système devient ( θ 1 xt−1 + θ2 cos(1.2t) + vt xt = 21 xt−1 + 1+x 2 yt = x2t 20 t−1 + wt 500 208 Applications sur des simulations La vraie valeur de θ est θ0 = (θ01 , θ02 ) = (25, 8). La loi a priori pour θ utilisée est une loi uniforme sur [15, 30] × [0, 15], p0 (θ1 , θ2 ) = U([15, 30] × [0, 15]). Les figures 8.17, 8.18, 8.19 et 8.20 représentent l’évolution, sur 500 pas de temps, des estimation de θ01 et θ02 fournies par le filtre avec ré-échantillonnage. 35 30 25 20 15 10 5 0 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.17 – Estimation de θ01 = 25 et θ02 = 8, avec n = 500 particules 30 25 20 15 10 5 0 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.18 – Estimation de θ01 = 25 et θ02 = 8, avec n = 1000 particules 8.2 Problèmes d’estimation de paramètres 209 30 25 20 15 10 5 0 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.19 – Estimation de θ01 = 25 et θ02 = 8, avec n = 2000 particules 30 25 20 15 10 5 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.20 – Estimation de θ01 = 25 et θ02 = 8, avec n = 5000 particules Introduction d’un troisième paramètre inconnu Enfin, un troisième paramètre inconnu est introduit dans le système qui devient : ( θ 1 xt−1 + θ2 cos(1.2t) + vt xt = θ3 xt−1 + 1+x 2 yt = x2t 20 t−1 + wt 210 Applications sur des simulations La vraie valeur de θ est θ0 = (θ01 , θ02 , θ03 ) = (25, 8, 0.5). La loi a priori utilisée est une loi uniforme sur [15, 30] × [0, 15] × [−5, 10], p0 (θ1 , θ2 , θ3 ) = U([15, 30] × [0, 15] × [−5, 10]). Les figures 8.21, 8.22, 8.23 et 8.24 représentent l’évolution, sur 500 pas de temps, des estimation de θ01 , θ02 et θ03 fournies par le filtre avec rééchantillonnage, pour respectivement 500, 1000, 2000 et 5000 particules. 30 25 20 15 10 5 0 −5 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.21 – Estimation de θ01 = 25, θ02 = 8 et θ03 = 0.5, avec n = 500 particules 30 25 20 15 10 5 0 −5 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.22 – Estimation de θ01 = 25, θ02 = 8 et θ03 = 0.5, avec n = 1000 particules 8.2 Problèmes d’estimation de paramètres 211 30 25 20 15 10 5 0 −5 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.23 – Estimation de θ01 = 25, θ02 = 8 et θ03 = 0.5, avec n = 2000 particules 30 25 20 15 10 5 0 −5 0 50 100 150 200 250 300 350 400 450 500 F IG . 8.24 – Estimation de θ01 = 25, θ02 = 8 et θ03 = 0.5, avec n = 5000 particules Pour les trois configurations envisagées, un, deux ou trois paramètres inconnus, il semble, d’après les figures précédentes, que les paramètres soient globalement bien estimés et ce, dès 500 particules. De plus, les estimations atteignent toujours très rapidement, après une ou deux observations, un voisinage de θ0 . 212 Applications sur des simulations Afin de caractériser, de manière quantitative, l’impact de l’introduction des paramètres inconnus sur la qualité du filtrage pour le filtre par convolution avec ré-échantillonnage, nous avons réalisé une série de simulations. Pour les trois cas, nous avons évalué l’erreur commise par le filtre avec ré-échantillonnage, avec et sans paramètres inconnus, pour différents nombres de particules. Les résultats sont rassemblés dans les tableaux (8.17), (8.18) et (8.19). Ces tableaux s’interprètent de la façon suivante : - La première colonne désigne le nombre n de particules utilisées. - La seconde colonne donne la moyenne des erreurs quadratiques de l’état, calculées sur 100 trajectoires de 100 pas de temps, sans paramètre inconnu. - La troisième colonne donne la moyenne des erreurs quadratiques de l’état calculées sur 100 trajectoires de 100 pas de temps avec 1,2 ou 3 paramètres inconnus, selon le cas considéré. - Les colonnes suivantes donnent la moyenne des erreurs absolues au dernier instant (t=100) pour chacun des paramètres inconnus. Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 CFR CFR-1param 24.35 32.10 13.49 19.04 12.61 16.82 11.05 14.10 10.51 12.72 10.57 11.90 11.05 12.27 Param 3.63 3.11 2.69 2.08 1.71 1.28 0.87 TAB . 8.17 – Filtre avec ré-échantillonnage pour 1 paramètre inconnu Nb particules n = 20 n = 50 n = 100 n = 200 n = 500 n = 1000 n = 5000 CFR CFR-2param 23.81 73.94 15.31 46.03 13.28 25.86 11.99 19.90 10.42 17.31 11.25 15.54 10.09 13.24 Param1 Param2 4.80 2.45 3.64 1.69 3.15 0.80 2.73 0.61 1.89 0.51 2.00 0.46 1.19 0.31 TAB . 8.18 – Filtre avec ré-échantillonnage pour 2 paramètres inconnus 8.3 Conclusion du huitième chapitre Nb particules n = 100 n = 200 n = 500 n = 1000 n = 5000 n = 10000 CFR CFR-3param 13.14 95.45 11.92 46.65 10.72 29.37 12.00 24.70 10.30 18.79 9.79 16.59 213 Param1 Param2 Param3 5.02 3.43 0.17 2.44 1.63 0.10 2.12 0.86 0.04 1.67 0.55 0.03 1.28 0.48 0.02 0.96 0.45 0.02 TAB . 8.19 – Filtre avec ré-échantillonnage pour 3 paramètres inconnus Naturellement, plus il y a de paramètres inconnus, plus l’erreur commise est grande. Mais dans tous les cas, la perte de qualité induite par les paramètres inconnus s’atténue lorsque le nombre de particules augmente. De plus, les estimations des paramètres, réalisées simultanément, sont aussi de bonne qualité, et ce, même avec un nombre de particules raisonnable. Ces résultats sont donc conformes aux propriétés théoriques obtenues dans les chapitres précédents. 8.3 Conclusion du huitième chapitre Les filtres développés à partir des noyaux de convolution se comportent plus qu’honorablement sur les exemples considérés, puisque leurs résultats surpassent largement ceux du filtre de Kalman étendu et égalent ceux de Lo([99]) et des filtres particulaires. Les hypothèses nécessaires à leur convergence sont plus faibles que celles de Kalman puisqu’on n’exige pas que les bruits soient gaussiens. Elles sont aussi plus souples que celles des filtres particulaires : - Il n’est pas nécessaire de connaître la forme analytique de la vraisemblance du bruit d’observation. Il suffit d’être en mesure de générer des variables suivant cette loi. - Il est possible de filtrer des systèmes dynamiques dont le bruit sur les observations est très faible, situation dans laquelle les filtres particulaires sont en difficulté. Il est même possible de filtrer des systèmes dynamiques dont les observations ne sont pas bruitées et pour lesquels les filtres particulaires ne sont pas 214 Applications sur des simulations rigoureusement calculables. Les exemples de problèmes d’estimation de paramètres inconnus en cours de filtrage ont mis en avant la supériorité de la technique bayésienne. En effet, les minimisations stochastiques sont trop coûteuses en terme de temps de calcul et les estimations de qualité médiocre. Les alternatives avec “aléas figés” offrent des temps de calcul acceptables, mais sont de qualités inégales. Par conséquent, elles conservent un intérêt. Toutefois une étude plus approfondie, afin d’améliorer leur comportement et de définir une stratégie pour le choix des paramètres T et n, est nécessaire avant d’envisager une utilisation pratique. L’approche bayésienne demeure donc la plus attrayante. En effet, elle s’intègre facilement dans la procédure de filtrage et ne provoque seulement qu’une légère augmentation du temps de calcul car il faut prendre plus de particules. Cette procédure reste suffisamment rapide pour être utilisable en ligne et, comme on l’a vu sur les exemples, elle fournit des estimations de bonne qualité tant pour l’état que pour les paramètres. De plus, elle semble très bien supporter des systèmes dynamiques contenant plusieurs paramètres inconnus. Cette qualité est d’autant plus importante que les estimateurs à base d’optimisation sont en difficulté dans ce contexte. Chapitre 9 Application à un bio-procédé de dépollution Ce dernier chapitre est l’occasion d’analyser le comportement de nos filtres sur un problème réel à l’origine de ce travail méthodologique. En l’occurrence, le système dynamique considéré, tout au long de ce chapitre, modélise le fonctionnement d’un bioréacteur de retraitement d’eaux usées, par un procédé de type digestion anaérobie. Il est important de préciser que ce modèle est le fruit de plusieurs années de recherche du Laboratoire de Biotechnologie de l’Environnement (LBE) de l’INRA à Narbonne. D’autre part, cette thèse se situe dans la continuité de l’étude, par des approches de statistique non paramétrique, de problématiques liées aux bioprocédés, du Laboratoire d’Analyse des Systèmes et Biométrie de l’INRA à Montpellier. Les travaux précédents de Hilgert ([75]) et Wagner ([127]) notamment, s’inscrivent dans cet axe de recherche du laboratoire. Les bioprocédés de dépollution consistent en la transformation, au sein d’un réacteur, de matières organiques (substrats), par des micro organismes (biomasses). Il est fréquent que les capteurs à disposition, souvent d’un coût prohibitif, ne mesurent que certaines des variables (concentrations) nécessaires au contrôle. Il est alors indispensable d’estimer les autres variables, compte tenu du modèle du procédé, c’est-à-dire de réaliser une opération de filtrage sur les variables de sortie mesurables. Cette opération est aussi souvent appelée reconstruction d’état du système dynamique considéré par les automaticiens. Dans un premier temps, nous présentons le système dynamique modélisant le 216 Application à un bio-procédé bioprocédé de digestion anaérobie au centre de l’étude. Puis nous présentons la partie des résultats de comportement de nos filtres par convolution sur des simulations réalisées à partir de ce modèle. Cette seconde partie permettra aussi d’évaluer le potentiel des filtres ainsi que leur robustesse par rapport aux paramètres incertains du modèle. Finalement, la dernière partie du chapitre est consacrée au filtrage sur des données recueillies par le LBE. La difficulté principale, par rapport aux simulations, réside dans l’instabilité de certains capteurs qui génèrent parfois des observations aberrantes. 9.1 Présentation du problème Dans ce chapitre, nous donnons seulement les informations relatives au bioprocédé permettant de comprendre le système dynamique. Une présentation plus générale des bioprocédés technologiques et de leurs modélisations est proposée en annexe. Modélisation de la bioréaction considérée Ce modèle est de conception récente (Bernard & al. [9]). Il est utilisé au Laboratoire de Biotechnologie de l’Environnement (LBE) de l’INRA à Narbonne. Il porte sur un procédé de type digestion anaérobie modélisé par une approche bilan-matière. Une description détaillée du réacteur et des capteurs est réalisée par Steyer & al.([122]). Ce type de réacteur ne peut être utilisé directement en station d’épuration car son temps de réaction aux variations de concentrations des polluants est trop lent. Cependant, il est bien adapté à des tâches spécifiques ponctuelles, comme, le traitement des boues de vinification après vendanges car, dans un tel contexte, la concentration en polluant est totalement sous contrôle. 9.1 Présentation du problème 217 Le modèle :  Ḃ1      Ḃ2      Ż Ṡ1    Ṡ2     ĊT I    = = = = = = (µ1 − αD)B1 (µ2 − αD)B2 D(Z in − Z) D(S1in − S1 ) − k1 µ1 B1 D(S2in − S2 ) + k2 µ1 B1 − k3 µ2 B2 D(CTinI − CT I ) + k4 µ1 B1 + k5 µ2 B2 −QCO2 (9.1) C’est un système dynamique continu, défini par des équations différentielles. Or, tous les systèmes considérés jusqu’à présent étaient discrets. Cela ne pose aucun problème sur le plan théorique, pour nos filtres par convolution. En effet, il suffit d’être en mesure de générer des états et des observations suivant le modèle. Donc, rien n’empêche que cela soit fait en calculant des intégrales. La seule difficulté est alors pratique : le temps de calcul risque d’augmenter. Pour simplifier le problème, dans la suite, tous les traitements numériques sont réalisés avec une version discrétisée, selon le schéma d’Euler, de ce modèle d’EDO. Il y a une autre différence fondamentale avec les systèmes habituellement considérés. Le modèle est ici supposé refléter parfaitement la réalité, car il est le fruit d’une approche déterministe. Il faut donc ajouter quelques perturbations à ce système pour être dans le contexte d’application des filtres particulaires, justifiées de plus par la discrétisation opérée. Ce travail de discrétisation et de perturbation du système 9.1 sera réalisé par la suite. Nous continuons la présentation du système, dans les sections suivantes, par la description de ces éléments. 218 Application à un bio-procédé Description des variables Toutes les variables d’état sont des variables de concentrations : B1 B2 Z S1 S2 CT I D QCO2 Concentration en bactéries acidogènes. Concentration en bactéries méthanogènes. Concentration dans le milieu en ions forts. Concentration en polluants quantifiée par leur demande chimique en oxygène. Concentration en acides gras volatils. Concentration totale de carbone inorganique. Taux de dilution. Débit de CO2 . Les variables B1 , B2 sont relatives aux biomasses. S1 et S2 , sont relatives aux substrats. Les deux variables restantes Z et CT I servent d’indicateurs de l’état du bioréacteur. Comme elles sont mesurables, elles peuvent être utiles en filtrage. D est la variable de contrôle. QCO2 est une variable de sortie. Les lois de croissance des bactéries Les taux de croissance µ1 et µ2 des biomasses sont modélisés respectivement par des lois de Monod et d’Haldane ([121]) : µ1 = µmax1 S1 KS 1 + S 1 et µ2 = µmax2 KS 2 S2 S2 2 ) + S2 + ( K I avec µmax1 = 1.2 µmax2 = 0.74 KS1 = 8.875 KS2 = 25 KI = 16 Tx de croissance max des biomasses B1 . Tx de croissance max des biomasses B2 . Paramètre de saturation du substrat S1 . Paramètre de saturation du substrat S2 . Constante d’inhibition associé à S2 . 9.1 Présentation du problème 219 Description des paramètres Comme pour le modèle, les valeurs des paramètres intervenant dans le système sont justifiées par Bernard & al.([9]) : proportion du taux de dilution relatif à l’hétérogénéité du procédé. k1 = 42.14 rendement de conversion S1 → B1 . k2 = 116.5 rendement de conversion S1 → B2 . k3 = 268 rendement de conversion S2 → B2 . k4 = 50.6 rendement de conversion S1 → CO2 . k5 = 343.6 rendement de conversion S2 → CO2 . k6 = 453 rendement de conversion S2 → CH4 . α = 0.5 Les variables d’état d’intérêt sont les substrats S1 , S2 et, à un degré moindre, les biomasses B1 , B2 . Leurs mesures en ligne sont délicates. Des capteurs permettent de mesurer les variables Z et CT I et, avec encore plus de fiabilité le débit de gaz du bioréacteur Qgaz et le pH du milieu. Il s’agit donc d’estimer S1 , S2 , B1 et B2 , connaissant au moins certaines des quatre variables précédentes. Dans l’opération de filtrage, nous comparons les valeurs Z, CT I , pH et Qgaz mesurées, à celles calculées à partir du modèle. Les valeurs calculées de Z et CT I sont directement données par le modèle. Pour le pH, on peut utiliser une équation relative à l’équilibre sur le carbone. Ainsi, à chaque instant t, le pH du réacteur est donné par   Kco2(CT I (t) − Z(t) + S2 (t)) pH(t) = − log / log 10 Z(t) − S2 (t) Où Kco2 = 4, 9.10−7 est la constante de dissociation. La calcul du débit de gaz Qgaz est plus compliqué. Ce débit est la somme des débits de gaz carbonique (CO2 ) et de méthane (CH4 ) dégagés : Qgaz (t) = QCO2 (t) + QCH4 (t). Le débit de méthane dégagé peut se calculer par : QCH4 (t) = kk9(t)qCH4 (t)/1000/24 Où qCH4 (t) = V × k6 × µ2 (t) × B2 (t) et kk9(t) = RT /Pt (t) (RT constante des gaz parfaits). V désigne le volume du réacteur et Pt désigne la pression mesurée 220 Application à un bio-procédé en ligne. Pour le débit de CO2 dégagé : QCO2 (t) = kla(CT I (t) + S2 (t) − Z(t) − Kh × Pc (t)) Où Kh = 16, constante de Henry, kla = 19.8, échange CO2 dissous-gazeux par jour spécifique à ce réacteur. Pc s’obtient à l’aide des deux équations suivantes : p φ(t) − φ(t)2 − 4Kh × Pt (t)(CT I (t) + S2 (t) − Z(t)) Pc (t) = 2Kh et k6 µ2 (t)B2 (t) kla A présent que le système modélisant le bioréacteur est détaillé, nous consacrons la section suivante aux problèmes de filtrage y afférant. φ(t) = C(t) + S2 (t) − Z(t) + Kh × Pt (t) + 9.2 Filtrage du bioprocédé Dans la première phase, nous évaluons le potentiel du filtre par convolution avec ré-échantillonnage sur ce modèle. Ainsi, nous l’utilisons sur différentes configurations de variables observées sur des données simulées à partir du bio-procédé. Puis dans la deuxième phase, nous travaillons sur des données réelles mesurées sur un bio-réacteur de l’unité LBE de l’INRA Narbonne. Le passage sur données réelles nécessite de faire face à deux grosses difficultés : l’inexactitute du modèle et l’imprécision temporaire de certaines mesures. 9.2.1 Phase de simulations du bioprocédé Le modèle de ce procédé peut bien sûr s’écrire sous la forme générale (1.1). Soit Xt = (B1 , B2 , Z, S1, S2 , CT I ) et ft le système dynamique discrétisé modélisant le bioréacteur. On a Xt+1 = ft (Xt ). Les filtres stochastiques, et donc par convolution, supposent que le système dynamique est bruité. Or, comme le modèle considéré n’est pas exact, il est raisonnable de le bruiter artificiellement pour se rapprocher de la situation réelle. Le modèle que l’on considère dans la suite est alors de la forme Xt+1 = ft (Xt ) + εt+1 . Comme le modèle, bien que non exact, est supposé de “bonne qualité” nous avons choisi, arbitrairement, pour les simulations, des petits bruits gaussiens : ε1t , ε2t ∼ 9.2 Filtrage du bioprocédé 221 N (0, 0.01), ε3t ∼ N (0, 0.5), ε4t ∼ N (0, 0.1), ε5t ∼ N (0, 0.3) et ε6t ∼ N (0, 0.5). Comme nous l’avons expliqué précédemment, pour évaluer le comportement du filtre avec ré-échantillonnage, nous avons considéré différents cas de figures : nous avons fait varier pour chaque cas, l’ensemble des variables d’états observées et celui des variables à estimer. Cependant, comme les concentrations en substrats S1 et S2 sont toujours à estimer en pratique, nous les avons toujours supposées non observées. De plus, le pH et le débit de gaz du bioréacteur Qgaz étant mesurés avec une assez grande fiabilité, nous les maintenons toujours dans l’ensemble des variables observées. Pour évaluer les performances de filtrage, nous présentons le tableau des moyennes des erreurs quadratiques (MSE), entre les valeurs vraies et filtrées, des variables à estimer, sur N = 50 simulations d’une journée, avec des mesures toutes les deux minutes (t = 1, . . . , 720). Afin de donner une idée plus intuitive des performances, nous représentons graphiquement une des 50 simulations, à savoir : les courbes de vraies valeurs de chacune des variables, en lignes continues (–), juxtaposées aux courbes des valeurs estimées par le filtre, en lignes brisées (- -). 222 Application à un bio-procédé Cas 1 Variables observées : Y = [ pH, Qgaz ] + η où η1 , η2 ∼ N (0, 0.25). Variables estimées : B1 , B2 , S1 , S2 , Z et CT I . Variable B1 B2 Z S1 S2 CT I MSE 0.0495 0.0369 0.6936 1.7188 5.9692 0.7656 1.5 1.5 1 1 B1 B2 0.5 0.5 0 0 0.2 0.4 0.6 0.8 0 1 0 0.2 Temps (j) 1 0.8 1 0.8 1 6 S1 90 80 4 2 0 0.2 0.4 0.6 0.8 1 0 0 0.2 Temps (j) S2 0.8 8 100 70 0.6 Temps (j) 110 Z 0.4 100 60 80 40 Cti 60 20 40 0 0.2 0.4 0.6 Temps (j) 0.6 Temps (j) 80 0 0.4 0.8 1 20 0 0.2 0.4 0.6 Temps (j) F IG . 9.1 – Illustration du Cas 1, n = 500 particules 9.2 Filtrage du bioprocédé 223 Cas 2 Variables observées : Y = [ pH, Qgaz , Z, CT I ] + η où η1 , η2 , η3 et η4 ∼ N (0, 0.25). Variables estimées : B1 , B2 , S1 et S2 . Variable B1 B2 S1 S2 MSE 0.0493 0.0361 1.7091 5.9420 1.5 B1 1 0.5 0 0 0.1 0.2 0.3 0.4 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.5 0.6 0.7 0.8 0.9 1 0.6 0.7 0.8 0.9 1 Temps (j) 1.5 B2 1 0.5 0 0 Temps (j) 10 S1 5 0 0 0.1 0.2 0.3 0.4 0.5 Temps (j) 100 S2 50 0 0 0.1 0.2 0.3 0.4 0.5 Temps (j) 0.6 0.7 F IG . 9.2 – Illustration du Cas 2, n = 500 particules 0.8 0.9 1 224 Application à un bio-procédé Il ressort des deux premiers cas, que la qualité du filtrage est très peu affectée par la suppression des observations Z et CT I . De plus, le fait d’estimer un état à six dimensions pour le cas 1 ou un état à quatre dimensions pour le cas 2, n’affecte pas le filtre. On retrouve ainsi la robustesse, par rapport aux dimensions, caractéristique des méthodes de Monte Carlo. Afin de tester notre filtre en situation de forte erreur de modèle, dans les deux cas suivants, nous simplifions le modèle postulé pour le procédé, en supposant que les biomasses restent constantes (approximations fréquentes en pratique).  B1 = 1 B2 = 1.25 Cependant, les évolutions vraies (simulées) de B1 et B2 restent comme dans le modèle (9.1). C’est-à-dire, la trajectoire à estimer est générée avec un système dynamique dont les biomasses sont dynamiques, alors que les trajectoires du filtre sont générées avec des biomasses contantes. Cas 3 Variables observées : Y = [ pH, Qgaz ] + η Variables estimées : S1 , S2 , Z et CT I . Variable Z S1 S2 CT I où η1 , η2 ∼ N (0, 0.25). MSE 49.5482 2.9866 142.5208 117.1285 9.2 Filtrage du bioprocédé 225 100 90 Z 80 70 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.6 0.7 0.8 0.9 1 0.6 0.7 0.8 0.9 1 0.6 0.7 0.8 0.9 1 Temps (j) 10 S1 5 0 0 0.1 0.2 0.3 0.4 0.5 Temps (j) 60 S2 40 20 0 0 0.1 0.2 0.3 0.4 0.5 Temps (j) 100 Cti 50 0 0 0.1 0.2 0.3 0.4 0.5 Temps (j) F IG . 9.3 – Illustration du Cas 3, n = 500 particules Cas 4 Variables observées : Y = [ pH, Qgaz , Z, CT I ] + η où η1 , η2 , η3 et η4 ∼ N (0, 0.25). Variables estimées : S1 et S2 . Variable S1 S2 MSE 2.2941 25.7809 226 Application à un bio-procédé 7 6 5 S1 4 3 2 1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.6 0.7 0.8 0.9 1 Temps (j) 60 50 40 S2 30 20 10 0 0 0.1 0.2 0.3 0.4 0.5 Temps (j) F IG . 9.4 – Illustration du Cas 4, n = 500 particules Cette fois, l’apport de Z et CT I est plus significatif, puisque les résultats sont nettement meilleurs dans le cas 4 que dans le cas 3. On remarque aussi que les MSE de Z et de CT I sont beaucoup plus élevées que pour les cas 1 et 2. La raison principale est, bien sûr, que les biomasses sont, à tort, supposées constantes pour les cas 3 et 4. Les performances obtenues dans les quatre cas précédents, nous assurent que le filtre à convolution avec ré-échantillonnage fonctionne correctement avec ce système dynamique. Comme le montrent les cas 3 et 4, il est même robuste aux erreurs de modèles. Cette qualité est nécessaire pour passer aux traitements des vraies données, puisque le modèle est nécessairement faux. 9.2 Filtrage du bioprocédé 227 9.2.2 Traitement des données réelles Le modèle du bioprocédé, présenté au début du chapitre, contient de nombreux paramètres inconnus. L’ajustement de ces paramètres pose beaucoup de difficultés en pratique. Les valeurs que nous utilisons sont celles obtenues dans le cas où les biomasses B1 et B2 sont supposées constantes. Cette hypothèse, bien qu’irréaliste, simplifie le problème d’estimation des paramètres. Présentation des données Les données considérées correspondent au fonctionnement d’un bioréacteur sur 30 jours, avec des mesures toutes les deux minutes. L’opération de filtrage se déroule donc sur 21600 pas de temps de 2 minutes. Les figures suivantes représentent l’évolution des différentes variables du modèles sur 30 jours. Les courbes en trait plein (-) sont obtenues à l’aide du modèle déterministe fourni par le LBE. Les courbes en pointillés (.-) sont les valeurs mesurées par les différents capteurs (un ou plusieurs par variable). 1.4 1.2 1 0.8 B1 0.6 0.4 0.2 0 0 5 10 15 Temps (j) 20 25 30 0 5 10 15 Temps (j) 20 25 30 1.6 1.4 1.2 B2 1 0.8 0.6 0.4 0.2 F IG . 9.5 – Evolution des biomasses 228 Application à un bio-procédé 10 9 8 7 6 S1 5 4 3 2 1 0 0 5 10 15 Temps (j) 20 25 30 25 30 25 30 F IG . 9.6 – Evolution de S1 100 90 80 70 60 S 2 50 40 30 20 10 0 0 5 10 15 Temps (j) 20 F IG . 9.7 – Evolution de S2 120 110 100 90 C ti 80 70 60 50 40 0 5 10 15 Temps (j) 20 F IG . 9.8 – Evolution de Cti 9.2 Filtrage du bioprocédé 229 170 160 150 140 130 Z 120 110 100 90 80 70 0 5 10 15 Temps (j) 20 25 30 20 25 30 F IG . 9.9 – Evolution de Z 300 250 200 150 Qgaz 100 50 0 0 5 10 15 Temps (j) F IG . 9.10 – Evolution du débit de gaz 100 90 80 70 60 50 Q CO 2 40 30 20 10 0 0 5 10 15 Temps (j) 20 F IG . 9.11 – Evolution du débit CO2 25 30 230 Application à un bio-procédé 200 180 160 140 120 100 Q Ch4 80 60 40 20 0 0 5 10 15 Temps (j) 20 25 30 F IG . 9.12 – Evolution du débit de CH4 Comme on peut le voir sur les figures précédentes, le modèle déterministe utilisé produit des trajectoires assez éloignées des valeurs mesurées. De plus, les données mesurées ne sont pas de très bonne qualité excepté le pH (non représenté). Comme on l’a vu lors des simulations, lorsque le modèle n’est pas exact il est nécessaire de prendre un maximum de variables d’observations. Nous utilisons donc, le pH, Z, Cti , le débit de CO2 et le débit de CH4 dans un premier temps. Ensuite, nous tenterons de réduire un peu le nombre de variables observées. Toutefois, si en un instant donné, l’une d’elle prend une valeur aberrante, elle n’est pas prise en compte à cet instant-là. Modélisation stochastique La prise en compte des incertitudes de modèle et des imprécisions des mesures se fait au travers de l’ajout de petits bruits sur le modèle. Tout d’abord, nous introduisons de légères perturbations sur les lois de croissance des bactéries : µ1 = µmax1 S1 + a1 × ε1 KS 1 + S 1 et µ2 = µmax2 puis aussi sur le système : KS 2 S2 + a2 × ε2 S2 2 + S1 + ( K ) I 9.2 Filtrage du bioprocédé 231 B1 (t) + T × (µ1 − α × D(t)) × B1 (t) + a3 × ε3 B2 (t) + T × (µ2 − α × D(t)). × B2 (t) + a4 × ε4 Z(t) + T × (D(t) × (Z in − Z)) + a5 × ε5 S1 (t) + T × (D(t) × (S1in − S1 (t)) − k1 × µ1 × B1 (t)) + a6 × ε6 S2 (t) + T × (D(t) × (S2in − S2 (t)) + k2 × µ1 × B1 (t) −k3 × µ2 × B2 (t)) + a7 × ε7 Cti (t + 1) = Cti (t) + T × (D(t) × (Ctiin − Cti (t)) − QCO2 (t) +k4 × µ1 × B1 (t) + k5 × µ2 × B2 (t)) + a8 × ε8 B1 (t + 1) B2 (t + 1) Z(t + 1) S1 (t + 1) S2 (t + 1) = = = = = avec εi ∼ N (0, 1) et ai l’écart type associé, pour i = 1, . . . , 8. Comme nous ne possédons seulement qu’une vague idée sur l’ordre de grandeur des valeurs des écarts types des bruits, a1 , a2 , . . . , a8 , nous les considérons comme des paramètres inconnus à estimer en cours de filtrage. Nous avons choisis les lois a priori suivantes : a1 , a2 , a3 , a4 , a6 , a7 ∼ U[0 0.3] a5 , a8 ∼ U[1 4] Filtrage sur données réelles La procédure de filtrage est réalisée sur 10 jours de fonctionnement du bioréacteur. Nous utilisons le filtre par convolution avec ré-échantillonnage avec : 5000 particules, un noyau gaussien et hn = std(x̃i )n−0.2 pour chaque variable et paramètre. Le système compte six variables d’état, B1 , B2 , S1 , S2 , Z, Cti et huits paramètres a1 , a2 , . . . , a8 . Les données filtrées sont toutes les variables d’état non observées. Cependant, pour les experts du bioprocédé, les variables importantes sont les biomasses B1 , B2 , et surtout les substrats S1 , S2 . L’appréciation de la qualité du filtre se fait donc par rapport à ces variables. Toutefois, seuls les substrats sont mesurés par capteurs. Les représentations graphiques sont réalisées essentiellement pour ces derniers. Les courbes en trait plein épais (–) sont celles obtenues à l’aide du filtre. Les courbes en pointillés (· ·) sont, comme précédemment, les valeurs mesurées par les différents capteurs, deux ou trois selon les cas. Comme pour les simulations, le nombre de variables observées varie : 5, 4 ou 3, pour respectivement, le premier, le deuxième et le troisième cas considérés. Le dernier cas propose une prise en compte de l’incertitude sur les nombreux paramètres du modèle. 232 Application à un bio-procédé Cas 1 Ce premier cas, correspond au contexte le plus favorable. Les variables observées sont : pH, Z, Cti , le débit de CO2 et le débit de CH4 . Lorsque les mesures de certaines variables sont incohérentes, par rapport aux réalités biologiques ou physiques, elles sont temporairement exclues du processus de sélection. Seuls les paramètres a1 , a2 , . . . , a8 du système dynamique sont ici estimés. 10 9 8 7 6 S 1 5 4 3 2 1 0 0 1 2 3 4 5 Temps (j) 6 7 8 9 10 9 10 F IG . 9.13 – Evolution de S1 100 90 80 70 60 S 2 50 40 30 20 10 0 0 1 2 3 4 5 Temps (j) 6 7 8 F IG . 9.14 – Evolution de S2 Le résultat obtenu par le filtre (voir figures 9.13 et 9.14) est tout à fait correct. Il reconstitue relativement bien les substrat S1 et S2 , sur toute la durée du procédé. De plus, il fournit des estimations par filtrage des biomasses non mesurées, non représentées ici car il est impossible d’apprécier leur qualité. Remarquons que les procédures déterministes sont incapables d’estimer les biomasses. 9.2 Filtrage du bioprocédé 233 Cas 2 Considérons à présent une situation moins favorable. Nous supposons que Z n’est plus observée. Les seules variables observées sont donc pH, Cti , le débit de CO2 et le débit de CH4 . La variable Z est donc à estimer. Et comme pour le cas 1, seuls les paramètres a1 , a2 , . . . , a8 du système dynamique sont estimés. 10 9 8 7 6 S 1 5 4 3 2 1 0 0 1 2 3 4 5 Temps (j) 6 7 8 9 10 8 9 10 9 10 F IG . 9.15 – Evolution de S1 100 90 80 70 60 S 2 50 40 30 20 10 0 0 1 2 3 4 5 Temps (j) 6 7 F IG . 9.16 – Evolution de S2 170 160 150 140 130 Z 120 110 100 90 80 70 0 1 2 3 4 5 6 7 8 Temps (j) F IG . 9.17 – Evolution de Z Il ressort des figures 9.15,9.16 et 9.17 que la qualité des estimations se dégrade dans le temps. De plus, une certaine variabilité des estimations apparaît lorsque 234 Application à un bio-procédé l’on répète l’opération. La suppression de l’observation de Z est donc préjudiciable au filtrage. Comme on l’a constaté en simulation, cela est caractéristique d’erreurs dans le modèle. Avant d’essayer d’y remédier, en estimant de nouvelles valeurs pour les paramètres, nous examinons les conséquences sur le filtrage de la suppression du Cti . Cas 3 Nous restreignons encore le nombre de variables observées : pH, le débit de CO2 et le débit de CH4 . Le filtrage est ainsi réalisé dans une situation peu favorable. 10 9 8 7 6 S 1 5 4 3 2 1 0 0 1 2 3 4 5 Temps (j) 6 7 8 9 10 9 10 F IG . 9.18 – Evolution de S1 100 90 80 70 60 S 2 50 40 30 20 10 0 0 1 2 3 4 5 Temps (j) 6 F IG . 9.19 – Evolution de S2 7 8 9.2 Filtrage du bioprocédé 235 170 160 150 140 130 120 Z 110 100 90 80 70 0 1 2 3 4 5 6 7 8 9 10 9 10 Temps (j) F IG . 9.20 – Evolution de Z 120 110 100 90 C ti 80 70 60 50 40 0 1 2 3 4 5 6 7 8 Temps (j) F IG . 9.21 – Evolution de Cti Les figures 9.18,9.19,9.20, et 9.21, illustrent la dégradation significative de la qualité du filtrage. Cependant, malgré le peu d’information utilisée, les estimations proposées par le filtre ne sont pas incohérentes, surtout pour les substrats. Comme pour le cas précédent, une assez grande variabilité des estimations est constatée lorsque l’on répète le filtrage. Cas 4 Les valeurs utilisées pour les paramètres étant forcément mauvaises, puisqu’elles sont établies sous l’hypothèse que les biomasses sont constantes, nous procédons donc maintenant dans ce cas à leur estimation parallèlement au filtrage. Pour simplifier ce travail, nous pouvons nous appuyer sur les informations suivantes établies dans la littérature (Bernard & al.[9, 10]) : 236 Application à un bio-procédé Paramètres Valeur µmax1 1.2 µmax2 0.74 KS 1 7.1 KS 2 9.28 2 KI 256 kla 19.8 α 0.5 k1 42.14 k2 116.5 k3 268 k4 50.6 k5 343.6 k6 453 Ecart-type 1 0.9 5 13.7 320 3.5 0.4 18.94 113.5 52.31 143.6 75.8 90.9 Ratio k2 /k1 k6 /k3 k5 /k3 k4 /k1 Valeur 2.72 1.62 1.28 1.18 Ecart-type 2.16 0.12 0.13 3.02 Toutes ces contraintes sur les paramètres s’intègrent aisément dans l’algorithme du filtre avec ré-échantillonnage avec paramètres inconnus. En effet, sur le plan théorique, cela signifie que les lois a priori des paramètres ont des supports compacts, dont les bornes sont précisées à partir des tableaux précédents : la valeur plus ou moins son écart-type associé. Sur le plan pratique, il suffit d’attribuer un poids nul aux particules dont les paramètres ne sont pas dans leurs supports respectifs. Cette souplesse d’intégration de contraintes n’est pas spécifique à nos filtres ; c’est, en fait, un des avantages des méthodes de Monte Carlo en général. Le résultat du filtrage des substrats, avec l’estimation des paramètres, est présenté sur les figures 9.22, 9.23. 7 6 5 4 3 S1 2 1 0 −1 −2 0 1 2 3 4 5 Temps (j) 6 F IG . 9.22 – Evolution de S1 7 8 9 10 9.3 Conclusion du neuvième chapitre 237 50 40 30 S2 20 10 0 −10 0 1 2 3 4 5 Temps (j) 6 7 8 9 10 F IG . 9.23 – Evolution de S2 Il semble que le fait d’estimer 13 paramètres au cours du filtrage n’ait pas affecté sensiblement la qualité des estimations des substrats, comme le montrent les figures 9.22 et 9.23. Quant aux estimations des paramètres, elles se stabilisent rapidement, en général aux environs d’une cinquantaine de pas de temps. Cependant, si on recommence le filtrage, les valeurs obtenues pour les paramètres peuvent varier, sans toutefois, que ces variations ne se répercutent sur les estimations des substrats. Il existe donc différents jeux de paramètres équivalents pour ce système, qui semble être fini d’après nos expérimentations. A titre indicatif le tableau 9.1 resitue une des estimations possible des paramètres et les écart-types utilisés. 9.3 Conclusion du neuvième chapitre Plusieurs aspects importants, sur le plan pratique, pour notre filtre à convolution avec ré-échantillonnage, ressortent de cette application à un procédé de digestion anaérobie. Tout d’abord, l’étape de simulation, a mis en avant une double robustesse : par rapport aux grandes dimensions de l’état, puisqu’il était de dimension six, et par rapport aux erreurs de modèles. Cependant, tant que l’on reste dans le cadre des simulations cette robustesse peut sembler toute relative. Or, le traitement de données réelles a confirmé les qualités constatées en simulation. - Tout d’abord sur l’aspect robustesse par rapport aux erreurs de modèles et erreurs de mesures puisque, le modèle considéré pour représenter la bioréaction est nécessairement entaché d’erreurs et que la qualité des données varie sensiblement dans le temps. 238 Application à un bio-procédé Paramètre µmax1 µmax2 KS 1 KS 2 KI2 kla α Estimation Paramètre 1.0695 k1 0.4713 k2 6.5279 k3 9.6898 k4 314.4378 k5 20.3468 k6 0.5582 Ecart-type Valeur utilisée Ecart-type a1 0.025 a5 a2 0.05 a6 a3 0.01 a7 a4 0.01 a8 Estimation 41.2381 130.6217 260.7891 50.1992 324.0013 423.7462 Valeur utilisée 1.00 0.02 0.05 2.00 TAB . 9.1 – Estimations des paramètres et écart-types utilisés - Ensuite, dans les cas 1 à 3, les variables d’états considérées étaient de dimension huit et il y avait huit paramètres inconnus. Les résultats obtenus sont assez convaincants dans la mesure où les approches déterministes généralement utilisées sur ce type de problèmes ne permettent pas d’en faire autant. Le dernier cas traité, où l’incertitude sur les valeurs des 13 paramètres du modèle est prise en compte, sans causer trop de nuisances sur l’estimation, donne une bonne idée du potentiel du filtre. Globalement, il ressort que les filtres à convolution, et plus généralement les filtres particulaires, peuvent apporter une aide significative à l’étude de ce type de bioprocédé. Cependant, il n’est pas raisonnable de conclure qu’ils doivent remplacer les approches déterministes utilisées en pratique. En effet, le bon fonctionnement des filtres particulaires nécessite une bonne connaissance du modèle. Dans notre cas, cette connaissance a été obtenue par des approches déterministes. Les filtres particulaires sont donc, dans le cas des bioprocédés, des outils complémentaires pertinents pour les approches déterministes. Conclusion Les travaux présentés dans ce mémoire répondent à des problèmes de filtrage non linéaire, en s’appuyant sur la théorie de l’estimation non paramétrique. Les filtres à convolution proposés, pour traiter ces problèmes, sont étudiés tant sur le plan théorique que sur le plan pratique. La validation sur le plan pratique de la technique étaient indispensable, car l’application à un réacteur de retraitement d’eaux usées était l’une des motivations de ce travail. Le problème du filtrage, à savoir, l’estimation de l’état d’un système dynamique connaissant toutes les observations du passé, est abordé sous différents aspects : l’estimation de la loi conditionnelle de l’état, l’estimation de la valeur de l’état et l’estimation de paramètres inconnus lorsque le modèle est incertain. Parmi les différentes techniques de filtrage existantes, exposées dans la première partie, nos filtres à convolution se classent dans la famille des filtres particulaires. Les filtres à convolution sont étudiés sur le plan théorique et sur le plan pratique pour ces diverses problématiques de filtrage. Il est important de rappeler que les résultats théoriques de consistance de nos filtres sont autonomes, par rapport à ceux des filtres particulaires, car ils s’appuient sur la théorie de l’estimation fonctionnelle. L’utilisation des noyaux de convolution permet, en outre, de se passer de l’hypothèse de connaissance de la forme analytique de la vraisemblance des observations, requise pour contruire les filtres particulaires. Malgrès, leur fonctionnement sous des hypothèses plus faibles, les filtres à convolution révèlent des performances comparables, en simulation, à celles des filtres particulaires, lorsque ces derniers fonctionnent. En effet, certains systèmes faiblement bruités mettent en défaut les filtres particulaires usuels alors que ce n’est pas le cas pour les filtres à convolution. Leur capacité à supporter des systèmes dynamiques plus généraux que les filtres particulaires usuels, montre l’intérêt de nos filtres à convolution. De plus, l’adaptation du filtre à convolution avec ré-échantillonnage, au cas de systèmes dynamiques contenant des paramètres inconnus, fournit une estimation conjointe convergente état-paramètres, réalisable en ligne. Il n’existe pas d’équi- 240 Conclusion valent, associant rigueur théorique et bonne performance en pratique. L’application du filtre à convolution avec ré-échantillonnage sur les données réelles issue du fonctionnement d’un bioréacteur du LBE de l’INRA à Narbonne, a mis en avant plusieurs points intéressants. Tout d’abord, la robustesse du filtre par rapport aux erreurs de modèle, aux incertitudes sur le modèle, aux données de mauvaise qualité et aussi à la dimension des variables d’états. Enfin pour les approches particulaires en général, les résultats obtenus, laissent penser que ces méthodes ont toute leur place aux côtés des méthodes déterministes généralement utilisées sur les bioprocédés. Citons à présent, sans prétention d’exhaustivité, quelques perspectives de travail, pour compléter notre contribution : En premier lieu, nous avons rarement évoqué le problème du choix du noyau K et de la fenêtre h à utiliser. Pour tous les cas traités dans ce mémoire, nous n’avons fait aucun effort sur ces questions dans la mesure où les résultats obtenus avec des valeurs standard étaient déjà satisfaisants. Cependant, il serait certainement profitable à nos filtres d’optimiser ce choix, sans toutefois, perdre de vue qu’une utilisation en ligne n’autorise pas des procédures trop coûteuses en terme de temps de calcul. Ensuite, une étude théorique complémentaire, en vue d’obtenir des résultats de type théorème centrale limite, permettrait de donner plus de précision sur le positionnement par rapport aux filtres particulaires. L’extension aux systèmes dynamiques contrôlés, présentée au sixième chapitre, est un prolongement naturel de nos filtres. L’introduction de la variable de commande ne pose techniquement aucune difficulté. Cependant, la recherche d’une commande optimale soulève le problème de l’optimisation d’une fonction aléatoire ainsi que la question des propriétés théoriques des commandes ainsi obtenues. Quatrième partie Annexes Annexe A Eléments de théorie de l’estimation non paramétrique par noyaux de convolution A.1 Estimation de la densité Il existe de nombreuses références sur les estimateurs non paramétriques de densité ou de régression. Les travaux de ce mémoire relatifs à ce domaine, s’appuient essentiellement sur Bosq et Lecoutre ([14]), Bosq ([15]), Devroye ([47]), Rao([110]) et Györfi & al. ([69]). Mais avant d’évoquer l’estimation non paramétrique, nous rappelons la définition des différentes formes de convergences stochastiques rencontrées dans cette thèse. A.1.1 Convergences stochastiques Nous considérons des suites (Xn )n∈IN∗ de variables aléatoires définies sur un même espace probabilisé (Ω, A, P ). Définition : On dit que la suite (Xn )n≥1 converge en probabilité vers 0 lorsque, n tend vers l’infini, si pour tout ε > 0 on a lim P (|Xn | > ε) = 0 n→∞ Soit une variable aléatoire X sur (Ω, A, P ), alors on dit que (Xn )n≥1 converge en probabilité vers X, si la suite (Xn − X)n≥1 converge en probabilité vers 0. 244 Eléments d’estimation non paramétrique Définition : On suppose qu’il existe r > 0 tel que pour tout n ≥ 1 le moment IE[|Xn |r ] soit fini. On dit que la suite (Xn )n≥1 converge en moyenne d’ordre r vers 0 si IE[|Xn |r ] → 0 lorsque n tend vers l’infini. Soit une variable aléatoire X sur (Ω, A, P ), alors on dit que (Xn )n≥1 converge vers X en moyenne d’ordre r, si la suite (Xn − X)n≥1 converge en moyenne d’ordre r vers 0. Remarque : Cette convergence est surtout considérée pour r = 2, auquel cas on parle de convergence en moyenne quadratique. Définition : On dit que la suite (Xn )n≥1 converge vers 0 presque sûrement, et l’on écrit Xn → 0 p.s., s’il existe un ensemble P −négligeable N ∈ A tel que pour tout ω ∈ Ω − N, on ait Xn (ω) → 0 lorsque n tend vers l’infini. Soit une variable aléatoire X sur (Ω, A, P ), alors on dit que (Xn )n≥1 converge vers X presque sûrement, et l’on écrit Xn → X p.s., si la suite (Xn − X)n≥1 converge vers 0 presque sûrement. Définition : On dit que la suite (Xn )n≥1 converge vers 0 presque complètement, et l’on écrit Xn → 0 p.co., si pour tout ε > 0 X P (|Xn | ≥ ε) < ∞ i>1 Soit une variable aléatoire X sur (Ω, A, P ), alors on dit que (Xn )n≥1 converge vers X presque complètement, et l’on écrit Xn → X p.co., si la suite (Xn −X)n≥1 converge vers 0 presque complètement. Remarque : On a les implications suivantes entre les différents types de convergnce : p.co =⇒ p.s. =⇒ proba et convergence en moyenne d’ordre r =⇒ proba. A.1.2 Notations et formalisations Les noyaux de convolution forment une famille d’applications adaptée à l’estimation de fonctions. Ils sont souvent notés K, de l’anglais Kernel. Définition : Un noyau K est une application de IRd → IR, bornée, positive, symétrique, intégrable par rapport à la mesure de Lebesgue et d’intégrale 1. A.1 Estimation de la densité 245 La contrainte de positivité imposée ici au noyau n’est pas obligatoire. Il est possible d’utiliser des noyaux négatifs sur une partie de leur support. Comme les estimateurs à noyaux de convolution sont utilisés dans cette thèse comme des outils au service du filtrage, il n’est pas nécessaire de se placer dans le contexte le plus général. Une grande variété de résultats est ainsi plus aisément accessible. Définition : Un noyau de Parzen-Rosenblatt est un noyau vérifiant lim kxkd K(x) = 0 kxk→∞ Définition : L’estimateur fn associé à K de la densité f des variables aléatoires X1 , · · · , Xn indépendantes identiquement distribuées, est n x − Xi 1 X fn (x) = ) = (Khn ∗ µn )(x) K( d nhn i=1 hn x ∈ IRd P où hn est un réel lié à n, souvent appelé largeur de la fenêtre et µn = n1 ni=1 δXi est la mesure empirique associée aux X1 , · · · , Xn . En d’autres termes, fn est la densité empirique obtenue en régularisant la mesure empirique des X1 , · · · , Xn , par convolution avec h1d K( h·n ). Par commodité, la notation suivante est introduite n Khn (y) = 1 y K( ) d hn hn y ∈ IRd . Les résultats de convergence de fn vers f sous différents modes, sont obtenus en rajoutant différentes hypothèses sur le noyau. Nous ne rappelons ici que les résultats utiles à notre approche du filtrage. A.1.3 Quelques résultats de convergences Lemme A.1.1 ( Lemme de Bochner) (i) Soit K un noyau de Parzen-Rosenblatt et g ∈ L1 , alors en tout point x où g est continue lim (g ∗ Kh )(x) = g(x) h→0 (ii) Soit K un noyau quelconque, si g ∈ L1 est uniformément continue, alors lim sup |(g ∗ Kh )(x) − g(x)| = 0 h→0 x 246 Eléments d’estimation non paramétrique Démonstration : La démonstration proposée est tirée de Bosq & Lecoutre ([14]) (i) Comme l’intégrale de Kh vaut 1, nous avons Z (g ∗ Kh )(x) − g(x) = [g(x − y) − g(x)]Kh (y)dy. En découpant l’intégrale par rapport à δ > 0 nous déduisons la majoration suivante : Z |(g ∗ Kh )(x) − g(x)| ≤ sup |g(x − y) − g(x)| |K(z)|dz kyk≤δ kzk≤δh−1 Z |g(x − y)| y d y + k k K( )dy kykd h h kyk>δR +|g(x)| kyk>δ |Kh (y)dy ≤ Z sup |g(x − y) − g(x)| |K| Z −d |g| sup kzkd |K(z)|dz +δ −1 R kzk>δh +|g(x)| kzk>δh−1 |K(z)|dz kyk≤δ Or à δ fixé, lorsque h tend vers zéro, les deux derniers termes tendent vers zéro. Enfin, lorsque δ tend vers zéro, le premier terme tend vers zéro, d’où le résultat. (ii) Le résultat découle de la majoration suivante R supx |(g ∗ Kh )(x) − g(x)| ≤ supx supkyk≤δ |g(x − y) − g(x)| |K| R +2 supx |g(x)| kzk>δ|h|−1 |K(z)|dz Théorème A.1.1 (convergence en moyenne quadratique) Si fn est associée à un noyau de Parzen-Rosenblatt, on a hn → 0, nhdn → ∞ =⇒ fn (x) → f (x) en moyenne quadratique Démonstration : La démonstration proposée est tirée de Bosq & Lecoutre ([14]) L’erreur quadratique de fn (x) s’écrit IE[fn (x) − f (x)]2 = [IEfn (x) − f (x)]2 + V fn (x) A.1 Estimation de la densité 247 or IEfn (x) = (Kn ∗ f )(x). D’après le lemme de Bochner il en découle que le biais [IEfn (x) − f (x)] → 0 lorsque hn → 0. De plus, par un calcul direct de la la variance de fn (x) on a V fn (x) = 1 1 (Kh2n ∗ f )(x) − IE2 Khn (X1 − x) d nhn n On en déduit nhdn V fn (x) = (Kh2n ∗ f )(x) − hdn IE2 Khn (X1 − x) R en appliquant le lemme de Bochner au noyau Kh2n / K(y)2 dy on obtient finalement : Z d nhn V fn (x) → f (x) K 2 (y)dy d’où le résultat. Théorème A.1.2 (convergence ponctuelle ps) Si K est noyau de Parzen-Rosenblatt, positif (i.e. K est une densité) et borné alors limn→∞ hn = 0 =⇒ lim fn (x) = f (x) nhdn n→∞ =∞ limn→∞ log n ps en tout point x où f est continue. Démonstration : voir [52] ou [110] pour une démonstration. Théorème A.1.3 (convergence uniforme ps) Si le noyau K est une densité bornée, si de plus − supx kxkd K(x) < ∞ − Il existe C > 0, tel que supx |K(x + y) − K(x)| ≤ Ckyk, y ∈ IRd − La densité objectif f est uniformément continue et vérifie R kxkγ f (x)dx < ∞ pour certains γ > 0 alors limn→∞ hn = 0 =⇒ lim sup |fn (x) − f (x)| = 0 nhdn n→∞ x limn→∞ log =∞ n ps 248 Eléments d’estimation non paramétrique Démonstration : Ce résultat a été établi simultanément par plusieurs auteurs, une des formes les plus intéressante est due à Bertrand Retali ([12]). Une démonstration standard de ce théorème est réalisée dans ([110]). Corollaire A.1.3.1 Sous les hypothèses du théorème A.1.3 on a aussi limn→∞ hn = 0 =⇒ lim sup |fn (x) − IE[fn (x)]| = 0 ps nhdn n→∞ x limn→∞ log = ∞ n Démonstration : voir [110] pour une démonstration. Le théorème suivant (Glick[66]) permet de passer de la convergence ponctuelle à la convergence L1 . Théorème A.1.4 (Théorème de Glick) Si une suite de densités estimées fn converge presque partout vers une densité f en probabilité (ou presque sûrement) alors kfn − f kL1 → 0 en probabilité (ou presque sûrement). Démonstration : Voir (Glick[66]) ou (Devroye[47]). Le théorème de Glick nous sera utile par la suite. Nous utiliserons aussi le théorème suivant qui garantit la convergence L1 sous des conditions plus faibles. Théorème A.1.5 (équivalence des convergences (Devroye)) Soit fn un estimateur à noyau, avec un noyau-densité arbitraire K et h la largeur de la fenêtre ne dépendant uniquement que de n. Alors les propositions suivantes sont équivalentes : R (i) |f − f | → 0 en probabilité pour certaines densités f . R n (ii) |f − f | → 0 en probabilité pour toutes densités f . R n (iii) |fn − f | → 0 presque sûrement pour toutes densités f . (iv) Pour Z tout ǫ > 0, il existe r, n0 (r indépendant de f et K) tels que P ( |fn − f | > ǫ) ≤ exp(−rn), n ≥ n0 , ∀ f (v) limn→∞ h = 0, limn→∞ nhd = ∞. Démonstration : La démonstration de ce résultat est l’objet de l’article de Devroye([48]). Elle est aussi présentée dans (Devroye[47]). A.1 Estimation de la densité 249 Etude de la vitesse de convergence Etablir un taux de convergence est un problème souvent délicat. Le cas de la dimension 1 est traité par Devroye([47]) ou encore Devroye & Györfi([51]). Or dans notre cas, la dimension est toujours supérieure à un. Les travaux de Holmström & Klemelä ([78]) généralisent ceux de Devroye & Györfi ([51]) au cas d’une dimension quelconque, ils nous serviront donc de point d’appui. Avant d’énoncer des résultats précisant la vitesse de convergence, il est nécessaire d’introduire, comme dans ([51],[78]), quelques notations et notions particulières. Pour clarifier la lecture rappelons que d est la dimension de x. Soient α = (α1 , · · · , αd ) ∈ INd , x = (x1 , · · · , xd ) ∈ IRd et Di f = ∂f /∂xi la ième dérivée partielle d’une fonction f de IRd , on note : |α| α! xα Dαf . = = = = α1 + · · · + αd α1 ! · · · αd ! xα1 1 · · · xαd d D1α1 · · · Ddαd f Enfin, l’espace de Sobolev des fonctions dont les dérivées partielles au sens des distributions D α f , avec |α| ≤ s sont intégrables, est noté W s,1. Définition A.1.1 (Noyau de classe s) Soit s ≥ 1. Un noyau de classe s est une fonction Borel-mesurable K telle que (i) K est symétrique, i.e., K(−x) = K(x), x ∈ IRd R (ii) K=1 R α (ii) x K(x)dx = 0 si 1 ≤ |α| ≤ s − 1 R α (iv) x |K(x)|dx < ∞ si |α| = s K peut être négatif, ce n’est donc pas forcément une densité. La distance L1 entre une densité et son estimation par noyau de convolution se décompose de la manière suivante Z |fn − f | ≤ Z |fn − f ∗ Khn | + Z |f − f ∗ Khn | 250 Eléments d’estimation non paramétrique où seulement le premier terme du membre de droite est stochastique. En conséquence on a Z Z Z E( |fn − f |) ≤ E( |fn − f ∗ Khn |) + |f − f ∗ Khn | R R Le terme |f − f ∗ Khn | est appelé biais de l’estimateur et E( |fn − f ∗ Khn |) la variation de l’estimateur à noyau. Les premiers théorèmes présentés caractérisent la borne supérieure du biais. La notion de noyau de classe s a été introduite, car elle constitue la base de tous ces théorèmes. Mais avant d’exposer les résultats de convergence, il faut définir la notion de noyau associé car elle intervient dans la borne supérieure du biais. Définition A.1.2 (Noyau associé) Soient s ≥ 1 et |α| = s, on suppose que K est un noyau de classe s. Le α-noyau associé à K est défini pour tout x ∈ IRd par Z ∞ (t − 1)|α|−1 d−1 α |α| α t x K(tx)dt L (x) = (−1) (|α| − 1)! 1 s = (−1) Z 1 ∞ (t − 1)s−1 d−1 α t x K(tx)dt (s − 1)! Théorème A.1.6 (Holmström & Klemelä [78]) Soient s ≥ 1 et K un noyau de classe s. Pour toute fonction f ∈ W s,1 et h > 0 on a Z |f ∗ Khn − f | ≤ hs φ1 (s, K, f ) avec Z X s! Z α φ1 (s, K, f ) = |D f | |Lα | d α! IRd IR |α|=s On a toujours φ1 (s, K, f ) < ∞ et φ1 (s, K, f ) > 0 sauf si f ≡ 0 presque partout. Holmström & Klemelä([78]) ont aussi démontré les deux autres résultats, plus fins, présentés ci-dessous. Théorème A.1.7 Soient s ≥ 1 et K un noyau de classe s. Pour toute fonction f ∈ W s,1 , Z X Z Z Z s! −s α |f ∗ Khn − f | = | lim h D f Lα |. h→0+ d α! IRd IR |α|=s A.1 Estimation de la densité 251 Corollaire A.1.7.1 Soient s ≥ 1 et K un noyau de classe s. Pour toute fonction f ∈ W s,1 et pour h proche de 0+ Z |f ∗ Khn − f | = O(hs ). Théorème A.1.8 Soient s ≥ 1 et K un noyau de classe s. Pour toute fonction f ∈ W s,1, (i) Si s est impair, alors pour h > 0, Z |f ∗ Khn − f | = δ(h)hs où δ(h) → 0 quand h → 0+ . R (ii) Si s est pair et xα K(x)dx 6= 0 pour certains |α| = s alors pour h > 0, Z |f ∗ Khn − f | = (1 − δ(h))φ2 (s, K, f )hs avec δ(h) → 0 quand h → 0+ et Z X Z Z s! α φ2 (s, K, f ) = | D f xα K(x)dx| d α! IRd IR |α|=s On a toujours φ2 (s, K, f ) < ∞ et φ2 (s, K, f ) > 0 sauf si f ≡ 0 presque partout. Corollaire A.1.8.1 Soient s ≥ 1 et K un noyau de classe s. Pour toute fonction f ∈ W s,1 et pour h proche de 0+ (i) Si s est impair, Z |f ∗ Khn − f | = o(hs ). R (ii) Si s est pair et xα K(x)dx 6= 0 pour certains |α| = s, Z |f ∗ Khn − f | = O(hs ). Afin de caractériser complètement l’espérance de l’erreur L1 , il reste encore à énoncer un résultat sur la variation de l’estimateur. 252 Eléments d’estimation non paramétrique Théorème A.1.9 Soient une densité f ∈ L1 (IRd ) et un noyau K ∈ L1 (IRd ). Si R R pour certains ε > 0 on a kxkd+ǫ K(x)2 dx < ∞ et (1 + kxkd+ǫ )f (x)dx < ∞ alors pour tout h > 0, sZ Z Z p d −1/2 2 IE[ |fn,h − f ∗ Khn |] ≤ (1 + δ(h))(nh ) f, K où δ(h) → 0 quand h → 0+ . Corollaire A.1.9.1 sous les mêmes hypothèses, Z √ IE[ |fn,h − f ∗ Khn |] = O(1/ nhd ) Il est enfin possible de préciser la vitesse de convergence de l’espérance de l’erreur L1 , d’un estimateur de densité à noyau de convolution. Théorème A.1.10 (vitesse de convergence) Soient une densité f ∈ W s,1 et un R noyau K ∈ L1 (IRd ) de classe s ≥ 1. Si pour certains ε > 0 on a kxkd+ǫ K(x)2 dx < R ∞ et (1 + kxkd+ǫ )f (x)dx < ∞ alors pour tout hn > 0 on a sZ Z Z p s d −1/2 2 IE[ |fn − f |] ≤ hn φ1 (s, K, f ) + (1 + δ(hn ))(nhn ) K f Corollaire A.1.10.1 Sous les mêmes hypothèses, Z p IE[ |fn − f |] = O(hsn ) + O(1/ nhdn ) A.2 Estimation de l’espérance Le cas de la régression non linéaire se formalise de la même manière que l’estimation de densité : soit (X, Y ) un couple de variables aléatoires de loi µ. Cette fois, l’objectif est de trouver une application mesurable r telle que r(X) soit le plus proche de Y au sens des moindres carrés. La solution de ce problème est IE[Y |X] lorsque cette quantité existe. Pour assurer l’existence de r, il est nécessaire de supposer que IE|Y | < ∞. r est une version déterminée de la fonction x 7→ IE[Y |x]. La question de son unicité est ici éludée. A.2 Estimation de l’espérance 253 A.2.1 Notations et formalisations Pour estimer r par la méthode des noyaux, il faut supposer que la loi ν de X admet une densité f . Alors en tout point où f est non nulle Z φ(x) avec φ(x) = ydµ(x, y) r(x) = f (x) Il est alors possible de construire les estimateurs de f et φ associés au noyau K: fn (x) = (Khn ∗ νn )(x) R φn (x) = yKhn (x − t)dµn (t, y) où νn et µn sont les mesures empiriques associées à {(X1 , Y1), . . . , (Xn , Yn )} : n n 1X 1X µn = δ(Xi ,Yi ) et νn = δX n i=1 n i=1 i Nous obtenons alors l’estimateur de r, rn (x) = φn (x)/fn (x), soit sous forme plus explicite Pn x−Xi i=1 Yi K( hn ) . rn (x) = Pn x−Xi i=1 K( hn ) Dans la littérature, rn est souvent rencontré sous le nom d’estimateur de NadarayaWatson ; cet estimateur a de bonnes propriétés asymptotiques. En effet, selon les hypothèses imposées au noyau K, la convergence en probabilité, presque complète ou en norme Lp vers r ont été démontrées (cf. Bosq [14], Sarda & Vieu[118] ou Györfi & al.[69]). Ferraty & Vieu[62] proposent une étude complète et pédagogique des propriétés de rn . A.2.2 Quelques résultats de convergence Les théorèmes énoncés dans cette partie sont tirés de Györfi & al.[69]). On peut s’y référer pour les démonstrations qui sont aussi détaillées dans ([62]) . Sauf indication contraire, les hypothèses suivantes sont toujours supposées vérifiées dans les théorèmes qui suivent : H1 - x est un point fixé de IRd tel que f (x) > 0. nhdn H2 - limn→∞ hn = 0 et limn→∞ log = ∞. n H3 - Le noyau K est borné, intégrable et à support compact. H4 - |Y | < M < ∞ 254 Eléments d’estimation non paramétrique Comme pour le cas de l’étude de la vitesse de convergence des estimateurs des densités, la notion de noyau de classe s est une hypothèse fondamentale. Théorème A.2.1 (Vitesse de convergence ponctuelle sous condition de dérivabilité) Si H1-H4 sont vérifiées, si r et f sont s fois (s > 0) continûment différentiables autour de x et si K est de classe s alors s log n rn (x) − r(x) = O(hsn ) + O( ), p.co nhdn Le terme p.co désigne la convergence presque complète. Remarque : Il est possible d’affaiblir l’hypothèse H4, en la remplaçant par une hypothèse de bornitude sur IE[|Y |] (cf. Györfi & al.[69]). Avant de donner le théorème suivant, rappelons la définition d’une fonction φ β−lipschitzienne : ∃ β > 0, ∃ α < ∞, ∃ ǫ > 0 : ∀ y ∈]x − ǫ, x + ǫ[, |φ(x) − φ(y)| ≤ αkx − ykβ Théorème A.2.2 (Vitesse de convergence ponctuelle sous condition de Lipschitz) Si H1-H4 sont vérifiées et si r et f sont β−lipschitziennes alors s log n |rn (x) − r(x)| = O(hβn ) + O( ), p.co nhdn Vitesses de convergence uniforme Les théorèmes énoncés dans la suite précisent des vitesses de convergence uniforme. A présent, x appartient à un compact C de IRd . A l’hypothèse H1, émise pour les convergences ponctuelles se substitue l’hypothèse H5 définie ci-dessous. Une hypothèse sur le noyau est aussi ajoutée : H5 - Il existe m > 0 tel que inf x∈C f (x) > m H6 - Le noyau K est β−lipschitzien sur C : ∃ β > 0, ∃α < ∞, : ∀x, y ∈ C, |K(x) − K(y)| ≤ αkx − ykβ Théorème A.2.3 (Vitesse de convergence uniforme sous condition de dérivabilité) Si les hypothèses H2-H6 sont vérifiées, si r et f sont s fois, (s > 0), continûment différentiables dans C et si K est d’ordre s, alors s log n sup |rn (x) − r(x)| = O(hsn ) + O( ), p.co nhdn x∈C A.2 Estimation de l’espérance 255 Théorème A.2.4 (Vitesse de convergence uniforme sous condition de Lipschitz) Si les hypothèses H2-H6 sont vérifiées et si r et f sont β−lipschitziennes sur C alors s log n sup |rn (x) − r(x)| = O(hβn ) + O( ), p.co nhdn x∈C Vitesse optimale en h Le choix d’un h optimal se fait en cherchant le h qui minimise les vitesses établies par les théorèmes A.2.3 ou A.2.4. Pour cela, il faut dériver par rapport à h les expressions des vitesses et chercher le zéro des dérivées. Corollaire A.2.4.1 (vitesse optimale) Soit h=α  n log n −1 − 4+d , 0<α<∞ alors, sous les hypothèses du théorème A.2.1 on a   −s n 2s+d ) rn (x) − r(x) = O ( log n et sous les hypothèses du théorème A.2.3 on a   −s n 2s+d sup |rn (x) − r(x)| = O ( ) log n x∈C p.co p.co Sarda & Vieu ([118]) établissent aussi les vitesses de convergence en moyenne quadratique : Théorème A.2.5 Supposons les conditions suivantes vérifiées : - f (x) > 0, x point fixé de IRd . - r et f sont deux fois continûment différentiables au voisinage de x. - limn→∞ hn = 0 et limn→∞ nhdn = ∞. - u 7→ IE[Y 2 |u] est continue au point x. - K est borné, intégrable, positif, symétrique et à support compact. - K est un noyau d’ordre 2. Alors IE[rn (x) − r(x)]2 = O(h4n ) + O(1/(nhdn )) + o(h4n + 1/(nhdn )) 256 Eléments d’estimation non paramétrique La vitesse optimale s’en déduit facilement : Théorème A.2.6 Supposons les hypothèses du théorème A.2.5 vérifiées : Alors en prenant −1 h = αn− 4+d , 0 < α < ∞ on a 4 IE[rn (x) − r(x)]2 = O(n− 4+d ) Annexe B Algorithmes B.1 Minimisation Stochastique de Fabian Cet algorithme généralise l’algorithme d’optimisation stochastique de KieferWolfowitz, premier du nom. Il se définit de la façon suivante (Cf. Fabian [61]) : Soit V (x) la fonction à minimiser. On ne peut qu’observer des réalisations des fonctions aléatoires de x, Z(x), telles que IE[Z(x)] = V (x). Soit le processus itératif suivant, avec x0 point de départ : xk+1 = xk + ak Wk xk ∈ IRm • {ak } est une suite positive décroissante de la forme : ak = a/k α avec a > 0 et 0 < α ≤ 1 • Wk = avec Ph i=1 vi Wki h, tel que les dérivées partielles de V (.) soient bornées jusqu’à l’ordre 2h + 1 Wki , gradient stochastique de dimension m, où pour j = 1, · · · , m, Wkij est défini comme la moyenne de ni variations stochastiques : Wkij ni 1 X = [Z(xk + ck ui ej ) − Z(xk − ck uiej )]/2ck ni j=1 258 Algorithmes ck = c/k 1/(4h+2) avec c > 0, {ui } : 0 < u1 < · · · < uh ≤ 1 et ej le j ème vecteur canonique de IRm . v = (v1 , · · · , vh )′ = U −1 ε avec U = [{ui2j−1}) pour i, j = 1, · · · , h et ε = (1, · · · , 1) ∈ IRh . Pour déterminer les coefficients ui , une manière approximativement optimale est définie selon Fabian par les équations ui µi µi N = = = = cos[(h − i)π/(2h − 1)] i = 1, · · · , h [2h(h − 1) + 1/2]−1 u−2 i (1 − δhi /2) i = 1, · · · , h ni /N Ph i=1 ni Les paramètres a, c, ,α, N et h sont au choix de l’utilisateur. La prise en main de cette procédure de minimisation n’est donc pas aisée. Un grand nombre d’essais est nécessaire avant d’obtenir de bons résultats. Pour l’étude des propriétés de converge de l’algorithme voir Fabian([61]). B.2 Algorithme du filtre avec sélection Soit le système dynamique : S:  xt = ft (xt−1 , εt ) yt = ht (xt , ηt )  L’algorithme suivant, fournit une estimation convergente de p xt |Bǫ (y1:t ) : Soit un instant t fixé, posons i = 1 : B.3 Algorithme du filtre avec ré-échantillonnage Tant que i ≤ n k=1 259 Initialisation x′0 ∼ π0 S : x′0 → (x′1 , y1′ ) Si ky1′ − y1 k < ǫ : k = k + 1 Sinon : retour à l’intialisation k>1 S : x′k−1 → (x′k , yk′ ) Si kyk′ − yk k < ǫ et k = t : x̃it = x′k et i = i + 1 Si kyk′ − yk k < ǫ et k < t : k = k + 1 Sinon : retour à l’intialisation fin du Tant que B.3 Algorithme du filtre avec ré-échantillonnage Soit le système dynamique : S:  xt = ft (xt−1 , εt ) yt = ht (xt , ηt ) L’algorithme suivant, fournit une estimation convergente de p(xt |y1:t ) : pn0 = p0 et t ≥ 0 : 260 Algorithmes Etape 1 : Génération de n états x̄it ∼ pnt pour i = · · · , n Etape 2 : Génération des n particules i i Pour tout i = · · · , n on obtient z̃t+1 = (x̃it+1 , ỹt+1 ) i en appliquant le système (3.2) à x̄t . Etape 3 : Estimation du filtre optimal : pnt+1 (xt+1 |y1:t+1 ) Pn i ) Kh (zt+1 , z̃t+1 = Pni=1 n i i=1 Khn (yt+1 , ỹt+1 ) t = t + 1 puis retour à l’étape 1 B.4 Algorithme de filtrage pour des systèmes dynamiques paramétrés Soit le système dynamique : S:  xt = ft (xt−1 , θx , εt ) yt = ht (xt , θy , ηt ) Soit θ = (θx , θy ). L’algorithme suivant, fournit des estimations convergentes de p(xt , θ|y1:t), p(xt |y1:t ) et p(θ|y1:t ) : Initialisation : t = 1 - Génération des trajectoires : pour i = 1, · · · , n x̄i0 ∼ p0 (x), θ̄0i ∼ p0 (θ), ε̃i0 ∼ Lε0 , η̃1i ∼ Lη1 x̃i1 = f1 (x̄i0 , θ̄0i , ε̃i0 ) ỹ1i = h1 (x̃i1 , θ̄0i , η̃1i ) θ̃1i = θ̄0i - Estimation des densités : B.4 Algo. de Filtrage de systèmes paramétrés pbn1 (x, θ|y1 ) = Pn pbn1 (θ|y1 ) = Pn = Pn pbn1 (x|y1 ) -t = t + 1 i=1 i=1 i=1 Kh (ỹ1i − y1 ) × Kh (θ̃1i − θ) × Kh (x̃i1 − x) Pn i i=1 Kh (ỹ1 − y1 ) Kh (ỹ1i − y1 ) × Kh (θ̃1i − θ) Pn i i=1 Kh (ỹ1 − y1 ) Kh (ỹ1i − y1 ) × Kh (x̃i1 − x) Pn i i=1 Kh (ỹ1 − y1 ) Etape 1 : t > 1 - Génération des trajectoires : pour i = 1, · · · , n i (x̄it−1 , θ̄t−1 ) ∼ pbnt−1 (x, θ|y1:t−1 ), ε̃it−1 ∼ Lεt−1 , η̃ti ∼ Lηt i x̃it = ft (x̄it−1 , θ̄t−1 , ε̃it−1 ) i ỹti = ht (x̃it , θ̄t−1 , η̃ti) i θ̃ti = θ̄t−1 - Estimation des densités : pbnt (x, θ|y1:t ) = Pn pbnt (θ|y1:t ) = Pn = Pn pbnt (x|y1:t ) -t = t + 1 Retour à l’étape 1. i=1 i=1 i=1 Kh (ỹti − yt ) × Kh (θ̃ti − θ) × Kh (x̃it − x) Pn i i=1 Kh (ỹt − yt ) Kh (ỹti − yt ) × Kh (θ̃ti − θ) Pn i i=1 Kh (ỹt − yt ) Kh (ỹti − yt ) × Kh (x̃it − x) Pn i i=1 Kh (ỹt − yt ) 261 262 Algorithmes Annexe C Présentation des procédés biotechnologiques Les grands principes des procédés biotechnologiques sont exposés dans cette annexe. Pour une présentation plus détaillée, on peut se reporter à Bastin & Dochain ([7]). F IG . C.1 – Bioréacteur de retraitement d’eaux usées 264 Présentation des bioprocédés C.1 Description d’un bioprocédé La présentation, inspirée de Hilgert ([75]) et Wagner ([127]), va se limiter au cas d’un processus conduit en bioréacteur : enceinte au sein de laquelle se déroule un ensemble de réactions biologiques dans un milieu liquide (cf. Fig. C.1). Ce type de processus est schématisé par la réaction générique suivante : Substrats −→ Biomasses + Produits Les substrats sont des nutriments introduits dans le bioréacteurs, la matière polluante dans le cas d’une dépollution biologique . Les biomasses sont constituées de micro-organismes présents dans le bioréacteur. Sous des conditions physicochimiques appropriées (pH, température,. . . ), les biomasses se développent en consommant les substrats et en générant divers produits. Ce type de bioprocédé peut avoir des finalités assez variées, par exemple : la production de biomasse (levure), la production d’un composé principal (alcool, yaourt, antibiotique,. . . ), la dépollution biologique (consommation des substances polluantes par la biomasse),. . . Dans la pratique, on rencontre trois principaux modes opératoires, caractérisés selon le mode d’alimentation en substrat : - Le mode discontinu ou batch. La totalité des éléments nutritifs est introduite au lancement du procédé. Aucune modification n’est réalisée sur le contenu du réacteur, jusqu’à l’arrêt du procédé par épuisement des substrats. L’opérateur agit seulement sur les conditions environnementales du milieu réactionnel. - Le mode semi-continu ou fedbatch. Il se distingue du précédent par un apport étalé des différents élément nutritifs en fonction d’objectifs de conduite. Même principe d’arrêt que le mode batch - Le mode continu. L’alimentation du réacteur (substrat en solution) est faite en continu. Un flux volumique équivalent est retiré en sortie. Le contenu du réacteur conserve ainsi un volume constant. Ce mode de fonctionnement permet de traiter de gros volumes avec des réacteurs de taille modeste. Il est très répandu dans les domaines agro-alimentaire, pharmaceutique,. . . C.2 Modélisation par bilan de matière 265 C.2 Modélisation par bilan de matière Les équations d’états Pour simplifier la présentation, considèrons le cas d’un seul substrat S, transformé par une seule biomasse B. Soit V le volume réactionnel. Le principe de conservation de la masse permet de modéliser l’évolution du substrat et de la biomasse par le système d’équations différentielles suivantes :  d(BV )   = rB V − Qout B    dt      d(SV ) = −rS V + Qin Sin − Qout S  dt          dV = Qin − Qout dt S et B désignent les concentrations en substrat et en biomasse. Qin , Qout sont les débits d’alimentation et de soutirage du réacteur. Sin est la concentration en substrat entrant dans le réacteur. rS et rB sont respectivement les vitesses de croissance de la biomasse et consommation du substrat. V est le volume du contenu du réacteur. Les débits Qin et Qout sont directement caractérisés par le mode de fonction du procédé : Procédé discontinu Procédé semi-continu Procédé continu : Qin = Qout = 0 : Qin = 6 0, Qout = 0 : Qin = Qout 6= 0 266 Présentation des bioprocédés La figure C.2 présente un schéma de réaction type avec un seul substrat et une seule biomsse. Q in Sin S B Q out Produits F IG . C.2 – Schéma d’un bioréacteur Les paramètres cinétiques La vitesse de croissance rB de la biomasse, introduite ci-dessus, est définie par rB = 1 d(BV ) V dt Le taux de croissance spécifique, µ est la vitesse ramenée à l’unité de biomasse : 1 d(BV ) µ= BV dt La vitesse de consommation du substrat, rS , est généralement exprimée en fonction de rB : rB rS = τ où τ ∈]0, 1[ est le rendement de conversion substrat-biomasse. C.2 Modélisation par bilan de matière 267 A l’aide de ces nouvelles quantités, il est possible de réécrire les équations caractérisant l’évolution des concentrations en biomasse et substrat :  dB Qout   = (µ − )B    dt V      µB Qin Qout dS = − + Sin − S  dt τ V V        dV   = Qin − Qout dt Le taux de croissance µ joue un rôle important. Les microbiologistes se sont attachés à le modéliser. Il est dépendant de nombreux facteurs. Le paragraphe suivant présente les modèles de taux de croissance les plus fréquemment utilisés. Le taux de croissance de biomasse - La loi de croissance la plus couramment utilisée, est celle introduite par Michaelis & Menten en 1913 et reprise par Monod([101]) en 1942 : µ = µmax S S + KS Où µmax est le taux de croissance maximal et KS la constante de saturation. La particularité de cette loi est d’être nulle lorsqu’il n’y a plus de substrat à consommer. - Pour prendre en considération les phénomènes d’inhibition causés par de trop fortes concentrations en substrat, Haldane([70]) en 1930, puis Andrews([5]) en 1968, proposent la loi suivante : µ = µmax S S + KS + S2 KI où KI est la constante d’inhibition. - Afin de prendre en compte les effets conjoints de la biomasse et du substrat, Contois([23]) a proposé en 1959 un nouveau modèle : µ = µmax S S + KS B 268 Présentation des bioprocédés Un très grand nombre de lois de croissance plus spécifiques sont proposées dans la littérature. Bastin & Dochain([7]) recensent la plupart d’entre elles. Principale difficulté Les modèles obtenus par bilan de matières contiennent systématiquement un grand nombre de paramètres inconnus liés au problème considéré et aux conditions environnementales, par exemple, τ , µmax , KS , KI , . . . . Lorsque, selon les réactions, le nombre de biomasses ou de substrats augmente, le nombre de paramètres augmente en conséquence. Une grande partie du travail de modélisation doit alors être consacrée à l’estimation de ces paramètres. Les filtres par convolution que nous avons introduits sont intéressants dans cette perspective. En effet, ils offrent la possibilité, comme on l’a vu au neuvième chapitre, d’estimer de manière globale tous les paramètres inconnus ou de filtrer avec de “mauvaises” valeurs de paramètres sans grande incidence sur la qualité des estimations d’état recherchées. Bibliographie [1] C. Abraham, G. Biau, B. Cadre, “Simple estimation of the mode of a multivariate density”. The Canadian Journal of Statistics, vol. 31, p. 23–34, (2003). [2] C. Abraham, G. Biau, B. Cadre, “On the asymptotic of a simple estimate of the mode”. ESAIM : Probability and Statistics, vol. 8, p. 1–11, (2004). [3] H. Akashi, H. Kumamoto, K. Nose, “Application of Monte Carlo Methods to Optimal Control for Linear Systems under Measurement Noise with Markov Dependent Statistical Property. International Journal on Control, vol.22, no. 6, p821-836 (1975). [4] A. Alessandri, T. Parisini, R. Zoppoli, “Neural approximators for nonlinear finite-memory state estimation”. International Journal of Control, vol. 67, no. 2, p275-301 (1997). [5] J.F. Andrews, “A mathematical model for continuous culture of microorganisms utilizing inhibitory substrates”, Biotech. and Bioeng., vol 10, p707723 (1968). [6] N. Bartoli, P. Del Moral, Simulation & algorithmes stochastiques. Cépaduèséditions, Toulouse (2002). [7] G. Bastin, D. Dochain, On-line Estimation and Adaptative Control of Bioreactors. Elsevier, (1990). [8] A. Berlinet ; A. Gannoun, E. Matzner-Lober, “Normalité asymptotique d’estimateurs convergents du mode conditionnel”. La revue Canadienne de Statistique, no. 26, p365-381 (1998). [9] O. Bernard, Z. Hadj-Sadok, D. Dochain, A. Genovesi, J-P Steyer, “Dynamical Model Development and Parameter Identification for an Anaerobic Wastewater Treatment Process “. Biotechnology and Bioengineering, vol. 75, no. 4, (2001). 270 BIBLIOGRAPHIE [10] O. Bernard, L. Mailleret, J.L. Gouzé, B. Chachuat, O. Schoefs, U. Zaher, J.P. Steyer, “Design of models for normal working conditions”. Rapport de recherche, projet TELEMAC, INRIA IST 2000-28156, TELEMAC Deliverable D3.1a, sept (2002). [11] J.M. Bernardo, A.F.M Smith, Bayesian Theory. John Wiley, New York (1994). [12] M. Bertrand Retali, “Convergence uniforme d’un estimateur de la densité par la méthode du noyau”. revue Roumaine Math. Pures et Appliquées, 23, p361-385 (1978). [13] C. Berzuini, N. Best, W. Gilks, C. Larizza, “Dynamic Conditionnal Independence Models and Markov Chain Monte Carlo Methods”. Journal of the American Statistical Association, 92(440), p1403-1412 (1997). [14] D. Bosq, J-P. Lecoutre, Théorie de l’estimation fonctionnelle. Economica, Paris (1987). [15] D. Bosq, Nonparametric Statistics for Stochastic Processes. Lecture Notes in Statistics 110, Springer (1996) [16] R. Cerf, “Une théorie asymptotique des algorithmes génétiques”. PhD thesis, Université de Montpellier II (1994). [17] F. Cérou, F. LeGland, N.J. Newton, “Stochastic Particle Methods for Linear Tangent Filtering Equations, in Optimal Control and PDE’s” dans Innovations and Applications, in honor of Alain Bensoussan’s 60th anniversary. Editeurs : J.L. Menaldi, E. Rofman, A. Sulem, pp. 231-240, IOS Press, Amsterdam, (2001). [18] B. Chakraborty, P. Chaudhuri, “On a transformation and re-transformation technique for constructing an affine equivariant multivariate median”. Proceedings of the American Mathematical Society, vol.124, n◦ 8 (1996). [19] M. Chaleyat-Maurel, D. Michel, “Des résultats de non exisrence de filtre de dimension finie”. Stochastics, vol. 13,83-102 (1984). [20] P. Chaudhuri, “On a geometric notion of quantiles for multivariate data.” Journal of the American Statistical Association, 91(434), p862-872 (1996). [21] G. Chen, Approximate Kalman Filtering. World Scientific, Approximations and Decompositions vol 2, (1993). [22] H.F. Chen, L. Guo, A.J. Gao, “Convergence and robustness of the RobbinsMonro algorithm truncated at randomly varying bounds”, Stoch. Proc. Appl. 27, No2, p217-231, (1988). BIBLIOGRAPHIE 271 [23] D.E. Contois, “Relationship between population density and specific growth rate of continuous culture”, J. de Génie Microbiologique, vol 21, p4050,(1959). [24] D. Crisan, P. Del Moral, T.J. Lyons, “Non linear filtering using branching and interacting particle systems”. Markov Processes Related Fields, 5(3), p293-319 (1999). [25] G. Cybenko, “Approximation by superpositions of sigmoidal functions”. Mathematics of control, signals and systems, 2,2,159-169 (1989). [26] M. Davis, “New Approach to Filtering nonlinear Systems”. IEEE Proceedings, Part D, vol. 128, no. 5, p166-172 (1981). [27] G. Dal Maso, An introduction to Γ-convergence. Birkhäuser, Basel (1993). [28] P. Del Moral, Feynman-Kac Formulae. Genealogical and Interacting Particle Systems with Applications. Springer-Verlag New York (2004) [29] P. Del Moral, “Arbres généalogiques et estimation non linéaire”. Actes des XXXVImes Journées de Statistique, Montpellier, mai (2004). [30] P. Del Moral, M. Ledoux, L. Miclo, “On contraction properties of Markov kernels”. Probab. theory Relat. Fields, 126, p395-420 (2003). [31] P. Del Moral, A. Doucet, “On a Class of Genealogical and Interacting Metropolis Models”. Séminaire de Probabilité XXXVII, Ed. J-Azéma, M. Emery, M. Ledoux et M. YOr, Lecture Notes in Mathematics, Springer-Verlag Berlin, vol. 1832, p415-446 (2003) [32] P. Del Moral, J. Jacod, P. Protter, “The Monte-Carlo method for filtering with discrete-time observations”. Probab Theory Relat. Fields 120, p346368 (2001). [33] P. Del Moral, J. Jacod, “Interacting Particle Filtering With Discrete Observation”. In Sequential Monte Carlo Methods in Practice Ed. A. Doucet, N. de Freitas, N. Gordon. Statistics for Engeering and Information Science, Springer, p43-75 (2001). [34] P. Del Moral, L. Miclo, “Branching and Interacting Particle Systems Approximations of Feynman-Kac Formulae with applications to Non-Linear Filtering”. Séminaire de Probabilité XXXIV, Ed. J. Azéma, M. Emery, M. Ledoux et M. YOr, Lecture Notes in Mathematics, Springer-Verlag Berlin, vol. 1729, p1-145 (2000). 272 BIBLIOGRAPHIE [35] P. Del Moral, L. Miclo, “On the convergence and the applications of the generalized simulated annealing”. SIAM J. Control Optim., 37(4), p12221250 (1999). [36] P. Del Moral, A. Guionnet, “Central limit theorem for nonlinear filtering and interacting particle systems”. The Annals of Applied Probability, vol. 9, No2, p275-297 (1999). [37] P. Del Moral, A. Guionnet, “Large Deviations for Interacting Particle Systems. Applications to Non Linear Filtering”. Stochastic Processes and their applications, 78(1), p69-95 (1998). [38] P. Del Moral, “Measure-valued processes and interacting particule systems. Application to nonlinear filtering problems”. The Annals of Applied Probability, vol. 8, No2, 438-495 (1998). [39] P. Del Moral, “A uniform convergence theorem for the numerical solving of the nonlinear filtering problem.” Journal of Applied Probability, 35(4) :873884 (1998). [40] P. Del Moral, “Nonlinear filtering : Interacting particule resolution”. C. R. Acad. Sci. Paris, t. 325, Série I, 653-658 (1997). [41] P. Del Moral, “Nonlinear filtering : Interacting Particle Solution”. Markov Processes and Related Fields, 2(4), 555-580 (1996). [42] P. Del Moral, “Nonlinear filtering using random particles”. Theory Probab. Appl Vol40 No4 (1995) [43] P. Del Moral, G. Salut, “Filtrage non-linéaire : résolution particulaire à la Monte Carlo”. C. R. Acad. Sci. Paris, t. 320, Série I, p1147-1152 (1995). [44] P. Del Moral, G. Rigal, G. Salut, “Estimation et commande optimale non linéaire : un cadre unifié pour la résolution particulaire”. Rapport technique 2, LAAS/CNRS, contrat DRET-DIGILOG, Toulouse, mars (1992). [45] B. Delyon, “General results on the Convergence of Stochastic Algorithms”, IEEE-A.C., vol41, No9, p.1245-1255, (1996) [46] B. Delyon, “Stochastic approximation with decreasing gain : Convergence and asymptotic theory”, cours DEA, Université de Rennes I, http ://name.math.univ-rennes1.fr/bernard.delyon/cours.html, (2000). [47] L. Devroye, A Course in Density Estimation. Birkhäuser, Boston (1987). [48] L. Devroye, “The equivalence of weak, strong and complete convergence in L1 for kernel density estimates”. Ann. Statist., vol 11, 896-904 (1983) BIBLIOGRAPHIE 273 [49] L. Devroye, “Recursive estimation of the mode of a multivariate density”. The Canadian Journal of Statistics, vol. 7, No2, p. 159–167, (1979). [50] L. Devroye, L. Györfi, G. Lugosi A Probabilistic Theory of Pattern Recognition. Application of Mathematics. Stochastics Modelling and Applied Probability. Springer-Verlag, New York (1996). [51] L. Devroye, L. Györfi, Nonparametric density estimation. The L1 view. John Wiley, New York (1985). [52] L. Devroye, T.J. Wagner, “Nonparametric discrimination and density estimation”. Technical Report no. 183, University of Texas, Austin (1976). [53] J.L. Doob “Application of the theory of martingales”. Colloque international CNRS, Paris, p22-28 (1949). [54] J.L. Doob Stochastic Processes. John Wiley, New York (1953). [55] A. Doucet, V.B. Tadić, “Parameter Estimation in General State-Space Models using Particle Methods”. Ann. Inst. Stat. Math., vol. 55, no. 2, pp. 409422, (2003). [56] A. Doucet, N. de Freitas, N. Gordon, Sequential Monte Carlo Methods in Practice. Statistics for Engeering and Information Science, Springer (2001). [57] A. Doucet, S. Godsill, C. Andrieu, “On Sequential Monte Carlo Sampling Methods for Bayesian Filtering”. Statistics and Computting, vol. 10, no. 3, p197-208 (2000). [58] A. Doucet, “On Sequential Simulation-Based Methods for Bayseian Filtering”. Technical report CUED/F-INFENG/TR.310, University of Cambridge (1998). [59] A. Doucet, “Algorithmes Monte Carlo pour l’estimation bayésienne de modèles markovienss cachés. Application au traitement de signaux de rayonnements.” PhD thesis, Université de Paris-Sud, Orsay (1997). [60] W.F. Eddy, “Optimum kernel estimators of the mode”. Ann. Statist., vol. 8, No4, p870-882 (1980). [61] V. Fabian, “Stochastic Approximation of Minima with Improved Asymptotic Speed”. Ann. Math. Statist., 38, 191-200 (1967). [62] F. Ferraty, P. Vieu, “Modèles Non-Paramétriques de Régression”. Notes de cours de DEA, Université Paul Sabatier, Toulouse (2003). [63] C. Geyer, “Estimation and optimization of functions” dans Markov Chain Monte Carlo in practice, Editeurs : W.R. Gilks, S. Richardson, D.J. Spiegelhalter, Chapman & Hall, Lodon, p241-258, (1996). 274 BIBLIOGRAPHIE [64] J. Geweke, “Bayesian Inference in Econometrics Models using Monte Carlo Integration”, Econometrica, vol. 57, p1317-1339 (1989). [65] W.R. Gilks, C. Berzuini, ”Following a moving target-Monte Carlo inference for dynamic Baysesian models”. J. R. Statist. Soc. B, 63(1), p127-146 (2001). [66] N. Glick, “Consistency conditions for probability estimators and integrals of density estimators”. Utilitas Mathematica, vol. 6, p61-74 (1974) [67] N.J. Gordon, “A Hybrid Bootstrap Filter for Target Tracking in Clutter”. IEEE Trans. on aerospace and electronic systems, vol. 33, no. 1 (1997). [68] N.J. Gordon, D.J. Salmond, A.F.M Smith, “Novel approach to nonlinear/non-Gaussian Bayesian state estimation”. IEE ProceedingsF, vol. 140, no. 2 (1993). [69] L. Györfi, W. Härdle, P. Sarda, P. Vieu, Nonparametric Curve Estimation from Time Series. Lecture Notes in Statistics 60, Springer-Verlag (1989). [70] J.B.S. Haldane, Enzymes. Longmans, Londres, (1930). [71] J.E. Handschin, “Monte Carlo Techniques for Prediction and Filtering of Non-Linear Stochastic Processes”. Automatica, no. 6, p555-563 (1970). [72] S. Haykin, Kalman Filtering and neural networks. Wiley, (2001). [73] S. Haykin, P. Yee, E. Derbez, “Optimum Nonlinear Filtering”. IEEE Transaction on signal processing, vol. 45, No11 (1997). [74] T. Higuchi, “Monte Carlo filter using the genetic algorithm operators”. J. Stat. Comput. Simulation, 59(1)1, p1-23 (1997). [75] N. Hilgert, “Identification et contrôle de processus autorégressifs non linéaires incertains : application à des procédés biotechnologiques”. PhD thesis, Université de Paris-sud, centre d’Orsay (1997). [76] N. Hilgert, R. Senoussi, J.P. Vila “ Nonparametric identification of controlled nonlinear time varying processes”. SIAM J. on Control and Optimization, 39, p950-960, (2000). [77] J.H. Holland, ‘Adaptation in Natural and Artificial Systems. University of Michigan Press, Ann Arbor (1995). [78] L. Holmström, J. Klemelä, “Asymptotic Bounds for the Excepted L1 Error of a Multivariate Kernel Density Estimator”. Joural of Multivariate Analysis, 42, p245-266 (1992). BIBLIOGRAPHIE 275 [79] Hornick, Stinchcombe, H. White, “Multilayer Feedforward Net works are Universal Approximators”. Neural Networks, vol. 2, 359-366 (1990). [80] M. Hürzeler, “Statistical Methods for General State-Space Models”. PhD thesis, Departement of Mathematics, ETH Zürich (1998). [81] M. Hürzeler, H.R. Künsch, “Monte Carlo Approximations for General StateSpace Models”. Journal of Computational and Graphical Statistics, vol.7, n◦ 2, p175-193 (1998). [82] M. Hürzeler, H.R. Künsch, “Approximating and Maximising the Likelihood for a General State-Space Model” dans Sequential Monte Carlo Methods in Practice, Editeurs : A. Doucet, N. de Freitas, N. Gordon, Statistics for Engeering and Information Science, Springer-Verlag, New York, p159-175, (2001). [83] A. H. Jazwinski, Stochastic processes and filtering theory. Academic press, (1970). [84] R.E. Kalman, “A new approach to linear filtering and prediction theory”. Transaction of the ASME, Journal of Basic Engineering, 82, 34-45 (1960). [85] J.H.B. Kemperman, “The median of a finite measure on a Banach space”. Statistical Data Analysis Based on the L1 Norm and Related Methods, ed. Y. Dodge, Amsterdam, p217-230 (1987). [86] J. Kiefer, J. Wolfowitz, “Stochastic Estimation of the Maximum of a Regression Function”. Ann. Math. Statist., 23, 457-461 (1952). [87] G. Kitagawa, “Non-Gaussian State-Space Modeling of Nonstationary Time Series”. Journal of the American Statistical Association, 82(400), p10321041 (1987). [88] G. Kitagawa, “Monte Carlo Filter and Smoother for Non-Gaussian Nonlinear State Space Models”. Journal of Computational and Graphical Statistics, vol.5, n◦ 1, p1-25 (1996). [89] G. Kitagawa, “A self-organisation state-space model”. Journal of the American Statistical Association, 93(443), p1203-1215 (1998). [90] L.A. Klimko, P.I. Nelson, “On conditional least squares estimation for stochastic processes”. Ann. Statist., vol. 6, No3, 629-642 (1978). [91] A. Kolmogorov, S. Fomine, Eléments de la théorie des fonctions et de l’analyse fonctionnelle. Editions MIR, Moscou (1977). 276 BIBLIOGRAPHIE [92] A. Kong, J.S. Liu, W.H. Wong, “Sequential Imputations and Bayesian Missing Data Problems”. Journal of the American Statistical Association, 89(425), p278-288, (1994). [93] J. Leclerc, D. Pierre-Loti-Viaud, “Vitesse de convergence presque sûre de l’estimateur à noyau du mode.” C. R. Acad. Sci. Paris, t. 331, Série 1, p637640, (2000). [94] F. LeGland, “Introduction au filtrage en temps discret. Filtre de KalmanModèles de Markov cachés”. cours DEA stir, Université Rennes I, (2000). [95] F. LeGland, N. Oudjane, “Stability and Uniform Approximation of Nonlinear Filters using the Hilbert Metric, and Application to Particle Filters”. The Annals of Applied Probability, 14, 1, pp. 144-187, (2004). [96] J.S. Liu, “Metropolized Independent Sampling with Comparaisons to Rejection Sampling and Importance Sampling”. Stat. Comp., vol. 6, p113-119 (1996). [97] J.S. Liu, R. Chen, “Sequential Monte Carlo Methods for Dynamic Systems”. Journal of the American Statistical Association, 93(443), p1032-1044 (1998). [98] J. Liu, M. West, “Combined Parameter and State Estimation in SimulationBased Filtering”, dans Sequential Monte Carlo Methods in Practice, Editeurs : A. Doucet, N. de Freitas, N. Gordon, Statistics for Engeering and Information Science, Springer-Verlag, New York, p197-223 (2001). [99] J.T. Lo, “Synthetic Approach to Optimal Filtering”. IEEE Transaction on neural networks, vol. 5, No5 (1994). [100] P. Milasevic, G.R. Ducharme, “Uniquenes of the spatial median”. Ann. Statist., vol. 15, No3, 1332-1333 (1987). [101] J. Monod, Recherches sur la Croissance des Cultures Bactériennes, Hermann & Cie, Paris (1942). [102] C. Musso, N. Oudjane, F. LeGland, N. Oudjane, “Improving Regularised Particle Filters”, dans Sequential Monte Carlo Methods in Practice, Editeurs : A. Doucet, N. de Freitas, N. Gordon, Statistics for Engeering and Information Science, Springer-Verlag, New York, p247-271 (2001). [103] M.L.A. Netto, L. Gimeno, M.J. Mendes, “Nonlinear filtering of discrete time systems”. Proceedings of the 4th IFAC Symposium on Identification and System Parameter Estimation, Tbilisi, USSR, p2123-2130 (1978). BIBLIOGRAPHIE 277 [104] N. Oudjane, “Stabilité et approximations particulaires en filtrage non linéaires, application au pistage”. PhD thesis, Université de Rennes I (2000). [105] T. Parisini, R. Zoppoli, “Neural networks for nonlinear state estimation”. Internation Journal of Robust and Nonlinear Control, vol. 4, 231-248 (1994). [106] E. Parzen, “On estimation of a probability density function and mode”. Ann. Math. Statist., 33, p1065-1076 (1962). [107] B.A. Pearlmutter, “Learning State Space Trajectories in Recerrent Neural Networks”. Neural Computation 1, 263-269 (1989). [108] J. Picard, “Efficiency of the Extended Kalman Filter for non linear systems with small noise”. Rapport de recherche INRIA, Sophia Antipolis (1989). [109] M.K. Pitt, N. Shephard, “Filtering via Simulation : Auxiliary Particle Filters”. Journal of the American Statistical Association, 94(446), p590-599 (1999). [110] B.L.S Prakasa Rao, Non Parametric Functionnal Estimation. Probability and Mathematical Statistics, Academic Press, Orlando (1983). [111] H. Robbins, S. Monro, “A Stochastic Approximation Method”. Ann. Math. Statist., 22, 400-407 (1951). [112] C. Robert, L’Analyse Statistique Bayésienne. Economica, Paris (1992). [113] R.T. Rockafellar, R. J-B. Wets Variational Analysis. Springer-Verlag, Berlin (1998). [114] J.P. Romano, “On weak convergence and optimality of kernel density estimates of the mode”. Ann. Statist., vol. 16, No2, p629-647 (1988). [115] T.W. Sager, “Estimating modes and isopleths”. Communications in Statistics, Theory and Methods, vol. 12, No5, p529-557, (1983). [116] M. Samanata, “Nonparametric estimation of the mode of a multivariate density”. South African Statistical Journal, vol. 7, p109-117, (1979). [117] M. Samanata, A. Thavasneswaran, “Non-parametric estimation of the conditional mode”. Communications in Statistics, Theory and Methods, vol. 19, p4515-4524, (1990). [118] P. Sarda, P. Vieu, Kernel Regression. Smoothing and Regression : Approaches, computation and application. Ed M.G. Schimek, Wiley Series in Probability and Statistics, p43-70 (2000). [119] M.J. Schervish, Theory of statistics, Springer-Verlag, New York (1995). 278 BIBLIOGRAPHIE [120] L. Schwartz, “On Bayes Procedures”, Z. Wahrscheinlichkeitstheorie 4, 1026 (1965). [121] H.L. Smith, P. Waltman, “The theory of the chemostat : Dynamics of mocrobial competition”, Cambridge University Press, Cambridge, (1995). [122] J-P Steyer, J-C Bouvier, T. Conte, P. Gras, P. Sousbie, “Evaluation of four year experience with a fully instrumented anaerobic digestion process”. Water Science and Technology, vol. 45, no. 4-5, p495-502, (2002). [123] W. F. Stout, Almost sure convergence. Academic press, (1974). [124] H. Tong, Non-linear Times Series, A Dynamical System Approach. Oxford statistical science series, Oxford (1993). [125] D. Urbani, “Méthodes statistiques de sélection d’architectures neuronales : application à la conception de modèles de processus dynamiques”. PhD thesis, Université Paris 6 (1995). [126] P. Vieu, “A note on density mode estimation”. Statistics and Probability Letters, 26, p297-307 (1996). [127] V. Wagner, “Identification Non Paramétrique et Contrôle Prédictif Neuronal de Processus Non Linéaires Incertains de Type Biotechnologique : Application à un Procédé de Dépollution Biologique”. PhD thesis, Ecole Nationale Supérieure Agronomique de Montpellier (2001). [128] E.A. Wan, A.T. Nelson, “Dual Kalman filtering methods for nonlinear prediction, estimation and smoothing”. Advances in Neural Information Processing Systems 9, Cambridge, MA :MIT Press (1997). [129] G.R. Warnes, “The Normal Kernel Coupler : An adaptave Markov Chain Monte Carlo method for efficiently sampling from multi-modal distributions”. Technical Report no. 39, Departement of Statistics, University of Washington. (2001). [130] P.J. Werbos, “Generalisation of Backpropagation with Application to a Recurrent Gas Market Model”. Neural Networks, vol. 1, 339-356 (1988). [131] M. West, ”Approximating posterior distribution by mixture”, Journal of the Royal Statistical Society (ser :B), vol. 55, p409-422 (1993). [132] L. Xu, A. Krzyżak, A. Yuille, “On Radial Basis Function Nets and Kernel Regression : Statistical Consistency, Convergence Rates and Receptives Field Size”. Neural Networks, vol. 7, No4, 609-628 (1994). [133] P.V. Yee, S. Haykin, Regularised radial basis function networks, Theory and Application. Wiley, New York (2001). BIBLIOGRAPHIE 279 [134] E. Youndjé, “Estimation non paramétrique de la densité conditionnelle par la méthode du noyau”. PhD thesis, Université de Rouen (1993). [135] E. Youndjé, “Propriétés de convergence de l’estimateur à noyau de la densité conditionnelle”. Publication URA CNRS D1378 (1993).