CNRS

CNRS

ACI NIM

Arbres, chemins: probabilités et algorithmes

CNRS

CNRS


Publications
Présentation détaillée
Membres de l'ACI
Rencontres
Rapport final
Accueil

Description du projet




1. Objectifs et contexte:


L'analyse de l'aléa discret remonte au 19ème siècle, mais son étude s'est trouvée renouvelée grâce aux progrès récents de la théorie des processus stochastiques et de la combinatoire analytique, aux développements de liens nombreux avec d'autres branches des mathématiques et aux poussées issues des besoins de domaines d'application comme la physique statistique ou l'informatique. Dans notre approche, les progrès s'appuient tout d'abord sur un prétraitement fin des structures combinatoires en jeu, où des liens parfois surprenants sont établis entre structures a priori distinctes: arbres et chemins, chemins et cartes, allocations et chemins, arbres et permutations, mots et arbres, etc. L'approche par méthodes analytiques bénéficie de résultats récents qui permettent désormais de tirer dans de nombreux cas les lois de paramètres complexes des structures discrètes, ce notamment par le recours à l'analyse asymptotique fondée sur la théorie des fonctions de variable complexe (analyse de singularités, méthodes de cols, coalescents ou non, théorie perturbative) appliquée aux fonctions génératrices de dénombrement. L'approche stochastique prend le relai car, lorsqu'elle s'applique, elle donne lieu à des résulats ``fonctionnels limites'', lesquels déterminent simultanément les distributions jointes d'un grand nombre de caractéristiques de ``forme'' des objets aléatoires discrets. En ce cas, l'objet aléatoire discret peut même se renormaliser en un objet continu qui est source d'informations précieuses. Dans un cas très simple, penser au mouvement Brownien, comme renormalisation d'une marche de Bernoulli que les combinatoriciens appellent chemin de Dyck et que les informaticiens voient comme trace d'un parcours d'arbre ou histoire d'évolution d'une structure dynamique. D'autres exemples récents de processus qui sont directement relevants à notre problématique sont les processus de coalescence, le ``serpent Brownien", et le continuum random tree.



Contexte national et international. Les méthodes combinatoires, analytiques, et stochastiques, loin d'opérer dans l'isolement, s'enrichissent mutuellement. Les groupes constitutifs de ce projet occupent une position toute particulière, de par leur combinaison de compétences (probabilités à Nancy et Versailles, combinatoire à Bordeaux, analyse à Rocquencourt). Ils ont d'ailleurs joué un rôle moteur (avec quelques autres) dans l'émergence d'un pôle d'activité en France sur ces thèmes (le groupe Aléa qui tient une réunion annuelle avec une semaine pleine de cours et exposés et de nombreux événements satellites nationaux), ainsi qu'au plan international: voir la fondation par plusieurs d'entre nous des réunions internationales Analysis of Algorithms et de la série des Colloques de Versailles, Mathematics and Computer Science qui sont des références dans leur domaine. Nulle part au monde, pensons-nous, ne se trouve un ensemble de forces couvrant le spectre combinatoire-analyse-probabilités-algorithmes qui soit comparable au groupement que nous proposons ici.


Parmi les principales personnalités abordant des questions voisines sous l'angle probabiliste, citons Aldous et Pitman qui sont au département de statistiques de Berkeley, Luc Devroye probabiliste en poste au département d'informatique de McGill à Montréal, ainsi que Marc Yor, Jean-François Le Gall, Jean Bertoin, Wendelin Werner, et leur école en France. Sur ce registre, une excellente équipe européenne, avec laquelle nous collaborons par ailleurs étroitement, est celle de Technische Universität Wien, autour de M. Drmota. Des spécialistes de renom sont W. Szpankowski (Purdue) et R. Sedgewick (Princeton) avec lesquels nous procédons à des publications communes et des échanges réguliers. L'équipe de Bordeaux est membre du Réseaux Européen Ace [``Algebraic Combinatorics in Europe''], lequel traite de questions en amont du projet, dans le domaine de la combinatoire algébrique. L'équipe de Rocquencourt est enfin membre du Projet Européen Alcom [``Algorithms and Complexity'']: celui-ci n'intersecte que peu le Projet ACPA que nous soumettons, mais constitue une source ``extérieure'' de problèmes informatiques portant sur la complexité des structures de données par exemple.



État de l'art. L'analyse d'algorithmes au sens où nous la pratiquons a été fondée par Knuth (Stanford) il y a une trentaine d'années. Le principe qui prévaut (mais qui a tardé à être reconnu par nombre d'informaticiens) est que les cas typiques ---en moyenne ou en probabilité--- déterminent bien mieux que les scénarios pessimistes de pire cas l'efficacité pratique des algorithmes. Un renouvellement important provient de l'irruption de l'algorithmique probabiliste où l'ordinateur ``joue aux dés'' (techniques dites de randomization à la suite de Rabin et Karp), laquelle ne se conçoit guère sans des évaluations probabilistes précises. Les gains algorithmiques, même sur des problèmes ``triviaux'' (trier!) sont substantiels et parfois spectaculaires (tout tri en Unix, par exemple, parie sur la forme probable des données et en tire avantage: cf. l'algorithme Quicksort). Dans le même temps, les critères de sélection des algorithmes d'utilisation courante s'affinent: on vise désormais à déterminer les fonctions de coûts non seulement en moyenne, mais en distribution. En d'autres termes on ne se contente plus d'une caractéristique simpliste (la moyenne), mais on vise à quantifier la variabilité et le ``risque'' possible (vis à vis de temps de calcul excessifs) dans l'utilisation des méthodes de calcul.


Cette problématique interne à l'analyse d'algorithmes est concommittante au mouvement perçu parmi plusieurs écoles en probabilités en direction des problèmes discrets: voir par exemple les communications au dernier congrès international des mathématiciens par N. Alon, Y. Peres, O. Zeitouni, H. Kesten, J. Bertoin, P. Biane, G. Lawler, P. Flajolet. Ce mouvement est au départ largement issu de problèmes posés par la physique statistique et par l'optimisation combinatoire des problèmes ``difficiles'' (NP--complets). Nous considérons que l'informatique ``fondamentale'' est à ajouter à la liste de ces sources. L'originalité de ce projet-ci est justement d'en proposer l'application à des problèmes ``faciles''---au sens de l'algorithmique liée à la classe P des problèmes résolubles en temps polynomial, lesquels sont les plus utilisés dans la pratique informatique quotidienne.


Au sein de la classe P, les équipes composantes ont dans un passé récent obtenu quelques résultats remarqués. Nous avons ainsi été les premiers à montrer l'équivalence asymptotique/probabiliste des deux principales stratégies de parcours d'une grande variété d'arbres (Chassaing, Nancy, et Marckert, Versailles). Nous avons mis mis en évidence la loi qui exprime l'évolution des performances des tables de hachage selon le procédé courant des ''essais linéaires'' (Flajolet et al., Rocquencourt). Nous avons découvert des liens profonds entre cartes aléatoires et ``serpent Brownien'', par une combinaison de méthodes bijectives fines et de théorie des processus stochastiques (Bousquet-Mélou & al, Bordeaux et Chassaing, Nancy) et les résultats correspondants nous informent très utilement sur les parcours de graphes planaires tout en fournissant des méthodes de génération aléatoire très rapides pour des objets, fussent-ils de grande taille. Grâce à une utilisation originale de la théorie des martingales, nous avons obtenu les caractérisations les plus fines connues actuellement du comportement évolutif d'une structure de donnée aussi fondamentale en informatique que l'arbre binaire de recherche (Chauvin et al, Versailles). Dans le cas de la recherche multidimensionnelle, nous avons fourni un modèle analytique complet aux problèmes statiques correspondants (Flajolet & Salvy, Rocquencourt) exprimé en termes de fonctions hypergéométriques généralisées.




2. Description du projet :


I. Méthodologie


L'exemple de l'analyse de la plus longue sous-suite croissante dans une permutation aléatoire (e.g., la longueur moyenne est en $2\sqrt{n}$) montre tout le bénéfice qu'on peut tirer d'une approche multidisciplinaire à l'analyse de l'aléa discret. S'y mêlent de la combinatoire algébrique et énumérative (e.g., determinants de fonctions de Bessel par Gessel en 1985), une analyse variationnelle de la forme des tableaux d'Young (Vershik--Kerov 1977), des approches probabilistes (Frieze, Bollobás, et al.), des liens avec la théorie des matrices aléatoires (GUE, lois de Tracy-Widom), le tout culminant avec le résultat, justement célèbre, de Baik, Deift, et Johansson où sont en jeu systèmes intégrables, fonctions d'Airy et déterminants de Fredholm, ainsi que les fonctions de Painlevé; cf. les revues d'Aldous--Diaconis [Bull. Amer. Math. Soc., 1999] et Deift [Notices Amer. Math. Soc., 2000]. Toutes proportions gardées et sur une échelle de temps bien plus courte, cette démarche nous sert de modèle idéal de ce qui peut être fait.


Notre thèse est qu'un grand nombre de ``petits joyaux'', certes beaucoup plus modestes que l'exemple qui précède, gisent inexplorés dans le champ des arbres, chemins, et algorithmes associés. En voici un exemple détaillé, auquel plusieurs d'entre nous ont contribué et pour lequel beaucoup reste à faire.

L'exemple qui précède montre à tout le moins que le paramètre de l'aire d'excursion est à l'intersection de plusieurs domaines tout en étant central à plusieurs applications algorithmiques. On en donne par exemple une introduction dans la note de Chassaing--Flajolet [Gazette des Mathématiciens, 2003]. De fait, on le retrouve encore dans la gestion dynamique d'équivalences (algorithmes union--find), dans les problèmes de ``parking'' et d'allocation aléatoire, dans une importante classe de processus de coalescence (en un sens curieusement homonyme de la méthode des cols coalescents déjà évoquée). De nombreux problèmes ouverts sont associés à ces correspondances: par exemple, l'analyse des algorithmes optimisés de gestion d'équivalences nécessite la prise en compte de fonctions de coût non standard; l'extension aux structures ``paginées'' (voir ci-dessous) est entièrement à réaliser. Mathématiques et besoins algorithmiques se rejoignent ici autour d'un objectif commun ---comprendre en profondeur et quantifier précisément l'un des ``processus combinatoires'' de base de l'informatique.


II. Algorithmique


Du point de vue algorithmique, notre travail se situe très largement dans la tradition scientifique des travaux de Knuth en informatique, notamment la synthèse de The Art of Computer Programming, qui comporte trois volumes de 600 pages. Knuth y fonde l'analyse d'algorithmes et en déduit une classification des principaux algorithmes de représentation des données (vol. 1), de génération aléatoire et algorithmique du calcul formel (vol. 2), de tri et de recherche de données simples uni-dimensionnelles (vol. 3). Par rapport à ce référentiel qui repose largement sur les connaissances des années 1970--1980, notre contribution possède les originalités suivantes:


III. Mathématiques


La partie mathématique de notre programme de recherche se décline en quatre grands chapitres, que nous présentons ci-dessous. Ceux-ci sont largement motivés par la section algorithmique qui précède. Loin de nous limiter à des développements d'outils, nous avons comme ambition, à l'occasion de ce projet, d'élaborer des mathématiques à la fois consistantes et originales.


III.a. Combinatoire énumérative et équations fonctionnelles. Par opposition au dénombrement asymptotique, le but de la combinatoire énumérative est de dénombrer exactement les objets discrets auxquels on s'intéresse. La première étape d'un tel travail consiste à comprendre la structure fine des objets considérés, soit en parvenant directement à les décrire de façon récursive, soit en établissant un codage non trivial par d'autres objets, à la structure plus limpide. Dans un deuxième temps, cette structure élucidée doit se traduire (idéalement) en une formule donnant le nombre d'objets de taille n, mais le plus souvent en une récurrence reliant ces nombres. Très souvent enfin, cette récurrence est codée par une équation fonctionnelle satisfaite par la série de dénombrement (ou série génératrice) des objets.


L'utilisation de ces séries présente de nombreux intérêts, bien au delà du simple codage : elle permet d'utiliser le vocabulaire des fonctions spéciales pour classifier les problèmes de dénombrement (séries algébriques, D-finies...) à tel point que, dans certains cas, une information sur la nature de la série suggère aussitôt une idée sur la structure des objets qu'elle compte. De plus, ces séries, vues comme fonctions d'une ou plusieurs variables complexes, donnent le bon point de vue pour accéder ensuite à des informations de nature asymptotique, par le biais de l'analyse de singularités. Ce point est détaillé dans le paragraphe suivant.


On peut donc considérer les équations fonctionnelles satisfaites par les séries de dénombrement comme le reflet de la structure des objets étudiés. On constate d'ailleurs souvent que des objets a priori fort éloignés obéissent à des équations voisines. Il devient alors naturel d'étudier, plutôt que des classes d'objets, des classes d'équations. Nous souhaitons nous concentrer sur une famille d'équations récemment apparues dans des problèmes de comptage variés (détaillés ci-dessous), que l'on appelle ``équations à deux variables catalytiques''. Elles régissent des séries de dénombrement selon plusieurs paramètres, et donc font intervenir plusieurs variables, dont deux -- dites catalytiques -- font l'objet de substitutions par des constantes dans l'équation fonctionnelle. Signalons que le cas d'une variable catalytique a fait l'objet de travaux récents de membres de ce projet [Banderier et al.] et qu'il est maintenant établi que leurs solutions sont en fait toujours algébriques.


Nous nous proposons, plus précisément, de développer les points suivants :


III.b. Combinatoire analytique. On entend par combinatoire analytique tout un ensemble de méthodes qui partent d'une description exacte (sans perte d'information) d'un modèle combinatoire par séries génératrices (voir ci-dessus) et en extraient les informations asymptotiques pertinentes ---dénombrements, lois limites, ou grandes déviations. Le principe de base consiste à traiter ces séries génératrices de dénombrement comme transformations analytiques du plan, puis à exploiter la nature des singularités et leurs déformations (dans le cas multivarié). Cette démarche s'applique à la plupart des modèles ``exactement résolubles'', mais aussi à nombre de fonctions qui ne sont qu'implicitement accessibles via des équations fonctionnelles. Dans le cas des arbres, chemins, cartes, graphes, ou permutations, une grande variété de telles équations (généralement non-linéaires) se manifeste: purement différentielles, aux différences, ou encore mixtes aux dérivées et aux différences partielles, notamment. Comme on l'a vu au paragraphe III.a., la structure de ces équations fonctionnelles reflète directement la structure combinatoire du problème d'origine. Les méthodes d'analyse de singularité et de perturbation singulière donnent des estimations asymptotiques très précises (vitesse de convergence au régime asymptotique, corrections d'ordre supérieur à 1, etc). Dans le cadre de notre démarche, celles-ci fournissent plus que les méthodes stochastiques en termes de précision des estimées, mais moins en terme de richesse ou de finesse de description. Par exemple, un problème aussi simple à formuler que celui de la largeur d'un arbre aléatoire [Chassaing-Marckert] résiste à de telles approches, tandis que l'analyse fournit des lois locales limites pour la hauteur des arbres de Galton-Watson qui semblent bien peu accessibles aux méthodes stochastiques [Flajolet--Odlyzko]. Globalement, les deux approches, analytique et stochastique, se complètent donc, et les méthodes analytiques dont il est question ici peuvent fournir des convergences de moments (d'où un accès non constructif aux lois limites), ainsi que des estimations fini-dimensionnelles susceptibles de servir de tremplin aux critères de convergence de processus et à la caractérisation des taux de grandes déviations.


Les axes que nous proposons de développer ici sont les suivants:

III.c. Arbres aléatoires


Cet intitulé signifie que les structures de données arborescentes, évidemment omniprésentes en algorithmique, sont vues mathématiquement comme des éléments (appelés arbres) d'un espace de probabilité correctement muni de tribu, filtration et mesure de probabilité. Les quantités qui intéressent les informaticiens (fonctions de coût, risques) deviennent des variables aléatoires, mieux des processus aléatoires, dont on ne va pas seulement étudier le comportement moyen mais aussi le comportement trajectoriel ou les grandes déviations. Les processus de branchement, des plus simples (Galton-Watson) aux plus élaborés (processus spatiaux, versions continues comme les branchements-diffusions) jouent ainsi un rôle fondamental dans cette approche. Cette démarche conduit, on le voit bien sur l'exemple des arbres binaires de recherche, à des raisonnements "dynamiques" sur l'évolution de la suite d'arbres, plutôt qu'à des raisonnements du type ``diviser pour régner'' et sont très complémentaires. Ces derniers, grâce à des méthodes analytiques (voir III.b.) fournissent des résultats très précis sur l'asymptotique des coefficients de fonctions génératrices, tandis que le travail sur le processus discret associé à l'arbre produira, par exemple par des méthodes de martingales, des résultats sur le profil de l'arbre, difficilement accessibles autrement.


Les axes que nous nous proposons de développer sont les suivants, ils rejoignent l'objectif général d'élaboration d'une théorie de ``processus combinatoires'' par complémentarité des méthodes favorites des membres de l'équipe, analytiques, combinatoires et probabilistes.

III.d. Modèles probabilistes continus.


L'étude de la convergence des chemins aléatoires (renormalisés) vers des processus stochastiques liés au mouvement Brownien a une longue histoire. Ce type de convergence "fonctionnelle" reste très éclairante en combinatoire [Bousquet-Mélou--Schaeffer 02], et en analyse d'algorithmes [Chassaing, Marckert & Yor, 03]. Une idée naturelle est d'étendre cette démarche à d'autres objets aléatoires discrets, comme les arbres, les cartes planaires, et les marches branchantes. Ainsi apparaissent, en passant à la limite, des modèles probabilistes continus (des ``processus combinatoires") comme le continuum random tree, le serpent Brownien et les processus de coalescence. Par comparaison avec le mouvement Brownien, ces objets limites sont moins explorés, leurs propriétés moins bien connues. Parfois, comme dans le cas des cartes planaires, l'objet limite n'est pas complètement défini. Il y a là un champ d'exploration où les diverses compétences de notre groupe peuvent s'employer:

IV. Fonctionnement.


Notre demande correspond à un soutien de fonctionnement aux équipes composantes. Sont prévus les missions de présentation des résultats du Projet ACPA aux conférences nationales ou internationales, les réunions de groupes de travail (Arbres et Algorithmes sous la direction de Versailles, séminaire Algorithmes de Rocquencourt), ainsi que les échanges de doctorants et l'invitation de spécialistes étrangers que nous prévoyons de partager largement. Pour rester focalisé, le Projet a été élaboré par un noyau de relativement petite taille, mais il s'insère dans le cadre de groupes plus larges, notamment le groupe national ALÉA (70 membres) et nous nous proposons de réserver environ 20% de notre financement à l'animation de cette communauté. Nous espérons de la sorte à la fois aider la communauté et profiter d'un effet d'amplification de notre effort de recherche sur les thèmes proposés.


Les membres du Projet ACPA ont aussi une politique volontariste dans le domaine de la formation interdisciplinaire Math-Info: ceci est matérialisé par le montage complet d'un DEA Math-Info à Versailles, un rôle moteur dans la filière ``Analyse d'algorithmes'' du DEA parisien ``Algorithmique'', dans la filière Math-Info du DEA de Bordeaux, et dans le DEA de Mathématiques appliquées de Nancy. C'est pour ces raisons que nous effectuons des demandes d'allocation de thèse. Plus généralement, notre sentiment est d'opérer dans un domaine jeune, en croissance sensible, dans un environnement pluridisciplinaire motivant, et il nous semble important que ceci soit reflété par l'attribution d'allocations de thèse et de bourses postdoctorales.


Résultats attendus :


Les résultats attendus ont été évoqués dans la description du projet, où sont apparus en détail les développements mathématiques envisagés. D'un point de vue plus ``macroscopique'', nous souhaitons par la réalisation de ce vaste programme