Vous êtes sur la page 1sur 18

Identication la limite d'automates probabilistes rsiduels avec probabilit un

Franois Denis1 , Yann Esposito1


LIF-CMI, UMR 6166 39, rue F. Joliot Curie 13453 Marseille Cedex 13 FRANCE fdenis,esposito@cmi.univ-mrs.fr

Les automates probabilistes (PFA) sont des objets permettant de modliser des distributions de probabilits dnies sur des ensembles de mots. Ils ont la mme expressivit que les Modles de Markov Cachs utiliss dans de trs nombreuses applications. Pour une sous-classe des PFAs, les automates probabilistes dterministes (PDFA), des algorithmes d'identication la limite ont t labors. Malheureusement les PDFAs sont beaucoup moins expressifs que les PFAs. Aussi tudions-nous une classe d'expressivit intermdiaire : les automates probabilistes rsiduels (PRFA). Nous montrons que les PRFAs paramtres rationnels sont identiables la limite avec une probabilit de 1.
Rsum

1 Introduction
Les automates probabilistes (PA) sont des objets formels permettant de modliser des distributions de probabilits dnies sur des ensembles de mots appels aussi langages stochastiques [1]. Ils sont composs d'une structure qui est un automate ni (NFA) et d'un ensemble de paramtres associs aux tats et aux transitions reprsentant la probabilit pour un tat d'tre initial ou terminal, ou la probabilit qu'une transition soit emprunte. un automate probabiliste A dni sur l'alphabet , on associe naturellement une distribution de probabilits PA dnie sur . Les automates probabilistes ont la mme expressivit que les Modles de Markov Cachs (HMM) [2,3,4] et peuvent donc tre utiliss dans les mmes conditions, pour les mmes trs nombreuses applications (reconnaissance de la parole, analyse de squences biologiques, . . . ). Les algorithmes dnis propos des HMMs (voir [5] par exemple) peuvent facilement tre adapts aux PAs. tant donns un automate probabiliste A et un mot u, on sait calculer ecacement la probabilit PA (u) (algorithmes forward-backward) ; on sait aussi, parmi tous les chemins de A reconnaissant u, trouver le plus probable (chemin de Viterbi). tant donns une structure d'automate probabiliste A et une suite de mots u1 , . . . , un tirs indpendamment selon une mme distribution de probabilit P , le problme consistant trouver les paramtres de A maximisant la vraisemblance des observations est NP-dur [3]. Mais des algorithmes bass sur le principe EM (Expectation-Maximisation ) [6] permettent de calculer des approximations de ces paramtres juges souvent satisfaisantes (algorithmes d'apprentissage de Baum-Welch et de Viterbi). En revanche, le problme consistant infrer un automate probabiliste (structure et paramtres) d'une suite de

mots u1 , . . . , un tirs indpendamment selon une mme distribution de probabilits P est encore un sujet de recherche largement ouvert. Dans la plupart des applications des automates probabilistes ou des HMMs, soit la connaissance du domaine permet de choisir une structure a priori (Cf le modle standard pour l'analyse des squences biologiques [7]), soit l'on part d'un automate possdant une structure de graphe complet. On se doute qu'il y a sans doute mieux faire et certains travaux ont conrm cette intuition [8] : rechercher des structures partir des donnes est souvent prfrable poser des structures a priori. L'infrence d'automates probabilistes est donc un sujet de recherche prometteur. Certains auteurs ont choisi de travailler avec des objets plus gnraux que les automates probabilistes : les automates multiplicit (MA)[9,10,11]. Un automate multiplicit possde les mmes caractristiques qu'un automate probabiliste sauf celles qui contraignent l'automate dnir une distribution de probabilits : les paramtres sont donc valeur dans un corps K quelconque (gnralement Q). Un automate multiplicit A dnit donc une fonction fA de valeurs dans K . L'ensemble des fonctions dnies par des automates multiplicit sont apprenables dans une variante du modle d'apprentissage exact d'Angluin, dans lequel l'apprenant est suppos pouvoir formuler des requtes d'appartenance et d'quivalence tendues : pour une cible A xe, en rponse une requte d'appartenance portant sur un mot u, un oracle retourne la valeur fA (u) ; en rponse une requte d'quivalence portant sur un automate multiplicit B , l'oracle retourne oui si fA = fB et un couple (u, fA (u)) tel que fA (u) = fB (u) sinon. L'algorithme propos dans [11] identie la cible en un temps O((|| + m)r3.376 ) en utilisant r requtes d'quivalence et O((|| + log m)r2 ) requtes d'appartenance, o r est le nombre d'tats de la cible et o m est la longueur du plus grand contre-exemple retourn par l'oracle d'quivalence. Comme les automates probabilistes sont des cas particuliers d'automates multiplicit, on dduit immdiatement du rsultat prcdent qu'ils sont apprenables par requtes d'appartenance et d'quivalence. Ce beau rsultat n'est pourtant pas entirement satisfaisant. On peut juger qu'il n'est pas trs raliste de supposer qu'on dispose d'oracles d'appartenance et d'quivalence. Cette objection peut pourtant tre assez facilement leve. D'une part, on sait qu'on peut se passer de l'oracle d'quivalence en passant du modle d'apprentissage exact au modle d'apprentissage PAC avec requtes d'appartenance [12,13]. D'autre part, on sait qu'on peut transformer tout rsultat d'apprentissage exact en un rsultat d'apprentissage o l'on fait l'hypothse que l'apprenant dispose d'un chantillon contenant susamment d'information sur la cible : la plupart des algorithmes dvelopps en infrence grammaticale reposent sur cette hypothse [14,15]. En revanche, deux autres caractristiques de ce rsultat s'avrent beaucoup plus gnantes : l'algorithme d'apprentissage de [11] suppose qu'on dispose exactement de la valeur fA (u) ce qui n'est jamais le cas en pratique et il retourne un automate multiplicit qui calcule la fonction dnie par la cible mais qui n'est pas lui-mme un automate probabiliste : l'apprentissage est impropre, selon la terminologie utilise dans l'apprentissage PAC. La conjonction de ces deux petits dfauts en gnre un grand. En eet, on peut

facilement vrier si un automate multiplicit est un automate probabiliste ; en revanche, il est indcidable de savoir si un automate multiplicit gnre une fonction positive. Cela a pour consquence que mme si l'on tait capable de modier l'algorithme dni dans [11] de faon ce qu'il puisse travailler avec des valeurs approches PA (u) de PA (u) (ce qui ne semble pas si simple), il retournerait une fonction qui ne calculerait pas ncessairement une distribution de probabilits et sans qu'on puisse s'en assurer. Il est donc indispensable de travailler dans un cadre thorique qui suppose que les donnes sont approximatives et qui impose de retourner une distribution de probabilits. Le modle d'apprentissage par identication la limite de Gold a t tendu de faon pouvoir rendre compte de l'apprentissage de langages stochastiques. On suppose dans ce modle qu'une cible A tant xe, l'apprenant dispose d'une suite d'observations u1 , . . . , un , . . . tires indpendamment selon PA . Un algorithme d'apprentissage A, prenant en entre u1 , . . . , un retournera un automate An . On demande qu'avec une probabilit de 1, la structure d'un automate permettant de gnrer PA soit identie partir d'un certain rang et que PAn converge vers PA ; on peut aussi demander, par exemple lorsque les paramtres de A sont des rationnels, que PAn soit gal PA partir d'un certain rang. Si la structure de la cible est un automate dterministe, ces trois points ont t obtenus : l'ensemble des automates dterministes probabilistes paramtres rationnels sont identiables la limite avec une probabilit de 1 [16,17,18]. Ce rsultat thorique donne lieu des implmentations qui peuvent tre utilises dans les cas pratiques. Malheureusement, et contrairement au cas non probabiliste, les automates dterministes probabilistes ont une expressivit trs infrieure celle des automates probabilistes dans leur ensemble : on peut dmontrer que les langages stochastiques qu'ils reconnaissent sont exactement ceux qui n'ont qu'un nombre ni de langages rsiduels, o le langage rsiduel d'un langage stochastique P est le langage u1 P dni par u1 P (v) = P (uv)/P (u ). Il semble indispensable de pouvoir gnrer des langages plus riches. La classe des automates probabilistes rsiduels (PRFA) a t introduite dans [19]. Ces automates sont bass sur des composantes naturelles des langages qu'ils reconnaissent : leurs langages rsiduels. Un automate probabiliste A est un PRFA ssi chacun de ses tats dnit un langage rsiduel de PA . Les langages dnis par des PRFAs ont une caractrisation intrinsque : il s'agit des langages stochastiques P admettant une base nie de langages rsiduels, c'est-dire tels qu'il existe un ensemble ni de mots u1 , . . . , un tel que pour tout mot v , v 1 P = i u1 P o les poids i sont des rels positifs. En reformulant cette i dnition gomtriquement, un langage stochastique peut tre engendr par un PRFA ssi ses langages rsiduels (ventuellement en nombre inni) sont contenus dans un polytope dont les sommets sont des langages rsiduels. Un premier rsultat d'infrence de PRFAs a t montr dans [19]. Nous dmontrons dans cet article que les PRFAs paramtres rationnels sont identiables la limite avec une probabilit de 1.

2 Prliminaires
2.1 Automates et langages
Soit un alphabet ni, et soit l'ensemble des mots sur . Le mot vide sera not . On suppose que est ordonn d'abord par longueur croissante et pour chaque longueur, selon l'ordre lexicographique. Un langage est un sous-ensemble de . On dsigne le plus grand mot d'un langage ni L par max (L). Si L est un langage, on note pref (L) = {u | v , uv L}. L est dit prxiel si et seulement si L = pref (L) Un automate ni non dterministe (NFA) est un quintuplet A = , Q, Q0 , F, o Q est un ensemble ni d'tats, Q0 Q est l'ensemble des tats initiaux, F Q est l'ensemble des tats terminaux, est la fonction de transition dnie de Q dans 2Q . Nous noterons aussi par l'extension de la fonction de transition dnie de 2Q vers 2Q . Un NFA est dterministe (DFA) si Q0 est un singleton et si q Q, x , Card ((q, x)) 1. Un mot u est reconnu par un NFA A = , Q, Q0 , F, si (Q0 , u)F = et le langage reconnu par A est LA = {u | (Q0 , u) F = }. Soit q Q. On note LA,q le langage {v | (q, v) F = }. Soit L un langage et u un mot. Le langage rsiduel de L par rapport u est u1 L = {v | uv L}. Un automate ni tats rsiduels (RFSA) est un NFA A = , Q, Q0 , F, tel que pour tout tat q Q, LA,q est un rsiduel de LA [20].

2.2 Automates probabilistes et langages stochastiques


Soit un corps K , un automate multiplicit (MA) est un quintuplet , Q, , , o Q est un ensemble ni d'tats, : Q Q K , : Q K , : Q K sont respectivement les fonctions de transition, d'initialisation et de terminaison. On tend la fonction de transition Q Q par : (q, wa, r) = sQ (q, w, s)(s, a, r) o a et (q, , r) = 1 si q = r et 0 sinon. On tend encore Q 2 2Q par (q, U, R) = wU rR (q, w, r). La fonction fA associe un MA A est dnie par fA (u) = qQ rQ (q)(q, u, r) (r). L'ensemble des tats initiaux est dni par QI = {q Q | (q) = 0}. L'ensemble des tats terminaux est dni par QT = {q Q | (q) = 0}. Le support d'un MA A = , Q, , , est le NFA , Q, QI , QT , tel que (q, x) = {r | (q, x, r) = 0}. L'ensemble des tats atteignables est Qatt = (QI , ). Un Automate Fini Probabiliste (PFA) est un automate multiplicit dont les fonctions , et prennent leur valeurs dans [0, 1] et satisfont : qQ (q) = 1, (q) + a rQ (q, a, r) = 1 pour tout tat q , et (q, , QT ) = 0 pour tout q Qatt . Un automate ni dterministe probabiliste (PDFA) est un PFA dont le support est dterministe. Un langage stochastique sur est une distribution de probabilits sur . La fonction PA associe un PFA A est un langage stochastique sur qui sera dit gnr par A. Pour tout tat q , on note PA,q le langage stochastique gnr par le PFA < , Q, , q , > o q (q) = 1. Soit P un langage stochastique

et soit u un mot tel que P (u ) = 0. Le langage rsiduel u1 P est le langage stochastique qui associe tout mot w la probabilit u1 P (w) = P (uw)/P (u ). Si P est un ensemble ni de langages stochastiques, alors l'enveloppe convexe de P est dnie par conv P = P P P P | P P, P 0 et P P P = 1 . Un rsiduel premier de P est un rsiduel R tel que pour tout ensemble ni R de rsiduels de P ne contenant pas R, p conv R. Un automate ni rsiduel / probabiliste (PRFA) est un PFA A = , Q, , , dont tout tat dnit un langage rsiduel, c'est--dire tel que q Q, u , PA,q = u1 PA [19].
a, a, 1 b,
1 2 1 2 1 2

a, 0.492 a,
9 20

a a, b,
2 3 1 2 1 3

a a, 0.508

b,
11 20

b,

a.
Fig. 1.

a,

7 11

b.

a,

4 11

Un PRFA cible et le PRFA appris par l'algorithme avec une vingtaine de mots.

La gure 1.a reprsente le PRFA , Q, , , o = {a, b}, Q = {, a, b}, () = 1, (b) = 2 , (, a, a) = 1 , (, b, b) = 1 , (a, a, a) = 1 , (a, a, b) = 1 et 3 2 2 2 2 (b, a, b) = 1 . On voit que 1 PA = PA, , a1 PA = PA,a et b1 PA = PA,b . Les 3

deux PRFAs de la gure 1 possdent le mme support. Les PDFAs sont des PRFAs. Il a aussi t montr dans [19] que les PFAs sont plus expressifs que les PRFAs, eux-mmes tant plus expressifs que les PDFAs. Plus prcisment, les langages stochastiques gnrs par les PDFAs sont ceux qui possdent un nombre ni de rsiduels. Les langages gnrs par les PRFAs sont les langages P dont l'ensemble P des langages rsiduels premiers est ni et dont tout langage rsiduel w1 P appartient conv P . Les langages gnrs par les PFAs sont les langages stochastiques P tels qu'il existe un ensemble ni de langages stochastiques P = {P1 , . . . , Pn } tel que pour tout Pi et pour tout rsiduel w1 Pi , w1 Pi conv P et tel que P conv P (voir [21] pour une tude complte).

3 Apprentissage impropre partir de donnes approximatives : une dicult.


Supposons que nous voulions apprendre le langage stochastique P gnr par un PFA. Il est propos dans [1,10] des algorithmes qui, partir des probabilits P (w) de certains mots w, renvoient un automate multiplicit qui gnre P . Il semble naturel de vouloir tendre ces mthodes aux cas approchs. Malheureusement, nous ne pouvons pas le faire, et ce pour deux raisons : avec des valeurs approches, nous ne pouvons obtenir que des MAs approchs qui ne gnreront pas ncessairement un langage stochastique aussi proches soient-ils de la cible.

Nous ne connaissons pas de procdure de dcision qui permette de savoir si un MA gnre un langage stochastique. Nous montrons que savoir si un MA gnre une fonction positive est indcidable.

3.1 Problme de robustesse de la reprsentation en MA.


La reprsentation de langages stochastiques par des MAs n'est pas robuste. Une extension naturelle d'un des algorithmes donn dans [1,10] prendra en entre un chantillon de mots gnrs par un langage PA et retournera dans le meilleur des cas un MA hypothse H dont le support sera identique au support de A et dont les valeurs portes par les artes seront proches de celles de A. Malheureusement nous avons le rsultat ngatif suivant : il existe des MAs A et B , ayant mme structure et des paramtres arbitrairement proches, dont seul le premier gnre un langage stochastique (Cf. gure 2). De plus, savoir si un MA gnre une fonction positive est indcidable.
a, c,
1 3 1 3

a, 1 + x

a, 1 x 2
1 2

1 a,
1 2

a, 1 1 1

x a, 1 + 2x

a, 1 + x

a.
Fig. 2.

b,

1 3

1 2

a, 1

b.

2x

Deux MAs qui gnrent des langages stochastiques si x = 0. Si x > 0, le premier gnre des valeurs ngatives et le second des valeurs non bornes.

3.2 Problme de dcision Proposition 1.


cidable. Dmonstration. Soit

un MA. Savoir si

fF

est une fonction positive est ind-

Soit A = , Q, , , un PFA accepteur, et soit qt son unique tat terminal. Considrons le MA (gure 3). F = {#}, Q{qi , qh , qh1 , qh2 , qc }, F , F , F o # est une nouvelle lettre, qi est le seul tat initial, qh est l'tat puits gnrant la fonction nulle sur les mots, qc est l'tat constant qui attribue la valeur 1 tous les mots, F (q) = 1 si q = qi et 0 sinon, F (q) = 1 si q {qc , qt , qh2 }, 1 si q = qh1 et 0 sinon, F est identique sur Q Q, F (q, #, qh ) = 1 (q, , Q) pour tout tat q de Q {qi , qc }, F (qi , a, q) = (q) 1 pour toute lettre a et tout tat de Q, F (qh , #, qh1 ) = F (qh , #, qh2 ) = 2 , F F F (qc , a, qc ) = 1 pour toute lettre a , (qh1 , #, qh ) = 2 et est nulle pour toutes les autres transitions. Nous avons PF (au) = PA (u) . Sachant que nous avons construit un automate tel que tous les mots qui se terminent par # sont produit avec un valeur

nulle, si nous pouvions dcider w , PF (w) < 0, alors, nous pourrions dcider w , PA (w) < qui est indcidable.

a, () 0 qi a, a, 1 b, 1 1 qc a, () #, .

1 qt

#, .

#, . #, . #, 2 1 qh1 #, 1 2 #, 1 2 1 qh2

#, .

0 qh

Fig. 3.

Un MA qui simule un PFA accepteur.

4 Identication la limite de la structure des PRFAs.


La plupart des algorithmes d'infrence de PDFAs construisent d'abord un automate arborescent partir de l'chantillon, recherchent les tats qui semblent gnrer les mmes langages puis les fusionnent. Notre algorithme construit galement un automate arborescent mais recherche plus gnralement si le langage dni par un tat appartient la partie convexe des langages dnis par les autres tats. Dans la suite nous ne considrons que les langages stochastiques gnrables par des PRFAs.

4.1 Prliminaires
Nous montrons que lorsque la taille de l'chantillon crot, alors, la limite, travailler avec des valeurs exactes ou approches est similaire. En particulier nous montrons que les tests d'appartenances d'un langage rsiduel l'enveloppe convexe d'autres langages rsiduels deviennent quivalents. Soit P un langage stochastique. Un chantillon stochastique S de P est une suite innie de mots gnrs selon la distribution de probabilits P . On notera Sn la squence compose des n premiers mots de S . Le nombre d'occurrences du mot w dans Sn sera not Sn (w). Pour tout sous-ensemble W , Sn (W ) = wW Sn (w). Par abus de notation on crira w Sn ssi Sn (w) = 0. La squence Sn dnit un langage stochastique Pn o Pn (w) = Sn (w)/n. Soit X un ensemble dnombrable, soit A = (Ai )iI une famille de sousensembles de X et soit S un sous-ensemble ni de X . On dit que S est pulvris par A si {S Ai | i I} = 2S . La VC-dimension VC(A) de A est le plus grand cardinal d'un ensemble pulvris par A. Par exemple, soit X = et soit A = (w )w . Si Card() = 1, on peut facilement montrer que {} est pulvris

par A mais qu'aucun ensemble contenant deux lments ne peut tre pulvris. Si a et b sont deux lettres distinctes de , il est clair que {a, b} est pulvris par A. Maintenant, soit r, s, t et soit S = {r, s, t}. Soit u1 (resp. u2 , u3 ) le plus grand prxe commun de r et s (resp. r et t, s et t). Ces mots sont comparables deux deux. Supposons que u1 soit le plus petit : il n'y a pas de mot w tel que w S = {r, s}. Aucun sous-ensemble contenant plus de deux lments ne peut tre pulvris. Donc, VC(A) = 1 si Card() = 1 et VC(A) = 2 si Card() > 1. Soit P une distribution de probabilits sur X et soit Sn un chantillon contenant n lments de X indpendamment gnrs selon P . Il peut tre montr [22,23] que pour n'importe quel paramtre de conance , avec une probabilit suprieure 1 , nous avons pour tout i I ,
|Pn (Ai ) P (Ai )| c
VC(A)log n c2
2 4

(1)

o c est une constante universelle. Soit 1 ( , ) =

(2 log 4 ).

Lemme 1.

Pour tout paramtre de prcision

, tout paramtre de conance

pour tout n 1 ( , ), avec une probabilit suprieure |Pn (w ) P (w )| pour tout w . Dmonstration.

nous avons,

Il sut d'appliquer (1).

Soit P un langage stochastique, U {v} un ensemble ni de mots u U {v}, u1 P est dni. On dnit le systme E(v, U, P ) d'quav v tions et d'inquations linaires sur les variables (xu )uU : xu 0 pour tout 1 v 1 u U et v P = uU xu u P . Soit S un chantillon stochastique de P , n IN et > 0. Supposons que u U {v}, u1 Pn soit dni. Soit W l'ensemble des mots w tels que : u U {v} , Pn (uw ) = 0. On dnit le systme I(v, U, Sn , ) : xv 0 pour tout u u U et pour tout w W : v 1 Pn (w ) uU xv u1 Pn (w ) . u On dsignera par sol (E) l'ensemble des solutions du systme E . tels que

Dnition 1.

Ces deux systmes linaires permettent de tester l'appartenance d'un rsiduel l'enveloppe convexe d'autres rsiduels. En eet si sol (E(v, U, P )) n'est pas vide alors cela signie que v 1 P conv u1 P | u U . Les systmes E ncessitent une connaissance des valeurs exactes des probabilits alors que les systmes I peuvent s'obtenir partir d'un chantillon ni.

Exemple 1. Prenons comme exemple le PRFA de la gure 1.a et appelons P le

langage qu'il gnre. On a alors sol (E (a, {} , P )) = sol (E (b, {, a} , P )) = , sol (E (aa, {, a, b} , P )) = xaa = 0, xaa = 1 , xaa = 1 puisqu'on a aa1 P = a b 2 2 1 1 P + 1 b1 P et de mme sol (E (ba, {, a, b} , P )) = xba = 0, xba = 0, xba = 1 . a b 2a 2 Soit S un chantillon associ P et soit S20 compos des 20 mots gnrs avec rptitions (le nombre entre parenthses correspond au nombre d'occurrences) : b(7), aa(4), ba(3), aaa(1), baa(1), aaaa(3), aaaaaaa(1). Les prxes des mots de S20 avec leur nombre d'apparition sont : (20), a(9), b(11), aa(9), ba(4), 9 aaa(5), baa(1), aaaa(4), aaaaa(1), aaaaaa(1), aaaaaaa(1). On a Pn (a ) = 20 ,

4 , a1 Pn (a ) = 9 , b1 Pn (a ) = 11 . Pour I aa, {, a, b} , S20 , 1 9 8 1 l'inquation associe au mot a est : |aa Pn (a ) u{,a,b} xaa u1 Pn (a )| u 9 4 , c'est--dire 5 xaa 20 xaa 9 xaa 11 1 . a 9 b 9 8 1 En particulier, sol I {a} , {} , S20 , 8 = sol I {b} , {, a} , S20 , 1 = , 8 1 xba = 0, xba = 0, xba = 1 sol I {ba} , {, a, b} , S20 , 8 et nalement nous a b avons {xaa = 0, xaa = 0, 492, xaa = 0, 508} sol I {aa} , {, a, b} , S20 , 1 , c'est a b 8 -dire des rsultats proches de ceux obtenus avec E(aa, {, a, b}, P ) et E(ba, {, a, b}, P ).

Pn (b ) =

11 20

Lemme 2.
ant par

Lorsque l'chantillon contient un nombre susant de mots commen-

U , alors avec une probabilit contrle, les soluE(u, U, P ) seront des solutions du systme I(v, U, Sn , ). Plus formellement, soit P un langage stochastique, U {v} un ensemble ni de mots, m = Card (U {v}), S un chantillon stochastique de P , > 0, > 0. Suppo1 sons qu'il existe un entier n tel que u U {v}, Card(u Sn ) 1 ( /2, /m). Alors, avec un probabilit suprieure 1 , sol (E(v, U, P )) sol (I(v, U, Sn , )).
et par tout mot de tions du systme Dmonstration.

1 et

Soit (xv )uU une solution du systme E(v, U, P ) alors u

uU

xv = u

v 1 Pn (w ) uU xv u1 Pn (w ) u v 1 Pn (w ) v 1 P (w ) + uU xv u1 Pn (w ) u1 P (w ) u

pour tout w . D'aprs le lemme 1, pour tout u U {v}, avec une probabilit suprieure 1 m , nous avons u1 Pn (w ) u1 P (w ) 2 pour tout mot w. Soit Au cet vnement. Nous avons P uU {v} Au = 1 P uU {v} Au 1 uU {v} p Au 1 m m = 1 . Donc avec une probabilit suprieure 1 , nous avons pour tout mot w, v 1 Pn (w ) uU xv u1 Pn (w ) 2 + uU xv 2 = pour tout (xv )uU u u u solution du systme E(v, U, P ).
Soit (Xi )i={1,...,n} des variables alatoires indpendantes suivant des n lois de Bernoulli de mme paramtre p > 0. Soit Yn = i=1 Xi , > 0 et soit 2 k IN. Si n sup(2k/p, 2(ln )/p ) alors avec une probabilit suprieure

Lemme 3.

1 ,

nous avons

Yn k .

Dmonstration.

Par l'ingalit de Hoeding, nous avons P Yn p = n ln 2n 2 P (Yn n(p )) e pour tout > 0. Soit = 2n . Nous avons
e2n
2

= . Comme n 2(ln )/p2 , nous avons

comme n 2k/p, nous avons k n p p n(p ). 2 Dnissons ( , , , m) = sup 21


2 , 2m

p 2(2ln ) = p/2 et ln
2

/, 2 ln 2m /2 .

Lemme 4.

Lorsque l'chantillon est susamment grand, alors, avec une proba-

bilit contrle, les solutions des systmes Plus formellement, soit

seront solutions des systmes

I.

un langage stochastique,

U {v}

un ensemble ni de

= min {P (u ) | u U {v}}, m = Card(U {v}), S un chantillon stochastique de P , > 0, > 0. Supposons > 0. Si n (, , , m), alors avec une probabilit suprieure 1 , sol (E(v, U, P )) sol (I(v, U, Sn , )).
mots, Dmonstration.
u U {v}, avec une probabilit suprieure 1 2m , Card(u1 Sn ) 1 ( 2 , 2m ). Donc cette proprit est vraie pour tout u U {v} avec une probabilit sup rieure 1 2 . Dans le cas o toutes ces inquations sont satisfaites, du lemme 2 nous dduisons qu'avec une probabilit d'au moins 1 2 , sol (E(v, U, P )) sol (I(v, U, Sn , )) ce qui permet de conclure.

En utilisant le lemme prcdent, nous avons que pour chaque

Dnition 2.
pour tout mot rapport

Soit

de

par :

P un langage stochastique et U un ensemble prxiel tel que U , u1 P est dni. Nous dnissons la frontire de U par fr (U, P ) = ux | u U, x , ux U, (ux)1 P est dni . / E(v, U, P ),
et

Maintenant, considrons les systmes d'inquations suivant :

E(U, P ) =

vfr(U,P )

I(U, Sn , ) =

vfr(U,Pn )

I(v, U, Sn , ).

On verra dans la suite que si E(U, P ) admet une solution alors, on peut construire un PRFA A qui gnre P avec U comme ensemble d'tats et tel que u U, PA,u = u1 PA . Et on remarquera que E(U, P ) admet une solution est quivalent dire que pour tout mot v fr (U, P ), E(v, U, P ) admet une solution.

Exemple 2. Soit P le langage gnr par le PRFA de la gure 1.a, alors : = . fr ({ , a} , P ) fr ({ } , P ) = {a, b}, sol (E ({} , P )) = sol I {} , Sn , 1 8 = {b, aa}, sol (E ({, a} , P )) = sol I {, a} , Sn , 1 = . fr ({ , a, b} , P ) = 8 {aa, ba}, E ({, a, b} , P ) et I {, a, b} , Sn , 1 admettent des solutions. 8
W = fr (U, P ) U , = min {P (v ) | v W }, m = Card(W ), k = Card(fr (U, P )), > 0 et > 0. Si n ( , k , , m) alors avec une probabilit d'au moins 1 , sol (E(U, P )) sol (I(U, Sn , )).
Soit Dmonstration. D'aprs le lemme 4, pour tout mot v de fr (U, P ), la probabilit pour que sol (E(v, U, P )) sol (I(v, U, Sn , )) est infrieure k . La probabilit pour que v fr (U, P ), sol (E(v, U, P )) sol (I(v, U, Sn , )) est suprieure k 1 i=1 k = 1 .

Proposition 2.

Lemme 5.
telles que un
n

Il existe des suites

0,

( n )nIN , (n )nN , (n )nIN , (mn )nIN et (kn )nIN n < , n 0, mn +, kn + et il existe nIN
n n , k n , n , m n . n

tel que

n > N, n

Dmonstration.

Par exemple n =

= n 4 , n =
1

1 n2

et mn = kn = n.

Note 1. Jusqu' la n de l'article ( n )nIN , (n )nIN , (n )nIN , (kn )nIN et (mn )nIN seront des suites qui possderont les proprits du lemme prcdent. Lorsque le contexte ne sera pas ambigu, I (U, Sn , n ) sera not par In et E(U, P ) par E .

Lemme 6.
de

[Borel-Cantelli] Soit

(An )nIN
o

une suite d'vnements de probabili-

ts suprieures ou gales

1,

il existe un entier

nIN n < . Alors avec une probabilit tel que pour tout n > N , An se produit.

1 n

Lemme 7.
existe un

Avec probabilit un, il existe une tape aprs laquelle les solutions

des systmes

ensemble ni de mots

sont des solutions des systmes In . Plus formellement, pour tout U tel que u U , u1 P est dni, avec probabilit 1, il

tel que pour tout

n > N , sol (E(U, Sn )) sol (I (U, Sn , n )).

Dmonstration.

La preuve se dduit de la proposition 2 et des lemmes 5 et 6.


E admettent une solution. U tel que u U , u1 P est existe un N tel que pour tout

Lemme 8.
tmes

Avec une probabilit un, il existe une tape aprs laquelle les sys-

In

n'admettent une solution que si les systmes probabilit

Plus formellement, Pour tout ensemble ni de mots dnit et sol (E (U, P )) = , avec n > N , sol (I (U, Sn , n )) = . Dmonstration.

1,

il

Supposons que N IN, n N tel que I(U, Sn , n ) ait une solution. Soit : IN IN telle que (n) n et I(U, S(n) , (n) ) ait une solution v,(n) (xu )uU . Comme les solutions appartiennent au compact [0, 1]Card(U ) , on peut en extraire une sous-suite convergente (xv,((n)) ) de limite (xv )uU . u u
v 1 P (w )
uU uU

xv P (w ) v 1 P (w ) v 1 P(n) (w ) + |v 1 P(n) (w ) u
v,(n) P(n) (w ) uU xu v uU xu P (w )

xu

v,(n)

P(n) (w )| +

uU

xv P(n) (w ) u

xv P(n) (w ) . Avec probabilit 1 tous les termes u tendent vers 0 ; le premier et le quatrime d'aprs le lemme 1, le second est infrieur ((n)) et le troisime terme par hypothse de convergence de (xv,((n)) ). u D'o (xv )uU est une solution de E(U, P ). u
uU

4.2 L'algorithme principal


L'algorithme principal se divise en trois parties ; dans la premire nous calculons les tats du PRFA, dans la seconde nous recherchons les transitions et la n nous construisons le PRFA en fonction des donnes obtenues.

Algorithme 1 DEES

Entre : Un chantillon stochastique Sn de taille n. Sortie : Un PRFA prxe A = , Q, , , . Q calculeEtats (Sn ) renvoie construitPRFA (Q, calculeTranstions (Q, Sn )).

Soit Prem (P ) l'ensemble des mots u tels que u1 P soit premier et qu'il n'existe pas de mot v < u tel que v 1 P = u1 P . On dnit Pm (P ) l'ensemble des mots u tels que u max (Prem (P )) et u1 P est dni.
Remarque 1.

Pm (P ) est un ensemble prxiel. Il est clair que sol (E (Pm (P ) , P )) = et que pour tout ensemble U = {u < v} o v < max (Pm (P )), alors sol (E (U, P )) = . Notre algorithme va renvoyer un automate dont l'ensemble d'tat sera Pm (P ). Comme nous nous intressons seulement un rsultat d'identication la limite, on se contentera d'un

tel ensemble. En pratique l'algorithme que nous utilisons renvoie un automate dont l'ensemble d'tats est Pm (P ) dni rcursivement comme l'ensemble des mots v tels que v 1 P soit dni, et tels que v 1 P conv u1 P | u Pm (P ) et u < v . /

Dnition 3.

semble d'tat est un ensemble prxiel de mots et tel que

A = , Q, , , dont l'en () = 1, (v, a, u) Q Q, (v, a, u) = 0 si et seulement si va = u ou si va Q. Un PRFA / prxe associ P est un PRFA prxe qui gnre P (Cf. gure 1.a).
Un est un PRFA

PRFA prxe

Soit A = , Q, , , un PRFA prxe associ P . On remarque que pour tout (v, a, u) Q Q, (v, a, u) = P (va )/P (v ) si u = va. En revanche, si va Q, alors (u, a, v) n'est pas dtermin par P . /
Remarque 2.

On dnit la relation sur deux ensembles nis de mots U et V par, U V si et seulement si U = ou max(U ) < max(V ) ou, max(U ) = max(V ) et U \ max(U ) V \ max(U ). On montre aisment que est un ordre total.
Le PRFA prxe rduit de P est le PRFA prxe associ P , T = , Pm (P ) , T , , tel que pour tout va fr (Pm (P ) , P ), T (v, a, u) = 0 ssi u est un mot du plus petit sous-ensemble de Pm (P ) (par rapport ) tel que (xva )uU suite relle positive, (va)1 P = uU xva u1 P , (Cf. gure 1.a). u u

Dnition 4.

Proposition 3.

Le PRFA prxe rduit de

est unique et gnre

P.

Dmonstration. La preuve que le PRFA prxe rduit gnre P est donne dans [19]. Il sut de montrer l'unicit. Pour cela, il faut dmontrer que les valeurs des transitions sont dtermines par P . Soit va fr (Pm (P ) , P ) et U le plus petit sous-ensemble de Pm (P ) tel que (xva )uU suite relle positive,(va)1 P = u 1 va xva u1 P . Supposons que l'on ait (va) P = uU xva u1 P = uU yu u1 P u uU u va va va va va va et xu0 = yu0 pour u0 U . Soit zu = (xu yu ) / yu0 xu0 dnie pour tout u U \ {u0 }. On a alors u1 P = uU \{u0 } zu u1 P . On a (va)1 P = 0 m 1 xu u1 P + (1 ) P . Lorsque = 1, tous les couU uU \{u0 } zu u ecients sont strictement positifs par hypothse. Pour = 0 il y a au moins un coecient ngatif sans quoi cela contredirait l'hypothse de minimalit. Soit 0 [0, 1] le plus petit tel que tous les coecients soient positifs. On a 0 > 0 et au moins un terme 0 xj + (1 0 ) j = 0 ce qui contredit l'hypothse de minimalit.

Entre : Un chantillon stochastique Sn de taille n. Sortie : un ensemble prxiel de mots. Q {} ; tant que sol (I (Q, Sn , n )) = et fr (Q, Pn ) = faire Q Q min fr (Q, Pn ) retourne Q

Algorithme 2 calculeEtats

Proposition 4.
renvoie

Avec une probabilit un, aprs un rang

N , l'algorithme calculeEtats

Pm (P ).

Soit U Pm (P ) alors, d'aprs la remarque 1 et le lemme 8, avec une probabilit un, il existe un entier N tel que n > N , calculeEtats(Sn ) ne renvoie pas U . D'aprs la remarque 1 et le lemme 7, il existe un entier N tel que n > N , calculeEtats(Sn ) renvoie Pm (P ).
Dmonstration.

Algorithme 3 calculeTransitions

Entre : Un ensemble prxiel Q, un chantillon stochastique Sn de taille n. Sortie : une suite (xv )(v,u)fr(Q,Pn )Q . u C = , V = , tant que V = fr (Q, Pn ) faire v = min (fr (Q, Pn ) \ V ),V V {v},U = , tant que U = Q faire u = max (Q \ U ),U U {u} Si sol (I(Q, Sn , n ) C {xv = 0}) = alors C C {xv = 0} u u fin tant que fin tant que. Si sol (I(Q, Sn , n ) C) = alors retourne (xv ) sol (I(Q, Sn , n ) C) u sinon retourne la suite identiquement nulle.

Pour prouver la convergence de calculeTransitions nous avons besoin du lemme suivant :

Lemme 9.

U U et soit C = {xv = 0 | u U } u un ensemble d'quations. On pose E = E(U, P ) et In = I(U, Sn , n ). Avec probabilit 1 partir d'un certain rang, sol (E C) = sol (In C) = .
Soit

un ensemble ni de mots, soit

Dmonstration. D'aprs le lemme 7, avec probabilit un, toute solution de E , en particulier celles qui satisfont C , est solution de In partir d'un certain rang. Cela prouve l'implication de la droite vers la gauche. Si pour tout entier N , il existe n N tel que In C ait des solutions, des arguments analogues ceux du lemme 8 montrent que E C admet aussi des solutions.

Proposition 5.
Dmonstration.

Avec probabilit un, aprs un certain rang

DEES

renvoie un

PRFA dont le support est celui du PRFA prxe rduit.

Soit T = , Pm (P ) , T , T , T le PRFA prxe rduit associ P . Alors il est clair en utilisant la proposition 4 et le lemme 9 avec probabilit 1 aprs un certain rang, l'invariant de boucle suivant est vri (dans la boucle interne) : Soit w et a tels que v = wa, pour tout u Q, tel que u max U , T (w, a, u) = 0 {xwa = 0} C . u

En particulier en sortie des deux boucles imbriques cette proprit est vraie pour tout couple de fr (Pm (P ) , P )Pm (P ) puisque Q = Pm (P ). Par construction (construit_PRFA), nous avons (wa, u) fr (Pm (P ) , P )Pm (P ), T (w, a, u) = 0 (w, a, u) ce qui par signie clairement que le support du PRFA A renvoy par DEES sera gal au support du PRFA prxe rduit qui gnre P .

Algorithme 4 construitPRFA

Entre : Un ensemble prexiel Q, un chantillon stochastique Sn de taille n, une suite (xv )(v,u)fr(Q,Pn )Q . u Sortie : un PRFA prxe A = , Q, , , . Pour tout (v, a, u) Q Q faire (v, a, u) = 0. Pour tout (v, a, va) Q Q faire (v, a, va) = v 1 Pn (a ). () = 1 Pour tout u Q faire (u) = Pn (u)/Pn (u ). Si la suite (xv ) n'est pas identiquement nulle alors u pour tout couple (va, u) fr (Q, Pn ) Q o a faire (v, a, u) = xva v 1 Pn (a ) u Fin si Si A est un PFA alors retourne A = , Q, , , sinon Soit (0)v,u la suite identiquement nulle retourne construitPRFA(Prxes (Sn ) , Sn , (0)v,u ) Fin si

5 Convergence vers le PRFA prxe rduit


Thorme 1.
probabilit de structure est convergent Soit

un langage stochastique gnrable par un PRFA, soit

le PRFA prxe rduit de

1, DEES retourne partir d'un certain rang un PRFA An dont la A. Avec probabilit 1, les valeurs portes par les transitions des An vers celles portes par les transitions de A.

et soit

S un

chantillon stochastique de P. Avec une

D'aprs la proposition 5, avec probabilit 1, il existe un N tel que n N , la suite des automates An construit par DEES possde le mme support que A. Il est clair qu'avec probabilit 1, limn v 1 Pn (a ) = v 1 P (a ) pour tout va Q. Soit v fr (Pm (P ) , P ) et v 1 P = uU xv u1 P o U est u l'ensemble des mots u Pm (P ) et tel que la contrainte {xv = 0} n'apparu tiennent pas C . Par la proposition 3, il est clair que (xv )uU est une soluu tion unique. Soit W un ensemble minimal de mots tel que (xv )uU soit aussi u l'unique solution du systme w W, v 1 P (w ) = uU xv u1 P (w ) avec u les xv 0. u
Dmonstration.

Soient les vecteurs V = v 1 P (w ) wW et X = [xv ]uU , la matrice u W = u1 P (w ) uU,wW . Il est clair que W est une matrice carre inversible et on a X = W 1 V . Soient Vn = v 1 Pn (w ) wW , Xn = [xv,n ]uU , les u matrices Wn = u1 Pn (w ) uU,wW et En des vecteurs colonnes dont tous les lments sont de valeur absolue infrieure n d'o En = O ( n ). On a avec probabilit un aprs un certain rang, Vn Wn Xn = En . Comme avec probabilit 1, limn Wn = W , et que le dterminant est une fonction continue, avec probabilit 1, il existe un rang aprs lequel Wn est inversible. On a donc : 1 1 1 1 Wn Vn Xn = Wn En d'o Wn Vn Xn Wn O ( n ). Considrons Wn = W + Un = W 1 + W 1 Un , d'o nous obtenons que 1 1 Wn = 1 + W 1 Un W 1 = 1 W 1 Un (W 1 Un )2 . . . W 1 d'o 2 1 W 1 Wn = O Un W 1 . Il est clair d'aprs la proposition 2, le lemme 5 et le lemme 6 qu'avec probabilit 1, il existe un rang aprs lequel V Vn = O ( n ) et Wn W = O ( n ). On a donc :
1 1 X Xn = W 1 V W 1 Vn + W 1 Vn Wn Vn + Wn En 1 1 W 1 V W 1 Vn + W 1 Vn Wn Vn + Wn En

1 W 1 + Vn + Wn

O ( n) = O ( n) .

5.1 Complexit
La fonction calculeEtats est une boucle dont le nombre maximal d'entres sera le nombre de prxes de mots de Sn . chaque tape, on doit rsoudre un systme d'inquations linaires ce qui est un problme polynomial dans la taille du systme, lui-mme polynomial dans la taille de Sn . La fonction calculeTransitions possde deux boucles imbriques. La taille de la frontire d'un ensemble de lettre est polynomial dans la taille de cet ensemble, or Q possde une taille polynomiale en la taille de Sn (nombre de prxes de Sn ). On entrera donc un nombre polynomial de fois l'intrieur des deux boucles. L'opration l'intrieur des deux boucles est aussi une rsolution de systme d'quations. Donc calculeTransitions est une fonction polynomiale en la taille de Sn . La fonction construitPRFA fait un test pour savoir si l'automate renvoy est un PFA. Ce test peut se raliser en temps polynomial sur le nombre d'tats [4]. Puis la construction est clairement polynomiale en fonction du nombre d'tats si le test est vrai et sinon le nombre d'oprations est polynomial dans la taille de Sn . tant donn que l'algorithme que nous avons utilis pour prouver le rsultat de convergence la limite possde une complexit plus leve que l'algorithme que nous utilisons en pratique, nous ne dtaillons pas plus sa complexit. En pratique l'utilisation de l'algorithme du simplexe nous permet de rsoudre les systmes d'inquations en temps linaire, ce qui lui donne, en moyenne, une complexit identique celle des algorithmes d'infrence de PDFAs.

6 Identication la limite de la classe des PRFAs rationnels


On veut maintenant montrer qu'il existe une mthode pour trouver la valeur exacte des transitions avec probabilit 1, si les artes portent des valeurs rationnelles. Dans [18] les auteurs utilisent une mthode base sur les arbres de Stern-Broco pour identier les transitions d'un PDFA cible. Nous utilisons ici la mthode des fractions continues.

6.1 Approximations d'un nombre rel par des fractions continues


Tout nombre rel peut tre reprsent par un dveloppement en fractions continues (tous les rsultats mentionns ci-dessous peuvent tre trouvs dans [24]). Si a0 , . . . , an sont des nombres entiers, on notera
[a0 , . . . , an ] = a0 + 1/ (a1 + 1/ ( (1/an ) )) .

Si x est un nombre rel positif, on dnit les suites (xn ) et (an ) par x0 = x, an = xn et xn+1 = 1/(xn an ), tant bien sr que ces termes sont dnis. On dnit alors deux suites (pn ) et (qn ) de nombres entiers par p0 = a0 , p1 = a1 a0 + 1, pn+2 = an+2 pn+1 + pn et q0 = 1, q1 = a1 , qn+2 = an+2 qn+1 + qn pour n 0, n tant que ces termes sont dnis. On montre facilement que [a0 , . . . , an ] = pn . q

Lemme 10.
et si

Si

est rationnel, alors il existe un entier

pour lequel

x=

pN qN

1 1 2 qn qn+1 < qn . p a a 1 a Si b est une fraction telle que b x < 2b2 , alors il existe M tel que b = q M . M Pour tout entier A et tout rationnel x, il n'existe qu'un nombre ni de rap p A tionnels q vriant x q q 2 .

n<N

alors

pn qn

Soient ( n ) une suite de rels positifs convergent vers 0, x un raune suite de rationnels vriant |x yn | n partir d'un certain pn,m rang. Soit les dveloppements de yn en fractions continues. Alors, il qn,m pn,M existe un entier N tel que pour tout n N , il existe M tel que x est gal q n,M pn,m pn,m 1 et est la seule fraction q qui vrie yn q n q2 . n,m n,m n,m tionnel,

Lemme 11.
(yn )

Dmonstration.

que x =

pn,m qn,m

1 Soit x = a , ds que n 2b2 d'aprs le lemme 10, il existe m tel b n,m 1 . D'autre part, supposons que l'on ait yn pn,m n qn,m . On 2 q n

n,m n,m en dduit que x pn,m |x yn |+ yn pn,m 2 q q

2 2 qn,m

. Il n'existe qu'un

n,m n,m nombre ni de fractions pn,m vriant cette ingalit. On a aussi x pn,m q q pn,m 1 2 n . Donc, ds que n est assez petit ( n < 2b2 ) , on a x = qn,m . Soit zn la n,m n,m premire fraction pn,m , s'il en existe, qui vrie yn pn,m q q existe un rang aprs lequel la suite (zn ) est constante gale x.

1 2 qn,m

. Il

3 , on a g3 = 1 , g4 = 1 , g5 = 10 , g6 = 1 , 6 4 3 pn,m 5 1 g7 = 14 . Le premier entier n pour lequel gn qn,m n q12 admet des solutions est n = 4. On a z4 = 1 , z5 = 1 , z6 = 1 et z7 = 1 partir de n = 7. 4 3 3 2

Exemple 3. Si gn

1 2

1 n

et

1 n

Un PRFA sera dit rationnel si le PRFA prxe rduit associ au langage stochastique qu'il gnre ne possde que des valeurs rationnelles sur les transitions.

Thorme 2.

Il existe un algorithme qui pour tout un langage stochastique

gnrable par un PRFA rationnel, avec une probabilit de prxe rduit associ Dmonstration.

1,

renvoie le PRFA

P.

On considre la fonction de transition du PRFA prxe rduit associ P et n la fonction transition renvoy par DEES l'tape n. On sait que |n (t) (t)| = O ( n ). Soit n = o ( n ) et limn = 0. On sait que |n (t) (t)| n partir d'un certain rang. Il sut alors de rechercher la n,m n,m premire fraction continue pn,m qui vrie n (t) pn,m n q12 o n (t) = q q pn,m p q et d'aprs le lemme 11, on sait qu' partir d'un certain rang on aura qn,m = (t).

7 Conclusion
Nous avons montr que l'ensemble des PRFAs paramtres rationnels sont identiables la limite avec une probabilit de 1. tant donn que les PRFAs sont plus expressifs que les PDFAs, nous pouvons esprer obtenir de meilleurs rsultats pratiques. L'algorithme est implment et des exprimentations sont en cours.

Rfrences
1. Paz, A. : Introduction to probabilistic automata. Academic Press, London (1971) 2. Casacuberta, F. : Some relations among stochastic nite state networks used in automatic speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 12 (1990) 691695 3. Abe, N., Warmuth, M. : On the computational complexity of approximating distributions by probabilistic automata. Machine Learning 9 (1992) 205260 4. Dupont, P., Denis, F., Esposito, Y. : Links between probabilistic automata and hidden markov models : probability distributions, learning models and induction algorithms. Technical Report RR 2003-02, UCL (2003) 5. Brhlin, L., Gascuel, O. : Modles de Markov cachs et apprentissage de squences. In : Le temps, l'espace et l'volutif - Ecole thmatique Document et Evolution. (2000) 6. Dempster, A., Laird, N.M., Rubin, D.B. : Maximum likelyhood from incomplete data via the em algorithm. Journal of the Royal Statistical Society 39 (1977) 138

7. Baldi, P., Brunak, S. : Bioinformatics : The Machine Learning Approach. MIT Press (1998) 8. Freitag, D., McCallum, A. : Information extraction with HMM structures learned by stochastic optimization. In : AAAI/IAAI. (2000) 584589 9. Bergadano, F., Varricchio, S. : Learning behaviors of automata from multiplicity and equivalence queries. In : Italian Conference on Algorithms and Complexity. (1994) 10. Beimel, A., Bergadano, F., Bshouty, N.H., Kushilevitz, E., Varricchio, S. : On the applications of multiplicity automata in learning. In : IEEE Symposium on Foundations of Computer Science. (1996) 349358 11. Beimel, A., Bergadano, F., Bshouty, N.H., Kushilevitz, E., Varricchio, S. : Learning functions represented as multiplicity automata. Journal of the ACM 47 (2000) 506530 12. Valiant, L. : A theory of the learnable. Commun. ACM
27

(1984) 11341142

13. Angluin, D. : Learning regular sets from queries and counterexamples. Information and Computation 75 (1987) 87106 14. Goldman, S.A., Mathias, H.D. : Teaching a smarter learner. Journal of Computer and System Sciences 52 (1996) 255267 15. de la Higuera, C. : Characteristic sets for polynomial grammatical inference. Machine Learning 27 (1997) 125137 16. Carrasco, R., Oncina, J. : Learning stochastic regular grammars by means of a state merging method. In : International Conference on Grammatical Inference, Heidelberg, Springer-Verlag (1994) 139152 17. Carrasco, R.C., Oncina, J. : Learning deterministic regular grammars from stochastic samples in polynomial time. RAIRO (Theoretical Informatics and Applications) 33 (1999) 120 18. de la Higuera, C., Thollard, F. : Identication in the limit with probability one of stochastic deterministic nite automata. Volume 1891 of Lecture Notes in Articial Intelligence., Springer (2000) 141156 19. Esposito, Y., Lemay, A., Denis, F., Dupont, P. : Learning probabilistic residual nite state automata. In : ICGI'2002, 6th International Colloquium on Grammatical Inference. LNAI, Springer Verlag (2002) 20. Denis, F., Lemay, A., Terlutte, A. : Residual Finite State Automata. Fundamenta Informaticae 51 (2002) 339368 21. Denis, F., Esposito, Y. : Residual languages and probabilistic automata. In : to appear in Proceedings of ICALP2003. (2003) 22. Vapnik, V.N. : Statistical Learning Theory. John Wiley (1998) 23. Lugosi, G. : Pattern classication and learning theory. In : Principles of Nonparametric Learning. Springer (2002) 156 24. Hardy, G.H., Wright, E.M. : An introduction to the theory of numbers. Oxford University Press (1979)