Vous êtes sur la page 1sur 4

Search as you speak. Un web per tutte le lingue?

S, secondo i ricercatori italiani


di Gioia Pistola Quando ha parlato di universalit, Tim Berners Lee intendeva che non deve esistere discriminazione (in rete) tra documenti prodotti in diversi contesti culturali o di taglio estetico differente. Nove anni dopo l'articolo scientifico del teorizzatore del web semantico e del web per come lo conosciamo oggi, arrivata la candidatura di internet a premio Nobel per la pace, sottrattogli da Obama. Due candidature fondate sulla fiducia e sulla potenza. Quindi sulla virt. Sorpassando il digital divide, l'open data divide, il media literacy divide e tutte le nuove classificazioni sociali che emergono di pari passo a nuovi paradigmi tecno-sociali, si arriva infatti a una rift valley che pu penetrare lo scudo di fiducia dell'internet. Le lingue utilizzate per creare pagine web, utilizzare le e-mail, creare file video e audio o chattare sono molteplici, ma le percentuali di utilizzo non rispecchiano quelle reali delle appartenenze nazionali. Cos come la scarsa presenza di contenuti in lingue di derivazione non latina o non alfabetiche diminuisce la possibilit di coinvolgimento strutturato e continuo degli individui di una determinata lingua e amplifica la marginalizzazione dei contenuti minoritari. Se i paesi che detengono degli standard di sviluppo tecnologico pi avanzati, dei laboratori migliori, non sono disposti a cedere democraticamente alla aree meno evolute il loro enorme vantaggio economico e poi di influenza politica e sociale, possono forse contribuire in modo determinante a plasmare tecnologie a favore di gruppi minoritari. quello che sta facendo, e che continuer a fare ancora, un laboratorio di ricerca Made in Italy nel campo della semantica. Si tratta del dipartimento di informatica dalla Universit Sapienza di Roma, nei suoi lab dedicati al NLP (Natural Language Processing). Per capire che si tratta di un primato italiano nel campo della semantica basta guardare la quota di finanziamento ottenuto dall'Europa, nell'ambito del Settimo Programma quadro per la ricerca e lo sviluppo tecnologico: un milione e trecentomila euro sono stati affidati al team guidato da Roberto Navigli, giovane ricercatore che ha ottenuto una cifra che supera di circa 3 volte il finanziamento PRIN del Ministero dell'Universit e della Ricerca nel 2010 destinato a progetti di ricerca nel campo informatico. Perch solo fondi europei? - E' la prima cosa che chiedo al professore nel nostro incontro in una piccola stanza della sede a Roma, in via Salaria, aspettandomi gi la risposta, che arriva spietata in dieci parole. Farsi finanziare dal Ministero dell'Istruzione e della Ricerca in Italia significa sottoporre un progetto, attendere due anni, ingaggiare collaboratori e non poterli retribuire, o non poter coprire le borse. D'altronde, attendere certezze significa far trascorrere dai due ai 3 anni, che sul web valgono 10-15 anni nel mondo off-line. Focus della ricerca di Roberto Navigli la multiingualit, che si traduce nella disambiguazione dei significati, nella traduzione efficace in diverse lingue, per rendere una ricerca sul web indipendente dall'idioma utilizzato. Wikipedia disponibile in 250 lingue spiega Navigli - ma nel mondo si stima vi siano circa 7000 lingue diverse. La tecnologia e le innovazioni come Wikipedia giocano un ruolo importante in questa battaglia di

conservazione. Questo significa che c' ancora molto lavoro da fare. Nonostante le 250 lingue di Wikipedia siano un grande risultato da cui il team di ricerca partir per implementare e testare il proprio progetto, questo numero rappresenta solamente una piccola parte delle lingue del mondo, met delle quali stanno scomparendo ad una velocit allarmante. La gestione automatica della multilingualit non definita solo dal tentativo di prendere in esame una determinata parola e trovare un corrispondente nella lingua di destinazione, ma richiede di verificare tale corrispondenza sia sul piano del significato, sia del lessico: occorre preservare il significato originale, ma questo reso pi efficacemente anche tramite attente scelte lessicali, tenendo conto del contesto in cui quella data parola espressa e delle conoscenze pregresse. I paesi in cui Internet si diffuso tardi stanno cominciando adesso ad allargare il proprio bacino di utenti e questo fa pensare che il divario possa, lentamente, essere riassorbito. Lo scetticismo per dobbligo, vista la scarsa presa di politiche planetarie sebbene le varie organizzazioni dellONU sollecitano invano da qualche decennio. Ad attrarre e a sedurre l'Europa stato soprattutto l'impatto socio-politico che la ricerca italiana promette di avere. Gran parte dei contenuti presenti sul web sono creati nelle aree di maggiore sviluppo economico del nostro pianeta, e sono paesi anglofoni, ricorda il ricercatore, facendo intuire come non valorizzare lingue minori si traduca non solo in un non-intervento, ma nell'incoraggiamento di un colonialismo virtuale gi in atto. "Il Bengali al settimo posto nel mondo per numero di parlanti nativi. Tuttavia, in quanto paese in via di sviluppo [Bangladesh], siamo molto indietro rispetto ad altre nazioni a causa dell'enorme digital divide - afferma Belayet Hossain, uno dei contributori Wikipedia in Bengali. Wikipedia in Bengali il maggior sito nella nostra lingua. Il progetto una fonte di informazione che pu aiutare i milioni di bambini dei villaggi poveri, che non possono permettersi nemmeno un singolo volume di un'enciclopedia cartacea. magnifico vedere la mia lingua madre nel regno digitale". David Harrison, co-fondatore del "Living Tongues Institute for Endangered Languages" e uno dei principali linguisti del mondo, ritiene che molti bambini che sono bilingue nativi abbandonano la lingua che parlano a casa perch non la trovano compatibile con il mondo moderno. il caso, ad esempio, di un bambino che parla Maya a casa e ha a che fare con lo spagnolo il resto del giorno. Di conseguenza, pensa che se sono solo i suoi genitori a parlare la lingua Maya, questa sia una lingua minore, e la lingua che vede di fuori, nel mondo, sia la lingua universale. Pensa che quella sia il futuro. Il modo per reagire fargli vedere la lingua nativa dentro un mezzo di comunicazione high-tech, come Wikipedia". Nellambito di applicazioni semantiche come quella del team della Sapienza, si pu intendere la multilingualit un settore inserito in fenomeni di integrazione tra culture a livello globale (di cui Internet potrebbe costituire un esempio), la cui gestione automatica rappresenta un fattore chiave primario per l'universalit del web. Il riconoscimento e l'entusiasmo dell'Europa per questo progetto italiano ha aperto ai ricercatori anche una via preferenziale per Mountain View. Paola Verardi e Roberto Navigli sono stati infatti invitati poche settimane fa all'EMEA Faculty Summit parte del programma di Google per le universit, che si svolge annualmente nell'engineering headquarters a Zurigo per mettere insieme ricercatori e mondo accademico proveniente dallEuropa, Medio Oriente e Africa, per cercare spunti di collaborazione tra i team accademici. una

opportunit che Google si riserva per discutere e studiare gli ultimi trends, le tecnologie, attivare connessioni con i suoi programmi accademici. ancora presto - dicono i ricercatori - per capire se ci potranno essere spunti pi concreti di collaborazione, ma di certo la squadra italiana ha un avuto un ottimo risalto all'evento. Su 30 delegati, infatti, 4 provenivano dall'accademia italiana, tra cui presenti anche Alessandro Moschetti, Universit di Trento e Giuseppe Attardi dell'Universit di Pisa. Il Dipartimento di Ingegneria Informatica e Scienze dellInformazione (DISI) di Trento risulta infatti essere leader nella progettazione di sistemi di apprendimento automatico per lelaborazione del linguaggio naturale. Ha sviluppato tecniche innovative di apprendimento automatico (Kernel Methods e Support Vector Machines) e di elaborazione del linguaggio naturale basate su rappresentazioni sintattiche e semantiche del testo, collaborando con progetti oversea come quello della macchina Watson di IBM. Insieme allUniversit di Trento sono coinvolti in questo importante progetto il Massachusetts Institute of Technology (MIT), la University of Texas, la University of Southern California (USC) e la Carnegie Mellon University per lo sviluppo di unarchitettura aperta prima nel suo genere, in modo da consentire a tutti i ricercatori di collaborare al meglio sulle tecnologie di Question Answering di base e quindi di applicare i risultati al sistema Watson IBM.

La torre di Babele Minujn Marta stata costruita con i libri di tutto il mondo nella Plaza San Martin e ha aperto al pubblico il 12 maggio 2011 a Bueno Aires.