Vous êtes sur la page 1sur 151

Cmo funciona la Web

CentrodeInvestigacindelaWeb DepartamentodeCienciasdelaComputacin UniversidaddeChile CIWesunNcleoCientficoMilenio

2008CentrodeInvestigacindelaWeb,todoslosderechosreservados. RegistrodePropiedadIntelectualNmero169174,Chile ISBN:9789563192251 PublicacinAutoeditada. PrimeraEdicin,Junio2008. SantiagodeChile. EditorGeneral:ClaudioGutirrezGallardo. Distribucingratuitadeejemplaresimpresosparacolegiosyuniversidadeschilenos. Distribucingratuitadeversindigitalatravsdewww.ciw.cl GrficodelaPortada:EduardoGraells,enCaractersticasdelaWebChilena,estudio dirigidoporRicardoBaezaYatesdesde2001. DiseodePortada:JavierVelascoM. DiseoInterior:MauricioMonsalveM. ImpresoenGrficaLOM.

ndice
Introduccin.............................................................................................................1 LosAutores..............................................................................................................5 Captulo1 LaWebcomoespaciodeinformacinuniversal................................................9 Defuentesaisladasaredesdeinformacin................................................10 LasbaseslgicasdelaWeb...........................................................................12 LafilosofadelaWebcomoespaciodeinformacin:laW3C..................14 LaWebSemntica...........................................................................................16 ElFuturodelaWeb.........................................................................................20 Captulo2 AnatomadelaWeb.............................................................................................23 Introduccin.....................................................................................................23 ConceptosBsicos...........................................................................................24 CaracterizandolaWeb....................................................................................29 Captulo3 Internet....................................................................................................................43 EldesarrollodeInternet.................................................................................43 Arquitectura.....................................................................................................45 ElgobiernodeInternet...................................................................................49 Captulo4 BuscandoenlaWeb..............................................................................................51 Crawling:qupginasdeberaconocerunbuscador?............................53 Indexamiento:qudeberaalmacenarsedelaspginas?........................55 Bsqueda:qupreguntasdeberaresponder,ycmo?...........................56 InteraccinconelUsuario:cmopresentarlainformacin?..................59

Captulo5 ManejodegrandesvolmenesdeinformacinutilizandoClustersdecom putadores................................................................................................................63 MquinasdebsquedayClusters................................................................65 RecoleccindepginasWebyClusters.......................................................69 Captulo6 XML:TransformandolaWebenunaBasedeDatos.......................................75 XML:Unlenguajeparaalmacenarinformacin.........................................78 TransformacindedocumentosXML..........................................................80 ExtraccindeinformacindesdeXML........................................................85 Pararecordar....................................................................................................89 Captulo7 UsoyBsquedadeInformacinGeogrficaenlaWeb.................................93 CuleseltipodeinformacingeogrficaenlaWeb?............................94 Servicioswebdeinformacingeogrfica...................................................97 MquinasdebsquedaWebgeogrfica.....................................................99 Captulo8 MultimediaenlaWeb.......................................................................................103 EluniversocrecientedelainformacinmutimedialenlaWeb............103 Indexacinautomatizadadelainformacinmultimedial.....................106 BsquedaoRecuperacindeinformacinmultimedial........................108 Captulo9 RedesSociales.....................................................................................................113 AnlisisdeRedesSociales...........................................................................113 RedesSocialesySoftware...........................................................................116 SitiosyAplicacionesMencionados............................................................122 Captulo10 ClasificacinyFiltradodeInformacinenlaWebViva...........................127 SindicacindeContenido............................................................................128 CanalesyAgregadoresdeRSS....................................................................130

FiltradoyClasificacindeInformacin.....................................................131 LosPrimerosFiltrosAutomticos...............................................................132 FiltrosqueAprendenyseAdaptan............................................................134 FiltradoColaborativo....................................................................................136 ElRoldelosTags...........................................................................................138 Conclusin......................................................................................................139

Introduccin
Ellibroqueellectortieneensusmanosesproductodelaexperiencia delequipodecientficosquetrabajaenelCentrodeInvestigacindelaWeb. Hemosqueridoexponeralgranpbliconosloloquehacemos,sinosobre todo,cmofuncionaeseproductotanpropiodenuestrostiemposqueesla Web.Estelibropretende,aniveldedivulgacin,daraconocerlasdiferentes facetasqueestndetrsdelfuncionamientodelaWeb. Comenzamosconlacuestinbsica:QueslaWeb?Enelcaptulo1el profesorClaudioGutirrezdesarrollaunarespuestaaestapreguntapartien dodelasideasdeloscreadoresdelaWeb,quienespensaronlaWebcomo ungigantescoespaciodeinformacinuniversal,unasuertedebibliotecain finita. Laspreguntasinmediatasquesiguenalaanteriorson:Questructura hatomadoesteespacio?Cmoestorganizado?Cmoesusadohoyporla gente?Estayotraspreguntas,juntoconelanlisisdelaWebchilena,lasres pondeelprofesorRicardoBaezaenelcaptulo2. LaWebesunespaciolgicoqueestconstruidosobreunsoporteesen cial: la red de comunicaciones conocida como Internet. El lector probablementehabr escuchadousarestasdospalabrasenformaintercam biable.Enelcaptulo3,elprofesorJosMiguelPiquerexponelaevoluciny desarrollodeInternet.Estagigantescaredmundialdecomunicacionestiene protocolosparticularesy...ungobierno!

Introduccin Yafamiliarizados conInternet,laWeb ysus estructuras,pasamos a ocuparnosdeunodelostemasfundamentalesalhablardelaWeb:cmo buscar enella?ElprofesorGonzalo Navarroenelcaptulo 4nosexplica cmoesposiblequeunbuscadorencuentreycategoricelainformacin dispersaencasiinfinitossitiosenlaWeb.Ydepasonosdaalgunasindica cionesdecmopresentarestainformacinalusuario.Enlamismalnea,el profesorMauricioMarnenelcaptulo5nosdesvelalasestructurascompu tacionalesnecesariasparadesarrollarestasbsquedas,asaber,losclusters decomputadores. ntimamenteligadaconlabsquedadeinformacinest laestructura quelainformacindebeposeer.ElprofesorMarceloArenasnosintroduce enelcaptulo6enelmodernolenguajepararepresentarinformacin:eles tndar conocido como XML. Adentrndose algo en detalles tcnicos, nos explicaquesesteformato,cmoseusa,ycmoseextraeinformacindel. Peronoslodetextoviveelhumano.Escadavezmscomnmanejar otrostiposdeinformacin.LaprofesoraAndreaRodrgueznosexplicaenel captulo7cmosepresentalainformacingeogrficaenlaWebycmose latrataactualmente.Enelcaptulo8,elprofesorJavierRuizdelSolarnosin troduceelmundodelainformacinmultimedialenlaWeb,unfenmenode crucialimportanciaactualmente. Por ltimo,loscaptulos9y10estndedicadosafenmenosrecientes eneldesarrollodelaWeb.ElinvestigadorJavierVelasconospresentael temadelasredessociales,cmostashanpermeadolaWebysehantrans formadoenunadesusaplicacionesestrella.Porotrolado,elprofesorCarlos HurtadonosmuestralaWebviva,esdecir,aquellaquecambiacontinua mente,dondejuegaunrolimportantelasuscripcinacontenidos,elfiltrado automticoyeletiquetadodecontenidos.

Introduccin Esperamoshabercubiertolosprincipalesaspectostcnicosdeestegran fenmenoqueeslaWeb.Hemosintentadomantenernosenunlenguajeno tcnico,aunquepreciso.Paraaquellosquequierenseguirinformndose,co nociendoyestudiandoestostemas,hemosincluidoalfinaldecadacaptulo unabibliografasobrecadatema. AgradecemosalaIniciativaCientficaMileniolaposibilidaddepoder llegaraunpblicomsamplioqueelquehabitualmentetratamos(nuestros alumnos,colegasinvestigadores)yojal algnjovenmotivadoporalguna delasideasaqupresentadasseinclineporinvestigarsobrelaWeb.Conello habremoscolmadonuestrasexpectativas. GonzaloNavarro DirectordelCentrodeInvestigacindelaWeb Santiago,Chile,Abril2008.

LosAutores
MarceloArenasesprofesorauxiliardelDepartamentodeCienciadela ComputacindelaPontificiaUniversidadCatlicadeChile.Obtuvolosgra dos de Licenciado en Matemticas (1997), Magster en Ciencias de la Ingeniera(1998)yelttulodeIngenieroCivildeIndustriasconMencinen Computacin(1998)delaPontificiaUniversidadCatlicadeChile;yelgra dodeDoctorenCienciadelaComputacindelaUniversidaddeToronto, Canad(2005).Suinvestigacinhaestadoenfocadaadistintosaspectosdela Web,talescomoeldesarrollodemetodologasparamejorareldiseodelas basesdedatosXML,eldesarrollodeunaarquitecturaparaelintercambiode informacinXMLylaconstruccindelenguajesdeconsultaparalaWebSe mntica. RicardoBaezaYatesesdirectordeYahoo!ResearchBarcelona,Espaa yYahoo!ResearchLatinAmericaenSantiago,Chile.Hasta2005fuedirector delCentrodeInvestigacindelaWebdelDepartamentodeCienciasdela ComputacindelaEscueladeIngenieradelaUniversidaddeChile,ycate drticoICREAenelDepartamentodeTecnologadelaUniversitatPompeu Fabra en Barcelona, Espaa. Mantiene vnculos con ambas universidades comoprofesorjornadaparcial.Susintereseseninvestigacinincluyenalgo ritmosyestructurasdedatos,recuperacindeinformacin,mineradela Web,basesdedatosdetextoeimgenes,yvisualizacindesoftwareybases dedatos. ClaudioGutirrezesprofesorasociadodelDepartamentodeCiencias delaComputacindelaUniversidaddeChile.ObtuvolaLicenciaturaen 5

LosAutores Matemticasenlamismauniversidad,MagsterenLgicamatemticaenla P.UniversidadCatlicadeChile,yPh.D.enComputerScienceenWesleyan University,EE.UU.Sureadeinvestigacineslalgicaaplicadaalacompu tacin, bases de datos y Web Semntica. Ha obtenido premios al mejor artculoenconferenciasdelaWebSemnticalosaos2005,2006y2007.Ac tualmenteesinvestigadorasociadodelCentrodeInvestigacindelaWeb. CarlosHurtadoesdoctorenCienciasdelaComputacindelaUniver sidaddeToronto;IngenieroCivilyMagsterenCienciasdelaIngenierade laUniversidadCatlicadeChile.EsprofesordelDepartamentodeCiencias delaComputacindelaUniversidaddeChile,dondedictacursosydesa rrollainvestigacinenlas reasdebasesdedatos,inteligenciaartificialy mineradedatos.SehadesempeadocomoinvestigadorasociadodelCen trodeInvestigacindelaWeb,delLondonKnowledgeLabydelBirkbeck CollegedelaUniversidaddeLondres.Essocioymiembrodelequipodede sarrollodeorbitando.com. MauricioMarn esinvestigadorenelCentrodeInvestigacindeYa hoo! de Santiago de Chile, e investigador asociado en el Centro de InvestigacindelaWebdelaUniversidaddeChile.Anteriormentefuepro fesortitulardelaUniversidaddeMagallanes,Chile.ObtuvounaMaestra enCienciasdelaComputacinenlaUniversidaddeChileyDoctoradoenla UniversidaddeOxford,Inglaterra.Susreasdeinterseninvestigacinson: procesamientoparaleloydistribuidodelainformacinconaplicacionesen mquinasdebsquedaparalaWeb.ActualmenteesPresidentedelaSocie dadChilenadeCienciadelaComputacin. GonzaloNavarroobtuvosuDoctoradoenCienciasMencinComputa cinenlaUniversidaddeChile(1998).Actualmenteesprofesortitulary directordelDepartamentodeCienciasdelaComputacindelamismaUni versidad.Hadirigidodiversosproyectosdeinvestigacinyhoyesdirector 6

LosAutores delNcleoMilenioCentrodeInvestigacindelaWeb.Sus reasdeinters sonalgoritmosyestructurasdedatos,basesdedatostextuales,compresin, ybsquedaaproximada.Escoautordeunlibrosobrebsquedaentextoy demsde200artculoscientficos. Jos M.PiqueresprofesorasociadodelDepartamentodeCienciasde laComputacindelaUniversidaddeChile,ydirectortcnicodeNICChile. ActualmentedirigeellaboratoriodeinvestigacindeNICChile(NIClabs), dondesedesarrollanproyectosdecooperacinconlaindustria(EntelPCSy SixLabs)sobreredesavanzadascomomultimediamvil,IPv6,IMSyredes desensores.ObtuvounMagsterenCiencias,mencinComputacinenla Universidad de Chile (1986), y un Doctorado en Computacin en l'cole PolytechniquedePars(1991).Esautordemsde30publicacionesinterna cionales. M.AndreaRodrguezTastetstieneunMaster(1997)yunPh.D.(2000) enIngenierayCienciasdelaInformacinEspacialdelaUniversidadde Maine,EE.UU.ActualmenteesprofesoraasociadaenelDepartamentode IngenieraInformticayCienciasdelaComputacindelaUniversidadde Concepcin e investigadora asociada en el Centro de Investigacin de la WebdelaUniversidaddeChile.Andreaharealizadotrabajosenelreade recuperacindeinformacinbasadaencontenidogeoespacial,accesoein dexacindeinformacinespaciotemporaleintegracinsemnticadedatos heterogneos. JavierRuizdelSolaresprofesorasociadodelDepartamentodeInge nieraElctricadelaUniversidaddeChile.ObtuvoelttulodeIngeniero CivilElectrnicoyelgradodeMagsterenIngenieraElectrnicadelaUni versidadTcnicaFedericoSantaMara,yelgradodeDoctorenIngeniera delaUniversidadTcnicadeBerln,Alemania.Sus reasdeinvestigacin incluyenvisincomputacional,robticamvilybsquedaautomatizadade 7

LosAutores informacinmultimedialenlaWeb.Haobtenidopremiosalmejorartculoy alainnovacinenloseventosderobticamvilRoboCup2004y2007.Ac tualmenteesinvestigadorasociadodelCentrodeInvestigacindelaWeb, directordelLaboratoriodeRobticadelaUniversidaddeChileyconferen cistadistinguidodelaSociedaddeRobticayAutomatizacindelIEEE. JavierVelasco,comunicadorsocial,esunodelospionerosenelcampo delaArquitecturadeInformacinenChiledesde2000.Hatrabajadoenim portantesproyectosWebenChileylosEstadosUnidos.Tambinhasido profesoradjuntoenlaUniversidaddeMaine,USA,yeditoradministrativo enlarevistaBoxesandArrows.Desde2003integrapartedelequipoCIW, dondeofrececursosyconsultorasenestamateria,ydesde2006formaparte dellaboratoriodeYahoo!ResearchenSantiago.Sutrabajoseenfocaeneldi seodeexperienciadeusuarioensistemasdeinformacin,loqueincluye arquitecturadeinformacin,usabilidad,diseodeinteraccin,diseodein terfaces,diseodeinformacinyestrategiaenproyectosWeb.

Captulo1 LaWebcomoespaciode informacinuniversal


ClaudioGutirrez Todoestaraensusciegosvolmenes.Todo:lahistoriami nuciosadelporvenir,LosegipciosdeEsquilo,elnmeropreci sodevecesquelasaguasdelGangeshanreflejadoelvuelo deunhalcn,elsecretoyverdaderonombredeRoma,laen ciclopediaquehubieraedificadoNovalis,missueosyentre sueosenelalbadelcatorcedeagostode1934,lademostra cindelteoremadePierreFermat,losnoescritoscaptulos deEdwinDrood,esosmismoscaptulostraducidosalidioma quehablaronlosgaramantas,lasparadojasdeBerkeleyacer cadeltiempoyquenopublic,loslibrosdehierrodeUri zen,lasprematurasepifanasdeStephenDedalusqueantes de un ciclo de mil aos nada querran decir, el evangelio gnsticodeBaslides,elcantarquecantaronlassirenas,elca tlogofieldelaBiblioteca,lademostracindelafalaciade esecatlogo.Todo,... J.L.Borges,LaBibliotecaTotal.

Captulo1LaWebcomoespaciodeinformacinuniversal Elsueodelabibliotecainfinitasehahechorealidad:laWebhoycon tieneloqueso Borgesybastantems.Dehecho,seestimaquelapieza promediodeinformacinenlaWebhoydanuncaservistamsqueporsu productorysusamigoscercanos,yunonopuedevermsqueunporcentaje minimaldeloqueestpublicado. Cmoselogrestafantsticabibliotecainfinita?Enestebrevecaptulo revisaremoslosfundamentosconceptualesytcnicosqueestnenlabasede laWeb,ydiscutiremossusalcancesylimitaciones. EscomnquelostrminosWeb, RedeInternetseusenintercambiable mente. Desde el punto de vista tcnico son objetos completamente diferentes.Internethacereferenciaalaredfsicaqueconectadiferentescom putadoresylugares.Suspreocupacionessonprotocolosdetransmisinde datos(TCPIP),manejodenombresdedominio,etc.yquelotratamosende talleenel captulo3.LaWebhacereferenciaalaarquitecturalgicadela informacinquehasidoposibleconstruirsobreesaredfsica.Confundirlos escomoconfundirelcerebro(unaredneuronal)conelconocimientoquepo seeunapersona.Todostenemoscasielmismomaterialcerebral,perolos conocimientosylainformacinquecadaunoposeedifierenvastamente.

Defuentesaisladasaredesde informacin
Laevolucindelprocesamientodeinformacinhaidodesdeunidades aisladashastaunainterconexinmundialhoydaatravsdelaWeb. Probablementelamejormetforaseadenuevoladeunabiblioteca.All hayinformacinrestringidaallugarfsicodondefunciona.Porunmomento olvidemosloscatlogosglobales(productosdelaWebtambin!),ypense 10

Captulo1LaWebcomoespaciodeinformacinuniversal moscmohace50aosalguienbuscabainformacin.Debarecorrerbiblio tecaporbiblioteca,ycorrelacionarocompararlainformacinamano.Por ejemplo,determinarlosttulosdelibrosqueestudianlavidadeAndrsBe llo.Nopodanavegaratravsdelaimagenvirtualdetodosloslibrosde todaslasbibliotecasdelmundojuntas.Sinembargo,laWebhizoposibleesa realidad. Eldesarrollodelatecnologacomputacionalhasidoclaveenestepro ceso. Los computadores en sus inicios eran gigantescos armatostes que ocupabanpisosenterosdeedificios,centrosdeprocesamientodeinforma cin.Lagente,tcnicos,usuarios,etc.girabaentornoaellos.Laconexin entredosdeestosgigantescosaparatoseraescasaonula.Coneladveni mientodeloscomputadorespersonales,lleg tambinlaideadequecada usuarioposeedordeunPCpudieraconectarseconotroscercanos.Nacie ronlasredeslocales.Deestaideahayunpasoapensarunaredmsgrande, yfinalmenteunaredglobal.Yconesto,apareceelproblemadecmoco ordinar, integrar la informacin que est en cada uno de los nodos (computadores)deestagigantescared. Acomienzosdelosnoventa,TimBernersLee[1]tuvounaideagenial: disearestesistemaglobaldeinformacindetalformaquecadausuarioen unnodopudieranavegarporelrestodeformatotalmenteautomtica,esde cir, sin tener idea de cmo funciona el sistema del otro, qu sistema operativotiene,qu lenguajesdeprogramacinusa,qu aplicacionescorre. SuexperienciaenelCERN(verfigura1.1)fuelagatilladoradeestasimple idea,queeselorigendelaWeb.EnpalabrasdeBernersLee:Elconceptode laWebintegr muchossistemasdeinformacindiferentes,pormediodela formacindeunespacioimaginarioabstractoenelcuallasdiferenciasentre ellosnoexistan.LaWebtenaqueincluirtodalainformacindecualquier tipoencualquiersistema.

11

Captulo1LaWebcomoespaciodeinformacinuniversal

Figura 1.1: La Propuesta Original de la Web en el CERN [2]

Esas comolaWebeshoyungranespaciodeinformacinuniversal, unavitrinadeaccesoacasiexcluimosladeorganizacionescomoelPent gono,etc.todalainformacinexistenteenelmundohoyenda.

LasbaseslgicasdelaWeb
Desdeelpuntodevistatcnico,lostrespilaresbsicossobrelosquese sustentalaarquitecturalgicadelaWebson:

12

Captulo1LaWebcomoespaciodeinformacinuniversal 1. Identificadoresnicos(URI):enunmundoideal,lasuposicinb sicanecesariaparapoderreferirse(referenciar)yhablarde(describir) todoslosobjetos,esque stostengansunombrepropio,queentr minos tcnicos se llama identificador. En la Web estos nombres propiossellaman IdentificadoresUniversalesdeRecursos (URIporsus siglasinglesas). UnaversinmselementaldeURIeslaURL(Localizadoruniversal derecursos),quecorrespondeaunadireccinenlaWeb.Ladireccin esunadelasformasdeidentificarunobjeto,peroesbuenosealar quelanocindeidentificadoresmsampliaqueladedireccin,por ejemplopararecursosmvilesquenotienendireccinfija. 2. Lenguaje universal para describir HTML: Otra suposicin bsica paralacomunicacinuniversalesunlenguaje nico,entendiblepor todos.TimBernersLeedise ellenguajeHTML(siglasdelingls HyperTextMarkupLanguage,queasuscaractersticasdesimplicidad deuso,sumaunacaractersticaclave:elserunlenguajede hipertexto, esdecir,quetieneunformadeanclaroredirigirallectordesdeun puntocualquieradeltextoaotrolugar.Estossonlosfamososlinkso enlacesenlaWeb. 3. ProtocolodetransmisindedatosHTTP:Desdeunpuntodevista mstcnico,unonecesitaunprotocoloquepermitaenviarytraerin formacinenHTMLdesdeunlugar(sitio)aotroenestagigantesca redqueeslaWeb. ElprotocoloHTTP(sigladelinglsHyperTextTransferProtocol) tienevariascaractersticasdistintivasquelohanhechomuyperdu rable. HTTP es un protocolo de transmisin entre clientes y servidores.Elcliente,quepuedeserunbrowser,unagente,ocual 13

Captulo1LaWebcomoespaciodeinformacinuniversal quierherramienta.Elservidoreselquealmacenaocrearecursos comoarchivosHTML,imgenes,etc.Entreellospuedehabervarios intermediarios,comoproxies,gatewaysytneles.Atravsdeins truccionessimples,peropoderosas,elclienteindicaalservidorqu accionesrealizarpararecibiroentregardatos.Vermsdetallesen captulo3.

LafilosofadelaWebcomoespaciode informacin:laW3C
LaWebfuecreadaconunaciertafilosofa,unaposicindeprincipios frentealosdesarrollosquesevenandandoenmateriadepublicaciones,de desarrollo de software,dederechosdeautoryde difusin. Estafilosofa puederesumirseentresprincipiosbsicos:todospuedenpublicar,todospueden leer,nadiedeberestringir. Cmolograrestotcnicamente?Enestadireccin,secreelConsorcio delaWeb(W3C),unaorganizacininternacionalquesepropusocomosus dosobjetivosprimordialeselimpulsarlainteroperabilidadyevolutividaddela recientementecreadareduniversaldeinformacin.Paraestosecomenzaron agenerarestndaresyprotocolos.Qu significanestosdosrequerimientos enmsdetalle?Enunfamosoartculo, ExplorandolaUniversalidad [3],Tim BernersLeedesglosabasusaspectosbsicos:
IndependenciadeDispositivo.Lamismainformacindebeserac cesibledesdediversosdispositivos.Estosignifica,porejemplo,que lavisualizacindebetenerestndaresquepermitanaccederalain formacindesdecasicualquierformatodepantallayaudio.Unade

14

Captulo1LaWebcomoespaciodeinformacinuniversal lasbasesparaimplementarestadesiderataeslaseparacindeconte nidoyformaenlainformacin. IndependenciadeSoftware.Haymuchosydiversosprogramasde software que se usan. Ninguno debe ser crtico para el funciona mientodelaWeb.Eldesarrollodescentralizadodelsoftwarehasido claveparasucrecimiento.Adems,temanomenor,estepostulado previenequelaWebmismacaigabajoelcontroldeunacomunidad dadaoalgngobiernousandoelcontroldelsoftware.
Internacionalizacin.Desdesusinicios,laWebnohaestadocar gadaaningnpas.ConlaintroduccindeUNICODE,la ltima barreraquecargabasudesarrollohacialoslenguajesoccidentalesha sidobarrida.(LadiferenciaclaveentreelviejoHTMLyelnuevoes tndarXHTML,apartedemejorastcnicasrelacionadasconXML,es queXHTMLestbasadoenUNICODE.)

Multimedia.Losformatosdisponiblesparapublicardebenestar abiertosatodaslasfacetasdelacreatividadhumanacapacesdere presentar.Enestesentido,soportarmultimedianorepresentaslo unpardeavancestecnolgicos,sinounafilosofadedesarrollodela Web.

Accesibilidad.Lagentedifiereenmltiplescosas,enparticular, ensuscapacidades.LauniversalidaddelaWebdebepermitirque ellaseausadaporlagenteindependientementedesusdiscapacida des. De nuevo aqu la separacin de contenido y forma de la informacinesunpilarbsico.
Ritmoyrazn. ComodiceTBL,lainformacinvaradesdeun poemahastaunatablaenunabasededatos.Elbalanceentreproce samientoautomticoyhumanodebeestarpresente.Porunlado,por

15

Captulo1LaWebcomoespaciodeinformacinuniversal lascantidadesytipodeinformacinactualmentedisponibleesim pensable que sta sea procesada slo por seres humanos: se necesitanagentesautomticos.Porotraparte,esabsurdopensarque enalgnmomentoloshumanossernprescindibleseneldesarrollo yenriquecimientodelaWeb.Hayquebuscar losjustostrminos paracadaaplicacin. Calidad.Lasnocionesdecalidadsonsubjetivasehistricas.Por elloesimpensablequealgnda toda lainformacinvayaaserde calidad.Aquhayotrocompromiso,yesquelatecnologadelaWeb debepermitirnosnavegaryvivirentreinformacincondiferentes nivelesdecalidad.

Independenciadeescala.Laarmonaagranescalasuponearmo naensuscomponentes.LaWebdebesoportargrandesypequeos grupos.Debepermitirquelaprivacidaddelainformacindeindivi duosygrupospuedasernegociadaporellosmismos,ypermitirque cadagruposesientaseguroenelcontroldesuespacio.Hayquelo grarunbalanceentreungigantemonolticoyunadiversidadque puedallevaralaislamientocompletodecadauno.

LaWebSemntica
UnodelosproblemasmsimportantesqueaparececonlaWebeselde determinarqu significacadadatoqueest enlaWeb.Esprcticamente imposibleparaunusuariochilenoentenderunapginaenchinootailands. Yviceversa.Elproblemaesanmsdramtico:esmuydifcilparaunhu manoencontrarlainformacinquenecesita.Losbuscadoresfuncionande manerapuramentesintctica,esdecir,noentiendenlaspalabras.Qu hacer? 16

Captulo1LaWebcomoespaciodeinformacinuniversal Tradicionalmenteesoeraresueltoporcatalogadores,personasespeciali zadasqueagregaban metadatos (etiquetasqueexplicitaninformacin)alos libros:qu tematrata,dndeest ubicado,culeselautor,etc.Estosmeta datosestnaccesiblesenuncatlogoenlasbibliotecas.EnlaWeb,comoya veamos,notenemoscatlogo,nimenoscatalogadores.Conlosvolmenes deinformacinquecadadacrecen,esimposiblequehumanossepreocu pendeclasificarlainformacin.Adems,porqueelmodelodelaWebes distribuido,quienespublicantienendiversasvisionessobrecmoclasificar susobjetos. Paralosprofesionales de lainformacin, elprincipal desafo hoy es cmomanejarestaextraordinariacantidaddedatosquecrecedaada.Es tamoscomenzandoaverlosproblemas:losmotoresdebsquedaamenudo nocontestanloquebuscamos;haydificultadesparafiltrarlainformacin;la heterogeneidaddelosdatosyloscontenidos;desdeelpuntodevistade quienpublica,sehaconvertidoenunproblemahacervisiblelavisible,tanto enformatocomoencontenido.Hanhabidoavancesenlosnivelesestructu rales y sintcticos con el estndar XML y sus tecnologas aledaas. Desafortunadamente,alniveldelsignificado(semntica)anestamosmuy pordebajodelasnecesidades.Estamoslejosderesponderpreguntascomo todoslosmuseosqueexhibantrabajosdeGuayasamnoCuleslabi bliotecaquetienelamejorcoleccindelosescritosdeGandhi?oCules lacompaaqueofreceelmejormapadeIsladePascuadesdeelpuntode vistaprecio/resolucin? Unmotor de bsqueda estndar (como Google, Yahoo!, etc.) no puede responder tales consultas. Pero tampoco ningn agentelaspodraresponderhoyenda.Sinembargo,lainformacinest all:hayquerelacionarlayagregarla.Lalimitacinobedecealafaltadeha bilidaddelasmquinasparaentenderelsignificadoylasrelacionesentre laspartesdeinformacinquerecolectan.Hoyendaloshumanosagrega moselcontexto,interpretamosydamossentidoalainformacinqueexiste 17

Captulo1LaWebcomoespaciodeinformacinuniversal enlaWeb.Enotradireccin,otroejemplodeestaslimitacionesesladificul tadparadiseareimplementarunatareatannaturalcomoorganizartodos losrecursoseducacionalesdeunpas,detalformaqueresultesencillopara cadaestudianteyprofesorelpublicaryobtenerlainformacinquerequie ran. Se necesitan vocabularios comunes, descripcin precisa de los datos expuestos,publicacindistribuida,bsquedasautomatizadas.Enunafrase: debidoalasenormesdimensiones,laWebsehaconvertidoenunatorrede Babelnosloalniveldellenguajenatural,sinoesencialmentealniveldel significado,contradiciendolasideasporlascualesfuecreada.Lasolucin? Pavimentarelcaminoparalaconstruccindeagentesdesoftwarequepue dan procesar informacin de la Web por nosotros. La nocin de Web Semntica[4]estransformarlaWebactualdetalformaquelainformaciny losserviciosseanentendiblesyusablestantoporcomputadorescomopor humanos.LaWebSemnticacrearelambientenecesariodondelosagentes desoftwarepuedanrpidamenterealizartareassofisticadasyayudaralos humanosaencontrar,entender,integrar,yusarlainformacinenlaWeb.

MetadatosyRDF
LacaractersticadistintivadelaWebSemnticaser unlenguajeestn dar de metadatos y ontologas, que permitirn que agentes de software encuentrenelsignificadodelainformacinenpginasWeb,siguiendoenla cesalasdefinicionesdetrminosclavesyreglaspararazonaracercadeellas lgicamente.Los metadatossondatosdescriptivosacercadeunobjetoore curso, sea ste fsico o electrnico. Las ontologas son especificaciones formalesdevocabularioyconceptoscompartidosparaundominio. Aunqueelconceptodemetadatosesrelativamentenuevo,losconcep tos subyacentes han estado rondando desde que se organizaron grandes coleccionesdeinformacin.Enreastalescomocatalogacinenbibliotecasy 18

Captulo1LaWebcomoespaciodeinformacinuniversal museoshansidousadospordcadas,porejemplo,elDCC(DeweyDecimal Classification),OCLC(OnLineComputerLibraryCenter),DublinCore.Una manera tildepensaracercadelosmetadatoseslasumatotaldeloque unopuededeciracercadecualquierobjetodeinformacinacualquiernivel deagregacin.Haymuchostiposdemetadatos,ylosusosmscomunesse refieren a documentacin de copyrights y accesos legales, versionamiento, ubicacindeinformacin,indizacin,descripcindecondicionesfsicasde recursos,documentacindesoftware,autentificacin,etc. EnlaWeb,losmetadatostambinhanjugadounrolimportanteenre as como catlogos de propsito general (Dublin Core, Open Directory Project,Wikipedia),sindicaciny rating (RichSiteSummaryRSS,Platform forInternetContentPICS),coleccionespersonales(msica,fotos),privaci dad,etc.Ylosmspopulareshoysonsimplemente tags,esdecir,etiquetas; unlenguajequenotieneverbosniadjetivos.Simplementenombres.Todos estosmetadatossonsectorialesyusanunadiversidaddemodelosylengua jes. Porelcontrario,senecesitaunlenguajedesignificados(demetadatos) universal.EsteesRDF[5](delinglsResourceDescriptionFramework),quees unlenguajediseadoparasoportarlaWebSemntica,delamismamanera queHTMLesellenguajequeayud ainiciarlaWeb.ElmodelodeRDFes simple:eluniversoamodelar(laWeb)esunconjuntode recursos(esencial mente todo puede tener una URL); el lenguaje para describirlo es un conjuntodepropiedades(tcnicamentepredicadosbinarios);lasdescripciones sonoracionessimilaresenestructuraalmodelosujetopredicadoobjeto,don deelpredicadoyelobjetosonrecursosocadenasdecaracteres.As,por ejemplo, uno puede afirmar El creador de http://www.picarte.cl es ClaudioGutirrez.Elvocabulariodelaspropiedadesparaestelenguajepue

19

Captulo1LaWebcomoespaciodeinformacinuniversal

Figura 1.2: La Torre de la Web Semntica

deserdefinidosiguiendolaslneasdadasenlosesquemasRDF( RDFSche ma),ybsicamentesoncodificacionesdeontologasadiferentesniveles.

ElFuturodelaWeb
NoesfcilpredecirlosdesarrollosfuturosdelaWeb.Elproyectoini cial de Tim BernersLee inclua el desarrollo de capas sucesivas para permitirelintercambioglobaldeinformacinyconocimiento.Luegodela estructurabsicaqueconocemos,vendrunacapadesemntica,demetada tos.Estacapapermitiraprocesarlainformacinsemiautomticamente,es decir,permitiraaagentesdesoftwareprocesarlainformacinenparaleloa loshumanos.(NtesequelaWebactualesthechacasiensutotalidadpara quesereshumanoslanaveguen.) 20

Captulo1LaWebcomoespaciodeinformacinuniversal LaWebporsupuestohaevolucionadoenmilesdedirecciones,muchas noprevistas,comoredessociales,blogs,etc.Muchoshanllamadoalconjun todeestosdesarrollosnovedososnoprevistos Web2.0.Enloscaptulos siguientestrataremosvariasdeestasfacetas. Elfuturoest abierto.Hoyendanoesposiblepredecirlosusosfutu rosdelaWeb,yaquyaentramosalcampodelacienciaficcin.

Parasaberms
TimBernersLee,TejiendolaRed,SigloVeintunoEds.,Espaa,2000. TimBernersLee,OraLassilaLaWebSemntica,ScientificAmerican,2002. LaWorldWideWebConsortium(W3C)hadispuestounabrevegua introductoria,enespaol,sobrelawebsemntica: http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica

Referencias
1. 2. CERN:Wherethewebwasborn.PageattheCERN. http://public.web.cern.ch/public/en/About/Weben.html TimBernersLee.InformationManagement:AProposal(1989). http://info.cern.ch/Proposal.html http://info.cern.ch/Proposal.html http://www.w3.org/History/1989/proposal.html http://www.w3.org/History/1989/proposal.html TimBernersLee.TheWorldWideWebPastPresentandFuture:Exploring Universality.http://www.w3.org/2002/04/Japan/Lecture.html http://www.w3.org/2002/04/Japan/Lecture.html W3CSemanticWebActivity:http://www.w3.org/2001/sw/ http://www.w3.org/2001/sw/ ResourceDescriptionFramework(RDF)/W3CSemanticWebActivity: http://www.w3.org/RDF/ http://www.w3.org/RDF/

3. 4. 5.

21

Captulo2 AnatomadelaWeb
RicardoBaezaYates

Introduccin
Qu estructuratienelatelaraamundialdecomputadoresoWorld WideWeb?(laWebdeahoraenadelante,aunquenomequedaclarosiesfe meninoomasculino).Nadiesabe.Crecemsrpidoquelacapacidaddeella mismaparadetectarsuscambios.Susconexionessondinmicasymuchas deellasquedanobsoletassinsernuncaactualizadas.ElcontenidodelaWeb eshoydemilesdeterabytes(unterabyteoTbesunbillndemegabytes)de texto,imgenes,audioyvideo.Paraaprovecharestagranbasededatosno estructuradaesimportantepoderbuscarinformacinenella,adaptndoseal crecimientocontinuodelaWeb. AligualqueInternet,lareddecomputadoresqueinterconectaelglobo, queyasobrepas los430millonesdecomputadoresconectadosenmsde 220pasesdurante2006,losservidoresWebtambincrecenenformaexpo nencialdesde1993(unservidorWebeselsoftwarequeadministraunsitio Web).Lamentablementenadiesabesunmeroexacto,puesnoesposiblea partirdeunnombrededominiosabersiesonounservidorWeb(lamayo racomienzaconwww,peromuchoslugaresnosiguenestaconvencin). Ademsunmismocomputadorpuedemanejardistintosservidoresytam binexistenservidoresvirtuales(unmismo servidorWebpuedemanejar 23

Captulo2AnatomadelaWeb

Figura 2.1: Principales caractersticas de la Web.

lgicamenteotrosservidores).Enelao2000,elnmerodeservidoresso brepaslos10millonesyenmayode2007yallegabanalos120millones.

ConceptosBsicos
LaWebescompleja:haypginasestticasydinmicas,pblicasypri vadas, con o sin metadatos, que representan la semntica de la Web, tal comosemuestraenlaFigura2.1. Laspginasestticassonaquellasqueexistentodoeltiempoenunar chivo en algn servidor Web. Las pginas dinmicas son aquellas que se creancuandounapersonainteractaconunservidorWeb,porejemplola respuestaaunaconsultaenunbuscadoroelresultadoderellenarunformu larioenunsitiodecomercioelectrnico.Actualmente,lamayorpartedela Webesdinmica,ycomoenalgunossitiossepuedegenerarunnmerono 24

Captulo2AnatomadelaWeb acotadodepginasdinmicas(porejemplo,uncalendario),laWebquepo demoscrearesinfinita. Laspginaspblicassonlasquetodaslaspersonaspuedenverylaspri vadassonlasqueestnprotegidasporunaclaveoseencuentrandentrode unaIntranet.Comocadapersonatieneaccesoadistintaspginasprivadas, laWebpblicadependedelobservador.Enparticularcadabuscadorrefleja unaWebpblicadistinta.Algunossitiostieneninformacinsemnticaque ayudaalosbuscadoresyseestimaqueun5%deellostieneinformacinfi dedigna.Sinembargo,mssonlossitiosquetieneninformacinfalsa,loque sellamaspamdeWeb.

MineraWeb
ParacaracterizarlaWebdebemosrealizarunprocesodemineradeda tosdelaWeb,loque eninglsse llama Webmining.Unametforasera excavarlaWebyesposiblehacerloendistintaspartesdeella:ensuconteni do,ensuestructurayensuuso.Elcontenidoylaestructuraserecolectan conunsoftwarequerecorrelaspginasdelaWebysiguensusenlaces,un programaqueeninglssellamacrawler.Elusoseobtienedelainformacin quedejanlaspersonasalusarunsitioWeb,quesealmacenaenunabitco ra.Acontinuacindetallamosbrevementecadaunodeestoscasos.

ExcavandoelContenido
Lomssimpleesrecuperarinformacinatravsdebuscadorescomo GoogleoYahoo!.Peroesposibletambinusaranlisisdelenguajenatural para entender parcialmente la semntica del texto, extraer otros objetos comoimgenesoaudio,aprovecharlasmarcasdeHTMLparatransformar elcontenidooextraerdatosespecficos,omejorarlosresultadosdelosbus 25

Captulo2AnatomadelaWeb cadoresagrupandopginassimilares.Unodelosproblemasprincipaleses cmoencontrarlaspginasqueposeenelcontenidoquenecesitamos,pues sloencontrartodaslaspginasquesonindexablesyaesdifcil(verfigura 2.1).

DesenredandolaEstructura
LaestructuradelaWebescomplejayevolucionaeneltiempo.Hay desdesectoresaltamenteconectadoshastaislasquesloconocenalgunos buscadores.Laestructurapuedeserusadaporlosbuscadoresparajerarqui zar los resultados (en base a las pginas ms referenciadas usando heursticas como Pagerank) o para encontrar grupos de pginas que se apuntanentresyrepresentancomunidadesdepersonasconinteresessimi lares.Elproblemaprincipalenestecasoesentenderelprocesodeevolucin ysurelacinconlaspersonasqueparticipanenl.

AnalizandoelUso
Analizarlasbitcorasdeacceso(logs)aunsitioWebeslomsintere santedesdeelpuntodevistacomercial.Porejemplo,unapginaquenunca esvisitadatalveznotienerazndeser,osipginasmuyvisitadasnoestn enlosprimerosniveles,estosugieremejorarlaorganizacinynavegacin delsitio.Porlotanto,esimportantedetectarpatronesdeaccesoysusten dencias.Estadeteccinpuedesergenricaoparaunusuarioespecfico(lo quepermitepersonalizarsitiosenformadinmica)ylosresultadospueden serusadospararecomendarserviciosoproductos.Elproblemaprincipalen estecasoespoderdiferenciaralosusuariosycundoseconectanodesco nectan(determinarsesiones).

26

Captulo2AnatomadelaWeb

ElPrincipiodelMnimoEsfuerzo
GeorgeKiplingZipferaunlingistadeHarvardypublic en1949su librosobreelprincipiodelmnimoesfuerzounaoantesdesudeceso,ala prematuraedadde40aos.EldescubrimientoinicialdeZipfen1932fue quesiunocontabaelnmerodevecesqueseusabacadapalabraendistin tostextoseningls,ylasordenabademsfrecuenteamenosfrecuente,se cumplaquelafrecuenciadelapalabraisima,multiplicadapori,eraigual aunaconstanteC,ylaconstanteCdependadeltextoescogido.Actualmen teesnecesarioelevar i aunexponente t mayorque1ycercanoa2para muchos textos existentes, en particular en la Web. Graficando esta curva usandounaescalalogartmicaenambosejes,ellaseconvierteenunarecta conpendientenegativat[1]. Zipfexplicaestosresultadosempricoscomounacondicinhumana, dondesiempreesmsfcilescribirunapalabraconocidaqueunamenosco nocida.Fenmenossimilaresaparecenenotros mbitoscomoelnmerode citasbibliogrficasaunartculodadoolaspoblacionesdelasciudades.Di versosautores,entreellosMandelbrotyMiller,argumentaronmstardeque enrealidadlaleydeZipfrepresentalaconsecuenciadelasleyesdelaspro babilidadesenprocesosasociadosacodificacindeinformacindondehay muchodeazar.Sinquerertomarpartidoenestadisputacientfica,ciertao nocierta,laleydeZipfaparecefrecuentementeenlaprcticayreflejabienla actitudnaturaldeminimizarelesfuerzo,exceptuandoloscasosextremos, queseranenelejemploinicial,usarmuypocaspalabrasousarmuchas.Tal vezestaleysloexplicaladiversidadhumana,laqueseinclinamsporla perezaqueporlaerudicin.Dehecho,que tseaahoraalrededorde1.8para textoseningls,indicaunmayorsesgoenesadiversidad,yunadegradacin eneltiempodelariquezadelvocabularioqueusamosalescribir.

27

Captulo2AnatomadelaWeb

LaWebcomounProcesoHumano
LaWebeselproductodeltrabajocolaborativodemillonesdepersonas. Sihayalgnfenmenodondeelprincipiodelmnimoesfuerzoaparecerasi existiera,eslaWeb.ApartedeladistribucindepalabrasenlaWeb,lassi guientesmedidassiguenunacurvadeZipf:
Tamaosdelaspginasodeotrostiposdearchivos(imgenes, audio,etc.).Enestecasolaleynoseajustabienalcomienzo,porque hacerpginasconmuypocotextoproduceelpudordelavergenza quecontrarrestaalmnimoesfuerzo. Nmerodeenlacesquesalendeunapgina.Enestecasola curvanoseajustamuybienenlosextremos,porquehacerunapgi naconmuypocosenlacescaeenelcasodelpuntoanteriory,por otraparte,haypginasconmuchosenlacesproducidasenformaau tomtica. Nmerodeenlacesquelleganaunapgina.Lamayoradelas pginastienenslounenlaceaellasyhaypocaspginasconmu chosenlaces. Fechadeactualizacindelaspginas,existenmspginasnue vasomodificadasqueviejas. Nmerodecomponentesconexosdedistintotamao.Esdecir, gruposdepginasenlasquesepuedenavegardecualquierpgina aotrapgina.Estorepresentaenciertamedidaelnmerodepgi nasdeunsitioWeb:muchossitiostienenpocaspginas,pocossitios muchaspginas. Usodelaspalabrasenlasconsultasaunbuscador(confirmado experimentalmenteenTodoCL.cl).Elresultadoesquelamayorade laspreguntassonmuysimples.

28

Captulo2AnatomadelaWeb Loanteriorsepropagaaotrasmedidas,comotrficoenlared,usode proxies,etc.Estodoestounacasualidadproductodelazarounfenmeno delcomportamientohumano?.Sindudalarespuestaesqueestaleyesresul tadodelprocesohumanodecreacindelaWeb.

CaracterizandolaWeb
EstructurayVisibilidad
CuntasreferenciastieneunapginaHTML?(HTMLesunacrnimo paraHyperTextMarkupLanguage;ellenguajeusadoparaestructurarpgi nasWeb).Msdel75%delaspginastienealmenosunareferencia,yen promediocadaunatieneentre5y15referencias.Lamayoradeestasrefe renciassonapginasenelmismoservidor.Dehecho,laconectividadentre sitiosdistintosnoesmuybuena.Enparticular,lamayoradelaspginasno sonreferenciadaspornadieylasquessonreferenciadas,losonporpginas enelmismoservidor. Considerandosloreferenciasexternas(entresitiosdistintos),msdel 80%delaspginastienenmenosde10referenciasaella.Otrossitiosson muypopulares,teniendodecenasdemilesdereferenciasaellos.Siconta mos sitios que referencian a sitios, aparecen ODP (www.dmoz.org), el directorioabierto,yeldirectoriodeYahoo!enlosdosprimeroslugares.Es tossitiossonlosqueconectanlaWeb.Porotrolado,hayalgunossitiosque nosonreferenciadospornadie(estnporquefueronincluidosmedianteel envodirectodeunadireccinWebaYahoo!uotrosbuscadores,peroque realmentesonislasdentrodelaWeb).Enestemismosentido,laspginas personalestambinsepuedenconsiderarcomoentesaisladosenmuchosca sos.Asimismo,lamayoradelossitios(80%)notieneningunareferencia 29

Captulo2AnatomadelaWeb haciapginasenotrosservidores.Estosignificaqueunaminoradelosser vidoresmantienetodalacarganavegacionaldelared.Estadsticasrecientes indicanqueel1%delosservidorescontienenaproximadamenteel50%del volumendedatosdelaWeb,queseestimabamayora20,000millonesde pginasdurante2006.

Tamaosycaractersticas
CmoesunapginaWebpromedio?UnapginadeHTMLpromedio tienealrededorde5a7kilobytes(alrededordemilpalabras).Siagregamos audioovideo,estepromedioaumenta.Dehecho,ladistribucindetamaos sigueunadistribucindeZipf.Enotraspalabras,aunquelamayoradelos archivossonpequeos,existeunnmeronodespreciabledearchivosgran des;yhasta50kilobytespredominaelvolumendelasimgenes.Desdeall hasta300kilobytessonimportanteslosarchivosdeaudio.Msall deeste lmite,llegandoavariasdecenasdemegabytes,tenemosarchivosdevideo. Losformatosmspopulares(enbasealaextensindelnombredearchivo) sonHTML,GIF,TXT,PDF,PSyJPG,entreotros. CmoesunapginaHTML?Alrededordelamitaddeellasnotiene ningunaimagen.Un30%notienemsdedosimgenesysutamaoprome dioesde14Kb.Porotrapartehayunporcentajenodespreciable(mayoral 10%)depginasconmsde10imgenes.Laraznesquesonimgenesti pogrficas,comoporejemplopuntosrojos,lneasdeseparacindecolor, etc.LamayoradelaspginasusanHTMLsimple.Slounporcentajepe queosiguetodaslasnormasyotroporcentajemayor(alrededordel10%)es slotexto.Finalmente,lacalidaddeltextodejamuchoquedesear,pueshay erroresdetipeo,erroresquevienedelaconversindeimgenesdedocu mentosatexto,etc.Msan,lainformacincontenidapuedeestarobsoleta,

30

Captulo2AnatomadelaWeb puedeserfalsaoengaosa.Hayquetenerestoenmentecuandousamos unapginaWebcomofuentedeinformacinolareferenciamos.

LosSitiosImpenetrables
Estossitiossonaquellosquecontienenunaomspginasdondeun buscadornopuedeextraerlosenlacesalaspginasinternasporquenousan HTMLsinoundiseogrficobasadoenunprograma.Esdecir,laestticaes prioritariaperoporignoranciamatasucontenido.Segnel ltimoestudio delaWebChilena[4],estossonel21%delossitios,esdecirmsde25mil sitios.EstoincluyesitiosqueusanFlashensuportada,otrosquesonohacen unallamadaaunprogramayunospocosqueusanmapasdeimgenesanti cuados.Muchosdeestossitiostienenunaportadaimpenetrabledemsde 100Kbsdecdigo,sincontarimgenes,as queademssonpocovisibles, puesenunmdemnormaltardaranalmenos30segundosencargarse. Unopuedeperdonarquelamayoradelasempresaschilenasnosepan queFlashoJavascriptmalusadoconviertesussitiosenbvedasdeseguri dad.Sinembargo,haycasosenqueestoesimperdonable: Laempresasdetecnologasdelainformacinnopuedenapelar alaexcusadeserignorantes. Lossitiosdegobiernodebenserlosmspblicos,visibles1yf cilesdeencontrardelaWeb.

Lasempresasdondelainformacinesunodesusvaloresfun damentales. Y sin mencionar las empresas de este tipo que no tienensitioWeb!

Porejemplo,cuandosuportadahacedifcillanavegacin.

31

Captulo2AnatomadelaWeb

LaWebcomounGrafo
Imaginemosqueporcadapersonaqueconocemosexisteunaconexin directaentreellaysusamigos.Porejemplo,unnmerotelefnico.Sihace mosestoparatodaslaspersonasdelmundo,tenemosungrafo(comolosde laFigura2.2)muygrande.Enesegrafopodemosahoramedirdistancias entredospersonasusandoelnmeromnimodellamadastelefnicasque necesitaunapersonaparacontactarconotra.Porejemplo,silapersonaque quierocontactarestenChinaesposiblequesiyoconozcounapersonaque conoceaunapersonaenChina,elnmerodellamadasseapequeo(enel mejorcaso,slotresllamadas).Ladistanciamximaentredospersonasse llamaeldimetrodelgrafo,usandounaanalogageomtrica.Amediadosde lossesenta,Milgramrealiz unfamosoexperimentoutilizandopaquetesde correoyestimqueeldimetrodentrodeEstadosUnidosera6. Paraqueungrafotengaundimetropequeodebetenermuchascone xiones.Sitodaslasconexionesexisten,eldimetroes1.Porotraparte,un grafoaleatoriotieneundimetromuchomayor.Unmodelodegrafoquere presentabienestefenmenoesaquelenelquecadapersonaest conectada contodaslaspersonascercanas(geogrficamente)ysloconalgunaslejanas demaneraaleatoriayconunadistribucindeprobabilidaduniforme.Este modelosellamasmallworldomundopequeo,valgalaredundancia,ytam binrepresentabienlaredneuronaldeungusanoylaredelctricadeloeste deEstadosUnidos,entreotroscasos[2]. Afinalesdelos90,Albert,JeongyBarabsimidieronladistancia(n meromnimodeenlacesparallegardeunapginaaotras)entre330mil pginasdelaWeb[5].Conestoaproximaroneldimetroconunafuncinlo gartmicaenelnmerodepginas.Alextrapolarestafuncin,considerando queelnmerodepginasWebesdemsdemilmillonesdepginas,obtu

32

Captulo2AnatomadelaWeb vieronqueeldimetrodelaWebesaproximadamente19.Esdecir,con19 clicksdelratnllegamosacualquierpginaWebdelplaneta.Ellosyotros autoressugierenqueunbuscadorpodraaprovecharestoparaencontrarr pidamentelapginadeseada.Sinembargo,estosignificasaberqu enlace seguir,unproblemaquenoestrivial. AunqueelmodelodemundopequeopodraservlidoenlaWeb, estemodelonoexplicacmounapersonaqueslotieneconocimientolocal puedesaberaquincontactarparaencontraraotrapersona.Recientemente, Kleinberg[6]hamodificadoelmodelooriginal,detalmodoquelasconexio nes lejanas no siguen una distribucin uniforme, sino que una que es inversamenteproporcionalalcuadradodeladistancia.Estadistribucines ptimaenelsentidoqueminimizaelnmeropromediodellamadasqueha raunapersonaparacontactaraotra,yexplicaloqueocurreenlaprctica. LaWebesmsqueunsimpleconjuntodedocumentosendistintosser vidores, ya que existen relaciones de informacin entre los documentos mediantelosenlacesqueestablecenentreellos.Estopresentamuchasventa jas,tantoparalosusuarios,alahoradebuscarinformacin,comoparalos programasquerecorrenlaWebalahoradebuscarcontenidopararecolectar (probablementeparaunmotordebsqueda).Debidoaestoseplanteala Webcomounmodelodegrafodirigido,enelquecadapginaesunnodoy cadaarcorepresentaunenlaceentredospginas. Engenerallaspginasenlazanapginassimilares,demodoqueespo siblereconocerpginasmejoresquelasdems,esdecir,pginasquereciben unnmeromayordereferenciasquelonormal.EnbaseaestolaWebtiene unaestructuraquesepuedeclasificarcomoredlibredeescala.Dichasredes, alcontrariodelasredesaleatorias,secaracterizanporunadistribucindis parejade enlaces yporque dichadistribucinsigueunaleydeZipf.Los nodosaltamenteenlazadosactancomocentrosqueconectanmuchosdelos 33

Captulo2AnatomadelaWeb

Figura 2.2: Ejemplos ilustrativos de una red aleatoria y una red libre de escala. Cada grafo tiene 32 nodos y 32 enlaces.

otrosnodosalared,comoseilustraenlaFigura2.2.Estoquieredecirquela distribucindelosenlacesesmuysesgada:unaspocaspginasrecibenmu chosenlacesmientrasquelamayorarecibemuypocosoinclusoninguno.

Conectividad
ParaconocerqupginasWebapuntanaunapginadadaesnecesario recorrertodalaWeb,algoquelosgrandesbuscadoreshacenperidicamen te.ElprimerestudiodelaestructuradelgrafodelaWebfuerealizadoa partirdedosrecorridosdeAltavistaenMayoyOctubrede1999,cadauno demsde200millonesdepginas(entreun20%yun25%delaWebenesa poca)y1.500millonesdeenlaces.Sloalmacenaryprocesarelgrafoequi valenteestodoundesafo. Losresultadosdeesteestudiomostraronquelafraccindepginasde laWebquesonapuntadaspor i pginasesproporcionala1/i2.1,mientras quelafraccindepginasquetienenienlacesesproporcionala1/i2.7.Esto significaqueelnmerodepginasmuyapuntadas(populares)yelnmero

34

Captulo2AnatomadelaWeb depginasconmuchosenlacesesmuypequeo.Estosvaloressoncasilos mismosparalosdosrecorridos,peseaqueentreellospasaron6meses.

Estructura
ParaanalizarlaestructuradelaWebsebuscanlaspartesdelgrafoque estnconectadasentres.Elestudioyamencionado,yel nicorealizadoa nivelglobal,muestraqueelncleoocentrodelaWebloconstituanmsde 56millonesdepginas,existiendouncaminoparairdecualquierpginaa otra,conunlargomximo(dimetro)dealmenos28.Enotraspalabras,el caminomscortoentredospginasenelpeorcasoimplicabavisitar28de ellas.Estocontrastaconelmodelodelmundopequeomencionadoalco mienzoquepredecaundimetromximode20pginasparatodalaWeb. Enlaprcticaseencontraroncaminoshastadelargo900,loqueindicaqueel dimetrodelaWebesmuchomayor.Detodosmodos,estenmeronoes tangrandeconsiderandoquesoncientosdemillonesdepginas. LaFigura2.3muestralaestructuradelaWebdeacuerdoalestudio mencionado.Alaizquierdahaba43millonesdepginasdesdelascualesse podallegaralcentro,peronoviceversa.Delmismomodo,aladerechaha baotras43millonesquepodanseraccedidasdesdeelcentro,peroqueno enlazabanpginasdelncleo.Alrededordeestosdosgruposhaytentculos quecontienen44millonesdepginasyquesoncaminossinsalida,conla excepcindealgunostubos,queconectanelgrupodelaizquierdaconelde laderecha.Finalmente,tenemos17millonesdepginasqueestnagrupadas enislasquenoestnconectadasalcentrodelaWeb.Muchossepreguntarn cmoAltavistaconocaestasislassinoestnconectadasalrestodelaWeby nopuedenserrecorridassiguiendoenlaces.Esmuysimple:estossonsitios Webquefuerondirectamenteenviadosalbuscadoryporlotantoestnen sundiceaunqueelrestodelmundonolasconozca. 35

Captulo2AnatomadelaWeb Losautoresdelestudionohacenningunainterpretacinsobreestaes tructura.EnlasinvestigacionesquehemosrealizadoenChile,quemuestran unaestructurasimilar,elgrupodelaizquierdasonpginasmsnuevasque annosondemasiadoconocidasyquesitienenxitopasarnalcentrodela Web,dondeestnlaspginasconsolidadas.Encambio,enelgrupodelade rechasonpginasantiguasquenoenlazanalcentrodelaWebporqueensu pocaesaspginasnoexistan,perosfueronenlazadaspornuevaspginas. TambinincluyenmuchossitiosWebquenotienenenlacesexternospero quesehanpreocupadodetenerunenlacedesdeunbuensitio,porejemplo vaenlacespublicitarios. EnChilehemosencontradoquelaproporcindesitiosquesonislases muyalta,muchomayorqueenelestudiooriginal,graciasaqueconocemos todoslosdominios.cl.

Figura 2.3: Estructura del grafo de la Web.

36

Captulo2AnatomadelaWeb

DinmicadelaWeb
MsdelamitaddelaWebhanacidoohasidoactualizadaenloslti mosseismeses.Partedeesecrecimiento,alrededorde20%,esreplicndose atravsdesitiosespejosomirrorsuotrostiposdecopias(enalgunoscasos plagio).Almismo tiempo granpartedelaWebmuere.Se estimaqueel tiempopromediodevidadeunapginaesalrededordetresmeses.Otra partedelaWebmuta,yaseaatravsdecambiosdenombresdedominio, sitios,directoriosoarchivos.Escomounorganismocatico,comounacolo nia de bacterias que est sobrealimentada en algunas partes y en otras agoniza. LadinmicaviolentadelaWebysuvolatilidadtieneconsecuencias importantes.Porejemplo,sitiosWebnuevosserndifcilesdeencontrarsin campaasdepublicidad,correoelectrnicooatravsdelacomunicacin verbal entre personas. Lo mismo para los buscadores. Adems, los sitios nuevostendrnmenossitiosquelosreferencien,conlosquesonmenosim portantesparabuscadorescomoGoogleoYahoo!queusanlosenlacesaun sitioparaevaluarsuimportancia. UnsitionuevogeneralmentecomienzaenISLASoIN.Luego,siesco nocido,pasaalcentrodelaWeboMAIN.Siluegodecidenoapuntaraun sitioimportanteonoesactualizadopasaaladerechauOUT,opeoran,se conviertenuevamenteenisla.LoscomponentesmsestablesenChileestn enMAINyOUTquetienenel35%detodoslossitios.Enlafigura2.4,mos tramos la dinmica de la estructura de la WebChilena. Los tonos claros indicanlaprocedenciadelossitiosantiguos,mientrasquelososcurosrepre sentanlossitiosnuevos.Eltamaodeltarrodebasuraindicalacantidadde sitiosquedesaparecen.

37

Captulo2AnatomadelaWeb

Figura 2.4: Dinmica de la estructura del grafo de la Web Chilena entre los aos 2000 y 2002 [3].

LaWebChilena
DefinimoscomositioWebchilenoaquelqueterminaen.cloelcualsu IPperteneceaunproveedorchilenodeInternet.Elltimoestudiorealizado condatosde2006mostrlossiguientesresultados:LaWebchilenaestcom puestapormsde170.000sitios,yestoscontienenmsde7millonesde pginas.MuchasdesuscaractersticassonmuysimilaresalasdelaWeb globalengeneral.
El14%delossitiosestnconectadosentresatravsdeenlaces ytienenel53,3%delaspginas.Porotrolado,el49,5%delossitios est completamentedesconectadoentrminosdeenlaces,perore presentansloel14%delaspginas. Unsitiopromediotiene43pginas,contenidasen0,304MiB, con1,56referenciasdesdeotrossitios. Undominiopromediotiene1,08sitiosy46,61pginas,conteni dasen0,328MiB.

38

Captulo2AnatomadelaWeb Cercade1/4delaspginaschilenasfuecreadaoactualizada enelltimoao,loqueimplicaunaltogradodecrecimientoydina mismo. Alrededordel80%delaspginasdeChileest enespaoly cercadel17%eningls.Otrosidiomastienenunapresenciamuy leve. LossustantivosquemsaparecenenlaWebchilenason:Chile, producto,usuarios,servicioymensaje.TambinaparecenSantiago, Web,blog,regineinformacin. LospasesmsreferenciadosdesdeChilesonArgentina,Espa a,Alemania,Reino Unido yMxico,y engeneralelnmero de referenciasapasesextranjerosest relacionadoconelvolumende intercambiocomercial. Lossitiosquerecibenmsenlacessonsii.cl,uchile.cl,mi neduc.cl,meteochile.clybcentral.cl.
Losproveedoresdehostingconmayornmerodesitiosson IFX Networks, VirtuaByte, TChile, Telefnica Internet Empresas, DattaWebyPuntoWeb.

Respectoalacalidaddelaspginasysitios: Detodoslossitios,el20%msgrandedeelloscontieneel99% delainformacinenlaWebchilena,medidaenelnmerodebytes contenidosensuspginas. Cercadel21%delossitiosdeChilenosonfcilesdeencontrar yaqueestnhechoscontecnologasnovisiblesparalosmotoresde bsqueda,comoFlashyJavascript. Unaspocaspginasacaparanlamayoradelosenlaces.Dehe cho,sloel3%delaspginastienenalgnvalordecontenidoen

39

Captulo2AnatomadelaWeb trminosdeestarreferenciadasdesdeotrossitios.Sinembargo,estas pginasestnrepartidasenel35%delossitiosWeb.

Cercade5%delosenlacesyanoexisten.

RespectoalastecnologasWeb: Delosservidoresqueentreganinformacin,elservidorWeb msutilizadoesApachecon66,7%,seguidoporMicrosoftInternet InformationServercon32,8%. Delosservidoresqueentreganinformacin,elsistemaoperati vo ms utilizado es Unix, con 48,5%, seguido por Microsoft Windowscon38,5%.Adems,Linuxesutilizadoenun12%delos servidores. ElgeneradordepginasdinmicasmsusadoesPHPcon75% departicipacinenelmercado. ElformatodedocumentosmsusadoesPDF,con53%depar ticipacin,seguidoporXMLconun21%.

Aproximadamentehayunadisponibilidaddeldobledearchi vosconpaquetesdesoftwareparaLinuxqueparaWindowsenla Webchilena.

40

Captulo2AnatomadelaWeb

Parasaberms
CentrodeInvestigacindelaWeb,http://www.ciw.cl http://www.ciw.cl GoogleLabs,http://labs.google.com http://labs.google.com SearchEngineWatch,http://www.searchenginewatch.com http://www.searchenginewatch.com TodoCL,elbuscadorchileno,http://www.todocl.cl http://www.todocl.cl WebInformationRetrievalresources,http://www.webir.org http://www.webir.org WorldWideWebConsortium,http://w3c.org http://w3c.org Yahoo!Research,http://research.yahoo.com http://research.yahoo.com

Referencias
1. 2. 3. InformationonZipf'sLaw.http://www.nslijgenetics.org/wli/zipf/ http://www.nslijgenetics.org/wli/zipf/ S.Boccalettietal.ComplexNetworks:Structure&Dynamics.Physics Reports,Elsevier.2006. RicardoBaezaYates,BarbaraJ.Poblete,FelipeSaintJean.Evolucindela WebChilena20012002.CentrodeInvestigacindelaWeb.2003. http://www.ciw.cl/recursos/estudio2002/estudio2002html.html http://www.ciw.cl/recursos/estudio2002/estudio2002html.html RicardoBaezaYates,CarlosCastillo,EduardoGraells.Caractersticasdela WebChilena2006. http://www.ciw.cl/material/web_chilena_2006/index.html http://www.ciw.cl/material/web_chilena_2006/index.html R.Albert,H.JeongandAL.Barabsi.DiameteroftheWorldWideWeb Nature401,130.1999. J.Kleinbergetal.TheWebasagraph:measurements,models,and methods.Proceedingsofthe5thInternationalComputingand combinatoricsConference,1999.

4.

5. 6.

41

Captulo3 Internet
JosMiguelPiquer

EldesarrollodeInternet2
Enlasdcadasde1970y1980loscomputadoressedesarrollabanrpi damente mientras iba siendo claro que exista la necesidad de inter conectarlosenredesmundiales,bsicamenteparapoderenviar mail desde unapartedelmundoacualquierotra;necesidadbsicadelacomunidad cientficaquehastaesemomentoslodisponadeunlentoypococonfiable sistemadecartasinternacionalesparaintercambiarideasytrabajosescritos. Sinembargo,estasredessedesarrollabanentornoauntipodetermina dodecomputador:existanlaredesdecomputadoresIBM(BITNET),Digital (DECNET),Unix(UUCP),etc.EnChilenosconectamosalaredBITNETya laredUUCPen1986.AmbasconexionesllegabanalaFacultaddeCiencias FsicasyMatemticasdelaUniversidaddeChile,peroBITNETllegabaal
2 Enellenguajecoloquial,muchasvecesellegousaintercambiablementelasnocio nesdeInternetyWeb.Desdeunpuntodevistatcnicoesnecesariodiferen ciarlas.Unaanalogapuedeayudaraaclararlaintuicindeestadiferencia:elsis temadetransportedepasajerosterrestreest basadoenunareddecarreteras. Peroeltransportedepasajerosylareddecarreterassondoscosascompletamen tediferentes,conproblemasdiferentes.LomismoocurreparalaWebrespectode Internet.

43

Captulo3Internet Centro de Computacin (en el segundo piso en Blanco Encalada 2120) y UUCPalDepartamentodeCienciasdelaComputacin(enelprimerpisode lamismadireccin).Estasredeseranincompatiblesentres,ynotenamos formadeenviarmailsdesdelaunahacialaotra,porloquetuvimosporun tiempounsistemadeinterconexinqueconsistadeunapersonaconundis kettequesubaybajabalasescalerasconelmaildeunaredhacialaotra. Lanecesidadclaradeconstruirunsistemainterconectadomundialen tretodasestasredesfueunodelosmotoresfundamentalesdeInternet.El mismonombreloindica:elobjetivoeraconstruirunainterred;unaredde redes.Internetconquistelmundoatravsdedostecnologasclave:elpro tocoloInternet(IP),quepermitaconectaraInternetacualquiertecnologa deredexistente;yalsistemadenombresdedominioquepermititenerdi recciones de correo electrnico nicas e independientes de la tecnologa usada.En1986,enlaUniversidaddeChiletenamosvariasdireccionesde mail,lasqueocupabanlacasitotalidaddelasuperficiedenuestrastarjetas devisita.Sielnombredeusuarioerajperez,enlatarjetafigurabalasiguien telista:
UUCP:...!seismo!uchdcc!jperez BITNET:jperez@uchcecvm.BITNET DECNET:uchvax.DECNET::jperez X.400:S=jperez;P=uchdcc;A=d400;C=cl;

Alcomenzarausarnombresdedominio,ladireccindecorreosevol vi nica(jperez@dcc.uchile.cl)yse hamantenidoas por20aos,a pesardequelatecnologafsicadeinterconexinhacambiadomltiplesve ces.Paralograresto,laUniversidaddeChiletuvoqueinscribirsecomola organizacinacargodeadministrareldominio .CL,yaquefuelaprimera enrequerirunnombredeestetipoenChile.

44

Captulo3Internet Hoyresultadifcilimaginarlainformalidaddeesosaos,perotodo estoocurrasinapoyooficialdeningntipo,yerasimplementeelesfuerzo deungrupodeinvestigadoresmotivadostantoenChilecomoenelextranje roparaqueInternetfuncionaraysedesarrollara. Durantemuchosaoseldominio.CLcrecimuylentamente(verfigu ra 3.1b). Al cabo de 10 aos, comenzaron a aparecer las inscripciones masivasdenombresyhuboquecrearunaorganizacinformalqueadminis trara los nombres (NIC Chile), un sistema de cobros por dominio y un sistemadeadministracindelosconflictosquesurgenentornoaunnom bre. NIC Chile contina operando el dominio .cl bajo el alero de la UniversidaddeChilehastaeldadehoy. Enelmundo,losnombresdedominiohansidounodelosprincipales puntosdeconflictoentreelsectorprivado,elpblicoylacomunidadinter nacional. Aunque se ha ido avanzando mucho y se han creado organizacionesconbastanteapoyoparaadministrarlosanivelmundial,aun persistenmuchasdiscusionesentornoalaoperacindelsistema,surelacin conlasmarcasylapropiedadintelectualyelroldelosgobiernosenlosdo miniosdepas.

Arquitectura
ParaquelaWebfuncione,serequieredeunaInternetqueproveabsi camentelafuncionalidadquepermitaquecualquiercomputadorconectado aInternetpuedaconectarseaunservidoridentificadoporlaURLutilizada. PartedeesafuncionalidadlaproveeelISP(InternetServiceProvider)y otrapartelaproveemicomputadoryotraelservidorwebdedestino.

45

Captulo3Internet

(a)

(b) Figura 3.1: (a) Flujo de las News en 1993, (b) nombres inscritos bajo el dominio .cl en 1993. Tomados de [1].

46

Captulo3Internet LaarquitecturaInternetdivideestafuncionalidadencuatroservicios: 1. TraduccindenombrededominioadireccinIP(DNS) Esteeselservicioinicialqueseinvocaparatraducirunnombrede dominio (como www.ciw.cl) a una direccin IP (como 146.83.4.11),queesbsicamenteunnmeronicoqueserequiere para poder llegar al computador destino. Este servicio es crucial paraelfuncionamientoeficientedelaWeb,puestoquetodonombre debesertraducidoantesdepoderconectarnosalservidor.Laopera cinrequieredevariosservidoresdenombres(DNS)queresponden por cada dominio, proveiendo redundancia y rapidez en las res puestas. EsteservicioesprovistoenparteporelISP,quiendebeproveernos deunservidordenombresinicialaquienenviarlenuestrasconsul tas,yenparteporservidoresporcadadominio.Enelejemplo,hay ungrupodeservidorespara.clyotroparaciw.cl,losquerespon denconladireccinIPdewww.ciw.cl. 2. ConexinyTransporte(socket) UnavezobtenidaladireccinIPdelservidorestablecemosunaco nexinconl,quepermiteenviaryrecibirdatosenformaconfiable. Estosehaceatravsdeunsocketqueeslapartemscomplejadel sistemaporqueimplementaunprotocolodecorreccindeerrores quepermitetransmitirinformacinsobreunaInternetquepierde datos,quelosdesordenayavecesinclusolosduplica. Lainteligenciadel socket radicasloenlosextremosdelacone xin:elnavegadoryelservidor.Elrestodelarednointervieneen esteservicio,yesoesfundamentalparamanteneraInternetcomo

47

Captulo3Internet unserviciobaratoyeficiente,dadoquelacomplejidadprincipalla ejecutanloscomputadoresenlosextremos.Estocontrastaconlared telefnicaqueestodolocontrario:lostelfonossontontosytodala inteligenciaycomplejidad radicaenlaredmisma,loquelahace muchomscara. EsteservicionoesprovistoporelISP. 3. RuteodepaquetesIP ElserviciobsicoquemedebeproveerunISPeselruteodelosda tos que fluyen entre el navegador y el servidor, los que van en paquetesseparadoslosunosdelosotrosyquedebenpasaratravs devariasredespotencialmenteenpasesycontinentesdiferentes. EsteeselserviciofundamentalquemeproveeelISP. 4. ProtocoloHTTP Esteeseldilogoqueseestableceentreelnavegador(InternetEx plorer, Mozilla Firefox, Opera, etc.) y el servidor web en el otro extremounavezqueestnconectados.Elprotocolopermiteinter cambiar contenidos de todo tipo, como texto, pginas web, imgenes,audio,video,etc.TodalawebestbasadaenHTTP. ElprotocolooriginalfuedesplegadoenInterneten1991yrpida mentelecambi lacaraaInternet;pas determinalesdetextoa navegadoresmuyparecidosalosactuales. Enresumen,elnavegadorenvaunaURLalservidor,quienleres pondeconelcontenidoalmacenadoparaesaURLdemaneraqueel navegador lo interprete y decida qu hacer con ste. El dilogo HTTPterminaalterminaresatransferencia.

48

Captulo3Internet

ElgobiernodeInternet
EninglssehabladeInternetGovernance,quemsqueungobierno esunaformadecontrolysupervisindelsistemaquenosd garantasde queestofuncioneenformaestableparatodos. Enuninicio,cuandoChileseconectaInterneten1992,unpardeper sonas controlaban los servicios y asignaban recursos casi sin formalidad alguna.Solicitamos3aJonPostel,quienmanejabalosnombresdedominio, quenosasignaralaadministracinde.clyaqueestabavacante.Nosdiola respuestapositivarpidamente. Estohacambiadomuchoyhoyesmuycomplejoeltemadelaadminis tracinyasignacinderesponsabilidadesenInternet.Enestoparticipala comunidadInternetcompleta,losgobiernosylosorganismosinternaciona lescomolasNacionesUnidas.Alserdealcanceglobal,Internetnodebeser controladaporningnpasenparticular,perolacomunidadletememucho aunaadministracinburocrticatipoNacionesUnidas. Porahora,elorganismoqueintentaadministrarestadiscusinylosre cursosdeInternetesICANN,queesunafundacinsinfinesdelucrocon residenciaenCalifornia,EstadosUnidos.Suautoridadesbastantecuestio nada,perotodosrespetansusprocedimientosparagarantizarlaestabilidad operacionaldeInternet.Amododeejemplo,.clesunodelospocosdomi niosdepasquetieneunacuerdomarcofirmadoconICANNespecificando lasresponsabilidadesdecadaparte. ExisteunagranbatalladepoderentornoaInternetenlaactualidad[2]. Algunosopinanquelospasesdebentomarcontrolsobresusrecursosalser un servicio bsico, los organismos internacionales consideran que deben
3 JorgeOlivos,PatricioPobleteyyo.

49

Captulo3Internet existirleyesglobalespararegirlaylosusuariossloqueremosquesigafun cionando.Afortunadamente,aestasalturasnoesfciltomaraccioneslocales paraningunodelosactoresyserequiereunciertoconsensoparallevara cabocualquiercambio,loquedaalgunasgarantasdequeelsistemasiga operandoenformaestablepormuchosaosms.

Parasaberms
ParasabermssobreelgobiernodeInternet,visiteelsitiodeICANN: http://www.icann.org NICChile(http://www.nic.cl http://www.nic.cl)seencargadeadministrarlosnombresde dominioenChile.

Referencias
1. RicardoBaezaYates,JosM.Piquer,PatricioV.Poblete.TheChilean InternetConnectionorINeverPromisedYouaRoseGarden.INET'93. http://www.nic.cl/inet93/paper.html http://www.nic.cl/inet93/paper.html .CL.WikipediatheFreeEncyclopedia:http://en.wikipedia.org/wiki/.cl http://en.wikipedia.org/wiki/.cl InternetGovernance.WikipediatheFreeEncyclopedia: http://en.wikipedia.org/wiki/Internet_governance http://en.wikipedia.org/wiki/Internet_governance

2. 3.

50

Captulo4 BuscandoenlaWeb
GonzaloNavarro Sedicequelosmsjvenesnotienenideadecmoerabuscarinforma cinantesque que existieralaWeb.Eso esslo parte de laverdad.Los menosjvenestampocorecordamosgrancosa.Nosresultaunejerciciode imaginacin muy difcil recordar cmo vivamos cuando, ante cualquier consulta,desdeculturalhastadeentretenimiento,nopodamosescribirun pardepalabrasennuestrobuscadorfavoritoyencontrarinmediatamente montaasdeinformacin,engeneralmuyrelevante. ParaoperarestemilagronobastaconInternet.Nisiquierabastaconla Web.Elingredienteimprescindiblequesenecesitasonlosbuscadoresom quinas debsqueda.Estosbuscadores,cuyosrepresentantesmsconocidos hoysonprobablementeGoogle[1],Yahoo![2]yMicrosoftMSN[3],sonlos queconocenenqu pginasdelaWebaparecenqu palabras(ysabenbas tante ms). Sinun buscador, deberamos conocer las direcciones Web de todoslossitiosdebibliotecas,odeturismo,odecualquiertemaquenospu dierainteresar,ylosquenoconociramosseracomosinoexistieran.Enun sentidomuyreal,losbuscadoresconectanlaWeb,puesexistengrandespor cionesdelaWebalasquenosepuedellegarnavegandodesdeotraparte,a menosqueseuseunbuscador.Noesentoncessorprendentequecasiunter cio del tiempo que los usuarios pasan en Internet lo dediquen a hacer bsquedas.

51

Captulo4BuscandoenlaWeb

Figura 4.1: Arquitectura tpica de una mquina de bsqueda Web.

Estonosdaunaprimeraideadelgigantescodesafotecnolgicoycien tfico que supone desarrollar un buscador. Debemos resolver cuestiones bsicascomoqu pginasdeberaconocerunbuscador?Qu deberaal macenar de esaspginas?Qu tipo depreguntasdeberaaceptar?Qu deberaresponderaesaspreguntas?Cmodeberamostrarlainformacin? Ysassonslolaspreguntasmselementales. Paraordenarladiscusincomencemosmostrandolaarquitecturatpica deunamquinadebsqueda,enlafigura4.1.Ensta,laWebylosusuarios sonelmundoexterioralbuscador.Todoloqueestaladerechaespartedel buscador.

52

Captulo4BuscandoenlaWeb EnelcrawlingserecolectanpginasdelaWeb,yaseanuevasoactuali zadas.Elprocesodeindexamientoeselqueextraelosenlacesquepartende laspginasledasyrealimentaelcrawlingconnuevasdireccionesparavisi tar, mientras que almacena enel ndice lainformacin paraqu palabras aparecenenqu pginas,juntoconunaestimacindelaimportanciadeta lesocurrencias. La bsqueda usa el ndice pararesponder unaconsulta,y luegopresentalainformacinalusuarioparaquestenavegueporella[4].

Crawling:qupginasdeberaconocer unbuscador?
Sellamacrawlingalprocedimientodevisitarpginasparairactualizan doloqueelbuscadorsabedeellas.Uncrawleresunprogramaquecorreen lamquinadelbuscadoryquesolicitaadistintoscomputadoresdeInternet queletransfieranelcontenidodelaspginasWebquellesindica.Paraes toscomputadoresescasilomismoqueuncrawlerounserhumanovisite suspginas:debeenviarleelcontenidodelapginasolicitada. Qu pginasdeberaconocerunbuscador?Estentadorresponderqueto das!Perolamentablementeestonoesposible.LaWebcambiademasiado seguido:unporcentajealtodelaspginascambiadeunmesaotro,yapare ce un porcentaje importante de pginas nuevas. Internet no es lo suficientementerpida:senecesitanmesesparatransmitirtodaslaspginas delaWebalbuscador.Essimplementeimposiblemantenerunafotoactuali zada de la Web. Ni siquiera es posible explorarla al ritmo al que va creciendo!Lafotoquealmacenaunbuscadoressiempreincompletayslo parcialmenteactualizada.Noimportacuntoscomputadoresusemosparael buscador.Losmayoresbuscadoreshoyniseacercanacubrireltotaldela Web.EsinclusodifcilsaberculeseltamaorealdelaWeb!Estoesan 53

Captulo4BuscandoenlaWeb peorsiconsideramoslallamadaWebdinmica,formadaporpginasquese generanautomticamenteapedido(porejemplo,alhacerunaconsultaalsi tio de una lnea area), y que son potencialmente infinitas. Y esto consideradoqueserefierensloalaWebpblica(deaccesogratuito). Algunosnmerospuedendarunaideadelasmagnitudesinvolucra das.En2005seestimabaquelaWebcontena11.500millonesdepginas,de lascualeslosmayoresbuscadorescubranalosumoel70%.Algunosestu dioscalculanquelaWebdinmica,porotrolado,puedellegaralos500mil millonesdepginas. QuerermantenerunafotodelaWebaldapuedecompararseconque rerestaraltantodetodoloqueocurreentodaspartesdelmundo,hastalos menoresdetalleslocales,medianteleereldiariocontinuamente.Vanocu rriendomsnovedadesdelasqueesposibleirleyendo.Podemospasarnos todoeltiempoleyendodetallesinsignificantesyperdindonosloshechos msimportantes,opodemostenerunapolticamsinteligentedeseleccio narlasnoticiasmsrelevantes,ypostergar(talvezparasiempre)lalectura delasmenosrelevantes. Untemafundamentalenunbuscadoresjustamenteeldedecidirqu pginasdebe conocer,yconcuntafrecuencia actualizar elconocimiento quetienesobrecadapgina.Uncrawlercomienzaconunconjuntopequeo depginasconocidas,dentrodelascualesencuentraenlacesaotraspginas, queagregaalalistadelasquedebevisitar.Rpidamenteestalistacreceyes necesariodeterminarenqu ordenvisitarlas.Esteordensellamapoltica decrawling.Algunasvariablesrelevantesparadeterminarestapolticason laimportanciadelaspginas(deberaactualizarmsfrecuentementeuna pginaqueesmsimportante,loquepuedemedirsecomocantidaddeve ces que la pgina se visita, o cantidad de pginas que la apuntan, o frecuenciaconquesebuscanlaspalabrasquecontiene,etc.),ylafrecuencia 54

Captulo4BuscandoenlaWeb decambiodelaspginas(elcrawlerdeberavisitarmsfrecuentementeuna pginaquecambiamsseguido),entreotras.

Indexamiento:qudeberaalmacenarse delaspginas?
Elindexamientoeselprocesodeconstruirun ndicedelaspginasvisita dasporelcrawler.Este ndicealmacenalainformacindemaneraquesea rpidodeterminarqupginassonrelevantesaunaconsulta. Nobastaconalmacenarlaspginastalcual,parapoderbuscarenellas despus?No.Dadoslosvolmenesdedatosinvolucrados(losmayoresbus cadoreshoyindexanmsde3milmillonesdepginas,queocupanvarios terabytes),esimposiblerecorrerunaaunatodaslaspginasalmacenadasen unbuscadorparaencontrarculescontienenlaspalabrasqueleinteresanal usuario.Estodemorarahorasodasparaunasolaconsulta! Elbuscadorconstruyeloquesellamaunndiceinvertido,quetieneuna listadetodaslaspalabrasdistintasquehavisto,yparacadapalabraalmace nalalistadelaspginasdonde staaparecemencionada.Conun ndice invertido,lasconsultassepuedenresolvermediantebuscarlaspalabrasen elndiceyprocesarsuslistasdepginascorrespondientes(intersectndolas, porejemplo).Lafigura4.2ilustraunndiceinvertido. Losbuscadoresgrandesdebenprocesarhastamilconsultasporsegun do. Si bien este trabajo puede repartirse entre varios computadores, la exigenciasiguesiendoalta.Elmayorcostopararesponderunaconsultaesel deleerdediscolaslistasdepginasapuntadasporel ndiceinvertido.Es posibleusartcnicasdecompresindedatosparareducirelespacioenque serepresentanestaslistas.Conestoselograganarespacioyvelocidadsi 55

Captulo4BuscandoenlaWeb

Figura 4.2: Ejemplo de un ndice invertido para tres pginas Web.

multneamente.Puedenhacersetambinotrascosas,comoprecalcularlas respuestasalasconsultasmspopulares.

Bsqueda:qupreguntasdebera responder,ycmo?
Hemosestadoconsiderandoqueelusuarioescribealgunaspalabrasde intersyelbuscadorledalalistadelaspginasdondeaparecenestaspala bras. La realidad es bastante ms complicada. Tomemos el caso ms elemental,deunaconsultaporuna nicapalabra.Normalmentehaymillo 56

Captulo4BuscandoenlaWeb nesdepginasquecontienenesapalabra,yestclaroqueelusuarionotiene lamenorposibilidaddeexaminarlastodasparaverculessatisfacensune cesidad de informacin. De alguna manera el buscador debe ordenar las respuestasporsusupuestarelevanciaalaconsulta. Existenmuchasformasdecalcularestarelevancia,quedanlugarame jores o peores heursticas. Por ejemplo, uno puede considerar que una pginadondelapalabrabuscadaaparecevariasvecesesmsrelevanteque otradondeapareceunavez.Perosilapalabraaparecemsvecesenunap ginaqueesmuchomslargaqueotra,entoncestalvezlapalabranoseatan importanteenesapgina.Tambinunopuedeconsiderarcuanimportante es lapgina ens (por ejemplo siesmuy visitada,o muy apuntada por otras).Losbuscadoresutilizanfrmulasmatemticasparacalcularlarele vanciaquetienenencuentaestosaspectos. Existen tcnicas ms sofisticadas, por ejemplo llevar informacin de cmosecomportaronotrosusuarioscuandohicieronestamismaconsulta (porejemplo,elbuscadorpuedesaberquelagranmayoradelosusuarios quebuscaronmp3terminaronyendoaciertossitiosespecficos).Estosella mamineradeconsultasyesextremadamentetilparadarbuenasrespuestas aconsultasquenodicenmucho.Tambinpuedeusarseinformacinposicio nal, por ejemplo si la palabra aparece en el ttulo de la pgina o de los enlacesquelaapuntan,puedesermsrelevantequesiaparececercadelfi nal. Lasituacinsecomplicacuandolaconsultatienevariaspalabras,don de algunas pueden ser ms importantes que otras. Normalmente las ocurrenciasdepalabrasqueaparecenenmuchosdocumentos,comolosart culos y preposiciones, son poco importantes porque no sirven para discriminar.Parapeor,suslistasdeocurrenciasenlosndicesinvertidosson muylargas,ocupandoespaciointil.Porellomuchosbuscadoreslasomiten 57

Captulo4BuscandoenlaWeb de sus ndices (intentebuscar and ensu buscador favorito).Laformade combinarelpesodelasdistintaspalabrasdalugartambinamejoresopeo res heursticas. Por ejemplo los buscadores en la Web normalmente muestranslopginasdondeaparecentodoslostrminos,comounaforma deeliminarrespuestasirrelevantes.Asimismo,losmejoresdanpreferenciaa pginasdondelaspalabrasaparecencercanasentres. PerolaverdadesqueenlaWebhaymucha,muchamsinformacin delaquesepuedeobtenermediantebuscardocumentosquecontengancier tas palabras. Esta limitacin se debe a que no es fcil implementar bsquedas ms sofisticadas a gran escala. Conseguir responder consultas mscomplejasaescaladelaWebesuntemaactualdeinvestigacin.Algu nosejemplosson: 1. Buscarporcontenidoenfotos,audioovideo.Imagnesemos trarunafotodesupromocinypoderencontrarotrasfotosdelas mismaspersonasenlaWeb,inclusosinrecordarsusnombres.Ota rarearunapartedeunameloda(inclusoconerrores)yencontrarel mp3parapoderbajarlo.Existentcnicasparahaceresto,peronoa granescala.Losbuscadoresofrecenbsquedadefotos,perobasada enpalabrasqueunapersonaseencargadeasociaracadafotodu ranteelcrawling. 2. HacerpreguntascomplejasquesepuedeninferirdelaWeb. Porejemplopreguntascomoculeslafarmaciamscercanaque vendaunantigripalaunprecioinferiora$3.000?yquuniversida desdictanunacarreradeDiseo Grfico de 5aosenlaRegin Metropolitana?Responderestetipodepreguntasrequierenormal mentedeciertacooperacindequienescribelaspginas.

58

Captulo4BuscandoenlaWeb 3. Hacerconsultasconcomponentetemporal,comoqu ocurri conelseguimientoenlosmediosdecomunicacinalasconsecuen cias de la guerra en el Lbano en los meses siguientes a su finalizacin?Estorequierellevarunacuentahistricadelosconteni dosdelaWebalolargodeltiempo.

InteraccinconelUsuario:cmo presentarlainformacin?
Yavimosquelasrespuestasquesemuestranalusuariosonslouna mnimapartedelasquecalifican.Losbuscadoresnormalmentepresentan unalistadelasprimeraspginassegnelordenquehanhechoenbaseala consulta.Enestalistaseindicaladireccindelapgina(paraqueelusuario puedavisitarlaconunclick)yusualmenteel contextodeltextodondelaspa labrasaparecen.Estoayudaalusuarioasaberrpidamentesilaspalabras aparecenenlaformaqueesperaba(porejemplo investigacinpuederefe rirseacientficaopolicial). Podermostraruncontextorequierequeelbuscadornoalmaceneslo el ndiceinvertido,sinotambinelcontenidocompletodelaspginasque indexa.Sibienelespacioesbarato,estoesunrequerimientobastanteexi gente, pues el buscador debera tener suficiente almacenamiento para duplicartodalaWebensusdiscos!Porejemplo,parareducirelespacio,el buscadorpuedeevitaralmacenarlasimgenes.Lacompresindedatoses tambintilparaaliviaresteproblema. Losbuscadoressuelenserlosuficientementebuenoscomoparaque,en ungranporcentajedelasveces,loquebusqueelusuarioest entrelaspri meras respuestas que ofrece. De todos modos es posible pedirle que

59

Captulo4BuscandoenlaWeb entregueelsiguienteconjuntoderespuestas,yelsiguiente,hastahallarlo queunobusca.Laexperiencianormalesque,silarespuestanoest enlas primeraspginas,esraroqueest msadelante.Enesoscasosesmejorre formular la consulta, por ejemplo hacindola ms especfica (si se encontrarondemasiadaspginasirrelevantes)omsgeneral(siseencontra ron muy pocas respuestas). Por ejemplo, en la figura 4.2, si buscramos investigacinencontraramostantolapginadelCentrodeInvestigacin delaWebcomolanoticiapolicial.Refinandolaconsultaa investigacin policialtendramosmejorprecisin.Estaiteracinesfrecuenteenlasse sionesconlosbuscadores,yconeltiempoelusuarioaprendeaformular consultasmsexitosas. Existen formas mucho ms sofisticadas de presentar la informacin, peronuevamenteesdifcilaplicarlasasistemasmasivoscomolaWeb.Asi mismosueleocurrirquelasinterfacesdemasiadointeligentesresultanser demasiadocomplejasparalamayoradelagente.Inclusoloslenguajesde consultamssofisticados,dondesepuedeindicarquelaspalabrasAyBde benaparecer,perono C,normalmenteestndisponiblesenlosbuscadores Web,peroseusanmuyraramente.Lareglaenestecasoesquelasimplici dadeslomejor.

60

Captulo4BuscandoenlaWeb

Parasaberms
Elsitiowww.searchenginewatch.com www.searchenginewatch.comestdedicadoalasestadsticassobre lasprincipalesmquinasdebsquedaenlaWeb. Lossitioshttp://www.press.umich.edu/jep/0701/bergman.html http://www.press.umich.edu/jep/0701/bergman.htmly http://www2.sims.berkeley.edu/research/projects/howmuchinfo2003/ http://www2.sims.berkeley.edu/research/projects/howmuchinfo2003/ estndedicadosaestudiarelcrecimientodelaWeb,yengeneraldela cantidaddeinformacindisponibleenelmundo. Elsitiowww.todocl.cl www.todocl.cleselbuscadorchilenoTodo.cl.

Referencias
1. 2. 3. 4. Google.http://www.google.com http://www.google.com Yahoo!http://www.yahoo.com http://www.yahoo.com MicrosoftMSN.http://www.msn.com http://www.msn.com RicardoBaezaYates,BerthierRibeiroNeto.ModernInformationRetrieval. AddisonWesleyLongman,1999.Captulo13.

61

Captulo5 Manejodegrandesvolmenes deinformacinutilizando Clustersdecomputadores


MauricioMarn Seestimaquelacantidaddetextoalmacenadoenlosdistintossitios WebdelmundoesdelordendecentenasdeTerabytes,ylacantidaddein formacindisponiblecrecedatrasda.Enesteescenarioesevidenteque almacenaryprocesartodaesainformacinutilizandounslocomputador esprcticamenteimposible.Loquehacenlosbuscadoresactualesesutilizar muchoscomputadorespararesolverlosdistintospasosinvolucradosenla produccindeunarespuestaaunaconsultadeusuario[1].Aesteconjunto decomputadoresselesllamacluster. Unclusterestcompuestodeunconjuntodecomputadoresinterconec tadosmedianteunaredquelespermiteenviarsemensajesentreellos(ver figura5.1).Estosmensajesseutilizanpararecolectarlainformacinnecesa riapararesolverunadeterminadatareacomoporejemplolasolucinauna consultadeunusuario.Enelclustercadacomputadortienesupropiame moriaRAMydiscoparaalmacenarinformacin.Cadacomputadorpuede leeryescribirinformacinensupropiamemoriaysinecesitainformacin

63

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores

Figura 5.1: P computadores con memoria local e interconectados mediante una red.

almacenadaenotrocomputadordebeenviarleunmensajeyesperarlares puesta. Unejemploquemuestralamaneraenqueestotrabajaeselsiguiente (verfigura5.2).SupongamosqueexistenPcomputadoresdeunclusterque necesitantenerensumemoriaunlibrode N pginasparapodertrabajar, perodicholibroseencuentraalmacenadoenunslocomputador,digamos elcomputador1.Loquepuedehacerelcomputador1esdividirellibroen P partescadaunadeN/Ppginasyenviarunapartedistintaacadaunodelos P1 computadoresdelcluster.Luegodeestepasocadacomputadorqueda conunapartedistintadellibro.Luego,enunsegundopaso,cadacomputa dorenvaatodoslosotroslapartedetamao N/Pquetienealmacenadaen sumemoria.Alfinaldeestepasotodosloscomputadoresquedanconuna copiacompletadellibro. Unaestrategiaalternativaessimplementehacerqueelcomputadorque tieneellibroenviunmensajeacadaunodelosP1restantescomputadores conunacopiadellibro.Elresultadofinaleselmismo,peroesmenoseficien tequeelprimermtodoporquenoexisteelparalelismoqueseproduceenel 64

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores

Figura 5.2: Enviando un libro de N pginas a P computadores.

segundopasocuandotodosalmismotiempoestnenviandounacopiade supartedetamaoN/Patodoslosotros.

MquinasdebsquedayClusters
Enunclusterutilizadocomomquinadebsqueda,cadacomputador tienesupropiamemoriaRAMydiscoparaalmacenarunapartedelainfor macindelsistemacompleto.Porejemplo,sitenemosunacoleccindetexto bajadodelaWebporelcrawlerqueocupaNbytesytenemosunclustercon Pcomputadores,entoncespodemosasignaracadaunodelos Pcomputado resunafraccinN/Pdelosbytesdelacoleccin.Enlaprcticasilacoleccin 65

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores completatieneDdocumentosopginasWeb,entoncesacadacomputador delclusterseleasignanD/Pdocumentos. Enunamquinadebsquedalasconsultasdelosusuarioslleganaun computadorrecepcionistallamadobroker,elcualdistribuyelasconsultasen trelos P computadoresqueformanelcluster(verfigura5.3).Talcomose muestraenlafigura4.1,lasmquinasdebsquedautilizanunndiceinver tidoparadisminuireltiempodeprocesamientorequeridoparaobtenerla respuestaaunaconsulta. Dadoquecadacomputadordelclustertieneuntotalde D/Pdocumen tos almacenados en su memoria, lo que se hace es construir un ndice invertidoencadacomputadorconlosdocumentosalmacenadoslocalmente encadaunodeellos.Entoncescadavezqueelbrokerrecibeunaconsultade unusuario,esteenvaunacopiadelaconsultaatodosloscomputadoresdel cluster(notarquepodemosconsiderarungrupograndedeconsultascomo

Figura 5.3: Organizacin de un cluster de computadores.

66

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores unlibroyporlotantoelbrokerpuededistribuirlasdemaneraeficienteutili zando la estrategia de la figura 5.2). En el siguiente paso, todos los computadoresenparaleloleendesdesumemorialaslistasinvertidasasocia dasconlaspalabrasqueformanlaconsultadelusuario.Luegoserealizala interseccindelaslistasinvertidasparadeterminarlosdocumentosquecon tienentodaslaspalabrasdelaconsulta. Altrminodeestepasotodosloscomputadorestienenunconjuntode respuestasparalaconsulta.Sinembargo,lacantidadderespuestaspuede serinmensamentegrandepuestoquelaslistasinvertidaspuedenllegara contenermilesdeidentificadoresdedocumentosquecontienentodaslaspa labrasdelaconsulta.Esnecesariohacerunrankingdelosresultadospara mostrarlosmejoresKresultadosalusuariocomosolucinalaconsulta. Pararealizarelrankingfinaldedocumentosesnecesariocolocaren unodeloscomputadoresdelclusterlosresultadosobtenidosportodoslos otros.Estoconelfindecompararesosresultadosunosconotrosydetermi nar los mejores K. Sin embargo, enviar mensajes conteniendo una gran cantidad de resultados entre dos computadores puede consumir mucho tiempo.Esdeseablereducirlacantidaddecomunicacinentrecomputado res. Ahora,sicadacomputadorhacalculadolosmejoresresultadosparala consultaconsiderandolosdocumentos(listasinvertidas)quetienealmace nadosensudisco,entoncesnoesnecesarioenviarlostodosalcomputador encargadoderealizarelrankingfinal.Bastaconenviaraestecomputador los K mejoresdecadaunodelos P1computadoresrestantes.Esdecir,el rankingfinalsepuedehacerencontrandolosKmejoresentrelos K P re sultadosaportadosporlosPcomputadores.

67

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores Peroestosepuedemejorarmasanyasreduciralmximolacantidad decomunicacinentreloscomputadores.Dadoquelosdocumentosestn uniformementedistribuidosenlosPcomputadoresesrazonablepensarque cadacomputadortendrmsomenosunafraccin K/PdelosmejoresKre sultadosmostradosalusuario.Entoncesloquesepuedehacerestrabajar porciclosrepetitivosoiteraciones.Enlaprimeraiteracintodosloscompu tadores envan sus mejores K/P resultados al computador encargado de hacerelrankingfinal.Estecomputadorhaceelrankingyluegodeterminasi necesitamsresultadosdelosotroscomputadores.Siesas entoncespide nuevamenteotrosK/Presultadosyashastaobtenerlos Kmejores(verfigu ra 5.4). Esto porque si tenemos mala suerte podra ocurrir que para esa consultaenparticularunodeloscomputadoresposealos Kmejoresresulta dosqueselevanaentregaralusuario,casoenquesenecesitan Piteraciones paraobtenerlarespuestaparaelusuario.Peroesmuypocoprobableque estoocurraparatodaslasconsultasqueseprocesanenunamquinadebs quedagrande.Enlaprcticaserequierenunooalomsdositeraciones paralainmensamayoradelasconsultas,locualpermitereducirconsidera blementeelcostodecomunicacinentreloscomputadoresdelcluster. Enlasmquinasdebsquedamsconocidasserecibenalrededorde 600consultasporsegundo.Unamaneradeexplotaralmximolacapacidad deloscomputadoresdelclustereshacerlostrabajarenparalelo.Estosepue de lograr asignando los computadores para hacer el ranking de manera circular.Porejemplo,elcomputadorbrokereligealcomputador1paraha cerelrankingdelaconsulta q1,alcomputador2paralaconsulta q2,...,el computadorPparalaconsultaqp,elcomputador1paralaconsultaqp+1,yas sucesivamentedemaneraqueenuninstantedadopodamosteneraPcom putadoreshaciendoelrankingdePconsultasdistintasenparalelo.

68

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores

RecoleccindepginasWebyClusters
Parapoderrealizarconsultasdeinformacinenunamquinadebs quedanecesitamosque stacontengainformacinactualizadadelaWeb. Losbuscadorescomercialestienensoftwareenoperacinqueestconstante mente conectndose a los sitios Web de todo el mundo para bajar los documentosdelossitioseindexarlos(esdecir,actualizarelndiceinvertido delamquinadebsqueda)yponerlosadisposicindelosusuarios. LaWebmundialesinmensamentegrandeylosenlacesaInternettie nenlimitacionesdevelocidaddetransferenciadedatos,porlotantonoes posiblebajartodalaWebenunpardehoras.Porejemplo,actualmentebajar todalaWebChilenatomade4a5dasutilizandounsolocomputadorco nectado a un enlace de alta velocidad. Para bajar la Web mundial es necesarioutilizarclustersdecomputadorescuyonmerovaraentrediezy veintemilcomputadoresyesunprocesoquedemoravariassemanas. Granpartedelxitodeunamquinadebsquedadescansaensucapa cidad de almacenar la versin ms reciente de la Web. Por lo tanto es necesarioestablecerunordenpararealizarlasvisitasalossitiosWebdema nera de recuperar primero los sitios que son de mayor inters para los usuarios.Unamaneradeasignarunamedidadeintersparalossitios Webessuponerquelossitiosquesonmsapuntadosporotrossitiosreco nocidoscomoimportantessontambininteresantesparalosusuarios.Un sitioaesapuntadoporotrositiob,sienelsitiobhaypginasWebquetie nenenlacesoreferenciasalaspginasdelsitioa. LaprimerapginadeunsitioWebesllamada homepage.Unaoms pginassondescubiertassi,cuandobajamosunapgina,stacontieneenla cesapginasnuevasquenohansidoconsideradasanteriormente.Entonces 69

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores sibajamoselhomepagedeunsitiopodemosdescubrirnuevaspginasdes delosenlacesqueestapginatiene. UnaestrategiapararecuperarlaspginasWebdelosdistintossitiosen ordendeimportanciaescalcularunnmerorealqueindicalaimportancia decadapginaquesedescubre.Laprximapginaabajareslaquepresen taunmayorvalornumricoeneseinstante.Porejemplo,podemosusarla siguientereglaparanumerarlaspginas.Inicialmentelesdamoselvalor1a todoshomepagesconocidos.Cadavezquesebajaunhomepagelereparti mosdemaneraequitativaelvalor1atodaslaspginasalasqueelhome

Figura 5.4: Ranking iterativo en un computador del cluster.

70

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores pageapunta(pginasreferenciadasporlosenlacesdelhomepage).Asu vez,estaspginasdesegundonivelapuntanaotraspginasyhacemoslo mismo,esdecir,elvalordeestaspginasesrepartidoalaspginasapunta dasporellasyas sucesivamente.Lafigura5.5muestraunejemplodedos sitiosconhomepagesdadosporlaspginas AyB.Enesteejemplo,lapgi naCeslatercerapginaaserbajadapuestoquerecibeelvalor1/3desdela pginaA,yelvalor1/4desdelapginaB. LamaneradeponeramuchoscomputadoresabajarlaWebmundiales distribuirdemaneraequilibradatodosloshomepagesconocidosenPcom putadores.Porejemplo,enelcasodelafigura5.5elhomepage Aesalojado enelcomputador1yelhomepageBespuestoenelcomputador2.Deesta maneraelcomputador1puedebajarlapgina A almismotiempoqueel computador2bajalapginaB.Sinembargo,debehaberunpuntodecomu nicacinentreloscomputadorespuestoqueunavezqueelcomputador1 bajalapginaA,estehanumeradocon1/3lastrespginasalasqueapunta yporlotantopodraelegiracualquieradeestastrescomolasiguientepgi naabajar.Luego,sinohaycomunicacinentreloscomputadores1y2,el computador1podraelegirunapginadistintaalapgina C comolasi guientepginaaserbajada.Unasituacinsimilarocurreconlapgina Esi elcomputador1noleenvamensajesalcomputador2indicandocambiosen lanumeracindelaspginasdelsitioB. Unasolucinpocoeficienteeshacertrabajaraloscomputadoresenfor maestrictamentesincrnicapermitindolesbajarslounapginaparaluego realizarelintercambiodemensajes.Sinembargoestopuederesultarenuna subutilizacindelparalelismodisponible,puestoquenosiempreocurren casoscomoelmostradoenlafigura5.5.ParaunaWebinmensamentegran deesmsprcticopermitirqueloscomputadorestrabajenbajandomuchas 71

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores

Figura 5.5: Dos sitios Web asignados a dos computadores.

pginasparaluegoiniciarunafasedeintercambiodemensajesyrenumera cin de pginas. Claramente hay una situacin de compromiso entre la cantidaddepginasquelesdejamosbajarantesdeiniciarlafasedecomuni cacin,yelerrorquesepuedecometeralrenumerartardamente. Estomuestraquealgunasveceshacertrabajaramuchoscomputadores enparalelodemaneraeficienteinvolucrapensarenlasolucinaproblemas quenosurgencuandosetrabajaconunsolocomputador.Enestecasopode mosalcanzargraneficienciapermitiendoelerrorperodeformacontrolada. Porejemplo,cadacomputadorpuedebajarunnmerondepginasyalfi nalizarlafasedecomunicacindeterminarlamagnituddelerrorcometido y,enbaseaesaevaluacin,ajustarelvalordenparaelsiguienteciclo.

72

Captulo5Manejodegrandesvolmenesdeinformacinutilizando Clustersdecomputadores

Parasaberms
UnapresentacinenelCentrodeInvestigacindelaWebsobreelmismo tema:www.ciw.cl/material/tw07mmarin.pdf www.ciw.cl/material/tw07mmarin.pdf ElartculoWebSearchforaPlanet:TheGoogleClusterArchitecture,de LuizBarroso,JeffreyDeanyUrsHoelzle,comentalaarquitecturade clustersdeGoogle:http://labs.google.com/papers/googlecluster.html http://labs.google.com/papers/googlecluster.html

Referencias
1. 2. RicardoBaezaYates,BerthierRibeiroNeto:ModernInformationRetrieval AddisonWesleyLongman,1999.Captulos9y13. LuizBarroso,JeffreyDean,UrsHoelzle.WebSearchforaPlanet:The GoogleClusterArchitecture.IEEEMicro,Marzo/Abril2003(vol.23,nro. 2).Pginas2228.http://labs.google.com/papers/googlecluster.html http://labs.google.com/papers/googlecluster.html

73

Captulo6 XML:TransformandolaWeb enunaBasedeDatos


MarceloArenas UnadelasrazonesparalapopularizacindelaWebhasidoeldesarro llodeunainfinidaddepginasqueentregandistintosservicios;buscadores comoYahoo!yGoogle,grandesrepositoriosdeinformacincomoWikipe dia, tiendas electrnicas como Amazon, diarios y revistas electrnicas, pginapersonales,etc.BajoestedesarrollohaestadoHTML,unlenguaje quepermiteestructurartantolainformacincomolasposibilidadesdena vegacinenunapginaWeb. Durantelosltimosaos,lacantidaddeinformacinalmacenadaenla Webhaidocreciendodemaneradramtica.Hoyningnusuariotienelaca pacidadderecorrerlaWebenteraenbuscadeinformacin,yesnecesario utilizarbuscadoresautomticoscomoYahoo!yGoogleparapoderrevisar unafraccinsignificativadeestared. Nadiepuedenegarlaimportanciayutilidadquetienenlosbuscadorespara encontrarinformacinenlaWeb.Sinembargo,muchosusuariospuedende cirquesuexperienciaconellosnohasidocompletamentesatisfactoria.A medidaquelasconsultasquesequiererealizarsonmscomplejas,labs quedadeinformacinpuederequerirdevarios,omuchos,intentosenlos cualesesnecesariojugarcondistintosparmetros.Pienseporejemploenla 75

Captulo6XML:TransformandolaWebenunaBasedeDatos consultadlalistadelibrosdeArielRubinstein.Pararealizarestaconsul tabastaconponerArielRubinsteinenunbuscadoryusarlosprimeros elementosdelalistaderespuesta(probablementeelprimero)paraencontrar lapginadeesteautor,yah lalistadesuslibros.Peroahorapienseenla preguntadlalistadelibrosdeArielRubinsteinysusprecios.Qucolo caraenunbuscadorparaencontrarlarespuesta?Peoraun,pienseenuna preguntacomolasiguientedlalistadelibrosdeArielRubinsteinquehan bajadodeprecioenlosltimosaos.Cmosepuedebuscarestainforma cinusandoYahoo!oGoogle? Porqu losbuscadorestienendificultadesenlosejemplosanteriores? UnadelasrazoneseselusodeHTML;esteesunlenguajequepermitedes plegarinformacinqueesfcildeentenderparalosusuarios,peroqueen generalesdifcildeinterpretarparaloscomputadores.Estasdificultadesya puedenverseenejemplostansencilloscomoelsiguiente:
<html> <bodybgcolor="#FFFFFF"> <center> <h2>TodoLibros</h2> </center> <ul> <li><b>Teor&iacute;adeJuegos.</b> MartinOsborneyArielRubinstein.Precio:16000.</li> </ul> </body> </html>

Estearchivoesusadoparamostrarlalistadelibrosvendidosporlali breraTodoLibros.Ntesequeestearchivohasidoindentado(espaciado) demaneraqueseafcilvisualizarlaestructurajerrquicadeldocumento. Porejemplo,<li>correspondeauntemenlalistadefinidapor<ul>.Enun 76

Captulo6XML:TransformandolaWebenunaBasedeDatos browsertalcomoFireFoxoExplorer,estalistaserdesplegadadelasiguien teforma: TodoLibros TeoradeJuegos.MartinOsborneyArielRubinstein. Precio:16000.

Paraunusuariolainformacinenestalistaesfcildeentender;esclaro quehayunalistadelibros,cadaunoconsusautoresysuprecio.Sinembar go,parauncomputadorestainformacinnoestanclara.Unadelasrazones esqueelcomputadornotienelainformacindecontexto,ometainforma cin,quetieneelusuario.Cmopuedeuncomputadordeducirqueest frenteaunalistadelibros?Yaunsisabeesto,cmopuedeextraerinforma cin desde el documento, por ejemplo los precios de los libros? Es importantenotaraququeeldocumentoHTMLnotieneningunaindicacin sobredondebuscarestainformacin,simplementedicecmodebeserdes plegadalalistadelibros.As,elcomputadordebetratardeinterpretarel textoparapoderextraerlalistadeprecios.Porejemplo,puedebuscarlapa labraPrecioyelnmeroquelosigue(oantecede).Aunqueenestecaso estopuededarbuenosresultados,lasituacinpuedevolversemscompli cada si la lista contiene varios precios para un mismo libro (precio sin descuento,condescuentoporcompraelectrnica,condescuentoaclientes frecuentes,etc),oaunmscomplicadasiserequieredehaceralgunosclcu los para saber el precio final (precio despus del 15% de descuento por compraelectrnica). LabsquedadeinformacinenlaWebpuedemejorarsesilosformatos usadosparaalmacenarinformacinpuedenserfcilmenteinterpretadospor

77

Captulo6XML:TransformandolaWebenunaBasedeDatos loscomputadores.UnapropuestaparahacerestoeselusodeXML,comose verenlassiguientessecciones.

XML:Unlenguajeparaalmacenar informacin
UndocumentoXML(eXtensibleMarkupLanguage[2])essimilaraun documentoHTML;estcompuestopormarcadores,otags,queestnani dadoscomoenelcasodeHTML.Lamayordiferenciaesquelosmarcadores de HTML tienen significados predefinidos, tales como <title> y <ul>, mientrasquelosdeXMLsondefinidosporelusuario.Porejemplo,elsi guienteesundocumentoXMLquealmacenalamismainformacinqueel documentoHTMLmostradoenlaseccinanterior:
<?xmlversion="1.0"?> <libreria> <nombre>TodoLibros</nombre> <libro> <titulo>Teor&iacute;adeJuegos</titulo> <autor> <nombre>Martin</nombre> <apellido>Osborne</apellido> </autor> <autor> <nombre>Ariel</nombre> <apellido>Rubinstein</apellido> </autor> <precio>16000</precio> </libro> </libreria>

78

Captulo6XML:TransformandolaWebenunaBasedeDatos Comopuedeverse,eldocumentoestcompuestopormarcadorestales como<libreria>,<libro>y<autor>.Unmarcadorconnombre<a>esce rrado por uno connombre </a>.Losnombres de los marcadoresfueron definidosporunusuario,ylanicarestriccinquedebencumplir,comoen elcasodeHTML,esquedebenestarcorrectamenteanidados;sileyendoel documentodearribahaciaabajo<autor>aparecedespusde<libro>,en tonces el marcador </autor> que lo cierra debe aparecer antes que el marcador </libro> que cierraa <libro>,valedecir, <autor> debeestar completamentecontenidodentrode<libro>.Atravsdeestoseespecifica que<autor>esunodelosautoresde<libro>. LosmarcadoresdeldocumentoXMLfuerondiseadosparamostrarde formaclaralainformacinsobreunlibro.Siuncomputadorquierebuscarel ttulodeunlibro,entoncesbastaconquebusqueelmarcador<titulo>,ysi quiereencontrarelpreciodellibroconttuloTeoradeJuegos,entonces bastaqueencuentreunmarcador<libro>quetengaTeoradeJuegosen <titulo>,yque despus despliegue lo que seencuentraenelmarcador <precio>dentrodeeselibro.Laformaenquelainformacinestagrupada ylosnombresdelosmarcadoresleindicanauncomputadordndebuscar informacin. XMLentoncessurgecomounabuenaalternativaparaalmacenarinfor macin;uncomputadortienemayoresposibilidadesdeinterpretaryextraer informacindesdeestetipodedocumentos.Debemosentoncesreemplazar HTMLporXML?Larespuestaesno.Estosdoslenguajestienendistintasfi nalidades. Mientras HTML es usado para especificar cmo desplegar informacinenunbrowser,XMLesusadoparaalmacenarinformacinyno contieneindicacionesdecomomostrarla.Setieneentoncesquediseartec nologasquepermitansacarventajasdelosdoslenguajes.Enlasiguiente seccinsevercmohaceresto.

79

Captulo6XML:TransformandolaWebenunaBasedeDatos

TransformacindedocumentosXML
UnadelasrazonesparalacreacindeXMLfuetenerunformatoque permitieraintercambiarinformacinenlaWeb.Laideaesquesivariasper sonas o empresas desean intercambiar datos sobre un tema comn, por ejemplolibros,yusanformatosXMLdistintosparaalmacenarsuinforma cin, entonces puedan intercambiar informacin de manera sencilla. La formadehacerestoesusandoalgnlenguajedetransformacinquepermi tacambiardeunformatoaotro.Porejemplo,siunaempresausaelformato:
<autor> <nombre>Martin</nombre> <apellido>Osborne</apellido> </autor>

paraalmacenarlosnombredeautoresdelibros,mientrasotrausaunforma tomssimpledondeelnombreesalmacenadocomounasolapalabra:
<autor>MartinOsborne</autor>

entoncesunaregladetransformacindesdeelprimerformatoalsegundo debeconcatenarelnombreyapellidodeunautorparagenerarsunombre comounasolapalabra. XMLfueelegidocomoellenguajeparaintercambiarinformacinpor su gran flexibilidad, esencialmente cualquier documento XML es vlido mientraslaanidacindelosmarcadoresseacorrecta.Ellenguaje elegido paraespecificarlastransformacionesfueXSLT(ExtensibleStylesheetLan guageTransformations[3]).Esteesunlenguajequebuscapatronesdentro deundocumentoeindicacmoreestructurarlos.Porejemplo,buscaeltag <autor>,ydespusindicaquelaspalabrasqueaparecendentrode <nom bre>y<apellido>paraesteautortienenqueserconcatenadas.

80

Captulo6XML:TransformandolaWebenunaBasedeDatos XSLTnoslopermitehacertransformacionesentredocumentosXML, engeneralpermitegenerarcualquiertipodedocumentodesdeundocumen toXML(HTML,textoplano,programaenalgnlenguajedeprogramacin comoJavaoC++,etc).Enparticular,hoyesusadoporbrowserstalescomo FireFoxyExplorerparapoderdesplegardocumentosXML.Laideaaqu es simple:comoXMLesunmejorformatoparaalmacenarinformacin,convie netenerlosdocumentosenlaWebenesteformato.SiundocumentoXML tienequeserdesplegadoporunbrowser,entoncesseusaunconjuntodere glasXSLTparagenerarundocumentoHTMLdesdelafuenteXML,elcual esusadoporelbrowseraldesplegarlainformacin.Veamosestoenelejem ploanterior.ParaindicarculeselprogramaXSLTausaraldesplegarun documentoXMLseusaunalneaadicionaleneldocumento:
<?xmlversion="1.0"?> <?xmlstylesheettype="text/xsl"href="libreria.xslt"?> <libreria> <nombre>TodoLibros</nombre> <libro> ... </libro> </libreria>

Enelcampohref="libreria.xslt"seindicaquesedebeusarelar chivoXSLT libreria.xslt.Enlafigura6.1semuestrapartedelconjunto dereglasXSLTqueesusadoparatransformareldocumentoXML,coninfor macinsobrelibroseneldocumentoHTMLmostradoenlaprimeraseccin. Noseesperaaququeellectorpuedaentendertodoslosdetallesdeun documentoXSLT,peros quedespusdeterminarestaseccintengauna ideadecmofuncionaestelenguaje.Comopuedeverseenlafigura6.1,un documentoXSLTestcompuestoporunaseriedepatronesquesondeclara dosatravsdelmarcadorxsl:template.Cadaunodeestospatronestiene 81

Captulo6XML:TransformandolaWebenunaBasedeDatos
<?xmlversion="1.0"?> <xsl:stylesheetversion="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:templatematch="/"> <html> <bodybgcolor="#FFFFFF"> <center> <h2> <xsl:applytemplatesselect="/libreria/nombre"/> </h2> </center> <ul> <xsl:applytemplatesselect="/libreria/libro"/> </ul> </body> </html> </xsl:template> <xsl:templatematch="/libreria/nombre"> <xsl:valueofselect="."/> </xsl:template> <xsl:templatematch="/libreria/libro"> ... </xsl:template> ... </xsl:stylesheet> Figura 6.1: Reglas XSLT para transformar un documento XML en HTML.

82

Captulo6XML:TransformandolaWebenunaBasedeDatos unatributomatchqueindicadndesedebeusarelpatrn.Porejemplo,el patrn:


<xsl:templatematch="/libreria/nombre"> <xsl:valueofselect="."/> </xsl:template>

debeserusadoentodoslosnodosdeldocumentoXMLquesonalcanzados siguiendoelcamino/libreria/nombredesdeelpuntoinicialdeldocumen to.As,enelejemplosevaaalcanzarelelementoconmarcador<nombre>, queeshijodelelementoconmarcador<libreria>.Enelpatrndearriba, seutiliza xsl:valueof paraindicarqu seleccionardesdeesteelemento, enestecasoTodoLibrosyaqueseusaselect=".". NtesequeeldocumentoXSLTtieneunsolopatrntalquematch="/". Esteeselprimerpatrnquedebeserusado,yen lseindicaqueeldocu mentoaconstruiresdelaforma:
<html> <bodybgcolor="#FFFFFF"> <center> <h2> <xsl:applytemplatesselect="/libreria/nombre"/> </h2> </center> <ul> <xsl:applytemplatesselect="/libreria/libro"/> </ul> </body> </html>

83

Captulo6XML:TransformandolaWebenunaBasedeDatos EnestedocumentoHTMLaparecedosveces xsl:applytemplates. Estoesusadoparaindicarqueenesospuntossedebecolocarlosresultados deaplicarlospatronescorrespondientes.Porejemplo,enelcasode:


<h2><xsl:applytemplatesselect="/libreria/nombre"/></h2>

sedebeusarelpatrnquecontienelaexpresin match="/libreria/nom bre".YasehabavistoqueestepatrngeneracomorespuestaTodoLibros, porloquealhacerelreemplazosevaaobtener:


<html> <bodybgcolor="#FFFFFF"> <center> <h2>TodoLibros</h2> </center> ... </body> </html>

SisecomparaestoconeldocumentoHTMLmostradoenlaseccinini cial,sedar cuentaqueloquesemuestraarribacoincideconlaprimera partedeldocumentoHTMLinicial.Paraconstruirelrestodeldocumentose utilizaelpatrnquecontienelaexpresin match="/libreria/libro".Este patrn,yelrestodeldocumentoXSLT,sonomitidosenlafigura6.1. Enelenfoqueparaalmacenarinformacindescritoenestaseccin,los datossonalmacenados enun archivo XML,elcual esdesplegado enun browserusandounconjuntodereglasXSLTqueindicancmogenerarun archivoHTMLdesdeelarchivoXMLoriginal.Parasacarelmayorprovecho aesteenfoque,todavanosfaltaindicarcmosepuedeextraerinformacin desdeundocumentoXML.Estoseverenlasiguienteseccin.

84

Captulo6XML:TransformandolaWebenunaBasedeDatos

ExtraccindeinformacindesdeXML
Enlasseccionesanterioressemostrunenfoqueparaalmacenarinfor macinenlaWebenelcuallosdatossonalmacenadosenXMLymostrados alosusuariosenHTML(utilizandotransformacionesescritasenXSLT).Se argument questeeraunbuenenfoqueporquepermitatenerlomejorde dosmundos:porunaparteparauncomputadoresmsfcilinterpretarin formacinescritaenXML,yporlotantoesmsfcilextraerinformacin desdeesteformato;yporotraparteHTMLproveedebuenasherramientas paradesplegarinformacinenlaWeb. Paraqueelenfoqueanteriorpuedallevarseacaboesnecesariotener buenoslenguajesdeconsultaparaXML.Estoslenguajesdebensersuficien temente expresivos como para permitir al usuario expresar consultas generales,ytambindebenestaracompaadosdeprocedimientoseficientes paraevaluarconsultas.EnestaseccinsevaaintroducirXPathyXQuery, losdoslenguajesdeconsultamspopularesparaXML. LaprimeraversinestandarizadadeXPathesde1999[4].XPathpuede serconsideradocomoellenguajedeconsultamspopularparaXML,yaque formapartedelamayorpartedeloslenguajesdeconsultaparaXMLy,en particular,espartedeXQuery[1],comosevermsadelante.XPathprovee unaseriedeherramientasquepermitennavegarundocumentoXML,selec cionarelementosdesde lyextraerlosparaserdesplegadosousadospor otrasconsultas.UnadelasrazonesdelapopularidaddeXPathesqueestas herramientassonsimplesdeusar,ysonlosuficientementeexpresivaspara podermanejarmuchasdelasconsultasquelosusuariostienenenlaprcti ca.Adems,laestructurasimpledeestelenguajehapermitidoeldesarrollo deprocedimientoseficientesparaevaluarconsultas.

85

Captulo6XML:TransformandolaWebenunaBasedeDatos LamejormaneradeentenderXPathesatravsdealgunosejemplos. SupongaqueseestutilizandoeldocumentoXMLconinformacinsobreli brosdescritoenlaseccin6.1,yquesehautilizadorepetidasveceseneste captulo.Siunusuarioquiereextraerelnombredelalibrera,entoncespue deutilizarlasiguienteconsultaXPath:


child/?nombre/text()

EsencialmenteunaconsultaenXPathconsistedeuncamino,ysures puestaeselconjuntodetodosloselementosquepuedenseralcanzadosen undocumentoXML,siguiendoelcaminodesdeelprimerelementodeeste documento.EnunaconsultaXPathsepuedenutilizarpalabrasquetienen unsignificadoreservado(child y text() enelejemplo)opalabrascuyo significadoestdadoporundocumento(nombreenelejemplo).Adems,en unaexpresinXPathsepuedeutilizarelsmbolo?paraindicarquesequie re chequear una condicin. En elejemplo, la palabrareservada child es utilizadaparapasardeunelementoasushijosy ?nombreindicaqueslose vaaconsiderarloselementosconmarcador<nombre>.Deestaforma,utili zando la expresin child en el ejemplo se pasa de un elemento con marcador <libreria>alosquetienemarcadores <nombre>y <titulo>,y luegoutilizandoeltest?nombreseseleccionael nicoelementoconmarca dor <nombre> hijodelelementoconmarcador <libreria>.Finalmentese utiliza text() para extraer el texto almacenado dentro del elemento con marcador<nombre>,valedecir,TodoLibros. Esimportantedestacarqueparasimplificarlapresentacindellengua jeXPath,noseestusandoaqulasintaxisdeXPathdefinidaen[4],sinoque unaversinsimplificada(peroquereflejalaformaenquetrabajaXPath). Supongaahoraquesequiereextraerlalistadeapellidosdetodoslos autoresdelibros.Parahaceresto,sepuedeutilizarlasiguienteconsulta:
descendant/?apellido/text()

86

Captulo6XML:TransformandolaWebenunaBasedeDatos Lamayordiferenciaconlaconsultaanterioreslautilizacindelapala bra reservada descendant, la cul indica que se debe utilizar a los descendientesdelprimerelementodeldocumento,valedecir,aloselemen tosquesonalcanzablesutilizandoloscaminoschild,child/child,child/ child/child,etc.Ntesequeestaconsultafuncionainclusoencasosenque lainformacinsobreautoresesdadademaneramenosestructurada:
... <primer_autor> <nombre>Martin</nombre> <apellido>Osborne</apellido> </primer_autor> <segundo_autor> <nombre>Ariel</nombre> <apellido>Rubinstein</apellido> </segundo_autor> ...

Engeneral,seconsideraunaventajadeXPathelquepuedafuncionar sobreinformacinsemiestructurada,yaqueenlaprcticalaestructurade muchosdocumentosXMLesirregular. Enestepunto,ellectorprobablementesehadadocuentadequelacon sultaanteriorpuedefuncionardemaneraincorrectasieldocumentonoslo contieneapellidosdeautores(porejemplo,contienelosapellidosdelagente quetrabajaenlalibrera).Enesecasosepuedeutilizarlaconsulta descen dant/?libro/descendant/?apellido/text() que busca apellidos que aparezcandentrodeelementosconmarcador<libro>. UnadelaslimitacionesdeXPatheslafaltadeherramientasparaes tructurarlainformacinqueseextrae;unaconsultaenXPathretornaun conjuntodeelementosynoundocumentoXML.XQueryesunlenguajems 87

Captulo6XML:TransformandolaWebenunaBasedeDatos completo,queusaXPathparanavegardocumentosXMLytieneherramien tasparaestructurarlainformacinextradacomoundocumentoXML[1]. EnelsiguienteejemplosemuestraunaconsultaXQuery:


let$lib:=doc("libreria.xml") return <lista> { for$xin$bib/child/?libro for$yin$x/descendant/?apellido where$y/text()=Rubinstein return <libro> { <titulo>$x/descendant/?titulo/text()</titulo> <precio>$x/descendant/?precio/text()</precio> } </libro> } </lista>

AligualqueparaelcasodeXPath,enunaconsultaXQuerypueden aparecerelementosquetienenunsignificadopredefinidoyotrosquedeben serinterpretadosenundocumentoXML.Enlaconsultaanterior,letesuti lizado para indicar que la variable $lib est ligada al documento libreria.xml (unavariableenXQuerycomienzaconelsmbolo $).Ade ms,enestaconsultaforesusadoparaindicarqueunavariabledebetomar todoslosvaloresalcanzadosalutilizaruncaminoenXPath.Porejemplo, for$xin$bib/child/?libro indicaque $x vaatomarcomovalorlos elementosconmarcador<libro>quesonhijosdelprimerelementodeldo cumento. Ntese que al igual que en un lenguaje de programacin, las

88

Captulo6XML:TransformandolaWebenunaBasedeDatos instruccionesqueutilizanforpuedenapareceranidadas.Enlaconsultaan terior, where esusadoparachequearunacondiciny return paraindicar quealgodebeestarenlasalidadelaconsulta.As,porejemplo,enlacondi cinwhere$y/text()=Rubinsteinsechequeaqueelapellidodelautor quesevaautilizarseaRubinstein.Esimportantedestacarqueenunacon sulta XQuery se puede indicar cmo se va a estructurar la respuesta colocandomarcadoresXML.Enelejemplo,<lista>eselmarcadordelpri merelementodeldocumentodesalida,ycontienecomohijosunaseriede librosconmarcador<libro>. Seguramenteellectoryasehadadocuentaquelaconsultaanteriorre tornalalistadelibrosescritosporRubinsteinconsusprecios.Estaesunade lasconsultasqueseplantealprincipiodeestecaptulo,yparalascualesno eraclarocomoresponderlassilainformacineraalmacenadaendocumen tosHTML.Comosemuestraenelejemplo,silainformacinsealmacenaen formatoXML,unasimpleconsultaenXQuerypuedebastarparaextraerla informacindeseada.Inclusoenelcasodelaconsultamscomplejavistaal comienzodeestecaptulo(d lalistadelibrosdeRubinsteinquehanbaja dodeprecioenlosltimosaos),unaconsultaenXQuerypuedeserusada paraextraerlainformacindeseada.

Pararecordar
Qu deberarecordarellectordespusdenavegarporestecaptulo? EllectordeberaestarsatisfechosilaarquitecturapresentadaenlaFigura6.2 leresultafamiliar. EncasodequeellectornorecuerdetodosloscomponentesdelaFigura 6.2,aqudamosunbreveresumendeloquesetratestecaptulo.Ellengua jeHTMLesusadoparaindicaraunbrowser(talcomoFireFoxoExplorer)la 89

Captulo6XML:TransformandolaWebenunaBasedeDatos formaenquesedebedesplegarlainformacin.Aunqueelresultadodedes plegarestainformacinesfcildeentenderparalosusuarios(comovemosa diarioenlaspginasWebquevisitamos),es,engeneral,difcildeentender parauncomputador.Parasolucionaresteproblema,XMLhasurgidocomo unlenguajeparaalmacenarinformacin,queesdefcilprocesamientopara uncomputador.EsimportantedestacarqueXMLnohavenidoareemplazar HTML,muyporelcontrariosehaconvertidoensucomplemento;lainfor macinsealmacenaenXMLysedespliegautilizandoHTML,loquenos permitetenerlomejordeestosdosmundos.Unaseriedetecnologashan sidodesarrolladasparasacarelmximodeprovechoalmatrimonioentre HTMLyXML.Porunaparte,esnecesarioutilizarellenguajedetransforma cinXSLTparapoderdesplegarcomoHTMLinformacinqueesguardada comoXML.Porotraparte,lenguajesdeconsultatalescomoXPathyXQuery son utilizados para extraer y analizar informacin que es almacenada en XML.

Figura 6.2: Tecnologas para transformar la Web en una base de datos.

90

Captulo6XML:TransformandolaWebenunaBasedeDatos

Parasaberms
ElsitiodelaWorldWideWebConsortiumosimplementeW3C (http://www.w3.org/ http://www.w3.org/)esunbuenlugarparainformarsedelosavancesen lastecnologasWebcomoXML. Elsitiohttp://www.w3schools.com/ http://www.w3schools.com/tienetutorialessobreHTML,XML, XSLT,XPath,Xquery,etc.

Referencias
1. S.Boag,D.Chamberlin,M.F.Fernndez,D.Florescu,J.RobieyJ.Simon. XQuery1.0:AnXMLQueryLanguage.RecomendacindelaW3C,enero 2007,http://www.w3.org/TR/xquery/ http://www.w3.org/TR/xquery/ T.Bray,J.Paoli,C.M.SperbergMcQueen,E.Maler,F.Yergeau.Extensible MarkupLanguage(XML)1.0.RecomendacindelaW3C,agosto2006, http://www.w3.org/TR/2006/RECxml20060816/ http://www.w3.org/TR/2006/RECxml20060816/ J.Clark.XSLTransformations(XSLT)Version1.0.Recomendacindela W3C,noviembre1999,http://www.w3.org/TR/xslt http://www.w3.org/TR/xslt J.ClarkyS.DeRose.XMLPathLanguage(XPath)Version1.0. RecomendacindelaW3C,noviembre1999, http://www.w3.org/TR/xpath http://www.w3.org/TR/xpath

2.

3. 4.

91

Captulo7 UsoyBsquedade InformacinGeogrficaenla Web


AndreaRodrguez SibienesciertoqueensusprimerostiemposlaWebcontenaesencial mente documentos textuales, hoy en da y en forma creciente la Web contienetambininformacinenformadeimgenes,mapas,audioyvideos. Estoamplalasposibilidadesparaquebuscadorestradicionalesincorporen nuevasfacilidadesenlabsquedadeinformacinyformasdepresentarlos resultadosdeestasbsquedas.UnejemplodeestoeselyaconocidoGoogle Earth[4],elcualnosbrindalaposibilidaddecombinarimgenessatelitales, mapas,levantamientosdeterrenooedificacionesen3dimensionesparapo der entregar informacin referente a lugares especficos (ej. hoteles, hospitales,etc.),explorarinformacingeogrficageneralenformadevideos omapas(ej.paisajes,mapasdetransporte,etc.)ycompartirlugaresdeinte rsagregandoinformacinadicional(ej.fotos,notas,etc.). LoquehacequeGoogleEarthnoseaslounconjuntodeimgeneses que stastienenlasemnticadadaporundominioparticulardeinforma cin, eneste caso, como informacin geogrfica. Lo interesante es que si sabemosdequtratalainformacin,entoncespodemosusarpropiedadest 93

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb picasdesudominioquenosayudanaconseguirunamejorbsquedayre cuperacin de informacin. Consideremos un ejemplo sencillo en el que queremosencontrarhotelesenlaciudaddePucn.Unabsquedatradicio nalrecuperaralosdocumentosquecontienenlaspalabrashotelyPucn, independientemente de que Pucn corresponda a una entidad geogrfica que,portanto,est cercanaaotraslocalidadesdecaractersticassimilares comoVillarricaoCaburgua.Msan,eventualmenteunusuariopodrarea lizarconsultasquevanmsalldelareferenciadenombredeunlugar,ya seapormediodelaespecificacindelarelacindeunlugarconotro(ej.ho telescercadePucn)obienestableciendo reasgeogrficasdeinters(ej. hotelesenlaregindeLosLagos).Unopodrairmslejosytratardecombi nardominiosdeinformacincomo,porejemplo,informacingeogrficay temporal,talcomoseraelcasodeconsultarporacontecimientosocurridos duranteunaciertapocayenunaregindeterminada. Elobjetivodeestecaptuloesdescribiruncasoconcretoenelcualel dominiodeinformacinhadadolugaraaplicacionesparticularesenlaWeb. Esteeselcasodeinformacingeogrfica,paralacualdescribiremossure presentacinyusoenlaWeb.

Culeseltipodeinformacin geogrficaenlaWeb?
ExistendiferentesformasdeinformacingeogrficaenlaWeb(figura 7.1),lasquepodemosclasificarprimariamenteentrestipos:
Imgenes,enparticular,imgenessatelitalesque representan unavistadelasuperficieterrestre. Mapasdigitales,enlosqueesencialmentesedibujanobjetosen unespaciogeogrfico.

94

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb Textos,enlosquelasreferenciasalocalizacionesgeogrficasse dan,principalmente,mediantenombredelugaresyterminologas enlenguajenaturalparalasrelacionesconotroslugares.

Conelprimerysegundotipodeinformacingeogrficaunopuede asociarinformacinalalocalizacindeunlugarporlascoordenadasque describensulatitudylongitud.Taltipodeinformacinseutilizatpicamen teenlavisualizacinymanipulacindemapasatravsde serviciosWebde informacingeogrficaoGeoWebServices.GoogleMaps[5]caedentrodeeste tipodeserviciosproveiendounaplataformabasedecartografaeimgenes satelitalesquenospermitensituarnosenunpuntoparticulardelespacio. Elsegundotipodeinformacingeogrficatambinrepresentaelemen tosenelespacio geogrfico aunque,implcitamente,mediante referencias quenoestnbasadasenunsistemadecoordenadas,sinoque,msbien,se asocianadiferentesaspectosdeundocumentoenlaWeb,especficamente:

dndefueroncreadoslosdocumentos, dequtratanoaquserefierenlosdocumentos, dnderesidenlosusuariosdelosdocumentos.

Amododeejemplodeestostiposdereferenciasgeogrficas,unusua rio podra requerir manejar las pginas de la Web Chilena o encontrar documentosquehaganreferenciaaConcepcinoaalgunaentidadgeogrfi ca relacionada a esa ciudad, o bien determinar los documentos que son usualmentevisitadosporusuariosubicadosenConcepcin.Elmanejodees tas referencias geogrficas han impulsado la extensin de las mquinas tradicionalesdebsqueda,dandoorigenalasdenominadasmquinasdebs quedaWebgeogrficaoGeoWebSearchEngines.

95

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb

(a)

(b) Figura 7.1: Tipos de informacin geogrfica: (a) pgina Web con geo-referencias textuales y (b) servicio Web de mapas.

96

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb ServiciosWebdeinformacingeogrficaymquinasdebsquedapue dencombinarseenunmismosistema.Porejemplo,unopuedepensaren tenerinformacincartogrficaquesirvedebasedevisualizacindedocu mentostextualesmanejadospormquinasdebsquedaWebgeogrficas(ej. GoogleEarth).

Servicioswebdeinformacingeogrfica
ServiciosWebdeinformacingeogrfica(GWSs:GeospatialWebServi ces)soncomponentesmodularesdeaplicacionesquepuedenserpublicadas, localizadaseinvocadasatravsdelaWeb,demododeaccesaryprocesar datos de una variedad de repositorios de datos geogrficos (figura 7.2). GWSsimplementantareasdeprocesamientogeogrfico,talescomovisuali zacincartogrficaoplanificacinderutas.

Figura 7.2: Componentes de una arquitectura de servicios Web de informacin geogrfica compuesta de: el solicitante de informacin, el agente descubridor de los servicios que satisfacen a un solicitante y el proveedor de informacin tanto en forma de mapa (WMS) o en documentos de objetos geomtricos o GML (FWS).

97

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb LatecnologadeGWSssebasaenunaseriedeprotocolosestndares derivadosdelXMLadiferentesnivelesdeespecificacin,desdeespecifica cindeinformacingeomtricahastadescripcindemetadatos.Debidoa queelnmerodeGWSsdisponibleshoyendaenlaWebcrecedemanera rpidaycontinua,adicionalmentealosproblemasintrnsecosdelagrandi versidad en la forma de describir y representar informacin geogrfica, descubrirlosserviciosquecontienenlosdatosgeogrficosdeintersentreto doslosserviciosdisponiblesesunatareacentralparaeldesarrollodeGWSs. Comnmente,eldescubrimientodeserviciosWebesdeltiposintcticoatra vs de interfaces estndares para una bsqueda basada en taxonomas o palabrasclaves. Enpresenciadediferentesproveedoresdeinformacingeogrfica,sin embargo,esusualqueunasimplebsquedasintcticanopermitaundescu brimientoapropiadodeinformacin.Consideremos,porejemplo,elcasode quererencontrarmapasquedescribanparquesnacionalesenelsurdeChile. UnodeberahacerunabsquedaporparquesnacionalesyporelsurdeChile (larelacinenesgeneralmenteeliminadaenlosbuscadorestradicionales)o porunasecuenciafijadecaracteresparquesnacionalesenelsurdeChile.Esta bsquedameramentesintcticanopodraconsiderarlossiguientesaspectos delasemnticadelaconsulta: QuzonasincluyeelsurdeChile? Culeslasemnticadelarelacinen?Qusucedesiunpar quenacionalsesobreponeadoszonasgeogrficas(centroysurde Chile)?

Sonlosparquesadministradosenlareginconsideradosna cionalesono?

Todosestosaspectoshaninducidoanuevostrabajosdentrodelcontex tode WebSemntica denominado GeoWebSemntica [1,8].Laideaescrear 98

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb representacionesdelosrecursosdeinformacingeogrfica,yasociarestos recursosconestructurasderepresentacinformalesqueestnsiendocons truidasenelcontextodelaWebSemntica.

MquinasdebsquedaWebgeogrfica
MquinasdebsquedaWebgeogrfica(MBGs)surgencomounanue vaformaderecuperarinformacindelaWebqueexplotadosideasbsicas: (1)recursosenlaWebtienenunareferenciageogrficae(2)informacinge ogrficamente cercana es ms relevante. La ideas de estas mquinas de bsquedaesqueunopuedapreguntarporpalabrasclavesyporunalocali dad geogrfica, de manera que los resultados de una bsqueda sean documentosquehaganreferenciaaesalocalidadoaalgunageogrficamen tecercana[7].As,losresultadospuedennosloserpresentadoscomouna listadedocumentosenordenderelevancia,sinoquevisualmentecomosm bolossobreunmapacuyasubicacionesindicanlaexistenciadedocumentos quelasreferencian.Unaarquitecturaparaestasmquinasextiendelaarqui tecturaclsicademquinastradicionales(figura7.3). TresaspectosimportantesenlaimplementacindeunaMBGson:(1) cmoextraerlasreferenciasgeogrficasyasociarun geocodingalosdocu mentosWeb,(2)cmorealizarelindexamientodelaspginassegnsugeo referenciaycontenidodemaneradeagilizarsubsquedaporpalabrascla vesypornombre delugares,y(3)cmointroducir enlarelevancia(i.e. ranking)delosresultadoselconceptodevecindadespacialoproximidadde losdocumentosrespectoaunaconsultadeunusuario.Mientraslosdoslti mosaspectosincorporanalosmecanismosdeindexamientoyrelevanciade buscadorestradicionalesnocionesreferentealmanejodeinformacinespa cial,geocodingesunatareaparticulardeMBGs.

99

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb

Figura 7.3: Una arquitectura para mquinas de bsqueda de informacin geogrfica compuesta de: (1) crawling para recoleccin y segmentacin de pginas Web en texto y geo referencias, (2) indexamiento para generar un ndice que agilice la bsqueda en base a trminos y geo referencias, y (3) la bsqueda que recupera y selecciona documentos en base a un ranking por contenido (texto) y proximidad (espacio).

ExtraerlasgeoreferenciasdeunapginaWebnoesunatareafcil. UnadelasformasmssimplesdegeoreferenciarunapginaWebesconsi derarlalocalizacindelservidorquelacontienecomolugardereferencia. OtraformadeasociargeoreferenciasadocumentosWebesagregandoin formacin de metadatos geoespaciales (geo tags), denotando que el contenidodelapginaWebesrelevanteparaciertalocalizacin.Estalocali zacin puede ser descrita usando protocolos estndares basados enXML talescomoelGeoRSS[6].Finalmente,otrastcnicasrealizanun parsing o

100

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb segmentacindedocumentoscompletosparaextraernombresdelugares, comociudadesoregiones. Actualmente,eldesarrollodemquinasdebsquedaWebgeogrficas presentagrandesdesafosparalainvestigacin.Algunosdeestostemasson: Desarrollodeprototiposdebuscadoresagranescala.Estoin volucra consideraciones de rendimiento y escalabilidad para la recoleccin,indexamientoybsquedadepginascongeocoding. Tcnicas que combinen procesamiento de lenguaje natural, datamining,anlisisdeenlacesentredocumentosyestructurade documentosparaobtenermejorasencuantoageocoding. Crawlingyrankingqueincorporennocionesdelocalidad.As, porejemplo,unopodraanalizarlaestructuraespacialydecone xin entre las pginas Web y detectar pginas que sean ms enlazadasglobalmente(ej.enelmundo)olocalmente(ej.enelpas). Luegopginasconreferencialocalseranmsrelevantesenelcon textodeunabsquedaconreferenciaaesalocalidad. Procesamientodeconsultaydiseodeinterfacesdebsqueda espacial.Enestesentido,analizarestrategiasderankingderesulta dosquepermitanunamejorvisualizacinde stosdemanerade reflejartantosusimilitudespacialydecontenido.
MiningdedatosgeogrficosenlaWeb.Temasdeminingde datosgeogrficosrefierenalanlisis (clasificacin, reconocimiento depatrones,agrupamiento)delaestructura,usoycontenidodelas pginasWebenbaseauncriterioespacial.Porejemplo,analizarla distribucingeogrficadelaspersonasqueseconectanaciertossi tiosyelenlaceentrepginasgeogrficamentedistribuidas.

101

Captulo7UsoyBsquedadeInformacinGeogrficaenlaWeb

Parasaberms
LapresentacinASpatialDimensionforSearchingtheWorldWideWeb http://www.ciw.cl/recursos/andreaHIS2002.pdftratatemasrelacionados http://www.ciw.cl/recursos/andreaHIS2002.pdf conlabsquedageoespacial. EllibroTheGeospatialWeb:HowGeobrowsers,SocialSoftwareandthe Web2.0areShapingtheNetworkSocietytrataestostemas.Sepuedever uncaptulodeejemploen:http://www.geospatialweb.com/ http://www.geospatialweb.com/ WikipediatieneunaentradaparalaGeoweb: http://en.wikipedia.org/wiki/Geoweb http://en.wikipedia.org/wiki/Geoweb

Referencias
1. MaxEgenhofer(2002).TowardtheSemanticGeospatialWeb,ACMGIS: SymposiumonAdvancesinGeographicInformationSystems,ACMPress, pp.14. ISO/TC.ISO/TC211Geographicinformation/Geomatics. URL:http://www.isotc211.org/ http://www.isotc211.org/ OpenGis.OpenGIS'Specifications(Standards).URL: http://www.opengeospatial.org/standards GoogleEarth.URL:http://earth.google.com/ http://earth.google.com/ GoogleMaps.URL:http://maps.google.es/ http://maps.google.es/ GeoRSS:GeographicallyencodedObjectsforRSSfeeds. URL:http://www.georss.org/ http://www.georss.org/ AndreaRodrguez(2002).ASpatialDimensionforSearchingtheWorld WideWb,HybridIntelligentSystems,IOPress,pp.583592. FredericoFonsecaandAndreaRodrguez(2007).FromGeoPragmaticsto DerivationOntologies:NewDirectionsfortheGeoSpatialSemanticWeb. TransactionsinGIS11(3):313316.

2. 3. 4. 5. 6. 7. 8.

102

Captulo8 MultimediaenlaWeb
JavierRuizdelSolar

Eluniversocrecientedelainformacin mutimedialenlaWeb
Elmundodigitalenelcualestamosinmersosgeneraunnmeroin mensoysiemprecrecientededatosdigitales,quecadadaesmsdifcilde administrar.Cmarasfotogrficas,cmarasdevideodigital,audiodigital, televisindigital,Internet(mensajesinstantneos,Emails,etc.),msicayvi deosdisponiblesenlaWebsonalgunasdelasprincipalesfuentesdeestos datosdigitales.Deacuerdoalestudio Howmuchinformation? [1]enelao 2002cincoexabytesdeinformacinfueroncreadosenelmundo(1exabyte correspondea1018bytes109gigabytes!),92%deestainformacinfuealma cenadaendiscosdurosyalrededorde1,75%sehizoaccesibleatravsdela Web.Nosecuentacondatosmsrecientes,peroseestimaquelacantidad deinformacingeneradacreceatasasmayoresal30%anual. DeestaformalaWebseesttransformandoenunabasededatosmul timedial4 gigantesca.Sinembargo,estainformacinalmacenadaenlaWeb
4 Lapalabramultimediavienedeunirlaspalabrasdellatnmultum(mltiples, muchos)ymedium(medios),osea,significaquelainformacinmultimedialpro vienedemltiplesmedioscomotexto,audio,grficos,fotografas,videosyani

103

Captulo8MultimediaenlaWeb es tilsiempreycuandoposeamoslosmecanismosnecesariosparaencon trarlainformacinquerequerimos,porejemplo,lacancinolafotografa quenecesitamosenundeterminadomomento.Puedesucederqueapesar dequelaimagenocancinseencuentreenlaWeb,noseamoscapacesde encontrarla.EstaleltamaodelaWebquesonnecesariasherramientasque nosayudenenlaslaboresdebsqueda.Estasherramientasdebenserms sofisticadasquelasempleadasenlosbuscadorestradicionales(porejemplo, GoogleoYahoo!),lascualesfuerondiseadasparabsquedadetexto,node datosmultimediales. Parasimplificarelprocesodebsquedadeinformacinmultimedialse requierequeenelmomentoenquelainformacinseahechapblicaenla Web,staseacorrectamenteclasificadaoanotada.Esdecir,alainformacin quesealmacenar seledebedarunadescripcinadecuada,generalmente textual(unnombreounafrase)quepermitaquelainformacinpuedaluego serrecuperada.Cuandolainformacinaserhechapblicaesunobjetomul timedialconocido,unacancinounapelcula,lainformacindelttuloes suficienteparaquestepuedaserencontradofcilmente.Pienseporejemplo enlascancionesdisponiblesenelsitioitunes[2]. Sinembargo,cuandoelobjetomultimedialnoesconocido,noesfcil determinarculeselmejortextoquelodescribe.Cmopodramosanotar adecuadamentelasmilesdefotografasdigitalesquetenemosalmacenadas enlosdiscosdurosdenuestroscomputadores,olashorasdevideodigital almacenadasencintasdevideo,olainformacingeneradaportodoslosca nalesdenoticiasdelmundo,encasoquesequisierandejardisponiblesenla Web?

maciones.Usualmentelainformacindetextopuronoseconsideracontenido multimedial.

104

Captulo8MultimediaenlaWeb Elproblemanoessolamentetemporal,esdecir,detenereltiemposufi cientepararealizarlasanotaciones,sinodecmodescribirelcontenidode unaciertafotografaovideo.Distintaspersonasgenerarndistintasdescrip cionesendistintosinstantesdetiempo.Porejemplo,unapersonadenombre JuanpuedesacarseunafotografadurantesusvacacionesenIsladePascua. EnlafotografaapareceJuanconsuamigaMara,unaplayayunaembarca cindenombreAnakena.Culeslamejordescripcinoanotacinpara estafotografa?Juan?Juanenvacaciones?,JuanyMara?Anakena?pa reja en la playa? vacaciones en Isla de Pascua? playa? mar? arena? embarcacinenlaplaya?Obviamentetodasestasanotacionespodranutili zarse,sinembargo,almomentodepublicarlafotografanopuedesaberse culeslamejordescripcin.Lamejordepender dequ seest buscandoy dequinrealicelabsqueda.Elproblemaobvioesquelaanotacinylabs quedadelafotografasucedenendistintosinstantes,porloquealanotarla imagennoseconocelosrequerimientosdesusfuturasoperacionesdebs queda. Unasegundaalternativaparaanotarobjetosmultimedialesconsisteen usarcategorasfijascomolasqueporejemplousaelsitioYouTube[3]para clasificarsusvideos.Elproblemaenestecasoesquealafotografaoalvi deo a ser publicado se le debe asignar una cierta categora fija. Los problemassonobvios:elobjetomultimedialaserclasificadopuedecaeren msdeunacategorayladeterminacindelacategoradependedelserhu manoquerealicelacategorizacin. Unaterceraalternativapararealizarlasanotacionesespermitirqueun sistemacomputacionalpuedanrealizarlasanotacionesenformaautomati zada (sin intervencin humana) y por lo tanto objetiva. En este caso pediremosalsistemacomputacionalquegenereunadescripcindelobjeto multimedialaseranotado.Estadescripcinseusar posteriormentecomo

105

Captulo8MultimediaenlaWeb un ndice,pormediodelcualsepodr buscaralobjetoencuestin.Alusar ndices,latareadeanotarsedenominaindexacin5.Seleagregaeladjetivo automatizadaparaenfatizarelhechodequeestalaborserealizasininter vencinhumana.

Indexacinautomatizadadela informacinmultimedial
Laindexacinautomatizadadeinformacinmutimedialtraeconsigo mltiplesbeneficioscomoahorroentiemposdebsquedayestandarizacin enlasanotacionesdelasimgenes.Comofuemencionadoanteriormente, lossereshumanosrealizananotacionesoclasificanlasimgenesdeacuerdo acriteriospropios.Adems,cuandounhumanoanotaunaimagensepreo cupaobviamentedelasnecesidadesdebsquedapresentesynopiensaen lasfuturas.Estoprovocaquelainformacinquenoesanotadaenelpresen te, no pueda ser buscada en el futuro. Sin embargo, la indexacin automatizadapermiteanotarenformaobjetivalamayorcantidaddecarac tersticasposiblesydeestaformaanticiparsealasnecesidadesfuturasde bsquedadelusuario. Existenindexacionesdetipotexto(cadaimagenrecibeunadescripcin textualexplcita,i.e.unafrasequelarepresenta),poratributos(cadaimagen esdescritamedianteunaespecificacindeciertosatributosquecontiene,ej. texturas)oporcontenido(laforma,elcoloroalgunaotracaractersticade losobjetosquecontienelaimagenesutilizadaenformaimplcitaparasuin dexacin).Encadaunodeestoscasoelobjetomultimedialsealmacenajunto asudescriptorenlabasededatos.
5 Seutilizantambinlostrminosindizacin(dendice)eindexamiento(delingls index).

106

Captulo8MultimediaenlaWeb Enlafigura8.1semuestralafotografadeunamujersentadaenunjar dn, y dos posibles tipos de indexacin, usando descriptores de texto y color.Enelcasodelosdescriptoresdetexto,laentradaalsistemaesuna descripcintextualentregadaporunhumano,yelmdulodeindexacin automatizada(enrigorsemiautomatizadaenestecaso)determinaunaver sinreducidadeldescriptordetextousandounalgoritmodestemming,que filtraalgunaspalabras(ejemplo:artculos,conjunciones)yreduceotrasasu raz(verbosysustantivos).Enelcasodelosdescriptoresdecolorsemuestra elusodehistogramasdecolorRGB,quepermitencalcularestadsticasdel contenidocromticodelaimagenenloscanalesrojo(R:red),verde(G:gre en)yazul(B:blue).

Figura 8.1: Ejemplo de clculo de descriptores de texto y de color sobre una imagen.

107

Captulo8MultimediaenlaWeb

BsquedaoRecuperacinde informacinmultimedial
Lasoperacionesdebsquedadeinformacinmultimedial,tambinco nocidas como recuperacin6 de informacin multimedial, se realizan utilizandolosdescriptoresalmacenadosenlabasededatosjuntoalosobje tosmultimediales7.Elsistemaidealdebsquedadebiera,apartirdeuna descripcintextualenlenguajenaturaldelcontenidodeunaimagen,encon trar todas aquellas imgenes que corresponden a dicho contenido, sin importarcomo stasfueronanotadas.Porejemplo,imgenesconperros, imgenesdelhundimiento deunbarco,imgenesdeIsladePascua, fotosdemimam,etc.Sinembargo,estesistemaidealnoesrealizableen laactualidad.Silasimgenesfueronanotadasusandodescriptorestextuales esmuypocoprobablequelaspersonasqueanotarondichasimgeneshayan utilizadolosmismosdescriptorestextualesusadosenlaoperacindebs queda.Silasimgenesfueronanotadasutilizandounsistemadeindexacin automatizadaenbaseasucontenidodebajonivel(color,bordes,textura, etc.)esdifcilencontrarlaadecuadacorrespondenciaentrelosdescripciones textualesdealtonivelutilizadosporlossereshumanos,paradescribirel contenidodelasimgenes,ylasdescripcionesdebajonivelutilizadaspor lossistemascomputacionalesderecuperacindeimgenes.Esteproblema seconocecomoelgapsemnticoexistenteentrelasdescripcionesdebajoy altonivel[4]. Debido alnoresuelto problemadelgapsemntico,enlaactualidad debeutilizarseelmismotipodedescriptorestantoparaanotarcomopara
6 7 Enlaliteraturacientficadehablainglesaestaoperacinseconocecomoretrieval. Recordemosqueennuestrocasoestamosinteresadosenbasesdedatosaccesibles atravsdelaWeb.

108

Captulo8MultimediaenlaWeb recuperarlasimgenes.Deestaformaexistendostiposdesistemasdeinde xacinprincipales:aquellosbasadosendescriptoresdetextoylosbasados endescriptoresdecontenidodebajonivel,extradosdeimgenesdeejem plo. Sistemasdebsquedaenbaseaanotacionestextuales.Seutilizandes criptoresdetexto,yelproblemadebsquedaorecuperacindeunobjeto multimedialsereducealacomparacinentreeldescriptordetextoquedefi nelaoperacindebsquedaylosdescriptoresdetextoalmacenadosenla basededatos(figura8.2).Comofueanteriormenteexplicado,losproblemas conestosmtodosson:(i)distintossereshumanosrealizandistintasdescrip ciones (anotaciones) de una misma imagen. (ii) Las anotaciones de una imagenestnrelacionadasalarelevanciadelosobjetosypersonasquese encuentrenenella.Pero larelevancia delcontenidopuede cambiar enel tiempo.Porejemplo,previoalescndaloLewinski,enlaimgenesdevideo almacenadasenlaCasaBlancanadiehubieraanotadolapresenciadeLe winski.Luegodelescndalosusimgenessehicieronrelevantes. Sistemasdebsquedaporcontenidoenbaseaejemplos.Dadaunaimagen deejemploelsistemadebsquedaretornaimgenesparecidasencontenido alejemplo.Comopasointermedioelsistemaextraeenformaautomatizada undescriptordelcontenidodebajoniveldelaimagen,elcualescomparado conlosdescriptoresdebajonivelalmacenadosenlabasededatos(figura 8.2).Medianteestetipodesistema,lasimgenesqueretornansonparecidas alasdelejemplo.Deestaforma,silaimagendelejemplocontieneunapues tadesol,elsistemaretornaimgenesdepuestasdesol;ysilaimagendel ejemplocontienerboles,elsistemaretornaimgenesderboles.Comoeste tipodesistemastieneporobjetivolarecuperacindeimgenesparecidasa ladeejemplo,lacomparacinentrelosdescriptoressetraduceenladetermi nacindelasimilituddeestos.Algunasmedidasdesimilitudcomnmente

109

Captulo8MultimediaenlaWeb

Figura 8.2: Sistema estndar de recuperacin de informacin multimedial.

usadassondedistanciavectorial(Euclidiana,deMahalanobis,etc.)ycorre lacin. Entre los descriptores de bajo nivel ms utilizados se encuentran aquellosbasadoseninformacindecolor(e.g.histogramasdecolor),textu ras (e.g. matrices de coocurrencia) y bordes (e.g. histogramas de bordes direccionales). Finalmente,cabesealarquetambinexistensistemasdebsquedaen baseacategoras.Enestecasoelusuarioseleccionaunacategorayelsiste ma de bsqueda retorna objetos multimediales correspondientes a esa categora(sereshumanos,animales,Chile,frica,deportes,etc.). Talcomofuesealadoanteriormente,laprincipallimitacindeestossiste mas es la rigidez del sistema de categorizacin, y que el usuario debe navegarporunsinnmerodecategorasysubcategorashastaencontrarel objetomultimedialrequerido.

110

Captulo8MultimediaenlaWeb

Parasaberms
AlejandroJaimes,JavierRuizdelSolar,R.Verschae,DinkoYaksic,Ricardo BaezaYates,EmilioDavis,CarlosCastillo.BsquedaporContenido Visual:TREC2003ylaWebChilena.Presentacin.CIW/DCC/DIE UniversidaddeChile.http://www.ciw.cl/recursos/uchile_talk_june26.pdf http://www.ciw.cl/recursos/uchile_talk_june26.pdf

Referencias
1. HowMuchInformation?2003ProjectWebsite.BerkelyUniversity. Disponibleel23deabrilde2007en http://www.sims.berkeley.edu/research/projects/howmuch info2003/internet.htm info2003/internet.htm itunesWebsite.Disponibleel23deabrilde2007en: http://www.apple.com/itunes/ http://www.apple.com/itunes/ YouTubeWebsite.Disponibleel23deabrilde2007en: http://www.youtube.com/ http://www.youtube.com/ IntervaloSemntico.WikipedialaEnciclopediaLibre. http://es.wikipedia.org/wiki/Intervalo_semntico ntico

2. 3. 4.

111

Captulo9 RedesSociales
JavierVelasco Vivimosensociedad;dependemosdeotraspersonasparagranparte deloquehacemosdiariamente.Durantenuestravidaformamosrelaciones conpersonasqueasuvezserelacionanconotrosaquinesnoconocemos. Estosvnculosvanformandonuestraredsocial. Podemosverejemplosderedessocialesenespaciostancercanoscomo nuestrasfamilias,tanorganizadoscomonuestrostrabajos,as comoredes formaleseinformalesgeneradasentornoainteresescomunescomodepor tes,colecciones,oreligiones.Otrafuentederedessocialessonloslugaresde estudio ylosespacios de colaboracinentre investigadoresy artistas,as comoelbarriodondevivimos. Elvalordeunaredsocialradicaenqueseconstruyesobrelabasedela confianza;nospermitellegarapersonasquedeotramaneranopodramos contactar,dadoqueunarecomendacinpersonaldeunconocidomutuoge neraconfianza.

AnlisisdeRedesSociales
ElAnlisisdeRedesSocialessehavenidodesarrollandocomounaespe cialidad desde los aos 60's desde diferentes disciplinas de las Ciencias Sociales,conelapoyodeunaramadelasmatemticasllamada Teorade 113

Captulo9RedesSociales

Figura 9.1: Ejemplo de Grafo para una Red Social compuesta por 11 personas

Grafos.Esta ltimapermitecuantificarlosvnculosentrelaspersonasque pertenecenaunaredsocialyanalizarlaestructuradedichared.Enbaseala teoradegrafos,elanlisisderedessocialesdefinealaspersonascomono dos,ylasrelacionesentrestascomoaristas. Elanlisisderedessocialessebasaenlaideadequelarelacinentrelas personasesmsimportantequesuscaractersticasindividuales,esporestoque suestudiosehadesarrolladoentrminosmatemticosabstractosyrepre senta un enfoque alternativo al estudio tradicional de organizaciones sociales,dondelascaractersticasindividualessonloprimordial. Elanlisisderedessocialesseenfocaenlaestructuradeestasredes,y suunidaddeanlisises larelacinentredospersonas.Lasrelacionesfuertes entrepersonas,porejemplounmatrimonio,conforman aristas fuertes.Las aristasdbilesmuchasvecestienenmayorimportanciaquelasfuertes,yaque proveenunatajoentrepersonasquedeotraformanoestaranconectadas, generandoas mayoresoportunidadesdeexposicinanuevasideasygru

114

Captulo9RedesSociales pos de influencia [4]. Las asociaciones profesionales son un buen ejemplo dondelasaristasdbilespuedenresultarsumamente tilesparaeldesarro lloprofesionaldeunapersona. Partedelanlisisenlaestructuradeestasredesimplicadeterminarla importanciadedeterminadonodoparaelconjunto.Lasmedidasmscomu nesparadeterminarestaimportanciason[2]: Centralidad(DegreeCentrality):Depender delacantidaddearistas queconectanaunapersonaenelconjunto.Losnodosmsconectadosson mscentrales.EnelejemplodelaFigura9.1,siconsideramosungrafodado porelsubconjuntodecincopersonasformadopor:Jorge,Karen,Josefina, RosayFlorencia,Florenciaseralapersonamscentral. Cercana(ClosenessCentrality):Dependedelalongituddesumade lasaristasqueconectanaunapersonacontodaslasdems.Aproximasu peso;sucapacidadparallegarenpocospasosacualquiera.Enelgrafodel ejemplo(figura9.1),JorgeyJosefinatienenelmayorgradodecercana. Intermediacin(BetweennessCentrality).Esunamedidadelnmero devecesqueunnodoapareceenelcaminomscortoentreotrosdosnodos. Laintermediacinnosdaunaaproximacinalpesocomoconector(como hub)delnodo,suimportanciaparaquelaredsemantengaunida.Enelgrafo delejemplo(figura9.1),Sergiotieneelmayorgradodeintermediacin. Elestudioenlaformadelasredessocialespermitedeterminarlautili dadde stasparalosindividuosquelasconforman,as comosudinmica. Porejemplo,elflujodeinfluenciadentrodeunacompaamsall delos rolesdetrabajo.Esteenfoquehapermitidoimportantesdesarrolloseneles tudiodelasredessocialesqueintegramosenlavidadiaria,yhasidomuy valiosoenelestudiodeladifusindeenfermedadescontagiosas[4].

115

Captulo9RedesSociales

RedesSocialesySoftware
Lasredescomputacionalessurgencomounaformadepotenciarlaco municacin en redes humanas de trabajo. El desarrollo de Internet y el aumentoenlacapacidadcomputacionaldelosservidoreshapermitidoel desarrollodediversosformatospararedestecnolgicasquesoportanelfun cionamientoderedessocialesylaconstruccindenuevasredessociales. Lasredessocialescomputacionalesestnpermitiendoalaspersonas crearnuevasdinmicasdecomunicacinmspotentesquelasanteriores. Diferentesestudioshandescubiertoqueestasredesdesoftwarepermitena laspersonastantofortalecersusredessocialesactualescomoformarnuevas redesdemaneraefectiva[1].Hoyendapodemosanalizarprcticamente cualquierservicioosistemadeInternetentrminosderedessociales. Todasestasredestecnolgicasseranintilessinosenutrierandelaco municacinentrelaspersonas;inclusohayquieneshanexpresadoestoen trminosmatemticos.BobMetcalfe,unodelosinventoresdeEthernet,de termin,enrelacinconlasredesdetelecomunicaciones,quelautilidaddela redcreceenrelacinalcuadradodelacantidaddeusuariosconectados (Leyde Metcalfe).Posteriormente,DavidReeddescubri queestafrmulaquedaba corta para describir Internet, ya que adems de permitir comunicaciones personaapersonapermitelacreacindegrupos.LaleydeReedpostulaque lautilidaddeunared,enparticularlasredessociales,creceenformaexponenciala lacantidaddepersonasquelaintegran[6].

AplicacionesdeRedesSociales
Acontinuacindescribimosalgunosdelosejemplosmscomunesde redessocialesmediatizadasporsoftware: 116

Captulo9RedesSociales 1.Correoelectrnico (Email):Esunaherramientaomnipresenteque permitecomunicarnostantoconnuestrafamilia,amigos,compaerosdetra bajo,comoconloslderesdeopininyautoridadesque antesresultaban inalcanzables.Unanlisisdenuestrousodelcorreoynuestralibretadedi recciones permitira generar una imagen de nuestras redes sociales: la frecuenciadelosmensajesrevelaralafuerzadelasaristasennuestrared. Laslistasdecorreoelectrnicotambinconformanredessocialesorganiza dasentornoatemasparticulares. 2.MensajeraInstantnea (IM):Lacomunicacinsincrnicaqueestos sistemaspermitenimplicaunafuerzatodavamayorenlasrelacionesdelas quesuponeelcorreoelectrnico.Laestructurabsicadeestossistemasesla lista de contactos, donde organizamos a las personas ms relevantes de nuestraredsocialconquienesqueremos(odebemos)estarcomunicadosde manerapermanente.Estegrupocomprendeherramientasdemensajerapor texto(ICQ,MSN,AIM,Y!IM)as comolasmsrecientesdevozyvideo (Skype,gTalk). 3.LaWebMundial(WWW):Lossitiosquecomponenestaredpertene cenapersonasindividuales,obienaorganizacionesdestas.Unanlisisde loslinksentresitiosWebnospodradarsealesinteresantesacercadelasre lacionesentrelaspersonasoinstitucionesquelospublican. Existensitiosdedicadosaorganizarvnculosentrepersonasrelaciona dasadeterminadostemas.Porejemplo,elportaldeYahoo!hasidodesde susprimerosdasunhubdeconexinhaciadiferentespuntosdelaWWW. 4.ComunidadesEnlnea:AlgunosSitiosWebpermitencrearunperfil personaleiragregandounalistadecontactosparaparticiparconellosendi ferentes formas. Linkedin es un sitio de conexiones profesionales que permitegenerarrecomendacioneslaboralesdegrancredibilidad.Econozco 117

Captulo9RedesSociales esunaaplicacinsimilarenEspaol.Orkutpermiteorganizarredesdecon tactosygruposparalaparticipacinenforos.Fotologpermiteamillonesde personasenelmundopublicarsusfotografasyseguirlasfotosdesusami gos. 4.1 Facebook: Es una comunidad online cerrada, donde los perfiles puedeneditarseparaservisiblessloatusamigos.Sepresentacomouna plataformasobrelaquesepuedenmontaraplicacionesparaquelasperso nas se comuniquen en variados formatos. Facebook goza de gran popularidadycrecimiento,yhatenidounaimportantepenetracinenChile apartirdefinesde2007.Facebookpermite,atravsdelaopcinveramigos comunes,explorarelfenmenodelmundopequeoentusredessociales.Ver Cap.2. 5.Blogs:Estasbitcoraspersonalescuentancondiferentestiposdeco nexinhaciaotraspersonas.Unblogcitaaotrocomofuentedeinformacin, puedeopinaracercadeloqueotrohapublicado,ymuchosblogsmuestran explcitamenteunalistadesusblogsrelacionadosoamigos.Sontresformas dedescribirrelacionesentrelosblogsquerevelanycreanredessociales[5]. Elanlisisdeestoslinksysufrecuenciadar cuentadelaredsocialentre susautores. 5.1Lacoctelera:EsunsistemadeblogsconsedeenEspaaquecuenta convariasdelasherramientasparafomentarlainteraccindelosusuarios, loquelatransformanenunbuenejemploderedsocial. EnelperfildeusuariodeLaCoctelera(figura9.2)podemosverunava riedaddeelementos: Reseadelautor:permiteincluirtunombre,ubicacin(ciudadypas), unafotografayunapequeadescripcin.Estareseapermitiralosnuevos visitantesconocerlainformacinbsicadelautor. 118

Captulo9RedesSociales Amigos, dolosyFans:LaCocteleraclasificaaloscontactosenbasea ladireccionalidaddelasreferencias.Siponesaunapersonaentulistade contactosystenotecorresponde,pasaaserundolo.Silareferenciaesrec procasecategorizacomoAmigo.Laspersonasquetehansealadoentresus contactossinquetlosincluyaspasanasertusFans. ltimosPost:Elperfilincluyeunresumendetus ltimosposts,sea landosushorariosycomentarios. ltimosComentarios:Haceunseguimientoalaactividaddelosco mentariosenelblog. LoMsComentado:Llevaunaestadsticadelospostsconmayorcanti daddecomentarios. Hablade:Haceunseguimientoalostagsmsfrecuentesdecadablog (elusodetagsseexplicamsadelante).Estostagspermitennavegaralos postsasociadosaestostrminostantodelmismoautor,elconjuntodeusua riosdeLaCoctelera,yunabsquedageneralenTechnorati,unbuscador especializadodeblogs. 6.ClasificacinSocial(Folksonomies):Lasbibliotecasutilizanpalabras clavecomounelementocrticoensussistemasdeclasificacindedocumen tos.AlgunossitiosWebpermitenacualquierusuarioagregarunapalabra claveodescriptoradeterminadoobjetoensucoleccin.Deestamanera,son losmismosusuariosquienesorganizanloselementosdelsistema,tantode maneraindividualcomocolectiva.Elsistemageneraautomticamentelinks paratodosestostags,loquepermitealosusuriosnavegarelsistemacon granflexibilidad.VerCap.10. AlgunosdelosejemplosmsrelevantesdesitiosWebconclasificacin socialson: 119

Captulo9RedesSociales

Figura 9.2: Ejemplo de Perfil de Usuario de La Coctelera

120

Captulo9RedesSociales 6.1.Del.icio.us:Esunsistemadefavoritossociales,enelqueunusua riocreasucuentaycomienzaamarcarsuspginasfavoritas,aadiendotags descriptoresacadarecurso.Estostagspermitirnlanavegacinporentre losfavoritosdeltotaldeusuariosenelsistema,generandounsistemadeor ganizacincolectivodelosrecursos.Del.icio.ustambinpermiterecopilar unalistadeusuariosrelacionados(ocontactos),yexplorarlosfavoritosde stos. 6.2.Flickr:Estesitio esbsicamente unfotolog conmltiplesherra mientasdeinteraccinsocial.Alpublicarunafoto,elautorpuedeasignar tagsa staparalaexploracindelespaciocolectivotalcomoendel.icio.us. Tambinofrecelaadministracindeunalistadecontactoscondiferentes gradosderelacin:contacto,amigoyfamilia.Flickrpermitelacreaciny participacinentornoagruposdeintersdeacuerdoareglasfijadasporun moderador.Losusuariosdeflickrpuedenaadirtagsalasfotografasque visitan,marcarlascomofavoritosydejarcomentarios.Flickrsoportamlti plesformatosdeinteraccinentrelaspersonas,ydapieadiferentestiposde estudioalaredsocialquesehaidoformandoentresususuariosqueactual mentesuperanlosdosmillones. 7.FiltrosColaborativos:Elanlisisdeactividadenunawebmediante mineradedatosrevelapatronesdecomportamientoyhaceposiblegenerar sistemasderecomendacionespersonalizadasqueseajustanalaspreferen ciasparticularesdeunapersonadeacuerdoalaactividaddeluniversode usuariosdelsistema.Amazonfueunadelasprimeraswebsenexplotaresta tcnicapararecomendarlibros.Cuandounovisitalafichadeunlibroen Amazon.com,elsistemasugiererecomendacionespersonalizadasdeacuer doalascaractersticasdellibroyelhistorialdelusuarioenelsitio,loque consideracomprasyrevisionesanteriores,enunanlisiscruzadoconlaacti vidaddeotrosusuarios.Elsistemavadetectandopersonasconintereses

121

Captulo9RedesSociales comunesparagenerardeestamaneralasrecomendacionespersonalizadas. Mientrasmayorseaelhistorialdetuperfil,mayorserlaprecisindelasre comendaciones.VerCap.10. 8.RedesP2P:Peertopeer(ingls)significaconexinentrepares.Estas redessondescentralizadas,nocuentanconunservidorcentralensudistri bucin,sinoconunconjuntodenodosdeigualrelevancia[4].Enlaprctica lasredesP2Psepresentanendiferentesformas:unassonpuramentedistri buidasyotrasseapoyanenservidorescentralespararealizarsusfunciones. ElusomspopulardelasredesP2Phasidoelintercambiodemsicay videosentrepersonasparticulares.Estosintercambiosdemsicaypelculas muchasvecesimplicalaviolacinaderechosdeautordedichomaterial,lo quehasignificadoproblemaslegalesparalasloscreadoresdelsoftwareque handiseadoestasredes.Actualmente,lasredesP2Phanencontradolafor madedesligarsedelaresponsabilidadlegalportalesviolaciones.Algunos ejemplospopularesdeestasredesson:Napster,Kazaa,Gnutella,BitTorrent.

SitiosyAplicacionesMencionados

AIM(http://www.aim.com/ http://www.aim.com/)

Amazon (http://www.amazon.com/ http://www.amazon.com/) tienda gigante de co mercio electrnico, la que comenz como una librera pronto se transformenlatiendamsgrandedelmundo.Actualmentevende todaclasedeproductos. BitTorrent(http://www.bittorrent.com/ http://www.bittorrent.com/)esunprotocoloP2P paraelintercambiodearchivos.

122

Captulo9RedesSociales Del.icio.us(http://del.icio.us/ http://del.icio.us/)sistemadebookmarks(ofavo ritos)socialesqueutilizaclasificacinsocialmediantetags.

Econozco(http://www.xing.com/econozco http://www.xing.com/econozco)esunaredsocial laboralencastellano,queahoraespartedeXing,unaredsociallabo ralinternacional.


Facebook(http://www.facebook.com/ http://www.facebook.com/)comunidadonlinecon mltiplesformatosdecomunicacin,permiteeldesarrollodeaplica cionesquesemontansobresta.

Flickr(http://www.flickr.com/ http://www.flickr.com/)unfotologconmltipleshe rramientas de interaccin social. Actualmente es propiedad de Yahoo!.


Fotolog(http://www.fotolog.com/ http://www.fotolog.com/)aplicacinsocialdefotos, muypopularenChile. gTalk(http://www.google.com/talk/ http://www.google.com/talk/)mensajerainstantnea yvozdeGoogle. GnutellaesunaredP2Ptotalmentedistribuida,quepermiteel intercambiodearchivos. ICQ(http://www.icq.com/ http://www.icq.com/)fueunodelosprimerossistemas demensajerainstantnea(IM). Kazaa(http://www.kazaa.com/ http://www.kazaa.com/)esunaaplicacinP2Psemi distribuidaquepermiteelintercambiodemsica,videos,softwarey todotipodearchivos.

LaCoctelera(http://www.lacoctelera.com/ http://www.lacoctelera.com/)esunsistemade blogsconmltiplesherramientasdeinteraccinsocial.

123

Captulo9RedesSociales Linkedin (http://www.linkedin.com/ http://www.linkedin.com/) comunidad social de perfileslaborales.


MSNMessenger(http://im.live.com/Messenger/IM/Home/ http://im.live.com/Messenger/IM/Home/)

Napster(http://free.napster.com/ http://free.napster.com/)unodelosmspopulares sistemasP2P. Orkut (http://www.orkut.com/ http://www.orkut.com/) es una comunidad online, propiedaddeGoogle.

Skype(http://www.skype.com/ http://www.skype.com/)

Technorati(http://www.technorati.com/ http://www.technorati.com/)buscador especiali zadoenblogs. Y!IM (http://messenger.yahoo.com/ http://messenger.yahoo.com/) sistema de mensajera instantneadeYahoo!

124

Captulo9RedesSociales

Parasaberms
Tutorialesderedessocialesencastellano,deSteveBorgatti: http://www.analytictech.com/networks/en_castellano.htm http://www.analytictech.com/networks/en_castellano.htm Linked:HowEverythingIsConnectedtoEverythingElseandWhatIt Means,porAlbertLaszloBarabasi,Plume,2003 SixDegrees:TheScienceofaConnectedAge,porDuncanJ.Watts,W.W. Norton&Company,2004 TheWisdomofCrowds,porJamesSurowiecki,Anchor,2005.

Referencias
1. NoorAliHasanyLadaAdamic.ExpressingSocialRelationshipsonthe BlogthroughLinksandComments.InternationalConferenceonWeblogs andSocialMedia.Boulder,Colorado.2007. DiegoDeUgarte.TeoradeRedesSociales.Contextos,2006. http://www.deugarte.com/wiki/contextos/Teora_de_redes_sociales StevenJohnson.Emergence:TheConnectedLivesofAnts,Brains,Cities, andSoftware.Scribner,2002. MarkLevene.AnIntroductiontoSearchEnginesandWebNavigation. AddisonWesley,2005. CameronMarlow.Audience,structureandauthorityintheweblog community.MITMediaLaboratory,2004. DavidWeinberger.SmallPiecesLooselyJoined,aunifiedtheoryoftheweb PerseusBooks,2002.

2. 3. 4. 5. 6.

125

Captulo10 ClasificacinyFiltradode InformacinenlaWebViva


CarlosHurtadoLarran GranpartedelaWebcorrespondeainformacinestableoquecambia lentamente.staincluyesitioscorporativosypersonalescasiestticos,cono cimiento enciclopdico e informacin que se revisa poco a travs del tiempo.HayotraWeb,llamadaWebviva,queserefrescaminutoaminu to, que est compuesta, principalmente, por sitios de noticias, weblogs y comunidadesdigitales.LoqueinteresaalosusuariosdeestaWebeslono vedoso,lo que apareci en el ltimo da,en las ltimas horas, o incluso minutos.EslaWebenlaquenadiesebaadosvecesenlamismainforma cin. El adjetivo viva no slo apela a su dinamismo, sino a que su contenido,videos,fotografas,artculos,etc.,esgeneradoporcomunidades digitalesdondeinteractanmillonesdepersonasenelmundo:lallamada Web2.0[14]conaplicacionescomoFlickr,YouTube,Del.icio.us,Facebook, Twitter,etc.ylosmsde70millonesdeweblogsyvariantescomovideo logs,linklogsyfotologsdelplaneta. Esteespaciodeinformacinfuerecintomadoencuentaporlosprinci palesbuscadoresdelaWeb(Google,Yahoo!,MSN)unpardeaosatrs.En eseentonces,lainstantaneidaddelainformacinnoerarequerimientoaten dido por estos sistemas de bsqueda. Entregar informacin frescaeraen

127

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva ciertomodoincompatibleconlatareatitnicadelosbuscadoresderecolec tarmilesdemillonesdepginasencostososrecorridosdelaWeb.Mientras afinesdelao2005,losgrandesbuscadoressloactualizabanelcontenido deunapginacada10 15das,surganbuscadorescomoTechnorati,Blo glines y Blogpulse, entre otros, que se posicionaron en la Web viva, conquistandounsegmentodeusuariosconsiderableenmuypocotiempo. LadinmicadelaWebvivaseasemejamsalaformaenquelainfor macin viaja desde canales de comunicacin en radio y televisin a las personas,quealconceptoinicialdelaWebcomounagranbibliotecadigital compartida. Sin embargo, los principios de la Web siguen operando con fuerza:reddistribuida,concontenidoenlazado(hipertexto),libertaddege neraryconsumirinformacin,millonesdecanalesyreceptoreslatentes.En estecaptuloexplicaremoslosconceptosquepredominanenestenuevocon texto:canales,agregadoresdeinformacinysindicacindecontenido,entre otros,ymostraremoselproblemadefiltrarinformacin,unadelasprincipa lestareasparamanejarlasobrecargadeinformacinalaqueestenuevo escenarionosexpone.

SindicacindeContenido
LaWebvivaesunespaciodondelainformacinsediseminaenforma automticayagranvelocidad.Aquescomnqueunanoticiapublicadaen unsitiolocalsepropaguecasienformainstantneaacientosomilesdesi tiosenpocashorasy,casienparalelo,searecolectadaporlamayoradelos buscadores.Estainstantaneidadessostenida(apartedelaWebmisma)por lainfraestructuradesindicacindecontenidodelaWeb.Sindicarconteni dosignificahacerdisponiblecontenidoparaqueotrospuedanpublicarlo, procesarlooredistribuirlo.Elconcepto,muchomsantiguoquelaWebmis

128

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva ma,provienedelmundodelosmediosdeprensa,radioytelevisin,donde contenido como fotografas,videosy noticias, entre otros, esdiariamente sindicadoalrededordelplaneta. Lasindicacindecontenidoesunprcticacadadamsextendidaenla Web:compaasdemsicasindicaninformacinsobrediscografaquelue go es publicada por sitios de comercio electrnico; bolsas de comercio sindicaninformacinenlneasobreelvalordeaccionesqueesprocesada porportalesfinancieros;lamayoradelascomunidadesdigitalesemergen tes estn sindicando informacin con el objeto de llegar cada da a ms usuarios. EnlaWeb,lainformacinsindicadaesprocesableporcomputadores, esdecir,esfcilparaunprogramacomputacionalsencillo,detectarlosatri butosmsimportantesdeunartculo,video,imagen,etc.sindicado.Para queestoseaposibleexistenformatosquepermitendescribirlainformacin sindicada.Elmsantiguodeestosformatos,RDFSiteSummary(RSS),fue desarrollado por RamanhatanGuha,mientrastrabajaba paraNetscape,el ao1999.Enpocotiempo,RSSderiv enunacoleccindeformatosquein cluye Really Simple Syndication, RDF Site Summary y Rich Site Summary[2].En2003apareci unnuevoformatoalternativo,Atom,apo yado por el consorcio de la Web (W3C) con la finalidad de unificar las propuestasanteriores.Enlaactualidad,RSSyAtom(enadelanteusaremos eltrminoRSSparareferirnosaambosformatos)compitenporestablecerse comoestndaresdefactoenlaWeb.Elpotencialdeestosformatosesenor me,porejemplo,hoypodemosrecolectarRSSsindicadodediversasfuentes, combinarlo y procesarlo para producir nuevo RSS (lo que se denomina mashup)quealavezpodemossindicarparaqueotroslorecolecten,yas sucesivamente,enunasuertedecadenaalimenticiadondelainformacinse

129

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva transforma,sintetizaycombina,desdesusfuenteshastaelusuarioquela consume.

CanalesyAgregadoresdeRSS
EnlaWebdeladcadapasada,losusuariosdebanesforzarseporen contrarinformacin,yaseamediantebuscadoresonavegandoenlaces.Hoy, podemosaccederaunagrancantidaddeinformacindeinterssloespe randoque stallegueanosotros.Paraqueestoseaposible,lasfuentesde informacindelaWebviva,llamadoscanales,publicanRSSsobreinfor macinsindicada.EsteRSSesrecolectadoenformaperidicaymostradoen lapantalladelusuariofinalporaplicacionesconocidascomoagregadores. EstossistemasentreganunflujocontinuodeRSS,quereferencianvideos,fo tografas,animaciones,artculos,noticias,etc,provenientesdecanalestan diversoscomomediosdeprensa,sitiosdetecnologaoweblogs. Enlaactualidad,existeunaofertadecientosdeagregadoresRSS,la queincluyesistemasbasadosenlaWeb,comoYahoo!PipesoGoogleRea der,oagregadoresqueseinstalancomosoftwareclienteencomputadores personales,PDA'sotelfonosmviles.Adicionalmente,losprincipalesnave gadores y lectores de correo electrnico estn incorporando funciones de agregadores. Tambin hay agregadores que recolectan RSS para comunidades de usuarios.EsteeselcasodeOrbitando[12](verfigura10.1),queseenfocaen personasinteresadasencontenidorelacionadoaChile,oTopix[13],quese enfocaenunacomunidadmsamplia.

130

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

Figura 10.1: Portada de Orbitando [13].

FiltradoyClasificacindeInformacin
Loscanalesyagregadoresnospermitenaccederaunaenormecantidad deinformacin.Estaessindudaunabuenanoticia.Clasificaryfiltrarinfor macin son dos tareas fundamentales para manejar la sobrecarga de informacinenestenuevocontexto. Filtrarinformacineslatareadedejarpasarpartede staybloquear otradeacuerdoaunobjetivo.Enalgunassituacioneselobjetivoesevitarin formacin como contenidos no aptos para menores o publicidad no solicitada.Unejemplomuypopulareselfiltradodecorreoelectrnicono deseado(spam).Enotroscasos,necesitamosfiltrarparadescartarinforma cin irrelevante que constituye ruido. El filtrado de informacin tambin puedetenercomoobjetivopersonalizaryajustarlosagregadoresdeacuerdo alosinteresesdeunusuarioounacomunidaddeusuarios. 131

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva Clasificaresunatareasimilar.Enestecaso,debemosdecidirunaoms categoras,entreunconjuntofijodestas,alasqueasociamosdeterminada informacin,comocuandoorganizamoslosarchivosdenuestrocomputador encarpetas.EscomnenlaWebquelascategorasseantpicos,queincluso puedenformarestructurasjerrquicasdondelosmsespecficosseconectan conlosmsgenerales.Enotroscasos,lascategoraspuedenreferirseaalgu na propiedad de la informacin como su tipo u origen. Por ejemplo, podramosnecesitarclasificartextoparadetectarcomentariospositivosyne gativos.Enelextremoderechodelafigura10.1sepuedenverlascategoras enqueunagregadorclasificaRSS.Seconsiderantpicoscomopoltica,ne gocios, tecnologa, etc. y tipos de informacin como weblogs, videos, fotografas,podcasts,etc. Hoyenda,losusuarioscomunesdeagregadoresslopuedenfiltrar manualmenteunafraccinmnimadelflujodeinformacinquepuedenre cibir.Tambinespocoprcticopensareneditoresquehaganestetrabajo, como suele ocurrirenmediosde prensatradicionales. ElOpenDirectory Project [11], una ambiciosa iniciativa de comprometer editores humanos paraclasificarlaWeb,gozdegranpopularidadensusiniciosafinesdelos noventa,perosuimpactodecrecienlosltimosaos.

LosPrimerosFiltrosAutomticos
Afinesdelosochenta,tomfuerzaeldesarrollodeprogramasquefil tranenformaautomtica.Unodelosprimerosdeestossistemas, CONSTRUE, implementado inicialmente para la agencia de noticias Reuters, permita programarfiltrosbasadosareglasmodeladasporexpertos.Porejemplo,la siguienteregla,mencionadaconfrecuenciaenlibrosdelarea,determinasi unartculoesonorelevanteparalacategoratrigo:

132

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
if((trigoandpredio)or(trigoandcomodity)or (quintalandexportar)or(trigoandtonelada) or(trigoandinviernoandnotsuave)) thenclase=relevante elseclase=irrelevante

El antecedente de la regla (la condicin a la izquierda del smbolo then)usaoperadoreslgicoscomoand,orynot.Cadatrminodeestacon dicinesverdaderosieltrminoapareceenelartculo.Enelejemplo,siel artculosatisfaceelantecedentedelaregla,esclasificadocomorelevante,en casocontrarioesclasificadocomoirrelevante. Algunosexperimentosinicialesmostraronquelatasadeerrordeunfil tro generado por CONSTRUE poda ser menor a 10%. A pesar de estos resultadospositivos,pordistintosmotivos,elmtododeCONSTRUEsetorn rpidamenteimpracticableenlamayoradelasaplicacionesdondeseutili z.Enprimerlugar,eltiempoycostoquetomatenerexpertosdefiniendo reglasesalto.Msan,siloqueseconsiderarelevantecambia,losexpertos debenintervenirdenuevolasreglas,yenalgunoscasoseltrabajodebeha cersedesdecero.Lainformacinesengeneraldinmicaylasreglasdeun filtrodebenevolucionarconstantemente.Porejemplo,elintersdeunaco munidadalacualseenfocaunagregadorpuedeestarenconstantecambio, odebemosreprogramarelfiltrocontinuamenteparaincorporarnuevostr minos. SibiensistemascomoCONSTRUEpermitenprogramarsistemasquefil tranenformaautomtica,hoyesclaroqueelproblemadefondoesmucho mscomplejo:requerimosdesistemasqueaprendanafiltrarenbaseauna adaptacincontinualasnecesidadesdeinformacindelosusuarios.Noso lamente esimportante automatizarelproceso defiltradosino tambinel procesodeconstruccinyadaptacindeunfiltro. 133

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

FiltrosqueAprendenyseAdaptan
Disciplinascomoestadstica,aprendizajedemquinas,reconocimiento depatronesy, ltimamente,mineradedatos[3,4,5]sonlabaseparadesa rrollar filtros de informacin que aprenden y se adaptan en base a la experiencia.Paraqueesteprocesodeaprendizajeselleveacabo,debemos contarconinformacinyafiltrada,esdecir,ejemplospositivosynegativos, denominadadatosdeentrenamiento,quesepuedengenerarporexpertosova feedbackdeusuarioscomunes.Estosdatosseusanparaentrenaroinducirel filtro.Unaformadepensarenesteprocesoesqueamedidaqueincluimos msdatosenelentrenamiento,elsistemaincorporanuevas reglas,siempre teniendocuidadodequestassepuedangeneralizarainformacinmsall delosdatosdeentrenamiento.Lafigura10.2muestraunejemplodeunpro cesodeentrenamientodeunmodeloparaclasificarvinos. Enesteprocesoesmuyimportanteevaluareldesempeodelsistema creado,esdecir,medirsucapacidadparapredecircorrectamentelascatego rasdenuevainformacinquesepresenta.Entrminossimples,estosehace separandodelosdatosdeentrenamientounnuevoconjunto,llamadoda tos de prueba, que usamos para medir la tasa de error. En general, es importantedistinguirdistintostiposdeerror(falsospositivosyfalsosnega tivos).Porejemplo,enunagregadordecontenidoparaniosesmuchoms graveelerrordedejarpasarinformacinnoaptaquemuestraviolenciao pornografa,queelerrordedescartaralgunainformacinadecuada. Hoyendaexistencientosdetcnicasparadesarrollarfiltrosdeinfor macin,algunasdelascualeshanalcanzadotasasdeerrormenoresaun 10%endiversosexperimentos.Entreestasestnlosrbolesdedecisin,m quinas de soporte vectorial, redes neuronales, redes bayesianas, discriminanteslineales,regresinlogstica,etc.Enlaactualidad,estastcni 134

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

Figura 10.2: Construccin mediante aprendizaje de un rbol de decisin para filtrar vinos.

135

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva cassonusadascon xitoendistintasaplicaciones,nosloenelcontextode laWeb,sinoenproblemastanvariadoscomoreconocimientodevoz,clasifi cacin de imgenes telescpicas en astronoma o evaluacin de riesgo financiero. Nuevasideasymejorassedesarrollanenlaactualidadparabajarlasta sasdeerrorPodremostenersistemascomputacionalesconcapacidadesde aprendizajeydesempeosimilar asereshumanos? Paraellonecesitamos desarrollar sistemas que emulen capacidades cognitivas humanas como comprensindelenguajenatural,capturadesentidocomnyotrasformas deprocesamientoavanzadoparallegaralasemnticadelainformacin.

FiltradoColaborativo
Unenfoqueradicalmentedistintoydemuchaaplicacinenlaactuali dad,conocidocomofiltradocolaborativo[6],sebasaenlaideadequela informacinrelevanteparaunusuarioestambinrelevanteparaotrosusua rios con preferencias similares. Una comunidad de usuarios puede en conjuntoactuarcomoungranfiltroespontneo,sicombinamoseinterpreta mosadecuadamentelasaccionesdecadaunodesusmiembros. Elfiltradocolaborativonoesmsquelasistematizacindeunmtodo desentidocomnqueaplicamosadecisionesdelavidadiaria.Porejemplo, siintentamosseleccionarunapelculaparaverenelcine,podramosprime ro buscar personas con gustos similares a losnuestros, para luego elegir algunapelculaspreferidasporestaspersonas.Estaeleccin,enmuchosca sos,sermsacertadaquelaqueharamosdespusdeconocerinformacin intrnsecadelaspelculas.Elmtododefiltradocolaborativoestilenespe cialcuandoescomplejoycostosoanalizarlainformacinaprocesar,como sucederasistaestcompuestaporvideos,imgenes,audio,etc. 136

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

Figura 10.3: Esquema de Filtrado Colaborativo.

Elmtododefiltradocolaborativoseexplica,agrossomodo,enlafigura 10.3.Contamosconunabasededatosdepreferenciasdondecadarectngu lorepresentalasnotas(de1a10)conquecalificacadausuariounconjunto deartculos(denotadosdeAaZ).Unusuarioparticular,quellamaremosX, tambinhaevaluadoalgunosartculos,peronoconoceelartculoC.Enton ces el sistema puede predecir una nota para este artculo que refleje la opinindeX.Parahacerestoenunaprimeraetapa,seidentificaungrupo deusuariosafinesaX,porejemplo,buscamosaaquelloscuyasnotastengan mayorcorrelacinconlasnotasde X.Comoresultadodeestaetapa,selec cionamosdosusuarios.Finalmente,elsistemapredicelanotade Xcomoun promediosimpledelasnotasparaelartculoCdelosdosusuariosseleccio nados. Latcnicadefiltradocolaborativotieneenlaactualidadmuchasaplica cionesdebidoalaproliferacindecomunidades digitalesenlaWebque registran informacin de preferencias de sus usuarios. Estas preferencias 137

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva puedenserimplcitas,comoselecciones("clicks"ocomprasdeproductos),o explcitas,comocomentariosonotas.Doscasosdeaplicacionesmuycitadas sonelsistemaderecomendacindeproductosdeAmazonyNetflix,unsis temaWebrecomendadordepelculas.Elmtododefiltradocolaborativoes labasedelasnuevasgeneracionesdeagregadoresquepermitenportadasde informacinpersonalizadas.

ElRoldelosTags
Otroenfoquecolaborativoparaclasificaryfiltrarsebasaenelfenme node"etiquetadosocial"("socialtagging")queeslaaccindeusuariosdela Webdemarcarrecursoscon"etiquetas"("tags"),esdecir,contrminosque confieren semntica a los recursos. Las etiquetas representan entidades comopersonas,eventos,lugares,conceptos,etc.Granpartedelainforma cindelaWebvivaestsujetaaunintensoetiquetadosocial.Lasetiquetas sepublicanenlosarchivosRSSasociadosainformacinsindicadaypueden servistascomocategorasdesistemasdeclasificacin,llamadosfolcsonom as(neologismoquecombinalapalabragriegaclasificarconlaalemana pueblo)que,adiferenciadelastaxonomasclsicas,evolucionancongran dinamismoproductodelacreacinydesaparicincontinuadeetiquetas. Lafigura10.4muestranubesdeetiquetasdeOrbitando(izquierda)y Technorati(derecha).Estasestructurasmuestranlasetiquetasmspopulares asociadasaunacoleccindedocumentos.Eltamaodecadaetiquetaenla nubenosdicesupesoopopularidadenlacoleccindedocumentos. Enlaactualidad,lasnubesdeetiquetassonestructurasmuypopulares. Sinembargo,debidoaquelasetiquetassecreanlibremente,lasnubespue densercaticas(comoporejemplolanubedeTechnoratiquesemuestraen lafigura10.4(derecha)),debidoasobreposicin(dosomsetiquetascon 138

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva

Figura 10.4: (izquierda) Nube de tags generada por Orbitando. (derecha) Nube de tags generada por Technorati.

muchosdocumentoscomunes),sinonimia(dosetiquetasomsquesignifi canlomismo),polisemia(unaetiquetaconmsdeunsignificado)yotros problemas.Adicionalmente,nosiempredisponemosdeetiquetas.Un rea extensadeinvestigacin,denominadaextraccindeinformacin[8],estu dia el problema de generar etiquetas desde colecciones de texto plano e identificarrelacionessemnticasentreellas.

Conclusin
LaWebvivahageneradounanuevadinmicadeaccesoalainforma cinqueestpresentandodesafoscientficosytecnolgicosimportantes.En estecontexto,lainformacinfluyedesdecanaleshaciaagregadoresquela debenfiltraryclasificarparafinalmentepresentarlaalosusuarios. Hoy,lamayoradelainformacinenlaWebtienelaspropiedadesde unflujo.Lossistemascomputacionalesquefiltrandebentenerlacapacidad deadaptarsecontinuamentea steyalosrequerimientoscambiantesdelos 139

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva usuarios.Estossistemasdebensercapacesdeinterpretarinformacincomo selecciones,votos,transaccionesyetiquetasparasacarprovechodeladin micasocialycolaborativadelaWebactual. Agradecimientos. SeagradeceaCarlosOrregoyJos MaraHurtado porsusaportesysugerenciasquecontribuyeronamejoraresteartculo.

Parasaberms
EnelsitioDesarrolloWebhayuntutorialsencillosobreRSS: http://www.desarrolloweb.com/articulos/2101.php KDNuggetsesunsitiodedicadoalamineradedatos,descubrimientode informacinymineraWeb.http://www.kdnuggets.com/ http://www.kdnuggets.com/

Referencias
1. SoumenChakrabarti.MiningtheWebDiscoveringKnowledgefrom HypertextData.MorganKaufmannPublishers,2002. 2. BenHammersley.ContentSyndicationwithRSS.O'Really,2003. 3. R.Feldman,J.Sanger.TheTextMiningHandbook:AdvancedApproachin AnalyzingUnstructuredData.CambridgeUniversityPress,2007. 4. D.Hand,H.Mannila,P.SmythPrinciplesofDataMining.TheMITPress, 2001. 5. J.HanandM.Kamber.DataMiningConceptsandTechniques.Morgan KauffmanPubdmozlishers,2001. 6. JohnS.Breese;DavidHeckerman;CarlKadie.EmpiricalAnalysisof PredictiveAlgorithmsforCollaborativeFilteringFourteenthConferenceon UncertaintyinArtificialIntelligence.MorganKaufman,1998. 7. P.Jackson,I.Moulinier.NaturalLanguageProcessingforOnline Applications:TextRetrieval,ExtractionandCategorization.JohnBenjamins PublishingCo.2002. 8. GroupLensResearch.Movielens.http://movielens.umn.edu http://movielens.umn.edu 9. Nielsen/NetRatings.http://www.netratings.com http://www.netratings.com 10. NewsMap.www.marumushi.com/apps/newsmap www.marumushi.com/apps/newsmap 11. OpenDirectoryProject.www.dmoz.com www.dmoz.com

140

Captulo10ClasificacinyFiltradodeInformacinenlaWebViva
12. 13. 14. 15. Orbitando.www.orbitando.com www.orbitando.com Topix.www.topix.net www.topix.net TimO'Reilly.WhatIsWeb2.0.O'ReillyNetwork.Septiembre,2005. FabrizioSebastianiMachinelearninginautomatedtextcategorization. ACMComputingSurveys(CSUR)archiveVolume34,Issue1,March2002.

141

Vous aimerez peut-être aussi