Lezione - 09-Banche Dati e Ricerca Testuale

Lezione 09 – Le banche dati, la ricerca per estremi e la ricerca
testuale
1.1. Le banche dati
1.1.1. Definizione
Ai fini di questo studio, le banche dati possono essere definite come “insieme di informazioni relative ad
un preciso dominio di conoscenze, registrate in formato leggibile dall’elaboratore elettronico e consultabili
attraverso un software di ricerca”1. Si tratta dunque di sistemi informativi atti all'archiviazione e al
reperimento di informazioni giuridiche. La struttura tipica di una banca dati si compone di due parti
fondamentali:
1) una base di dati;
2) un software di interrogazione della base di dati.
La base di dati è costituita da uno o più insiemi di documenti, strutturati e suddivisi in archivi in ragione
del tipo di informazione contenuta. Le basi dati odierne sono caratterizzate dalla c.d. indicizzazione totale.
Ciò significa che tutti i termini del documento costituiscono specifici elementi di richiamo. Negli archivi
tradizionali, gli indici prendono in considerazione solo alcuni elementi del documento. Si pensi ad uno
schedario bibliografico dove gli elementi per ricercare un documento sono l’autore del documento oppure la
materia indicata attraverso descrittori o parole chiave tratti da uno schema di classificazione. Abbiamo in
questo caso due indici: i nomi degli autori e i descrittori utilizzati per descrivere il contenuto del documento.
L’accesso alle informazioni può avvenire solo attraverso questi due dati. Si tratta di un criterio di
indicizzazione molto parziale e limitato. Nei sistemi informatici che sfruttano le potenzialità di memoria e di
velocità dei calcolatori, il criterio di indicizzazione è invece totale nel senso che tutti gli elementi del
documento, dal titolo alle parole del testo, costituiscono chiavi di accesso al documento stesso. È dunque
possibile utilizzare come chiave di ricerca una qualsiasi parola, nome o numero che si ritenga sia contenuto
nei documenti.
Il software di interrogazione, oggi corredato da un’interfaccia grafica che facilita la comunicazione
utente-computer, è finalizzato al reperimento dell’informazione ricercata dall’utente. Tale software opera
confrontando i dati immessi della ricerca con quelli presenti nella base di dati (c.d. combaciamento) e
producendo in risposta tutti, e solo, i documenti che contengono quei dati. L’interfaccia comprende di solito
una maschere di ricerca per ciascun sottoinsieme di documenti su cui si intende svolgere la ricerca
(documenti normativi, giurisprudenziali o dottrinari). La maschera di ricerca è data da un’insieme di campi,
ossia di spazi nei quali è possibile immettere i dati che determinano l’oggetto della ricerca; si parla a questo
proposito di dati-esca, di tipologia variabile: parole che si ritenga ricorrano nel documento, numeri e date
identificativi di leggi e sentenze, nomi di autori e così via.
1.1.2. Tipologia
In base ai contenuti, le banche dati giuridiche possono essere classificate come:

a) Testuali (o primarie), se contengono unità documentali nel testo completo (leggi, sentenze, massime,
eccetera);
b) Bibliografiche (o secondarie), se contengono soltanto i riferimenti ad unità documentali, pubblicate per
esteso su supporti tradizionali (archivi cartacei), su altre banche dati o in siti Internet.
Le banche dati primarie consentono di leggere e, solitamente, salvare, stampare ecc. i documenti che
vengono reperiti; le banche dati secondarie contengono indicazioni utili al reperimento di quei documenti,
indicandone la collocazione o le altre informazioni circa il loro acquisto o la consultazione,
In base alla localizzazione dei dati, le banche dati elettroniche si dicono:
1
Il nostro ordinamento prevede anche una definizione legislativa di “banca dati”: l’art. 2, comma 1, numero 9, della legge sul
diritto d’autore (L. 633/1941) come modificata dal d. lgs. 196/1999 definisce la banca dati come «raccolta di opere, dati o altri
elementi indipendenti sistematicamente o metodicamente disposti ed individualmente accessibili mediante mezzi elettronici o in altro
modo».
a) on line quando risiedono fisicamente in un elaboratore remoto rispetto al computer dell'interrogante, il
quale può accedervi via internet;
b) off line quando sono contenute in supporti (generalmente hard disk o DVD) che risiedono o possono
essere inseriti dall'elaboratore dell'interrogante.
Le banche dati on line vengono solitamente aggiornate in modo costante, tuttavia la loro consultabilità è
subordinata alla possibilità di accedere a internet. Per questo, possono risultare poco pratiche nelle situazioni
in cui tale accesso non è sempre disponibile. Le banche dati off line viaggiano con il supporto su cui sono
memorizzate, dunque sono consultabili indipendentemente la disponibilità di un accesso a internet; tuttavia
esse sono soggette ad aggiornamenti meno frequenti (di solito l’abbonamento alla banca dati prevede l’invio
di aggiornamenti con cadenza che varia dai 2 ai 12 mesi), e sono quindi esposte a rischi di obsolescenza della
base dati.
1.2. Gli indici di prestazione nella ricerca documentaria
Un sistema informativo è efficace quando è in grado di reperire tutta e soltanto l’informazione

pertinente agli obbiettivi di ricerca. Gli indici per misurare tale efficacia sono due:
1) La precisione, che indica la capacità di riportare tra i risultati della ricerca solo i documenti pertinenti,
escludendo quelli non pertinenti. È data dalla quantità di documenti pertinenti ritrovati in rapporto a
tutti i documenti ottenuti in risposta dal sistema. Ad esempio: documenti ottenuti in risposta:100,
documenti pertinenti alla ricerca: 60; indice di precisione 60/100 = 0,6
2) il richiamo indica la capacità del sistema di reperire tutti i documenti pertinenti tra quelli presenti
nell’archivio. È data dalla quantità di documenti pertinenti ritrovati in rapporto a tutti documenti
pertinenti contenuti nella base documentale archiviata. Ad esempio: documenti pertinenti ottenuti: 60,
documenti pertinenti presenti nella base dati: 100; indice di richiamo 60/100 = 0,6.
I fenomeni del richiamo e della precisione possono essere colti dalla prospettiva complementare di chi
sia interessato a considerare l’inefficacia di un sistema informativo; si ottengono così altri due indici:
3) Il rumore, ossia il difetto di precisione, indica la quantità di documenti non pertinenti che il sistema
presenta come risultato della ricerca. Risulta dal numero di documenti non pertinenti ottenuti diviso per
il numero totale dei documenti ottenuti in risposta dall’elaboratore. Ad esempio: documenti ottenuti in
risposta: 100, documenti non pertinenti: 40; indice di rumore 40/100 = 0,4.
4) Il silenzio, ossia il difetto di richiamo, esprime l’incapacità del sistema di reperire i documenti pertinenti
contenuti nell’archivio consultato. Può calcolarsi dividendo il numero di documenti pertinenti che, pur
contenuti nell’archivio consultato, non sono stati selezionati per il numero dei documenti pertinenti
presenti nell’archivio stesso. Ad esempio: documenti pertinenti non ottenuti 40, documenti pertinenti
totali 100; indice di silenzio 40/100 = 0,4.
Per metonimia, è possibile impiegare i termini “rumore”, “rumorosa” e “silenzio”, “silenziosa” per
designare/connotare il risultato indesiderabile di una ricerca che ha prodotto, rispettivamente, troppi risultati
non pertinenti e pochi risultati pertinenti.
Dati pertinenti presenti Dati recuperati in risposta

nella base documentale al quesito
Dati recuperati
Dati pertinenti non pertinenti Dati recuperati non
recuperati (silenzio) (risultato utile) pertinenti (rumore)
1.3. La ricerca per estremi
Le odierne banche dati consentono due generi di ricerca: la ricerca per estremi, che opera attraverso
l’immissione dei dati alfanumerici che identificano il documento da reperire, e la ricerca testuale, che opera
attraverso l’immissione di una o più parole che si presume ricorrano nel documento che da reperire. La
ricerca per estremi non richiede particolari conoscenze tecniche: sarà sufficiente inserire il tipo, il numero e
la data dell’atto normativo o giurisdizionale che si intende reperire (ad esempio, indicando nell’apposito
campo il tipo “legge”, il numero “300” e l’anno “1970”). Si ricorre a questo tipo di ricerca quando si dispone
già delle conoscenze relative agli estremi che identificano il documento da reperire.
Molte odierne banche dati facilitano le ricerche per estremi consentendo l’individuazione di certi
documenti, specie normativi, mediante l’immissione delle denominazioni con cui tali atti vengono designati,
per brevità, nella prassi. È dunque possibile ad esempio ricercare la legge 300/1970 indicando nell’apposito
campo (spesso denominato “nome volgare” o simili) “statuto dei lavoratori”, o trovare il d. lgs. 196/2003
indicando “codice della privacy” e così via.
1.4. La ricerca testuale
Quando si intende reperire della documentazione di cui si ignorano gli estremi, oppure quando si intende
estendere la selezione non limitandola ai documenti noti, si ricorre alla ricerca testuale, che opera attraverso
l’immissione negli appositi campi di termini che si ritiene siano presenti nei documenti da reperire. I termini
che vengono introdotti, eventualmente combinati attraverso gli operatori che saranno descritti nei prossimi
paragrafi, costituiscono la c.d. stringa di ricerca. La formulazione di una congrua stringa di ricerca è la
chiave per ottenere ricerche che ottengano successo sia sotto il profilo della precisione sia sotto il profilo del
richiamo. I prossimi paragrafi saranno dedicate all’esame di alcune problematiche legate a questo particolare
tipo di ricerca.
1.4.1. Polisemia, sinonimia, indefettibilità
La polisemia è il fenomeno linguistico che si verifica quando una parola ha più di un significato. Ad
esempio, il termine “costituzione” assume diversi significati a seconda che sia usato per designare la legge
fondamentale di uno stato (es. “costituzione della repubblica”), la complessione fisica di un individuo (es.
“Gianni è un ragazzo di costituzione robusta”) l’atto con cui la parte fa ingresso nel processo (costituzione in
giudizio), l’atto che determina la nascita di una società (costituzione di una s.p.a) , ecc. L’immissione in fase
di ricerca del termine “costituzione”, peraltro, produrrà in risposta tutti, e solo, i documenti che contengono
quel termine (cioè una sequenza di caratteri non intervallati da spazi), indipendentemente dai significati che
esso assume nei vari contesti. Il risultato della ricerca è in questi casi esposto al rischio di rumore, giacché
comprende documenti in cui quel termine ricorre con significati diversi da quello rilevante ai fini della
ricerca (ad esempio, si cercavano documenti relativi alla definizione di “sana e robusta costituzione” e si
reperiscono anche molti documenti relativi alla “costituzione in giudizio” o alla costituzione italiana).
La sinonimia è il fenomeno linguistico che si verifica quando più parole indicano un significato identico
in ogni contesto (sinonimia totale, es: “fideiussione”, “fidejussione”) o in alcuni contesti (sinonimia parziale,
es. “vendita”, “compravendita”). L’immissione in fase di ricerca di un termine come “fideiussione” produrrà
in risposta i documenti che contengono quel termine, scritto esattamente in quel modo, ma non i documenti
che comprendono il termine “fidejussione”, giacché il sistema prende in considerazione i termini in quanto
mere sequenze di caratteri, e non in quanto entità linguistiche dotate di un certo significato. Il risultato della
ricerca è quindi esposto a un elevato rischio di silenzio, poiché non comprende documenti che pure erano
rilevanti ai fini della ricerca stessa.
Per ovviare alle difficoltà derivanti dalla polisemia e dalla sinonimia dei dati-esca, è possibile formulare
stringhe di ricerca complesse, facendo uso degli operatori di cui si parlerà nei prossimi paragrafi.
1.4.2. Gli operatori booleani
La stringa di ricerca può essere costituita da un solo termine o da più termini. Nel primo caso,
l’interrogazione viene effettuata mediante la specificazione di una sola condizione, data dalla ricorrenza nel
documento del termine che costituisce la stringa di ricerca. Così, una stringa di ricerca come “abigeato”
produrrà come risultato tutti i documenti presenti nella base dati che soddisfino la condizione data dalla
ricorrenza della parola “abigeato”. L’uso di stringhe di ricerca costituite da un solo termine, tuttavia, è
solitamente sconsigliato, giacché la possibile presenza di sinonimi e di significati diversi espone la ricerca al
rischio, congiunto, di silenzio e di rumore 2. È dunque possibile formulare delle stringhe di ricerca facendo
uso di più dati-esca, con lo scopo di precisare e rendere più completo il risultato dell’interrogazione. Questi
dati-esca, inoltre possono essere combinati in vario modo attraverso alcune parole speciali, note come
operatori di relazione. Tali parole vengono inserite tra i termini che compaiono nella stringa di ricerca, e
consentono di specificare una serie di condizioni logiche relative ai documenti che ne costituiscono il
risultato. I più importanti operatori di relazione sono i cosiddetti operatori logici o booleani 3: AND, OR e
NOT.
L’operatore AND viene inserito tra due o più termini quando si vuole che questi siano tutti presenti in
ciascuno dei documenti che costituiscono il risultato della ricerca. Ad esempio, un’interrogazione che operi
tramite la stringa di ricerca
affitto AND locazione
produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorrono sia il termine «affitto»
sia il termine «locazione». Non vengono invece compresi nel risultato della ricerca:
a) I documenti che non contengono né il termine «affitto» né il termine «locazione»;
b) I documenti che contengono il termine «affitto» ma non il termine «locazione»;
c) I documenti che contengono il termine «locazione» ma non il termine «affitto».
L’uso dell'operatore AND restringe la selezione dei documenti prodotti in risposta dal sistema. Tanti più
termini vengono combinati in AND, tanto meno numerosi saranno i documenti selezionati. Si tratta dunque,
tipicamente, di un operatore adoperato per limitare il rumore della ricerca, e/o per contrastare gli effetti della
polisemia. Una ricerca sulla nozione di “sana e robusta costituzione”, ad esempio, potrà essere resa meno
rumorosa se la stringa di ricerca, in luogo del solo termine polisemico “costituzione”, contiene anche,
combinati in AND, i termini “sana” e “robusta”. Una stringa come:
sana AND robusta AND costituzione
invero, produce in risposta tutti, e solo, i documenti in cui ricorrono contemporaneamente le parole “sana”,
“robusta” e “costituzione”; vi saranno pertanto maggiori probabilità di reperire tra i primi risultati della
ricerca i documenti che riguardino la costituzione intesa come salute fisica dell’individuo, piuttosto che quei
documenti che attengono alla costituzione intesa come atto processuale, legge fondamentale o creazione di
una società.
L’operatore OR viene inserito tra due o più termini quando si vuole che almeno uno di essi sia presente in
ciascuno dei documenti che costituiscono il risultato della ricerca. Ad esempio, un’interrogazione che operi
affitto OR locazione
produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorre il termine «affitto», tutti i
documenti presenti nella base dati in cui ricorre il termine «locazione» oltreché naturalmente tutti i
documenti in cui ricorrono sia il termine «affitto» sia il termine «locazione». Non vengono invece compresi
nel risultato della ricerca i documenti in cui non compaiono né il termine «affitto» né il termine «locazione».
L'uso dell'operatore OR estende la selezione dei documenti prodotti in risposta dal sistema: tanto maggiore è
2
Un risultato può essere, al tempo stesso, silenzioso e rumoroso quando ricomprende solo una parte dei documenti rilevanti
presenti nella base dati e tuttavia include una mole di documenti non rilevanti.
3
Da George Boole, filosofo e matematico inglese del XIX secolo, cui si deve l'invenzione del calcolo logico noto come algebra
proposizionale di Boole. Boole notò che le combinazioni tra proposizioni obbediscono a leggi ben definite, di cui si può dare una
formulazione precisa tanto quanto la definizione delle regole che governano le operazioni dell'aritmetica.
il numero dei termini combinati in OR, tanto più elevato è il numero dei documenti prodotti in risposta dal
sistema. OR, pertanto, permette di contrastare il silenzio della ricerca e/o gli effetti della sinonimia. Una
ricerca sull’istituto della compravendita effettuata mediante l’introduzione di una stringa di ricerca come
compravendita
infatti, è silenziosa nella misura in cui esclude dai risultati della ricerca tutti quei documenti in cui
quell’istituto è designato tramite il termine sinonimo “vendita”, documenti che pure erano rilevanti ai fini
della ricerca. L’uso della combinazione
vendita OR compravendita
consente di eliminare questo problema, giacché produce un risultato che comprende tutti, e solo, quei
documenti in cui ricorrono, anche disgiuntamente, il termine “vendita” e il termine “compravendita”.
L’operatore NOT viene inserito prima di un termine quando si vuole che la ricerca produca in risposta dei
documenti in cui non compare quel termine. Ad esempio, un’interrogazione che operi tramite la stringa di
ricerca
affitto NOT locazione
produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorre il termine «affitto» ma non
il termine «locazione». Non vengono invece compresi nel risultato della ricerca:
a) I documenti in cui non compaiono né il termine «affitto» né il termine «locazione»;
b) I documenti in cui compaiono sia il termine «affitto» sia il termine «locazione»;
c) I documenti in cui non compare il termine «locazione» ma compare il termine «affitto».
Anche l’operatore NOT viene solitamente adoperato per contrastare il rumore delle ricerche e/o il
fenomeno della polisemia delle parole. Si supponga ad esempio che un ricercatore intenda reperire
documenti riguardanti la nozione di inquinamento inteso come degrado ambientale. Una stringa di ricerca
come:
inquinamento
tuttavia, produrrebbe un risultato che include anche documenti in cui il termine “inquinamento” viene
associato al termine “probatorio”, e quindi inteso come attentato all’acquisizione o alla genuinità della prova
in sede processuale. Per evitare questo rumore, è possibile adoperare una stringa come:
inquinamento NOT probatorio
che esclude dal risultato della ricerca tutti i documenti in cui ricorre il termine “probatorio”, che assai
probabilmente contengono informazioni non rilevanti ai fini della ricerca.
La sintassi corretta delle stringhe di ricerca prevede che due termini possano essere combinati da un solo
operatore booleano. È dunque sintatticamente scorretta (e quindi nulla) la stringa di ricerca
affitto OR AND locazione
mentre sono sintatticamente corrette le stringhe:
affitto AND locazione

affitto OR locazione
affitto OR locazione AND immobiliare
1.4.3. L’uso delle parentesi

È possibile elaborare stringhe di ricerca complesse, che includano più dati-esca combinati in vario modo.
Sorge però l’esigenza di comprendere l’ordine in cui il software di interrogazione combina i termini inseriti
in stringa di ricerca. In mancanza di una specificazione di tale ordine, infatti, una stringa come:
affitto OR locazione AND immobiliare
sarebbe ambigua, in quanto potrebbe essere interpretata come:

1) “trova tutti e solo i documenti in cui compare il termine «affitto», i documenti in cui compaiono sia il
termine «locazione» sia il termine «immobiliare», e i documenti in cui compare sia il termine «affitto»,
sia il termine «locazione» sia il termine «immobiliare»”;
2) “trova tutti e solo i documenti in cui compaiono sia il termine «affitto» sia il termine «immobiliare», i
documenti in cui compaiono sia il termine «locazione» sia il termine «immobiliare», e i documenti in cui
compare sia il termine «affitto», sia il termine «locazione» sia il termine «immobiliare»;
La differenza tra le due interpretazioni è evidente: nel secondo caso, infatti, vengono esclusi dal risultato
della ricerca i documenti in cui compare il termine «affitto» ma non compare il termine «immobiliare». Per
evitare queste ambiguità, i software di interrogazione, prendono in considerazione le operazioni secondo un
ordine prestabilito per default. Solitamente, l’ordine in cui il sistema raggruppa le operazioni è il seguente:
prima vengono considerate le combinazioni in AND, poi le combinazioni in NOT e infine le combinazioni in
OR 4. Più precisamente:
a) Tra AND e OR prevale AND. Il sistema, cioè, combina per prima cosa i termini combinati in AND,
trattandoli come se fossero inclusi tra parentesi. Ciò indipendentemente dalla posizione che la
combinazione occupa nella stringa di ricerca. Ad esempio, una stringa come:
atto AND vendita OR compravendita
viene interpretata dal sistema come:
(atto AND vendita) OR compravendita
e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono:
1) Sia la parola “atto” sia la parola “vendita”;
2) La parola “compravendita”;
3) Sia la parola “atto,” sia la parola “vendita” sia la parola “compravendita.
La stringa non viene invece interpretata dal sistema come:
atto AND (vendita OR compravendita)
giacché la combinazione in AND è prioritaria rispetto alla combinazione in OR. Quest’interpretazione

avrebbe prodotto un risultato di ricerca diverso giacché, diversamente dall’interpretazione precedente, non
avrebbe incluso i documenti in cui compare la parola “compravendita” ma non compare la parola “atto”.
Allo stesso modo, una stringa come:
atto OR vendita AND compravendita
atto OR (vendita AND compravendita)
1) Sia la parola “vendita” sia la parola “compravendita”;
2) La parola “atto”;
3) Sia la parola “atto,” sia la parola “vendita” sia la parola “compravendita.
4
Ciò, almeno, è quanto accade nella maggior parte delle banche dati presenti in commercio. Poiché peraltro questa regola
sortisce numerose eccezioni, è opportuno disambiguare le stringhe di ricerca inserendo manualmente le parentesi (vedi infra, questo
stesso paragrafo).
b) Tra NOT e AND, prevale quello più a sinistra. Il sistema, cioè, combina per prima cosa le coppie di
termini che compaiono più a sinistra nella stringa di ricerca, trattando i termini come se fossero inclusi
tra parentesi. Ad esempio, una stringa come:
atto AND vendita NOT compravendita
(atto AND vendita) NOT compravendita;
e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono sia la
parola “atto” sia la parola “vendita”, a patto che non compaia anche la parola “compravendita”.
D’altro canto, una stringa come:
atto NOT vendita AND compravendita
(atto NOT vendita) AND compravendita
e cioè come un’istruzione volta a far reperire al sistema tutti e solo i documenti che contengono sia la
parola “atto” sia la parola “compravendita”, a patto che non compaia anche la parola “vendita”.
c) Tra NOT e OR prevale NOT. Il sistema, cioè, combina per prima cosa le coppie di termini combinati
in NOT, trattando i termini come se fossero inclusi tra parentesi. Ad esempio, una stringa come:
atto OR vendita NOT compravendita
atto OR (vendita NOT compravendita)
1) I documenti in cui compare la parola “atto”;
2) I documenti in cui compare la parola “vendita”, a patto che non compaia anche la parola
“compravendita”;
3) i documenti in cui compaiono sia la parola “atto” sia la parola “vendita”, a patto che non compaia
anche la parola “compravendita”.
Similmente, una stringa come:
atto NOT vendita OR compravendita
(atto NOT vendita) OR compravendita
1) I documenti in cui compare la parola “atto”, a patto che non compaia anche la parola “vendita”;
2) I documenti in cui compare la parola “compravendita”;
3) i documenti in cui compaiono sia la parola “atto” sia la parola “compravendita”, a patto che non
compaia anche la parola “vendita”.
Per specificare un ordine diverso da quello predefinito dal software di interrogazione, il ricercatore può
fare uso delle parentesi: i termini racchiusi tra parentesi vengono infatti combinati con un ordine prioritario
rispetto alle altre combinazioni presenti nella stringa di ricerca. Ad esempio, si è detto che una stringa come:
atto AND vendita OR compravendita

viene interpretata dal sistema come un’istruzione volta a selezionare tutti, e solo:
1) I documenti che contengono sia il termine “atto” sia il termine “vendita”;
2) I documenti che contengono il termine “compravendita”
3) I documenti che contengono sia il termine “atto” sia il termine “vendita” sia il termine
“compravendita”.
Se invece, tramite l’uso delle parentesi, si istruisce il sistema a combinare per primi i termini collegati in
OR, scrivendo:
atto AND (vendita OR compravendita)
allora il risultato della ricerca comprenderà tutti, e solo:
1) I documenti che contengono sia il termine “atto” sia il termine “vendita”;

2) I documenti che contengono sia il termine “atto” sia il termine “compravendita”;
3) I documenti che contengono sia il termine “atto” sia il termine “vendita” sia il termine
“compravendita”.
La seconda stringa, diversamente dalla prima, lascia fuori dalla selezione i documenti che contengono la
parola “compravendita” ma non contengono la parola “atto”.
Alla luce di quanto detto sopra, le parentesi sono superflue quando i termini tra esse racchiusi sono
collegati mediante AND, dato che il sistema tratta i termini collegati in AND come se fossero comunque
compresi tra parentesi. Pertanto, una stringa come:
inadempimento AND (impossibilità AND sopravvenuta)
individua esattamente gli stessi risultati di una stringa come:
inadempimento AND impossibilità AND sopravvenuta.
1.4.4. Altri operatori per la ricerca
Gli operatori AND, OR e NOT sopra esaminati sono gli operatori di relazione più classici. Vi sono
peraltro degli altri operatori di relazione, denominati operatori di prossimità, che operano come degli AND
rafforzati, nel senso che non si limitano a richiedere la compresenza dei dati-esca nei documenti che
costituiscono il risultato della ricerca, ma vengono utilizzati per chiedere al sistema di fornire soltanto i
documenti in cui i dati-esca sono presenti ad una certa distanza tra loro, cioè adiacenti o vicini. Questi
operatori di prossimità sono:
ADJ (operatore di adiacenza). Viene inserito tra due o più termini quando si vuole che questi siano tutti
presenti, in posizione di adiacenza, in ciascuno dei documenti che costituiscono il risultato della ricerca. Ad
esempio, un’interrogazione che operi tramite la stringa di ricerca
ordine ADJ pubblico
produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorrono i termini «ordine» e
«pubblico» l’uno accanto all’altro, ossia i documenti in cui compare la frase «ordine pubblico»5. Se i due
termini dell'esempio fossero stati combinati in AND, la ricerca avrebbe selezionato tutti i documenti che
contengono in qualsiasi parte del testo i termini «ordine» e «pubblico». sarebbero dunque stati inclusi nel
risultato della ricerca non solo documenti che contengono riferimenti al concetto di ordine pubblico, ma
anche documenti relativi, ad esempio, all'ordine impartito da un pubblico ufficiale, all'ordine del disbrigo
delle pratiche in un ufficio pubblico, e così via.
5
In alcune banche dati, l’operatore ADJ non tiene conto dell’ordine in cui vengono inseriti i termini combinati; di conseguenza,
se si impiega una stringa come quella riportata nell'esempio, i documenti prodotti in risposta sono sia quelli in cui compare la frase
«ordine pubblico» sia quelli in cui compare la frase «pubblico ordine». È buona norma consultare il manuale della banca dati per
accertare le modalità di funzionamento dell'operatore ADJ.
NEAR (operatore di vicinanza) 6. Viene inserito tra due o più termini quando si vuole che questi siano
tutti presenti, in posizione di vicinanza, in ciascuno dei documenti che costituiscono il risultato della ricerca.
Ad esempio, un’interrogazione che operi tramite la stringa di ricerca:
impossibilità NEAR sopravvenuta
produce in risposta tutti, e solo, i documenti presenti nella base dati in cui ricorrono i termini «impossibilità»
e «sopravvenuta» in posizione di vicinanza, ossia i documenti in cui quei termini compaiono intervallati da
un certo numero di altre parole (solitamente 5, 7 o 15: dipende dalla banca dati utilizzata) 7. Saranno pertanto
compresi nel risultato della ricerca documenti relativi alla “sopravvenuta impossibilità”, all’“impossibilità
sopravvenuta”, all’“impossibilità non sopravvenuta”, all’“impossibilità di adempiere per causa
sopravvenuta” e via dicendo.
“…” (virgolette, ricerca per frase esatta). Quando nel campo di ricerca testuale viene inserita una frase
racchiusa da virgolette, il risultato della ricerca comprenderà tutti, e solo, i documenti che contengono quella
frase così com’è stata digitata, comprensiva di articoli e preposizioni. Ad esempio, un'interrogazione che
operi tramite la stringa di ricerca
"cessazione degli effetti civili del matrimonio"
produce in risposta a tutti, e solo, documenti che contengono la frase “cessazione degli effetti civili del
matrimonio”. La ricerca per frase esatta è molto utile per evitare il fenomeno del rumore, tuttavia produce
qualche rischio di silenzio, giacché il sistema produce in risposta solo i documenti in cui la frase ricorre nella
sua esatta formulazione. Un'interrogazione che operi tramite la stringa di ricerca appena riportata, ad
esempio, non includerà nella risposta quei documenti in cui, in luogo della frase “cessazione degli effetti
civili del matrimonio”, compare la frase “cessazione dell’efficacia civile del matrimonio”, che evidentemente
si riferisce allo stesso fenomeno oggetto dell’interesse del ricercatore.
1.4.5. la ricerca per radice e il mascheramento
Alcuni strumenti di ricerca consentono di ridurre i rischi di silenzio dati dal modo in cui i termini immessi
nelle stringhe di ricerca vengono declinati o coniugati. Se noi ad esempio immettiamo in stringa di ricerca il
termine «prescrizione» con l'intento di selezionare tutti i documenti che trattano di quest'istituto, otteniamo
una ricerca silenziosa nella misura in cui il risultato non comprendere tutti quei documenti, potenzialmente
rilevanti, che contengono le parole «prescritto», «prescritti», «prescrittibile» ecc. per ovviare a questa
difficoltà è possibile utilizzare lo strumento della ricerca per radice, che opera attraverso l’immissione dei
primi caratteri che compongono il termine, seguiti dal simbolo “*”. Ad esempio, un'interrogazione che operi
prescri*
produce in risposta a tutti, e solo, documenti che contengono delle parole che cominciano con la sequenza di
caratteri «prescri», e dunque «prescrizione», «prescritto», «prescritti», «prescrittibile», «prescrittività», ecc.
È ovvio che più la radice è allungata, più mirata è la ricerca. Un troncamento limitato alla sillaba «pre» è ben
poco utile, giacché questa radice è presente ad esempio in parole come preside, prete, pretore, prevenzione,
previdenza eccetera.
Per molti versi analoga alla ricerca per troncamento è la tecnica per mascheramento, che solitamente
opera tramite l'immissione del simbolo “?”, e che rende possibile effettuare ricerche impiegando termini che
presentano un carattere o un numero intercambiabile. Ad esempio, un'interrogazione che operi tramite la
stringa di ricerca
fide?ussione
6
Talvolta l'operatore di vicinanza è denominato WITH. Consultare il manuale della banca dati per accertare la notazione in uso.
7
È buona norma controllare il manuale della banca dati per accertare il numero di parole che determina la distanza massima dei
termini reperiti con una combinazione in NEAR.
produce in risposta a tutti, e solo, i documenti che contengono termini come “fideiussione” e “fidejussione”;
un’interrogazione che operi tramite la stringa di ricerca
azion?
Produce in risposta tutti, e solo, i documenti che contengono termini come “azione”, “azioni”, “aziona”,
“azionò”, e cosi via. Anche in questo caso, i problemi che si risolvono sono legati al silenzio di ricerche che
producono in risposta soltanto i documenti in cui il termine oggetto dell’interesse del ricercatore ricorre
scritto, o declinato in un certo modo.

Lezione - 09-Banche Dati e Ricerca Testuale

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Lezione - 09-Banche Dati e Ricerca Testuale

Transféré par

Droits d'auteur :

Formats disponibles

Lezione 09 – Le banche dati, la ricerca per estremi e la ricerca

1.1. Le banche dati

In base ai contenuti, le banche dati giuridiche possono essere classificate come:

1.2. Gli indici di prestazione nella ricerca documentaria

Un sistema informativo è efficace quando è in grado di reperire tutta e soltanto l’informazione

Dati pertinenti presenti Dati recuperati in risposta

1.4. La ricerca testuale

1.4.1. Polisemia, sinonimia, indefettibilità

affitto AND locazione

sana AND robusta AND costituzione

affitto NOT locazione

inquinamento NOT probatorio

affitto OR AND locazione

mentre sono sintatticamente corrette le stringhe:

affitto AND locazione

1.4.3. L’uso delle parentesi

affitto OR locazione AND immobiliare

sarebbe ambigua, in quanto potrebbe essere interpretata come:

atto AND vendita OR compravendita

viene interpretata dal sistema come:

(atto AND vendita) OR compravendita

giacché la combinazione in AND è prioritaria rispetto alla combinazione in OR. Quest’interpretazione

atto OR vendita AND compravendita

viene interpretata dal sistema come:

atto OR (vendita AND compravendita)

atto AND vendita NOT compravendita

viene interpretata dal sistema come:

(atto AND vendita) NOT compravendita;

atto NOT vendita AND compravendita

viene interpretata dal sistema come:

(atto NOT vendita) AND compravendita

atto OR vendita NOT compravendita

viene interpretata dal sistema come:

atto OR (vendita NOT compravendita)

atto NOT vendita OR compravendita

viene interpretata dal sistema come:

(atto NOT vendita) OR compravendita

atto AND vendita OR compravendita

atto AND (vendita OR compravendita)

allora il risultato della ricerca comprenderà tutti, e solo:

1) I documenti che contengono sia il termine “atto” sia il termine “vendita”;

inadempimento AND (impossibilità AND sopravvenuta)

individua esattamente gli stessi risultati di una stringa come:

inadempimento AND impossibilità AND sopravvenuta.

1.4.4. Altri operatori per la ricerca

ordine ADJ pubblico

impossibilità NEAR sopravvenuta

"cessazione degli effetti civili del matrimonio"

1.4.5. la ricerca per radice e il mascheramento

Vous aimerez peut-être aussi