Vous êtes sur la page 1sur 16

Temat pracy magisterskiej:

Algorytm zachłanny do generowania reduktów dla


niespójnych tablic decyzyjnych.

Paweł Kaim
Promotor: dr hab. Beata Zielosko
Podstawy teorii zbiorów przybliżonych

Teoria zbiorów przybliżonych (ang. rough sets) została


przedstawiona w 1982 roku przez polskiego profesora
informatyki i matematyki Zdzisława Pawlaka, jako narzędzie
do opisu wiedzy, a szczególnie wiedzy niepewnej i
niedokładnej stanowiące rozwinięcie klasycznej teorii
zbiorów.

Teoria zbiorów przybliżonych oparta jest o logikę


trójwartościową, która znalazła szerokie zastosowanie w
obszarach data miningu, uczenia maszynowego, systemach
wspomagania decyzji, redukcji wiedzy oraz klasyfikacji.
System informacyjny

System informacyjny powinien odznaczać się dwoma ważnymi


cechami:

• uniwersalnością – możliwość gromadzenia zbiorów danych różnego


rodzaju, opisujących badane zjawiska i procesy,
• efektywnością – umożliwienie w szybki i prosty sposób
przetwarzania zgromadzonych danych.

Posiadającą obie te cechy jest struktura tablicy. Szeroko znany i często


wykorzystywany sposób reprezentacji danych, w którym wiersze są
indeksowane kolejnymi obiektami, natomiast kolumny odpowiadają
ich atrybutom (cechy, parametry). Na przecięciu kolumn i wierszy
znajdują się wartości poszczególnych atrybutów odpowiadającym im
obiektom.
Formalnie system informacyjny opisywany jest jako
uporządkowana czwórka: SI = (U, A, V, f) gdzie:

• 𝑈 – jest niepustym, skończonym zbiorem zwanym uniwersum,


a jego elementy nazywane są obiektami U = {x1, x2, .., xn},
• 𝐴 – jest niepustym, skończonym zbiorem atrybutów: A = {a1,
a2, .., am},
• 𝑉 – jest zbiorem wartości atrybutów ze zbioru 𝐴: 𝑉 =
∪𝑎∈𝐴 𝑉𝑎 , przy czym 𝑉𝑎 nazywana jest dziedziną atrybutu A ,
• 𝑓 – jest funkcją informacji, odpowiadającą iloczynowi
kartezjańskiemu zbioru obiektów i zbioru atrybutów w zbiór
wartości atrybutów, który można zapisać: 𝑈 × 𝐴 → 𝑓, gdzie
∀𝑥∈𝑋 𝑓 𝑥, 𝑎 ∈ 𝑉𝑎 .
𝑎∈𝐴
Tablica decyzyjna
Szczególnym rodzajem systemu informacyjnego jest tablica
decyzyjna, która zdefiniowana została jako uporządkowana
piątka 𝑇𝐷 = (𝑈, 𝐶, 𝐷, 𝑉, 𝑓), gdzie:
• 𝐶, 𝐷 ⊂ 𝐴; 𝐶 ≠ ∅; 𝐶 ∪ 𝐷 = 𝐴; 𝐶 ∩ 𝐷 = ∅,
• Elementy zbioru 𝐶 nazywamy atrybutami warunkowymi,
• Elementy zbioru 𝐷 nazywamy atrybutami decyzyjnymi,
• 𝑓 nazywamy funkcją decyzyjną
• 𝑈 oraz 𝑉 interpretowane są jak w przypadku systemu
informacyjnego, dodatkowo poszczególne wartości 𝑣
atrybutów 𝐷 (𝑣 ∈ 𝑉𝐷 ) nazywane są klasami decyzyjnymi
Pacjent Temperatura Ból głowy Ból mięśni Choroba
x1 wysoka brak mały przeziębienie
x2 wysoka brak brak przeziębienie
x3 wysoka duży mały grypa
x4 b. wysoka duży brak grypa
x5 normalna duży brak brak
x6 normalna mały mały brak
x7 b. wysoka mały duży grypa
x8 wysoka duży mały przeziębienie

U = {x1,x2,x3,x4,x5,x6,x7,x8}
C = {Temperatura, Ból głowy, Ból mięśni}
D = {Choroba}
𝑉 = 𝑉𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 ∪ 𝑉𝐵ó𝑙 𝑔ł𝑜𝑤𝑦 ∪ 𝑉𝐵ó𝑙 𝑚𝑖ęś𝑛𝑖 ∪ 𝑉𝐶ℎ𝑜𝑟𝑜𝑏𝑎
𝑉𝑇𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 𝑛𝑜𝑟𝑚𝑎𝑙𝑛𝑎, 𝑤𝑦𝑠𝑜𝑘𝑎, 𝑏. 𝑤𝑦𝑠𝑜𝑘𝑎
𝑉𝐵ó𝑙 𝑔ł𝑜𝑤𝑦 = 𝑏𝑟𝑎𝑘, 𝑚𝑎ł𝑦, 𝑑𝑢ż𝑦
𝑉𝐵ó𝑙 𝑚𝑖ęś𝑛𝑖 = 𝑏𝑟𝑎𝑘, 𝑚𝑎ł𝑦, 𝑑𝑢ż𝑦
𝑉𝐶ℎ𝑜𝑟𝑜𝑏𝑎 = 𝑏𝑟𝑎𝑘, 𝑝𝑟𝑧𝑒𝑧𝑖ę𝑏𝑖𝑒𝑛𝑖𝑒, 𝑔𝑟𝑦𝑝𝑎
𝑓: 𝑈 ⨯ 𝐴 → 𝑉
Relacja nierozróżnialności

Dwuargumentowa relacja IND(B) zachodzącą między obiektami


uniwersum systemu informacyjnego na zbiorze atrybutów 𝐵 ⊂ 𝐴.

𝐼𝑁𝐷 𝐵 = { 𝑥, 𝑦 ∈ 𝑈 ⨯ 𝑈: ∀𝑎∈𝐵 , 𝑎 𝑥 = 𝑎 𝑦 }

Co oznacza że dla każdego atrybutu ze zbioru B, obiekty uniwersum 𝑥 i


𝑦 przyjmują identyczne wartości. Są więc nierozróżnialne ze względy
na atrybuty zbioru B.
Relacja nierozróżnialności jest relacją zwrotną co oznacza że cechuje
się trzema właściwościami:

• zwrotność – oznacza że obiekt wchodzi w relację z samym sobą


𝑥𝑅𝑥,

• symetryczność – możliwość wnioskowania 𝑥𝑅𝑦 ⇒ 𝑦𝑅𝑥,

• przechodniość – jeżeli prawdą jest że 𝑥𝑅𝑦 i 𝑦𝑅𝑧 można


wywnioskować że prawdą jest również 𝑥𝑅𝑧.
Aproksymacja zbiorów
Aproksymacja zbiorów pozwala na zastąpienie pojęcia nieostrego dwoma
pojęciami ostrymi – górnym oraz dolnym przybliżeniem.

𝐵𝑋 = {𝑥 ∈ 𝑈 ∶ 𝑥 𝐼𝑁𝐷 𝐵 ⊆ 𝑋}

𝐵𝑋– dolne przybliżenie zbioru, to zbiór obiektów należących do 𝐼𝑁𝐷 𝐵 ,


które na pewno należą do danego pojęcia (klasy decyzyjnej). Dolnemu
przybliżeniu zbioru odpowiada 𝑃𝑂𝑆𝐵 𝑋 = 𝐵𝑋, określany jako pozytywny
obszar zbioru 𝑋.

𝐵𝑋 = {𝑥 ∈ 𝑈 ∶ 𝑥 𝐼𝑁𝐷 𝐵 ∩𝑋 ≠∅

𝐵𝑋 – górne przybliżenie zbioru, to zbiór obiektów, które być może należą do


pojęcia 𝑋.
𝐵𝑁 𝑋 = 𝐵𝑋 − 𝐵𝑋
𝐵𝑁(𝑋) – brzeg zbioru to zbiór obiektów co do których nie ma pewności, czy
należą czy nie do danej klasy decyzyjnej.

𝑁𝐸𝐺𝐵 𝑋 = 𝑈 − 𝐵𝑋
𝑁𝐸𝐺𝐵 𝑋 – obszar negatywny zbioru 𝑋 w systemie informacyjnym określany
jest. Obiekty należącego do obszaru negatywnego z całą pewnością nie należą
do pojęcia 𝑋.

Na podstawie tych definicji zapisać można wnioski dotyczące górnego i


dolnego przybliżenia zbiorów nieostrych:
• 𝐵𝑋 ⊆ 𝑋 ⊆ 𝐵𝑋,
• Zbiór 𝑋 jest dokładny, gdy 𝐵𝑋 = 𝐵𝑋 ⇔ 𝐵𝑁𝐵 𝑋 = ∅,
• Zbiór 𝑋 jest przybliżony, gdy 𝐵𝑋 ≠ 𝐵𝑋 ⇔ 𝐵𝑁𝐵 𝑋 ≠ ∅.
Miara dokładności
Aby możliwe było porównanie dwóch zbiorów pod względem ich ostrości tzn.
które z nich jest dokładniejsze, zdefiniowana została miara dokładności (miara
dokładności aproksymacji). Im większy współczynnik miary dokładności tym
ostrzejszy jest zbiór 𝑋.
|𝐵𝑋|
• 𝛼𝐵 𝑋 =
|𝐵𝑋|
• gdzie |𝑋| oznacza liczebność zbioru 𝑋. Tak zdefiniowana miara dokładności
posiada pewne własności:
• 0 ≤ 𝛼𝐵 𝑋 ≤ 1
• jeśli 𝛼𝐵 (𝑋) = 1 oznacza to że pojęcie X jest ostre i może być wyrażone
przez zbiór atrybutów 𝐵.
• jeśli 0 ≤ 𝛼𝐵 𝑋 ≤ 1 to pojęcie X jest niedokładne, ale może zostać
częściowo (z dokładnością 𝛼𝐵 𝑋 ) wyrażone za pomocą atrybutów 𝐵.
• jeśli 𝛼𝐵 (𝑋) = 0 to zbiór 𝑋 jest całkowicie nieprecyzyjne i nie można w
żadne sposób opisać go za pomocą zbioru atrybutów 𝐵.
Algorytm zachłanny
Algorytm zachłanny – archetyp algorytmu, który w celu
wyznaczenia rozwiązania, w każdym kroku poszukuje
maksimum lokalnego tzn. takiego wyboru rozwiązania
częściowego które najlepiej rokuje w danym momencie.
Algorytm ten nie daje pewności znalezienia rozwiązania
optymalnego a czasem nawet poprawnego.

Problem komiwojażera jest problemem NP-trudnym, zatem


nie jest znany dokładny algorytm działający w czasie co
najwyżej wielomianowym. Dla tego problemu, algorytm
najbliższego sąsiada o złożoności kwadratowej generuje
rozwiązania średnio o 20% gorsze od optymalnych.
Problem pokrycia zbioru
Problem polegający na wybraniu jak
najmniejszej liczby podzbiorów tak aby zawierały
one wszystkie
Co dalej?
• Dokładne opisanie problemu pokrycia zbioru,
• Opisanie działania algorytmu zachłannego w
celu wyznaczania reduktów,
• Stworzenie oprogramowania,
• Przeprowadzenie badań.
Czym jest niespójność tablic jak je usuwać metoda jakościowa + dolne górne
Jądro redukt wraz z tradycyjnymi metodami określania macierz rozróżnialności itp

Vous aimerez peut-être aussi