Vous êtes sur la page 1sur 4

1

Modelo de Mnimos Quadrados Parciais

A pesquisa em Cincia e Engenharia envolve muitas vezes o uso de variveis (fatores) para explicar, regulamentar, ou prever o comportamento de outras variveis (respostas). Quando os fatores, tambm conhecidos como variveis independentes, so limitados em nmero, no colineares, e possuem certa relao conhecida com as respostas (ou variveis dependentes), ento um modelo de regresso linear mltiplo poder ser utilizado. No entanto, se qualquer uma dessas condies no for satisfeita, tal modelo ser ineciente e inapropriado Geladi (1986). Dentro deste contexto, o modelo de mnimos quadrados (ou em ingls, Partial Least Square - PLS ) um mtodo utilizado para construir modelos preditivos quando se possui muitas variveis independentes colineares. importante destacar que tal mtodo enfatiza a predio das respostas, sem necessariamente entender a relao entre as variveis dependentes e independentes. Segundo Geladi (1986) o PLS uma tcnica que generaliza e combina as caractersticas de uma Anlise de Componentes Principais e um Modelo de Regresso Mltipla. particularmente til quando necessrio predizer uma srie de variveis dependentes a partir de uma grande base de dados de variveis independentes. De outra forma, Saigo et al. (2008) diz que o mtodo PLS tm como principal caracterstica a troca das variveis independentes originais por um sub-conjunto truncado de variveis latentes dos dados originais. Neste caso, as variveis latentes podem ser vistas como as projees das variveis independentes de entrada e so utilizadas para construir o modelo de regresso relacionando a entrada sada. J Abdi (2007), considera o PLS como um mtodo estatstico que busca encontrar um modelo de regresso linear a partir da projeo das variveis independentes e

1. Modelo de Mnimos Quadrados Parciais dependentes a um novo espao.

ii

Considerando um exemplo geral para a determinao de mais de uma classe de interesse, seja Y uma matriz de variveis dependentes de dimenso (n z ) e X a matriz de variveis independentes de dimenso (n m), onde z o nmero de colunas de Y , m o nmero de colunas de X e n o nmero de dados de treinamento. Tm-se a seguinte decomposio de ambas as matrizes utilizando-se o mtodo PLS:

X = TPT + Ex =
a

ta pT a + Ex ua qT a + Ey ,
a

Y = UQT + Ey =

(1.1)

onde T e U so as matrizes denominadas scores das variveis X e Y , respectivamente, P e Q so as matrizes de pesos (ou loadings ) de cada modelo respectivamente, a o nmero de variveis latentes, e Ex e Ey so os respectivos resduos compostos pelas variveis latentes descartadas, ou seja, as matrizes que contm a parte no modelada. Assim, uma relao linear , ento, estabelecida entre os scores de X e Y para cada varivel latente:

ua = ba ta ,

(1.2)

em que ba o vetor de regresso do modelo linear para cada varivel latente, obtido por: uT a ta . T ta ta

ba =

(1.3)

A decomposio das matrizes X e Y , ou seja, o clculo das matrizes T, U, P e Q, pode ser realizada atravs de diversos algoritmos, como o NIPLAS, do ingls, Nonlinear Iterative Partial Least Squares ou SIMPLS, do ingls, Straightforward Implementation of Statistical Inspired Modication of the PLS, sendo a principal diferena entre eles dada pelo tempo de convergncia, porm, ambos chegam ao mesmo resultado Abdi (2007). Neste trabalho, foi utilizado o algoritmo NIPLAS. O nmero de variveis latentes pode ser encontrado de vrias maneiras distintas,

1. Modelo de Mnimos Quadrados Parciais

iii

porm, a mais comum atravs de um procedimento de validao cruzada, baseada no menor erro de predio Saigo et al. (2008). Uma vez obtidas todas as variveis necessrias, pode-se estimar (predizer) o vetor = TBQT , onde B uma matriz cuja diagonal formada pelos de classes (ou classe) Y pesos de regresso do modelo linear para cada varivel latente encontrada pela equao 1.3. O treinamento dos modelos de predio de categorias baseado no PLS foi feito utilizando-se a estratgia de treinamento do modelo SVM (Figura 1). No primeiro mtodo de treinamento tambm foi utilizado o algoritmo de Platt para encontrar a distribuio de probabilidades das classes preditas. J no segundo, o vetor de distribuio de probabilidade obtido diretamente, sendo realizada uma simples normalizao.

Figura 1: Treinamento adotado para as SVMs. Exemplo utilizando um vetor de caractersticas formado por duas categorias anteriores para a lngua portuguesa.

Referncias Bibliogrcas
Abdi, H. (2007). Partial Least Squares (PLS) Regression. Thousand Oaks. Geladi, P. (1986). Partial least-squares regression: a tutorial. Analytica Chimica Acta, 185(1):117. Saigo, H., Krmer, N., e Tsuda, K. (2008). Partial least squares regression for graph Proceeding of the 14th ACM SIGKDD international conference mining. Em KDD 08: on Knowledge discovery and data mining, pginas 578586, New York, NY, USA. ACM.

Vous aimerez peut-être aussi