Vous êtes sur la page 1sur 11

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

Aplicao da Anlise por Componentes Principais (PCA) na identificao de marcas de canetas esferogrficas uma introduo quimiometria.
Rosylane Elaine Costa Lopes (IC)*, Iraci Pereira dos Santos (IC), Frederico Luis Felipe Soares1 (IC), Eduardo Ferreira Pereira1 (PG), Jez Willian Batista Braga (PQ). *rosylane.lopes@yahoo.com.br
Laboratrio de Qumica Analtica e Ambiental Instituto de Qumica, UnB, Campus Universitrio Darcy Ribeiro, Braslia-DF, CEP: 70910-900. Palavras-Chave: Quimiometria, PCA, caneta.

RESUMO: Na Quimiometria a Anlise dos Componentes Principais (PCA) uma das ferramentas mais utilizadas, que visa principalmente reduo do nmero de variveis, eliminao de dados redundantes e facilitar a interpretao dos dados. Atualmente o desenvolvimento de experimentos que introduzam as principais ferramentas dessa rea em nvel de graduao de grande importncia. O trabalho presente tem como objetivo apresentar um experimento para ilustrar a aplicao do PCA na identificao de padres existentes na composio de 5 modelos de canetas azuis por espectroscopia na regio do infravermelho. Os resultados mostram que depois da derivao dos espectros foi possvel reduzir de 3528 variveis para 2 componentes principais e identificar os grupos e padres de cada caneta. O experimento ainda ilustra a importncia de pr-processamentos dos dados, foi realizado com programas desenvolvidos no laboratrio ou gratuitos e pode ser executado em aproximadamente 3 horas, restando tempo suficiente para discusso com os alunos.

INTRODUO A Quimiometria uma das reas mais recentes da Qumica, que tem se mostrado de grande importncia na interpretao e anlise de dados obtidos pelos diversos mtodos instrumentais disponveis hoje em laboratrio. Pode ser definida como sendo o desenvolvimento e a aplicao de mtodos estatsticos e matemticos no planejamento, otimizao de procedimentos ou na obteno de informaes qumicas atravs da anlise de dados. Essa rea, iniciou-se na primeira metade da dcada de 70, porm s com o decorrer do desenvolvimento dos recursos computacionais e da utilizao de mtodos instrumentais nos laboratrios qumicos a sua importncia e expanso foi comprovada. Tambm se acredita que ela comeou muito antes, junto com os trabalhos do qumico Student, conhecido pelo teste analtico t. Com a chegada dos computadores aos laboratrios qumicos, a combinao da qumica com a estatstica comeou a ganhar mais notoriedade, onde o grupo do Prof. Dr. Bruce Kowalski foi o primeiro a produzir um programa quimiomtrico, chamado ARTHUR2. A extrao de informaes dos dados de um experimento normalmente envolve a anlise de um considervel nmero de variveis. Sendo que frequentemente apenas um pequeno o nmero destas variveis apresentam maior importncia, resultando em um grande conjunto de dados que podem ser redundantes ou que no apresentem relevncia para o objetivo do experimento. A anlise de componentes principais (PCA, do ingls Principal Component Analysis) um dos principais mtodos utilizados em quimiometria, onde seu objetivo reduzir o nmero de dimenses do
XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

conjunto de dados sem a perda das informaes relevantes, de modo a se obter um nmero menor de novas variveis (componentes principais) que facilite a interpretao dos dados. O PCA pode propiciar, atravs de grficos, a identificao da existncia de padres de similaridade existentes em dados de um conjunto das amostras analisadas. Mesmo com sua importncia e aplicabilidade ainda so poucas as universidades que possuem disciplinas de Quimiometria nos currculos de graduao, alm de ser relativamente pequeno o nmero de experimentos que ilustram mtodos quimiomtricos para os alunos de graduao. Tendo em vista essa deficincia, o presente trabalho tem como objetivo apresentar um experimento para ilustrar e introduzir a alunos de graduao o mtodo de anlise de componentes principais (PCA) para a anlise multivariada de dados. Para esse fim, apresentada uma aplicao voltada para a identificao de tintas de canetas esferogrficas de cor azul utilizando espectroscopia na regio do infravermelho mdio e medidas por reflectncia total atenuada (ATR, do ingls Attenuated Total Reflectance). ANLISE DE COMPONENTES PRINCIPAIS (PCA) O PCA uma ferramenta quimiomtrica que, a partir de um determinado conjunto de dados, capaz de condensar as informaes mais relevantes em um nmero reduzido de novas variveis3. Esse mtodo est baseado transformao das variveis originais de uma matriz dados, onde as linhas representam as amostras e as colunas as variveis, em novas variveis no correlacionadas, chamadas componentes principais (PC, do ingls Principal Components), que so combinaes lineares das variveis originais. Quando o nmero de PC significativamente menor que o nmero de variveis inicial obtm-se uma reduo substancial de informao, proporcionando uma melhor visualizao do conjunto de dados atravs das PC. Sendo assim este mtodo pode ser utilizado na reduo de informaes, para reconhecimento de padres, na seleo de amostras, na construo de modelos para calibrao multivariada, entre diversas outras aplicaes. O clculo utilizado na PCA baseia-se na decomposio de uma matriz qualquer X em um produto de duas matrizes menores T e P, conforme expresso pela equao 1.
T X = t 1p1 + t 2p T + ... + t dp T + E = TP T + E 2 d

(1)

Sendo X a matriz original com n linhas e m colunas; T a matriz escores com n linhas e d colunas (nmero de PC escolhido), PT a transposta da matriz de pesos com m colunas e d linhas e E a matriz de resduos que contm a frao da informao no modelado/explicado pelas PC. A matriz de pesos onde se encontra a relevncia das variveis originais em cada PC, onde cada elemento de P matematicamente igual ao cosseno do ngulo entre o eixo da cada varivel original e a PC. A matriz de escores representa a disposio das amostras no espao das PC, isto , a projeo dos pontos experimentais nos eixos definidos pelas PC.

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

Figura 1: Representao esquemtica da decomposio de uma matriz X em PCA.

Varivel 3 PC

Varivel 1

Varivel 2
Figura 2: Exemplificao da reduo de um espao de trs dimenses para um de uma dimenso atravs da utilizao de PCA.

A princpio, espera-se que grande parte da varincia (informao) dos dados seja explicada por um nmero pequeno de PC4. A percentagem de varincia explicada pela PC d (%VE) pode ser calculada a partir da equao 2:

1 ( x i,j t i,dp iTd )2 , % VE =


i=1 j=1 n m

x100
i, j

(x
i=1 j=1

(2)

Onde o numerador representa a varincia explicada pela PC d e o denominador a varincia total dos dados. A maneira mais comum de se representar graficamente o resultado da decomposio em PCA plotar, entre si em um grfico, os escores e pesos das componentes principais escolhidas, na maioria das vezes criando um grfico bi ou tridimensional que permite observar com uma maior clareza a disposio das amostras e a participao das variveis naquele padro observado e identificao dos possveis agrupamentos presentes nos dados5,6.

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

As distncias entre os escores podem ser calculadas baseadas na posio espacial destes, possibilitando um estudo quanto existncia similaridade ou no entre as amostras. Assim ocorrer a formao de um agrupamento de dados pelas amostras que apresentam maior similaridade (pontos que se encontram mais prximos). Caso exista uma amostra com caractersticas distintas do grupo ocorrer distanciamento do ponto referente a essa amostra em relao ao grupo, o que faz a PCA tambm uma importante ferramenta para identificar amostras anmalas. ESPECTROSCOPIA NA REGIO DO INFRAVERMELHO A regio do espectro infravermelho se estende desde a extremidade final da regio do visvel (cerca de 13333 cm-1) at o incio da regio de microondas (cerca de 33 cm-1). Porm, uma das regies mais teis de trabalho se encontra na regio de 4000 a 400 cm-1, uma vez que esta apresenta bandas caractersticas de grande parte dos grupos funcionais orgnicos. A espectroscopia na regio do infravermelho envolve as transies de ordem vibracional e rotacional em molculas que apresentam variao de momento dipolar em consequncia dos movimentos vibracional e rotacional. A radiao eletromagntica formada por duas componentes, um eltrico e outro magntico, que se propagam perpendicularmente. Quando ocorre ama variao na distncia entre dois ncleos atmicos, como ocorre durante uma vibrao em uma ligao qumica por causa da movimentao das cargas, fica estabelecido um campo eltrico. Este campo eltrico formado tem capacidade de interagir com o campo eltrico da radiao eletromagntica. Quando a frequncia natural de vibrao da molcula se iguala frequncia da radiao incidida, ocorre uma transferncia de energia da radiao para a molcula causando uma mudana amplitude da vibrao molecular. Os espectros de infravermelho gerados so bastante complexos com inmeros picos e vales e so muito utilizados para fins de comparao. Por isso as principais aplicaes da espectroscopia na regio do infravermelho envolvem a identificao e a elucidao de estruturas de molculas desconhecidas, alm de encontrar atualmente uma forte aplicao na analise quantitativa com a utilizao de mtodos quimiomtricos7. PARTE EXPERIMENTAL Descrio das amostras: Para a realizao do experimento foram utilizados cinco modelos de canetas esferogrficas de quatro marcas distintas com a tinta de cor azul, sendo elas: BIC, Faber-Castell, CIS Pro, CIS Glycer e Compactor. Equipamentos e programas utilizados:

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

Para aquisio dos espectros na regio do Infravermelho foi utilizado um espectrmetro de infravermelho com transformada de Fourier da marca Jasco modelo 4100 com acessrio para medidas por Reflectncia Total Atenuada (ATR). Para os clculos foi utilizado o programa Octave verso 3.0.2 instalado em um computador pessoal com processador core2 duo 2.0 Ghz, 2 Gb de memria RAM e com sistema operacional Windows Vista. O Octave foi empregado para o desenvolvimento de trs programas utilizados para o clculo da PCA, derivada dos espectros e clculo da % varincia explicada pelo modelo. O Octave foi escolhido por ser um software livre de linguagem de programao de alto nvel, utilizado principalmente para clculos numricos. Os clculos so realizados atravs do prompt comando de Octave, janela semelhante ao MSDOS, a qual conveniente para resolver tanto problemas lineares quanto no-lineares e executar experimentos numricos em um ambiente relativamente fcil8. Procedimento experimental: Com cada uma das canetas foi desenhado um retngulo totalmente preenchido em uma tira papel, recortada de folha branca modelo A4. Aps feito o desenho aguardou-se por cerca de 10 minutos para que a tinta secasse e no houvesse a contaminao do cristal do acessrio de ATR. As tiras de papel foram posicionadas com o retngulo sobre o cristal de seleneto de zinco (ZnSe) e os espectros de infravermelho registrados no modo de absorbncia. Como referencia do equipamento (Background) foi utilizada a leitura do espectro do ar. Os espectros foram registrados como uma mdia de 32 varreduras e resoluo de 4 cm-1. Os dados obtidos de cada espectro foram exportados e, em seguida, organizados em uma planilha onde constavam os nmeros de onda, a identificao das amostras e os valores de absorbncia em cada nmero de onda para cada amostra. Essa planilha foi importada para o programa Octave e realizados os clculos. RESULTADO E DISCUSSO Partindo dos espectros foi gerada uma matriz de 50 colunas por 3528 linhas perfazendo um total de 176400 valores. Na figura 3 podem-se observar os espectros das 50 amostras em um nico grfico, onde se observa que apenas a marca Bic pode ser diferenciada visualmente por apresentar bandas bem distintas das demais marcas e modelos. Logo, necessria a aplicao de PCA para verificar a possibilidade de uma visualizao mais fcil dos dados e tentar discriminar as marcas e modelos de caneta que possuem espectros muito semelhantes.

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

0.4 0.35 0.3 0.25 Absorbncia 0.2 0.15 0.1 0.05 0 -0.05 1000 1500 2000 2500 3000 -1 Nmero de onda (cm ) 3500 4000

Figura 3: Espectros de FT-IR/ATR das 50 amostras dos 5 modelos de canetas. (azul) Bic, (vermelho) Cys-Glycer, (rosa) Cys-Pro, (verde) Compactor e (preto) Faber Castel.

Na tabela 1 so apresentados os resultados da decomposio em PCA dos dados da figura 3. A primeira coluna indica o nmero da PC, a segunda indica a porcentagem da varincia explicada por aquela PC e na terceira tem-se a porcentagem de varincia acumulada (a soma da porcentagem de varincia explicada daquela PC e das anteriores). Observa-se que a matriz de dados pode ser reduzida a uma 50x3, mantendo-se cerca de 95% das informaes, ou seja, com o auxilio do PCA os dados que estavam num espao multidimensional (3528 dimenses) foram convertidos para um espao de trs dimenses, facilitando a interpretao dos dados, uma vez que agora se apresentam na forma de um grfico tridimensional. Considerando que existe uma variao de linha de base nos espectros e o rudo instrumental inerente do equipamento, pode-se esperar que 95 % da informao representa praticamente toda a informao relevante dos dados, sendo os 5 % das outras componentes possivelmente variao aleatria sem importncia.
Tabela 1: Varincia explicada pelas PCs obtidas pela decomposio dos dados originais.

Nmero de PC 1 2 3 4

Varincia de cada PC (%) 54,97 32,62 7,58 1,49

Varincia acumulada (%) 54,97 87,59 95,17 96,66

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

5 6 7 8 9 10

1,03 0,68 0,49 0,36 0,19 0,16

97,69 98,37 98,86 99,21 99,40 99,57

Com o grfico de escores apresentado na figura 4 possvel se observar que apenas a marca Bic se mostra separada das demais e que as outras marcas ainda se apresentam de forma agrupada. Esta diferenciao pode ser explicada pelas bandas distintas que essa marca possui em seu espectro de infravermelho, como ressaltado anteriormente.

0.4 0.2 PC3 (7,58%) 0 -0.2 -0.4 1 0.5 0 -0.5 PC2 (32,62%) -1 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2

PC1 (54,97%)

Figura 4: Plotagem dos escores PC1xPC2xPC3 - Bic (o), Faber-Castell ( ), Compactor ( ), Cis Pro ( ) Cis glycer (*).

Com a finalidade de se corrigir o efeito da linha de base dos espectros e verificar o efeito de um pr-processamento na anlise dos dados, foi realizad0 clculo da primeira derivao dos espectros (figura 5). Observa-se na figura 5 que a derivada ajustou a linha de base e, apesar de pouco visvel na figura 5, tambm tornou mais ntido os sinais caractersticos de cada marca, mas tambm causa um aumento na intensidade de rudos. A partir destes novos dados fez-se um novo clculo de PCA, cujos resultados so apresentados na tabela 2.

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

0.01 0.008 0.006 0.004

d(Abs)/dN

0.002 0 -0.002 -0.004 -0.006 -0.008 -0.01 500 1000 1500 2000 2500
-1

3000

3500

4000

Nmero de onda (cm )


Figura 5: Primeira derivada dos espectros de infravermelho das 50 amostras de tinta de caneta. Tabela 2: Varincias explicada pelas PCs obtidas da decomposio dos dados derivados.

Nmero de PC 1 2 3 4 5 6 7 8 9 10

Varincia de cada PC (%) 55,77 16,34 6,98 3,99 1,880 1,70 1,49 1,29 0,99 0,89

Varincia acumulada (%) 55,77 72,11 79,09 83,08 84,96 86,73 88,22 89,51 90,49 91,39

Percebe-se que h uma reduo da varincia explicada pelas primeiras componentes, a partir dos dados derivados observa-se que as duas primeiras PC agora explicam apenas 72,11% da varincia. Entretanto, na figura 6 que apresenta o grfico de escores de PC1 versus PC2 observa-se que um melhor agrupamento de cada modelo de tinta de caneta e distino de cada modelo entre si. Logo, observa-se
XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

que mesmo com apenas 72 % da informao j temos o suficiente para observar um agrupamento de amostras, o que explicado pela intensificao de alguns sinais caractersticos de cada modelo de tinta de caneta no espectro derivado. A figura 6 mostra que a PC1 responsvel pela separao da tinta da caneta Bic das demais, uma vez que todas as amostras que apresentam escores com valores abaixo de 0,01 nessa componente so dessa marca. Observa-se ainda que foi obtida uma boa separao de todas as quatro marcas de caneta, as quais so identificadas por elipses. Pode-se ainda observar uma subdiviso que separa as canetas da marca Cis (Pr e Glycer) mostrando que os espectros de IR e a anlise PCA torna possvel identificar e discriminar as diferentes modelos de uma mesma marca de caneta.

0.015

0.01

Faber Castel

0.005

Bic Cys-Pro

PC2 (16,34%)

Cys-Glycer
-0.005

Compactor

-0.01

-0.015

-0.02 -0.035 -0.03 -0.025 -0.02 -0.015 -0.01 -0.005

0.005

0.01

0.015

PC1 (55,77%)
Figura 6: Grfico PC1xPC2 para os dados obtidos dos espectros derivados. Bic (o), Faber-Castell ( ), Compactor ( ), Cis Pro ( ) Cis Glycer (*).

O quadro 1 mostra a distribuio do tempo estimado para cada atividade proposta para a realizao do experimento, onde se observa que o experimento pode ser executado em uma aula experimental de quatro horas. importante observar que entre as atividades propostas esto reservados 30 minutos no incio do experimento para introduo PCA e tcnica de espectroscopia no infravermelho e 40 minutos no final para a discusso dos resultados com os alunos.

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

Quadro 1: Distribuio das atividades propostas para o experimento e o tempo estimado para cada atividade.

Atividades propostas Explicao inicial do experimento Preparo das amostras Configurao do equipamento Aquisio dos espectros Exportao e organizao dos espectros Realizao dos clculos e figuras no Octave Interpretao e discusso dos dados Total

Tempo estimado 30 minutos 30 minutos 15 minutos 60 minutos 20 minutos 45 minutos 40 minutos 4 horas

Concluses O experimento proposto contribui para a insero da quimiometria nos cursos de graduao. Alm da introduo da PCA aos alunos realizado um experimento que apresenta simplicidade no preparo das amostras, anlise rpida, ressalta a importncia do pr-processamento dos dados, utiliza um software livre e subprogramas desenvolvidos no laboratrio e no produzir resduos para serem descartados. Esse, ainda, ilustra a aplicao do PCA em dados espectroscpicos obtidos a partir da espectroscopia de absoro na regio do infravermelho enfocando um estudo de caso com relevncia em qumica forense, na qual a identificao da marca de tintas utilizada em uma assinatura ou outras finalidades muitas vezes de grande importncia. O experimento proposto apresenta resultados que possibilita sua aplicao em cursos de graduao, esse pode ser realizado em uma aula experimental de aproximadamente quatro horas, permitindo uma ampla discusso do professor com os alunos a cerca dos contedos abordados. Comprova que a PCA uma ferramenta importante na anlise multivariada dos dados obtidos. Os resultados demonstraram que a PCA foi capaz possibilitar a separao e identificao de tintas azuis de quatro marcas diferentes de caneta e de dois modelos dentro de uma mesma marca.

REFERNCIAS BIBLIOGRFICAS 1. Vogel, A.I., et al. Anlise Qumica Quantitativa. 6. ed. Rio de Janeiro: LTC Editora, 2002. p. 77. 2. Neto, B.B; Scarminio, I.S.; Bruns, R.E. 25 Anos de Quimiometria no Brasil. Qumica Nova, v. 29, n. 6, p. 1401-1406, 2006.

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Diviso de Ensino de Qumica da Sociedade Brasileira de Qumica (ED/SBQ) Instituto de Qumica da Universidade de Braslia (IQ/UnB)

Especificar a rea do trabalho EX

3. Matos, G.D., et al. Anlise Exploratria em Qumica Analtica com Emprego de Quimiometria: PCA E PCA de Imagens. Revista Analytica, n. 6, p. 38-50, Ago./Set. 2003. 4. Otto, M., Chemometrics Statistics and Computer Application in Analytical Chemistry. 2. ed. Darmstadt: WILEY-VCH, 2007. p. 127. 5. Breton, R. G., Chemometrics: Data Analysis for the Laboratory and Chemical Plant. 2. ed., John Wiley & Sons, Ltd., 2003. p. 187. 6. SOUSA, R. A., et. al. Classificao de gua-de-coco processada e natural por meio de HCA, PCA e teores de ons metlicos determinados por ICP OES. Qumica Nova, v. 29, n. 4, p. 654-656, 2006. 7. Ohlweiler, O.A., Fundamentos de Anlise Instrumental, ed. Livros Tcnicos e Cientficos ed. S.A., 1981, p. 111. 8. Wikipdia. GNU Octave. Disponvel <http://pt.wikipedia.org/wiki/GNU_Octave>. Acesso em: 23 abril 2010. em:

XV Encontro Nacional de Ensino de Qumica (XV ENEQ) Braslia, DF, Brasil 21 a 24 de julho de 2010

Vous aimerez peut-être aussi