Elektronske konsultacije u vezi sa pređenim gradivom

Kanonička korelaciona analiza

 
Imagen de Anđela Milošević
Kanonička korelaciona analiza
de Anđela Milošević - jueves, 19 de marzo de 2020, 22:21
 

Draga profesorka,


Imam pitanja koja se tiču lekcije koju ste danas predavali. Prisustvovala sam predavanju, odslušala snimak ali i dalje mi je nešto ostalo nejasno...

1. Zašto se u kanoničkoj korelacionoj analizi radi paralelno izvlačenje komponenata (kompozita)? Zašto se ne može da nakon izvačenja svih glavnih komponenti iz jednog i iz drugog samo korelirati "svaki sa svakim"?

2. Zašto su kanoničke korelacije uvek pozitivne, tj. zašto ne mogu biti negativne?


Unapred se izvinjavam zbog pitanja, možda je do mene, ali trebaju mi neka jednostavnija objašnjenja...


Hvala unapred,

Anđela

Marcas:
Imagen de Danka Purić
Re: Kanonička korelaciona analiza
de Danka Purić - viernes, 20 de marzo de 2020, 10:21
 

Draga Anđela,

1. Mi možemo izvući glavne komponente iz oba skupa, i korelirati ih - ali korelacije koje ćemo tako dobiti mogu biti veoma niske, jer više ne tražimo linearni kompozit koji maksimalno korelira, već onaj koji objašnjava najviše varijanse u svom skupu. 

Takođe, s obzirom na to da ne maksimizujemo korelaciju - glavne komponente iz jednog skupa će biti ortogonalne na sve druge komponente iz svog skupa, ali će korelirati sa svim komponentama iz opozitnog (ne samo sa "parnom" komponentom). Zašto? Zato što maksimizacijom korelacije mi osiguravamo da sve iz jednog skupa što je (na dati način) korelirano sa varijablama iz drugog skupa uđe u linearni kompozit koji nazivamo kanonička komponenta. Samim tim, ovako dobijena komponenta je ortogonalna na sve komponente iz opozitnog skupa, osim sebi parnu komponentu. Ukoliko ne maksimizujemo korelaciju, u komponentu će ući varijansa koja može koreliati sa prvom, ali i drugom i trećom komponentom iz opozitnog skupa.. čime se opet donekle vraćamo na inicijalni problem složenog kriterijuma - jer iako su varijable i u jednom i u drugom skupu ortogonalne - svaka od prediktorskih komponenti će potencijalno doprinositi predviđaju svake od kriterijumskih. 

Postavlja se i pitanje koje ćemo komponente zadržati. Ako zadržimo sve komponente u oba skupa - nismo postigli da nam objašnjenje načina na koji dva skupa koreliraju bude preterano parsimonično (imamo x*y povezanosti koje potencijalno treba interpretirati, gde su x i y broj varijabli u dva skupa). Ako ne zadržimo sve (s obzirom na to šta se u analizi maksimizuje) - nemamo garanciju da nismo odbacili neki deo varijanse koji bi doprineo korelaciji (ali je relativno specifičan spram varijanse celokupnog skupa). U KKA međutim imamo najparsimoničnije moguće objašnjenje povezanosti, jer tipično imamo manji broj povezanosti nego varijabli u manjem od skupova, pri čemu su ovi načini povezanosti međusobno nezavisni (to možemo razumeti kao nezavisne mehanizme koji povezuju dva skupa).

2. Ovo je više tehnička stvar - ali je dobro pitanje. Pomenula sam da se KK izdvajaju preko svojstvenih vrednosti matrica kroskorelacija (između dva skupa) i inverznih matrica interkorelacija (unutar svakog skupa), pri čemu je svojstvena vrednost koja se na ovaj način dobija kvadrat kanoničke korelacije. Na osnovu jedne svojstvene vrednosti mi bismo onda mogli da izvučemo dva korena - pozitivnu i negativnu korelaciju istog intenziteta. Kako su oba rešenja podjednako tačna, ne postoji razlog da favorizujemo jedno naspram drugog, ALI je jednostavnije da postavimo ograničenje da koren uvek bude pozitivna vrednost (da to ne bi bilo arbitrarno, odnosno da se ne bi postavljalo pitanje kako je za konkretnu kanoničku korelaciju određeno da li će biti pozitivna ili negativna).

Bitno je samo naglasiti da je smer kanoničke korelacije u suštini nebitan, jer o odnosima između dva skupa zaključujemo na osnovu predznaka koeficijenata strukture. Opet možemo napraviti analogiju sa multiplom regresijom. Čak i u slučaju jednog, negativno koreliranog prediktora, multipla regresija će biti pozitivna, a ovaj prediktor će imati negativan doprinos definisanju regresione funkcije. Mi ćemo na osnovu toga znati da je odnos između prediktora i kriterijuma negativan, bez obzira na smer multiple regresije. Isto važi i za KKA - ukoliko je odnos između dva skupa zaista negativan - mi ćemo to videti na osnovu predznaka koeficijenata strukture (koji će u jednom skupu biti pozitivni, a u drugom negativni) i u skladu sa tim ćemo i interpretirati prirodu ove povezanosti.

Nadam se da je sada malo jasnije i da su objašnjenja jednostavnija, mada nisu preterano kratka!

Poz,
Danka