Introducere în analiza statistică multivariată - Kalinina. Introducere în analiza statistică multivariată Concepte de bază ale metodei analizei factoriale, esența problemelor pe care le rezolvă

Econometrie

Analiza statistică multivariată


În analiza statistică multivariată, eșantionul este format din elemente ale unui spațiu multidimensional. De aici și denumirea acestei secțiuni de metode econometrice. Dintre numeroasele probleme ale analizei statistice multivariate, vom lua în considerare două - recuperarea dependenței și clasificarea.

Estimarea funcției predictive liniare

Să începem cu problema estimării punctuale și de încredere a unei funcții predictive liniare a unei variabile.

Date inițiale – un set de n perechi de numere (t k, x k), k = 1,2,...,n, unde t k este o variabilă independentă (de exemplu, timpul) și x k este o variabilă dependentă (de exemplu , indicele de inflație, cursul de schimb al dolarului american, volumul de producție lunar sau venitul zilnic punct de vânzare). Se presupune că variabilele sunt legate prin dependență

x k = a (t k - t avg)+ b + e k , k = 1,2,…,n,

unde a și b sunt parametri necunoscuți de statistică și supuși estimării, iar e k sunt erori care distorsionează dependența. In medie momente aritmetice timp

t av = (t 1 + t 2 +…+t n) / n

introduse în model pentru a facilita calculele ulterioare.

De obicei, parametrii a și b ai unei relații liniare sunt estimați folosind metoda celor mai mici pătrate. Apoi, dependența restaurată este utilizată pentru prognoza punctului și intervalului.

După cum se știe, metoda celor mai mici pătrate a fost dezvoltată de marele matematician german K. Gauss în 1794. Conform acestei metode, pentru a calcula cea mai bună funcție care aproximează liniar dependența lui x de t, ar trebui să se ia în considerare o funcție a două variabile.


Estimările celor mai mici pătrate sunt acele valori ale lui a* și b* la care funcția f(a,b) atinge un minim peste toate valorile argumentelor.

Pentru a găsi aceste estimări, trebuie să calculați derivatele parțiale ale funcției f(a,b) în raport cu argumentele a și b, să le echivalați cu 0, apoi să găsiți estimările din ecuațiile rezultate: Avem:

Să transformăm părțile din dreapta ale relațiilor rezultate. Să scoatem factorii comuni 2 și (-1) ca semn de sumă. Atunci să ne uităm la termeni. Să deschidem parantezele din prima expresie și să aflăm că fiecare termen este împărțit în trei. În a doua expresie, fiecare termen este și suma a trei. Aceasta înseamnă că fiecare sumă este împărțită în trei sume. Avem:


Să echivalăm derivatele parțiale cu 0. Apoi în ecuațiile rezultate putem reduce factorul (-2). Deoarece

(1)

ecuațiile iau forma

Prin urmare, estimările celor mai mici pătrate au forma

(2)

În virtutea relației (1), estimarea a* poate fi scrisă într-o formă mai simetrică:

Această estimare poate fi ușor transformată în formular

Prin urmare, funcția reconstruită, care poate fi folosită pentru a prezice și a interpola, are forma

x*(t) = a*(t - t av)+ b*.

Să fim atenți la faptul că utilizarea lui t cf în ultima formulă nu limitează în niciun fel generalitatea acesteia. Comparați cu un model de formular

x k = c t k + d + e k , k = 1,2,…,n.

Este clar că

Estimările parametrilor sunt legate într-un mod similar:

Nu este nevoie să ne referim la niciun model probabilistic pentru a obține estimări ale parametrilor și o formulă predictivă. Totuși, pentru a studia erorile în estimările parametrilor și a funcției reconstruite, i.e. construiți intervale de încredere pentru a*, b* și x*(t), un astfel de model este necesar.

Model probabilistic neparametric. Fie valorile variabilei independente t să fie deterministe, iar erorile e k, k = 1,2,...,n, să fie variabile aleatoare independente distribuite identic cu așteptare și varianță matematică zero

statistici necunoscute.

În viitor, vom folosi în mod repetat Teorema Centrală Limită (CLT) a teoriei probabilităților pentru mărimile e k , k = 1,2,...,n (cu ponderi), prin urmare, pentru a-și îndeplini condițiile este necesar să presupunem, pt. exemplu, că erorile e k , k = 1,2 ,…,n, sunt finite sau au un moment absolut al treilea finit. Cu toate acestea, nu este nevoie să ne concentrăm asupra acestor „condiții de regularitate” intra-matematice.

Distribuții asimptotice ale estimărilor parametrilor. Din formula (2) rezultă că

(5)

Conform CLT, estimarea b* are o distribuție normală asimptotic cu așteptarea matematică b și varianță

a cărui evaluare este dată mai jos.

Din formulele (2) și (5) rezultă că

Ultimul termen din a doua relație atunci când este însumat peste i se transformă în 0, prin urmare din formulele (2-4) rezultă că

(6)

Formula (6) arată că estimarea

este asimptotic normal cu așteptări și variații matematice

Rețineți că normalitatea multidimensională există atunci când fiecare termen din formula (6) este mic în comparație cu întreaga sumă, i.e.


Formulele (5) și (6) și ipotezele inițiale despre erori implică, de asemenea, că estimările parametrilor sunt nepărtinitoare.

Nepărtinirea și normalitatea asimptotică a estimărilor celor mai mici pătrate facilitează specificarea limitelor de încredere asimptotice pentru acestea (asemănătoare cu limitele din capitolul anterior) și testarea ipotezelor statistice, de exemplu, despre egalitatea la anumite valori, în primul rând 0. Oferim cititorului cu posibilitatea de a scrie formule de calcul a limitelor de încredere și de a formula reguli de testare a ipotezelor menționate.

Distribuția asimptotică a funcției predictive. Din formulele (5) și (6) rezultă că

acestea. estimarea considerată a funcției predictive este imparțială. De aceea

Mai mult, deoarece erorile sunt independente în agregat și

, Acea

Prin urmare,


tabel de mostre conjugație max, estimări plauzibile:

G 2= -2 ^ p scht ■ p w)

are o distribuție asimptotică χ 2. Pe asta se bazează statistica. testarea ipotezei relaţiilor.

Experienta in prelucrarea datelor folosind A.L. și-a arătat eficacitatea ca metodă de analiză țintită a unui tabel multidimensional. contingență, care conține (în cazul unei alegeri rezonabile de variabile) o cantitate imensă, în comparație cu tabelele bidimensionale, de informații de interes pentru sociolog. Metoda vă permite să descrieți concis acest tabel. (sub forma unei ipoteze despre legături) și, în același timp, analizează în detaliu specificul. relaţie. Al. folosit de obicei într-o manieră în mai multe etape, sub forma unui dialog sociolog-calculator. T.o., A.l. are o flexibilitate semnificativă, oferă posibilitatea de a formula diverse tipuri de ipoteze despre relații și de a include experiența unui sociolog în procedura de analiză formală a datelor.

Lit.: Uptop G. Analiza tabelului conjugație. M., 1982; Tipologie și clasificare în sociologie. cercetare. M., 1982; Episcopul Y.M.M. et ai. Analiză multivariată discretă. N.Y., 1975; Agresti A. O introducere în analiza categorică a datelor. N.Y., 1966.

A.A. Mirzoev

ANALIZA STATISTICĂ MULTIVARIATĂ- secțiune statistici matematice, dedicat matematicii metode care vizează identificarea naturii și structurii relațiilor dintre componentele studiului semn de multidimensionalși destinate obținerii științifice și concluzii practice. Matricea inițială de date multidimensionale pentru efectuarea A.M.S. De obicei se folosesc rezultatele măsurării componentelor unei caracteristici multidimensionale pentru fiecare dintre obiectele populației studiate, i.e. succesiune de observații multivariate (vezi Observație în statistică). O caracteristică multidimensională este cel mai adesea interpretată ca o caracteristică multidimensională Grozav


rang aleatoriu iar o secvență de observații multivariate este ca un eșantion dintr-o populație generală. În acest caz, alegerea metodei de procesare a statisticilor inițiale. datele sunt produse pe baza unor ipoteze privind natura legea distributiei trăsătura multidimensională studiată (vezi Distribuția probabilității).

1. A.m.s. distribuțiile multivariate și elementele de bază ale acestora. caracteristicile acoperă situațiile în care observațiile prelucrate sunt de natură probabilistică, adică interpretat ca o mostră din resp. populatie generala. La principal obiectivele acestei subsecțiuni includ; evaluare statistică distribuțiile multidimensionale studiate și elementele de bază ale acestora. parametrii; studiul proprietăților statisticilor utilizate. note; studiul distribuțiilor de probabilitate pentru un număr de statistici, cu ajutorul cărora se construiesc statisticile. criterii de testare dec. ipoteze despre natura probabilistică a datelor multidimensionale analizate (vezi. Testarea ipotezelor statistice).

2. A.m.s. natura și structura relațiilor dintre componentele trăsăturii multidimensionale studiate combină conceptele și rezultatele inerente unor metode și modele precum analiza regresiei, analiza varianței, analiza covarianței, analiza factorilor, analiza latent-structurala, analiza log-cervicala, cautarea interactiunilor. Metodele aparținând acestui grup includ ambii algoritmi, de bază. pe ipoteza naturii probabilistice a datelor și metode care nu se încadrează în cadrul lui k.-l. model probabilistic (acestea din urmă sunt adesea denumite metode analiza datelor).

3. A.m.s. structura geometrică a setului studiat de observații multidimensionale combină concepte și rezultate caracteristice unor astfel de modele și metode precum analiza discriminanta, analiza clusterului (vezi Metode de clasificare, Scala). Nodal pentru aceste modele este yavl. conceptul de distanță sau măsură a proximității dintre elementele analizate ca puncte ale unei anumite pro-

ANALIZA CAUZALA


rătăcirile. În acest caz, pot fi analizate atât obiectele (ca puncte specificate în spațiul de caracteristici) cât și caracteristicile (ca puncte specificate în spațiul „obiect”).

Valoarea aplicată a A.m.s. constă în principal in urma de intretinere. trei probleme: stat. studiul dependențelor dintre indicatorii luați în considerare; clasificarea elementelor (obiectelor) sau a caracteristicilor; reducerea dimensiunii spațiului de caracteristici luate în considerare și selectarea celor mai informative caracteristici.

Lit.: Stat. metode de analiză sociologică. informație. M., 1979; Tipologie și clasificare în sociologie. cercetare. M., 1982; Interpretarea și analiza datelor în sociologie, cercetare. M., 1987; Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicată și fundamentele econometriei: Proc. M., 1998; Sosh-nikova L.A.și altele. analiză în economie. M., 1999; Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Statistici multivariate metode pentru economiști și manageri. M., 2000; Rostovtsev V.S., Kovaleva T.D. Analiza sociologiei. date folosind statistici. Pachetul SPSS. Novosibirsk, 2001; Tyurin Yu.N., Makarov A.A. Analiza datelor pe computer. Y., 2003; Krysh-tanovsky A. O. Analiza sociologiei. date folosind pachetul SPSS. M., 2006.

YN. Tolstova

ANALIZA CAUZALA- metode de modelare a relaţiilor cauzale dintre caracteristici folosind sisteme statistice. ecuații, cel mai adesea cele de regresie (vezi Analiza de regresie). Există și alte nume pentru acest domeniu destul de extins și în continuă schimbare de metode: analiza căilor, așa cum a numit-o prima dată fondatorul său S. Wright; metode de ecuații econometrice structurale, așa cum se obișnuiește în econometrie etc. Principal. conceptele de A.p. fenomene: diagrama de drum (structural, cauzal), coeficientul cauzal (de drum), componentele directe, indirecte și imaginare ale relației dintre semne. Folosit în A.p. conceptul de „relație cauzală* nu afectează fizica complexă


los. probleme asociate conceptului de „cauzalitate”. Coeficientul cauzal def. destul de operațional. Ma-tem. Aparatul face posibilă verificarea prezenței relațiilor cauzale directe și indirecte între semne, precum și identificarea acelor componente ale coeficienților de corelație (vezi. Corelație), care sunt asociate cu conexiuni directe, indirecte și imaginare.

O diagramă de traseu reflectă grafic relațiile cauzale, direcționale presupuse ipotetic dintre semne. Un sistem de caracteristici cu conexiuni unidirecționale se numește recursiv. Sistemele cauzale non-recursive iau în considerare și feedback-ul, de exemplu, două semne ale unui sistem pot fi simultan atât o cauză, cât și o consecință unul în raport cu celălalt. Toate semnele sunt împărțite în semne-efecte (dependente, endogene) și semne-cauze (independente, exogene). Cu toate acestea, într-un sistem de ecuații, caracteristicile endogene ale uneia dintre ecuații pot fi caracteristici exogene ale altor ecuații. În cazul a patru caracteristici, diagrama recursivă a tuturor conexiunilor posibile dintre caracteristici are forma:

x 2
/ N
*1 LA
G
La S

Construirea unei diagrame a legăturilor dintre fenomene. o condiție prealabilă necesară pentru matematică. formularea sistemului statistic. ecuații care reflectă influențele prezentate în diagramă. De bază Vom ilustra principiile construirii unui sistem de ecuații de regresie folosind aceleași patru caracteristici ca exemplu. Urmând direcția săgeților, începând cu Hee găsim primul endogen

ANALIZĂ CAUZALĂ


Acesta este un semn semnificativ și notăm acele semne care îl influențează atât direct (direct) cât și indirect (indirect) și prin alte semne. Prima ecuație de regresie standardizată corespunde primei caracteristici endogene Xjși exprimă dependență Χι din acele semne care îl influențează, adică. din Χγ. Astfel, prima ecuație are forma: Χι = bi\X\.

Apoi identificăm a doua trăsătură endogenă, care are conexiuni îndreptate către ea. Acesta este un semn Aj, corespunde variabilelor exogene X\Și Χι, de aceea, a doua ecuaţie de regresie în formă standardizată se formulează astfel: Aj = btx\+ bnxr etc. Luând în considerare erorile de măsurare U sistemul de modele de regresie standardizate pentru diagrama cauzală specifică este: X\ = Ui, A? =

- b->\x\+ Ui, Xt,= 631ΑΊ + byiXi+ Uy, Χα -

- baXi+ binXi+ J43A3 + SCH. Pentru a estima coeficienții b, s, trebuie rezolvat. O soluție există cu condiția ca datele să îndeplinească anumite condiții naturale. stat. cerințe. b$ se numesc coeficienţi cauzali şi sunt adesea notaţi ca RU. Acea., R# arată proporția de modificare a variației unei trăsături endogene, când se modifică o trăsătură exogenă j pe unitate de abatere standard a acestei caracteristici, cu condiția excluderii influenței altor caracteristici ale ecuației (vezi. Analiza de regresie). Cu alte cuvinte, P,y are un efect direct al trăsăturii j asupra trăsăturii d. Efectul indirect al trăsăturii j on;) se calculează pe baza tuturor căilor de influență j pe i cu excepția celui direct.

În diagramă, influența directă a primului semn asupra celui de-al patrulea este reprezentată schematic printr-o săgeată dreaptă care vine direct din Χι La xt, reprezentat simbolic ca 1->4; este egal cu coeficientul de influență cauzală P, X 2,..., HR. O dependență strict de regresie poate fi determinată după cum urmează. cale.

Lasă-l pe U X\, Xr,..., X r - Aleatoriu
cantități cu o îmbinare dată curse
distribuția probabilității.
Dacă pentru fiecare
până la un set de valori Χ λ =x\, X 2= hg,...,
X p = x p matematica condiționată este definită. învie
Omagiu Υ(χ\, X2,..., Xp) - E(Y/(X])= xj,
Χι = X2, ..., X p = Xp)), apoi functia Υ(Χ],
X2,
..., Xp) numită regresie de magnitudine
us U ca mărime X\, Xr,..., X r, si ea
grafic - linia de regresie Y pe X\, Xr,
..., X r,
sau ecuația de regresie. Zavi
simetria lui Y din ΛΊ, Xg....... X p se manifestă în

modificarea valorilor medii ale Upri de la
Schimbare X\, Xr........ Chr. Deși de fiecare dată

set fix de valori X]- xj, xg = xg,» , Xr ~ Xr valoarea T rămâne o variabilă aleatoare cu definiție. împrăștiere. Pentru a clarifica întrebarea cu cât de exact regresia estimează modificarea în Y cu o modificare a ΑΊ, Hg,..., X r, varianța medie a lui Y este utilizată pentru diferite seturi de valori X\, Xr,..., XP(de fapt, vorbim de gradul de dispersie a variabilei dependente în jurul dreptei de regresie).

În practică, linia de regresie este căutată cel mai adesea sub forma unei funcții liniare Y = bj + biXi + bgXr+ - + bрХр(regresie liniară) care aproximează cel mai bine curba dorită. Acest lucru se face folosind metoda celor mai mici pătrate, când suma abaterilor pătrate ale lui Y observat efectiv de la estimările lor ale lui Y este minimizată (adică estimări folosind o linie dreaptă care pretinde să reprezinte relația de regresie dorită): w

U (U -U) => min (Ν - dimensiunea eșantionului), s

Această abordare se bazează pe faptul binecunoscut că suma care apare în expresia de mai sus capătă un mini-nim. valoare tocmai pentru cazul în care Y = Υ(χ\, xr, --, x P). Aplicație

Analiza variatiei.

Scopul analizei varianței este de a testa semnificația statistică a diferențelor dintre medii (pentru grupuri sau variabile). Această verificare se realizează prin împărțirea sumei pătratelor în componente, adică prin împărțirea varianței totale (variației) în părți, dintre care una se datorează erorii aleatorii (adică variabilitatea intragrup), iar a doua este asociată cu diferențe de valori medii. Ultima componentă a varianței este apoi utilizată pentru a analiza semnificația statistică a diferenței dintre medii. Dacă aceasta este diferența semnificativ, ipoteza nulă respins iar ipoteza alternativă că există o diferență între mijloace este acceptată.

Împărțirea sumei pătratelor. Pentru o dimensiune a eșantionului n, varianța eșantionului este calculată ca suma abaterilor pătrate de la media eșantionului împărțită la n-1 (dimensiunea eșantionului minus unu). Astfel, pentru o dimensiune fixă ​​a eșantionului n, varianța este o funcție a sumei pătratelor (abaterilor). Baza analizei varianței este împărțirea varianței în părți sau componente, de ex. eșantionul este împărțit în două părți în care se calculează media și suma abaterilor pătrate. Calculul acelorași indicatori pentru eșantion în ansamblu dă o valoare mai mare a dispersiei, ceea ce explică discrepanța dintre mediile grupului. Astfel, analiza varianței ne permite să explicăm variabilitatea intragrup, care nu poate fi modificată atunci când studiem întregul grup ca întreg.

Testarea semnificației în analiza varianței se bazează pe compararea componentei varianței între grupuri și a componentei varianței în interiorul grupului (numită eroare pătratică medie). Dacă ipoteza nulă (egalitatea mediilor în cele două populații) este adevărată, atunci ne putem aștepta la o diferență relativ mică în mediile eșantionului din cauza variației pur aleatoare. Prin urmare, sub ipoteza nulă, varianța în interiorul grupului va coincide practic cu varianța totală calculată fără a lua în considerare apartenența la grup. Varianțele rezultate în cadrul grupului pot fi comparate utilizând testul F, care testează dacă raportul varianțelor este semnificativ mai mare decât 1.

Avantaje: 1) analiza varianței este semnificativ mai eficientă și, pentru eșantioane mici, deoarece mai informativ; 2) analiza varianței vă permite să detectați efecte interacţiuneîntre factori și, prin urmare, permite testarea unor ipoteze mai complexe

Metoda componentelor principale constă în reducerea dimensionalității liniare, în care se determină direcții ortogonale în perechi de variație maximă a datelor originale, după care datele sunt proiectate în spațiul de dimensiuni inferioare generate de componentele cu cea mai mare variație.

Analiza componentelor principale face parte din analiza factorială, care constă în combinarea a două variabile corelate într-un singur factor. Dacă exemplul cu două variabile este extins la un număr mai mare de variabile, calculele devin mai complexe, dar principiul de bază al reprezentării a două sau mai multe variabile dependente ca un singur factor rămâne valabil.

La reducerea numărului de variabile, decizia cu privire la momentul în care să se oprească procedura de selecție a factorilor depinde în mare măsură de viziunea cuiva asupra a ceea ce constituie variabilitatea mică „aleatorie”. Cu iterații repetate, sunt identificați factorii cu varianță din ce în ce mai mică.

Metoda centroidă pentru determinarea factorilor.

Metoda centroidului este utilizată în analiza clusterului. În această metodă, distanța dintre două clustere este definită ca distanța dintre centroizii lor în cadrul metodei centroidului neponderat.

Metoda centroidului ponderat (mediana) este identică cu metoda neponderată, cu excepția faptului că calculul utilizează ponderi pentru a ține seama de diferența dintre dimensiunile clusterelor (adică, numărul de obiecte din ele). Prin urmare, dacă există (sau sunt suspectate) diferențe semnificative în dimensiunea clusterelor, această metodă este de preferat celei anterioare.

Analiza grupului.

Termenul de analiză de cluster include de fapt un set de algoritmi de clasificare diferiți. O întrebare comună adresată de cercetători din multe domenii este cum să organizăm datele observate în structuri vizuale, de ex. identifica grupuri de obiecte similare. De fapt, analiza clusterului nu este atât o metodă statistică obișnuită, cât un „set” de diverși algoritmi pentru „distribuirea obiectelor în clustere”. Există un punct de vedere că, spre deosebire de multe alte proceduri statistice, metodele de analiză a clusterelor sunt utilizate în majoritatea cazurilor când nu aveți nicio ipoteză a priori despre clase, dar sunteți încă în stadiul descriptiv al studiului. Trebuie înțeles că analiza cluster determină „soluția cea mai probabilă semnificativă”.

Algoritmul de grupare a arborilor. Scopul acestui algoritm este de a grupa obiecte în grupuri suficient de mari folosind o anumită măsură a asemănării sau distanței dintre obiecte. Rezultatul tipic al unei astfel de grupări este un arbore ierarhic, care este reprezentat ca o diagramă. Diagrama începe cu fiecare obiect din clasă (în partea stângă a diagramei). Acum imaginați-vă că treptat (în pași foarte mici) vă „relaxați” criteriul despre care obiecte sunt unice și care nu. Cu alte cuvinte, coborâți pragul legat de decizia de a combina două sau mai multe obiecte într-un singur cluster. Ca urmare, legați din ce în ce mai multe obiecte între ele și agregați (combinați) din ce în ce mai multe grupuri formate din elemente din ce în ce mai diferite. În cele din urmă, în ultimul pas, toate obiectele sunt combinate împreună. În aceste diagrame, axele orizontale reprezintă distanța de îmbinare (în diagramele arbore verticale, axele verticale reprezintă distanța de îmbinare). Deci, pentru fiecare nod din grafic (unde se formează un grup nou), puteți vedea valoarea distanței pentru care elementele corespunzătoare sunt asociate într-un singur cluster nou. Atunci când datele au o „structură” clară în ceea ce privește grupurile de obiecte care sunt similare între ele, atunci această structură este probabil să fie reflectată în arborele ierarhic prin diferite ramuri. Ca rezultat al analizei cu succes folosind metoda de fuziune, devine posibil să se detecteze clustere (ramuri) și să le interpreteze.

Analiza discriminantă este utilizată pentru a decide care variabile diferențiază (discriminează) două sau mai multe populații (grupuri) emergente. Cea mai comună aplicație a analizei discriminante este includerea mai multor variabile într-un studiu pentru a le determina pe cele care separă cel mai bine populațiile unele de altele. Cu alte cuvinte, doriți să construiți un „model” care poate prezice cel mai bine cărei populații îi va aparține un anumit eșantion. În următoarea discuție, termenul „în model” va fi folosit pentru a se referi la variabilele utilizate în estimarea apartenenței populației; Vom spune despre variabilele care nu sunt utilizate pentru aceasta că sunt „în afara modelului”.

În analiza funcției discriminante pas cu pas, un model de discriminare este construit pas cu pas. Mai precis, la fiecare pas, toate variabilele sunt analizate și se găsește cea care aduce cea mai mare contribuție la diferența dintre populații. Această variabilă ar trebui inclusă în modelul pentru acest pas, iar trecerea la pasul următor are loc.

De asemenea, puteți lucra în direcția opusă, caz în care toate variabilele vor fi mai întâi incluse în model, iar apoi la fiecare pas, variabilele care contribuie puțin la predicții vor fi eliminate. Apoi, ca rezultat al unei analize de succes, pot fi reținute doar variabilele „importante” din model, adică acele variabile a căror contribuție la discriminare este mai mare decât altele.

Această procedură pas cu pas este „ghidată” de valoarea F corespunzătoare pentru includere și valoarea F corespunzătoare pentru excludere. Valoarea statistică F pentru o variabilă indică semnificația sa statistică la discriminarea între populații, adică este o măsură a contribuției variabilei la prezicerea apartenenței populației.

Pentru două grupuri, analiza discriminantă poate fi considerată și o procedură de regresie multiplă. Dacă codificați cele două grupuri ca 1 și 2 și apoi utilizați aceste variabile ca variabile dependente în regresia multiplă, veți obține rezultate similare cu cele pe care le-ați obține folosind analiza discriminantă. În general, în cazul a două populații, potriviți o ecuație liniară de următorul tip:

Grupa = a + b1*x1 + b2*x2 + ... + bm*xm

unde a este o constantă și b1...bm sunt coeficienți de regresie. Interpretarea rezultatelor unei probleme cu două populații urmează îndeaproape logica regresiei multiple: variabilele cu cei mai mari coeficienți de regresie contribuie cel mai mult la discriminare.

Dacă există mai mult de două grupuri, atunci mai mult de o funcție discriminantă poate fi estimată similar cu ceea ce sa făcut anterior. De exemplu, atunci când există trei populații, puteți estima: (1) o funcție pentru a discrimina între populația 1 și populațiile 2 și 3 luate împreună și (2) o altă funcție pentru a discrimina între populația 2 și populația 3. De exemplu, dvs. ar putea avea o funcție de discriminare între acei absolvenți de liceu care merg la facultate față de cei care nu o fac (dar doresc să obțină un loc de muncă sau să meargă la facultate) și o a doua funcție de discriminare între acei absolvenți care doresc să obțină un loc de muncă față de cei cine care vrea să meargă la școală. Coeficienții b din aceste funcții discriminatorii pot fi interpretați în același mod ca înainte.

Corelația canonică.

Analiza canonică este concepută pentru a analiza dependențele dintre listele de variabile. Mai precis, vă permite să explorați relația dintre două seturi de variabile. La calcularea rădăcinilor canonice, se calculează valorile proprii ale matricei de corelație. Aceste valori sunt egale cu proporția de varianță explicată prin corelația dintre variabilele canonice corespunzătoare. În acest caz, ponderea rezultată este calculată în raport cu dispersia variabilelor canonice, i.e. sume ponderate pe două seturi de variabile; astfel, valorile proprii nu arată valoarea absolută explicată în variabilele canonice corespunzătoare.

Dacă luăm rădăcina pătrată a valorilor proprii rezultate, obținem un set de numere care pot fi interpretate ca coeficienți de corelație. Deoarece sunt variabile canonice, ele sunt numite și corelații canonice. La fel ca și valorile proprii, corelațiile dintre variabilele canonice identificate secvențial la fiecare pas scad. Cu toate acestea, alte variabile canonice pot fi, de asemenea, corelate semnificativ, iar aceste corelații permit adesea o interpretare destul de semnificativă.

Criteriul de semnificație a corelațiilor canonice este relativ simplu. În primul rând, corelațiile canonice sunt evaluate una câte una în ordine descrescătoare. Doar acele rădăcini care se dovedesc a fi semnificative din punct de vedere statistic sunt reținute pentru analiza ulterioară. Deși în realitate calculele se întâmplă puțin diferit. Programul evaluează mai întâi semnificația întregului set de rădăcini, apoi semnificația setului rămas după îndepărtarea primei rădăcini, a celei de-a doua rădăcini etc.

Cercetările au arătat că testul utilizat detectează corelații canonice mari chiar și cu dimensiuni mici ale eșantionului (de exemplu, n = 50). Corelațiile canonice slabe (de exemplu, R = .3) necesită ca eșantioane de dimensiuni mari (n > 200) să fie detectate în 50% din timp. Rețineți că corelațiile canonice de dimensiuni mici nu au, de obicei, valoare practică, deoarece corespund unei mici variații reale a datelor originale.

Greutăți canonice. După determinarea numărului de rădăcini canonice semnificative, se pune întrebarea despre interpretarea fiecărei rădăcini (semnificative). Amintiți-vă că fiecare rădăcină reprezintă de fapt două sume ponderate, una pentru fiecare set de variabile. O modalitate de a interpreta „sensul” fiecărei rădăcini canonice este de a analiza ponderile asociate fiecărui set de variabile. Aceste greutăți sunt numite și greutăți canonice.

Când analizează, de obicei folosesc faptul că, cu cât ponderea atribuită este mai mare (adică valoarea absolută a ponderii), cu atât contribuția variabilei corespunzătoare la valoarea variabilei canonice este mai mare.

Dacă sunteți familiarizat cu regresia multiplă, puteți aplica aceeași interpretare pentru ponderile canonice pe care o utilizați pentru ponderile beta într-o ecuație de regresie multiplă. Greutățile canonice sunt, într-un sens, analoge cu corelațiile parțiale ale variabilelor corespunzătoare rădăcinii canonice. Astfel, luarea în considerare a ponderilor canonice ne permite să înțelegem „sensul” fiecărei rădăcini canonice, adică. vezi cum variabilele specifice din fiecare set afectează suma ponderată (adică variabila canonică).

Metode parametrice și neparametrice de evaluare a rezultatelor.

Metode parametrice bazate pe distribuția prin eșantionare a anumitor statistici. Pe scurt, dacă cunoașteți distribuția variabilei observate, puteți prezice cum se vor „comporta” statisticile utilizate în eșantioane repetate de dimensiune egală - adică cum va fi distribuit.

În practică, utilizarea metodelor parametrice este limitată din cauza volumului sau mărimii probei disponibile pentru analiză; probleme cu măsurarea precisă a caracteristicilor obiectului observat

Astfel, este nevoie de proceduri care să permită prelucrarea datelor „de calitate scăzută” din eșantioane mici cu variabile despre a căror distribuție se știe puțin sau nimic. Metodele neparametrice sunt dezvoltate tocmai pentru acele situații care apar destul de des în practică, când cercetătorul nu știe nimic despre parametrii populației studiate (de unde și denumirea metodelor - neparametrice). În termeni mai tehnici, metodele neparametrice nu se bazează pe estimarea parametrilor (cum ar fi media sau abaterea standard) pentru a descrie distribuția de eșantionare a cantității de interes. Prin urmare, aceste metode sunt uneori numite și fără parametri sau distribuite liber.

În esență, pentru fiecare criteriu parametric există cel puțin un analog neparametric. Aceste criterii pot fi clasificate în una din următoarele grupe:

criterii pentru diferențele dintre grupuri (eșantioane independente);

criterii pentru diferențele dintre grupuri (eșantioane dependente);

criterii de dependență între variabile.

Diferențele dintre grupurile independente. De obicei, atunci când aveți două eșantioane (de exemplu, bărbați și femei) pe care doriți să le comparați cu privire la media unei variabile de interes, utilizați un test t pentru independenți. Alternative neparametrice la acest test sunt testul din seria Wald-Wolfowitz, testul Mann-Whitney U și testul Kolmogorov-Smirnov cu două eșantioane. Dacă aveți mai multe grupuri, puteți utiliza analiza varianței. Analogii săi neparametrici sunt: ​​analiza de varianță a rangului Kruskal-Wallis și testul median.

Diferențele dintre grupurile dependente. Dacă doriți să comparați două variabile din același eșantion (de exemplu, performanța elevilor la matematică la începutul și la sfârșitul semestrului), se folosește de obicei un test t eșantioane dependente. Testele alternative neparametrice sunt testul semnului și testul Wilcoxon pentru comparații pereche. Dacă variabilele luate în considerare sunt de natură categorică sau sunt clasificate (adică prezentate sub formă de frecvențe care se încadrează în anumite categorii), atunci testul chi-pătrat McNemar va fi adecvat. Când sunt luate în considerare mai mult de două variabile din același eșantion, se utilizează de obicei analiza de varianță cu măsuri repetate (ANOVA). O metodă alternativă neparametrică este analiza varianței lui Friedman sau testul Q al lui Cochran (cel din urmă este utilizat, de exemplu, dacă variabila este măsurată pe o scară nominală). Testul Q al lui Cochran este, de asemenea, utilizat pentru a evalua modificările frecvențelor (proporțiilor).

Dependențe între variabile. Pentru a evalua dependența (relația) dintre două variabile, de obicei se calculează coeficientul de corelație. Analogii neparametrici ai coeficientului de corelație Pearson standard sunt R lui Spearman, tau al lui Kendall și coeficientul Gamma. Dacă cele două variabile luate în considerare sunt de natură categorică, testele neparametrice adecvate pentru testarea relației ar fi: Chi-pătrat, coeficientul Phi, testul exact al lui Fisher. . În plus, este disponibil un criteriu de dependență între mai multe variabile, așa-numitul coeficient de concordanță Kendall. Acest test este adesea folosit pentru a evalua coerența opiniilor experți independenți(judecătorii), în special, punctajele acordate aceluiași subiect.

Dacă datele nu sunt distribuite în mod normal și măsurătorile, în cel mai bun scenariu, conțin informații de clasare, apoi calcularea statisticilor descriptive obișnuite (de exemplu, medie, abatere standard) nu este foarte informativă. De exemplu, este bine cunoscut în psihometrie că intensitatea percepută a stimulilor (de exemplu, luminozitatea percepută a unei lumini) este o funcție logaritmică a intensității reale (luminozitatea măsurată în unități obiective, lux). În acest exemplu, estimarea obișnuită a mediei (suma valorilor împărțită la numărul de stimuli) nu oferă o reprezentare adevărată a mediei intensității stimulului real. (În exemplul discutat, s-ar calcula mai degrabă media geometrică.) Statistica neparametrică calculează un set divers de măsuri de poziție (medie, mediană, mod etc.) și dispersie (varianță, medie armonică, interval de quartile etc.) la reprezintă mai mult „imagine completă” a datelor.

Din prefața autorului
Capitolul 1 Introducere
1.1. Distribuție normală multivariată ca model
1.2. revizuire generală metode multivariate
Literatură
Capitolul 2. Distribuția normală multivariată
2.1. Introducere
2.2. Concepte legate de distribuțiile multivariate
2.3. Distribuție normală multivariată
2.4. Distribuția unei combinații liniare de valori distribuite normal; independența cantităților; distributii private
2.5. Distribuții condiționate și coeficient de corelație multiplă
2.6. Funcția caracteristică; momente
Literatură
Sarcini
Capitolul 3: Estimarea vectorului mediu și a matricei de covarianță
3.1. Introducere
3.2. Estimări de maximă probabilitate pentru vectorul mediu și matricea de covarianță
3.3. Distribuția vectorului mediu al eșantionului; inferență despre medie atunci când matricea de covarianță este cunoscută
Literatură
Sarcini
Capitolul 4: Distribuțiile și utilizarea coeficienților de corelație ale eșantionului
4.1. Introducere
4.2. Coeficientul de corelație al eșantionului bivariat
4.3. Coeficienți de corelație parțială
4.4. Coeficient de corelație multiplă
Literatură
Sarcini
Capitolul 5. Statistici T2 generalizate
5.1. Introducere
5.2. Statistica generalizată T2 și distribuția lor
5.3. Aplicații ale statisticii T2
5.4. Distribuția statisticilor T2 în prezența ipotezelor concurente; functie de putere
5.5. Câteva proprietăți optime ale criteriului T2
5.6. Problemă multidimensională Behrens-Fisher
Literatură
Sarcini
Capitolul 6. Clasificarea observaţiilor
6.1. Problema de clasificare
6.2. Principii de clasificare corectă
6.3. Metode de clasificare a observațiilor în cazul a două populații cu distribuție de probabilitate cunoscută
6.4. Clasificarea observațiilor în cazul a două populații cu distribuții normale multivariate cunoscute
6.5. Clasificarea observațiilor în cazul a două populații normale multivariate, ai căror parametri sunt estimați din eșantion
6.6. Clasificarea observaţiilor în cazul mai multor populaţii generale
6.7. Clasificarea observațiilor în cazul mai multor populații normale multivariate
6.8. Un exemplu de clasificare în cazul mai multor populații normale multivariate
Literatură
Sarcini
Capitolul 7. Distribuția matricei de covarianță a eșantionului și a varianței generalizate a eșantionului
7.1. Introducere
7.2. Distribuție Wishart
7.3. Unele proprietăți ale distribuției Wishart
7.4. teorema lui Cochran
7.5. Varianta generalizata
7.6. Distribuția unui set de coeficienți de corelație în cazul unei matrice de covarianță diagonală a populației
Literatură
Sarcini
Capitolul 8. Testarea ipotezelor lineare generale. Analiza variatiei
8.1. Introducere
8.2. Estimări ale parametrilor de regresie liniară multivariată
8.3. Teste ale raportului de probabilitate pentru testarea ipotezelor liniare despre coeficienții de regresie
8.4. Momente ale raportului de probabilitate în cazul în care ipoteza nulă este adevărată
8.5. Unele distribuții ale valorilor U
8.6. Expansiunea asimptotică a distribuției raportului de probabilitate
8.7. Testarea ipotezelor despre matricele coeficienților de regresie și regiunile de încredere
8.8. Testarea ipotezei despre egalitatea valorilor medii ale distribuțiilor normale cu o matrice de covarianță generală
8.9. ANOVA generalizată
8.10. Alte criterii de testare a ipotezei liniare
8.11. Forma canonică
Literatură
Sarcini
Capitolul 9. Testarea ipotezei despre independenţa mulţimilor de variabile aleatoare
9.1. Introducere
9.2. Raportul de probabilitate ca criteriu de testare a ipotezei despre independența seturilor de variabile aleatoare
9.3. Momente ale raportului de probabilitate cu condiția ca ipoteza nulă să fie adevărată
9.4. Unele distribuții ale raportului de probabilitate
9.5. Expansiunea asimptotică a distribuției lui h (raporturile de probabilitate)
9.6. Exemplu
9.7. Cazul a două seturi de variabile aleatoare
Literatură
Sarcini
Capitolul 10. Testarea ipotezelor despre egalitatea matricelor de covarianță și egalitatea ambelor vectori medii și a matricelor de covarianță
10.1 Introducere
10.2 Criterii de testare a ipotezelor despre egalitatea mai multor matrice de covarianță
10.3. Criterii de testare a ipotezei echivalenței mai multor populații normale
10.4. Momente ale raportului de probabilitate
10.5. Expansiuni asimptotice ale funcțiilor de distribuție ale mărimilor V1 și V
10.6. Cazul a două populații
10.7. Testarea ipotezei că matricea de covarianță este proporțională cu o matrice dată. Criteriul de sfericitate
10.8. Testarea ipotezei că matricea de covarianță este egală cu matricea dată
10.9. Testarea ipotezei că vectorul mediu și matricea de covarianță sunt, respectiv, egale cu vectorul dat și matricea dată
Literatură
Sarcini
Capitolul 11. Componentele principale
11.1. Introducere
11.2. Determinarea principalelor componente ale populaţiei
11.3. Estimări de maximă probabilitate pentru componentele principale și variațiile acestora
11.4. Calcularea estimărilor de probabilitate maximă pentru componentele principale
11.5. Exemplu
Literatură
Sarcini
Capitolul 12. Corelații canonice și mărimi canonice
12.1. Introducere
12.2. Corelații canonice și cantități canonice de populație
12.3. Estimarea corelațiilor canonice și a mărimilor canonice
12.4. Metoda de calcul
12.5. Exemplu
Literatură
Sarcini
Capitolul 13. Distribuția unor rădăcini și vectori caracteristici independent de parametri
13.1. Introducere
13.2. Cazul a două matrice Wishart
13.3. Cazul unei matrice Wishart non-singular
13.4. Corelații canonice
Literatură
Sarcini
Capitolul 14. Revizuirea altor lucrări de analiză multivariată
14.1. Introducere
14.2 Testarea ipotezelor despre rang și evaluarea restricțiilor liniare asupra coeficienților de regresie. Corelații canonice și mărimi canonice
14.3. Distribuție Wishart noncentrală
14.4. Distribuția unor rădăcini și vectori caracteristici în funcție de parametri
14.5. Distribuția asimptotică a unor rădăcini și vectori caracteristici
14.6. Componentele principale
14.7. Analiza factorilor
14.8. Ecuații stocastice
14.9. Analiza serii temporale
Literatură
Aplicație. Teoria matricelor
1. Definirea matricelor. Acțiuni asupra matricelor
2. Rădăcini și vectori caracteristici
3. Partiționarea vectorilor și matricelor în blocuri
4. Câteva rezultate
5. Metoda de reducere Doolittle și metoda de îngroșare a axelor pentru rezolvarea sistemelor de ecuații liniare
Literatură
Index de subiect

Introducere

Capitolul 1. Analiza regresiei multiple

Capitolul 2. Analiza clusterelor

Capitolul 3. Analiza factorială

Capitolul 4. Analiza discriminantă

Bibliografie

Introducere

Informațiile inițiale în cercetarea socio-economică sunt cel mai adesea prezentate sub forma unui set de obiecte, fiecare dintre acestea fiind caracterizat de un număr de caracteristici (indicatori). Deoarece numărul de astfel de obiecte și caracteristici poate ajunge la zeci și sute, iar analiza vizuală a acestor date este ineficientă, apar probleme în reducerea, concentrarea datelor inițiale, identificarea structurii și relației dintre ele pe baza construirii caracteristicilor generalizate ale unui set de caracteristici. și un set de obiecte. Astfel de probleme pot fi rezolvate prin metode de analiză statistică multivariată.

Analiza statistică multivariată este o secțiune de statistică dedicată metodelor matematice care vizează identificarea naturii și structurii relațiilor dintre componentele a ceea ce este studiat și destinată obținerii de concluzii științifice și practice.

Atenția principală în analiza statistică multivariată este acordată metodelor matematice de construire a planurilor optime de colectare, sistematizare și prelucrare a datelor, care vizează identificarea naturii și structurii relațiilor dintre componentele trăsăturii multidimensionale studiate și destinate obținerii științifice și practice. concluzii.

Matricea inițială de date multidimensionale pentru analiza multidimensională este de obicei rezultatul măsurării componentelor unei caracteristici multidimensionale pentru fiecare dintre obiectele populației studiate, i.e. succesiune de observații multivariate. O caracteristică multivariată este cel mai adesea interpretată ca , iar o secvență de observații ca un eșantion din populația generală. În acest caz, alegerea metodei de prelucrare a datelor statistice inițiale se face pe baza unor ipoteze privind natura legii de distribuție a caracteristicii multidimensionale studiate.

1. Analiza statistică multivariată a distribuțiilor multivariate și a principalelor caracteristici ale acestora acoperă situațiile în care observațiile prelucrate sunt de natură probabilistă, i.e. interpretat ca un eșantion din populația corespunzătoare. Obiectivele principale ale acestei subsecțiuni includ: evaluarea statistică a distribuțiilor multivariate studiate și a parametrilor principali ai acestora; studiul proprietăților estimărilor statistice utilizate; studiul distribuțiilor de probabilitate pentru un număr de statistici, cu ajutorul căruia se construiesc criterii statistice de testare a diverselor ipoteze despre natura probabilistică a datelor multidimensionale analizate.

2. Analiza statistică multivariată a naturii și structurii relațiilor dintre componentele trăsăturii multidimensionale studiate combină conceptele și rezultatele inerente unor astfel de metode și modele precum analiza, analiza varianței, analiza covarianței, analiza factorială etc. Metodele care aparțin acestui grup includ atât algoritmi bazați pe ipoteza naturii probabilistice a datelor, cât și metode care nu se încadrează în cadrul niciunui model probabilistic (acestea din urmă sunt adesea denumite metode).

3. Analiza statistică multidimensională a structurii geometrice a setului studiat de observații multidimensionale combină concepte și rezultate inerente unor astfel de modele și metode precum analiza discriminantă, analiza clusterului, scalarea multidimensională. Conceptul cheie pentru aceste modele este conceptul de distanță, sau o măsură a proximității dintre elementele analizate ca puncte ale unui spațiu. În acest caz, atât obiectele (ca puncte specificate în spațiul de caracteristici) cât și caracteristicile (ca puncte specificate în spațiul obiect) pot fi analizate.

Valoarea aplicată a analizei statistice multivariate constă în principal în rezolvarea următoarelor trei probleme:

· sarcina studiului statistic al dependenţelor dintre indicatorii luaţi în considerare;

· sarcina de a clasifica elementele (obiecte sau caracteristici);

· sarcina de a reduce dimensiunea spațiului de caracteristici luate în considerare și de a selecta cele mai informative caracteristici.

Analiza de regresie multiplă are scopul de a construi un model care să permită, pe baza valorilor variabilelor independente, să se obțină estimări ale valorilor variabilei dependente.

Regresia logistică pentru rezolvarea problemei de clasificare. Este un tip de regresie multiplă al cărui scop este analiza relației dintre mai multe variabile independente și o variabilă dependentă.

Analiza factorială se preocupă de identificarea unui număr relativ mic de factori ascunși (latenți), a căror variabilitate explică variabilitatea tuturor indicatorilor observați. Analiza factorială are ca scop reducerea dimensiunii problemei luate în considerare.

Analiza cluster și discriminantă sunt concepute pentru a împărți colecțiile de obiecte în clase, fiecare dintre acestea ar trebui să includă obiecte care sunt omogene sau similare într-un anumit sens. În analiza clusterului, nu se știe dinainte câte grupuri de obiecte vor fi și ce dimensiune vor avea. Analiza discriminantă împarte obiectele în clase preexistente.

Capitolul 1. Analiza regresiei multiple

Misiunea: Cercetarea pieței imobiliare din Orel (raioanele sovietice și nordice).

Tabelul prezintă date despre prețul apartamentelor în Orel și diverși factori care îl determină:

· suprafata totala;

· zona de bucatarie;

· spațiu de locuit;

· tip de casa;

· număr de camere. (Fig.1)

Orez. 1 Date inițiale

În coloana „District” sunt utilizate următoarele denumiri:

3 – Sovetsky (elita, aparține regiunilor centrale);

4 – Nordul.

În coloana „Tip de casă”:

1 – caramida;

0 – panou.

Necesar:

1. Analizați relația tuturor factorilor cu indicatorul „Preț” și între ei. Selectați factorii cei mai potriviți pentru construirea unui model de regresie;

2. Construiți o variabilă inactivă care să reflecte apartenența apartamentului la zonele centrale și periferice ale orașului;

3. Construiți un model de regresie liniară pentru toți factorii, inclusiv o variabilă inactivă. Explicați semnificația economică a parametrilor ecuației. Evaluează calitatea modelului, semnificația statistică a ecuației și a parametrilor acesteia;

4. Distribuiți factorii (cu excepția variabilei dummy) în funcție de gradul de influență asupra indicatorului „Preț”;

5. Construiți un model de regresie liniară pentru cei mai influenți factori, lăsând o variabilă inactivă în ecuație. Evaluează calitatea și semnificația statistică a ecuației și a parametrilor acesteia;

6. Justificați oportunitatea sau inadecvarea includerii unei variabile fictive în ecuația de la paragrafele 3 și 5;

7. Estimări de interval de estimare ale parametrilor ecuației cu o probabilitate de 95%;

8. Stabiliți cât va costa un apartament cu o suprafață totală de 74,5 m² într-o zonă de elită (periferică).

Performanţă:

1. După ce au analizat relația tuturor factorilor cu indicatorul „Preț” și între ei, factorii cei mai potriviți pentru construirea unui model de regresie au fost selectați folosind metoda de includere „Înainte”:

A) suprafata totala;

B) numărul de camere.

Variabile incluse/excluse (a)

a Variabilă dependentă: Preț

2. Variabila X4 „District” este o variabilă inactivă, deoarece are 2 valori: 3- aparținând districtului central „Sovetsky”, 4- districtului periferic „Severny”.

3. Să construim un model de regresie liniară pentru toți factorii (inclusiv variabila inactivă X4).

Modelul rezultat:

Evaluarea calității modelului.

Eroare standard = 126,477

Coeficientul Durbin - Watson = 2,136

Testarea semnificației unei ecuații de regresie

Valoarea testului F Fisher = 41,687

4. Să construim un model de regresie liniară cu toți factorii (cu excepția variabilei fictive X4)

Următoarele au fost repartizate în funcție de gradul de influență asupra indicatorului „Preț”:

Cel mai semnificativ factor este suprafața totală (F= 40,806)

Al doilea cel mai important factor este numărul de camere (F= 29.313)

5. Variabile incluse/excluse

a Variabilă dependentă: Preț

6. Să construim un model de regresie liniară pentru cei mai influenți factori cu o variabilă dummy, în cazul nostru este unul dintre factorii influenți.

Modelul rezultat:

Y = 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Evaluarea calității modelului.

Coeficientul de determinare R2 = 0,807

Arată proporția de variație a trăsăturii rezultate sub influența factorilor studiati. În consecință, aproximativ 89% din variația variabilei dependente este luată în considerare și se datorează influenței factorilor incluși în model.

Coeficientul de corelație multiplă R = 0,898

Arată apropierea relației dintre variabila dependentă Y cu toți factorii explicativi incluși în model.

Eroare standard = 126,477

Coeficientul Durbin - Watson = 2,136

Testarea semnificației unei ecuații de regresie

Valoarea testului F Fisher = 41,687

Ecuația de regresie ar trebui considerată adecvată, iar modelul este considerat semnificativ.

Cel mai semnificativ factor este numărul de camere (F=41.687)

Al doilea cel mai important factor este suprafața totală (F= 40,806)

Al treilea factor cel mai important este regiunea (F= 32,288)

7. Variabila inactivă X4 este un factor semnificativ, de aceea este indicat să o includeți în ecuație.

Estimările de intervale ale parametrilor ecuației arată rezultatele predicției din modelul de regresie.

Cu o probabilitate de 95%, volumul vânzărilor în luna prognozată va varia de la 540,765 la 1080,147 milioane de ruble.

8. Determinarea costului unui apartament într-o zonă de elită

Pentru 1 cameră U = 348.349 + 35.788 * 74.5 - 217.075 * 3 + 305.687 * 1

Pentru 2 camere U = 348.349 + 35.788 * 74.5 - 217.075 * 3 + 305.687 * 2

Pentru 3 camere U = 348.349 + 35.788 * 74.5 - 217.075 * 3 + 305.687 * 3

în periferic

Pentru 1 cameră U = 348.349 + 35.788 * 74.5 - 217.075 * 4 + 305.687 * 1

Pentru 2 camere U = 348.349 + 35.788 * 74.5 - 217.075 * 4 + 305.687 * 2

Pentru 3 camere U = 348.349 + 35.788 * 74.5 - 217.075 * 4 + 305.687 * 3

Capitolul 2. Analiza clusterelor

Sarcina: Studiul structurii cheltuielilor și economiilor bănești ale populației.

Tabelul prezintă structura cheltuielilor și economiilor în numerar ale populației pe regiuni din Districtul Federal Central Federația Rusăîn 2003. Pentru următorii indicatori:

· PTiOU – achiziționarea de bunuri și plata serviciilor;

· OPiV – plăți și contribuții obligatorii;

· PN – achiziție de imobile;

· PFA – creșterea activelor financiare;

· DR – creșterea (scăderea) banilor în mâinile populației.

Orez. 8 Date inițiale

Necesar:

1) determinarea numărului optim de clustere pentru împărțirea regiunilor în grupuri omogene în funcție de toate caracteristicile de grupare simultan;

2) clasificarea zonelor folosind o metodă ierarhică cu un algoritm pentru conexiuni intergrup și afișarea rezultatelor sub forma unei dendrograme;

3) analizarea principalelor priorități ale cheltuielilor și economiilor de numerar în clusterele rezultate;

Performanţă:

1) Determinați numărul optim de clustere pentru împărțirea regiunilor în grupuri omogene în funcție de toate caracteristicile de grupare simultan;

Pentru a determina numărul optim de clustere, trebuie să utilizați analiza ierarhică a clusterelor și să consultați tabelul „Pași de aglomerare” din coloana „Coeficienți”.

Acești coeficienți implică distanța dintre două clustere, determinată pe baza măsurării distanței selectate (distanța euclidiană). În etapa în care măsura distanței dintre două clustere crește brusc, procesul de combinare în noi clustere trebuie oprit.

Ca rezultat, numărul optim de clustere este considerat a fi egal cu diferența dintre numărul de observații (17) și numărul pasului (14), după care coeficientul crește treptat. Astfel, numărul optim de clustere este 3. (Fig. 9)

cluster de analiză statistică matematică

Orez. 9 Tabel „Pași de aglomerare”

2) Clasificarea zonelor folosind o metodă ierarhică cu un algoritm pentru conexiuni intergrup și afișarea rezultatelor sub forma unei dendrograme;

Acum, folosind numărul optim de clustere, clasificăm zonele folosind o metodă ierarhică. Iar în rezultat ne referim la tabelul „Cluster Membership”. (Fig.10)

Orez. 10 Tabelul „Cluster Membership”

În fig. 10 arată clar că clusterul 3 a inclus două regiuni (Kaluga, Moscova) și Moscova, clusterul 2 a inclus două (Bryansk, Voronezh, Ivanovo, Lipetsk, Oryol, Ryazan, Smolensk, Tambov, Tver), clusterul 1 a inclus Belgorod, Vladimir, Kostroma, Kursk, Tula, Yaroslavl.

Orez. 11 Dendrograma

3) analizarea principalelor priorități de cheltuieli și economii de numerar în clusterele rezultate;

Pentru a analiza clusterele rezultate, trebuie să efectuăm o „Comparație a mijloacelor”. Următorul tabel este afișat în fereastra de ieșire (Fig. 12)

Orez. 12 Valori medii ale variabilelor

În tabelul „Valori medii” putem urmări care structuri au cea mai mare prioritate în distribuirea cheltuielilor de numerar și a economiilor populației.

În primul rând, este de remarcat faptul că cea mai mare prioritate în toate domeniile este acordată achiziției de bunuri și plății pentru servicii. Parametrul ia o valoare mai mare în clusterul 3.

Locul 2 este ocupat de creșterea activelor financiare. Cea mai mare valoare este într-un grup.

Cel mai mic coeficient din clusterele 1 și 2 este pentru „cumpărarea de bunuri imobiliare”, iar în clusterul 3 a fost evidențiată o scădere notabilă a banilor în mâinile populației.

În general, achiziția de bunuri și plățile pentru servicii și achizițiile minore de bunuri imobiliare au o importanță deosebită pentru populație.

4) comparați clasificarea rezultată cu rezultatele aplicării algoritmului de conexiuni intragrup.

În analiza conexiunilor intergrupale, situația a rămas practic neschimbată, cu excepția regiunii Tambov, care din clusterul 2 a intrat în clusterul 1. (Fig. 13)

Orez. 13 Analiza conexiunilor intragrup

Nu au existat modificări în tabelul „Valori medii”.

Capitolul 3. Analiza factorială

Misiunea: Analiza activitatilor intreprinderilor din industria usoara.

Există date de sondaj de la 20 de întreprinderi din industria uşoară (Fig. 14) pentru următoarele caracteristici:

· X1 – nivelul productivității capitalului;

· X2 – intensitatea muncii pe unitatea de producție;

· X3 – ponderea achizitionarii materialelor in costurile totale;

· Х4 – coeficient de înlocuire a echipamentului;

· X5 – prime și remunerații per angajat;

· Х6 – ponderea pierderilor din defecte;

· X7 – costul mediu anual al mijloacelor fixe de producție;

· X8 – fondul de salariu mediu anual;

· X9 – nivelul vânzărilor de produse;

· X10 – indicele activelor permanente (raportul dintre activele fixe și alte active imobilizate și capitalurile proprii);

· X11 – cifra de afaceri a capitalului de lucru;

· X12 – cheltuieli de neproducție.

Fig.14 Date inițiale

Necesar:

1. efectuează analiza factorială a următoarelor variabile: 1,3,5-7, 9, 11,12, identifică și interpretează caracteristicile factorilor;

2. indicați cele mai prospere și promițătoare întreprinderi.

Performanţă:

1. Efectuați analiza factorială a următoarelor variabile: 1,3,5-7, 9, 11,12, identificați și interpretați caracteristicile factorilor.

Analiza factorială este un set de metode care, bazate pe conexiunile existente efectiv între obiecte (trăsături), fac posibilă identificarea caracteristicilor generalizatoare latente (implicite) ale unei structuri organizaționale.

În caseta de dialog de analiză factorială, selectați variabilele noastre și indicați parametrii necesari.

Orez. 15 Varianta totală explicată

Tabelul „Varianța totală explicată” arată că au fost identificați 3 factori care explică 74,8% din variațiile variabilelor – modelul construit este destul de bun.

Acum interpretăm caracteristicile factorilor conform „Matricea componentelor rotite”: (Fig. 16).

Orez. 16 Matricea componentelor rotite

Factorul 1 este cel mai strâns legat de nivelul vânzărilor de produse și are o relație inversă cu costurile de non-producție.

Factorul 2 este cel mai strâns legat de ponderea achiziției de materiale în costurile totale și ponderea pierderilor din defecte și are o relație inversă cu bonusurile și remunerațiile pe angajat.

Factorul 3 este cel mai strâns legat de nivelul de productivitate a capitalului și de cifra de afaceri a capitalului de lucru și are o relație inversă cu costul mediu anual al mijloacelor fixe.

2. Indicați cele mai prospere și promițătoare întreprinderi.

Pentru a identifica cele mai prospere întreprinderi, vom sorta datele după 3 criterii factoriale în ordine descrescătoare. (Fig.17)

Ar trebui luate în considerare cele mai prospere întreprinderi: 13,4,5, deoarece, în general, în funcție de 3 factori, indicatorii lor ocupă pozițiile cele mai înalte și stabile.

Capitolul 4. Analiza discriminantă

Evaluarea bonității persoanelor juridice într-o bancă comercială

Banca a selectat șase indicatori ca indicatori semnificativi care caracterizează situația financiară a organizațiilor de împrumut (Tabelul 4.1.1):

QR (X1) - raport rapid de lichiditate;

CR (X2) - raportul de lichiditate curent;

EQ/TA (X3) - coeficient de independență financiară;

TD/EQ (X4) - totalul datoriilor către capitaluri proprii;

ROS (X5) - rentabilitatea vânzărilor;

FAT (X6) - cifra de afaceri a mijloacelor fixe.

Tabelul 4.1.1. Datele inițiale


Necesar:

Pe baza analizei discriminante folosind SPSS, determinați căreia dintre cele patru categorii îi aparțin cei trei debitori ( entitati legale), cei care doresc să obțină un împrumut de la o bancă comercială:

§ Grupa 1 - cu performante financiare excelente;

§ Grupa 2 - cu performante financiare bune;

§ Grupa 3 - cu performante financiare slabe;

§ Grupa 4 - cu performante financiare foarte slabe.

Pe baza rezultatelor calculului, construiți funcții discriminante; evaluați semnificația lor folosind coeficientul Wilks (λ). Construiți o hartă perceptivă și diagrame poziție relativă observaţii în spaţiul a trei funcţii. Interpretați rezultatele analizei.

Progres:

Pentru a stabili căreia dintre cele patru categorii îi aparțin cei trei debitori care doresc să obțină un împrumut de la o bancă comercială, construim o analiză discriminantă care ne permite să stabilim cărora dintre populațiile identificate anterior (eșantioane de instruire) ar trebui să li se atribuie noi clienți. la.

Ca variabilă dependentă, vom selecta grupul din care poate face parte împrumutatul în funcție de indicatorii săi financiari. Din datele sarcinii, fiecărui grup i se atribuie un scor corespunzător de 1, 2, 3 și 4.

Coeficienții canonici nenormalizați ai funcțiilor discriminante prezentate în Fig. 4.1.1 sunt folosite pentru a construi ecuația funcțiilor discriminante D1(X), D2(X) și D3(X):

3.) D3(X) =


1

(Constant)

Orez. 4.1.1. Coeficienții funcției discriminante canonice

Orez. 4.1.2. Lambda lui Wilks

Cu toate acestea, deoarece semnificația conform coeficientului Wilks (Fig. 4.1.2) a doua și a treia funcții este mai mare de 0,001, este inadecvat să le folosiți pentru discriminare.

Datele din tabelul „Rezultatele de clasificare” (Fig. 4.1.3) indică faptul că pentru 100% din observații clasificarea a fost efectuată corect, precizie ridicată realizat în toate cele patru grupuri (100%).

Orez. 4.1.3. Rezultatele clasificării

Informațiile despre grupurile reale și previzionate pentru fiecare împrumutat sunt date în tabelul „Statistici punct cu punct” (Fig. 4.1.4).

Ca urmare a analizei discriminante, s-a determinat cu o probabilitate mare ca noii debitori ai băncii să aparțină subsetului de instruire M1 - primul, al doilea și al treilea împrumutat (numerele de serie 41, 42, 43) sunt atribuite subsetului. M1 cu probabilitățile corespunzătoare de 100%.

Numărul de observație

Grupul real

Cel mai probabil grup

Grupul prezis

negrupate

negrupate

negrupate

Orez. 4.1.4. Statistici punct cu punct

Coordonatele centroizilor pe grupe sunt date în tabelul „Funcții în centroizii de grup” (Fig. 4.1.5). Ele sunt utilizate pentru a reprezenta graficul centroizilor pe harta perceptivă (Fig. 4.1.6).

1

Orez. 4.1.5. Funcții în centroizii de grup

Orez. 4.1.6. Hartă perceptivă pentru două funcții discriminante D1(X) și D2(X) (* - centroid de grup)

Câmpul „Harta teritorială” este împărțit de funcții discriminante în patru zone: în partea stângă se găsesc în principal observații ale celui de-al patrulea grup de debitori cu indicatori financiari foarte slabi, în partea dreaptă - primul grup cu indicatori financiari excelenți, în mijloc și partea inferioară - al treilea și al doilea grup de debitori cu performanțe financiare proaste și, respectiv, bune.

Orez. 4.1.7. Scatterplot pentru toate grupurile

În fig. 4.1.7 prezintă un grafic combinat al distribuției tuturor grupurilor de debitori împreună cu centroizii acestora; poate fi folosit pentru a efectua o analiză vizuală comparativă a naturii poziției relative a grupurilor de debitori bănci în funcție de indicatorii financiari. Împrumutații cu indicatori financiari înalți sunt localizați în partea dreaptă a graficului, în stânga - cu indicatori financiari scăzuti, iar în partea din mijloc - cu indicatori financiari medii. Deoarece, conform rezultatelor calculului, a doua funcție discriminantă D2(X) s-a dovedit a fi nesemnificativă, diferențele dintre coordonatele centroizilor de-a lungul acestei axe sunt nesemnificative.

Evaluarea bonității persoanelor fizice dintr-o bancă comercială

Departamentul de credit al unei bănci comerciale a efectuat un sondaj pe 30 dintre clienții săi (persoane fizice). Pe baza analizei preliminare a datelor, debitorii au fost evaluați în funcție de șase indicatori (Tabelul 4.2.1):

X1 - împrumutatul a contractat anterior un împrumut de la băncile comerciale;

X2 - venitul mediu lunar al familiei debitorului, mii de ruble;

X3 - termenul (perioada) de rambursare a creditului, ani;

X4 - suma împrumutului acordat, mii de ruble;

X5 - componența familiei împrumutatului, persoane;

X6 - vârsta împrumutatului, ani.

În același timp, au fost identificate trei grupuri de debitori pe baza probabilității de rambursare a împrumutului:

§ Grupa 1 - cu o probabilitate redusă de rambursare a creditului;

§ Grupa 2 - cu o probabilitate medie de rambursare a creditului;

§ Grupa 3 - cu o mare probabilitate de rambursare a creditului.

Necesar:

Pe baza analizei discriminante folosind pachetul SPSS, este necesar să se clasifice trei clienți bănci (în funcție de probabilitatea de rambursare a creditului), adică. evaluați dacă fiecare dintre ei aparține unuia dintre cele trei grupuri. Pe baza rezultatelor calculului, construiți funcții discriminante semnificative și evaluați semnificația lor folosind coeficientul Wilks (λ). În spațiul a două funcții discriminante pentru fiecare grup, construiți diagrame ale pozițiilor relative ale observațiilor și o diagramă combinată. Evaluați locația fiecărui împrumutat pe aceste diagrame. Interpretați rezultatele analizei.

Tabelul 4.2.1. Datele inițiale

Progres:

Pentru a construi o analiză discriminantă, vom selecta probabilitatea de rambursare la timp a împrumutului de către client ca variabilă dependentă. Având în vedere că poate fi scăzut, mediu și ridicat, atribuim fiecărei categorii un rating corespunzător de 1,2 și 3.

Coeficienții canonici nenormalizați ai funcțiilor discriminante prezentate în Fig. 4.2.1 sunt folosite pentru a construi ecuația funcțiilor discriminante D1(X), D2(X):

2.) D2(X) =

Orez. 4.2.1. Coeficienții funcției discriminante canonice

Orez. 4.2.2. Lambda lui Wilks

Conform coeficientului Wilks (Fig. 4.2.2), semnificația pentru a doua funcție este mai mare de 0,001, prin urmare, este inadecvat să o folosești pentru discriminare.

Datele din tabelul „Rezultatele de clasificare” (Fig. 4.2.3) indică faptul că pentru 93,3% din observații clasificarea a fost efectuată corect, s-a obținut o precizie ridicată în prima și a doua grupă (100% și 91,7%), mai puțin precisă. rezultatele au fost obţinute în al treilea grup (88,9%).

Orez. 4.2.3. Rezultatele clasificării

Informațiile despre grupurile reale și previzionate pentru fiecare client sunt date în tabelul „Statistici punct cu punct” (Fig. 4.2.4).

Ca urmare a analizei discriminante, s-a determinat cu o probabilitate mare ca noii clienți bănci să aparțină subsetului de instruire M3 - primul, al doilea și al treilea clienți (numerele de serie 31, 32, 33) sunt alocați subsetului M3 cu probabilități corespunzătoare de 99%, 99% și 100%.

Numărul de observație

Grupul real

Cel mai probabil grup

Grupul prezis

negrupate

negrupate

negrupate

Orez. 4.2.4. Statistici punct cu punct

Probabilitatea rambursării creditului

Orez. 4.2.5. Funcții în centroizii de grup

Coordonatele centroizilor pe grupe sunt date în tabelul „Funcții în centroizii de grup” (Fig. 4.2.5). Acestea sunt folosite pentru a reprezenta un grafic centroizi pe harta perceptivă (Fig. 4.2.6).

Câmpul „Harta teritorială” este împărțit de funcții discriminante în trei zone: în partea stângă se găsesc în principal observații ale primului grup de clienți cu o probabilitate foarte mică de rambursare a creditului, în partea dreaptă - al treilea grup cu un nivel ridicat. probabilitate, la mijloc - al doilea grup de clienți cu o probabilitate medie de rambursare a împrumutului, respectiv.

În fig. 4.2.7 (a – c) reflectă locația clienților fiecăruia dintre cele trei grupuri pe planul a două funcții discriminante D1(X) și D2(X). Folosind aceste grafice, puteți efectua o analiză detaliată a probabilității de rambursare a împrumutului în cadrul fiecărui grup, puteți judeca natura distribuției clienților și puteți evalua gradul distanței acestora față de centroidul corespunzător.

Orez. 4.2.6. Hartă perceptivă pentru trei funcții discriminante D1(X) și D2(X) (* - centroid de grup)

De asemenea, în Fig. 4.2.7 (d) în același sistem de coordonate, este prezentat un grafic combinat al distribuției tuturor grupurilor de clienți împreună cu centroizii lor; poate fi folosit pentru a efectua o analiză vizuală comparativă a naturii poziției relative a grupurilor de clienți bănci cu probabilități diferite de rambursare a creditului. Împrumutații cu o probabilitate mare de a rambursa împrumutul sunt situați în partea stângă a graficului, în dreapta - cu o probabilitate scăzută, iar în mijloc - cu o probabilitate medie. Deoarece, conform rezultatelor calculului, a doua funcție discriminantă D2(X) s-a dovedit a fi nesemnificativă, diferențele dintre coordonatele centroizilor de-a lungul acestei axe sunt nesemnificative.

Orez. 4.2.7. Localizarea observațiilor pe planul a două funcții discriminante pentru grupurile cu probabilitate scăzută (a), medie (b), mare (c) de rambursare a creditului și pentru toate grupurile (d)

Bibliografie

1. „Analiza statistică multivariată în problemele economice. Modelare computerizată în SPSS”, 2009

2. Orlov A.I. „Statistică aplicată” M.: Editura „Examen”, 2004

3. Fisher R.A. „Metode statistice pentru cercetători”, 1954

4. Kalinina V.N., Solovyov V.I. „Introducere în analiza statistică multivariată” Manual al Universității de Stat de Educație, 2003;

5. Achim Büül, Peter Zoefel, „SPSS: arta procesării informațiilor” Editura DiaSoft, 2005;

6. http://ru.wikipedia.org/wiki