Extras din proiect
Scop
Asa cum este evidentiat din titlu, scopul acestui proiect este acela de a grupa toate tarile lumii, in functie de anumiti indicatori din domeniul agriculturii si a dezvoltarii rurale. In cele ce urmeaza, acesti factori ii vom numi variabile. In functie de aceste grupari putem analiza situatia unor anumite tari, in functie de altele, gruparea anumitor continente fata de altele sau a unor formatiuni economice (ex: UE).
Sursa datelor
Datele au fost extrase din baza de date worldbank, mai precis de pe site-ul http://data.worldbank.org/indicator . Acest site cuprinde o baza de date structurata, din toate domeniile si pentru toate tarile din lume, indifferent de marimea tarii sau alte caracteristici. Anul ales a fost 2013, acesta fiind ultimul an cu datele complete.
Prezentarea indicatorilor
Selectarea acestor indicatori a fost facuta in asa fel incat sa avem o perspectiva cat mai buna asupra nivelului in domeniul agriculturii si cel al dezvoltarii rurale. Astfel, putem observa prin acesti indicatori, ponderea pamantului folosit in agricultura din totalul pamantului tarilor supuse acestei analize, ponderea agriculturii in total PIB, pamantul arabil (hectare per persoana) .
Ponderea pamantului folosit in agricultura este un indicator extrem de important in analiza, el arantandu-ne inca de la inceput inclinatia tarilor implicate in analiza. Astfel, un procent crescut al acestuia indica o tara ce se bazeaza pe agricultura, iar la polul opus, un procent mic al acestuia indica o tara al carui accent nu este pus pe acest sector.
Ponderea agriculturii in total PIB este forma valorica a indicatorului precedent, mai precis, arata valoarea adusa de acest domeniu, in totalul PIB al tarii.
Pamantul arabil, arata capacitatea totala de pamant pe care o are la dispozitie respectiva tara pentru a cultiva si a dezvolta. Astfel, in functie de acest indicator ne putem da seama de puterea de extindere/ de crestere a tarii. Pentru un nivel ridicat al acestui indicator putem afirma ca tara respectiva va avea parte de crestere, in cazul unor investii. Nu putem spune acelasi lucru, daca avem de-a face cu un nivel mic al acestui indicator, chiar si in cazul unor investitii majore.
Analiza Cluster
Metodele de analiza cluster sunt metode nesupervizate, sau fara profesor, ce au ca obiectiv identificarea gruparilor naturale a datelor in clase omogene identificate prin o serie de caracteristici.
Scopul analizei in cauza este acela de a identifica grupari de tari asemanatoare din punct de vedere a caracteristicilor evidentiate prin indicatorii alesi.
Pentru analiza cluster vom folosi doua metode de clusterizare implementate prin Oracle Data Miner si anume : K-means , O-cluster.
K-MEANS
Algoritmul K-means porneste de la un numar k prestabilit /ales de clusteri, generand apoi aleator k centrii de grupa si formand clusteri in jurul lor sau generand direct un numar de k clusteri , calculand centrii ulterior. Apoi identifica punctele cele mai apropiate de clusteri , integrandu-le in ei. Se recaluleaza clusterii si centrul lor ( ca medie intre elementele constitutive ) si se repeta pasii de integrare si recalculare pana cand datele de intrare au fost impartite in clusteri si s-a atins nivelul de convergenta.
Importul datelor
Primul pas in realizarea importului datelor a fost crearea unei tabele corespunzatoare fisierului.
Preview document
Conținut arhivă zip
- Data mining.docx