walden

life in the woods

2015.03.30. 13:38

Lásd még: algoritmus fatermési tábla HFTT erdészeti tájak

nagyléptékű termőhelyi indikáció #3

Az osztályozást tehát jó lett volna megoldani automatizálva. Ehhez nem találtam megfelelő klaszterezési eljárást az általam ismert szoftverekben és a rendelkezésre álló pár nap alatt. Olyan osztályozási eljárást, ami:

  • eleve létező csoportokat (elemi erdészeti tájrészleteket) tud osztályozni, azaz eloszlásokat osztályoz;
  • elválasztja őket az átlagaik alapján;
  • kis számú csoportot képez (2-3-4 darabot).

Biztos van ilyen, nem hiszem, hogy a statisztika tudományában fel lehetne találni a spanyolviaszkot, de én pár nap keresgélés után sem találtam ilyet.

Ezért írtam egyet.

A varincia-analízisben a csoportokon belüli és a csoportok közti variancia viszonyát hasonlítják össze. Ezzel mérhető az átlagok eltérése. E csoportosító eljárásban pedig az a cél, hogy olyan csoportokat képezzek, ami minimalizálja a csoportokon belüli variancát és maximalizálja a csoportok közöttit.

A legjobb az lenne (brute force megoldás), ha minden lehetséges 2-3-4 db csoportot eredményező csoportosítási kombinációt meg lehetne vizsgálni, csoporton belüli varianciákat számolni és a legjobbat kiválasztani. De sajnos 92 db erdészeti tájrészletből bődületes számú kombinációban lehet 2-3-4 csoportot képezni, ezért ez nem megoldható.

Olyan megoldást választottam, hogy az algoritmusnak megadtam jellegzetes tájrészleteket, amik egyrészt nagy területűek (a fatermőképesség fafajsori területtel súlyozott varianciája szoros összefüggésben van a területtel, általában a nagy területű tájak dominálnak egy-egy csoportot), másrészt a képzendő csoportokat reprezentálják. Azaz nagy és átlagukban markánsan különböző tájrészleteket választottam ki, 2 vagy 3 darabot. Az algoritmus ezekhez a magokhoz illeszti a többi tájrészletet.

A variancia implicite tartalmazza az ftk-átlagok viszonyait. Annál illesztésnél növekszik a legkevésbé a variancia, ahol az új belépő tájrészlet átlaga a legközelebb van a már létező csoport átlagához, illetve ami kicsi elemszámú.

Tegyük fel, hogy 2db mag van, azaz két csoport képződik.

Az algoritmus az első lépésben hozzápróbálja a magokhoz az összes még be nem sorolt tájrészletet. Minden maghoz kiválasztható az, ami a legkevésbé emeli meg a varianciát a mag-egtáj belső varianciájához képest. Aztán ki kell választani azt a magot, ahol a legkevésbé emelkedett a variancia. Így egy tájrészletet besoroltunk.

A következő lépcsőben van egy 2 elemű csoport és egy 1 elemű. Ezekhez újra hozzápróbálja az összes szabad tájat, mindkét magnál kiválasztja azt, ami a legkevésbé emeli a csoport varianciáját; majd azt a magot, aminél kevésbé emelkedett a variancia.

És ezt így tovább mindaddig, amíg el nem fogy az összes besorolandó tájrészlet.

Kicsit hasonlít a k-means clusteringre, de nem ugyanaz.

Ez az eljárás először a mag körüli kis tájakat gyűjti oda majd, aztán a rizikósabb nagyobb tájak sorsa eldől magától.

Praktikusan akkor jó az osztályozás, ha a képzett csoportok:

  • elég nagyok (terület), hogy kerüljön majd beléjük kellő mennyiségű FNM-mintapont, amivel stabil regressziós modelleket lehet szerkeszteni;
  • az átlagaiknak elég távolnak kell lenniük, hogy a csoportok elváljanak egymástól (szerintem legalább ftk=2 m3/ha/év különbség, az már 1-2 fatermési osztályt jelent a hagyományos, egyenletes osztásközű fatermési tábláknál).

Az osztályozás jóságát a csoportokon belüli és a csoportok közötti variancia viszonyával lehet mérni. Minél nagyobb a csoportok közti variancia, annál szeparáltabbak a csoportok. Minél kisebb ez a szám, annál inkább összemosódnak a csoportok. A csoportok közti variancia általában a sokaság teljes varianciájának 25-30%-át adta: kb. ennyit javít az osztályozás a későbbi eredmények pontosságán [ez nem pont jó kifejezés].

1

KST

Csoportok közti variancia: 34,1%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

13

10,230

145 516,7

42 313,45

 

 

Node 2

45

8,436

201 616,3

27 907,25

 

 

Node 3

34

6,402

133 491,9

50 508,66

 

 

Megj: a középső csoportot el lehet hagyni, az a legkisebb területű.

 

 

 

 

 

 

 

 

 

Csoportok közti variancia: 27,2%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

36

9,660

282 358,5

71 427,54

 

 

Node 2

56

7,053

248 435,9

49 374,12

 

 

Megj: a 3-as besorolás középső csoportjának elhagyásával.

 

 

 

 

 

 

 

2

KTTm

Csoportok közti variancia: 33,2%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

38

13,403

150 906,6

33 185,53

 

 

Node 2

54

10,156

342 599,6

62 321,94

 

 

Megj: 3-as csoportosításnál a leggyengébb csoport (átlag = 7,986) nagyon kis területet adott (2400 ha).

 

 

 

 

 

 

 

3

KTTs

Csoportok közti variancia: 28,6%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

33

11,814

80 576,0

15 697,88

 

 

Node 2

59

8,346

308 169,1

74 425,38

 

 

Megj: 3 csoportnál a legjobb (átlag = 13,568) nagyon kis területet adott (4800 ha).

 

 

 

 

 

 

 

5

CSm

Csoportok közti variancia: 35,8%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

36

9,599

63 110,1

34 913,51

 

 

Node 2

55

7,394

138 664,7

68 444,55

 

 

Megj: 3 csoportnál nem volt túl nagy különbség a két rosszabb közt (8,866 - 7,226).

 

 

 

 

 

 

 

6

CSs

Csoportok közti variancia: 26,7%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

34

7,872

30 849,7

12 740,66

 

 

Node 2

40

5,587

112 182,3

45 545,19

 

 

Megj: Nem érdemes harmadik csoportot csinálni, csak 1000 ha tervezett terület jutna a legjobbak közé.

 

 

 

 

 

 

 

7

B

Csoportok közti variancia: 24,1%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

29

10,647

62 448,0

25 470,95

 

 

Node 2

33

8,625

167 185,1

60 070,77

 

 

 

 

 

 

 

8

GY

Csoportok közti variancia: 44,1%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

12

7,049

45 831,3

14 016,17

 

 

Node 2

44

4,674

85 626,9

33 491,86

 

 

Node 3

32

2,874

150 208,2

60 847,91

 

 

Megj: itt pont nem vártam volna, hogy érdemes 3 csoport csinálni, de szeparálódik.

 

 

 

 

 

 

 

 

 

Csoportok közti variancia: 34,8%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

34

6,042

113 372,1

29 724,89

 

 

Node 2

54

3,187

215 133,7

78 631,05

 

 

Megj: A középső csoport elhagyásával.

 

 

 

 

 

 

 

 

 

 

9

Am

Csoportok közti variancia: 21,6%

Tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

34

11,667

259 017,9

23 531,41

 

 

Node 2

58

8,221

335 232,0

33 152,08

 

 

 

 

 

 

 

10

As

Csoportok közti variancia: 27,2%

Tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

34

11,912

612 087,8

53 270,63

 

 

Node 2

58

7,993

772 835,5

92 036,27

 

 

 

 

 

 

 

13

HNY

Csoportok közti variancia: 26,0%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

21

13,374

141 061,7

12 723,11

 

 

Node 2

71

9,339

230 643,3

21 562,62

 

 

 

 

 

 

 

15

Csoportok közti variancia: 10,9%

Tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

21

9,248

76703,2

19537,74

 

 

Node 2

65

7,688

73306,9

12349,13

 

 

Megj: nem érdemes csoportokat csinálni, nincs számottevő variancia a csoportok közt (10,9%).

 

 

 

 

 

 

 

17

EF

Csoportok közti variancia: 19,1%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

22

9,465

62 360,1

38 426,23

 

 

Node 2

69

8,166

94 932,4

51 453,13

 

 

Megj: ez a leggyengébben elváló csoportosítás, kicsi a különbség a két átlag között, nem vagyok biztos benne, hogy egyáltalán érdemes-e csoportokat képezni. Nem, nem érdemes.

 

 

 

 

 

 

 

18

FF

Csoportok közti variancia: 9,7%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

43

7,618

9187,3

4091,41

 

 

Node 2

46

5,999

80431,9

36346,84

 

 

Megj: nem érdemes csoportokat csinálni, nincs számottevő variancia a csoportok közt (9,7%).

 

 

 

 

 

 

 

833

EH

Megj: a terület és a variancia fele 531-ben (Nyugat-Zselic) van. A maradék ugyan gyengébb, mint a Nyugat-Zselic, de egyenként valószínűleg kevés mintapontot adnának. Nem érdemes csoportokat képezni.

 

 

 

 

 

 

 

631

MK

Csoportok közti variancia: 22,4%

tájrészlet db

ftk átlag

variancia

terület

 

 

Node 1

47

13,711

36 412,4

5 738,48

 

 

Node 2

44

10,621

90 138,0

11 501,62

 

 

Megj: le lehetne leválasztani a jobb termőhelyeket, de összesen 17ezer ha-ról van szó, tehát kevéssé valószínű, hogy lesz a kis csoportokhoz megfelelő számú mintapont. Nem érdemes csoportokat képezni.

Czirok István kolléga szakmai tapasztalatai és az előzetes hisztogramok alapján készített egy két csoportos (jobb-gyengébb) osztályozást az Akác mag táblára. Ezt kíváncsiságból összevetettem az algoritmikus eredménnyel. 92 tájrészletből 81 esetében azonos besorolásra jutottunk. A 11 darab eltérés a teljes vizsgálati anyag (a 2005-2014 közt átvezetett erdőtervek) fafajsori területének 4,6%-a. Sikerélmény. További önbizalomra ad okot.

Térképeken ábrázoltuk (Magyar Zsolt tette) a kialakult csoportosítást, és meglepően egybefüggő tömböket adott, és ami ki is válik a tömbökből, az indokolhatóan válik ki (pl. az árterek). Azt hittem, sokkal mozaikosabb lesz.

ftk-terkep_09_am_800_1.jpg

Szerintem többször az van, hogy amikor egy általában jó termőhelyekben gazdag tájon egy fafaj/fafajcsoport gyengébb eredményeket ad, ott általában a konkrétan jó részletekben az értékesebb fafajok vannak, és csak a gyengébb részletekben a betelepített faj (akác esetében volt ez a benyomásom).

komment

süti beállítások módosítása