Kort fortalt

Sommerfugl ID kombinerer en billedklassifikator med en geografisk og tidsmæssig statistik. Modellen ser på dit billede og ranglister hvor sandsynligt det er hver af de danske arter. Bagefter ganger vi den vurdering med hvor ofte arten historisk er observeret i den kommune på den tid af året. De to signaler samlet giver et meget mere robust svar end nogen af delene alene.

Vi har to modeller — én for dagsommerfugle og én for målere. Du vælger på forsiden hvad du vil identificere. Begge modeller bruger samme pipeline: billede → klassifikator → Bayes-prior baseret på kommune og måned.

Dagsommerfugle-modellen

74 danske dagaktive arter dækket — alle hjemmehørende takvinger, blåfugle, hvidvinger og bredpander
Trænet på ~65.000 CC0/CC-BY voksen-feltbilleder fra iNaturalist (filtreret på Life Stage-annotationer, så larver og puppe-stadier holdes ude)
EfficientNet-V2-M finetuned fra ImageNet, 60 epochs ved 480×480 px med MixUp + CutMix augmentation
Prior bygget på ~104.000 observationer fra naturbasen.dk

Top-1 nøjagtighed97,8 %

Top-5 nøjagtighed99,7 %

Top-1 med kommune + dato~98-99 %

Måler-modellen

252 danske målerarter — den største nataktive sommerfuglefamilie i Danmark
Trænet på ~86.000 CC0/CC-BY feltbilleder fra GBIF og iNaturalist
EfficientNet-V2-M finetuned fra ImageNet, 80 epochs ved 384×384 px med MixUp + CutMix augmentation
Prior bygget på ~73.000 observationer fra naturbasen.dk
Mange målere er svære at adskille selv for eksperter — top-5 er det vigtige tal

Top-1 nøjagtighed95,6 %

Top-5 nøjagtighed99,1 %

Top-1 med kommune + dato~96-98 %

1. Modellerne

Hjertet er en EfficientNet-V2-M CNN (~54M parametre) — oprindeligt trænet på ImageNet og finjusteret på licenserede feltbilleder. Begge modeller bruger samme arkitektur, men dagsommerfugle-modellen trænes ved 480×480 px for maksimal detalje på vingemønstre, mens måler-modellen trænes ved 384×384 pxfordi datasættet er større og inferenstiden skal holdes nede.

Begge modeller bruger MixUp + CutMix augmentation, label smoothing, og bf16 autocast. Vi har bevidst ikkebrugt naturbasen.dk's egne billeder til træning, da de ikke er licenseret til offentlig brug. Naturbasen-data bruges udelukkende til prior-trin 2 (rene observationsfakta — ikke ophavsretsbeskyttede).

EfficientNet-V2 blev valgt fordi den er hurtig på CPU (~600-900 ms pr. billede for dagsommerfugle ved 480 px, ~400-600 ms for målere ved 384 px), har god induktiv bias for tekstur (præcis hvad der adskiller fx forskellige blåfuglearter eller cryptiske Eupithecia-målere — antal og placering af pletter, små stregbånd), og er parameter-effektiv sammenlignet med større modeller.

2. Prioren — geografi og dato

Både dagsommerfugle og målere har stærk fænologi og habitatsbinding. Bølleblåfugl flyver typisk i jyske moser i juni. Dukatsommerfugl er knyttet til kalkpåvirkede enge og topper sent på sommeren. Stor frostmåler flyver kun fra oktober til december. Vi udnytter den viden ved at beregne en empirisk prior baseret på historiske observationer fra naturbasen.dk:

P(art | kommune, måned) — "hvor ofte er den her art observeret i den her kommune i den her måned, blandt alle observationer der opfylder kriterierne?"

Hvis der ikke er nok data for kommune+måned, falder vi tilbage til region+måned, så bare måned, så hele Danmark som sidste udvej. Smoothing (Laplace, α=0,5) sikrer at sjældne arter ikke får nul vægt.

3. Bayes-kombinationen

Vi kombinerer modellens output og prioren i log-rummet:

log P(final) ∝ log P(billede) + w · log P(prior)

Sliderens vægt w styrer balancen: 0 = kun billede, 1 = klassisk Bayes (lige vægt), 3 = stort set kun statistik. Standardværdien er 1. I praksis giver kombinationen et effektivt top-1 hit-rate på ~98-99 % for dagsommerfugle og ~96-98 % for målere.

4. Hvorfor top-5 og ikke top-1?

Top-1 er det rigtige svar i 95-96 % af tilfældene, men resten af tiden snubler modellen — typisk over arter der ligner hinanden så meget, at selv en erfaren entomolog ville tøve. Top-5betyder "det rigtige svar er én af disse fem". Det rammer over 99 % for begge modeller. For en feltidentifikation er det det praktiske tal: du får en kort liste, og du kan bekræfte ved at sammenligne med fotos på naturbasen.dk.

5. Hvad sker der ikke?

Når du trykker "Identificér" sker følgende ikke:

Dit billede gemmes ikke — det forlader ikke vores server efter inferensen
Vi gemmer ikke din IP-adresse, browser eller andet identificerende
Vi sender ikke noget til tredjeparter (ingen Google Vision, ingen Cloud AI)

Vi logger et anonymt datapunkt med dato, kommune og hvilken art der vandt — så vi kan vise tælleren på forsiden og indsendelses-feed'et. Se privatlivspolitikken for detaljer.

Prøv det selv →