Satellite embeddings × SDMs

Les équipes de Google DeepMind ont annoncé récemment la sortie d’un jeu de données d’observation de la Terre novateur, issu de l’assimilation d’une variété de données satellitaires de différents capteurs au sein d’un modèle de fondation. Sans entrer dans les détails (un post sur Medium1 et la documentation technique2 le font très bien), ce jeu de données, baptisé « Satellite Embedding », compresse l’information spectrale et radar d’une année entière d’observations en un vecteur à 64 dimensions, livré à 10 mètres de résolution. Autrement dit : chaque pixel de 10 × 10 m contient 64 valeurs qui résument tout ce qui a été observé par les satellites sur une année donnée.

Fig.1 : Représentation schématique animée de processus d’embedding des données d’observation de la Terre par satellite (source)

Ce qui est rigolo, c’est qu’on n’a aucun a priori sur ce que peut représenter chacune de ces dimensions dans le monde physique, contrairement, par exemple, à la bande 2 de Sentinel-2, d’une longueur d’onde de 490 nm et liée au spectre d’absorption de la chlorophylle, ou à la rétrodiffusion radar de Sentinel-1, sensible à l’angle de la pente des reliefs. Pire encore, on ne sait pas comment l’information temporelle est encodée : est-ce que la date d’une augmentation du NDVI, que l’on sait reliée à la croissance d’un couvert végétal, sera portée par une ou plusieurs composantes du vecteur ?

Le jeu satellite embeddings agrège donc une année d’observations multi-capteurs (optique + radar) en vecteurs latents ; on n’interprète pas chaque dimension physiquement, mais ces représentations condensent des motifs multi-sources et multi-temporels du couvert observé (structure, textures, phénologie, mosaïques d’occupation des sols) à la résolution des données d’entrée. Elles sont ainsi de bons proxies de l’état actuel du paysage, sans garantir qu’une dimension unique corresponde à un processus écologique précis.

Dans tous les cas, on sait que ce jeu de données contient une quantité phénoménale d’information, à une résolution très intéressante pour bon nombre d’applications.

Pourquoi cette note ?

Une des applications que j’aimerais explorer, c’est la cartographie d’espèces végétales. Et dans ce post, c’est justement une exploration rapide de cette idée que je présente.

Assez classiquement, la cartographie d’espèces passe par des approches de modélisation. Pourquoi modéliser ? Parce qu’il est difficile d’échantillonner l’espace assez finement pour dessiner des cartes « à la main ». On s’appuie donc sur des variables environnementales, généralement bien décrites et disponibles à bonne résolution spatiale et temporelle, pour estimer la probabilité de présence d’une espèce donnée. On peut pour cela mobiliser les paramètres écologiques/édaphiques de l’espèce (par ex. intervalles de température, pluviométrie annuelle, types de sols préférentiels, pente, altitude, etc.) afin d’identifier où l’espèce peut survivre et prospérer. C’est l’approche utilisée notamment par EcoCrop (FAO)3, centré en partie sur des espèces d’intérêt agronomique.

Quand ces paramètres sont mal connus ou incomplets, on peut adopter une approche fondée sur les données : on utilise des relevés botaniques qui indiquent la présence (l’absence étant, par définition, plus délicate à établir) à un endroit donné, on associe ces positions aux covariables au même endroit, puis on calibre des modèles de distribution d’espèces (Species Distribution Models, SDMs) pour extrapoler la probabilité de présence ailleurs. Il existe plusieurs modèles ; l’un des plus populaires est MaxEnt (pour « Maximum Entropy », le principe mathématique sur lequel il repose).

Pourquoi ce détour ? Parce que si l’on peut utiliser des variables environnementales spatialisées dans des SDMs pour estimer la répartition d’une espèce, il n’y a aucune raison de ne pas essayer un produit comme les Satellite Embeddings, qui résument une quantité considérable d’information observable depuis l’espace.

Distinction importante : alors que l’utilisation de variables environnementales permet surtout de définir où l’espèce pourrait se trouver (aire de répartition potentielle), les satellite embeddings pourraient, en principe, aider à répondre à où l’espèce se trouve aujourd’hui, car ils proviennent en grande partie d’observations directes du couvert végétal (signal « actuel »).

Je présente donc ci-après quelques essais rapides utilisant les satellite embeddings comme covariables dans un SDM MaxEnt, pour prédire la probabilité d’occurrence de quelques espèces végétales en Martinique.

Données et méthodes

Je commence par récupérer les satellite embeddings. Pour défricher rapidement, j’en fais l’extraction en GeoTIFF depuis Google Earth Engine, à une résolution dégradée à 100 m (agrégation par moyenne).

Fig. 2 : Composite trois couleurs des trois premières dimensions des satellite embeddings pour la Martinique (100 m). La discrimination des occupations de sol est déjà très visible — on dirait un minéral sous filtre polarisant ?

Trois espèces m’intéressent ici : l’arbre à pain (Artocarpus altilis) et le cocotier (Cocos nucifera) — parce que différences d’étagements, parce que des collègues s’y intéressent, et parce qu’on dispose d’un nombre d’observations important (n=341 et n=181 respectivement) — ainsi que la fleur boule montagne (Lobelia conglobata), endémique stricte de la Martinique, pour laquelle les observations sont bien moindres (n=64) et sur un étagement bien plus élevé.

Pour entraîner un SDM MaxEnt4, il faut des présences. Je lance donc des requêtes sur GBIF5 et iNaturalist6. Face aux 64 dimensions du jeu Satellite Embeddings (satemb), ce volume paraît suffisant pour une première exploration en limitant le risque de mal-conditionnement.

Avec un peu de Python (et un soupçon de magie noire), je prépare les fichiers d’entrée du SDM : les variables satemb, mais aussi des variables environnementales (env) — Tmin/Tmax/Tmoy annuelles (interpolation Météo-France 2023), pluie annuelle (stations DIREN + Météo-France, 7), altitude, pente, aspect, rugosité dérivées du SRTM/Copernicus 30 m, sur même zone d’étude, même grille 100 m et masque terrestre pour tous les rasters. J’entraîne ensuite MaxEnt v3.4.4 sur trois jeux de covariables : satemb, env et satemb+env, avec une validation croisée en cinq plis ; les chiffres reportés sont des moyennes ± écart-types de ces 5 plis.

L’ensemble des scripts et données pour répliquer l’analyse (et en lancer d’autres) est mis à disposition sur Zenodo : 10.5281/zenodo.16994138.

Résultats

Pour l’arbre à pain (A. altilis, Fig. 3), le modèle fondé sur les satellite embeddings seuls obtient l’AUC la plus élevée (0,833 ± 0,029), devant le modèle env (0,661 ± 0,044), soit un écart absolu de +0,172. Le modèle mixte est à 0,803 ± 0,055, donc en dessous de satemb. À grille identique (100 m) pour tous les prédicteurs, ces résultats suggèrent que les indices satellitaires condensés par les embeddings discriminent mieux les présences du fond que les seules variables abiotiques utilisées embarquées dans le modèle env. L’ajout des variables environnementales n’apporte pas de gain mesurable dans ce cas (probable redondance d’information + complexité accrue).

Pour le cocotier (C. nucifera, Fig. 4), l’écart entre satemb et env est plus faible que chez l’arbre à pain : 0,833 ± 0,036 contre 0,767 ± 0,045, soit +0,066 d’AUC pour satemb. Le mixte atteint 0,809 ± 0,045, intermédiaire entre les deux. Ici, les variables abiotiques (p. ex. altitude, pluie) portent déjà une part substantielle du signal, et les embeddings ajoutent un surcroît d’information sans toutefois dépasser nettement la combinaison.

Pour L. conglobata (Fig. 5, espèce localisée en altitude en Martinique), les deux approches sont très performantes et la combinaison progresse encore : satemb 0,907 ± 0,015, env 0,906 ± 0,059, et mixte 0,933 ± 0,046 (soit +0,026 vs satemb). Lecture possible : l’enveloppe abiotique (altitude, exposition, humidité) cadre déjà bien la niche, et les embeddings ajoutent des indices d’occupation actuelle du paysage (structure de canopée, mosaïques agri-urbaines, phénologie), d’où un gain quand on les combine. A noter cependant un nombre d’observations retenues par le modèle (neff) particulièrement réduit, lié au regroupement des occurrences d’un même pixel, ce qui invite à considérer ces résultats avec prudence.

satembenvsatemb+env
A. altilis (neff = 168)0,833 (± 0,029)0,661 (± 0,044)0,803 (± 0,055)
C. nucifera (neff = 78)0,833 (± 0,036)0,767 (± 0,045)0,809(± 0,045)
L. conglobata (neff = 31)0,907 (± 0,015)0,906 (± 0,059)0,933 (± 0,046)
Tab. 1 : Valeur moyenne de l’AUC pour la courbe ROC sur le set de test après 5 plis. neff : nombre effectif de présences après regroupement 1 point / pixel.

En lecture conceptuelle, l’approche env définit une enveloppe abiotique (où l’espèce pourrait vivre), tandis que l’approche satemb fournit des indices d’occupation actuelle (où le paysage ressemble aujourd’hui aux sites observés), complémentarité visible en Fig. 3–4 ; le modèle mixte (env+satemb) approxime l’intersection de ces deux informations — conditions favorables ET indices compatiblessans pour autant conclure à une « présence certaine ». Pour l’exploiter, on peut envisager de croiser les deux surfaces après choix d’un seuil validé en CV (p. ex. 10è centile des présences) et l’on cartographie trois classes : Potentiel ? Présent (cœur réalisé), Potentiel \ Présent (réservoir latent) et Présent \ Potentiel (hors enveloppe) ; l’intérêt est alors bien de lire les modèles ensemble plutôt que d’interpréter chaque carte isolément.

Limites et discussion

Cette approche exploratoire souffre néanmoins d’un certain nombre de limites :

  • Échantillonnage des présences
    • Echatillonage participatif et biais d’accessibilité (proximité routes/bourgs) non pondéré ; pas de bias file / target-group background utilisé.
    • Pas de thinning spatial : malgré le “1 point par pixel” implicite de MaxEnt, des clusters peuvent subsister et peuvent biaiser l’ajustement.
  • Covariables et échelle
    • Embeddings : approche boîte noire ? interprétabilité limitée variable par variable ; forte colinéarité possible entre dimensions : feature engineering/PCA/UMAP pour tester si 10–15 composantes suffisent ?
    • Variables env : jeu réduit (pas de sols notamment) ; d’autres facteurs abiotiques/édaphiques non pris en compte.
    • Résolution unique 100 m choisie pour la praticité volume de données/temps de calcul : sensibilité à l’échelle (i.e. 30m natif SRTM vs 100m, etc.) non évaluée.
  • Paramétrage et protocole d’entraînement
    • Régularisation non optimisée (valeurs par défaut) ; pas de sélection parcimonieuse des prédicteurs. MaxEnt ? processus ponctuel de Poisson régularisé : régler la pénalité et les feature classes limite le sur-apprentissage, surtout avec 64 dims.
  • Cohérence temporelle
    • Présences multi-années non synchronisées avec les covariables : acceptable ici (espèces pluriannelles à pérennes), mais pour des annuelles il faudrait aligner l’année d’observation avec l’année des variables.
  • Validité et portée des résultats
    • CV spatiale en blocs (au lieu de k-fold aléatoire) pour limiter l’optimisme lié à l’autocorrélation et tester la transférabilité spatiale.
    • L’AUC (définie ici via “predicted area” au sens MaxEnt) est utile mais peut être indulgente en présence d’autocorrélation spatiale et de prévalence très faible.
    • Conclusions dépendantes de l’espèce, de la zone et de l’échelle ; transférabilité non testée.

Ces limites n’invalident pas fondamentalement les tendances observées, cependant, elles bornent la portée des résultats et indiquent les priorités d’amélioration pour une itération suivante.

Conclusion

À emprise et résolution communes (100 m), les satellite embeddings apportent un signal propre exploitable en SDM : ils suffisent à eux seuls pour distinguer les présences du fond sur deux espèces testées (A. altilis, C. nucifera), et, pour L. conglobata, la combinaison avec les variables abiotiques montre un léger mieux — à confirmer compte tenu du neff réduit et de la CV non spatiale. Le signal porté par ces représentations latentes — proxys d’observations multisources du couvert à 10 m — est donc complémentaire des gradients climato-topographiques : parfois suffisant seul, souvent utile en appui selon le profil écologique.

Méthodologiquement, ces résultats suggèrent un workflow pragmatique : (i) considérer les embeddings comme baseline forte, (ii) n’ajouter que quelques variables abiotiques non redondantes quand l’écologie l’exige, et (iii) fiabiliser par CV spatiale, régularisation et correction du biais d’échantillonnage. Au-delà de l’AUC, des indicateurs comme le Continuous Boyce Index, le partial ROC et des cartes MESS aideront à juger robustesse, calibration et extrapolation.

Enfin, parce que les embeddings sont disponibles par année, ils ouvrent des perspectives pratiques (à tester) : suivi interannuel de l’aire effectivement occupée, détection de déplacements (expansion/contraction), mise en évidence de foyers « hors enveloppe » (plantations, micro-refuges) et priorisation de prospections (zones « potentiel haut ? présent haut »). Cela plaide pour des SDM opérationnels où les embeddings jouent un rôle central, en propre ou en complément de l’abiotique.

Références

  1. Google Earth Team (2025) « AI-powered pixels: Introducing Google’s Satellite Embedding dataset » https://medium.com/google-earth/ai-powered-pixels-introducing-googles-satellite-embedding-dataset-31744c1f4650 ↩︎
  2. Google Deep Mind [internet] Satellite Embedding V1 https://developers.google.com/earth-engine/datasets/catalog/GOOGLE_SATELLITE_EMBEDDING_V1_ANNUAL?hl=fr. Accessed on 2025-8-29. ↩︎
  3. FAO. [Internet] « ECOCROP Database of Crop Constraints and Characteristics » https://gaez.fao.org/pages/ecocrop. Accessed on 2025-8-29. ↩︎
  4. Steven J. Phillips, Miroslav Dudík, Robert E. Schapire. [Internet] Maxent software for modeling species niches and distributions (Version 3.4.1). Available from url: http://biodiversityinformatics.amnh.org/open_source/maxent/. Accessed on 2025-8-29. ↩︎
  5. https://www.gbif.org ↩︎
  6. iNaturalist. Available from https://www.inaturalist.org. Accessed 2025-8-29 ↩︎
  7. Lavarenne, Jérémy, 2024, « Martinique daily interpolated rainfall, 1980-2021, obtained via ordinary kriging », https://doi.org/10.18167/DVN1/KJEA4Q, CIRAD Dataverse, V1 ↩︎

Un weekend à la Martinique

Martinique-Thumb

Hello!

Au sein d’un seul et même ensemble d’îles que constitue la Guadeloupe, il est facile de ressentir à quel point la Grande Terre, la Basse Terre, Marie Galante, la Désirade et les Saintes possèdent chacune leur caractère propre, et entretiennent une certaine diversité des paysages et des climats. Et y pensant, et considérant la taille somme toute limitée de l’archipel, on ne peut qu’imaginer le foisonnement de reliefs, de rivages, de lumières et de couleurs qu’il est possible de rencontrer tout au long de l’arc antillais.

« Ca tombe bien, les îles ne sont séparées les unes des autres que d’une cinquantaine de kilomètres! », pourrait-on penser. Sauf qu’à moins de louer un pédalo, les transports inter-îles sont invariablement chers – ou plutôt surtaxés, pour être exact : grand minimum 90 Euros pour une traversée en ferry (effectué qui plus est par une compagnie détenant le monopole), 100 Euros pour un trajet en avion.

Qu’à cela ne tienne, j’ai cassé ma tirelire pour aller retrouver Alexia le temps d’un weekend en Martinique, durant lequel nous aurons profité de la baignade aux Trois-Ilets, d’une jolie randonnée dans la réserve de la presqu’île de la Caravelle, et d’une observation des pontes de tortues luth à Sainte-Marie ! Comme d’hab, je vous met quelques photos avec ça.

Sinon, nous avons réservé nos billets pour passer le weekend du 15 août à la Dominique ! En espérant que le changement effectif de pays fera également changer l’ambiance, pas si dépaysante que ça à l’heure actuelle, la Gwada et la Madinina restant des territoires bien français!

A la prochaine!

Martinique-1

Les nuages s’agrègent sur la Basse Terre

Martinique-2

Les nuages s’agrègent sur la Basse Terre

Survol de la Basse-Terre

Martinique-3

La décoration des ATR de Air Antilles Express

Martinique-4

Pas très loin de Schoelcher

Martinique-5

La cathédrale de Fort-de-France

Traversée de la baie

Martinique-6

Traversée de la baie

Un vieux gréement

Martinique-7

Traversée de la baie

Martinique-8

A Trois-Ilets

Martinique-9

La baie du Trésor, presqu’île de la Caravelle

Martinique-10

Presqu’île de la Caravelle

Martinique-11

Le phare, presqu’île de la Caravelle

Guadeloupe, semaine 6

Guadeloupe-S6

Hello!

Déjà un mois et demi ici, et il aura fallu que je compte les numéros des semaines pour m’en rendre compte. Entre la prise de marques, le travail de bibliographie et la mise en place des premiers essais, les journées sont bien remplies et s’enchaînent sans que l’on s’en aperçoive. Toujours pas d’Internet sur place en dehors du bureau et du bâtiment Guest, qui s’avère être plutôt bien exposé aux précipitations de ces dernières semaines. Les soirées s’articulent donc généralement autour d’un triptyque apéro-repas-vidéo et ne durent jamais tard, la plupart d’entre nous s’étant calés sur un rythme solaire et se levant tôt.

On trouve toujours à s’occuper le weekend, et en partageant les voitures il y a de la place pour partir en groupe découvrir les coins sympa de l’île. Ces dernières semaines, nous avons été nous promener sur le littoral des alentours de Trois Rivières, apprécié des indiens caraïbe, colons et planteurs, comme en témoignent pétroglyphes, artéfacts militaires et vestiges d’exploitation sucrière. La semaine suivante, nous avons pris de l’altitude et randonné tout au long des deux boucles de la trace de Sofaïa, un sentier boueux, glissant et pour tout dire infâme, d’une distance et d’un dénivelé annoncés de 700 m et 15 km. L’intérêt? Il traverse la forêt primaire, et y’a des chutes sympa et une douche d’eau soufrée pas loin. A part ça je vois pas et en plus j’ai de gros doutes quant aux chiffres présentés. Le weekend dernier, nous l’avons joué plus cool et loué des bateaux au port de Morne Rouge pour prendre la mer au sein de Grand Cul-de-Sac marin, une grande baie fermée par la barrière de corail, incluse dans le territoire du parc national de la Guadeloupe. Nous y avons navigué d’ilet en ilet (ilet Blanc, ilet de Carénage, ilet Caret, caille de la Biche, pour ce qui est du trajet), plongé en récif et en épave et, d’une manière globale, glandouillé toute la journée. Et le lendemain, nous avons accompagné Johan au spot de parapente en vol dynamique du Moule, sous la houle (wouah c’te rime).

Il y a 15 jours, j’ai aussi été passer un weekend chez Alexia, en Martinique. En dépit d’un vol somptueux en ATR 72 (je ne pensais pas qu’un turbopropulseur pouvait pousser aussi fort qu’un turboréacteur au décollage) longeant la Basse Terre et survolant les Saintes et la Dominique, d’une arrivée sous un soleil et une chaleur qui a tranché avec les intempéries en Guadeloupe, et d’un accueil sympa de la part d’un martiniquais qui m’a auto-stoppé reggae à fond jusqu’à Fort-de-France, nous nous sommes pris la pluie tout le weekend. Comme si ça ne suffisait pas, une crasse de la part d’une agence de location de voitures nous a définitivement flingué de weekend en nous empêchant de sortir découvrir l’île le dimanche… La vengeance étant un plat qui se mange froid, c’est pour cela que j’ai pris mes dispositions en termes de location pour le weekend prolongé à venir, afin d’aller vadrouiller dans la Guadeloupe avec Alexia, qui viendra me rendre visite pour une bonne partie de la semaine.

Dans le même ordre d’idée de passage d’île en île, avec Alex nous aimerions bien partir découvrir la Dominique, l’île séparant la Guadeloupe de la Martinique. Dépendante du Commonwealth, elle semble appréciée par le mouvement rastafari, et est présentée comme encore à l’état sauvage. Sa devise est d’ailleurs « Après le bon Dieu, la terre », et son slogan « the nature island ». Au vu de la littérature, le voyage une fois sur place semble sûr en bus ou en stop, et le bivouac en carbet facile. A l’heure actuelle, nous avons pris contact avec un couchsurfer local, chez qui nous pourrions faire étape à l’occasion d’un éventuel tour de l’île ! D’autres îles nous sont également accessibles : Sainte Lucie et Saint Vincent et les Grenadines au départ de la Martinique, Montserrat, Antigua et Barbuda, et Saint Kitts et Nevis au départ de la Guadeloupe ! Malheureusement, au delà des questions de budget, le souci principal est d’ordre temporel. Les ferrys ne partent pas quotidiennement, les trajets sont longs, et la synchronisation Guadeloupe/Martinique compliquée, ce qui rend difficile des séjours sur les weekends. Pas dramatique, il y a déjà de quoi faire sur place, entre la Guadeloupe, la Dominique et la Martinique 🙂

A part les projets de vadrouille, ici niveau labo et logement, c’est un peu l’aventure au quotidien. Avec les grosses précipitations liées au passage précoce d’ondes tropicales, les bâtiments prennent facilement l’eau, et le toit du labo a dû être bâché. Ces derniers jours, l’eau courante a été coupée, une panne de réseau ironique quand on considère la quantité de flotte tombée pendant 15 jours, et le retour en grande pompe de la chaleur et du beau temps. C’est amusant de se rendre compte à quel point notre mode de vie dépend de l’alimentation en eau courante, et de prendre conscience des quantités consommées. Du coup, on a fonctionné au système D en réquisitionnant des bombonnes d’eau de boisson, et en en remplissant d’autres à partir d’une tonne à eau mise à disposition par les techniciens de la station.

A ce propos, j’ai jusque là une très bonne image des Guadeloupéens, toujours ouverts et souriants. Les gens de la station expérimentale insistent généralement pour que l’on se tutoie. Les collègues laborantins sont toujours disponibles et agréables, de même que les techniciens agricoles, quoiqu’un peu plus taquins ! En dehors, les vendeurs du marché de Petit-Bourg sont généralement commerçants, et la bouchère de l’élevage d’en dessous est très agréable. Une anecdote : à la suite de la rando à Sofaïa, nous nous sommes posés sur la place de Sainte Rose, histoire de boire un coup et respirer. Nous y avons été abordés par un local, qui nous a tapé la discussion et a fini par inviter notre groupe de 5 marcheurs chez lui. Nous y avons été accueilli par sa femme et ses enfants, ti punch, acras, boudins et épices inclus, et avons fini par y rester toute la soirée ! Alors, les questions de racisme anti-blanc, jusque là y’en a pas, et c’est tant mieux !

 Hop, c’est tout! Prenez soin de vous!

Guadeloupe-S6-01

Le littoral de Trois Rivières, et les Saintes en arrière-plan

Guadeloupe-S6-02

Un vieux canon rouillé d’avant la Révolution

Guadeloupe-S6-03

Ruines d’un moulin à sucre

Guadeloupe-S6-04

Plage de sable volcanique

Guadeloupe-S6-05

Plage de sable volcanique

Guadeloupe-S6-06

Plage de sable volcanique (et mes pieds)

Guadeloupe-S6-07

A poil dans la forêt (primaire)

Guadeloupe-S6-08

Quelques racines bizarres

Guadeloupe-S6-09

De la boue (et encore mes pieds)

Guadeloupe-S6-10

La chute d’eau qui récompense toute la souffrance endurée dans la journée (même si on pouvait y aller par la petite boucle de rien du tout)

Guadeloupe-S6-11

Ilet Blanc

Guadeloupe-S6-12

Ilet Blanc

Guadeloupe-S6-13

Oh mon bateauuuhohohooo

Guadeloupe-S6-14

Top speed : 5 knots

Guadeloupe-S6-14-2

Call me Haddock !

Guadeloupe-S6-15

Bonus

Guadeloupe-S6-16

La Biche, et son bouiboui les pieds dans l’eau

Guadeloupe-S6-17

Des palétuviers

Guadeloupe-S6-18

Temps pourri sur Basse Terre

Guadeloupe-S6-19

Concours d’apnée « no limit »

Guadeloupe-S6-20

Toujours La Biche

Guadeloupe-S6-22

Jo au décollage

Guadeloupe-S6-21

Dynamique dans les embruns

Guadeloupe-S6-23

 

Guadeloupe-S6-24

Coucher de soleil sur la plage du Moule