L'AIC est définie comme
$$ \ text {AIC} = 2k - 2 \ ln (L) $$
où $ k $ désigne le nombre de paramètres et $ L $ indique la valeur maximisée de la fonction de vraisemblance.
Pour la comparaison de modèles, le modèle avec le score AIC le plus bas est préféré. Les valeurs absolues des scores AIC n'ont pas d'importance. Ces scores peuvent être négatifs ou positifs.
Dans votre exemple, le modèle avec $ \ text {AIC} = -237.847 $ est préféré au modèle avec $ \ text {AIC} = -201.928 $.
Vous devriez ne se soucient pas des valeurs absolues et du signe des scores AIC lors de la comparaison de modèles.
Une bonne référence est Sélection de modèle et inférence multimodèle: une approche pratique de la théorie de l'information (Burnham et Anderson, 2004), en particulier à la page 62 (section 2.2):
En application, on calcule l'AIC pour chacun des modèles candidats et sélectionne le modèle avec la plus petite valeur d'AIC.
ainsi qu'à la page 63:
Habituellement, AIC est positive; cependant, il peut être décalé par n'importe quelle constante additive, et certains décalages peuvent entraîner des valeurs négatives de l'AIC. [...] Ce n'est pas la taille absolue de la valeur AIC, ce sont les valeurs relatives sur l'ensemble des modèles considérés, et en particulier les différences entre les valeurs AIC, qui sont importantes.