Qu'est-ce que la variance de biais dans l'apprentissage automatique?

Cet article couvre le concept de biais et de variance dans l'apprentissage automatique avec une relation entre eux déterminant la précision prédictive du modèle.

Dans , les performances d'un modèle sont basées sur ses prédictions et sur la façon dont il se généralise à des données indépendantes et invisibles. Une façon de mesurer la précision d’un modèle consiste à tenir compte du biais et de la variance du modèle. Dans cet article, nous allons apprendre comment le biais-variance joue un rôle important dans la détermination de l'authenticité du modèle. Les sujets suivants sont abordés dans cet article:



Erreur irréductible

Tout modèle dans est évaluée en fonction de l'erreur de prédiction sur un nouvel ensemble de données indépendant et invisible. L'erreur n'est rien d'autre que la différence entre la sortie réelle et la sortie prévue. Pour calculer l'erreur, nous faisons la somme des erreurs réductibles et irréductibles, c'est-à-dire une décomposition de biais-variance.



L'erreur irréversible n'est rien d'autre que ces erreurs qui ne peuvent être réduites indépendamment de tout que vous utilisez dans le modèle. Elle est causée par des variables inhabituelles qui ont une influence directe sur la variable de sortie. Ainsi, pour rendre votre modèle efficace, nous nous retrouvons avec l'erreur réductible que nous devons optimiser à tout prix.

Une erreur réductible a deux composants - Biais et variance , la présence de biais et de variance influence la précision du modèle de plusieurs manières, comme sur-ajustement, sous-ajustement , etc. Examinons le biais et la variance pour comprendre comment gérer l'erreur réductible dans .



Qu'est-ce que le biais dans l'apprentissage automatique?

Le biais est essentiellement la distance que nous avons prédit la valeur par rapport à la valeur réelle. Nous disons que le biais est trop élevé si les prévisions moyennes sont éloignées des valeurs réelles.

Un biais élevé amènera l'algorithme à manquer un modèle dominant ou une relation entre les variables d'entrée et de sortie. Lorsque le biais est trop élevé, on suppose que le modèle est assez simple et ne comprend pas la complexité de l'ensemble de données pour déterminer la relation et donc, provoquant un sous-ajustement.

Variance dans un modèle d'apprentissage automatique?

Sur un ensemble de données indépendant et invisible ou un ensemble de validation. Lorsqu'un modèle ne fonctionne pas aussi bien qu'avec l'ensemble de données formé, il est possible que le modèle présente une variance. Il indique essentiellement à quel point les valeurs prédites sont dispersées à partir des valeurs réelles.



Une variance élevée dans un ensemble de données signifie que le modèle s'est entraîné avec beaucoup de bruit et des données non pertinentes. Provoquant ainsi un surajustement dans le modèle. Lorsqu'un modèle a une variance élevée, il devient très flexible et fait de mauvaises prédictions pour les nouveaux points de données. Parce qu'il s'est réglé sur les points de données de l'ensemble d'apprentissage.

Essayons également de comprendre mathématiquement le concept de biais-variance. Soit la variable que nous prédisons être Y et les autres variables indépendantes X. Supposons maintenant qu'il existe une relation entre les deux variables telle que:

Y = f (X) + e

Dans l'équation ci-dessus, ici est est l'erreur estimée avec une valeur moyenne de 0. Lorsque nous créons un classificateur à l'aide d'algorithmes comme régression linéaire , , etc., l'erreur quadratique attendue au point x sera:

err (x) = biais2+ Variance + erreur irréductible

apprentissage profond vs apprentissage automatique vs reconnaissance de formes

Comprenons également comment le biais-variance affectera un Apprentissage automatique les performances du modèle.

didacticiel Microsoft SQL pour les débutants

Comment cela affecte-t-il le modèle d'apprentissage automatique?

Nous pouvons classer la relation entre biais-variance dans quatre catégories énumérées ci-dessous:

  1. Variance élevée-biais élevé - Le modèle est incohérent et également inexact en moyenne
  2. Variance faible - biais élevé - Les modèles sont cohérents mais faibles en moyenne
  3. Variance élevée - biais faible - Un peu précis mais incohérent en moyenne
  4. Variance faible - biais faible - C'est le scénario idéal, le modèle est cohérent et précis en moyenne.

biais-variance dans l

Bien que la détection du biais et de la variance dans un modèle soit assez évidente. Un modèle avec une variance élevée aura une erreur d'apprentissage faible et une erreur de validation élevée. Et dans le cas d'un biais élevé, le modèle aura une erreur d'entraînement élevée et l'erreur de validation est la même que l'erreur d'apprentissage.

Si la détection semble facile, la vraie tâche est de la réduire au minimum. Dans ce cas, nous pouvons faire ce qui suit:

  • Ajouter plus de fonctionnalités d'entrée
  • Plus de complexité en introduisant des caractéristiques polynomiales
  • Diminuer le terme de régularisation
  • Obtenir plus de données d'entraînement

Maintenant que nous savons ce qu'est le biais et la variance et comment cela affecte notre modèle, examinons un compromis biais-variance.

Compromis biais-variance

Trouver le bon équilibre entre le biais et la variance du modèle s'appelle le compromis biais-variance. C'est essentiellement un moyen de s'assurer que le modèle n'est ni sur-ajusté ni sous-ajusté dans tous les cas.

Si le modèle est trop simple et comporte très peu de paramètres, il souffrira d'un biais élevé et d'une faible variance. En revanche, si le modèle a un grand nombre de paramètres, il aura une variance élevée et un biais faible. Ce compromis devrait aboutir à une relation parfaitement équilibrée entre les deux. Idéalement, un biais faible et une faible variance sont la cible de tout modèle d'apprentissage automatique.

Erreur totale

Dans tout modèle d'apprentissage automatique, un bon équilibre entre le biais et la variance sert de scénario parfait en termes de précision prédictive et d'éviter le surajustement, le sous-ajustement total. Un équilibre optimal entre le biais et la variance, en termes de complexité de l'algorithme, garantira que le modèle n'est jamais surajusté ou sous-ajusté du tout.

L'erreur quadratique moyenne dans un modèle statistique est considérée comme la somme du carré du biais et de la variance et de la variance de l'erreur. Tout cela peut être placé dans une erreur totale où nous avons un biais, une variance et une erreur irréductible dans un modèle.

Comprenons comment nous pouvons réduire l'erreur totale à l'aide d'une mise en œuvre pratique.

Nous avons créé un classificateur de régression linéaire dans le Régression linéaire dans l'apprentissage automatique article sur Edureka utilisant l'ensemble de données sur le diabète dans le module des ensembles de données de scikit apprendre bibliothèque.

java qu'est-ce qu'un scanner

Lorsque nous avons évalué l'erreur quadratique moyenne du classificateur, nous avons obtenu une erreur totale d'environ 2500.

Pour réduire l'erreur totale, nous avons fourni plus de données au classificateur et, en retour, l'erreur quadratique moyenne a été réduite à 2000.

Il s'agit d'une implémentation simple de réduction de l'erreur totale en fournissant plus de données d'entraînement au modèle. De même, nous pouvons appliquer d'autres techniques pour réduire l'erreur et maintenir un équilibre entre biais et variance pour un modèle d'apprentissage automatique efficace.

Cela nous amène à la fin de cet article où nous avons appris Bias-Variance en Machine Learning avec sa mise en œuvre et son cas d'utilisation. J'espère que vous êtes clair avec tout ce qui a été partagé avec vous dans ce tutoriel.

Si vous avez trouvé cet article sur 'Bias-Variance in Machine Learning' pertinent, consultez le une entreprise de formation en ligne de confiance avec un réseau de plus de 250 000 apprenants satisfaits répartis dans le monde entier.

Nous sommes là pour vous aider à chaque étape de votre voyage et proposer un programme conçu pour les étudiants et les professionnels qui souhaitent devenir . Le cours est conçu pour vous donner une longueur d'avance dans la programmation Python et vous former aux concepts Python de base et avancés ainsi que divers comme , , etc.

Si vous rencontrez des questions, n'hésitez pas à poser toutes vos questions dans la section commentaires de «Bias-Variance In Machine Learning» et notre équipe se fera un plaisir de vous répondre.