Statistiques pour l'apprentissage automatique: guide du débutant

Cet article sur les statistiques pour l'apprentissage automatique est un guide complet sur les différents concepts de statistiques avec des exemples.

Comprendre les données et pouvoir en créer de la valeur est la compétence de la décennie. L'apprentissage automatique est l'une de ces compétences fondamentales qui aide les entreprises à y parvenir. Cependant, pour commencer, vous devez bien construire vos fondations. Donc, dans cet article, je couvrirai quelques concepts de base et vous fournirai des instructions pour commencer votre voyage dans le Machine Learning. Ainsi, dans cet article sur les statistiques pour l'apprentissage automatique, les sujets suivants seront abordés:



  1. Probabilité
  2. Statistiques
  3. Algèbre linéaire

Probabilité et statistiques pour l'apprentissage automatique:



Qu'est-ce que la probabilité?

La probabilité quantifie la probabilité qu'un événement se produise. Par exemple, si vous lancez un dé juste et non biaisé, alors la probabilité de un monter est 1/6 . Maintenant, si vous vous demandez why? Alors la réponse est assez simple!

comment définir le chemin de classe en java dans Windows 10

C'est parce qu'il y a six possibilités et toutes sont également probables (juste mourir). Par conséquent, nous pouvons ajouter 1 + 1 + 1 + 1 + 1 + 1 = 6. Mais, puisque nous nous intéressons à la événement où 1 se présente . Il y a une seule façon dont l'événement peut se produire. Donc,



Probabilité de 1 retournement = 1/6

Il en va de même pour tous les autres nombres car tous les événements sont également probables. Simple, non?

Eh bien, une définition fréquentiste de la probabilité pour cet exemple sonnerait comme - la probabilité de 1 retournement est le rapport du nombre de fois où 1 est retourné au nombre total de fois où le dé a été lancé si le dé était lancé un nombre infini fois.Comment ça peut vouloir dire quelque chose?



Rendons les choses plus intéressantes. Considérez les deux cas - vous avez lancé un dé juste 5 fois. Dans un cas, la séquence de nombres qui augmente est - [1,4,2,6,4,3]. Dans l'autre cas, nous obtenons - [2,2,2,2,2,2]. Lequel pensez-vous est le plus probable?

Les deux sont également probables. Cela semble étrange, non?

Maintenant, considérons un autre cas où les 5 rouleaux dans chaque cas sont indépendant . Ce qui veut dire qu’un lancer n’affecte pas l’autre. Dans le premier cas, lorsque 6 se présente, il n'avait aucune idée que 2 se sont présentés avant lui. Par conséquent, les 5 rouleaux sont également probables.

De même, les 2 droites dans le second cas peuvent être comprises comme une séquence d'événements indépendants. Et tous ces événements sont également probables. Dans l'ensemble, puisque nous avons les mêmes dés, la probabilité qu'un nombre particulier apparaisse dans le cas un est la même que dans le cas deux. Ensuite, dans cet article sur les statistiques pour l'apprentissage automatique, comprenons le terme Indépendance.

Indépendance

Deux événements A et B sont dits indépendants si l'occurrence de A n'affecte pas l'événement B . Par exemple, si vous lancez une pièce et lancez un dé, le résultat du dé n'a aucun effet sur le fait que la pièce montre des faces ou des queues. Aussi pour deux événements indépendants A et B , la probabilité que A et B puissent se produire ensemble . Ainsi, par exemple, si vous voulez la probabilité que la pièce montre des têtes et que la mort montre 3.

P (A et B) = P (A) * P (B)

Par conséquent P = & frac12 (probabilité que les têtes tournent) * ⅙ (probabilité que 3 se retournent) = 1/12

Dans l'exemple précédent, pour les deux cas, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Parlons maintenant des événements qui ne sont pas indépendants. Considérez le tableau suivant:

Obèse Pas obèse
Problèmes cardiaquesQuatre cinqquinze
Pas de problèmes cardiaquesdix30

Une enquête auprès de 100 personnes a été réalisée. 60 avaient des problèmes cardiaques et 40 n'en avaient pas. Sur les 60 ayant un problème cardiaque, 45 étaient obèses. Sur les 40 sans problème cardiaque, 10 étaient obèses. Si quelqu'un vous demande -

  1. Quelle est la probabilité d'avoir un problème cardiaque?
  2. Quelle est la probabilité d'avoir un problème cardiaque et de ne pas être obèse?

La réponse aux premières questions est simple - 60/100. Pour le second, ce serait 15/100. Considérons maintenant la troisième question - Une personne a été choisie au hasard. On a découvert qu'il avait une maladie cardiaque. Quelle est la probabilité qu'il soit obèse?

Maintenant, pensez aux informations qui vous sont données - On sait qu'il a une maladie cardiaque. Par conséquent, il ne peut pas être parmi les 40 qui n’ont pas de maladie cardiaque. Il n'y a que 60 options possibles (la rangée du haut du tableau). Or, parmi ces possibilités réduites, la probabilité qu'il soit obèse est de 45/60. Maintenant que vous savez ce que sont les événements indépendants, dans cet article sur les statistiques pour l'apprentissage automatique, laissez-nous comprendre les probabilités conditionnelles.

Probabilités conditionnelles

Pour comprendre les probabilités conditionnelles, continuons notre discussion avec l'exemple ci-dessus. Le statut d'obésité et le statut d'avoir souffert de problèmes cardiaques ne sont pas indépendants. Si l'obésité n'affectait pas les problèmes cardiaques, le nombre de cas obèses et non obèses pour les personnes ayant des problèmes cardiaques aurait été le même.

De plus, on nous a dit que la personne avait des problèmes cardiaques et que nous devions déterminer la probabilité qu'elle soit obèse. On dit donc que la probabilité, dans ce cas, est conditionnée par le fait qu'il a un problème cardiaque. Si la probabilité que l'événement A se produise est conditionnée à l'événement B, nous le représentons comme

P (A | B)

Maintenant, il existe un théorème qui nous aide à calculer cette probabilité conditionnelle. Cela s'appelle le Règle de Bayes .

méthode python __init__

P (A | B) = P (A et B) / P (B)

Vous pouvez vérifier ce théorème en branchant l'exemple que nous venons de discuter. Si vous avez compris jusqu'à présent, vous pouvez commencer avec ce qui suit - Naive Bayes . Il utilise des probabilités conditionnelles pour classer si un e-mail est un spam ou non. Il peut effectuer de nombreuses autres tâches de classification. Mais essentiellement, la probabilité conditionnelle est au cœur de .

Statistiques:

Les statistiques sont utilisé pour résumer et faire des inférences sur un grand nombre de points de données. En science des données et apprentissage automatique, vous rencontrerez souvent la terminologie suivante

  • Mesures de centralité
  • Distributions (surtout normales)

Mesures de centralité et mesures de spreads

Signifier:

Mean est juste un moyenne des nombres . Pour trouver la moyenne, vous devez additionner les nombres et le diviser par le nombre de nombres. Par exemple, la moyenne de [1,2,3,4,5] est 15/5 = 3.

mean-statistics-for-machine-learning

Médian:

La médiane est la élément central d'un ensemble de nombres lorsqu'ils sont disposés par ordre croissant. Par exemple, les nombres [1,2,4,3,5] sont disposés dans un ordre croissant [1,2,3,4,5]. Celui du milieu est 3. Par conséquent, la médiane est 3. Mais que faire si le nombre de nombres est pair et n'a donc pas de nombre du milieu? Dans ce cas, vous prenez la moyenne des deux nombres les plus au milieu. Pour une suite de 2n nombres dans l'ordre croissant, faites la moyenne du nième et (n + 1)enombre pour obtenir la médiane. Exemple - [1,2,3,4,5,6] a la médiane (3 + 4) / 2 = 3,5

Mode:

Le mode est simplement le numéro le plus fréquent dans un ensemble de nombres . Par exemple, le mode de [1,2,3,3,4,5,5,5] est 5.

Variance:

La variance n'est pas une mesure de centralité. Elle mesure comment vos données sont réparties autour de la moyenne . Il est quantifié comme

Xest la moyenne de N nombres. Vous prenez un point, soustrayez la moyenne, prenez le carré de cette différence. Faites ceci pour tous les nombres N et faites leur moyenne. La racine carrée de la variance est appelée écart type. Ensuite, dans cet article sur les statistiques pour l'apprentissage automatique, comprenons la distribution normale.

Distribution normale

La distribution nous aide comprendre comment nos données sont diffusées . Par exemple, dans un échantillon d'âges, nous pouvons avoir des jeunes plus que des adultes plus âgés et donc des valeurs d'âge plus petites plus que des valeurs plus élevées. Mais comment définir une distribution? Prenons l'exemple ci-dessous

L'axe des y représente la densité. Le mode de cette distribution est de 30 car c'est le pic et donc le plus fréquent. Nous pouvons également localiser la médiane. La médiane se situe au point sur l'axe des x où la moitié de la surface sous la courbe est couverte. L'aire sous toute distribution normale est 1 car la somme des probabilités de tous les événements est 1. Par exemple,

La médiane dans le cas ci-dessus est d'environ 4. Cela signifie que l'aire sous la courbe avant 4 est la même que celle après 4. Prenons un autre exemple

Nous voyons trois distributions normales. Les bleus et rouges ont la même moyenne. Le rouge a une plus grande variance. Par conséquent, il est plus étalé que le bleu. Mais comme l'aire doit être égale à 1, le pic de la courbe rouge est plus court que la courbe bleue, pour maintenir l'aire constante.

J'espère que vous avez compris les statistiques de base et les distributions normales. Maintenant, dans cet article sur les statistiques pour l'apprentissage automatique, découvrons l'algèbre linéaire.

Algèbre linéaire

L'IA moderne ne serait pas possible sans l'algèbre linéaire. Il forme le noyau de L'apprentissage en profondeur et a été utilisé même dans des algorithmes simples comme . Sans plus attendre, commençons.

Vous devez être familier avec les vecteurs. Ce sont des sortes de représentations géométriques dans l'espace. Par exemple, un vecteur [3,4] a 3 unités le long de l'axe x et 4 unités le long de l'axe y. Considérez l'image suivante -

Le vecteur d1 a 0,707 unité le long de l'axe x et 0,707 unité le long de l'axe y. Un vecteur a 1 dimension. Il a nécessairement une ampleur et une direction. Par exemple,

type de commentaires en java

L'image ci-dessus a un vecteur (4,3). Sa magnitude est de 5 et il fait 36,9 degrés avec l'axe des x.

Maintenant, qu'est-ce qu'une matrice? Matrix est un tableau multidimensionnel de nombres. À quoi sert-il? Nous verrons à l’avance. Mais tout d'abord, voyons comment il est utilisé.

Matrice

Une matrice peut avoir plusieurs dimensions. Prenons une matrice à 2 dimensions. Il comporte des lignes (m) et des colonnes (n). Par conséquent, il a m * n éléments.

Par exemple,

Cette matrice comporte 5 lignes et 5 colonnes. Appelons-le A. Par conséquent, A (2,3) est l’entrée de la deuxième ligne et de la troisième colonne qui est 8.

Maintenant que vous savez ce qu'est une matrice, examinons les différentes opérations de la matrice.

Opérations matricielles

Ajout de matrices

Deux matrices du même des dimensions peuvent être ajoutées. L'addition se produit par élément.

Multiplication scalaire

Une matrice peut être multipliée par une quantité scalaire. Une telle multiplication conduit à multiplier chaque entrée de la matrice par le scalaire. Un scalaire n'est qu'un nombre

Transposition matricielle

La transposition matricielle est simple. Pour une matrice A (m, n), soit A ’sa transposée. ensuite

A '(i, j) = A (j, i)

Par exemple,

Multiplication matricielle

C'est probablement un peu délicat que d'autres opérations. Avant de nous y plonger, définissons le produit scalaire entre deux vecteurs.

Considérons le vecteur X = [1,4,6,0] et le vecteur Y = [2,3,4,5]. Alors le produit scalaire entre X et Y est défini comme

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

Donc, c'est une multiplication et une addition par élément. Maintenant,considérons deux matrices A (m, n) et B (n, k), où m, n, k sont des dimensions et donc des entiers. Nous définissons la multiplication matricielle comme

Dans l'exemple ci-dessus, le premier élément du produit (44) est obtenu par le produit scalaire de la première ligne de la matrice de gauche avec la première colonne de la matrice de droite. De même, 72 est obtenu par le produit scalaire de la première ligne de la matrice de gauche avec la deuxième colonne de la matrice de droite.

Notez que pour la matrice de gauche, le nombre de colonnes doit être égal au nombre de lignes de la colonne de droite. Dans notre cas, le produit AB existe mais pas BA puisque m n'est pas égal à k. Pour deux matrices A (m, n) et B (n, k), le produit AB est défini et la dimension du produit est (m, k) (les dimensions les plus extérieures de (m, n), (n, k )). Mais BA n'est défini que si m = k.

Avec cela, nous arrivons à la fin de cet article sur les statistiques pour l'apprentissage automatique. J'espère que vous avez compris une partie du jargon de l'apprentissage automatique. Mais cela ne s'arrête pas là. Pour vous assurer que vous êtes prêt pour l'industrie, vous pouvez consulter les cours d'Edureka sur la science des données et l'IA. Ils peuvent être trouvés