Techniques de modélisation en Business Analytics avec R

Le blog donne une brève introduction des techniques de modélisation en Business Analytics avec R.

Différentes techniques de modélisation:

Nous pouvons diviser n'importe quel problème en processus plus petits:





Classification - est, où nous classons les données. Par exemple. maladies toutes les maladies présentent un certain comportement, et nous pouvons les classer davantage.

à quoi sert la science des données

Par exemple: les maladies réduisant l'immunité, les maladies qui donnent des maux de tête, etc.



Régression - implique de découvrir la relation entre plusieurs variables.

Par exemple: comment le poids d'un être humain est lié à sa taille.

AnomolyDétection - est essentiellement une fluctuation.



Par exemple: dans le cas de haute tension ou basse tension.

Un autre exemple pourrait inclure un comportement réglementé qui implique de conduire du côté droit ou du côté gauche en fonction du pays. L'anomolie ici est quelqu'un qui conduit de l'opposé.

Un autre exemple pourrait être une intrusion dans le réseau. Ici, un utilisateur authentifié se connecte au site Web de votre entreprise, puis si une personne non authentifiée se connecte, il s'agit d'unAn0moly.

Importance des attributs - Il donne essentiellement plusieurs attributs, tels que la taille, le poids, la température, le rythme cardiaque. Un point à noter est que tous ces attributs sont importants pour une tâche.

récursif fibonacci c ++

Par exemple: quelqu'un essaie de prédire à quelle heure une personne arrivera au bureau. Chaque attribut joue un rôle important, mais tous les attributs ne sont pas importants.

Règles d'association - En termes plus simples, il s'agit d'analyser ou de prédire le prochain comportement, où il tourne autour du moteur de recommandation.

Par exemple: une personne qui achète du pain peut également acheter du lait. Si nous analysons les comportements d'achat passés, tous les articles du panier ont une relation. Dans ce cas, il pourrait y avoir une probabilité que la personne qui achète du pain achète également du lait.

Clustering - C'est l'une des techniques les plus anciennes en statistique. En fait, on peut toujours modéliser n'importe quel problème, qu'il s'agisse de classification ou de clustering, ce qui signifie regrouper des entités similaires.

Par exemple:

1) Prenez un panier de pommes et d'oranges, dans lequel nous pouvons séparer les pommes des oranges.

2) Un cas d'utilisation important pour le clustering est la santé. Presque toutes les statistiques et analyses ont commencé avec des cas d'utilisation des soins de santé. Pour aller plus loin, il existe un terme de regroupement appelé cohortes (personnes atteintes de maladies similaires), afin qu'elles puissent être étudiées séparément des clients existants. Par exemple, si 10 personnes souffrent de fièvre et 10 autres personnes de maux de tête, nous trouverons ce qui est commun entre elles et générerons des médicaments.

Extraction de caractéristiques - La précision, la validité et l'échec de l'extraction de caractéristiques sont tout à fait pertinents. En d'autres termes, l'extraction de caractéristiques peut être qualifiée de reconnaissance de formes.

Par exemple:

Dans la recherche Google, lorsqu'un utilisateur entre un terme, il donne des résultats. Maintenant, une question importante à se poser est de savoir comment savait-il quelle page est pertinente et non pertinente pour le terme? Cela peut être résolu avec l'extraction de caractéristiques et la reconnaissance de formes, où il ajoute des fonctionnalités importantes. Disons qu'une photo est donnée, certaines caméras détectent les visages, mettent en évidence le visage pour donner de belles images, qui utilise également la reconnaissance des fonctionnalités.

Apprentissage supervisé vs apprentissage non supervisé

à) Catégorie de prédiction - Les techniques comprennent la régression, la logistique, les réseaux de neurones et les arbres de décision. Quelques exemples incluent la détection de fraude (où un ordinateur apprend et prédit la prochaine fraude à partir de l'historique de fraude). Dans l'apprentissage non supervisé, on ne peut pas prédire avec des exemples car il n'y a pas de données historiques.

quelle est la variable d'instance en java

b) Catégorie de classification - Prenons un exemple, que la transaction soit frauduleuse ou non, elle entre dans la catégorie de classification. Ici, nous prenons des données historiques et les classons avec des arbres de décision ou au cas où nous ne prenions pas du tout de données historiques, nous commençons directement sur les données et essayons d'exploiter les fonctionnalités par nous-mêmes. Par exemple, si nous avons besoin de connaître les employés, qui sont susceptibles de quitter l'organisation ou de rester. Dans le cas où il s'agit d'une nouvelle organisation, où nous ne pouvons pas utiliser les données historiques, nous pouvons toujours utiliser le clustering pour l'extraction de données.

c) Catégorie d'exploration - C'est une méthode simple, qui propose ce que signifie le big data. Dans l'apprentissage non supervisé, on parle de composants principaux et de regroupement.

ré) Catégorie d'affinité - ici, plusieurs éléments sont impliqués tels que la vente croisée / la vente incitative, l'analyse du panier de marché. Dans l'analyse du panier, il n'y a pas d'apprentissage supervisé car il n'y a pas de données historiques. Nous prenons donc directement les données et trouvons des associations, un séquençage et une analyse factorielle.

Vous avez une question pour nous? Mentionnez-les dans la section commentaires et nous vous recontacterons.

Articles Similaires: