InvalidTlsVersion
Je crée un compte gratuit
S'inscrire OUJ'ai déjà un compte
Se connecterTéléchargement
364 téléchargements
Dans le cadre d’un projet statistique, une étude de marché pour un cabinet de conseil en développement commercial dans le secteur de la distribution sera réalisée. Cette étude a pour but d’aider à la décision de l’implantation d’un hypermarché dans le département du Bas-Rhin.
Dans un premier temps, les villes de ce département seront caractérisées pour pouvoir mieux connaître la population étudiée (leur description, leur dispersion, leur consommation, et les migrations durant ces 10 dernières années) et ainsi mieux connaître le territoire observé. Ensuite les villes susceptibles d’une implantation d’hypermarchés seront étudiées, d’un point de vue économique.
A l’aide des résultats statistiques et analytiques, il sera possible de déterminer la ville où l’implantation d’un hypermarché serait la plus judicieuse compte tenu des caractéristiques des villes et de leurs consommations.
Â
Â
Pour réaliser l’étude, 3 tables sont disponibles. La table Insee indique les caractéristiques socio-démographiques et la consommation de différents produits des villes du Bas-Rhin. La table Code comprend les types de tous les commerces référencés du Bas Rhin avec son code activité, puis la table Commerce contient tous les commerces, leur type, et leur surface.
A l’aide de ces tables, nous devons répondre à certains objectifs qui sont :
* « Comment sont positionnées ces villes les unes par rapport aux autres (en termes de consommation)? ». Pour atteindre cet objectif il faut classer les villes qui ont des caractéristiques communes selon leur taille, leur type de population, le type de consommation de leur population.
* « Où dois-je conseiller au distributeur Y d’implanter son prochain hypermarché ? ». Il est nécessaire de visualiser les caractéristiques des villes qui auront étés classées, afin de savoir dans quelle ville un hypermarché serait le plus nécessaire.
Â
Â
Pour atteindre les différents objectifs, 3 types de variables sont disponibles pour les 526 villes du département du Bas-Rhin. Les variables socio-démographiques indiquent les caractéristiques de chaque ville comme : le nombre d’habitants, la répartition des CSP,…
Il s’agit uniquement de variables de dénombrement. Ensuite il y a les variables de consommation de produits qui renseignent pour différents produits de la vie quotidienne (fruits et légumes, livres,…) l’indice de consommation pour la ville (100 étant la moyenne nationale).
Puis les différents types de supermarché et leurs surfaces sont également disponibles pour toutes les villes du département. Pour pouvoir exploiter ses données plusieurs transformations ont du être effectuées sur les tables disponibles.
Â
Nous devons commencer par joindre les deux tableaux de données Insee et Commerce pour n’en avoir qu’un seul.
Pour cela, nous avons fait correspondre les CODE_ACTIVITE de la table Commerce et de la table Code.
Nous avons ensuite introduit dans la table Commerce des variables permettant de connaître le nombre de commerces par type de commerce et par ville : cela nous sera utile lors de l’analyse statistique.
Après avoir fait cela nous avons joint les tables Commerce et Insee par rapport aux libellés des villes.
Ensuite, nous avons créé une table « Surface » permettant d’avoir la surface totale d’un type de commerce par ville et par type de commerce. Cette table a été jointe à la table précédemment créée.
Les variables « Logements construits de 1949 à 1974 » (RL994974), « Logements construits de 1975 à 1981 » (RL997581), «Logements construits avant 1949 » (RL99AV48), « Logements construits de 1982 à 1989 » (RL998289), «Logements construits après 1990 » (RL99AP90) étant fortement corrélées avec toutes les autres variables de recensement de la table Insee, nous avons décidé de les supprimer de la base de données.
Â
Â
Des tableaux croisés dynamiques sont mis en place pour identifier les valeurs aberrantes, les données manquantes et donner les premières caractéristiques des villes du département.
Ils ont fait apparaître Strasbourg comme la ville la plus peuplée, la ville qui possède le plus de logements, le plus d'individus pour les différentes catégories socio-professionnelles... Pour toutes les variables de dénombrement la ville de Strasbourg est mise en évidence.
Le problème de ce phénomène, appelé l'effet taille, est qu'il monopolise l'information. Pour y remédier toutes les variables de dénombrement sont transformées en pourcentage. Par exemple le nombre d'individus de moins de 20 ans pour une ville est transformé en pourcentage d'individu de moins de 20 ans par rapport à tous les autres individus de la ville.
Cette opération a été effectuée pour tous les différents groupes de variables (les logements, les CSP, le nombre d'individus présents dans les ménages). Les différentes études seront réalisées sur ces variables en pourcentage.
L’effet taille n’est pas supprimé pour la variable qui indique le nombre d’habitants dans chaque ville. En effet il est pertinent de conserver cette variable pour laquelle il n’est pas possible de supprimer l’effet taille de la même façon que les autres.
Â
Â
Â
Afin de décrire et de mieux connaitre la base de données nous allons réaliser des statistiques descriptives.
Test de normalité
La plupart des méthodes de test paramétriques requièrent la normalité des données. Il est donc important de disposer d'une méthode permettant de vérifier cette normalité.
En statistique, le test de Shapiro–Wilk teste l'hypothèse nulle selon laquelle un échantillon x1, ..., xn est issu d'une population normalement distribuée. Nous avons choisi d’effectuer ce test sur le logiciel R à partir des 43 variables socio-démographiques de notre jeu de données. Le seuil fixé sera d’une valeur de 0,05.
Â
Posons les hypothèses de départ :
* H0 : Normalité des variables
* H1 : Non normalité des variables
Pour tester l’hypothèse H0, on s’attardera sur la valeur de la P-value (la probabilité de commettre une erreur de première espèce, c'est-à -dire de rejeter à tort l'hypothèse HO).
Â
Nous aurons donc comme résultats :
* Si la P-value est inférieure à 0,05 : on rejette H0. La variable ne suit donc pas une loi normale.
* Si la P-value est inférieure à 0,05 : on accepte H0. La variable suit une loi normale.
Â
Â
Â
Â
Merci énormement pour ce document !
Questions / Réponses
EN DIRECT DES FORUMS
136550 messages 220872 réponses