Avertir le modérateur

18/02/2019

Networking, The World is our Workplace. Let's work togheter.ArchiveFW21siècle>DU TEMPS QUI PASSE:Présent,Passé,Futur. L'Histoire sans fin? Digital Workplace. Intranet Collaboratif. Capitaliser les connaissances.Know why, Know who, Know where, Know what.

FranceWebAsso,RESEAU de l'apprendre>>Tous Président avec FranceWebAsso21> C'est Moi, C'est Vous, C'est Nous ! Paradox>SocSav21"Un pour Tous".."Tous pour Un".."Chacun pour Soi">Un groupe,des 4> Modèle d'un monde auquel chacun souhaite appartenir

FW-pour-vous-et-avec-vous.gif

"Un pour Tous".."Tous pour Un".."Chacun pour Soi"

0GR3TXHD_400x400SR.jpg"The secret of the success"

MyNewsCenter

FranceWeb,Know why, Know who, Know where, Know what.

Communicate, Connect...24/7/365.

Imaginez ce que nous pouvons faire ensemble

FRANCEWEB group

FranceWeb Planète

RECHERCHER, OBSERVER, METTRE EN LIEN, DIFFUSER

Ensemble créons de la valeur 

FranceWeb : C'est Moi, C'est Vous, C'est Nous !

 C'est notre capital !

FranceWeb en un clic de souris,

IA, Modèle, Un paradoxe de la nature humaine.

François Taddei propose au ministère de l'Éducation français, dans son nouveau rapport remis en avril dernier, de créer « La fête de l'apprendre » pour valoriser la capacité de tous à apprendre et à être mentor. Un tel événement inciterait à réfléchir à ce que chacun a découvert dans l'année, à diffuser ses nouvelles compétences et à créer du lien social. Les conférences TedX, le film "Une idée folle" pour lequel Judith Grumbach a fait le tour de France des écoles innovantes, le livre "Explore the Future of Education" de Svenia Busson sont autant d'initiatives qui donnent de l'ampleur à des expérimentations disséminées.

Les paradoxes d'aujourd'hui sont les préjugés de demain

"Un pour Tous".."Tous pour Un".."Chacun pour Soi"

Tous, entrepreneurs de la connaissance

« Dans une société apprenante, conclut François Taddei, lorsque quelqu'un a appris quelque chose, une autre personne peut l'apprendre plus facilement. Vous pouvez rencontrer des mentors en mettant sur pied un BlaBlaCar du mentoring. Nous pouvons créer un "Google map de la connaissance" permettant notamment d'apprendre grâce aux compétences de ses collègues. Mais il faut pour cela passer d'une culture de contrôle à une culture de confiance, d'une culture de compétition à une culture de coopération, capable de mêler bienveillance et exigence

Sensibiliser, informer, promouvoir...

Les entrepreneurs du Web

Collaborer ! Anticiper ! Innover !

A la rencontre d’initiatives positives au niveau humain, économique, culturel, technologique…

POUR LA CONTRIBUTION AU MIEUX-ETRE COLLECTIF ET GLOBAL,

POUR L’HUMAIN, L’ORGANISATION ET LA VIE

 Sa devise « Pour Vous et avec Vous» est un projet de développement durable conçu à l’échelle des territoires ou des régions, chaque membre mettant son expérience, ses connaissances au profit de l’ensemble, afin d’augmenter la richesse de chacun. SocSav21 portera sur les moyens mobilisés par les acteurs de la société civile pour participer au débat et à la décision publics, ainsi que sur les dispositifs de concertation mis en œuvre par les pouvoirs publics.

Seront ainsi successivement abordées les causes environnementales, familiales, consuméristes, humanitaires, générationnelles, scolaires, sanitaires, féministes et la défense des libertés. 

Enrichir les compétences de chacun, susciter le goût d'entreprendre. Préparer le capital humain dans l'économie de la connaissance est primordial au siècle des réseaux.

Stimuler le plein emploi de l'intelligence générale des individus faisant appel à la connaissance du monde. L'engagement de chacun, condition d'une stratégie pour tous.

Le développement durable FRANCE WEB est avant tout un apprentissage du partage des savoirs et des pouvoirs. Les TIC permettent de faire communiquer entre elles des disciplines, des associations, des organismes qui ont du mal à connecter, dans une même toile de sens "développement durable", des initiatives qui nous semblent naturellement devoir se rencontrer dans une même vision d’interdépendance

FranceWebAsso, numériques des lumières, Créer un monde auquel chacun souhaite appartenir>Préparer le capital humain dans l'économie de la connaissance: changer le monde, faire avec l’inertie des usages, faire avec les craintes, faire avec l’utilisateur-consommateur convaincu de sa maturité numérique.

Mutualisons nos connaissances pour imaginer, créer et innover « Donnant-donnant »

Développer l'enthousiasme

Permettre a tous de se penser acteur du changement, telle est l'ambition de l'apprentissage par projet. Il valorise la collaboration, l'implication et l'action

FranceWeb en un clic de souris,

La Toile favorise la réinvention des liens sociaux

« Comment réussir dans un monde d’égoïstes »

Chaque choix que nous faisons correspond à la satisfaction d’un besoin à l’instant T. Nous prenons des décisions en fonction de ce qui nous semble être le mieux pour nous au moment où nous les prenons. Mais la vie est un mouvement, une évolution constante. Ce qui était valable hier ne l’est peut-être déjà plus aujourd’hui, alors demain ?Tous, entrepreneurs de la connaissance

Le concept s’appuie sur trois axes en interactions

AGILITE, INNOVATION, EMPOWERMENT

Knowledge Sharing for a more agile, innovative and engaged organisation.

Avec le n°1 mondial de la collaboration en ligne : CONNECTEZ-VOUS AU MONDE.

Créateur des espaces de travail collaboratif , assurant la communication des exposants et partenaires, FranceWeb illustre la volonté du réseau.

Produire de l’intelligence collective au bénéfice de l’économie sociale et de la vie associative et impulser les changement nécessaires par l’évolution de notre société.

« Connaître le passé pour comprendre le présent »

Le numérique,  nous invite à nous interroger sur ces questions touchant à la fois aux individus et au collectif, mais également sur d’autres aspects globaux car il est devenu indissociable de presque toutes les activités humaines, du moins dans les sociétés occidentales, à de nouvelles réalités politiques, par la nature même du code et de l’objet numérique, historiques (dans nos rapports avec le patrimoine, l’héritage en voie de numérisation et sa différence avec le numérique lui-même) et sociales (l’émergence des villes intelligentes, pour s’en tenir à un seul exemple impliquant l’aménagement du territoire et les compétences spatiales des citoyens..

Fouillez profondément votre tempérament de créatrice, larguez les amarres et enfuyez-vous vers vos planètes préférées ! Vous devez trouver une nouvelle approche de la réalité, un nouveau point de vue sur le monde... Ne pensez pas trop à demain, ni à votre plan d'action. Regardez plutôt l'état actuel de votre vie et donnez-lui en sens nouveau. Avancez sans vous souciez des détails.

Collaborer ! Anticiper ! Innover !

Ne me regardez pas ! Regardez avec moi !

FranceWeb en un clic de souris,

"Un pour Tous".."Tous pour Un".."Chacun pour Soi"

The secret of the success"

Produire de l'intelligence collective au bénéfice de l’économie sociale et de la vie associative et impulser les changements nécessaires par l’évolution de notre société.

Le numérique,  nous invite à nous interroger sur ces questions touchant à la fois aux individus et au collectif, mais également sur d’autres aspects globaux car il est devenu indissociable de presque toutes les activités humaines, du moins dans les sociétés occidentales, à de nouvelles réalités politiques, par la nature même du code et de l’objet numérique, historiques (dans nos rapports avec le patrimoine, l’héritage en voie de numérisation et sa différence avec le numérique lui-même) et sociales (l’émergence des villes intelligentes, pour s’en tenir à un seul exemple impliquant l’aménagement du territoire et les compétences spatiales des citoyens..

Cette richesse, partagée entre une tendance algorithmique à forte dose normative et une dynamique de l’efficacité des usages, explique en grande partie la dimension véritablement globale de la culture numérique. La présence globale du code ne doit pas nous faire oublier sa diversité, ses déclinaisons diverses, sa capacité à peupler les sites et les lieux les plus épars. Mieux encore, elle rend compte du fait que le numérique est devenu en quelque sorte un mot ambivalent signifiant à la fois une chose précise et des activités variées. Le numérique, en bref, n’est pas encore (et peut-être ne le sera-t-il jamais) une discipline académique autonome, car il implique une radicale modification du paysage intellectuel (de même qu’il redessine notre paysage social) comme de nos rapports avec la spatialité et la temporalité.

PoissySmartCity-SocSav21

PoissyVilleConnectéeGroupe d'intérêts.jpg

L'électeur

Le Citoyen

Le consommateur

Le Travailleur

 

PoissySmartCity

The Grid

Savoirs, Le pays de FranceWebAsso

FranceWeb, The Grid

PoissySmartCity, The Grid

PoissyWeb,The Grid

Tous, entrepreneurs de la connaissance

FranceWeb,Know why, Know who, Know where, Know what.

"The secret of the success"

Les hubs de contenu

From Poissy with love

FranceWeb21

Media Intelligence

NEWS CENTER in 3 clicks

Chacun peut réaliser son rêve

Une entreprise sociale et collaborative

Informer, Diffuser vos Communiqués

FranceWeb un véritable réseau de connaissance

FranceWeb,C'est Moi, C'est Vous, C'est Nous !

CONNECTEZ-VOUS AU MONDE

FranceWeb,MADE IN HUMANITY

FranceWeb,illustre la volonté du réseau : simplicité et rapidité

Construisons ensemble la société en réseau

L'humain et la créativité gages de réussite pour la transformation numérique

Nous sommes là pour que vos envies prennent forme...La nouvelle société..

LIEU DE RENCONTRES D’INITIATIVES POSITIVES AU NIVEAU HUMAIN

Partagez ce qui vous inspire : Brisez la routine et faites quelque chose de différent aujourd'hui, cela vous fera du bien

Savoirs, Le pays de FranceWebAsso

FranceWeb, The Grid

PoissySmartCity, The Grid

PoissyWeb,The Grid

Tous, entrepreneurs de la connaissance

"The secret of the success"

Les hubs de contenu

Je suis très heureux de vous accueillir sur le site de E-GLOBAL.pdf


Fondations Data Science: Connaissez vos données. Vraiment, vraiment, le savoir

Accéder au profil de Randy Au
 
Connaissez vos données, leur provenance, leur contenu et leur signification. Tout commence à partir de là.
S'il y a un conseil que je donne régulièrement à chaque personne qui débute dans le traitement des données, qu'il s'agisse d'un analyste, d'un scientifique ou d'un visualiseur, c'est bien ça.
C’est la colline sur laquelle je passe la plus grande partie de mon temps, jusqu’à l’obsession. C'est un trou de lapin deeeeeeep mais éminemment important.

Mais pourquoi?

Je ne pense pas avoir rencontré de praticien qui croit être familier avec un ensemble de données et les systèmes environnants, c'est facultatif, mais c'est quelque chose qui amène des personnes qui ne sont pas familières avec le domaine et qui se laissent aller.

La vie n'est pas une entrée de week-end Kaggle décontractée. Lancer une forêt aléatoire sur vos données de travail est à peu près aussi efficace que de lancer un bonsaï sur votre serveur de base de données. Cela blesse votre serveur et laisse la saleté partout pour que vous puissiez la nettoyer.

Bien que vos collègues en affaires ne soient pas des informaticiens, ils ne sont pas idiots (espérons-le). Ce sont des experts du domaine qui en savent beaucoup sur l'entreprise. Ne soyez pas l'analyste subalterne présentant au PDG une nouvelle découverte brillante à laquelle on vous pose la question "Alors, avez-vous retiré les 3 comptes de contrats à volume élevé spéciaux que nous avons?", Ne finit pas bien. Faites-moi confiance.

Que signifie "connaître vos données"?

Il y a beaucoup de couches à cela. Je vais entrer dans chaque couche en détail. Vous pouvez également vous joindre à moi pour revisiter les traumatismes du passé à tous les niveaux.

Levels of Understanding Data

Data Layout.png

 L'oignon de la connaissance des données. Les choses se compliquent à mesure que vous sortez.

La couche la plus simple consiste à connaître la structure des données - son emplacement, son organisation. Dans un contexte Data Science, il s'agit généralement d'une base de données ou d'une archive de journal, peut-être de deux services tiers et du schéma défini. Combien y a-t-il de magasins de données, que contiennent-ils? Quels sont les champs, quels sont le schéma de la table et les relations. Structure de base et substance de définition.

Vient ensuite ce que sont les bizarreries et les pièges dans des données individuelles. Est-ce que les données suivent le schéma, y ​​a-t-il des erreurs historiques et des artefacts étranges? Où sont les pièges (il y a TOUJOURS des pièges).

Il y a ensuite des problèmes commerciaux concernant les données. Comptes de test internes, partenariats spéciaux avec offres spéciales, pratiques de traitement, de comptabilité et de sécurité exigeant des implémentations spécifiques, etc.

Une autre étape plus profonde est la manière dont ces données sont collectées, d’où proviennent-elles. Quels systèmes l'ont généré, quelle logique et quelle technologie se cache derrière la création et l'enregistrement.

Enfin, les choses se gâtent en demandant pourquoi des données ont été collectées et ce qui ne l’a pas été. Pourquoi certaines mesures ont-elles été choisies par rapport à d'autres?

Combien de temps ce processus prend-il normalement?

Ça dépend

Je m'attends généralement à environ 3 à 6 mois d'interrogation et d'utilisation quotidienne de l'ensemble de données avant de me sentir assez à l'aise pour affirmer connaître les principes fondamentaux d'un système comportant environ une douzaine de tables de base critiques + un couple. de douze tables de soutien. Entreprises de taille moyenne / matériel au niveau du système.

Évidemment, cela dépend aussi de la quantité de données, du nombre de systèmes, etc. Il faut parfois des années pour «maîtriser» un système, pour que des personnes le modifient constamment.

# 1 Connaître la structure des données

Il s’agit essentiellement d’enjeux de savoir ce qui est disponible. Vous devez simplement savoir cela pour même commencer à travailler.

Mais si vous grattez un peu plus profondément, vous constaterez que les nuances sont nombreuses. Existe-t-il des contraintes de clé étrangère? La base de données est-elle configurée comme un OLTP ou un OLAP? La structure des données a-t-elle beaucoup changé au fil du temps, comment se sont déroulées ces migrations et mises à jour? Quel est le codage de texte et le fuseau horaire par défaut? (Regardez, il fut un temps où UTF-8 n'était pas la valeur par défaut.)

Quels champs sont générés automatiquement (champs auto-incrémentés, schémas de partage, horodatage qui se met à jour automatiquement, etc.). Quels sont les index pertinents sur les tables. Quels sont les types de données et comment tout est-il appliqué? (J'ai passé des années dans un gros environnement MySQL, puis dans un environnement de journalisation géant, c'est une préoccupation majeure.)

Les choses deviennent encore plus amusantes lorsque vous avez des environnements de production plus complexes. La base de données est là, les journaux bruts y sont, les journaux traités sont là, les outils tiers utilisent autre chose, Hadoop habite sur un autre ensemble de boîtes, et nous avons aussi des choses dans le cloud? Avez-vous même toutes les informations d'identification pour accéder à la substance? Sont-ils en cours d'exécution sur la même horloge? Comment diable allez-vous rejoindre ce genre de choses ensemble? Sur quel (s) système (s) allez-vous joindre ce genre de choses ensemble? Allez-vous devenir fou en essayant de faire ces jointures? (Indice: probablement)

Pourquoi cette couche est importante pour vous

Vous devez vous familiariser avec tout cela pour pouvoir faire votre travail. C'est comme savoir où se trouvent tous les ingrédients de la cuisine. Négocier l'accès peut être un cauchemar dans certaines organisations, et vous devez alors tout organiser dans un endroit où vous pouvez faire votre travail.

À un niveau plus profond, il existe souvent plusieurs façons de mesurer quelque chose: une vente peut être enregistrée dans l'entrepôt de données, mais également dans la table des commandes de base, et elle laisse des traces dans les journaux bruts du serveur. Il y a des couches de traitement entre les deux, ces détails pourraient être importants un jour.

2 Connaissez vos enregistrements de données

La première chose que je fais lorsque j'accède à une table de données est d'exécuter SELECT * LIMIT 5 dessus. Je ne me soucie généralement pas de décrire. Regarder quelques lignes réelles est plus informatif.

Jouez avec les données assez longtemps et vous rencontrerez des choses étranges. Même dans le monde structuré d'une base de données relationnelle, vous pouvez trouver toutes sortes de bizarreries. Les choses deviennent encore plus folles dans les journaux arbitraires. Voici quelques exemples mémorables:

Les valeurs NULL sortent juste de manière aléatoire pour vous permettre de le savoir lorsque vous le soupçonnez le moins. Si un champ n'est pas codé en dur comme étant non NULL, je m'attends maintenant à trouver des valeurs NULL

Les entiers sont utilisés comme masques de bits pour stocker les indicateurs de préférence parce que quelqu'un sur Eng a pensé que ce serait bien et compact. Les opérations bit à bit en SQL constituent une dimension supplémentaire de plaisir. Les discussions ont eu

Nombreux types d'horodatage: chaîne ISO avec / sans tz, unixtimes précis en microsecondes sous forme d'entiers 64 bits, horodatages réels utilisant le type interne

 

  • JSON stocké en texte brut car la base de données ne prend pas encore en charge JSON
  • JSON tronqué car nous avons oublié que les champs TEXT ont une longueur finie
  • Entrées d'identifiants en double dans un système où les dupes ne devraient pas se produire - sur une table de revenus principale
  • Encodage de texte endommagé
  • Surprise t, n, r, c caractères dans les chaînes d’agent utilisateur encrassant un pipeline csv
  • Une secousse a réussi à mettre 0 dans une chose
  • Les noms de champ qui sont réutilisés pour un usage complètement différent parce que Eng ne voulait pas exécuter ALTER en raison d'un temps d'arrêt. (Vous savez qui vous êtes, champ "logo")
  • Dumps de données du code COBOL du gouvernement sur un ordinateur central quelque part
  • ID orphelins, car personne n'utilise vraiment les contraintes de clé étrangère
  • Tout le plaisir que vous pouvez imaginer et bien plus encore

Traiter avec cette couche

La folie absolue de cette couche explique pourquoi la plupart des utilisateurs de données semblent passer la majorité de leur temps à nettoyer et à préparer les données . Entre les bogues introduisant des données erronées, les utilisateurs malveillants / naïfs qui vous donnent des données étranges et la mauvaise conception occasionnelle d'un système, la liste est illimitée.

Nous n'avons même pas envisagé ce qui se passerait si vous exploriez le Web ou si vous deviez extraire des données d'un fichier PDF ou d'une "feuille de calcul au format Excel".

En fait, ma définition idiote de scientifique junior en informatique est une personne qui ne cède pas violemment à l’idée de mettre une zone de texte ouverte sur Internet.

La plupart de ces problèmes de données vont probablement bloquer le code que vous écrivez pour effectuer une analyse. ce qui est généralement une bonne chose. Si vous êtes assez chanceux (malchanceux?) Pour que votre code soit exécuté malgré des données étranges, cela invalidera toutes les conclusions que vous tirerez et vous devrez être au courant pour comprendre ce qui s'est passé.

En cas de doute, demandez à d'autres personnes si vous voyez des données étranges. C'est très souvent un bug qui devrait être corrigé.

Connaître les bizarreries de données d'entreprise

Les entreprises collectent souvent d'étranges cas particuliers en cours de route. Ces cas particuliers peuvent vous faire trébucher encore plus dur qu'un NULL aléatoire dans votre champ d'identification.

Ils sont dangereux car ils se manifestent sous forme de points de données valides, mais leur comportement est radicalement différent.

Voici des exemples de ceux que j'ai vus:

 

  • Les utilisateurs internes, pour les tests, les employés ou les «amis de l'entreprise» utilisent. Ils utilisent probablement les choses différemment de tout le monde
  • Partenaires stratégiques, ils ont peut-être des quotas et une activité énormément plus importants et sont facturés à prix réduit
  • Comptes revendeurs qui contrôlent efficacement 50 comptes d'activité sous un seul compte
  • Calendriers en général. Les jours fériés vont déconner avec vos données, les durées mensuelles avec vos agrégations. J'ai une haine brûlante pour Pâques uniquement parce que c'est une date différente chaque année et me permet de faire des comparaisons d'une année à l'autre deux fois par an.

Comment traiter avec cette couche

Les experts de domaine et les partenaires de l’ensemble du secteur sont la clé pour traiter ce type de données. Toutes ces choses font partie des connaissances institutionnelles que vous devez exploiter pour donner un sens aux données que vous voyez.

Votre seul autre garde-corps est la vigilance à propos de la répartition de l'activité et des utilisateurs. Ces entrées de cas spéciaux ont tendance à se distinguer d'un client plus typique, de sorte que vous pouvez les rechercher comme s'il s'agissait d'un gros client, puis être corrigées à mi-parcours.

Savoir d'où proviennent les données, comment elles sont générées et définies

En science, nous sommes supposés documenter méticuleusement comment les données ont été collectées et traitées, car les détails de ce processus de collecte sont importants. Des tonnes de recherches ont été invalidées, car il y avait une faille dans la manière dont les données ont été rassemblées et utilisées. Dans notre cas, les implémentations technologiques comptent beaucoup ici, alors éclatez votre chapeau.

Est-ce que vous dépendez des cookies? Cela signifie que les gens peuvent les effacer, les bloquer ou ils expirent à cause d'un TTL court. Les gens utilisent plusieurs navigateurs et appareils. Un exemple simple: "cookie unique" n'est pas la même chose que "utilisateur humain unique", mélangez-les et vous passerez un mauvais moment.

Utilisez-vous du code JavaScript frontal pour envoyer des événements tels que des clics et des défilés à vos systèmes? Est-ce que ça marche sur tous les navigateurs? Parfois, souvenez-vous que les gens bloquent le javascript et que les robots exécutent rarement JS. Qu'est-ce qui attrape les événements chez nous? Quelle machine enregistre le temps? Les événements se déclenchent-ils juste avant ou juste après l'API nous intéressent-ils?

Si des éléments sont suivis dans la base de données, quand la mise à jour aura-t-elle lieu? Est-ce que tout est emballé dans une transaction? Les drapeaux d'état changent-ils de façon monotone ou librement? Quelle est la logique métier dictant les changements d'état? Est-il possible d'obtenir des entrées en double?

Comment votre structure de tests A / B affecte-t-elle les sujets, attribue-t-elle réellement des variantes de manière aléatoire, sans biais? Les événements sont-ils comptés correctement?

Données géospatiales? Amusez-vous avec les définitions des régions métropolitaines, la manipulation des codes postaux. Le comté de Queens, dans l'État de New York, regroupe une foule de noms plus petits.

Données IP? N'oubliez pas les adresses IP, NAT et VPN dynamiques et leur interaction avec les appareils mobiles. En outre, les géolocalisations ne sont que des tables de recherche très complexes fournies par une poignée de fournisseurs.

Capteurs physiques? Maintenant, vous avez des effets d'étalonnage et d'usure, des défaillances et l'environnement réel qui vous gêne.

Gérer cette couche

Comme vous pouvez le constater, les détails spécifiques importent beaucoup. À ce stade, vous vérifiez l'intégrité de la logique derrière les données existantes. Vous devez être extrêmement conscient de la myriade de biais et de bugs présents dans les données afin de savoir exactement ce que vous pouvez raisonnablement dire. Ces détails vont souvent faire ou défaire un modèle. Tout ce qui parle de partialité dans l'IA / ML commence ici.

Les experts du domaine rechercheront ces détails et vous devrez exploiter leurs précieuses connaissances. Il est difficile de battre le savoir institutionnel collectif dans ce domaine.

Vous pouvez vous aider à découvrir ces problèmes en examinant attentivement vos données, en vérifiant les distributions, en vous demandant pourquoi elles ont cet aspect.

Au fil du temps, vous devriez être en mesure de comprendre ce que les ingénieurs essayaient d'accomplir en examinant simplement la structure et les données de la table de données. Il s’agit d’un journal des transactions, d’une piste de vérification des modifications de paramètres, des commandes passées ici et pouvant contenir plusieurs envois. Les codes de statut sont mis à jour de cette manière. Un ordre de progression est garanti, mais pas un autre.

Avec cette idée de l'intention d'une table, vous pouvez trouver toutes sortes de bogues intéressants, dont beaucoup ne seront pas remarqués par d'autres ingénieurs.

Connaître les décisions de collecte en cours

Pendant tout ce temps, je parlais des données collectées. Il y a encore un grand vide, tout ce qui n'a pas été collecté.

Quelqu'un a fait le choix, conscient ou inconscient, de collecter une donnée et non une autre. Il est important de connaître ces angles morts si vous craignez des biais dans vos données et vos modèles.

Ces décisions découlent souvent de considérations pratiques. Quelque chose est impossible à collecter ou nous avons décidé de ne pas le protéger, pour des raisons éthiques ou parce que nous ne pensons pas que cela serait utile. Cela provient rarement d'une malveillance ouverte, mais les effets d'une mauvaise utilisation des données peuvent être désastreux.

Par exemple, nous ne pouvons collecter que des données sur nos propres utilisateurs car, par définition, les non-utilisateurs n'utilisent pas notre produit. Il y a là un biais d'auto-sélection, ce qui crée des problèmes lorsque vous construisez un nouveau produit ou entrez sur un nouveau marché. Les affaires sont jonchées de cadavres peu accessibles sur de nouveaux marchés. Ensuite, il y a tous les résultats extrêmement dérangeants d'algorithmes donnant des résultats biaisés et racistes utilisés de manière très douteuse.

Si vous connaissez des angles morts, vous pouvez activement prendre des mesures pour y remédier, mais uniquement si vous savez qu'il existe un problème. Peut-être que vous allez collecter plus de données, ou rééquilibrer les données existantes. Parfois, il suffit de conclure que quelque chose est une idée horrible et qu’il devrait être abandonné.

Tout ce que nous faisons n’est pas controversé, mais nous utilisons tous des algorithmes pour choisir les gagnants et les perdants. Nous devons prendre cette responsabilité au sérieux.

Continue d'apprendre

Vous n'allez jamais avoir des données parfaites ni une compréhension parfaite de toutes vos données. Juste au moment où vous pensez maîtriser quelque chose, une nouvelle fonctionnalité a été ajoutée: les normes changent, les systèmes sont supprimés. Continuez simplement à apprendre, documentez ce que vous pouvez, laissez des traces sur papier pour vos analyses et continuez.

 The World is our Workplace. Let's work togheter.

FranceWeb,Know why, Know who, Know where, Know what.

Collaborer ! Anticiper ! Innover !

Les commentaires sont fermés.

 
Toute l'info avec 20minutes.fr, l'actualité en temps réel Toute l'info avec 20minutes.fr : l'actualité en temps réel | tout le sport : analyses, résultats et matchs en direct
high-tech | arts & stars : toute l'actu people | l'actu en images | La une des lecteurs : votre blog fait l'actu