Une Brève Histoire de L'apprentissage en Profondeur

26/03/2019 Une brève histoire de l'apprentissage en profondeur - DATAVERSITY
Accueil Des conférences Plus
Sujets de données
Big Data | BI / Data Science | Base de données | Architecture de données | Stratégie
de données | La modélisation des données | EIM | Gouvernance & Qualité | Smart
Data
Page d'accueil > Education aux données > Smart Data Nouvelles, articles et éducation >
Une brève histoire de l'apprentissage en profondeur
Une brève histoire de l'apprentissage en

profondeur
Par Keith D. Foote sur 7 février 2017
Deep Learning, en tant que branche de

Machine Learning, utilise des algorithmes
pour traiter les données et imiter le
processus de réflexion, ou pour développer
des abstractions . Deep Learning (DL) utilise
des couches d'algorithmes pour traiter les
données, comprendre la parole humaine et
reconnaître visuellement les objets. Les
informations sont transmises à travers
chaque couche, la sortie de la couche
précédente fournissant une entrée pour la couche suivante. La première couche d'un
réseau s'appelle la couche d'entrée, tandis que la dernière s'appelle une couche de sortie.
Toutes les couches entre les deux sont appelées couches masquées. Chaque couche est
typiquement un algorithme simple et uniforme contenant un type de fonction d’activation.
L'extraction de fonctionnalités est un autre aspect de l'apprentissage en profondeur.

L'extraction de caractéristiques utilise un algorithme pour construire automatiquement des
«caractéristiques» significatives des données à des fins de formation, d'apprentissage et
de compréhension. Normalement, le scientifique de données ou le programmeur est
responsable de l'extraction des fonctionnalités.
https://www.dataversity.net/brief-history-deep-learning/# 1/8
L'histoire de Deep Learning remonte à 1943, lorsque Walter Pitts et Warren McCulloch
avaient créé un modèle informatique basé sur les réseaux de neurones du cerveau
humain. Ils ont utilisé une combinaison d'algorithmes et de mathématiques qu'ils ont
appelés «logique de seuil» pour imiter le processus de pensée. Depuis ce temps, Deep
Learning a évolué régulièrement, avec seulement deux ruptures significatives dans son
développement. Tous deux étaient liés aux hivers infâmes de l'intelligence artificielle .
Henry J. Kelley est reconnu pour avoir développé les bases d'un modèle de propagation
arrière continue en 1960. En 1962, Stuart Dreyfus développa une version plus simple
basée uniquement sur la règle de chaîne. Le concept de propagation en arrière
(propagation en amont des erreurs à des fins d’entraînement) existait déjà au début des
années 60, mais il était lourd et inefficace et ne deviendrait utile qu’en 1985.
Les premiers efforts dans le développement d' algorithmes profonds d'apprentissage sont
venus de Alexey Grigoryevich Ivakhnenko (développé la méthode Groupe du traitement
des données ) et Valentin Grigor'evich Lapa (auteur de Cybernétique et techniques de
prévision) en 1965. Ils ont utilisé des modèles avec polynôme (équations complexes) des
fonctions d'activation, que ont ensuite été analysés statistiquement. À partir de chaque
couche, les meilleures caractéristiques choisies statistiquement ont ensuite été transmises
à la couche suivante (processus lent et manuel).
Au cours des années 1970, le premier hiver de l'IA a débuté, résultat de promesses qui ne
pouvaient être tenues. L’impact de ce manque de financement a limité les recherches sur
le DL et l’IA. Heureusement, il y a eu des individus qui ont poursuivi la recherche sans
financement.
Les premiers « réseaux de neurones convolutifs » ont été utilisés par Kunihiko
Fukushima. Fukushima a conçu des réseaux de neurones avec plusieurs couches de
pooling et de convolution. En 1979, il développe un réseau de neurones artificiels, appelé
Neocognitron, qui utilise un modèle hiérarchique et multicouche. Cette conception a permis
à l'ordinateur d'apprendre à reconnaître les modèles visuels. Les réseaux ressemblaient
aux versions modernes, mais ont été formés à une stratégie de renforcement consistant en
une activation récurrente sur plusieurs couches, qui s'est renforcée au fil du temps. De
plus, la conception de Fukushima a permis d’ajuster manuellement d’importantes fonctions
en augmentant le «poids» de certaines connexions.
De nombreux concepts de Neocognitron continuent d’être utilisés. L’utilisation de

connexions descendantes et de nouvelles méthodes d’apprentissage a permis de réaliser
divers réseaux de neurones. Lorsque plusieurs motifs sont présentés simultanément, le
modèle d'attention sélective peut séparer et reconnaître des motifs individuels en déplaçant
son attention de l'un sur l'autre. (Le même processus que beaucoup d’entre nous utilisent
lors de tâches multiples). Un Neocognitron moderne peut non seulement identifier les
motifs avec des informations manquantes (par exemple, un nombre incomplet 5), mais
peut également compléter l'image en ajoutant les informations manquantes. Cela pourrait
être décrit comme une «inférence».
La propagation en arrière, l'utilisation d'erreurs dans l'apprentissage des modèles

d'apprentissage en profondeur, a considérablement évolué en 1970. C'est à cette époque
que Seppo Linnainmaa a rédigé sa thèse de maîtrise comprenant un code FORTRAN pour
la propagation en arrière. Malheureusement, le concept n'a été appliqué aux réseaux de
neurones qu'en 1985. C'est à ce moment-là que Rumelhart, Williams et Hinton ont
démontré que la propagation en arrière dans un réseau de neurones pouvait fournir des
représentations de distribution «intéressantes». Sur le plan philosophique, cette
découverte a mis en lumière, dans le cadre de la psychologie cognitive, la question de
savoir si la compréhension humaine repose sur une logique symbolique
(computationalisme) ou des représentations distribuées (connexionnisme). En 1989, Yann
LeCun a présenté la première démonstration pratique de la rétropropagation au sein des
Bell Labs. Il a combiné des réseaux de neurones convolutifs avec
une propagation en arrière sur lire les chiffres «manuscrits». Ce système a finalement été
utilisé pour lire le nombre de chèques manuscrits.
C'est également à cette époque que le deuxième hiver de l'IA (1985-90) a débuté, ce qui a
également permis d'effectuer des recherches sur les réseaux de neurones et
l'apprentissage en profondeur. Divers individus trop optimistes avaient exagéré le potentiel
«immédiat» de l'intelligence artificielle, dépassant les attentes et suscitant la colère des
investisseurs. La colère était si intense que la phrase Intelligence artificielle a atteint le
statut de pseudoscience. Heureusement, certaines personnes ont continué à travailler sur
l'IA et la DL, et des progrès importants ont été réalisés. En 1995, Dana Cortes et Vladimir
Vapnik ont mis au point la machine à vecteurs de support (système permettant de mapper
et de reconnaître des données similaires). La LSTM (mémoire à court et long terme) pour
les réseaux de neurones récurrents a été développée en 1997 par Sepp Hochreiter et
Juergen Schmidhuber.
La prochaine étape importante de l'évolution de Deep Learning a eu lieu en 1999, lorsque

les ordinateurs ont commencé à accélérer le traitement des données et que les unités de
traitement graphique (GPU) ont été développées. Un traitement plus rapide, avec les GPU
traitant les images, a multiplié par 1000 les vitesses de calcul sur une période de 10 ans.
Pendant ce temps, les réseaux de neurones ont commencé à concurrencer les machines à
vecteurs de support. Alors qu’un réseau de neurones pouvait être lent comparé à une
machine à vecteurs de support, les réseaux de neurones offraient de meilleurs résultats en
utilisant les mêmes données. Les réseaux de neurones ont également l’avantage de
continuer à s’améliorer à mesure que de nouvelles données d’entraînement sont ajoutées.
Vers l'an 2000, le problème du gradient disparaissant apparu. On a découvert que les
«couches» (leçons) formées dans les couches inférieures n'étaient pas apprises par les
couches supérieures, car aucun signal d'apprentissage n'atteignait ces couches. Ce n'était
pas un problème fondamental pour tous les réseaux de neurones, juste ceux avec des
méthodes d'apprentissage basées sur des gradients. La source du problème s’est avérée
être certaines fonctions d’activation. Un certain nombre de fonctions d’activation ont
condensé leur entrée, ce qui a réduit la plage de sortie d’une manière quelque peu
chaotique. Cela a produit de grandes zones d’intrants cartographiées sur une plage
extrêmement petite. Dans ces domaines, un changement important sera réduit à un léger
changement de la production, entraînant une disparition progressive du gradient. Deux
solutions ont été utilisées pour résoudre ce problème: la formation préalable couche par
couche et le développement de la mémoire à court terme.
En 2001, un rapport de recherche du groupe META (désormais appelé Gartner) décrivait

les défis et les opportunités de la croissance des données comme étant tridimensionnels.
Le rapport a décrit le volume croissant de données et la vitesse croissante de celles-ci
comme élargissant la gamme de sources et de types de données. C'était un appel à se
préparer à l'assaut de Big Data, qui venait de commencer.
En 2009, Fei-Fei Li, un professeur d' intelligence artificielle de Stanford, a lancé

ImageNet , qui a rassemblé une base de données gratuite de plus de 14 millions d'images
étiquetées. Internet est et était rempli d'images sans étiquette. Des images étiquetées
étaient nécessaires pour «former» les réseaux neuronaux. Le professeur Li a déclaré:
«Notre vision était que le Big Data changerait la manière dont fonctionne l'apprentissage
automatique. Les données entraînent l'apprentissage. "
En 2011, la vitesse des GPU avait considérablement augmenté, ce qui permettait de

former des réseaux neuronaux de convolution «sans» la formation préalable couche par
couche. Avec l'augmentation de la vitesse de calcul, il était devenu évident que Deep
Learning avait des avantages considérables en termes d'efficacité et de rapidité. AlexNet ,
par exemple, est un réseau de neurones à convolution dont l'architecture a remporté
plusieurs compétitions internationales en 2011 et 2012. Des unités linéaires rectifiées ont
été utilisées pour améliorer la vitesse et l'abandon.
Également en 2012, Google Brain a publié les résultats d'un projet inhabituel appelé
The Cat Experiment . Le projet à l'esprit libre a exploré les difficultés de «l'apprentissage
non supervisé». Deep Learning utilise «l'apprentissage supervisé», ce qui signifie que le
réseau de neurones convolutifs est formé à l'aide de données étiquetées (pensez aux
images d'ImageNet). En utilisant l'apprentissage non supervisé, un réseau neuronal
convolutionnel reçoit des données non étiquetées, puis il lui est demandé de rechercher
des modèles récurrents.
The Cat Experiment used a neural net spread over 1,000 computers. Ten million
“unlabeled” images were taken randomly from YouTube, shown to the system, and then the
training software was allowed to run. At the end of the training, one neuron in the highest
layer was found to respond strongly to the images of cats. Andrew Ng, the project’s founder
said, “We also found a neuron that responded very strongly to human faces.” Unsupervised
learning remains a significant goal in the field of Deep Learning.
The Cat Experiment works about 70% better than its forerunners in processing unlabeled
images. However, it recognized less than a 16% of the objects used for training, and did
even worse with objects that were rotated or moved.
Actuellement, le traitement des données volumineuses et l'évolution de l'intelligence

artificielle dépendent tous deux de l'apprentissage en profondeur. Deep Learning évolue
toujours et a besoin d'idées créatives.
0 Comments DATAVERSITY 
1 Login
 Recommend t Tweet f Share Sort by Best
Start the discussion…
LOG IN WITH
OR SIGN UP WITH DISQUS ?
Name
Be the first to comment.
ALSO ON DATAVERSITY
Machine Learning and Artificial How Can the Chief Data Officer Facilitate
Intelligence Trends in 2019 Data Literacy and Data Democracy?
1 comment • 2 months ago 1 comment • 7 months ago
Samson — Great article! More of this in the Richord1 — The term Data Literacy in this
Avatarfuture please. Also, robot bosses? That Avatararticle is not suitably defined. What skills,
would be something! knowledge and experience does it require …
Boosting Interest in Data by Branding the Cloud Architecture and Cloud Computing
Importance of Data Literacy Trends in 2019
1 comment • 3 months ago 1 comment • 6 months ago
Pat Hennel — It’s true that we need to boost Hanča Valuš Zýková — I can really
Avatarinterest in data by elevating it. To do this, Avatarrecommend MyAirBridge for sharing and
data literacy is an important piece of the … storing data online. It´s reliable and safe to …
✉ Subscribe d Add Disqus to your siteAdd DisqusAdd 🔒 Disqus' Privacy PolicyPrivacy PolicyPrivacy
Rechercher sur le site
Search … Chercher
Communauté DATAVERSITY
1:20
Publicité
Formation en ligne en vedette - Qualité

des données
1:01
PLUS DE DATAVERSITY
Enterprise Data
World 2019
Boston, MA USA
17 au 22 mars 2019
www.enterprisedataworld.com
Suivez nous
https://www.dataversity.net/brief-history-deep-learning/#
DMRADIO biz 7/8
DMRADIO.biz
DATAVERSITY.net TDAN.com
Des conférences Conférences en DATAVERSITE

Monde de données ligne Ressources
d'entreprise Gouvernance des données Communauté
Gouvernance des données d'entreprise en ligne DATAVERSITY
et qualité de l'information Architecture de données Papiers blanc
Sommet de l'architecture en ligne Quel est…?
de données Enterprise Analytics Online Notation de modélisation
de concept et d'objet
(COMN)
Informations sur la Newsletters DATAVERSITY

société DATAVERSITY Weekly Education
À propos de nous TDAN.com Data Conferences
Faites de la publicité avec DM Radio Weekly Trade Journal
nous Online Training
Contactez nous Upcoming Live Webinars
Press Room
© 2011 – 2019 DATAVERSITY Education, LLC | All Rights Reserved. Cookies Settings
Privacy Policy Terms of Service

Une Brève Histoire de L'apprentissage en Profondeur - DATAVERSITY PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Une Brève Histoire de L'apprentissage en Profondeur - DATAVERSITY PDF

Transféré par

Droits d'auteur :

Formats disponibles

26/03/2019 Une brève histoire de l'apprentissage en profondeur - DATAVERSITY

Accueil Des conférences Plus

Une brève histoire de l'apprentissage en

Deep Learning, en tant que branche de

L'extraction de fonctionnalités est un autre aspect de l'apprentissage en profondeur.

De nombreux concepts de Neocognitron continuent d’être utilisés. L’utilisation de

La propagation en arrière, l'utilisation d'erreurs dans l'apprentissage des modèles

La prochaine étape importante de l'évolution de Deep Learning a eu lieu en 1999, lorsque

En 2001, un rapport de recherche du groupe META (désormais appelé Gartner) décrivait

En 2009, Fei-Fei Li, un professeur d' intelligence artificielle de Stanford, a lancé

En 2011, la vitesse des GPU avait considérablement augmenté, ce qui permettait de

Actuellement, le traitement des données volumineuses et l'évolution de l'intelligence

 Recommend t Tweet f Share Sort by Best

Start the discussion…

Be the first to comment.

Rechercher sur le site

Formation en ligne en vedette - Qualité

Des conférences Conférences en DATAVERSITE

Gouvernance des données d'entreprise en ligne DATAVERSITY

et qualité de l'information Architecture de données Papiers blanc

Sommet de l'architecture en ligne Quel est…?

de données Enterprise Analytics Online Notation de modélisation

Informations sur la Newsletters DATAVERSITY

Faites de la publicité avec DM Radio Weekly Trade Journal

nous Online Training

Contactez nous Upcoming Live Webinars

Vous aimerez peut-être aussi