Traduire

salut tout le monde et bienvenue dans une nouvelle vidéo
dans le deep learning 400 avec Python
série cette fois nous allons
introduire les concepts de base sur l'audio
le traitement des données et du signal spécifiquement
nous allons nous pencher sur les formes d'onde du son
des concepts comme le volume de la hauteur et des choses
qui sont un peu plus avancés comme
spectrogrammes transformée de Fourier et MF
CC et nous allons avoir besoin de tout
ces éléments parce que ce sont les
bases dont nous aurons besoin pour implémenter l'audio
et les modèles d'apprentissage en profondeur de la musique sont cool
une clause de non-responsabilité est nécessaire ici quelques notes
ce n'est pas une vidéo complète sur
traitement du signal numérique audio plutôt
il vous donnera tout comme la base
les fondations dont vous aurez besoin pour être aussi profondes
apprendre dans ce domaine mais si vous voulez
en savoir plus sur ce fascinant
sujet comme faites le moi savoir dans le commentaire
section et je peux faire quelques vidéos sur
le sujet avance cool alors allons-y
commencer alors première question alors quoi
sonne bien le son est produit quand
il y a un objet qui vibre et
ces vibrations déterminent la

oscillation des molécules d'air qui
crée essentiellement une alternance d'air
pression et cette haute pression
alterné avec une basse pression provoque une
vague et nous pouvons représenter cette vague
en utilisant une belle forme d'onde et dans ce cas
nous avons comme une très belle vague qui
oscille et nous pouvons le représenter en utilisant
une amplitude et un temps car au
à la fin de la journée c'est une vague c'est juste
comme un point qui tarde aussi avec
différentes comme des amplitudes dans différents
points cool donc il y en a comme quelques
éléments importants d'une onde ou d'un son
vague donc un est la période et la période
nous donne une idée de van quand on a comme
pareil les départs comme ça
une vague donc par exemple ici comme nous avons
un pic et puis nous revenons comme assis
photo suivante et c'est comme la période
qui est comme l'intervalle avant comme
nous revoyons cette photo maintenant la période est
strictement corrélée avec fréquemment
en effet la fréquence est l'inverse de
période donc plus la période est élevée
plus la fréquence est basse et plus la
période plus la fréquence est maintenant élevée pour

décrire une onde sonore dont nous avons aussi besoin
une autre information sur autre chose
qui est bien amplitude et amplitude
est donnée par la distance d'un point à
comme une amplitude nulle dans ce cas
nous pouvons représenter cette onde sonore comme avec
a avec la fonction sinus et ici nous
avoir une représentation mathématique de
c'est une onde sonore et elle est donnée par le
a par a qui est l'amplitude multipliée
par la fonction sinus calculée en 2 pi
F qui représente le temps de fréquence plus
frais ce frais est une lettre grecque qui
représente bien le visage ce que fait le visage
à une forme d'onde c'est fondamentalement comme ça
le décale vers la droite ou vers la gauche
cool d'accord alors maintenant nous avons comme un simple
représentation mathématique de la d'un
forme d'onde alors maintenant regardons comment
une vague comme ces deux fondamentaux
les éléments comme les ondes sonores sont comme
fréquence et amplitude sont liées
avec la hauteur et le volume donc la fréquence et
pitch sont connectés ensemble fondamentalement
ce qui se passe, c'est que des fréquences plus élevées
sont perçus comme plus aigus mais pêche
n'est pas une observable physique est comme un

perceptif est la façon dont nous percevons comme
fréquence et nous le traitons correctement et ainsi de suite
fondamentalement, l'idée ici est que et vous
pouvez
ici avec ce tube soundwaves
comme dans le pain alors quand vous avez comme un
des périodes plus longues, vous avez fondamentalement plus bas
fréquences et ici avec de courtes périodes
vous avez comme des fréquences plus élevées donc
fondamentalement, nous percevions ces certains
vague en bas à gauche comme hauteur plus élevée
puis celui comme euh comme en haut
partie d'accord alors maintenant passons à votre
amplitude et volume bien il y a un
corrélation évidemment il y a une
connexion avec elle amplitude et
volume mais ce n'est en aucun cas comme
linéaire c'est très compliqué mais tout dedans
toutes les amplitudes plus grandes sont perçues comme
Plus fort
bon donc par exemple si nous comparons ceci
des ondes sonores comme à droite donc ça
est aux ondes sonores bleues comme celle sur
le haut est plus silencieux que celui comme sur
le fond cool alors maintenant une chose que j'ai
pense qu'il est important de frapper ici
c'est que quand on parle comme acoustique

ondes sonores, par exemple comme le
le son de ma voix ou le son d'un d'un
piano jouant ce sont des ondes continues
formes droite donc il y a de l'analogique
formes d'onde mais évidemment nous ne pouvons pas vraiment
stocker des formes d'onde analogiques, nous avons besoin d'un moyen de
numériser les termes et pour ce faire, nous
avoir cette conversion numérique analogique
process ou ADC donc quand on fait de l'analogique
la conversion numérique que nous faisons essentiellement
effectuer deux étapes la première est
appelé échantillonnage et le second est
appelée quantification donc lors d'un échantillonnage
et ce que nous faisons, c'est que nous aimons juste l'échantillon
le signal à des intervalles de temps spécifiques
puis on quantifie l'amplitude donnée
et et nous représentons cela avec un nombre limité
nombre de bits alors voyons cela dans
action avec cet exemple ici afin que
tu verras nous
après avoir lu un bel analogique en continu
onde sonore et maintenant nous allons échantillonner
à ces points bleus comme ici qui
sont tous au même intervalle et les
l'intervalle est donné par la fréquence d'échantillonnage
qui est essentiellement le montant de comme
échantillons que nous avons comme dans un dans un

seconde fraîcheur
donc ce qu'on aime à chaque échantillon c'est qu'on
projeter la valeur de l'amplitude
de l'onde sonore analogique au plus proche
bit quantifié que nous avons ici comme sur le
gauche droite donc par exemple si vous si vous
regardez ce point ici pour que vous puissiez voir
donc comme l'amplitude c'est probablement comme
vers six virgule six quelque chose comme ça
mais nous n'avons pas droit à six virgule six
et donc nous allons juste projeter ça sur
le plus proche que nous avons qui est sept
et donc nous allons stocker ces informations ici
comme bien avec un sept maintenant
D évidemment comme vous le verrez ici ils sont
ils vont être comme certains
des erreurs qui s'accumulent tout au long comme
le processus AGC à cause de comme le le
processus d'échantillonnage lui-même et le
quantification mais plus nous avons de bits
pour stocker l'amplitude et mieux
la qualité du son sera si nous
je dois dire comme des métriques ici
quand on fait un DC donc on s'appelle sample
taux et l'autre est appelé bit F
par exemple avec un cd-rom on a un
taux d'échantillonnage de 44 000 et cent

têtes, ce qui signifie essentiellement que nous prenons
plus de 40 000 points amplifiés dans un
deuxième à droite et la profondeur de bits est donnée
par 16 bits pour chaque canal
d'autant plus nostalgique et
comme un geyser de vue
qui aiment vraiment aimer les jeux vidéo ou
les jeux vidéo comme les jeux rétro peuvent
rappelez-vous le soi-disant
Musique 8 bits de Super Mario ou Final
Fantasy comme les premiers à droite
et pour que la musique s'appelle 8 bits
parce que la profondeur de trempage était un peu et
évidemment la qualité de ce son était
un peu pas si génial que ça
par rapport à ce que nous avons maintenant mais toujours
comme si c'était vraiment vraiment sympa cool
donc c'est l'annonce C alors maintenant passons à autre chose et
jetons un coup d'œil au son du monde réel
vagues donc il s'avère que le son du monde réel
les ondes ne sont pas aussi simples que le sinus
vague que nous avons vu avant donc ici pour
exemple on a une forme d'onde pour un piano
clé donc nous aimons juste frapper une touche de piano
et nous nous attendons comme le son
s'estompe essentiellement ici après neuf heures
secondes cool donc c'est comme un désordre

son qu'il y a beaucoup de like
complexité de sorte que la question que nous
pourrait le demander et qui est comme super
légitime c'est comme ce qu'on peut savoir
à propos de ce son parce que je veux dire
il ne semble pas que nous puissions en savoir beaucoup mais
en fait, il s'avère que la nature a
nous a donné comme une façon incroyable de
en savoir beaucoup sur les sons complexes
et c'est donné par un Fourier
transformer et fondamentalement ce que nous faisons avec
la transformée de Fourier est comme la
processus de décomposition d'un son périodique
en une somme d'ondes sinusoïdales qui
vibrer osciller comme à différents
fréquences donc vous pensez que cela
c'est assez incroyable donc on peut décrire
un son très complexe tant qu'il est
périodique comme une somme comme la superposition
d'un tas d'ondes sinusoïdales différentes à
différentes fréquences comme c'est assez
remarquable n'est-ce pas cool alors mais allons
comme essayez d'aimer visualisez ceci parce que
cela pourrait donner l'impression que je sais un peu
abstrait alors commençons comme ça
onde sonore par ici
maintenant cette onde sonore est donnée par le

superposition de ces deux ondes sinusoïdales
d'accord, donc si nous les additionnons, nous obtiendrons
c'est juste assez cool alors voyons voir c'est
comme mathématiquement ici donc si
nous appelons cette onde sonore ou le son rouge
vague cul alors on voit que c'est donné
par l'onde sinusoïdale par rapport à ceci
mec ici plus l'onde sonore dans le sinus
vague comme par rapport à ce gars ici
ce qui est assez cool et si nous si nous prenons
un coup d'oeil ici pour que nous puissions décrire comme
nous avons vu avant comme ça deux ondes sinusoïdales
comme avec l'amplitude avec le
fréquence et avec le visage qui dans
ce cas est nul bon mais quand on fait un
transformée de Fourier, nous sommes particulièrement
intéressé par les amplitudes elles-mêmes
et pourquoi est-ce le cas parce que comme
l'amplitude nous dit combien un
fréquence spécifique contribue à la
son complexe à droite donc plus le
amplitude et plus je sais que ça
fréquence spécifique contribue à
le son complexe que je veux décomposer
droit donc dans ce cas, nous voyons que le
la fréquence un virgule cinq est celle qui
contribue le plus à ce son sur

ici qui est parce que comme l'amplitude
est un virgule cinq, ce qui est bien plus que
notez le point cinq comme pour le cas de
fréquence 4 à droite et ainsi de suite vous pouvez être
je me demande mais quelle est la grande chose
à ce sujet c'est fantastique parce que
maintenant nous savons comme les différents éléments
quel genre de like contribuent à créer
un son complexe c'est comme si comme toi
penser à comme par exemple comme un plat
disons par exemple comme vous avez un
des spaghettis de pâtes comme la tomate
spaghetti juste pour que la forme d'onde soit juste
comme c'est un plat en soi et c'est
difficile à comprendre comme tout
les différentes parties de celui-ci, mais ensuite nous
prendre une transformée de Fourier nous pouvons diviser
ces éléments ces ingrédients et
comprendre que nous avions probablement comme 200
grammes de spaghettis, puis nous avons eu comme un
peu d'ail nous avions 5 feuilles pour
exemple de basilican un basilic à droite et
nous avions bien cent grammes de tomates
donc en gros on peut décomposer l'ensemble
plat dedans dans ses ingrédients et c'est
la même chose que nous pouvons faire avec le
transformée de Fourier nous pouvons décomposer un

son complexe et comprendre comment
différentes fréquences contribuent
à droite alors revenons à la
forme d'onde de notre touche de piano et effectuer un
Transformée de Fourier ici et alors quoi
vous obtiendrez si vous effectuez un Fourier
transformer est ce gars ici qui est
appelé
un spectre de puissance donc et le spectre
nous donne essentiellement la magnitude en tant que
fonction de la fréquence donc ici nous savons
qu'il y a un pic d'une ampleur similaire à
puissance autour de 3000 ouais nous dirions comme 500
comme ici donc la cette fréquence
est très représenté comme dans celui-ci
sonner ici maintenant donc quand nous
faire comme cette transformée de Fourier essentiellement
on passe du domaine temporel vers le
domaine fréquentiel qu'est-ce que cela signifie
bien si vous jetez un oeil à cette forme d'onde
ici donc vous verrez qu'ici nous avons le
amplitude en fonction du temps donc on
sont dans le domaine temporel mais alors quand nous
appliquer la transformée de Fourier dans laquelle nous nous déplaçons
le domaine fréquentiel car ici on
ont en abscisse la fréquence et la
l'amplitude est fonction de la fréquence

lui-même à droite
cool et donc si parce que cela arrive nous
perdre des informations sur le temps donc c'est comme
si c'est un spectre de puissance spécial ici
était un instantané de tous les éléments qui
d'accord pour former ce son là-bas
comme neuf secondes à droite et donc fondamentalement
ce que ce spectre nous dit est
nous disant que ces différents
les fréquences ont des puissances différentes mais
à travers chacun d'eux tous tous
le son ici donc c'est un instantané c'est un
statique qui pourrait être vu comme un
problème parce qu'évidemment audio et
les données musicales sont une série chronologique à droite
donc les choses changent dans le temps et donc nous voulons
savoir comment les choses changent dans le temps
et il semble qu'avec le Fourier
nous transformer nous ne pouvons pas vraiment faire ça donc
il nous manque beaucoup d'informations
c'est vrai mais évidemment il y a une solution
à cela et la solution s'appelle le
transformée de Fourier à court terme ou s DFT
et alors qu'est-ce que l'heure du spectacle Fourier
transformer calcule-t-il plusieurs
transformées de Fourier à différents
intervalles et, ce faisant, il préserve

informations sur le temps et la façon dont le son
comme évolué c'est comme avec le temps
et donc les différents intervalles auxquels
nous effectuons la transformée de Fourier est
donné par la taille du cadre et donc un cadre
est un tas d'échantillons et donc nous corrigeons le
nombre d'échantillons et nous disons d'accord alors
considérons seulement comme par exemple 200
à 2048 échantillons et faire le Fourier
transformer là et ensuite passons à autre chose
changer et passer à autre chose
le reste manque de la forme d'onde et quoi
se passe ici, c'est que nous sommes une donnée
aspect
Oh Graham qui est une représentation qui
nous donne des informations sur la magnitude comme
fonction de la fréquence et du temps donc
regardons le spectrogramme de
la touche de piano qu'on dit comme avant
léger tellement comme ça Soundwave cool tellement
ici, comme vous pouvez le voir, nous sommes de retour
affaires parce que nous avons le temps maintenant ici
sur l'axe des abscisses mais nous avons aussi
fréquence sur l'axe des ordonnées et nous avons une
troisième axe qui est essentiellement donné par
la couleur et la couleur nous disent
combien une fréquence donnée est présente dans

le son à un instant donné donc par exemple
ici nous voyons que comme vers comme le
commençant au-dessus comme quatre mille Hertz
nous n'avons vraiment pas grand chose
contribution comme du tout il semble
comme ça l'énergie est un peu comme
Je dirais comme autour d'une basse très semblable
la fréquence ici pourrait être comme cinq
cent quelque chose comme ça comme Hertz
à droite et comme vous le voyez ici ceci
spectrogramme ressemble un peu au
forme d'onde de la touche de piano également
car comme vous le voyez comme dans le temps comme tous
de ces fréquences sont un peu comme
se déployant comme l'énergie pour ces
fréquences parce que comme le temps et
ils le son de la touche du piano est juste
comme s'estomper avec le temps cool d'accord donc
maintenant nous avons comme une idée de ce qu'est un
spectrogramme est mais voyons comment nous
effectuer une transformée de Showtime Fourier
un peu comme plus en détail comme
pour comprendre comment cela fonctionne ainsi
ici on part évidemment d'une forme d'onde
comme un jeu d'équipe mmm onde sonore et puis
ce que nous faisons ensuite, c'est que nous aimons fondamentalement
se concentrer uniquement sur une image qui est donnée

par un certain nombre d'échantillons ici et là
ce que nous faisons ensuite, c'est que nous calculons le
Transformée de Fourier ici et puis nous
prendre cette information et nous venons
le projette dans le spectrogramme donc nous nous
mettez-le comme dans le premier intervalle
ici dans le spectrogramme à un instant zéro
en gros et puis on passe comme les
la fréquence ici et puis on passe le
l'ampleur ici et fondamentalement nous nous
peut le visualiser comme une fonction de
de couleur donc maintenant deux choses ici donc ici
J'utilise comme des décibels et comme avec
décibels essentiellement nous appliquons comme un
fonction logarithmique comme deux au
grandeur elle-même et l'autre chose
que je voulais dire, c'est que lorsque nous
effectuer la transformée de Fourier ce que nous
effectuer réellement est la FFT qui est la
transformée de Fourier rapide qui est une sorte
comme une variation du Fourier
transformée qui est utilisée pour effectuer
comme la transformée de Fourier comme façon
plus vite d'accord alors maintenant nous sommes à la
fin de la première itération donc
qu'est-ce qu'on fait ensuite
glisser ici comme sur l'onde sonore

et maintenant nous prenons comme le second comme le
même comme le même genre de comme intervalle
mais la deuxième image donc nous sommes comme
décaler vers la droite et maintenant nous faisons le
même chose donc on calcule le spectre
là par la transformée de Fourier rapide
puis nous projetons cela dans le
spectrogramme, puis nous passons à autre chose
avoir le troisième le quatrième jusqu'à ce que nous obtenions
à la fin et une fois que nous sommes à la fin nous
ont
spectrogramme ahran qui est fantastique
nouvelles cool alors maintenant vous vous demandez peut-être
eh bien, mais pourquoi avons-nous dû apprendre
comme des spectrogrammes comme et tout ça
eh bien ça se passe comme ça les spectrogrammes
sont fondamentaux pour performer comme en profondeur
apprendre comme des applications comme sur l'audio
données bien et en fait comme l'ensemble
pipeline de prétraitement pour les données audio
pour l'apprentissage en profondeur est basé sur
spectrogrammes donc pas surprenant quand on
avoir un ensemble de données, nous commençons avec un tas de
Fichiers WAV si fondamentalement comme une vague
forme comme un son avec ça juste et puis
nous les transmettons en peu de temps
transformée de Fourier et on obtient un

spectrogramme et ensuite nous l'utilisons
spectrogramme comme entrée pour notre immersion
modèle d'apprentissage par ici sympa donc c'est
une façon super sympa de devenir comme un
représentation précieuse pour nos semblables
modèle d'apprentissage en profondeur donc nous aimons juste
concentrez-vous sur le spectrogramme maintenant c'est
comme très différent de ce qu'il était
se produire dans le passé lorsque nous nous concentrions
en savoir plus sur l'apprentissage automatique traditionnel
comme des algorithmes comme une logistique
régression ou super machines virtuelles
comme dans ces cas comme le
pipeline de prétraitement pour les données audio
était assez différent alors jetons un coup d'oeil
à ce moment-là, tout était bien plus
à propos de l'ingénierie des fonctionnalités
à partir de comme une forme d'onde vous
peut prendre beaucoup de choses différentes
des fonctionnalités comme celle-ci et ainsi de suite
l'habitude de faire avant était comme prendre comme
ces fonctionnalités et et pour ce faire, nous
utiliserait essentiellement soit un directement
comme une forme d'onde ou effectuer un Fourier
transformer puis en utilisant comme le
spectre
et vous utiliseriez comme une forme d'onde pour

extraire des caractéristiques du domaine temporel et
vous utiliseriez un spectrogramme pour
l'extraction des caractéristiques du domaine fréquentiel
exemple de comme une fonctionnalité de domaine temporel est
enveloppe d'amplitude un exemple de like
caractéristique du domaine fréquentiel comme spectral
centroïde ou attendre ou flux mais le point
que je veux faire ici est que nous
partir d'une forme d'onde et puis nous obtenons
un tas de fonctionnalités que nous et nous devrions
décider quelles fonctionnalités nous voulons obtenir et
puis nous combinons ces caractéristiques nous
l'agrégat devient dense en quelque sorte en utilisant comme
quelques moyens statistiques exome éminent
l'apprentissage non supervisé comme les modèles et
puis nous les utilisons et nous les nourrissons
caractéristiques dans un algorithme ml comme
régression logistique ou comme super vecteur
machine donc avec les avancées ont comme
l'apprentissage en profondeur tout le processus est devenu un
un peu plus simple parce que
nous n'avons pas besoin de voir comme une préoccupation qui
beaucoup sur l'ingénierie des fonctionnalités parce que
nous utilisons juste le spectre à droite et donc nous
ne pas utiliser comme toutes ces autres choses
c'est pourquoi, comme un modèle d'apprentissage en profondeur
comme pour l'audio comme dans ce cas est

appelé comme un modèle de bout en bout parce que
en gros, vous utilisez juste quelques bases
informations sans trop se soucier
à propos de l'extraction de fonctionnalités spécifiques
maintenant je veux y présenter un autre
caractéristique qui est fondamentale pour la profondeur
apprendre et c'est comme aussi important
sinon plus important que le
spectrogramme lui-même et cette fonctionnalité est
appelait la fréquence mal si subtile
coefficients maintenant pour extraire comme ceux-ci
fonctionnalités comme c'est assez compliqué et
Je ne vais pas entrer dans le
détails car encore une fois nous n'en avons pas besoin
nous devons donc comprendre comme le
intuition entre comme un spectrogramme et
n FCC mais nous n'avons pas besoin d'aimer
comprendre les détails de la mise en œuvre
ici, mais ce que nous devons faire, c'est
comprendre comme quoi au MM FCC's
sont et comment nous pouvons aimer les utiliser à partir d'un
perspective de très haut niveau
un culbute de capture de la FCC et sexuelle
aspects du son donc si vous avez pour
exemple comme un piano et le violon
jouant comme la même mélodie que vous le feriez
ont potentiellement comme le même comme

teneur en pêche la même fréquence et
pareil comme un rythme plus ou moins là
selon les performances mais quoi
changerait est comme tambaran le
qualité du son et les EM FCC sont
capable de capturer ces informations
et pour extraire em FCC nous nous
effectuer une transformée de Fourier et on se déplace
comme du domaine temporel dans si vous aimez
le domaine fréquentiel donc les M FCC sont
fondamentalement comme la fonctionnalité de domaine de fréquence
mais la grande chose le grand avantage
des M FCC sur les spectrogrammes est que
ils se rapprochent de l'audition humaine
système, ils essaient de modéliser la façon dont nous
percevoir comme fréquence droite et ainsi de suite
c'est comme très important comme si vous
alors je veux faire comme des trucs d'apprentissage en profondeur
avoir comme des données qui représentent
la façon dont nous aimons le processus comme
audio maintenant les résultats comme de l'extraction
MF cc est un tas de coefficients c'est
un vecteur M FCC et vous pouvez donc spécifier un
nombre de coefficients différents identiques
généralement dans toutes vos applications musicales
vous voulez utiliser entre 13 et 40
coefficients et encore une fois vous êtes

va calculer tout ça
coefficients à chaque image afin que vous
avoir une idée de la façon dont les EM FCC
évoluent avec le temps cool
Alors maintenant, regardons comme un M
FCC comme représentation ici c'est
comme très similaire à un spectrogramme n'est pas
c'est juste donc ici sur l'axe axe nous
avoir du temps et puis encore c'est le M
FCC est calculé pour le même son
ondule comme ça on monte jusqu'aux ongles je
comme T la touche du piano bien d'accord donc
ici nous avons le temps pour ces neuf secondes
et ici sur le y
on a les différents m coefficients FCC
et ici vous voyez donc c'en est un c'est
deux c'est gratuit
et ici je pense que j'en ai treize
coefficients et maintenant encore comme le
la valeur des coefficients est représentée
avec ces couleurs comme ici et comme
d'habitude comme le plus rouge le plus rouge
il a une valeur comme ici et comme
le plus grand comme la valeur elle-même
bien cool
alors que dire de M FCC dire où
les utilisons-nous bien il s'avère que M

Les FCC sont fantastiques pour un certain nombre de
différentes applications audio
ils ont donc été introduits à l'origine pour
reconnaissance vocale et ils sont toujours
utilisé comme pour la reconnaissance vocale aujourd'hui
assez largement et mais autour du
2000, ils ont également été introduits en
analyse de la musique et nous pouvons donc utiliser M FCC
pour une classification des genres musicaux et
classification des instruments de musique ainsi
donc en ce qui concerne la classification des genres musicaux
dans quelques vidéos, je pense que quelques
vidéos pour lesquelles nous allons utiliser M FCC
classer un tas de comme différents
pistes que nous aurons et décider lesquelles
Est-ce que Chandra est comme eux et nous utiliserons
FCC est pour ça cool alors maintenant encore une fois
tu as vu que je ne suis pas entré en toi comme
les détails mathématiques profonds ou
détails de mise en œuvre à la fois comme le
Transformée de Fourier et M FCC parce que nous
n'en avez pas besoin mais encore une fois si vous êtes
comme intéressé à en savoir plus juste
comme faites le moi savoir dans la section commentaire
et une fois que j'ai fini comme avec la série je
pourrait en fait aimer faire quelques vidéos
à ce sujet et si vous êtes très

intéressé par ce que je pourrais en fait
créer un sérieux sur tout votre numérique
le traitement du signal qui est une fascinante
sujet en soi et tres complexe cool ok
alors maintenant, comment utilisons-nous comme M FCC comme
dans le
pipeline de prétraitement, j'ai sillonné votre
les données c'est fondamentalement la même chose
que nous aimons pour le spectrogramme donc nous
partir d'une forme d'onde une forme sonore
onde sonore puis nous extrayons les M FCC maintenant
nous avons ce M FCC et nous passons le n
FC C's directement dans notre Deep Learning
Bon réseau, donc encore une fois, utiliser M FC C's est
une autre façon d'aimer faire de bout en bout
apprentissage en profondeur avec audio et c'est comme un
très efficace un efficace un cool donc
c'était tout pour ces vidéos quoi de neuf
ensuite bien il s'avère que comme dans ça
vidéo nous avons passé pas mal de temps
parler de choses théoriques et maintenant
comme d'habitude donc comme d'habitude on veut
juste comme tourner comme ça théorique
informations dans une implémentation similaire afin
dans la prochaine vidéo nous allons jouer vite
Fourier transforme un court terme court
temps et transformer de Fourier et avec

- nous allons regarder les spectrogrammes et les spectres
et nous allons les extraire des fcc mais encore une fois
nous n'implémenterons pas ces extracteurs comme
à partir de zéro mais le gouvernail obtiendra
familier avec une bibliothèque audio fantastique
en Python cela s'appelle un libérateur
et c'est comme une bibliothèque que vous
veux vraiment savoir si tu veux utiliser
si tu veux aimer faire des trucs comme dans
audio avec droit d'apprentissage en profondeur à
préparez vos données au frais donc c'est tout pour
cette vidéo ouais j'espère vraiment que tu
apprécié et si c'est le cas comme
d'habitude, abonnez-vous et appuyez sur le
ceinture de notification et si vous en avez
questions n'hésitez pas à les poster dans
la section des commentaires ci-dessous et je verrai
toi la prochaine fois
Anglais (générés automatiquement)
ToutApprentissage profondLeçonsVidéos similaires

Traduire

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Traduire

Transféré par

Droits d'auteur :

Formats disponibles

salut tout le monde et bienvenue dans une nouvelle vidéo

dans le deep learning 400 avec Python

série cette fois nous allons

introduire les concepts de base sur l'audio

le traitement des données et du signal spécifiquement

nous allons nous pencher sur les formes d'onde du son

des concepts comme le volume de la hauteur et des choses

qui sont un peu plus avancés comme

spectrogrammes transformée de Fourier et MF

CC et nous allons avoir besoin de tout

ces éléments parce que ce sont les

bases dont nous aurons besoin pour implémenter l'audio

et les modèles d'apprentissage en profondeur de la musique sont cool

une clause de non-responsabilité est nécessaire ici quelques notes

ce n'est pas une vidéo complète sur

traitement du signal numérique audio plutôt

il vous donnera tout comme la base

apprendre dans ce domaine mais si vous voulez

en savoir plus sur ce fascinant

sujet comme faites le moi savoir dans le commentaire

section et je peux faire quelques vidéos sur

le sujet avance cool alors allons-y

commencer alors première question alors quoi

sonne bien le son est produit quand

il y a un objet qui vibre et

ces vibrations déterminent la

crée essentiellement une alternance d'air

pression et cette haute pression

alterné avec une basse pression provoque une

vague et nous pouvons représenter cette vague

en utilisant une belle forme d'onde et dans ce cas

nous avons comme une très belle vague qui

oscille et nous pouvons le représenter en utilisant

une amplitude et un temps car au

à la fin de la journée c'est une vague c'est juste

comme un point qui tarde aussi avec

différentes comme des amplitudes dans différents

points cool donc il y en a comme quelques

éléments importants d'une onde ou d'un son

vague donc un est la période et la période

nous donne une idée de van quand on a comme

pareil les départs comme ça

une vague donc par exemple ici comme nous avons

un pic et puis nous revenons comme assis

photo suivante et c'est comme la période

qui est comme l'intervalle avant comme

nous revoyons cette photo maintenant la période est

strictement corrélée avec fréquemment

en effet la fréquence est l'inverse de

période donc plus la période est élevée

plus la fréquence est basse et plus la

période plus la fréquence est maintenant élevée pour

une autre information sur autre chose

qui est bien amplitude et amplitude

est donnée par la distance d'un point à

comme une amplitude nulle dans ce cas

nous pouvons représenter cette onde sonore comme avec

a avec la fonction sinus et ici nous

avoir une représentation mathématique de

c'est une onde sonore et elle est donnée par le

a par a qui est l'amplitude multipliée

par la fonction sinus calculée en 2 pi

F qui représente le temps de fréquence plus