Differenze tra Analisi FFT e Spettrogramma

Attraverso il grafico FFT della risposta in frequenza è possibile identificare l’istante o la media della risposta in frequenza di tutta la selezione di analisi per poter capire a pieno la linearità di distribuzione dell’energia associata ad ogni frequenza, identificare alterazioni, livello armonico e filtraggi.

L’overlapping consente di ottenere una maggiore risoluzione, soprattutto per bassi valori energetici e transienti, un esempio di differenza tra 2 analisi con diverso valore di overlapping è mostrato in figura 1.

Fig. 1

In figura 1 abbiamo la sovrapposizione di uno stesso segnale audio stereo ( dinamico ), ( Left in alto – Right in basso ), in cui la linea viola rappresenta un overlapping dello 0 % mentre la linea gialla un overlapping del 99%, si vede chiaramente come vi sia differenza nella rappresentazione dello spettro, in questo caso pure contenuta grazie alla risoluzione della finestra di ponderazione scelta, ma in altri casi molto più evidente. Per maggiore chiarezza in figura 2 uno zoom per notare meglio le differenze di spettro.

Fig. 2

Gli scarti medi si aggirano sui 3 – 4 dB, non poco per un’analisi di precisione.

Un’altra considerazione di esempio che si può fare nell’utilizzo di FFT la possiamo vedere in figura 3 e 4.

Fig. 3

Fig.4

In figura 3 e 4 abbiamo due grafici FFT apparentemente identici, in realtà quello in figura 4 è un audio che nei suoi picchi va sempre in distorsione oltre i + 0,5 dBFS, da questo si capisce come l’analisi FFT della risposta in frequenza non sia adatta a capire i livelli di distorsione del segnale audio se non con l’aiuto di un level meter, in quanto che l’energia che porta a livelli di distorsione è quella complessiva di tutte le frequenze mentre qui è possibile vedere l’energia prodotta da ogni singola frequenza.

Il massimo che si può capire da questo tipo di analisi FFT è che vi è un incremento in dB su tutto lo spettro audio di 2/3 dBFS, si può capire come la risposta in frequenza sia discretamente lineare all’ascolto ( in quanto la pendenza della risposta tende ad approssima i 6 dB/Oct come visto per il rumore rosa ), si può capire inoltre come vi sia un taglio netto della risposta in frequenza sui 15/16 Khz ad indicare un file privo di frequenze altissime ( possibile file compresso, con frequenze tagliate dal codec ).

Si può vedere anche come l’andamento dello spettro sia tendende ad onde armoniche nel tempo, probabilmente un ripple del codec di compressione ( non di qualità ), soprattutto nella zona delle basse frequenze e nel filtraggio in alta frequenza.

Attraverso il grafico FFT dello Spettrogramma invece è possibile identificare l’istante o una visione completa dello spettro nel suo andamento temporale, attraverso questo è possibile identificare comb filtering, filtri eq, rumori, spazialità di immagine, capire la dinamica di ogni frequenza e del complesso, capire il livello armonico, capire quali frequenze hanno un livello di distorsione, eventuali risonanze e difetti di registrazione/riproduzione, rumori ed interferenze.

Esempio di FFT con Spettrogramma ( fig. 5 – 6 – 7 )

Fig. 5

Fig. 6

Fig. 7

I grafici in figura 5 e 6 sono come per il caso della risposta in frequenza 2 brani simili stereo ( Left in alto – Right in basso ) ma con il secondo ( fig. 6 ) distorto, è possibile vedere un incremento del valore in dB dello spettro audio in figura 6 in quanto che il colore dello spettrogramma è più giallo ( i colori dello spettrogramma sono programmabili, generalmente vanno da 0 dBFS per il bianco a nero per il minimo valore impostato ). E’ possibile rilevare il filtraggio definito anche prima per la risposta in frequenza sopra ai 15 Khz ( in cui il colore dello spettro tende ad ingrigirsi, quindi forti attenuazioni di livello ). E’ possibile rilevare l’introduzione di artefatti e distorsioni in quanto rispetto all’originale in figura 5, quello distorto in figura 6 produce armoniche in alta frequenza oltre i 15 Khz, tagliate invece nel brano originale non distorto. E’ possibile notare un attenuazione del livello del guadagno delle alte frequenze ( dai 40 ai 50 secondi, dai 7 Khz ai 15 Khz, non chè dai 10 Khz ai 15 Khz nell’intorno dei primi 5 secondi ), possibile un filtraggio per creare effetto imbuto, effetto molto più distorto e non omogeneo nel brano in figura 6 ( a confermare una versione distorta ). Sia dalla figura 5 che 6 si può notare un brano molto compresso in quanto che la colorazione di tutto lo spettro tende ad essere omogenea nel tempo.

In figura 7 invece abbiamo un brano differente molto più dinamico, rilevabile dal fatto che nella distribuzione dei colori nel tempo si hanno spesso alternanze tra tonalità di giallo ed arancio. Rilevabile il filtraggio oltre i 15 Khz ed una forte pausa/attenuazione all’intorno dei 3,8 secondi ed un fade-out non omogeneo dai 5 minuti e 40 secondi, in quanto che come si vede dalla distribuzione dei colori, le frequenze basse rispetto a quelle medie ed ancor più alte tendono ad attenuarsi più lievemente ( visto l’andamento spettrale forse non si tratta di un fade-out ma di una coda di riverberazione ).

Un altro esempio di utilizzo dello spettrogramma per come verrà usato nei nostri test è rappresentato in figura 8 e 9.

Fig. 8

Fig. 9

In considerazione di un segnale costante a tutte le frequenze, in figura 8 abbiamo un campionamento a 44.1 Khz ed in figura 9 un campionamento a 384 Khz, è possibile da questa comparazione dedurre come un campionamento più elevato sia riconoscibile da una mappatura di punti più densa, più linee e punti come si vedono cerchiati di rosso nei due grafici sono espansi e più la risoluzione di campionamento è bassa, mentre più sono stretti e più il campionamento è alto. Una differenza di quantizzazione sarà invece chiaramente visibile come vedremo nei nostri test, per livelli di segnale dinamici ed ancor più di basso livello.

n.b. Per capire a pieno se un segnale audio porta in distorsione lo stadio di ingresso o di uscita di un hardware o software è comunque e sempre più utile l’utilizzo di un meter e/o processori di rilevamento anti-clipping. Per capire la profondità di immagine e spazialità di un mix stereo o multicanale, sia l’FFT della risposta in frequenza che spettrogramma non sono molto indicati a meno di non avere segnali molto differenti, molto più precisi e chiari sono invece appositi tool chiamati Stereo Scope ( per lo stereo ) o Image Scope ( per stereo e/o surround ).

Per quanto riguarda l’analisi di precisione dell’FFT che sia risposta in frequenza o spettrogramma è possibile capire il necessario utilizzo di impostazioni risolutive dai grafici rappresentati dalle figure 10 – 11.

Fig. 10

Fig. 11

La figura 10 mostra la risposta in frequenza di un rumore bianco della durata di 5 secondi analizzata con una risoluzione FFT di 1024 sample ed uno 0 % di overlapping. La figura 11 invece mostra sempre la risposta in frequenza FFT dello stesso rumore con stessa durata ma una risoluzione di 26200 sample ed uno 0 % overlapping. E’ chiaro come aumentando il numero di sample analizzati vi sia una maggiore precisione di analisi nella risposta in frequenza campione per campione.

Lo stesso risultato è possibile vederlo anche attraverso lo spettrogramma in figura 12 e 13.

Fig. 12

Fig. 13

La figura 12 è un FFT con risoluzione di 1024 sample, mentre la figura 13 è un FFT con risoluzione di 65536, chiaro come a parita di overlapping quello in figura 13 sia uno spettro più compatto ed omogeneo ad indicare una maggiore risoluzione di analisi.

In realtà più si aumenta il numero di campioni da analizzare e più verrà richiesta una finestra di analisi temporale ampia dipendente anche dal valore del campionamento utilizzato, per esempio 44.1 Khz di campionamento sono 44.100 campioni in un secondo, se la risoluzione dell’FFT è impostata su 1024 campioni verrà utilizzata una finestra temporale di 23 ms ( sempre in considerazione di un overlapping dello 0% ), mentre se impostiamo una risoluzione di 262144 campioni per avere una maggiore precisione di analisi, avremo una finestra temporale utilizzata di 5 s e 944 ms. Più si aumenta il campionamento del file analizzato e tanto più cala il tempo di analisi necessario in quanto più campioni sono presenti nel medesimo tempo rispetto ad un campionamento più basso. Ad esempio a 96 Khz abbiamo 96.000 campioni in un secondo e a 1024 sample di risoluzione abbiamo un tempo di analisi di 11 ms, ben 12 ms in meno rispetto al campionamento a 44.1 Khz.

Questo significa che per una corretta analisi più il campionamento è basso e più sarà necessario un segnale con tempo di riproduzione ( ms ) ampio.

Ad esempio considerando un impulso molto breve di riferimento ( 4 ms ) con un decadimento di circa 6 dB/oct è possibile vedere come differenti campionamenti diano differenti risposte.

Fig. 14

Fig. 15

In figura 14 abbiamo una risoluzione di 1024 sample a 44.1 Khz, mentre in figura 15 abbiamo sempre 1024 di risoluzione ma con un campionamento di 96 Khz.

Si vede come in figura 14 il tempo dell’impulso non sia sufficente a proiettare correttamente la forma d’onda con un conseguente taglio sulle basse frequenze ed un ripple in medio alta e alta frequenza, fenomeni non presenti invece in figura 15.

Se aumentiamo il tempo di durata del file da analizzare con campionamento a 44.1 Khz avremo una risposta come quella in figura 16.

Fig. 16

In figura 16 vediamo come raddoppiando il tempo di durata dell’impulso il segnale cominci ad essere rappresentato con un decadimento più simile a quello rappresentato dal campionemento a 96 Khz e quindi va a rispecchiare anche più il segnale originale con decadimento di 6 dB/oct, ovviamente però il campionamento a 44.1 Khz è meno risolutivo rispetto a quello a 96 Khz, quindi presenterà anche più step ( tipo comb filtering ) come si vede in figura 16.

A parità di campionamento il numero di sample di risoluzione di analisi è fondamentale per poter catturare correttamente il segnale audio analizzato. Tutti i campioni che sono più brevi della finestra temporale di analisi necessaria per una corretta analisi come precedentemente visto, non saranno correttamente processati. Per esempio a 44.1 Khz abbiamo detto che ci sono 44.100 campioni in un secondo, se impostiamo la risoluzione dell’FFT a 1024 campioni il tempo necessario per una corretta analisi è di 23 ms. Considerando un impulso di 23 ms averemo una risposta in frequenza come quella in figura 17.

Fig. 17

Se aumentiamo al risoluzione dell’FFT inserendo 262144 sample di analisi avremo una risposta in frequenza come quella in figura 18.

Fig. 18

Come si nota in figura 18 lo spettro non presenta risposta in frequenza ad indicare che il tempo di 23 ms di impulso sia troppo breve per una risoluzione di 262144 sample che richiederebbe invece un tempo di analisi corretto di 5 s 944 ms a 44.1 Khz. Tutti i campioni che non vengono prelevati nell’arco di tempo di analisi, in questo caso da 23 ms a 5 s 944 ms con un tempo di non-analisi di 5 s 921 ms, andranno a pesare sull’analisi complessiva mediando un valore di – ∞ ai valori prelevati nei primi 23 ms di analisi, abbassando sempre più il livello complessivo reale della risposta in frequenza fino a valori nulli per elevate risoluzione dell’FFT.

La dimostrazione la si ha impostando una risoluzione dell’FFT a 4098 sample che richiederebbe una finestra temporale di analisi pari a 93 ms, in figura 19 lo spettro risultante.

Fig. 19

Si nota in figura 19 come il livello complessivo del segnale si sia notevolmente abbassato rispetto a quello correttamente ripreso in figura 17, causa dei 70 ms di campioni persi. Oltre a questo come si nota si producono anche numerosi artefatti nella distribuzione energetica delle frequenze.

Per comparazione se consideriamo una traccia audio musicale, l’informazione contenuta ad esempio nei primi 4 ms di ogni finestra se le impostazioni di risoluzione non sono adeguate ne verrà a meno la precisione di analisi.

In aiuto, per poter aumentare la precisione della risposta dell’FFT anche a risoluzioni elevate come può essere 262144 sample vi è l’overlapping.

Un più alto valore o percentuale di overlapping ( sovrapposizione delle finestre di analisi ) farà diminuire il tempo di analisi necessario.

Per esempio a 1024 sample di risoluzione con overlapping a 0 % la finestra di analisi ha bisogno di un tempo pari a 23 ms, se mettiamo il valore dell’overlapping a 99 % il tempo necessario per una corretta analisi diventa di 232 microsecondi ( veramente molto basso ).

L’overlapping consentendo di mantenere un tempo di analisi molto breve permette di alzare il livello di risoluzione dell’FFT, a 262144 sample con 99 % di overlapping abbiamo un tempo di analisi pari a 59 ms ( utile per effettuare test come quelli che eseguiremo avendo segnali costanti nel tempo come impulsi sinusoidali e rumori della dura di 5 s, ben oltre il valore minimo richiesto dalla finestra temporale anche alla più bassa frequenza di campionamento utilizzata per i test, 44.1 Khz ).

In questi esempi si parla di ms di analisi per capire in modo approfondito il funzionamento di una corretto processamento, ma più il tempo di analisi è grande e più questi valori di impostazione fanno la differenza..

Dallo spettrogramma è possibile quindi capire più chiaramente come la finestra temporale di overlapping incida nella precisione di analisi. Per fare qualche esempio vediamo in figura 20 la risposta a 65536 sample con overlapping ( nullo ) per un brano audio della durata di 3 minuti e 57 secondi a 44.1 Khz di campionamento. In figura 21 lo stesso brano con stessa risoluzione ma con overlapping ( 16x per la risposta in frequenza e 32x per l’arco temporale, indici di valore presenti nel software utilizzato, invece che valori percentuali si hanno valori di sovracampionamento ma il principio è lo stesso ).

Fig. 20

Fig. 21

E’ chiaro come la risposta in figura 21 sia ben più definita e precisa rispetto a quella in figura 20.

Per analisi di brani audio, che siano in tempo reale o meno, la risoluzione più adeguata sempre con 99% di overlapping ( od il più alto possibile per quel tipo di analizzatore ) è 16384 sample che consente un tempo di analisi anche alla più bassa frequenza di campionamento 44.1 Khz di 3 ms, tempi più brevi non sarebbero necessari in quanto non rispecchierebbero la reale risposta di impulso dell’orecchio che come massima risoluzione si aggira attorno ai 3 ms in medio-alta frequenza. Se aumentiamo il campionamento è possibile aumentare la risoluzione cosi da migliorare la precisione di analisi, ad esempio a 96 Khz è possibile usare una risoluzione di 32768 sample.

Da tutti questi fattori analizzati si capisce come sia necessaria una mediazione tra la risoluzione della risposta in frequenza ed il tempo di analisi.

	Davide Ruiba su Cavi Audio Analogici –…
	Valter su Cavi Audio Analogici –…
	Davide Ruiba su Cavi Audio Analogici –…
	Valter su Cavi Audio Analogici –…
	massimiliano su Equalizzatori – I

Differenze tra Analisi FFT e Spettrogramma

Acquista Digital Audio Product dai principali Store

Digital Mixer

Digital Converter

Interfacce Audio Digitali

Digital Crossover e Management

Stage Box – Splitter Digitali

Audio Router ed Accessori Digitali

Differenze tra Analisi FFT e Spettrogramma

Acquista Digital Audio Product dai principali Store

Digital Mixer

Digital Converter

Interfacce Audio Digitali

Digital Crossover e Management

Stage Box – Splitter Digitali

Audio Router ed Accessori Digitali

Condividi: