Acustica Architettonica – VI

Comfort Acustico in ambienti destinati all’ascolto della parola

Qualsiasi ambiente si consideri quindi non solo le sale da concerto, la corretta comprensione del parlato è un indice di rilevanza per quando riguarda il comfort acustico.

Vista la complessità delle interazioni tra percezione sonora e la diversa natura degli eventi sonori, risulta impossibile individuare un singolo parametro che, in relazione all’attività svolta, esprima la sensazione provata dal soggetto ascoltatore medio.

L’assenza di disturbo ed una buona ricezione sono sicuramente due parametri principali per definire una buona percezione della parola, e sono legati a tutti i fattori visti nei precedenti articoli, quindi dipendendo molto dalla qualità acustica della sala e quello che circonda lo sorgente anche in condizioni aperte, esempio il rumore del traffico e musicale mentre si sta parlando.

Un elevata rumorosità di fondo o un eccessivo tempo di riverberazione pregiudicano l’intelligibilità della parola, intesa come percentuale di parole o frasi correttamente comprese da un ascoltatore rispetto alla totalità delle parole o frasi pronunciate dal parlatore.

Le condizioni definite ottimali per la comprensione del parlato sono dipendenti dalla destinazione d’uso dell’ambiente. Ad esempio in un ufficio open space, devono risultare possibili senza sforzo eccessivo comunicazioni al telefono e fra le persone presenti, ma devono anche essere assicurate esigenze di privacy e concentrazione mentale. In questo caso il rumore di fondo non dovrà essere troppo elevato per non disturbare la comunicazione, ed il tempo di riverberazione non dovrà essere troppo corto per consentire in parte il mascheramento delle comunicazioni confidenziali ed ottenere un’adeguata privacy.

In una sala conferenze od in un aula scolastica, al contrario, un rumore di fondo più basso possibile è un requisito essenziale per conseguire la massima intelligibilità.

Per ottenere una buona ricezione in merito all’ascolto delle parole, si fa riferimento ad un adeguato livello di pressione sonora (Lp), alla sua uniformità di distribuzione spaziale e al contenimento della riverberazione sonora con l’intensificazione delle prime riflessioni per un’ottimizzazione della Chiarezza e Nitidezza.

 

Livello Sonoro (Lp)

Il livello sonoro equivale al campo sonoro, quindi la somma del suono diretto e tutte le riflessioni del campo riverberante. Il livello sonoro come già ampiamento descritto, dipende dalla potenza e direttività della sorgente, dalla distanza di ascolto e dall’assorbimento acustico medio totale dell’ambiente. In questo caso la sorgente sonora è la voce.

Negli ambienti destinati all’ascolto della parola è importante favorire la propagazione dei suoni delle prime riflessioni tramite la previsione di “specchi acustici” (non altro che dei baffle riflettenti come visto in Acustica Edilizia, in questo caso di forma concava per focalizzare il suono in precisi punti di ascolto), posti vicino all’oratore ed orientati verso il fondo della sala, mentre è opportuno ostacolare la propagazione dei suoni dovuti alle riflessioni successive tramite adeguato fonoassorbimento.

 

Tempo di Riverberazione  (T)

La valutazione degli effetti della riverberazione sulla compressione della voce, sono eseguiti sempre con la tecnica tradizione T60.

La riverberazione è fondamentale in quanto che le prime riflessioni contribuiscono al rinforzo della voce, ma se eccessivamente lunga tende a mascherare, per questo si è ricercato il limite di soglia ideale per gli ambienti destinati all’ascolto della voce che generalmente è più breve rispetto a quello che serve per gli ambienti destinati all’ascolto della musica.

Ad un aumento del volume dell’ambiente deve corrispondere un aumento del tempo di riverberazione ottimale, questo è giustificato in quanto che la nostra percezione giustifica ed accetta un lieve peggioramento dell’ascolto in favore di un più elevato valore del livello sonoro. Questo incremento è ben accetto fino ad un valore limite per cui la comprensione del parlato è compromessa. Questo aspetto dipende poi dalla frequenza, più la frequenza è alta e più tempo di riverberazione è consentito dare, più è basse e meno riverberazione è accettata in quanto percepita molto più risonante e mascherante.

Di seguito una tabella indicativa (fig. 1 ) del tempo di riverbero accettato come limite in base alla dimensione dell’ambiente ed alla frequenza, con due valori di riferimento (ottava 125 Hz e banda passante tra 250 Hz e 2 Khz), non chè alla sua destinazione d’uso.

Fig. 1 20200106_001432.jpg

Sono state inoltre proposte alcune relazioni empiriche per il tempo di riverberazione ottimale per il parlato a 500 Hz e 1 KHz:

500 Hz:         Tott,500Hz = 0,5 + 10-4V     s

1 KHz:          Tott,1KHz = k9√V     s

dove k può variare tra 0,3 e 0,4, V è il volume dell’ambiente in m3.

Secondo alcuni autori i valori trovati da questi calcoli possono essere tranquillamente estesi ad un campo di frequenze tra 40 Hz e 10 KHz.

 

Frazioni Energetiche (Ut)

Proposto da Lochner e Burger e semplificato da Bradley, la Frazione Energetica è un parametro che descrive il rapporto tra energia sonora utile alla comprensione ed energia sonora negativa.

E’ strettamente correlato con gli indici di Definizione (D) e Chiarezza (C50), analizzate nell’articolo precedente.

In pratica come anticipato descrive il rapporto tra energia utile (early arriving energy) ed energia dannosa (later arriving energy), la prima corrisponde all’energia riflessa con un ritardo temporale di:

t = 95 ms per Lochner e Burger, 50 – 80 ms per Bradley

la seconda corrisponde alla somma dell’energia riflessa che arriva all’ascoltatore dopo l’intervallo t e dell’energia connessa al rumore di fondo.

Di seguito la formula dell’indice della Frazione Energetica proposto:

20200106_001445.jpg

dove Ct è il rapporto lineare tra l’energia utile e la quota di energia dannosa senza considerare il rumore di fondo. Lr e Lp sono rispettivamente il livello del rumore di fondo ed il livello del parlato nella posizione di ascolto.

Valori ottimali sono:

U50 (quindi calcolato per i primi 50 ms) = + 1 dB in Aule Scolastiche.

U80 (quindi calcolato per i primi 80 ms) = + 4 dB in ambienti di maggiore volume alla frequenza di 1 KHz destinati anche alla musica.

 

Intelligibilità del Parlato

Considerazioni sulla Voce Umana

La voce umana è lo sforzo vocale che permette a noi di comunicare con le persone, il suo inviluppo dipende dall’intensità della sforzo, dal timbro molto legato alla conformazione della bocca ed ai fenomeni di pronuncia.

Nel caso di voce maschile media per un tempo di pronuncia di circa 5 secondi, il livello di potenza sonora media emesso è circa 75 dB, che corrisponde ad un livello di pressione sonora rilevata ad 1 metro dalla bocca del parlatore in direzione frontale di circa 65 dB, pause comprese.

La frequenza di maggiore interesse ai fini di una buona intelligibilità sono quelle comprese tra 300 Hz e 3 KHz, per alcune consonante come le s, f, z, dette anche sibilanti è possibile raggiungere gli 8 KHz.

Di seguito una tabella (fig. 2) rappresentativa del livello di pressione sonora medio per bande d’ottava in base all’intensità del parlato, misurato secondo la procedura prima descritta, in considerazione di messaggi vocali di lunga durata:

Fig. 2 efef.PNG

Si ritiene poi che la dinamica della voce nel caso di una normale conversazione sia di curva 30 dB. Le vocali sono generalmente emesse con maggiore intensità rispetto alle consonanti, di cui alcune consonanti possono essere di carattere impulsivo.

Per questo al fine di una corretta intelligibilità è importante che la sala dove si parla non abbia un acustica tale da rendere le vocali troppo lunghe (riverberanti) rispetto alle più deboli consonanti, al fine di non mascherarle. Le consonanti sono quindi le prime lettere che vengono mascherate e che contribuiscono alla riduzione dell’intelligibilità.

La direzionalità della voce è principalmente dovuta alla diffrazione della testa e alla conformazione della bocca, in cui rientra anche il modo di parlare, bocca chiusa, mezza chiusa, aperta, ecc….che contribuisce inoltre al variare del timbro e intensità della voce a parità di sforzo vocale. Frequenze con lunghezza d’onda simile e più piccola della dimensione della testa saranno più direttive della altre.

La direzionalità della voce è citata graficamente nello standard ANSI 3.5 ed è valutata come nel caso dei diffusori acustici (che vedremo meglio in altre argomentazioni), ponendo il microfono di misura sull’asse 0° (quindi verso la bocca del parlatore, all’altezza della bocca), a distanza di riferimento 1 m, come partenza di analisi e spostandosi con il microfono di misura tutto attorno alla testa (ci sono appositi macchinari robotici che fanno questo lavoro in maniera del tutto precisa, con minime oscillazione e quindi senza interferire sui risultati di analisi) è posibile attraverso apposite formule matematiche che rapportano i vari livelli di pressione sonora ai vari angoli rilevati (come visto in parte anche in argomento Acustica), (più il software di analisi è preciso e meno tollerante e più precisa sarà la misura), determinare l’Indice di Direttività medio della sorgente.

In media l’Indice di Direttività vocale va da 1 a 3 dB, per frequenze inferiori od uguali a 1 KHz, e da 2 a 5 dB per frequenze superiori.

In figura 3 un esempio grafico della direttività della voce in campo libero, con riferimento di misura a 0,5 m:

Fig. 3 580x384px_normalized_free_field_response-compressor.jpg

Come si nota la direttività verticale rimane costante con un livello di pressione sonora di – 1,5 dB per 60° rispetto all’asse 0°, mentre sul piano orizzontale per 60° di riferimento si attesta su di un livello di pressione sonora di – 3 dB, presenta valori di – 2.3 dB rispettivamente a 90° e 180°.

Questo significa che la conformazione della testa crea diffrazione e riflessione tale che contribuiscono ad un aumento dell’energia acustica maggiormente sul piano verticale che orizzontale, permettendo al suono di arrivare più lontano in relazione a chi ci sta di fronte. L’incremento del livello di pressione sonora ai lati è dovuto alla presenza delle spalle.

 

Indici di Intelligibilità

Per quanto riguarda la comprensione del parlato si è già ampiamento parlato della dipendenza dall’ambiente e dall’intesità del suono stesso variabile secondo lo sforzo vocale del parlatore stesso, c’è da dire anche il grado di intelligibilità può dipendere dalla composizione in frequenza di questo spettro audio, dall’andamento temporale e dalla direzionalità, dalla natura linguistica come la struttura grammaticale della lingua e semantica, ossia il senso generale del messaggio.

Diversi sono i test eseguiti per valutare gli indici di Intelligibilità del parlato, il metodo di riferimento più utilizzato è quello di parlatori e gruppi di ascoltatori usando frasi e parole in rima. Da questo si stabilirono degli indici fondati su parametri oggettivi facilmente misurabili e valutabili.

 

Articulation Index (AI)

Questo indice veniva utilizzato come standard alla fine degli anni ’40, come parametro di articolazione nelle linee telefoniche, intorno agli anni ’60 venne poi generalizzato ed applicato anche come indice per l’ascolto binaurale (vedi argomento Psicoacustica).

L’AI è correlato alla percentuale di intelligibilità della comunicazione tra un parlatore ed un ascoltatore posto ad una certa distanza. In fase di calcolo ogni frequenza è opportunamente pesata per tenere conto del diverso contributo di queste sulla intelligibilità complessiva, tra il segnale utile ed il rumore di fondo.

E’ un parametro adeguato alla valutazione in campo libero o in ambienti con minima riverberazione. Se il tempo di riverberazione non è trascurabile, questo indice viene ridotto di alcuni punti in funzione del tempo di riverberazione stesso.

 

Speech Interference Level (SIL)

Proposto da Beranek alla fine degli anni ’40 per valutare la comprensibilità della parola all’interno delle cabine degli aerei, anche questo indice è più adatto per ambienti in cui la riverberazione è trascurabile, è un parametro che pone in relazione il rumore di fondo con la qualità di ascolto, e considera producente interferenza sul parlato il rumore emesso nelle bande di ottava con frequenze di centro banda a 500 Hz, 1 KHz, 2 KHz, 4 KHz.

Ha subito diverse modifiche nel tempo fino alla normativa standardizzata ISO 9921.

Rappresenta il livello di rumore di fondo che interferisce su di una comunicazione verbale tra un parlatore che si esprime con un certo sforzo vocale, ed un ascoltatore, associando a queste condizioni di comunicazione la distanza di massima intelligibilità fra i due interlocutori.

Per fare alcuni esempi di limiti imposti per la corretta valutazione di analisi, il tempo di riverberazione a 500 Hz dovrebbe assestarsi a valori limite di 2 s.

Questa normativa non prevedeva inizialmente l’utilizzo di sistemi di amplificazione, ma solo la voce naturale del parlatore, prevedeva invece che il parlatore potesse utilizzare sistemi di protezione per l’udito (tipo le cuffie). Le recenti modifiche hanno adattato questo indice anche per la valutazione precisa dell’intelligibilità in ambienti più rumorosi e con sistemi di amplificazione elettroacustici.

Di seguito una tabella (fig. 4), che rappresenta le curve medie degli indici SIL di riferimento nelle quattro bande di ottava a 500 Hz, 1 KHz, 2 Khz, 4 KHz, in cui è possibile valutare la distanza massima di ascolto per avere una corretta intelligibilità, in base allo sforzo del parlatore.

Fig. 4 20200106_142150.jpg

Ovviamente più il SIL ha valore elevato e maggiore sarà la comprensione del parlato.

 

Speech Intelligibility Index (SII)

Lo Speech Intelligibility Index è di più generale applicazione ed è ad oggi standardizzato (ANSI S3.5).

Questo indice quantifica l’effetto combinato dell’interferenza del rumore di fondo e della riverberazione sulla riduzione di intelligibilità del parlato.

In pratica si basa sulla teoria di mantenere all’interno dell’ambiente le caratteristiche di modulazione di ampiezza della voce. Per questo è anche chiamato Indice di Modulazione.

Sia l’indice SII che il prossimo STI, si ottengono attraverso una procedura con la quale si determina la riduzione dell’indice di modulazione di un segnale di test, dalla sua emissione alla sua ricezione.

Tale misura si effettua con una sorgente sonora posta nella posizione dell’oratore ed il microfono di misura nella posizione dell’ascoltatore, richiede la generazione di un segnale portante modulato sinusoidalmente in ampiezza. Tale segnale di test deve riflettere le caratteristiche spettrali e temporali di un campione di parlato continuo.

La presenza in ambiente di rumore di fondo, eco e riverberazione riduce la modulazione del segnale in ampiezza percepita.

Questa riduzione della modulazione è matematicamente esprimibile tramite la Funzione di Trasferimento della Modulazione o Modulation Transfer Function (MTF).

La Funzione di Trasferimento della Modulazione quantifica quindi la riduzione dell’intelligibilità del parlato in funzione della frequenza. Per ciascuna frequenza di modulazione il valore MTF è determinato dal rapporto tra l’indice di modulazione del segnale in corrispondenza dell’ascoltatore (m0), e l’indice di modulazione del segnale di test (mi).

Di seguito sono riportati esempi grafici e relative formule (fig. 5):

Fig. 5

20200106_142142.jpg

Da queste analisi viene determinata una famiglia di curve MTF nella quale ogni curva è relativa a ciascuna banda di emissione del segnale vocale, ed è definita dai valori che il fattore di riduzione dell’indice di modulazione m assume per ogni frequenza di modulazione.

Più in dettaglio la misura dell’ MTF si effettua con la sorgente nella posizione dell’oratore ed il microfono in corrispondenza del centro della testa dell’ascoltatore. Si richiede la generazione per ogni banda di frequenza ritenuta utile (da 250 Hz a 8 KHz), di un segnale di test modulato sinusoidalmente in ampiezza, con indice di modulazione pari a 1 (profondità di modulazione del 100%), secondo nove frequenze di modulazione ai valori di frequenza in intervalli di un terzo d’ottava quali: 0,5 Hz, 1 Hz, 1,5 Hz, 2 Hz, 3 Hz, 4 Hz, 6 Hz, 8 Hz, 16 Hz.

Il segnale di test consiste come detto in un rumore casuale tale per cui in campo libero, ad 1 metro di distanza, in ogni livello di banda di frequenza, il suo livello spettrale sia uguale al livello spettrale standard del parlato per lo sforzo vocale considerato.

L’indice di direttività della sorgente deve essere del tutto simili a quella della voce in caso di utilizzo di una sorgente sonora elettroacustica, variabile tra 1 e 3 dB, per frequenze inferiori o uguali ad 1 Khz, e da 2 a 5 dB per frequenze superiori.

Si ottengono cosi i valori di fattore della riduzione dell’indice di modulazione (mf.F), relativi a ciascuna banda di emissione per ciascuna frequenza di modulazione. Con indice di modulazione del segnale di test (mi), pari ad 1. L’indice di modulazione (m0), coincide con il fattore di riduzione dell’indice di modulazione (m).

Per ogni valore di (m), viene calcolato il rapporto segnale/rumore (SNR) apparente, definito come quel rapporto segnale/rumore equivalente che da solo, cioè in assenza di riverberazione, fornirebbe lo stesso valore di (m), ed è dato dalla formula:

20200106_142203.jpg

Il valore SNR viene limitato a – 15 dB e + 15 dB, valori inferiori vengono assunti come – 15 dB e valori superiori assunti come + 15 dB.

Successivamente viene calcolato il valore medio per ogni banda di frequenza, dei rapporti segnale/rumore corrispondenti alle 9 frequenze di modulazione (Rf).

L’indice SII è applicabile anche quando l’ascolto, sia monoaurale o binaurale (vedi argomento Psicoacustica), avviene attraverso un canale di trasmissione lineare (tipo microtelefono) o attraverso sistemi di attenuazione lineare (protettori dell’udito).

E’ calcolato partendo dalla determinazione dei livelli spettrali equivalenti del parlato e del rumore, non chè del livello equivalente della soglia uditiva. Si ottiene cosi il valore attraverso la somma dei contributi energetici nelle diverse bande di frequenza sull’intelligibilità complessiva.

Vari sono i metodi per la standardizzazione di questo parametro, ma entrambi sono molto simili. In generale si deve tenere conto di:

  • 21 Bande Critiche
  • 18 Bande di un Terzo d’Ottava
  • 17 Bande Critiche ad uguale contributo sull’intelligibilità
  • 6 Bande d’Ottava

Per Livello Spettrale Equivalente, si intende il livello spettrale del parlato e rumore, misurati indipendentemente in corrispondenza del centro della testa dell’ascoltatore, con l’ascoltatore assente, in condizioni di comunicazione che soddisfino le condizioni di riferimento.

Queste condizioni di riferimento presuppongono l’ascoltatore in campo libero, posizionato di fronte al parlatore e alla sorgente di rumore i quali devono essere il più omnidirezionali possibili. Nel caso in cui le condizioni di ascolto reali non soddisfino le condizioni di riferimento, questi livelli sono definiti come livelli spettrali che verrebbero misurati nelle condizioni di riferimento, quando all’orecchio dell’ascoltatore sia prodotto lo stesso livello spettrale che esiste nelle circostanza reali. Questa condizione prevede esclusivamente un tipo di ascolto monoaurale o binaurale con stesso segnale ad entrambe le orecchie.

Il livello equivalente per la soglia di udibilità ad una specifica frequenza, è determinato dalla media dei livelli di soglia di udibilità per il gruppo di ascoltatori per i quali si effettua il calcolo del SII.

Il livello di soglia di udibilità è definito come il livello di soglia di udibilità di un suono puro meno il livello di soglia di riferimento. Per un ascolto binaurale il livello equivalente di soglia di udibilità decresce di 1,7 dB rispetto allo stesso in ascolto monoaurale.

I metodi fin qui descritti variano in base alle caratteristiche del sistema di comunicazione, alle tecniche di misura e alla precisione richiesta.

Il metodo più generale, prevede la misura del livello del parlato e del rumore in corrispondenza del timpano dell’ascoltatore, ed è applicabile nel caso di comunicazioni telefoniche o ascolto in cuffia, monoaurale.

Una differente procedura, che esclude questo tipo di comunicazione, è quella di localizzare l’ascoltatore in un campo riverberato, dove il suo orientamento nei confronti del parlatore e del rumore risulta irrilevante, oppure in un campo libero dove il livello di rumore non può essere misurato in assenza del parlato.

La procedura per il rilievo dell’indice SII si basa quindi sulla determinazione della funzione di trasferimento della modulazione (MTF) come precedentemente visto, e del livello spettrale combinato del parlato del rumore (CSNSL) o (Combined Speech and Noise Spectrum Level), come appena visto.

Il livello spettrale combinato del parlato e del rumore CSNSL (Pf), si ottiene misurando, per ogni banda di frequenza, il livello spettrale del segnale di test senza alcuna modulazione, nella posizione dell’ascoltatore.

Dalla determinazione del rapporto segnale/rumore apparente (MTF) e del CSNSL, per ciascuna banda, si calcolano i livelli spettrali equivalenti del parlato (Ef), e del rumore (Nf), secondo la seguente relazione:

20200106_142206.jpg

In figura 6 una tabella indicativa dei valori spettrali standard del parlato per diversi sforzi vocali, per il calcolo dell’indice SII.

Fig. 6 ugiugig.PNG

Un altro tipo di procedura prevede la localizzazione dell’ascoltatore in campo libero o in ambienti con minima riverberazione, con l’ascoltatore posizionato nei confronti del parlatore e di rumore come nelle condizioni di riferimento. E’ applicabile solo se il rumore è indipendente dal parlato. La procedura prevede il calcolo del livello spettrale equivalente del parlato e la misura del livello spettrale del rumore (coincidente con il livello spettrale equivalente del rumore nel caso in cui non siano indossati dispositivi di protezione dell’udito), nella posizione dell’ascoltatore.

In questo caso il calcolo del livello spettrale equivalente del parlato è basata sull’assunzione del livello spettrale del parlato standard ad 1 metro di distanza dalla bocca del parlatore (Ef) in funzione dello sforzo vocale considerato, ottenibili dalla seguente relazione:

20200106_142213.jpg

dove d e d0 sono rispettivamente la distanza tra parlatore ed ascoltatore e la distanza di riferimento di 1 metro.

Qualsiasi sia la proceduta, per il calcolo ultimale dell’indice SII, si tiene quindi conto dei livelli spettrali equivalenti di parlato e rumore e livello equivalente soglia di udibilità, non chè effetti di mascheramento del rumore sul parlato (MTF).

L’MTF da solo non basta, per determinare con precisione gli effetti di mascheramento del rumore sul parlato, si determinano il livello spettrale equivalente mascherante ed il livello spettrale equivalente del rumore interno. Il livello spettrale equivalente mascherante per il SII coincide, per ciascuna banda di frequenza analizzata delle 6 citate, con il livello spettrale equivalente del rumore (Nf).

Il livello spettrale equivalente del rumore interno, è calcolato come somma tra il livello spettrale di riferimento del rumore interno ed il livello equivalente di soglia di udibilità. Il livello spettrale equivalente del rumore interno è definito come fittizio, all’orecchio dell’ascoltatore, che come rumore mascherante, causerebbe un aumento del livello di soglia di udibilità per un suono puro (tonale).

Sempre in figura 4 nell’ultima colonna, sono riporta i valori di riferimento spettrali per il rumore nelle 6 bande di ottava.

Il maggiore tra il livello spettrale equivalente mascherante ed il livello spettrale equivalente del rumore interno è definito come livello spettrale equivalente di disturbo (Df). Tale livello serve per determinare il valore della funzione di udibilità della banda (Af), valore numerico compreso tra 0 e 1 che quantifica l’effettiva proporzione di intervallo dinamico del parlato, che, all’interno della banda contribuisce all’intelligibilità del parlato in condizioni di ascolto non ottimali.

Questo valore si ottiene dal fattore di distorsione del livello del parlato (Lf), dal livello spettrale equivalente del parlato (Ef), e dal livello spettrale equivalente di disturbo (Df), secondo la seguente relazione:

Af = Lf Kf

Kf si determina da:

Kf = (E’f – Df + 15)/30

Il fattore di distorsione del livello del parlato, tiene conto della riduzione di intelligibilità per elevati sforzi vocali dell’oratore. Si ottiene a partire dal livello spettrale equivalente del parlato e dal livello spettrale standard del parlato per lo sforzo vocale normale (Uf) secondo la seguente relazione:

Lf = 1 – (E’f – Uf – 10)/160

I valori superiori a 1 devono essere assunti pari a 1.

Infine l’indice SII si ottiene come somma dei prodotti della funzione di udibilità della banda (Af), per la funzione di importanza della banda (If), estesi a ciascuna banda di frequenze considerata, secondo la relazione:

20200106_234555.jpg

Il valore di If è diverso in funzione del tipo di segnale vocale emesso, ad esempio sillabe prive di senso, parole in rima, brevi frasi, ecc.. In figura 4 sono riportati anche i valori di If riferiti al parlato continuo per le 6 bande considerate.

L’intelligibilità di una conversazione può ritenersi soddisfacente se l’indice SII assume valori superiori a 0,75, valori inferiori a 0,45 caratterizzano una comunicazione insoddisfacente.

 

Speech Transmission Index (STI)

Anche questo indice è di più generale applicazione, utile quindi per applicazioni di valutazione dell’intelligibilità del parlato con e senza sistemi di amplificazione sonora, è standardizzato (IEC 60268-16), e come il precedente SII, quantifica l’effetto combinato dell’interferenza del rumore di fondo e della riverberazione sulla riduzione di intelligibilità del parlato e rientra nella categoria degli indici di modulazione.

La misura molto simile all’indice SII, si effettua con la sorgente nella posizione dell’oratore ed il microfono in corrispondenza della testa dell’ascoltatore.

Si diffonde poi un rumore casuale (come quello dell’indice SII), filtrato per 7 bande di ottava, da 125 Hz a 8 KHz (come già elencate per il SII), e modulato in ampiezza secondo 14 frequenze di modulazione, quali 0,63 Hz, 0,8 Hz, 1 Hz, 1,25 Hz, 1,6 Hz, 2 Hz, 2,5 Hz, 3,15 Hz, 4 Hz, 5 Hz, 6,3 Hz, 8 Hz, 10 Hz e 12,5 Hz, in intervalli di un terzo d’ottava, con indice di modulazione pari a 1 (100%).

Il segnale di test nel caso di una voce non amplificata deve essere generato da una testa/bocca artificiale con caratteristiche di direttività simili a quella della testa bocca umana, ed emissione di livello corrispondente a quello del parlato nelle reali condizioni.

Le prestazioni del sistema di trasmissione, vengono quantificate mediante la funzione di trasferimento della modulazione (MTF) per le 7 bande di ottava, ottenendo 7×14 = 98 valori di fattore di riduzione dell’indice di modulazione per ogni posizione di ascolto.

L’indice di modulazione coincide con il fattore di riduzione dell’indice di modulazione (in quanto 1). I valori possono in ogni caso essere corretti per tener conto degli effetti di mascheramento uditivo.

Ciascuno dei 98 valori viene convertito in rapporto segnale/rumore apparente, indipendentemente dall’effettiva natura del disturbo che ha originato tale valore (lo stesso del caso precedente).

Anche in questo caso i rapporti segnale/rumore apparente vengono limitati all’intervallo – 15 dB e + 15 dB.

Ogni rapporto segnale/rumore apparente è convertito in indice di trasmissione (TIf,F), compreso in un intervallo tra 0 e 1:

20200106_234631.jpg

Per ogni banda di ottava viene calcolato l’indice di trasferimento della modulazione (MTIf), come media aritmetica degli indici di trasmissione per le 14 frequenze di modulazione:

20200106_234636.jpg

Infine si calcola l’indice STI come somma pesata degli indici di trasferimento della modulazione per tutte le 7 bande di ottava:

20200106_234643.jpg

I pesi αf e βf sono diversi in relazione al sesso del parlatore e si riferiscono alla importanza di ogni banda nei confronti dell’intelligibilità complessiva.

Di seguito una tabella (fig. 7 ) indicativa dei fattori di pesatura appena elencati, per la determinazione dell’indice STI:

Fig. 7

hrgsfss.PNG

L’indice STI è stato correlato a scale soggettive di intelligibilità come quella riportata di seguito (fig. 8 ):

Fig. 8

ggsgs.PNG

Il metodo STI non deve essere utilizzato se il canale di trasmissione introduce spostamenti in frequenza o moltiplicazione di frequenze come ad esempio i sistemi di riduzione dell’effetto Larsen basati sugli spostamenti in frequenza o sistemi a banda laterale unica; sistemi che introducono moltiplicazione della frequenza quali nastri riprodotti a velocità sbagliata e sistemi che utilizzano la codifica del segnale vocale quali i VOCODER, i codificatori basati su l’impiego dei coefficienti di predizione lineare (LPC), predittori lineari di tipo CELP e RELP etc.

 

Rapid Speech Transmission Index (RASTI)

Il RASTI standardizzato (IEC 60268-16) non è altro che una versione semplificata dello STI.

Consiste sempre nella misura della riduzione in modulazione di un segnale di prova emesso nella posizione dell’oratore.

La misura si effettua con la sorgente nella posizione del parlatore ed il microfono in corrispondenza della testa dell’ascoltatore (come i casi precedenti). Si richiede la generazione di un segnale di test filtrato (rumore rosa) per due bande di ottava 500 Hz (a 59 dB) e 2 Khz (a 50 dB). Per ogni banda si considerano meno frequenze di modulazione con segnale sinusoidale rispetto allo STI. Per la portante 500 Hz le frequenze sono 1 Hz, 2 Hz, 4 Hz, 8 Hz, per la portante 2 Khz sono 0,7 Hz, 1 Hz, 2 Hz, 4 Hz, 5 Hz, 6 Hz, 8 Hz, 11,2 Hz.

La formula per il calcolo del RASTI è la seguente:

bjk.PNG

Dove Xi rappresenta il segnale apparente corrispondente al fattore di riduzione della modulazione misurato dato dalla formula:

sdsvvs.PNG

15 è il rapporto SNR limite.

L’applicazione del metodo è vincolata da alcune caratteristiche del sistema di trasmissione, del rumore di fondo e della riverberazione, tra le quali si possono definire:

– Il sistema di trasmissione deve essere lineare.

– Il rumore di fondo deve essere privo di toni udibili e di picchi marcati e non deve avere carattere impulsivo.

– Il rumore di fondo non deve variare sostanzialmente nel tempo.

– Non devono essere presenti fenomeni di eco e flutter eco.

– Il tempo di riverberazione non deve essere fortemente dipendente dalla frequenza.

 

Speech Transmission Index for Telecomunication Systems (STITEL)

E’ un tipo di indice di intelligibilità del parlato utilizzato per le telecomunicazioni, quindi utile nel valutare una comunicazione a distanza attraverso gli apparati telefonici. E’ anch’esso un metodo semplificato dello STI per arrivare all’identificazione di un indice in tempi di analisi più brevi, come il RASTI ma anche lo STI, ha il difetto principale che risulta sensibile alle distorsioni introdotte dai sistemi di comunicazione.

Come per lo STI ed il RASTI, la determinazione della qualità del messaggio verbale ricevuto da chi ascolta viene eseguita attraverso la stima della perdita del tasso di modulazione di un segnale di prova che simula le caratteristiche del segnale verbale di un parlatore reale ed emesso nella sala da un dispositivo che simula la testa artificiale (come vedremo più avanti in figura 12).
Lo stesso simulatore di torso umano è munito di orecchie artificiali standardizzate che possono ricevere il segnale trasmesso in sala o riprodotto via telefono (in questo caso via telefono).

Il rumore ambientale, la riverberazione del locale e la distorsione del telefono deteriorano il tasso di modulazione del segnale emesso dalla bocca artificiale che giunge all’orecchio di chi ascolta dall’altro capo della linea telefonica rendendo incomprensibile il messaggio verbale ricevuto. In questo caso si rende necessario ridurre al minimo il rumore presente nella sala operativa: questo rumore è quello principalmente prodotto dal vociare degli altri operatori alle altre linee telefoniche che mascherano il segnale ricevuto.

 

Conclusioni

n.b. I Software di analisi basandosi sulla risposta all’impulso registrata, riescono a fornire un dato in tempo reale degli indici appena visti, la corretta analisi dei valori trovati va però ponderata in base al tipo di segnale utilizzato per il test, condizioni del sistema di trasmissione, condizioni ambientali, posizione della sorgente e microfono, in quanto che devono rispettare le condizioni viste per i vari indici.

Alcuni Software di simulazione acustica (cad acustici tipo EASE), una volta creato il modello 3D dell’ambiente, arredamento compreso, posizionati e definiti i dati dei vari materiali assorbenti, è possibile data una posizione della sorgente (in questo caso virtuale, quindi è possibile caricare una sorgente con i dati acustici come dispersione, direttività e risposta in frequenza di un diffusore reale, oppure crearselo, ad esempio per simulare la voce umana), tramite tecnica di rendering Ray Tracing (che vedremo più avanti), vedere questi indici su di un grafico spettrale a colori, al fine di comprendere la distribuzione spaziale dell’indice non solo su di un preciso punto (come nel caso di una misurazione da risposta all’impulso, che sia uno o più punti di ripresa), ma in tutta l’area scelta per l’analisi (fig. 9 – 10 – 11).

Fig. 9 7.png

Fig. 10 8.png

Fig. 11 9.jpg

In figura 9 si nota il modello cad 3d realizzato di un determinato ambiente, compreso di sedute in modalità di visualizzazione wireframe (solo linee) e vista prospettica. In figura 10 il modello dopo applicazione di materiali (per ogni materiale esistono già i preset dei coefficienti di assorbimento, riflessione, ecc.. ma è possibile anche crearse uno custom, e colori, in questo caso in vista shadow (ombreggiata) e vista prospettica. E’ possibile identificare la posizione della sorgente virtuale (quadratino rosso) e la posizione dei microfoni di ricezione virtuali (quadratini blu).

In figura 11 la distribuzione di esempio dell’indice RASTI (definita in falsi colori), vista in pianta, ma è possibile anche in vista prospettica ed altre. Sulla sinistra la legenda di riferimento dell’indice RASTI in base al colore (in certi casi modificabile), in questo caso più tende al blu e meno intelligibilità ci sarà. Attraverso i microfoni virtuali posizionati è possibile in ogni caso avere dei punti precisi di riferimento dai quali ricavare tutte le informazioni necessarie.

Tutto questo è possibile non solo con gli indici di intelligibilità ma a seconda del software, con i vari parametri visti fino ad ora e che vedremo anche più avanti.

Dal punto di vista Hardware, l’utilizzo di microfoni di misura più lineari possibile (vedi quelli a condensatore) è fondamentale per avere la più trasparenza possibile nella più ampia banda utile ai test, a parte questo la qualità di un microfono a condensatore/di misura è valutabile in diversi parametri come già ampiamento visto in argomento Microfoni.

Per questo particolare utilizzo (misurazione dell’intelligibilità della voce) ma anche per altri scopo di test, esistono dei modelli strutturali di mezzi busto con collo e testa, realizzati per simulare la reale percezione, riflessione e rifrazione del corpo umano, sia alla percezione (tramite microfoni di misura a condensatore posti opportunamente nelle orecchie a simulare i timpani), che alla diffusione del suono (tramite bocca, in cui è inserito un apposito diffusore acustico, ed in cui il sistema cavità della bocca + diffusore è opporunamente tarato a circa 1 metro di distanza dalla bocca in asse a 0°, per simulare il più possibile la risposta in frequenza, timbro, dinamica della voce umana, maschile e femminile, tramite appositi preset).

Questo busto è quindi utilizzabile sia per rilevare possibili indici di intelligibilità simulando il più realmente possibile l’ascolto umano, sia poterlo utilizzare al posto di un vero oratore.

In figura 12, 13, 14, il cosi chiamato HATS (Head and Torso Simulator).

Fig. 12 HATS_Type4128-C_600x600.png

Fig. 13 hats-type-4128-c-with-earphone.jpg

Fig. 14 hats-type-4128-c-with-headphones.jpg

Come si vede dalle immagini è utilizzabile per diversi campi:

– Dall’utilizzo come oratore, ai test elettroacustici per ascolto in cuffia,

– Test protettori acustici,nella valutazione della qualità in base al corretto posizionamento anatomico.

– Test delle prestazioni audio dello smartphone in relazione agli standard nazionali e internazionali per la qualità della comunicazione che siano cordless o a cavo,

– Test dell’intelligiblità della comunicazione bidirezionale dell’auricolare in presenza di rumore di fondo e condizioni che possano portare al feedback nel sitema (per gli auricolari con microfono incorporato),

– Misurazione della risposta audio delle cuffie esattamente nel modo in cui un essere umano perepirebbe la qualità.

– Valutazione dell’accuratezza della registrazione del microfono per il parlato umano con variazioni di livello, direttività e sibilanza.

– Misurazione dell’efficacia sigillatura acustica delle protezioni acustiche.

Esistoni anche degli Hardware simulatori di voce esterni, quindi solo il blocco “bocca” con sorgente acustica interna, sempre per la simulazione realistica del parlato (fig. 15).

Fig. 15 4227-A-with-Mic-6

n.b. Questi Hardware vanno ripetutamente calibrati prima di ogni misura, al fine di garantire le perfetta simmetria e attendibilità nella comparazione delle misurazioni, nel rispetto degli standard, in quanto che il microfono può subire degli sfasamenti, dei degradi, può spostarsi dalla sede, per urti ed invecchiamento nel tempo.

 

Altro su Acustica Architettonica

Acustica Architettonica – I (Percezione Ambientale, Definizione della Dimensione, Descrizione Modale, Frequenza di Scroeder, Riverbero, Tempo di Decadimento e Risposta all’Impulso, Fluttuazione dei Modi, Teorie Pratiche).

Acustica Architettonica – II (Campo Perfettamente Diffuso, Campo Riverberante, Definizione degli Ambienti, Riflettore Rettangolare Sospeso, Diffusori di Schroeder, Regime Stazionario, Distanza Critica).

Acustica Architettonica – III (Regime Transitorio, Sabine ed il Tempo di Riverbero, Tempo di Riverberazione secondo la Teoria Classica, Tempo di Riverberazione secondo altre teorie, Assorbimento dell’Aria negli Ambienti Chiusi, Modelli Empirici per Ambienti di Grandi Dimensioni ed Irregolari, Valutazione della Qualità Acustica delle Sale per lo Spettacolo, Requisiti Acustici delle Sale per lo Spettacolo, Attributi Soggettivi della Sale Musicali).

Acustica Architettonica – IV (Generi Musicali e loro Requisiti, Tipologie di Ambienti e loro Requisiti, Prestazioni Acustiche delle Sale, Valori Ottimali per i Criteri di Valutazione, Prime Riflessioni, Parametri Soggettivi, Fattori Soggettivi).

Acustica Architettonica – V (Nitidezza, Definizione, Massa della Sala, Chiarezza, Tempo Centrale, Supporto, Funzione di Autocorrelazione, Spazialità, Frazione dell’Energia Laterale, Impressione Spaziale, Impressione della Sala, Efficienza Laterale, Funzione di Correlazione Mutua Interaurale, Indice di Intensità).

Acustica Architettonica – VII (Test a Vocabolario, ALcons, CIS, Rumore e Disturbo Soggettivo, Noise Criteria, Room Criteria, Balanced Noise Criterion, Noise Climate).

Acustica Architettonica – VIII (Modelli di Simulazione Acustica, FEM, BEM, Acustica Geometrica, Sorgenti Virtuali, Ray Tracing).

Acustica Architettonica – IX (Metodo della Radiosità, Modelli Ibridi, Metodo a Fasci Divergenti, Auralizzazione, Linee Guida Simulazioni Acustiche, Metodologie di Misura in Ambiente Reale).

 

Acquista Attrezzature Audio dai principali Store

 

logo amazon.it

Thomann_logo1

The-new-eBay-logo

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...