完美世界前传下载,最好看的小说排行,完美世界小说下载

錄音設(shè)備與格式選擇

2021年11月24日

硬件選擇是語音研究中一個(gè)重要且經(jīng)常被忽視的組成部分。有證據(jù)表明，同時(shí)使用的不同記錄設(shè)備之間的差異有時(shí)可能大于發(fā)音人之間的差異(Vogel et al., 2014)。如果硬件不能在實(shí)驗(yàn)室內(nèi)、被試間或跨適應(yīng)癥的研究中得到協(xié)調(diào)，該領(lǐng)域?qū)㈦y以對(duì)研究的準(zhǔn)確性和它們所描述的特征做出具體的假設(shè)。這些限制給那些尋求利用歷史記錄或結(jié)合來自其他中心的數(shù)據(jù)的群體帶來了一個(gè)重大的后勤問題。然而，這些限制在很大程度上局限于為進(jìn)行聲學(xué)分析而進(jìn)行的錄音，而不一定是為臨床醫(yī)生和科學(xué)家使用語音記錄進(jìn)行基于聽眾的知覺判斷。這些假設(shè)提出了硬件選擇和不同配置在研究和臨床中發(fā)揮的作用的重要問題。當(dāng)考慮最佳的語音采集設(shè)備時(shí)，搞明白一些關(guān)于錄音的關(guān)鍵問題是有有益的：

收集語音樣本的目的是什么？（例如，基于聽者的判斷、語言抽樣、廣泛的聲學(xué)特征或細(xì)粒度分析）
在哪里錄音？（例如，在診所，在現(xiàn)場，在家里）
預(yù)算是多少？（例如，團(tuán)隊(duì)是否需要單獨(dú)的設(shè)備，測試是否需要集中進(jìn)行？）
操作者的專業(yè)水平如何？（例如要求即插即用，而不是復(fù)雜的組件配置）

硬件選擇在具體應(yīng)用中并沒有建立起統(tǒng)一標(biāo)準(zhǔn)?？傆幸恍?shí)際的限制，使我們無法組成“最佳”的硬件配置，比如經(jīng)費(fèi)限制，或是專業(yè)硬件知識(shí)不足。

記錄設(shè)備

易于使用、相對(duì)便宜的錄音設(shè)備，如智能手機(jī)的吸引力是顯而易見的。然而，它們的使用有一些注意事項(xiàng)，這限制了它們在一些語音科學(xué)研究中更廣泛的應(yīng)用。例如，麥克風(fēng)的質(zhì)量，通常決定了語音信號(hào)的整體質(zhì)量，這些將在下一節(jié)中進(jìn)行討論。文件類型（壓縮方法）（例如有損壓縮）、采樣率、耐久性和存儲(chǔ)容量也在其效用中起著重要作用。表18.1描述了原型硬件配置的質(zhì)量、便攜性、復(fù)雜性、成本和局限性。

用戶想要選擇分析任何聲學(xué)測量，不受預(yù)算限制，不需要設(shè)備便攜，并獲得用戶專業(yè)知識(shí)，應(yīng)該繼續(xù)應(yīng)用當(dāng)前的黃金標(biāo)準(zhǔn)配置(Vogel&Morgan，2009)。具體地說，帶有獨(dú)立硬盤記錄機(jī)的配置、衰減輸入信號(hào)的獨(dú)立混頻器和與屏蔽室或聲音處理室中的高質(zhì)量麥克風(fēng)相結(jié)合，具有提供適合任何目的的高質(zhì)量信號(hào)的能力。

麥克風(fēng)

所有的語音樣本都使用麥克風(fēng)記錄下來。錄音的質(zhì)量和可靠性受到其規(guī)范的很大影響（詳見表18.2）。為了真實(shí)采集錄音，需要準(zhǔn)確采集信號(hào)的核心特征，包括基頻(f0)、音質(zhì)（聲音頻譜）和通過聲壓級(jí)測量的壓力振幅。對(duì)于頻率，麥克風(fēng)響應(yīng)的范圍應(yīng)該足夠?qū)?/span>，以捕捉完整的聲譜，從最低到最高的感興趣的頻率。理想情況下，麥克風(fēng)的低頻限制應(yīng)低于最低語音頻率（～50Hz），并且麥克風(fēng)的頻率上限應(yīng)高于感興趣的最高頻率（最低8000Hz）。麥克風(fēng)的頻率響應(yīng)應(yīng)為“平”(變化小于2dB)(Svec，J.G.，&Granqvist，S.，2010)。

麥克風(fēng)的指向性很重要。全指向麥克風(fēng)對(duì)聲音有相同的靈敏度響應(yīng)，無論聲音來自哪里，并且非常適合錄制對(duì)話。相反，指向性麥克風(fēng)對(duì)聲音的反應(yīng)則不同這取決于聲源的方向。麥克風(fēng)方向性最常見的例子是心型極性模式，它優(yōu)化了直接來自麥克風(fēng)前方的聲音信號(hào)，同時(shí)最小化來自其他方向的信號(hào)。指向性麥克風(fēng)非常適合捕捉語音/聲音，因?yàn)樗鼈兛梢砸种迫魏伪尘盎颦h(huán)境噪音。但是，在使用頻率響應(yīng)問題時(shí)，應(yīng)該考慮到一些頻率響應(yīng)問題。定向麥克風(fēng)對(duì)壓力梯度很敏感，壓力梯度與空氣顆粒速度成正比，而不是聲壓本身。當(dāng)麥克風(fēng)靠近嘴時(shí)，較低的頻率會(huì)不成比例地提高，這就是這樣一種效應(yīng)。當(dāng)將麥克風(fēng)放在揚(yáng)聲器嘴附近時(shí)，近講效應(yīng)（也譯作“鄰近效應(yīng)”）是很重要的：太近信號(hào)會(huì)扭曲（特別是低頻率和風(fēng)噪），太遠(yuǎn)信號(hào)會(huì)很弱。

麥克風(fēng)與聲源（比如嘴巴）的定位和接近程度是很重要的。建議遵守制造商的要求，因?yàn)樗麄兛梢蕴峁╆P(guān)于麥克風(fēng)的最佳位置和方向的信息。如果制造商沒有指定最佳聲音信號(hào)所需的麥克風(fēng)到嘴巴的距離，建議最小距離為5厘米（～2英寸）。如果指向性麥克風(fēng)要用于嗓音和語音的頻譜測量，麥克風(fēng)規(guī)范應(yīng)包含關(guān)于頻率響應(yīng)平坦的距離的信息，并且應(yīng)在該距離上采集語音樣本。

麥克風(fēng)的噪音水平是它們組成的另一個(gè)顯著的組成部分。麥克風(fēng)的噪音水平（以及本章后期討論的環(huán)境噪聲）應(yīng)顯著低于記錄中預(yù)期的最輕柔的語音水平（the softest phonation）。建議麥克風(fēng)噪聲水平至少比聲音信號(hào)的振幅低15dB。理想情況下，麥克風(fēng)不應(yīng)受到高振幅失真或削波的限制(Svec&Granqist，2010)。

麥克風(fēng)的最佳類型和配置取決于其預(yù)期的用途。一些麥克風(fēng)經(jīng)過高度校準(zhǔn)，容易損壞，可能不適合用于幼兒或經(jīng)常活動(dòng)的發(fā)音人。頭戴式麥克風(fēng)可能不適合敏感人群。對(duì)于單人場景錄音，可以通過使用頭戴的單向或心型指向麥克風(fēng)或頸掛麥克風(fēng)來實(shí)現(xiàn)保持穩(wěn)定口腔到麥克風(fēng)距離的設(shè)置，位于距離口腔約5-10厘米的距離（除非制造商特別規(guī)定）。麥克風(fēng)本身應(yīng)該有一個(gè)平坦的頻率響應(yīng)，內(nèi)部噪音水平至少比最柔和的聲音低15dB，最高水平的動(dòng)態(tài)范圍應(yīng)該高于最響亮的聲音水平（以避免過載或削波）(Patel, Awan, BarkmeierKraemer, Courey, Deliyski, Eadie, … Hillman, 2018; ?vec & Granqvist, 2010)。對(duì)于想了解自己麥克風(fēng)的本質(zhì)和保真度的研究者，可以考慮的以下幾個(gè)步驟：

比較使用了高質(zhì)量的參數(shù)已知的設(shè)備上同時(shí)采集的電子聲音（elec-tronic sounds）和不同的嗓音，并且要保證測量距離相同。
測試不同的嗓音類型（如有非周期性發(fā)聲障礙的男性、女性、兒童）很重要，因?yàn)樾盘?hào)質(zhì)量本身因發(fā)音人而異，麥克風(fēng)準(zhǔn)確捕捉信號(hào)的性能也是如此。
在不同的錄音環(huán)境（如隔音亭、診所測試室）中測試硬件，將提供有關(guān)麥克風(fēng)能力的數(shù)據(jù)，以保持足夠的信噪比。

麥克風(fēng)性能的其他組件也可以進(jìn)行研究，包括頻率響應(yīng)(通過繪制與采集信號(hào)的頻率相對(duì)應(yīng)的估計(jì)聲壓級(jí)dB)、功率譜密度和近講效應(yīng)。例如，有一些研究已經(jīng)從經(jīng)驗(yàn)上比較過不同的麥克風(fēng)(見Parsa, Jamieson, & Pretty, 2001; Patel, Awan, Barkmeier-Kraemer, Courey,Deliyski, Eadie, Hillman, 2018; ?vec & Granqvist, 2010; Titze & Winholtz, 1993; Vogel & Maruff, 2008)。由于麥克風(fēng)規(guī)格和使用方式的高度可變性，應(yīng)該在研究方法中明確報(bào)告所使用的麥克風(fēng)的相關(guān)參數(shù)。

模數(shù)轉(zhuǎn)換和文件格式

采樣和量化是模數(shù)（A-D）轉(zhuǎn)換的重要組成部分。記錄的采樣率（每秒采樣數(shù)）和量化級(jí)別（離散的聲振幅級(jí)別數(shù)）決定了捕獲了多少信號(hào)（Kellogg，1967）。一般認(rèn)為采樣率越高越好，但最優(yōu)的采樣率和量化精度取決于最小要求。奈奎斯特定理(Nyquist，2002)可以作為個(gè)人確定其記錄的最佳采樣率的指導(dǎo)原則。該原則規(guī)定，采樣頻率應(yīng)該至少是感興趣的頻率的兩倍。如果我們考慮到人類語言的大多數(shù)有趣成分都在前10個(gè)kHz內(nèi)，建議使用的最小采樣率為22.05kHz。最常見的采樣率包括44.1、22.05、11.025、32、24和16kHz。

實(shí)際上，模數(shù)轉(zhuǎn)換一般通過計(jì)算機(jī)自帶的聲卡，但最好是用外部模數(shù)轉(zhuǎn)換設(shè)備（音頻接口或外部聲卡），通過USB或其他端口連接到計(jì)算機(jī) (Patel, Awan, Barkmeier-Kraemer, Courey, Deliyski, Eadie, & Hillman, 2018)。在選擇合適的外部聲卡時(shí)，最低規(guī)格包括：大于44.1kHz的采樣率，最低分辨率為16位（首選24位），并且與麥克風(fēng)規(guī)格類似——比最安靜的聲音低至少10dB，以及可調(diào)增益，以確保最響亮的聲音能夠在不過載或削波的情況下被捕獲(Patel, Awan, Barkmeier-Kraemer, Courey, Deliyski, Eadie, & Hillman, 2018)。

數(shù)據(jù)如何存儲(chǔ)正逐漸成為語音研究中的一個(gè)小問題。我們現(xiàn)在可以訪問一個(gè)似乎是無限的存儲(chǔ)容量，這意味著我們幾乎不需要以有損的壓縮格式保存文件（從而縮小每個(gè)文件的大?。?。理想情況下，文件應(yīng)該以其未壓縮的脈沖碼調(diào)制(PCM)格式存儲(chǔ)，以保持捕獲信號(hào)的完整性。PCM是CD中使用的標(biāo)準(zhǔn)音頻文件格式（采樣率為44.1kHz和16位量化精度）。存儲(chǔ)這些未壓縮信息的文件類型的示例有：RIFF（例如.avi, .wav）)和AIFF（例如.aif）。如果文件是被壓縮的（如.MP3壓縮格式）信號(hào)質(zhì)量的損失將導(dǎo)致聲學(xué)分析結(jié)果的穩(wěn)健性/有效性/可靠性的變化(Vogel&Morgan，2009)。雖然MP3文件比.wav文件使用更少的空間來表示錄音，但為了減少文件的大小，一些音頻細(xì)節(jié)丟失了。因此，盡管音頻聽起來非常類似于一個(gè).wav文件，信號(hào)的質(zhì)量已經(jīng)顯著降低。因此，目前建議語音文件以PCM格式存儲(chǔ)，以避免與數(shù)據(jù)分析和信號(hào)質(zhì)量相關(guān)的問題。

上一篇：腦與類腦智能基礎(chǔ)轉(zhuǎn)化與應(yīng)用研究重大科技專項(xiàng)—復(fù)旦大學(xué)神經(jīng)科技創(chuàng)新論壇下一篇：多模態(tài)語義加工中的動(dòng)態(tài)環(huán)路機(jī)制

最熱資訊

熱門標(biāo)簽