校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識(shí)庫 > 如何從語音識(shí)別系統(tǒng)中獲得最佳效果

如何從語音識(shí)別系統(tǒng)中獲得最佳效果

熱門標(biāo)簽:電銷機(jī)器人AXB線路 廈門防封電銷機(jī)器人排名 安陽吉信防封電銷卡 天津移動(dòng)電銷外呼系統(tǒng)多少錢 智能外呼系統(tǒng)oem 微信交通地圖標(biāo)注公眾號(hào)安全嗎 谷歌地圖標(biāo)簽怎么標(biāo)注 百度地圖標(biāo)注一個(gè)區(qū)域 辦理達(dá)州400電話
  • 老秦夜譯
  CTI論壇(ctiforum.com)(編譯/老秦):Voci Technologies的Rahul Shankar討論了音頻質(zhì)量,單詞錯(cuò)誤率以及如何從語音識(shí)別系統(tǒng)中獲得最佳效果。
  在數(shù)字音頻領(lǐng)域,音頻質(zhì)量是對(duì)從電子設(shè)備輸出的音頻的準(zhǔn)確性,保真度和清晰度的評(píng)估。
  鑒于音頻是自動(dòng)語音識(shí)別(ASR)系統(tǒng)的主要輸入,因此,音頻質(zhì)量對(duì)于最大化此類系統(tǒng)的性能至關(guān)重要。
  音頻質(zhì)量越差,ASR系統(tǒng)的轉(zhuǎn)錄就越困難,這將導(dǎo)致轉(zhuǎn)錄的準(zhǔn)確性降低。
  Rahul Shankar在Voci的部分職責(zé)包括評(píng)估客戶的音頻質(zhì)量,并向客戶提出個(gè)性化建議,以優(yōu)化其音頻質(zhì)量以生成最準(zhǔn)確的筆錄。
  因此,在本博客中,Rahul Shankar將討論最佳音頻質(zhì)量實(shí)踐,以確保您的ASR系統(tǒng)發(fā)揮最佳性能。
  確保高質(zhì)量的通話記錄
  如果您要錄制和制作音樂,則無需進(jìn)行任何后期處理就可以解決由于樂器錄制不佳而引起的問題。
  不管是什么原因引起的問題(例如,麥克風(fēng)放置不當(dāng),背景噪聲,混響問題),如果原始錄音的質(zhì)量很差,在后期制作中就幾乎無計(jì)可施。
  這幾乎完全適用于語音到文本技術(shù)。與所有其他因素相比,質(zhì)量差的源音頻對(duì)字錯(cuò)誤率(WER)的影響更為嚴(yán)重。
  這就是為什么。人腦具有將聽覺注意力集中在特定刺激上的能力,同時(shí)濾除一系列其他刺激。
  例如,參加聚會(huì)的人可以專注于嘈雜房間中的單個(gè)對(duì)話。(鑒于這種例子的普遍性,這種能力通常被稱為雞尾酒會(huì)效應(yīng)。)
  ASR系統(tǒng)無法做我們?nèi)祟愃茏龅降?-將注意力集中在特定的刺激上。它將所有刺激視為聲音輸入。引入失真的聲學(xué)背景(例如在上面的雞尾酒會(huì)示例中)將大大降低ASR的有效性。
  對(duì)于某些背景噪聲源(例如電視,廣播/音樂,交通噪聲等),識(shí)別引擎可能會(huì)對(duì)其進(jìn)行調(diào)整或解決。
  但是,與語音共享相同頻率范圍的源更具挑戰(zhàn)性。例如,請(qǐng)考慮是否有麥克風(fēng)接聽附近的呼叫中心座席。
  一個(gè)人可以輕松地區(qū)分聲音。一個(gè)ASR系統(tǒng)卻會(huì)發(fā)現(xiàn)非常困難。ASR無法徹底可靠地濾除的任何背景噪聲都會(huì)對(duì)WER產(chǎn)生不利影響。因此,高質(zhì)量的記錄很重要。
  避免錯(cuò)誤的轉(zhuǎn)碼
  代碼轉(zhuǎn)換是一種編碼形式到另一種編碼形式的直接數(shù)模轉(zhuǎn)換,即將文件從一種格式更改為另一種格式。許多呼叫記錄系統(tǒng)都會(huì)這樣做,以最大程度地利用數(shù)字存儲(chǔ)空間。
  在音頻轉(zhuǎn)碼中,有四種轉(zhuǎn)碼類型,每種類型對(duì)ASR轉(zhuǎn)錄的成功都有不同的影響:
  • 無損到無損
  • 無損到有損
  • 有損到有損
  • 有損到無損
  無損到無損轉(zhuǎn)碼是唯一安全且建議的轉(zhuǎn)碼形式,因?yàn)樵诖诉^程中不會(huì)丟失音頻信息。
  例如,從.wav文件轉(zhuǎn)換為.flac文件是無損壓縮的一個(gè)示例,通常用于節(jié)省磁盤空間而不影響質(zhì)量。
  磁盤上以8位/16kHz頻率運(yùn)行的10分鐘單聲道。wav文件約為9.8MB,而flac壓縮后的同一文件約為5.6MB。
  相反,兩種形式的有損轉(zhuǎn)碼都會(huì)降低質(zhì)量。更糟糕的是,壓縮偽像是累積的。這意味著無損轉(zhuǎn)碼將在每次連續(xù)轉(zhuǎn)碼過程中導(dǎo)致質(zhì)量的逐漸損失,這被稱為數(shù)字世代損失。
  此過程是不可逆的,因此也稱為破壞性轉(zhuǎn)碼。因此,強(qiáng)烈建議不要在有損格式之間或之內(nèi)進(jìn)行有損格式的代碼轉(zhuǎn)換,并且可能會(huì)在自動(dòng)轉(zhuǎn)錄過程中產(chǎn)生問題。
  有損到無損的轉(zhuǎn)碼(又稱為上采樣)甚至更糟。它遭受雙重受損。此過程首先從有損文件的音頻質(zhì)量差開始,然后增加未壓縮文件的文件大小。
  由于首先創(chuàng)建(丟失)文件的(破壞性)轉(zhuǎn)碼過程中造成的信息丟失是永久且不可逆的,因此對(duì)文件進(jìn)行無損轉(zhuǎn)碼只會(huì)增加文件大小,而不會(huì)提高質(zhì)量。
  明智地選擇編解碼器
  這有點(diǎn)技術(shù)性,但是在研究通話記錄技術(shù)時(shí),它是一項(xiàng)重要功能。
  語音編碼的目標(biāo)是在給定的比特率下使失真最小化,或在可接受的失真度下使比特率最小化。
  但是,作為這種失真的客觀衡量指標(biāo)的信噪比(SNR)與感知的語音質(zhì)量并沒有很好的關(guān)聯(lián)。
  因此,語音編碼器的性能通常使用主觀評(píng)分方法來衡量,該方法稱為平均意見評(píng)分(MOS)。
  MOS的測(cè)量范圍為0-5.4.0-4.5的值稱為收費(fèi)質(zhì)量,代表用戶完全滿意。
  這是公用電話交換網(wǎng)(PSTN,我們都知道的標(biāo)準(zhǔn)電話網(wǎng))的正常值。它也是大多數(shù)VoIP電話服務(wù)提供商的基準(zhǔn)。
  即使仍可理解,MOS得分等于或低于3.6,也被許多用戶認(rèn)為是不可接受的。
  G711是實(shí)現(xiàn)最佳ASR性能的理想編解碼器。從理論上講,沒有任何編解碼器可以比G711更好地執(zhí)行,因?yàn)樗峁┝俗罴训馁|(zhì)量,沒有壓縮和最低的算法延遲。
  在無法使用G711的情況下,應(yīng)使用在MOS評(píng)估中始終穩(wěn)定在4.0以上的編解碼器,例如G726,G722.1和GSM-EFR。
  聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
  原文網(wǎng)址:https://www.callcentrehelper.com/get-best-speech-recognition-system-158324.htm

標(biāo)簽:臺(tái)州 呼和浩特 麗江 景德鎮(zhèn) 揚(yáng)州 普洱 雙鴨山 寧夏

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《如何從語音識(shí)別系統(tǒng)中獲得最佳效果》,本文關(guān)鍵詞  如何,從,語音,識(shí)別,系統(tǒng),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《如何從語音識(shí)別系統(tǒng)中獲得最佳效果》相關(guān)的同類信息!
  • 本頁收集關(guān)于如何從語音識(shí)別系統(tǒng)中獲得最佳效果的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 遵化市| 承德市| 巨鹿县| 施秉县| 且末县| 龙里县| 呼玛县| 平武县| 辉南县| 抚顺市| 朝阳市| 马公市| 南部县| 阿克| 灌阳县| 武鸣县| 本溪市| 宜州市| 安图县| 镇远县| 柏乡县| 收藏| 克东县| 池州市| 湖州市| 封丘县| 延吉市| 聂荣县| 中江县| 江永县| 嘉祥县| 普陀区| 通辽市| 全州县| 嘉祥县| 洪洞县| 巴南区| 江达县| 太仆寺旗| 丹凤县| 拜泉县|