2020-09-02 11:12:07 sunmedia 2819
9月1日消息,,剛剛,,科大訊飛連發(fā)三款訊飛智能錄音筆新品,,型號分別為SR901,、SR702和SR101,,以及首款智能TWS耳機iFLYBUDS,。其中,,SR901和SR702首次搭載離線轉(zhuǎn)寫功能,支持OCR文字提取,,進一步延續(xù)了SR系列在智能轉(zhuǎn)寫,、AI高清降噪和智能編輯等方面的優(yōu)勢,,SR101是訊飛首款500元級錄音筆,相比同價位產(chǎn)品也有著硬件優(yōu)勢和軟件功能上的突破,。
訊飛還面向商務人士的溝通和記錄需求,,推出首款立體聲無線耳機(TWS)iFLYBUDS,擁有通話實時轉(zhuǎn)寫,、智能撥號識別,、通話譯文三大核心AI功能。
科大訊飛副總裁兼消費者事業(yè)群副總裁李傳剛
自2019年5月訊飛首款帶屏錄音筆——訊飛智能錄音筆SR系列推出后,,國內(nèi)錄音筆市場隨之掀起了以AI技術(shù)為依托的品類創(chuàng)新浪潮,。
作為今年科大訊飛的首場線下新品發(fā)布會,此次訊飛不僅補全了智能錄音筆SR系列從入門到旗艦,、再到尊享版市場的拼圖,,同時其首款TWS耳機的發(fā)布,也意味著訊飛智能語音和轉(zhuǎn)寫技術(shù)業(yè)務邊界的突破,。
“秉承著高效辦公,、智慧生活的理念,訊飛消費者業(yè)務已實現(xiàn)連續(xù)三年大于30%的增速,,甚至今年逆勢增長,,在618中獲得22項單品冠軍?!笨拼笥嶏w聯(lián)合創(chuàng)始人&執(zhí)行總裁胡郁在現(xiàn)場談到,。
在他看來,訊飛在AI轉(zhuǎn)寫賽道上,,不僅希望能為文字工作者的記錄場景賦能,,更希望成為每個人的知識管理工具。讓每一位用戶在忙碌之中,,依然可以輕松地備忘信息,、捕捉靈感、記錄觀點,?!白屛覀円煌_啟高效記錄新時代!”胡郁信心滿滿地說到,。
那么,,這次訊飛將會給我們帶來它在智能轉(zhuǎn)寫賽道上的哪些技術(shù)和場景應用創(chuàng)新?這些創(chuàng)新背后又展露了訊飛哪些行業(yè)創(chuàng)新的戰(zhàn)略和思考,?來看現(xiàn)場發(fā)布干貨給我們的答案,。
科大訊飛聯(lián)合創(chuàng)始人&執(zhí)行總裁胡郁
一、讓錄音筆長眼睛:首推離線轉(zhuǎn)寫與OCR識別功能
與上一代產(chǎn)品相比,,訊飛SR901和SR702智能錄音筆的軟硬件性能在轉(zhuǎn)寫,、降噪,、智能編輯等方面都有了明顯升級,同時還新增了不少小而美的AI新功能,,如OCR能力,、圖片拍攝識別文字、拍攝視頻實現(xiàn)字幕等,。
1,、智能轉(zhuǎn)寫:支持無網(wǎng)轉(zhuǎn)寫及12種方言
轉(zhuǎn)寫功能的創(chuàng)新升級可謂是訊飛此次發(fā)布的重頭戲。
為了幫助用戶進一步解決在無網(wǎng)絡環(huán)境下轉(zhuǎn)寫,,以及隱私內(nèi)容轉(zhuǎn)寫的需求,,SR901和SR702錄音筆升級了語音轉(zhuǎn)文字引擎,行業(yè)首發(fā)離線轉(zhuǎn)寫功能,。讓用戶無需在4G/Wi-Fi網(wǎng)絡下就能實現(xiàn)語音實時轉(zhuǎn)寫并立即保存轉(zhuǎn)寫文字,。
針對多語言、多語種的無縫切換識別和轉(zhuǎn)寫,,訊飛推出新一代識別(轉(zhuǎn)寫)引擎——端到端新引擎,,優(yōu)化迭代了端到端語音識別框架。除了純中文與純英文模式識別外,,端到端新引擎還支持中英混合識別場景,,以及普通話-部分方言識別。
三款錄音筆在方言和語種轉(zhuǎn)寫,,以及專業(yè)領(lǐng)域轉(zhuǎn)寫方面也進行了升級,,支持粵語、河南話等12種方言轉(zhuǎn)寫,;藏語,、維吾爾語2種少數(shù)民族語言轉(zhuǎn)寫;中,、英、日,、韓等8種語言轉(zhuǎn)寫,;財經(jīng)貿(mào)易、醫(yī)療,、IT科技等7大專業(yè)領(lǐng)域的轉(zhuǎn)寫,。
2、拾音降噪:最遠拾音15米,,可實現(xiàn)超遠距離錄音與轉(zhuǎn)寫
硬件方面,,SR901采用2顆哈曼MEMS定向麥克風+10顆全向麥克風,SR702采用2顆定向麥克風和6顆矩陣麥克風,,SR10采用1顆定向麥克風+2顆矩陣麥克風,,且支持AI拾音降噪,。
據(jù)稱,訊飛錄音筆最遠拾音距離為15米,,并且還能根據(jù)不同場景自動匹配場景算法,。同時,它還采用非人聲過濾,,能夠自動跳過沒有人聲的冗余錄音,,節(jié)約用戶整理錄音的時間。
實際上,,訊飛錄音筆還采用了前端降噪技術(shù),,基于自研神經(jīng)網(wǎng)絡與傳統(tǒng)信號處理深度結(jié)合的降噪算法(SSA-IME),不僅能有效降低環(huán)境干擾噪聲,,還可消除干擾說話人的聲音,,從而大幅降低語音識別的處理難度。
據(jù)了解,,該技術(shù)使訊飛錄音筆在無喇叭的情況下,,3-10米遠距離轉(zhuǎn)寫效果提升30%;有喇叭的情況下,,超遠距離(20-50m)演講場景轉(zhuǎn)寫效果為90%以上,,這也體現(xiàn)了訊飛在遠距離降噪轉(zhuǎn)寫技術(shù)上的領(lǐng)先性。
3,、智能編輯:上線多人會議說話人分離
針對多人交談會議場景,,訊飛錄音筆上線了其與ASR聯(lián)合建模的說話人分離方案。
此外,,三款訊飛錄音筆升級了6項智能編輯功能:
智能語義分段:根據(jù)語義上下文進行分段,,提升用戶針對轉(zhuǎn)寫文檔的瀏覽體驗;
自動區(qū)分講話人:根據(jù)錄音及轉(zhuǎn)寫結(jié)果自動區(qū)分標注講話人,,針對多人討論場景,,用戶還可快速檢索目標說話人數(shù)據(jù);
口語規(guī)整:可過濾語氣詞,、重復詞,、無意義詞,優(yōu)化轉(zhuǎn)寫內(nèi)容,;
智能摘要:對錄音內(nèi)容進行全面的語義理解與分析,,自動抽取關(guān)鍵信息,形成摘要結(jié)果,;
個人詞庫:用戶可提前輸入專屬詞匯,,實現(xiàn)轉(zhuǎn)寫時的智能編輯優(yōu)化;
文件分享:支持文件分享功能,用戶可自定義多種導出格式或模板,,同時在文件編輯結(jié)束后,,可選擇文件分享至郵件。
4,、絕招:看圖識字,,還能給視頻配字幕
除了聲音記錄和轉(zhuǎn)寫之外,訊飛在三款新錄音筆上也添加了圖像方面的創(chuàng)新應用,,如支持OCR文字識別,、圖片拍攝識別文字、拍攝視頻實現(xiàn)字幕等,。
硬件方面,,訊飛智能錄音筆SR901為后置三攝,包括1300萬高像素主攝像頭,、800萬像素120°超大廣角攝像頭,、800萬像素長焦攝像頭;SR702為800萬像素數(shù)字變焦后置單攝,。
功能方面,,SR901和SR702錄音筆能夠提取并實時記錄圖片上的文字內(nèi)容,還可錄制視頻,,進行實時收音,。
有意思的是,訊飛錄音筆拍攝完成并導出視頻文件時,,支持自動生成字幕和后期編輯字幕,,為錄音筆增添了新的圖像/視頻交互體驗。
二,、解密:訊飛如何突破離線轉(zhuǎn)寫技術(shù)難點,?
在這次訊飛智能錄音筆SR系列的小爆發(fā)背后,是其長達多年的技術(shù)積累和創(chuàng)新,。
據(jù)智東西了解,,此次發(fā)布中最大的技術(shù)亮點在于離線轉(zhuǎn)寫功能。不過,,由于離線轉(zhuǎn)寫對硬件和算法方面都有著較高的要求,,因此實現(xiàn)這項技術(shù)并非易事。
硬件方面,,離線轉(zhuǎn)寫與離線聽寫有著很大差異。
離線聽寫多以短語音為主,,數(shù)據(jù)是偶爾性調(diào)用,,對瞬間運算能力有較大要求;離線轉(zhuǎn)寫多以長語音為主,,數(shù)據(jù)調(diào)用一般持續(xù)1小時或數(shù)小時以上,,對硬件的長時間算力,、CPU功耗和散熱情況等要求更高。
軟件方面,,離線轉(zhuǎn)寫需適配訊飛的離線轉(zhuǎn)寫算法,,實現(xiàn)與云端相當?shù)膶崟r性和準確性。同時,,還要確保整機在長時間的轉(zhuǎn)寫過程中,,溫度始終維持在合適范圍內(nèi),這也是離線轉(zhuǎn)寫算法的關(guān)鍵難點,。
針對這些難點,,訊飛的轉(zhuǎn)寫技術(shù)主要從兩個方面進行了優(yōu)化和創(chuàng)新。
一方面,,訊飛錄音筆采用CPU主頻自適應調(diào)整,、線程數(shù)動態(tài)調(diào)度等方式來緩解設備發(fā)熱情況,以確保設備處于離線轉(zhuǎn)寫運行時工作頻率始終保持穩(wěn)定,。這樣不僅能保障離線轉(zhuǎn)寫的實時性和準確性,,還能保證整機溫度的適宜。
另一方面,,訊飛離線轉(zhuǎn)寫采用和在線轉(zhuǎn)寫幾乎相同的核心算法,,針對錄音筆硬件的特性與指標進行裁剪與適配,包括模型蒸餾,、定點化運算,、多幀并行等技術(shù),以實現(xiàn)流暢運行的目的,。
基于這些突破,,訊飛離線轉(zhuǎn)寫功能在此次新推出的智能錄音筆上實現(xiàn)了首次落地。據(jù)了解,,與云端轉(zhuǎn)寫相比,,訊飛錄音筆離線轉(zhuǎn)寫所損失的準確率低于相對10%。
三,、訊飛首款TWS耳機iFLYBUDS的三大核心亮點
訊飛的創(chuàng)新發(fā)布不僅僅是智能錄音筆,,還有智能TWS耳機iFLYBUDS。
作為訊飛的首款智能TWS耳機,,iFLYBUDS在誕生之初就將目標瞄準了商務應用市場,,滿足商務人士在自駕、通勤和會議等多場景中,,進行高效記錄和溝通的需求,。
具體來看,訊飛智能TWS耳機iFLYBUDS有三大核心優(yōu)勢,分別為通話實時轉(zhuǎn)寫,、智能撥號識別,、通話譯文。
iFLYBUDS通話轉(zhuǎn)文字的功能,,均支持iPhone和安卓手機,,并不需要獲得手機的通話錄音權(quán)限,只需聲音通過耳機即可在App上實現(xiàn)通話語音的轉(zhuǎn)寫,。
1,、通話實時轉(zhuǎn)寫
iFLYBUDS支持常規(guī)電話和網(wǎng)絡電話,包括微信語音,、騰訊會議和釘釘語音等,。在多人會議場景下,iFLYBUDS還支持自動區(qū)分講話人,,方便用戶快速查找通話內(nèi)容,。
通話時,用戶可隨時通過一鍵錄音功能,,將通話過程轉(zhuǎn)文字,,轉(zhuǎn)寫準確率達98%;通話結(jié)束后,,iFLYBUDS將形成智能摘要,,自動提煉通話重點內(nèi)容,并支持對通話內(nèi)容的多終端(手機端和電腦端)分享和編輯,。
2,、智能語音撥號
針對商務人士通訊錄中聯(lián)系人重名、同音等情況,,iFLYBUDS支持用戶通過多種方式區(qū)分人名,,以快速找到正確聯(lián)系人,提升撥號效率,。
一方面,,用戶可通過純語音交互,只說聯(lián)系人姓名即可撥號,;另一方面,,用戶還能通過詞語舉例、歸屬地名稱區(qū)分的方式讓耳機快速撥號,,如“章子怡的章,、立早章”、“北京的章總”,。
3,、通話譯文對照
在外貿(mào)商務交流場景中,,用戶時常會遇到專業(yè)詞生僻等語言溝通障礙。
為了解決這一用戶需求,,iFLYBUDS在用戶進行英語通話時,能變身“翻譯官”,,幫助用戶將通話內(nèi)容實時轉(zhuǎn)譯為漢字,,輔助用戶英語溝通。
除了三大核心功能外,,iFLYBUDS在音質(zhì),、連接、延遲,、續(xù)航和降噪方面也有著自己的特色,。
其中在續(xù)航方面,iFLYBUDS支持2.5小時通話時長,,4小時聽歌時長,,若搭配充電盒使用,可實現(xiàn)最長通話10小時,,最長聽歌20小時,。
在極限使用場景下,iFLYBUDS同時進行通話+錄音+轉(zhuǎn)寫的續(xù)航為2小時,,搭配充電盒的最長使用時長為6小時,。
降噪方面,iFLYBUDS的智能降噪功能采用雙麥克風拾音,,CVC降噪算法,,保證用戶在機場、健身房等嘈雜環(huán)境中的清晰流暢通話體驗,。
此外,,iFLYBUDS還支持智能語音助手、自定義輕擊耳機交互和佩戴檢測等功能,。
訊飛消費者業(yè)務擴軍智能錄音筆,,新玩法押注TWS賽道
科大訊飛堅持做源頭技術(shù)自主創(chuàng)新,我們很榮幸在2019年被列入“實體清單”,。胡郁在發(fā)布會上笑稱,。
美國當?shù)貢r間2019年10月7日,美國聯(lián)邦政府宣布,,將28家中國企業(yè)實體加入“實體管制清單”,,禁止這些企業(yè)購買美國產(chǎn)品。而被列入實體管制清單的多為國內(nèi)人工智能領(lǐng)域國際領(lǐng)先企業(yè),。
盡管如此,,據(jù)發(fā)布會上公布數(shù)據(jù)顯示,2019年,、2020年,,“我們(科大訊飛)的智能錄音筆在天貓、京東電商平臺超過其他錄音筆產(chǎn)品總和,?!?/p>
也是在這個過程中,訊飛生態(tài)產(chǎn)業(yè)鏈中開發(fā)者團隊數(shù)量從2017年1月的53萬,、累計終端17億發(fā)展到今天的開發(fā)者團隊142萬,、累計終端數(shù)29.6億。
據(jù)胡郁介紹稱,,目前科大訊飛的核心技術(shù)分為兩個方面:第一,,參與國家重大戰(zhàn)略規(guī)劃方向——教育、醫(yī)療,、智慧城市,、智慧司法等。在這些方面,,通過科大訊飛的人工智能專家系統(tǒng)替代相關(guān)領(lǐng)域工作人員繁重的工作,,提高工作效率;第二,,服務廣大消費者,。目前科大訊飛發(fā)布的消費類產(chǎn)品已經(jīng)覆蓋移動場景、家庭場景,、辦公場景,、生活場景、學習場景,。2017-1019年,,科大訊飛的消費者業(yè)務從每年6億收入、3億毛利增長到30億收入,、15億毛利,。
今年上半年除去因為疫情影響導致翻譯機市場波動以外,其他硬件產(chǎn)品實現(xiàn)了200%的增長,。
而今年下半年,,對于國內(nèi)人工智能產(chǎn)業(yè)來說,仍是一個逆風期,,科大訊飛仍需要繼續(xù)努力,。
回顧過去幾年錄音筆行業(yè)的發(fā)展,一面是傳統(tǒng)錄音筆市場的破局,,一面是AI技術(shù)的迅速發(fā)展與落地,。
科大訊飛作為一家國內(nèi)老牌智能語音企業(yè),,緊緊地抓住了傳統(tǒng)行業(yè)變革與新技術(shù)迸發(fā)的發(fā)展機遇,與過去自身長達20余年的語音技術(shù)基因相碰撞,,從而催生出AI錄音筆的新品類市場,。
這既是訊飛的優(yōu)勢,也是它的挑戰(zhàn),。從最初簡簡單單的錄音筆到一塊帶屏智能錄音筆,,再到如今訊飛智能錄音筆SR系列的補全,訊飛圍繞語音技術(shù)的AI布局始終具有創(chuàng)新性和挑戰(zhàn)性,。
尤其是訊飛首款智能TWS耳機的誕生,不僅實現(xiàn)了AI轉(zhuǎn)寫等技術(shù)在多個設備的落地和創(chuàng)新應用,,還進一步擴張了自身AI戰(zhàn)略版圖,,將智能語音和轉(zhuǎn)寫賽道的邊界拓寬到錄音筆行業(yè)之外。
至此,,訊飛以智能語音為基礎的產(chǎn)品品類在AI轉(zhuǎn)寫賽道的布局,,已愈發(fā)地多元化。同時,,訊飛基于這些技術(shù)所帶來的跨邊界融合,,也給整個錄音筆和可穿戴設備行業(yè)的創(chuàng)新應用與發(fā)展,提供了一個新的思考路徑和解決方向,。
未來,,訊飛消費者業(yè)務或?qū)⒗^續(xù)打破不同模態(tài)技術(shù)之間的應用與融合,將自身業(yè)務的邊界拓寬到更遠的領(lǐng)域,。
文章來源: 智東西