www.亚洲精品在线|金瓶梅女主角|55av在线观看|麻豆影视文化传媒软件|欧美午夜日韩一区二区三区电影|91国产精品麻豆视频|亚洲av色综合|91制片厂李琼下载|9277仙踪林果冻传媒|国产91色在线,免费,精品久久久香蕉免费精品视频,全网吃瓜在线,i社3d漫画酒店猎杀小萝莉2

電腦版
您的位置: 長樂新聞網(wǎng) >> 福建新聞 >> 正文

閩南話翻譯系統(tǒng),?廈門大學(xué)團(tuán)隊(duì)早有推出,!

http://duobangwang.com  2022-10-24 11:12:19   來源:廈門日報(bào)  【字號

  10月19日,,在美國Meta公司公布閩南話翻譯系統(tǒng),,Meta首席執(zhí)行官馬克·扎克伯格親自演示系統(tǒng)把閩南話翻譯成英語時(shí),,萬里之外的廈門大學(xué)信息學(xué)院副教授,、智能語音實(shí)驗(yàn)室負(fù)責(zé)人洪青陽收到一大堆朋友的簡訊,,他們迫不及待地想告訴他:小扎對閩南話下手了,!但是,,你們兩年前不是已經(jīng)推出閩南話翻譯系統(tǒng)了嗎,?

  是的!洪青陽科研團(tuán)隊(duì)和廈大人文學(xué)院許彬彬科研團(tuán)隊(duì),,在2019年推出閩南方言人工智能語音系統(tǒng),,這是一個(gè)聽得懂閩南話、會說閩南話,、也可以寫的AI(人工智能)驅(qū)動的閩南話語音翻譯系統(tǒng),,幫助許多人體會用“中國最難學(xué)方言之一”交流的樂趣和便利。

  它能做什么,?

  可實(shí)時(shí)翻譯還能識別文本

  10月22日,,洪青陽在實(shí)驗(yàn)室演示廈大版的閩南話翻譯系統(tǒng)。系統(tǒng)的小助手用閩南話說:聽說現(xiàn)在可以將閩南話翻譯成英語,,真巧,,我們也有閩南話AI……小助手一邊說,系統(tǒng)實(shí)時(shí)把它的閩南話翻譯成中文文字,。

  不僅聽得懂,,系統(tǒng)還會說。洪青陽隨后示范實(shí)時(shí)翻譯,,他用閩南話說:即陣仔有閑無,?系統(tǒng)可以立刻翻譯為普通話“現(xiàn)在有空嗎?”當(dāng)然,用普通話說,,系統(tǒng)也會翻譯成閩南話,,而且是有腔調(diào)的閩南話。小助手說,,翻譯不限短句,,理論上說多長就可以翻譯多長。

  此外,,系統(tǒng)還可以識別不同地區(qū)不同口音閩南話,,包括廈門、泉州,、漳州,、潮汕等地。

  洪青陽團(tuán)隊(duì)認(rèn)為,,從現(xiàn)有資料看,,Meta是語音到語音的翻譯,沒有產(chǎn)生文字,,技術(shù)方案是從端到端,,研究具有開創(chuàng)性,但還不夠靈活,,比如不能形成識別文本,,要延伸到其他應(yīng)用較難。

  在這方面,,廈大版閩南話翻譯系統(tǒng),,有其先進(jìn)性——廈大版還涉及文字,可以將漢字轉(zhuǎn)換合成閩南話發(fā)音,,還有語音識別,、合成工具,可以將閩南話翻譯成普通話,,普通話翻譯成閩南話,。

  美國版閩南話翻譯系統(tǒng)是把閩南話翻譯為英語,洪青陽說,,對于廈大版閩南話翻譯系統(tǒng)來說,,這毫無問題,最難的部分是將閩南話翻譯并顯示為普通話,,而這已經(jīng)解決了,。

  目前,廈大團(tuán)隊(duì)的閩南話翻譯系統(tǒng)已經(jīng)上線,,在微信的小程序搜索“閩南話識別”和“AI語音合成”,,就可以實(shí)現(xiàn)閩南話和普通話的無障礙溝通,。

  洪青陽說,2019年推出系統(tǒng)后,,依舊在不斷完善升級——當(dāng)發(fā)音速度不一,、吞音等情況出現(xiàn)時(shí),系統(tǒng)的背后還有一位“把關(guān)人”,。當(dāng)遇上系統(tǒng)無法識別的語音時(shí),,許彬彬團(tuán)隊(duì)就會進(jìn)行分析,把新的表達(dá)整理成文檔,,擴(kuò)充詞典和句子語料,。與此同時(shí),洪青陽團(tuán)隊(duì)在系統(tǒng)后臺不斷完善算法,,以學(xué)習(xí)到更多口音和生僻詞匯。

  廈大團(tuán)隊(duì)表示,,他們在實(shí)驗(yàn)室完成0到1的研發(fā),,希望有更多人和社會資源參與進(jìn)來,完成1到100的產(chǎn)業(yè)化,,助力于閩南話學(xué)習(xí)和人際交往等等,。

  它牛在哪里?

  聽得懂不同口音的“豬”

  閩南話的AI翻譯,,難度不小,。閩南話存在非常多的多音字,復(fù)雜的文白現(xiàn)象,,有音無字的問題等,,洪青陽說,這對訓(xùn)練模型中語音數(shù)據(jù)與其對應(yīng)音素的正確映射,,帶去較大的麻煩,。

  舉個(gè)例子大家或許就會明白,廈門人經(jīng)常說,,“豬”牽出廈門島就不叫“豬”了,,意思是說,單是“豬”,,島內(nèi)和島外發(fā)音就不一樣,,更不用說廈漳泉地區(qū)了。廈大版的閩南話翻譯系統(tǒng)解決了這類難題,,從目前看,,有三大亮點(diǎn)。

  有地基

  重新建立閩南話發(fā)音詞典

  洪青陽介紹,,翻譯的最大難題是要如何把閩南話發(fā)音拆分為聲母和韻母,,它不同于普通話的聲母韻母,,盡管之前也有一些閩南話的標(biāo)音方法,但是,,廈大團(tuán)隊(duì)發(fā)現(xiàn),,這種自創(chuàng)的閩南話發(fā)音難以和AI有機(jī)結(jié)合起來,因此廈大研究人員自己建立一套兼容各地不同口音閩南話發(fā)音的體系,,等于是為各種口音的閩南話建立一個(gè)基本的“地基”,,當(dāng)然,它不同于普通話發(fā)音,,它是有九個(gè)聲調(diào)的,。

  有資料庫

  囊括廈漳泉多地的語音資料

  建立語音資料庫,用大白話說,,這個(gè)語音資料庫要有足夠多人的語音,,口音要不同,還要有男女老少語音,,這樣,,AI才會通過語音資料庫去識別不同地區(qū)不同口音的閩南話。

  這是基于許彬彬近十年來的研究成果,。許彬彬帶領(lǐng)團(tuán)隊(duì)借鑒整理了大量語音資料——囊括省內(nèi)廈漳泉多地的閩南方言,、文本,甚至收集境外多處講閩南話的地點(diǎn)的語音材料,。

  此外,,每到寒暑假,許彬彬團(tuán)隊(duì)還會去各地進(jìn)行田野調(diào)查,。許彬彬早前接受本報(bào)采訪時(shí)曾介紹:“省內(nèi)的德化,、漳浦、南靖,、東山等,,以及菲律賓北部城市、美國東部地區(qū),,每一個(gè)地點(diǎn)至少要停留5天,,盡可能全面地收集該地區(qū)語音資料?!?/p>

  有模型

  設(shè)計(jì)聲學(xué)模型和語言模型

  洪青陽團(tuán)隊(duì)設(shè)計(jì)了閩南話的聲學(xué)模型和語言模型,,其中聲學(xué)模型與發(fā)音詞典關(guān)聯(lián),盡可能學(xué)習(xí)到各地的口音,,以不斷提升系統(tǒng)的魯棒性(控制系統(tǒng)的穩(wěn)定性),,語言模型則采用具有豐富語料的普通話文本訓(xùn)練,對用戶上下文內(nèi)容進(jìn)行有效約束,。

  洪青陽說,,這里的難點(diǎn)是閩南話拼音和普通話詞匯的對應(yīng),,團(tuán)隊(duì)因此又設(shè)計(jì)了識別詞典,并整合到解碼系統(tǒng)里,,最終能直接用普通話文字顯示識別內(nèi)容,。對于語音合成,洪青陽團(tuán)隊(duì)采用端到端建??蚣?,并做了前端的大量優(yōu)化,使閩南話合成更加自然,,更加逼真,,也更快捷。

  除了許彬彬所提供的語音資料外,,他們還邀請了眾多志愿者參與識別測試,,讓系統(tǒng)“學(xué)習(xí)”不同口音的閩南話。待系統(tǒng)基本“學(xué)會”不同口音的閩南話后,,洪青陽又給系統(tǒng)加大了難度——文讀(讀書認(rèn)字時(shí)教的語音)和白讀(日常生活中廣泛使用的語音)都要會,。

  閩南話中存在大量多音字,有著復(fù)雜的文讀白讀現(xiàn)象,,以“大學(xué)”這一詞為例,就有文讀和白讀兩種讀法,。研究人員對閩南話語音識別采取了特定規(guī)則的發(fā)音詞典標(biāo)注,,并用革新后的算法建立了閩南話語音識別模型。

  為什么選它,?

  全球約七千萬人說閩南話

  在美國Meta公司公布閩南話翻譯系統(tǒng)后,,很多人很吃驚:為什么是閩南話?

  原因也很簡單,,目前,,全世界大約有7000萬人在說閩南話,分布在福建的廈,、漳,、泉地區(qū),臺灣地區(qū),,廣東潮汕,,雷州半島,海南島部分地區(qū)以及浙江溫州部分鄉(xiāng)鎮(zhèn)等,,此外還有廣闊的東南亞,。與此同時(shí),閩南話被稱為“中國最難學(xué)方言之一”,。

  2013年,,洪青陽和許彬彬團(tuán)隊(duì)開始閩南話翻譯系統(tǒng)研究,,洪青陽說,這源于團(tuán)隊(duì)中不少人都是閩南人,,有閩南情懷,。而且,閩南話是我國重要方言之一,。與此同時(shí),,許彬彬深耕閩南方言等漢語方言研究多年。

  當(dāng)然,,Meta公司認(rèn)為,,之所以選擇閩南話,還有一個(gè)原因:為了解決缺乏文字語種的語言翻譯難題,。但是,,洪青陽說,其實(shí)閩南話是有用于書面記載的文字和發(fā)音詞典,。