新疆民族語音語言信息處理重點實驗室于2014年經自治區科技廳批準成立。
1、總體定位
面向國家安全和新疆區域發展戰略需求,立足新疆經濟和社會發展,以重大工程和產業發展為導向,瞄準民族語音語言信息處理方向,開展前瞻性、基礎性、戰略性、系統性研究,建成國內高水平的科學研究基地、人才培養基地、成果產出基地。
2、主要研究方向及目標
重點開展以下三個方向的研究:大數據分析技術研究,自然語言理解技術研究,語言聲學與內容理解研究。
堅持基礎研究不斷深化和創新,使實驗室的基礎研究和應用研究處于國際前沿和國內領先水平;力爭在自然語言處理、大數據分析、語言學習與分析等方面取得一系列的原創性研究成果;通過原創性研究成果的應用,實現關鍵技術和技術集成方案的突破,滿足國家重大戰略需求。通過科研成果向產品轉化的完整的創新價值鏈,推動系列科技成果的產業化和 市場化,為提高人民生活質量服務。
培養和造就一支具有創新活力的中青年學術骨干隊伍,涌現出一批在國際上該領域有影響的學術帶頭人。
針對形成完整創新價值鏈的目標,加強實驗室的研發平臺建設,完善體制與運行機制,發展成為民族信息處理技術的應用基礎研究和關鍵技術研發不可替代的、在國際上具有重要影響的研究單位。
3、主要研究內容
(1)大數據分析技術研究
本方向面向社會穩定與網絡掌控的應用需求,開展面向領域的復雜物體資源訪問與協同及高并發、大數據量的實時傳輸設計與研發;研究業務活動、對象定義與內外在關系,建立多源異構大數據統一表達方法,探尋基于業務要素的領域數據元模型分析技術,解決海量異構數據的共享、交換和集成等問題。開展基于海量數據大規模圖數據的存儲壓縮與表示算法、大規模圖數據計算加速技術開展,研究建立基于領域的知識圖譜,開展各種特性的時空數據的相關性分析、信息挖掘和知識發現。針對宏觀網絡安全態勢,建立高危情報關系圖譜,充分利用高中低位異構多元網絡安全數據,突破多元安全事件建模、安全事件關聯分析、未知攻擊發現和高價值人員畫像等關鍵技術,形成可量化伸縮的描述性態勢因子和重點行業覆蓋的多維多級指標體系,最終實現網絡安全態勢感知原型系統。
本方向研制出的面向領域數據融合與智能分析平臺,在特種設備監管領域包括車用氣瓶電子監管、巴州電梯維保系統、液化氣瓶動態監管,公共安全領域包括汽油銷售信息采集、智慧安防、智慧護邊等,在社會民生領域包括面向人社的數據分析、新疆高考志愿輔助填報系統等應用,為新疆社會穩定與發展發揮了重要作用。研制的網絡安全態勢感知原型系統可應用于面向互聯網的關鍵基礎設施的風險評估,增強國家互聯網絡網站等的安全保障和應急響應能力;同時,還可以應用于面向重要黨政機關的網絡安全保障的國家重要專項任務和安全審查任務,并通過產品轉化后可以進一步在黨政機關和關系國計民生的重要領域進行推廣和應用,采集的相關資源,相關數據可有效支持國家安全相關業務,能有效提升我國在網絡空間安全方面的威脅發現、態勢感知、事件處置、應急響應等方面的整體能力。
(2)自然語言理解技術研究
基于特色語言的自然語言理解,面向機器翻譯、信息抽取、文本分類、語義分析等領域,在復雜形態語言的形態特征分析、語言模型與翻譯模型建模、命名實體識別技術、譯文轉換與生成技術、實體關系抽取、情感分析等方面開展基礎和應用研究。前期研究 “復雜場景下維吾爾語文本發現與機器翻譯”整體成果2019年在以陳國良院士為主的第三方評價中評為“國際領先”水平,其中非受限維漢機器翻譯系統在連續三屆參加全國機器翻譯評測,均取得維漢機器翻譯新聞領域非受限集系統評測第一名,成果在上海、廣州、杭州、溫州、廈門等地部署應用,拓展了信息文化溝通交流渠道,提升了信息獲取與掌控能力,推動了自然語言信息處理領域的技術進步。獲得2019年度自治區科技進步一等獎。
(3)語言聲學與內容理解研究
以國家對語音處理的重大需求為導向,通過對音頻聽感知的基礎研究,試圖發現突破當前自動識別瓶頸的新理論和方法,推動語言聲學和內容理解研究及相關產業的發展。實驗室已形成從基礎研究(音頻聽覺感知)到核心技術(自動語音識別,音頻信號分析,音頻事件檢測,媒體內容分析,社會計算和大數據分析等)再到應用系統的科研組織模式,是國內和國際本領域為數不多的具有規模的、全方位覆蓋相關研究內容的單位。音頻內容理解核心技術達到與國外主流科研機構并駕齊驅的水平。在本領域的國際評測中,先后獲七次世界第一;在國家有關部委舉辦的語音評測中多次獲得第一;近年來在國際頂級刊物發表的論文得到國際主流實驗室的引用和好評;研究成果在多個國家工程得到實際應用并得到相關省部主要領導的高度評價;部分研究成果被國際一流企業采用。在應用方面引領了領域和產業發展:與百度合作推出了國內第一款基于云的語音搜索服務;與阿里巴巴合作推出了國內第一個智能客服系統;與創維合作推出了國內第一款基于語音操控的智能電視;與長虹集團合作推出了國內第一款具有語音操控功能的空調。所研發的音頻水印是第一個通過廣電總局測試達到播放級無損要求的技術,并在中央臺得到應用。與中移在線等合作,為呼叫中心智能客服和商業情報分析提供了高效的解決方案。
4、實驗室的地位與影響力
新疆民族語音語言信息處理重點實驗室團隊長期專注于大數據分析、多語種信息處理、機器翻譯、內容理解技術研究與應用,積累了豐富的信息處理研究開發經驗。已在國際、國內期刊和國際會議發表論文200余篇,累計獲得軟件著作權登記100余項。獲得國家科學技術進步二等獎1項,獲中科院杰出成就獎1項,獲省部級科技進步一等獎5項、二等獎2項。近年來,實驗室承擔各類科研任務50多項,包括:國家重點研究計劃、國家973項目、863項目、國家自然科學基金新疆聯合基金、科技支撐項目等20多項,中科院先導專項等重要項目18項,自治區科技重大專項等項目8項、其它項目10多項。
實驗室開展民族語言自然語言處理語料庫的采集、建設、管理工作。開發了多語種語料標注平臺,建立了復雜場景下的多模態多語種資源庫與知識庫,涵蓋類型包括:語音、視頻、圖片、文本。在這里需要特別說明的是建立了億級規模的多語種語料庫,及其標注知識庫。
成果應用方面,自主研發的多項研究成果已在疆內外等相關部門部署應用。研究成果產生直接和間接經濟效益上億元,顯著推動了新疆信息技術領域的技術進步,為維護新疆地區社會經濟發展、穩定和長治久安提供了強有力的技術支撐。