36氪首發 | 人工智能大數據公司「新譯科技」完成5000萬元 Pre-A 輪融資,側重人工智能文本領域 B 端、G 端業務

來源:鳳凰科技 2017-10-30 07:41:01

原標題:36氪首發 | 人工智能大數據公司「新譯科技」完成5000萬元 Pre-A 輪融資,側重人工智能文本領域 B 端、G 端業務

36氪近日獲悉,人工智能大數據公司新譯科技獲得了5000萬人民幣 Pre-A 輪融資。本輪融資中廈門市美亞梧桐投資管理有限公司,凱泰資本與博將資本合作投資,原天使輪投資機構清華力合繼續跟進。新譯科技天使輪融資於2016年10月完成,截至目前 Pre-A 輪融資資金已全部到位。本輪融資引入的投資機構主要進行公司日後的資源整合和布局,資金主要用於市場拓展、高端人才引進、硬件資源的投入和研究院建設。

數據顯示,2014年全球翻譯行業市場規模大達到371.9億美元,同比增長6.23%,預計2020年將達到530億美元左右。2014年到2016年發生的大事,是以神經網絡作為基礎的神經網絡機器翻譯(NMT),開始在全麵超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯係統的主流標配。

NMT 的基本思想,是以每一個句子作為獨立的神經元,從而打破傳統基於短語的翻譯障礙。此外,NMT 跳過傳統基於短語的機器翻譯中間各種子 NLP 步驟(分詞、詞性標注、句法分析等),用深層的網絡結構去直接學習擬合源語言到目標語言的概率,可以實現監督訓練,不必完全依賴固定數據,這可以在專業領域等資料稀少的環節,獲得更好的翻譯結果 。

新譯科技從事人工智能文本領域,側重在機器翻譯的研發和衍生品的開發。當前國際上主要有穀歌翻譯、微軟翻譯,國內主要有有道和百度,最近也加入了阿裏,騰訊等企業。做機翻的當前這些機構都是大品牌,具有大的流量,新譯側重 B 端和 G 端的落地和應用,產品定位不同,所以與這些大企業在產品定位和服務目標不同。

人工智能主要看三個方麵,大數據、算力和算法。數據方麵,新譯科技投入資金完善數據量,另一方麵協助 B 端用戶構建內部數據,在部分客戶允許的前提下,獲取專有數據。算法上,新譯采用 GPU/FPGA 等硬件,加之神經網絡芯片和雲計算。目前 GPU 訓練速度接近1.5-2倍的速度快於開源框架 Theano、Tensorflow、Torch 的訓練時間。在分布式集群訓練環境下,3-5天的時間就可以訓練一個千萬句對的雙語數據,翻譯速度在836詞/秒(GPU)。算法上則采用了深度學習等機器學習方式。

現在新譯科技涵蓋了包括愛沙尼亞語、保加利亞語、匈牙利語、土耳其語、意大利語、阿拉伯語、荷蘭語、法語、越南語、日語、韓語、捷克語、葡語、德語、西班牙語、英文、俄語、中文等主流的37種語言,當前正在根據用戶的需求不斷更新上線。

據36氪了解到,新譯科技自2015年起至今,從最初的規則統計混合模型,到現在的神經網絡模型,主要更新了三版係統。為了檢驗公開線上的翻譯效果(mt.newtranx.com),新譯科技使用公開的聯合國領域內數據(United Nations Parallel Corpus v1.0)(http://www.lrec-conf.org/proceedings/lrec2016/pdf/1195_Paper.pdf)以及 UM-Corpus(http://nlp2ct.cis.umac.mo/um-corpus/)做了評測。其中公開的 United Nations Parallel Corpus v1.0 為1990年到2014年的數據,新譯科技選擇了所有的外語到中文的雙語數據(英中、法中、西班牙中、阿拉伯語中、俄語中文),另外補充了2015-2016年的聯合國雙語數據每個語言對大約30萬句以及 UM-Corpus 的210萬句英中雙語數據。測試集合選擇 United Nations Parallel Corpus v1.0 中的公開測試集合開發集。下圖給出了以 BELU 值(國際上常用的一個機器翻譯評測標準)作為評測指標的對比圖。從圖中可看出最新版係統翻譯質量較上一版本基本都達到了2個BLEU值的提升,最高提升9個百分點。

圖:新譯科技新老版本NMT引擎對比

當前有一個共識就是,在一定數量的雙語數據中,垂直領域的機器翻譯要比通用的效果好。新譯科技現有37個語種共計103億句對,對公司現存的5.7億句中英雙語數據進行歸類整理,劃分出了25個領域。最終選擇了新聞媒體、IT通訊、專利產權、金融財經、生物醫學、法律合同,工程製造、機械工程、石油化工、旅遊口語作為上線的主要領域。

之所以優先選擇這幾類領域,是因為機器翻譯擅長是敘述性文本的表述和傳達,對於創作性內容(詩歌,散文)並不完美。而這幾個領域正好符合表述相對固定,容易被機器“理解”。

當前新譯側重 B 和 G 端業務,解決的是公安,國安,部隊,政府和互聯網企業的內部需求,采取的是長期合作的模式,定製化的數據和專業化的引擎和係統是當前盈利的主要來源。

在合作過程中,將逐漸完善內部語言服務生態圈,利用自然語言處理解決各種實際中遇到的文本問題。長遠來看,新譯科技在引入資本投資的時候,也會側重資源的整合,如清華力合具有很好的學院資源,美亞梧桐具有很好的公安和大數據資源,凱泰資本擁有的醫學資源,博將資本擁有很多旅遊和海內外金融資源等。

形態上,新譯科技有機器翻譯定製化、翻譯瀏覽器、輔助翻譯係統、翻譯機器人,C 端當前主要是機器翻譯的衍生品,如瀏覽器插件、文檔翻譯、office插件、智譯APP等。

新譯科技的核心優勢之一就是技術資源,公司現有100多人的隊伍中,2/3左右為技術人員,新譯科技創始人團隊來自清華大學、澳門大學、卡耐基梅隴和愛丁堡等國內和國際上從事自然語言處理的頂級實驗室的碩士和博士研究人員。清華投資後,又引入海內外清華從事這方麵的專業人員。

點擊查看原文

相關鏈接