巨杉數據庫CTO王濤:從大數據地形圖看大數據發展

來源:貴陽晚報 2016-04-22 11:38:00

導讀:矽穀著名投資機構Firstmark近期發布了2016年的大數據行業地形圖,展現了如今大數據廠商的分布。巨杉CTO王濤從地形圖出發對於大數據的發展也有著自己的見解,他認為,想做好企業大數據,其實並不容易。

巨杉CTO王濤

在新興事物收到追捧的科技創新行業中,“大數據”目前正在走向理性與成熟。隨著2006年Hadoop的成立,在2011年到2014年間人們對“大數據”這一概念的興趣達到了狂熱的地步,凡是必提“大數據”。而進入2015年,隨著大數據真正的開始廣泛落地應用在各個領域,大數據這個詞似乎變得非常常見,也開始為大家所接受。同時,2015年以來“大數據世界”裏的“熱血青年”們轉而癡迷於VR、AI這些“更新”的領域,大數據行業也開始趨於冷靜,走向成熟。

矽穀著名投資機構Firstmark近期發布了2016年的大數據行業地形圖(BigdataLandscape2016)。展現了如今大數據廠商的分布。而SequoiaDB也有幸作為進入地形圖的唯一中國企業,我們就來跟大家看看這個大數據地形圖:

關於大數據,有趣的是,它帶給我們的很有可能並不像最初炒作時說的那種體驗。

在科技界受到廣泛關注的產品和服務,往往是那些人們可以觸摸、感覺或涉及得到的,如:手機應用、社交網絡、可穿戴設備、虛擬現實等。然而,針對大數據,從根本上說,它是屬於探索型的。當然,大數據影響著很多消費者或企業的用戶體驗。但大數據的核心還是企業技術,它背後涉及到的數據庫、分析等等並沒有幾個人會看到。大數據同樣是這樣:企業是不可能在一夜之間將一項新技術真正運用起來的。

現在我們正麵臨著一個更大也更棘手的機會:采用大數據技術的企業範圍更為廣泛了,這涵蓋了從中型企業到大型的跨國企業,這些企業在大數據應用過程中走了許多彎路:絕大多數這類公司,現有的技術基礎設施都“能夠湊效”,因此就認為可以通過“自身升級”同時引進一些開源的新技術就可以實現。結果最後不僅搭建起來技術上有眾多“水土不服”,同時更多是現有技術實力不足以支撐大數據新業務的需求。

另一個要去理解的關鍵點是:大數據的成功不是去實現一項技術(像Hadoop或者其他公司),而是要求把技術、人員和流程組合成一條組裝線。你要做到的是獲得數據,存儲數據,清理數據,查詢數據,分析數據,可視化數據。這裏麵有些是由產品本身去完成的,有些則依靠我們人類自身。並且,這一切都需要被無縫整合。最後,要使得它能夠運作起來,整個公司從高級管理層開始,需要致力於構建一個數據驅動的文化,因為大數據不是“一件”事情,而是“一整件”事情。

還有最重要的一點,那就是企業級大數據領域,很難完全靠開源產品打遍天下的。任何大型的開源項目背後一定會有原廠的商業廠商提供原生的技術支持甚至是企業級的產品。比如Spark背後是Databricks,Hadoop背後就是“三駕馬車”Cloudera、Hortonworks和Pivotal。因此,企業不應該隻看到“開源大數據技術”就認為“我可以拿過來用了”,這是對於大數據最大的誤區之一。

所以我認為,隻有最優秀的大數據產品加上原廠的專業的技術支持,才是真正推動大數據快速落地的根本。

大數據的基礎架構——創新仍在繼續

自穀歌發表那篇關於MapReduce和BigTable的文章引領DougCutting和MikeCafarella創建Hadoop到現在已經過去十年了,因此大數據的基礎設施層已經獲得足夠多的時間去發展成熟並解決一些關鍵的問題了。然而,由於因為大量的開源活動的進行,大數據基礎架構仍在繼續蓬勃發展。

一方麵Spark在這一年發展迅猛,作為利用內存進行處理的開源框架,在我們發表舊版本藍圖時就開始引起眾多的議論。此後,Spark受到了從IBM到Cloudera等各種玩家的歡迎,並取得了相當大的認可度。Spark的意義在於它有效地解決了關於讓Hadoop有所延緩的一些關鍵問題:它運行快了很多,更容易編寫程序,良好的機器學習適用性。

另一邊,在數據庫領域裏,NoSQL與NewSQL正在不斷融合。NoSQL數據庫們紛紛開始支持SQL,而PostgreSQL、MySQL甚至Oracle都開始支持JSON格式存儲。因此,數據庫領域目前“分布式”、“SQL支持”以及“多類型存儲”這幾點成為了數據庫的最新的必備項。此外,新興的參與者比市場以容納的量似乎出現的更多,同時有很多令人興奮的事情在發生:從圖形數據庫的成熟、專業數據庫的興起再到另外,數據倉庫也同樣在不斷發展發展。

大數據分析——AI與大數據分析結合

在過去的幾個月裏,大數據分析的最主要趨勢,是與AI人工智能的結合上。AI與大數據分析的結合,這有利於幫助大量數據的分析,從而得出預測的結論。AI真正幫助人們實現了最初預想的“大數據的功能”,AI和機器學習在數據分析領域就代表了大數據下一步進化的方向。近期的AlphaGo的成功,就是AI與大數據有機結合的最好體現。

同時,對於大數據BI領域,AI的出現也大大提高了BI智能化的腳步。不斷成熟的AI,可以幫助人們處理數據,計算公式,最終統計和分析出一些特定的適合的模型,這就做到了之前的數據科學家(Datascientists)在建模中的許多工作。

大數據應用——加速落地

既然一些核心基礎架構的挑戰已然突破,應用層的大數據也隨之正在迅速建立起來。

值得一提的是大數據應用兩大趨勢:

首先,會有許多許多“大數據原生”應用程序,他們由自己最新的大數據技術建成,並代表了一個有趣的,為客戶提供利用大數據而無需自行部署底層大數據技術的方式。

其次,人工智能在應用程序層麵上也體現出了強大的表現。在許多依賴於AI的大數據應用中,AI的自動化程度已經接近於100%,甚至於很多場景下大大超過了人工操作的效率和準確性。

大數據市場——不斷成熟

對於大數據的生態,我們可以從資本市場就可以很好的判斷整個市場和生態的情況。第一波的大數據技術公司,基本都在2009~2013年成立,而至2015年以來,大多都經曆了多輪的投融資,也在技術產品和業務方向上趨於穩定。整個2015年,大數據領域的VC投資額度為66.4億美金,占到了整個科技界投資的11%以上,這足以說明問題。另一方麵,用戶側對於大數據的需求不斷增加。根據IDC的調查數據,到2015年全球新興大數據市場規模已經到達330億美金的規模,在未來3年內市場規模更將突破500億美元。

中國大數據機遇挑戰並存

看完了矽穀評選的大數據地形圖,作為一個中國的大數據廠商,也是唯一上榜的中國大數據廠商。我們既感到開心,也感覺到任重道遠。

對於SequoiaDB進入這次Landscape,我認為主要原因也有以下幾個:產品技術方麵,我們作為一款標準化、商業化的新一代分布式數據庫產品,我們的產品完全自主研發並且保持了高性能、穩定可靠;用戶方麵,我們的數據庫產品在金融、電信和互聯網等行業都得到大規模應用,客戶包括民生、廣發銀行、電信移動等以及途牛、360安全路由等互聯網用戶,在企業用戶中經受了考驗才是對我們最大的認可;同時,品牌和技術生態構件上,我們與矽穀主流大數據廠商Cloudera,Databricks,Hortonworks等成為全麵戰略合作夥伴,也是國內僅有的一家Spark發行商認證的數據庫廠商,在海內外構建了我們自己的大數據生態。此外,我們也獲得了矽穀最具影響力的“紅鯡魚”和“快公司”的創新企業大獎,在創新品牌構建上也得到了矽穀的認可。

對於中國的大數據產業可以說是機遇和挑戰並存。

對於機遇,中國的大數據目前處在飛速發展期,傳統的大數據需求旺盛的行業如金融、電信等都在積極的往新一代的大數據技術演進,深度挖掘數據的價值;同時,更多的傳統企業,如製造業、貿易、零售等行業,在“產業轉型”的背景下,也在尋找轉型的方向,其中“大數據+”就是重要的方向之一;此外,國家對於大數據的大力支持也為大數據的發展構築了良好的土壤和政策環境。

機遇之外,我認為更多的也是挑戰。

相比矽穀,國內在大數據技術領域特別是在基礎架構領域,目前基礎仍相對薄弱,這也造成了國內大數據更多會集中在應用層麵,而真正像數據庫等基礎架構的廠商可謂屈指可數。同時,國內大數據的應用場景和環境、特性與海外也有許多不相同的地方,對於眾多引進入國內的海外廠商產品,或者是基於海外的開源產品構建的平台,在實際應用中會存在“水土不服”的問題。所以隻有國內原廠廠商真正從基礎做好自己的產品,才能更好解決國內大數據的需求。

作者丨本文由特約專家巨杉CTO王濤撰寫

摘自丨datayuan.cn

點擊查看原文

相關鏈接