毋庸置疑,大數(shù)據(jù)對(duì)我們時(shí)代的改變將越來(lái)越深刻。無(wú)論是IBM、CISCO這樣的老牌 IT 公司、還是在Hadoop生態(tài)圈中的專(zhuān)注于大數(shù)據(jù)的IT新秀,都在短短的幾年之內(nèi)搶占了大數(shù)據(jù)產(chǎn)業(yè)鏈的各大環(huán)節(jié)。未來(lái)誰(shuí)能夠引領(lǐng)大數(shù)據(jù)技術(shù),中國(guó)制造商能否在大數(shù)據(jù)爆發(fā)性增長(zhǎng)來(lái)到時(shí)搶占到一席之地?未來(lái)制約大數(shù)據(jù)發(fā)展和應(yīng)用的瓶頸又會(huì)是什么?
誰(shuí)將引領(lǐng)大數(shù)據(jù)?
通過(guò)對(duì)比分析目前IT企業(yè)在大數(shù)據(jù)領(lǐng)域的發(fā)展情況,以及對(duì)大數(shù)據(jù)行業(yè)專(zhuān)家的訪談,我們繪制了大數(shù)據(jù)發(fā)展的企業(yè)占位圖。
大數(shù)據(jù)按照信息處理環(huán)節(jié)可以分為數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)存儲(chǔ)及管理、數(shù)據(jù)分析、數(shù)據(jù)顯化,以及產(chǎn)業(yè)應(yīng)用等六個(gè)環(huán)節(jié)。而在各個(gè)環(huán)節(jié)中,已經(jīng)有不同的公司開(kāi)始在這里占位。
1、數(shù)據(jù)采集:Google、CISCO 這些傳統(tǒng)的IT公司早已經(jīng)開(kāi)始部署數(shù)據(jù)收集的工作。在中國(guó),淘寶、騰訊、百度等公司已經(jīng)收集并存儲(chǔ)大量的用戶(hù)習(xí)慣及用戶(hù)消費(fèi)行為數(shù)據(jù)。德勤預(yù)計(jì),在未來(lái),會(huì)有更為專(zhuān)業(yè)的數(shù)據(jù)收集公司針對(duì)各行業(yè)的特定需求,專(zhuān)門(mén)設(shè)計(jì)行業(yè)數(shù)據(jù)收集系統(tǒng)。
2、數(shù)據(jù)清理:當(dāng)大量龐雜無(wú)序的數(shù)據(jù)收集之后,如何將有用的數(shù)據(jù)篩選出來(lái),完成數(shù)據(jù)的清理工作并傳遞到下一環(huán)節(jié),這是隨著大數(shù)據(jù)產(chǎn)業(yè)分工的不斷細(xì)化而需求越來(lái)越高的環(huán)節(jié)。除了Intel等老牌IT企業(yè),Teradata、Informatica等專(zhuān)業(yè)的數(shù)據(jù)處理公司呈現(xiàn)了更大的活力。在中國(guó),華傲數(shù)據(jù)等類(lèi)似廠商也開(kāi)始不斷涌現(xiàn)。德勤預(yù)計(jì),在未來(lái),將會(huì)有大量的公司專(zhuān)注于數(shù)據(jù)清理。
3、數(shù)據(jù)存儲(chǔ)及管理:數(shù)據(jù)的存儲(chǔ)、管理是數(shù)據(jù)處理的兩個(gè)細(xì)分環(huán)節(jié)。這兩個(gè)細(xì)分環(huán)節(jié)之間的關(guān)系極為緊密。數(shù)據(jù)管理的方式?jīng)Q定了數(shù)據(jù)的存儲(chǔ)格式,而數(shù)據(jù)如何存儲(chǔ)又限制了數(shù)據(jù)分析的深度和廣度。由于相關(guān)性極高,通常由一個(gè)廠商統(tǒng)籌設(shè)計(jì)這兩個(gè)細(xì)分環(huán)節(jié)將為更為有效。從廠商占位角度來(lái)分析,IBM、Oracle等老牌的數(shù)據(jù)存儲(chǔ)提供商有明顯的既有優(yōu)勢(shì),他們?cè)谠械拇鎯?chǔ)業(yè)務(wù)之上進(jìn)行相應(yīng)的深度拓展,輕松占據(jù)了較大的市場(chǎng)份額。而 Apache Software Foundation等新生公司,以開(kāi)源的戰(zhàn)略匯集了行業(yè)專(zhuān)精的智慧,成為大數(shù)據(jù)發(fā)展的領(lǐng)軍企業(yè)。
4、數(shù)據(jù)分析:傳統(tǒng)的數(shù)據(jù)處理公司SAS及SPSS在數(shù)據(jù)分析方面有明顯的優(yōu)勢(shì)。然而,基于開(kāi)源軟件基礎(chǔ)構(gòu)架Hadoop的數(shù)據(jù)分析公司最近幾年呈現(xiàn)爆發(fā)性增長(zhǎng)。例如,成立于 2008 年的Cloudera公司,幫助企業(yè)管理和分析基于開(kāi)源Hadoop產(chǎn)品的數(shù)據(jù)。由于能夠幫助客戶(hù)完成定制化的數(shù)據(jù)分析需求,Cloudera擁有了如Expedia、摩根大通等大批的知名企業(yè)用戶(hù),僅僅五年時(shí)間,其市值估值已達(dá)到7億美元。
5、數(shù)據(jù)的解讀:將大數(shù)據(jù)的分析結(jié)果還原為具體的行業(yè)問(wèn)題。SAP、SAS等數(shù)據(jù)分析公司在其已有的業(yè)務(wù)之上加入行業(yè)知識(shí)成為此環(huán)節(jié)競(jìng)爭(zhēng)的佼佼者。同時(shí),因大數(shù)據(jù)的發(fā)展而應(yīng)運(yùn)而生的wibidata等專(zhuān)業(yè)的數(shù)據(jù)還原公司也開(kāi)始蓬勃發(fā)展。
6、數(shù)據(jù)的顯化:這一環(huán)節(jié)中,大數(shù)據(jù)真正開(kāi)始幫助管理實(shí)踐。通過(guò)對(duì)數(shù)據(jù)的分析和具象化,將大數(shù)據(jù)能夠推導(dǎo)出的結(jié)論量化計(jì)算、同時(shí)應(yīng)用到行業(yè)中去。這一環(huán)節(jié)需要行業(yè)專(zhuān)精人員,通過(guò)大數(shù)據(jù)給出的推論,結(jié)合行業(yè)的具體實(shí)踐制定出真正能夠改變行業(yè)現(xiàn)狀的計(jì)劃。
突破未來(lái)發(fā)展瓶頸
通過(guò)對(duì)大數(shù)據(jù)產(chǎn)業(yè)鏈的分析,我們可以看到,在大數(shù)據(jù)產(chǎn)業(yè)鏈的各個(gè)生產(chǎn)環(huán)節(jié)中,各大公司都已開(kāi)占位,隨著高性能計(jì)算機(jī)、海量數(shù)據(jù)的存儲(chǔ)和管理的流程的不斷優(yōu)化,技術(shù)能夠解決的問(wèn)題終將不會(huì)成為問(wèn)題。我們認(rèn)為,真正會(huì)制約或者成為大數(shù)據(jù)發(fā)展和應(yīng)用瓶頸的有三個(gè)環(huán)節(jié):
第一、數(shù)據(jù)收集和提取的合法性,數(shù)據(jù)隱私的保護(hù)和數(shù)據(jù)隱私應(yīng)用之間的權(quán)衡。
任何企業(yè)或機(jī)構(gòu)從人群中提取私人數(shù)據(jù),用戶(hù)都有知情權(quán),將用戶(hù)的隱私數(shù)據(jù)用于商業(yè)行為時(shí),都需要得到用戶(hù)的認(rèn)可。然而,目前,中國(guó)乃至全世界對(duì)于用戶(hù)隱私應(yīng)當(dāng)如何保護(hù)、商業(yè)規(guī)則應(yīng)當(dāng)如何制定、觸犯用戶(hù)的隱私權(quán)應(yīng)當(dāng)如何懲治、法律規(guī)范應(yīng)當(dāng)如何制定等等一系列管理問(wèn)題都大大滯后于大數(shù)據(jù)的發(fā)展速度。
德勤認(rèn)為,未來(lái)很多大數(shù)據(jù)業(yè)務(wù)在最初發(fā)展階段將會(huì)游走在灰色地帶,當(dāng)商業(yè)運(yùn)作初具規(guī)模并開(kāi)始對(duì)大批消費(fèi)者和公司都產(chǎn)生影響之后,相關(guān)的法律法規(guī)以及市場(chǎng)規(guī)范才會(huì)被迫加速制定出來(lái)??梢灶A(yù)計(jì)的是,盡管大數(shù)據(jù)技術(shù)層面的應(yīng)用可以無(wú)限廣闊,但是由于受到數(shù)據(jù)采集的限制,能夠用于商業(yè)應(yīng)用、服務(wù)于人們的數(shù)據(jù)要遠(yuǎn)遠(yuǎn)小于理論上大數(shù)據(jù)能夠采集和處理的數(shù)據(jù)。數(shù)據(jù)源頭的采集受限將大大限制大數(shù)據(jù)的商業(yè)應(yīng)用。
第二、大數(shù)據(jù)發(fā)揮協(xié)同效應(yīng)需要產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)的企業(yè)達(dá)成競(jìng)爭(zhēng)與合作的平衡。
大數(shù)據(jù)對(duì)基于其生態(tài)圈中的企業(yè)提出了更多的合作要求。如果沒(méi)有對(duì)整體產(chǎn)業(yè)鏈的宏觀把握,單個(gè)企業(yè)僅僅基于自己掌握的獨(dú)立數(shù)據(jù),無(wú)法了解產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)數(shù)據(jù)之間的關(guān)系,對(duì)消費(fèi)者做出的判斷和影響也十分有限。
在一些信息不對(duì)稱(chēng)比較明顯的行業(yè),例如銀行業(yè)以及保險(xiǎn)業(yè),企業(yè)之間數(shù)據(jù)共享的需求更為迫切。例如,銀行業(yè)和保險(xiǎn)業(yè)通常都需要建立一個(gè)行業(yè)共享的數(shù)據(jù)庫(kù),讓其成員能夠了解到單個(gè)用戶(hù)的信用記錄,消除擔(dān)保方和消費(fèi)者之間的信息不對(duì)稱(chēng),讓交易進(jìn)行的更為順利。然而,在很多情況下,這些需要共享信息的企業(yè)之間競(jìng)爭(zhēng)和合作的關(guān)系同時(shí)存在,企業(yè)在共享數(shù)據(jù)之前,需要權(quán)衡利弊、避免在共享數(shù)據(jù)的同時(shí)喪失了其競(jìng)爭(zhēng)優(yōu)勢(shì)。此外,當(dāng)很多商家合作起來(lái),很容易形成賣(mài)家同盟而導(dǎo)致消費(fèi)者利益受到損失,影響到競(jìng)爭(zhēng)的公平性。
大數(shù)據(jù)最具有想象力的發(fā)展方向是將不同的行業(yè)的數(shù)據(jù)整合起來(lái),提供全方位立體的數(shù)據(jù)繪圖,力圖從系統(tǒng)的角度了解并重塑用戶(hù)需求。然而,交叉行業(yè)數(shù)據(jù)共享需要平衡太多企業(yè)的利益關(guān)系,如果沒(méi)有中立的第三方機(jī)構(gòu)出面,協(xié)調(diào)所有參與企業(yè)之間的關(guān)系、制定數(shù)據(jù)共性及應(yīng)用的規(guī)則,將大大限制大數(shù)據(jù)的用武之地。權(quán)威第三方中立機(jī)構(gòu)的缺乏將制約大數(shù)據(jù)發(fā)揮出其最大的潛力。
第三、大數(shù)據(jù)結(jié)論的解讀和應(yīng)用。
大數(shù)據(jù)可以從數(shù)據(jù)分析的層面上揭示各個(gè)變量之間可能的關(guān)聯(lián),但是數(shù)據(jù)層面上的關(guān)聯(lián)如何具象到行業(yè)實(shí)踐中?如何制定可執(zhí)行方案應(yīng)用大數(shù)據(jù)的結(jié)論?這些問(wèn)題要求執(zhí)行者不但能夠解讀大數(shù)據(jù),同時(shí)還需深諳行業(yè)發(fā)展各個(gè)要素之間的關(guān)聯(lián)。這一環(huán)節(jié)基于大數(shù)據(jù)技術(shù)的發(fā)展但又涉及到管理和執(zhí)行等各方面因素。
在這一環(huán)節(jié)中,人的因素成為制勝關(guān)鍵。從技術(shù)角度,執(zhí)行人需要理解大數(shù)據(jù)技術(shù),能夠解讀大數(shù)據(jù)分析的結(jié)論;從行業(yè)角度,執(zhí)行人要非常了解行業(yè)各個(gè)生產(chǎn)環(huán)節(jié)的流程的關(guān)系、各要素之間的可能關(guān)聯(lián),并且將大數(shù)據(jù)得到的結(jié)論和行業(yè)的具體執(zhí)行環(huán)節(jié)一一對(duì)應(yīng)起來(lái);從管理的角度,執(zhí)行人需要制定出可執(zhí)行的解決問(wèn)題的方案,并且確保這一方案和管理流程沒(méi)有沖突,在解決問(wèn)題的同時(shí),沒(méi)有制造出新的問(wèn)題。這些需求,不但要求執(zhí)行人深諳技術(shù),同時(shí)應(yīng)當(dāng)是一個(gè)卓越的管理者,有系統(tǒng)論的思維,能夠從復(fù)雜系統(tǒng)的角度關(guān)聯(lián)地看待大數(shù)據(jù)與行業(yè)的關(guān)系。此類(lèi)人才的稀缺性將制約大數(shù)據(jù)的發(fā)展。