在大數(shù)據(jù)時(shí)代,人們很容易把一大堆數(shù)據(jù)定義為“大數(shù)據(jù)”。比如,大型制造企業(yè)和倉(cāng)庫(kù)可能存有多年積累下來(lái)的存貨數(shù)據(jù),或許高達(dá)幾兆兆字節(jié),但這并不能算大數(shù)據(jù)。同樣,1 500個(gè)POS機(jī)的現(xiàn)金數(shù)據(jù)、一大份工作表中的數(shù)據(jù)也不是大數(shù)據(jù)。
企業(yè)需要行之有效的方法去儲(chǔ)存、分析、使用數(shù)據(jù),如果管理的不是大數(shù)據(jù)問(wèn)題,那就沒(méi)有必要建立數(shù)據(jù)池、雇傭數(shù)據(jù)科學(xué)家。說(shuō)到底,辨別所管理的是大數(shù)據(jù)還是大量數(shù)據(jù)至關(guān)重要。以下是我個(gè)人推崇的幾種辨別方法:
1. 數(shù)據(jù)是否來(lái)源于多種不同渠道。
如果數(shù)據(jù)來(lái)源單一,即使數(shù)據(jù)量很大,也不太可能是大數(shù)據(jù)。
職業(yè)數(shù)據(jù)人會(huì)考慮大數(shù)據(jù)的3V(或4V):數(shù)量,多樣性,速度(精確性)。本文討論的就是第二種:多樣性。一般來(lái)說(shuō),大數(shù)據(jù)往往不是來(lái)自于單一源頭或系統(tǒng),而是來(lái)自于許多不同的地方,不同的形式,以及不同的變量。
例如,POS數(shù)據(jù)盡管數(shù)量龐大但不是大數(shù)據(jù),可是如果把從供應(yīng)商處取得的數(shù)據(jù)與其整合以構(gòu)建供應(yīng)鏈,則它們就成了大數(shù)據(jù)。因此,問(wèn)題在于是什么形成了大數(shù)據(jù),而不是僅僅考慮數(shù)量因素。
2. 數(shù)據(jù)是否需要被實(shí)時(shí)分析使用。
并不是所有的大數(shù)據(jù)都一定來(lái)源于多種不同渠道,當(dāng)數(shù)據(jù)需要被實(shí)時(shí)分析使用,比如預(yù)防欺詐、股票交易時(shí),盡管數(shù)據(jù)缺乏多樣性,但仍可被定義為大數(shù)據(jù)。在信用服務(wù)業(yè),用于預(yù)防欺詐的數(shù)據(jù)來(lái)源并不復(fù)雜,但需要實(shí)時(shí)分析技術(shù),這樣若真的存在欺詐,也會(huì)被馬上檢測(cè)出并予以阻止。
同樣的,股票交易員所依賴的高頻交易數(shù)據(jù)也并不是特別復(fù)雜的數(shù)據(jù),但需要連續(xù)處理以做出買入或賣出股票的決定。
3. 你是否需要詢問(wèn)復(fù)雜問(wèn)題。
當(dāng)你開始針對(duì)數(shù)據(jù)詢問(wèn)更加復(fù)雜的問(wèn)題的時(shí)候,比如確定因果關(guān)系,則該數(shù)據(jù)就成了大數(shù)據(jù)。當(dāng)然,在這種情況下,最好還是使用多方面來(lái)源的數(shù)據(jù)。
比如,當(dāng)你想知道女性紅色高跟鞋四月份的市場(chǎng)情況的時(shí)候,你所要的數(shù)據(jù)就不僅僅是你自己的采購(gòu)記錄了,你還要整合社交媒體和其他外部市場(chǎng)數(shù)據(jù)以得到最佳答案。
4. 數(shù)據(jù)集是否代表了許多不同的變量。
如果數(shù)據(jù)代表了一系列不同的難以界定模式和關(guān)聯(lián)性的變量,那么即使數(shù)據(jù)是由單一系統(tǒng)或小型系統(tǒng)搜集而來(lái),也可認(rèn)定為是大數(shù)據(jù)。例如,氣象數(shù)據(jù)僅從一些基礎(chǔ)的系統(tǒng)取得(氣溫,氣壓,風(fēng)速等),但數(shù)據(jù)關(guān)系卻極為復(fù)雜,即使是最富經(jīng)驗(yàn)的氣象學(xué)家也不一定總能做出準(zhǔn)確的氣象預(yù)測(cè)。因此,他們會(huì)使用高度專業(yè)化的數(shù)據(jù)分析方法以做出更準(zhǔn)確的預(yù)測(cè)。
5. 數(shù)據(jù)是未架構(gòu)的,半架構(gòu)的,架構(gòu)的還是以上的綜合。
諸如SQL等關(guān)系明確的數(shù)據(jù)庫(kù)長(zhǎng)時(shí)間以來(lái)成功地處理了組織良好的數(shù)據(jù),但如今的多媒體世界為我們呈現(xiàn)了一系列未架構(gòu)的和半架構(gòu)的數(shù)據(jù),這些數(shù)據(jù)在SQL中無(wú)法得到良好的處理。這些數(shù)據(jù)包括圖像,視頻,文本文件,電子郵件交流,社交媒體,音頻文件以及其他。
以上五種鑒別方法,正是我們?cè)谟懻摯髷?shù)據(jù)運(yùn)用時(shí),常常因?yàn)檫吔缒:?,定義不清晰造成的“誤判”。
這是一場(chǎng)顛覆性的革命,從信息不對(duì)稱的服務(wù)業(yè)出發(fā)逐步延伸到政府、制造業(yè)甚至第一產(chǎn)業(yè)中。許多企業(yè)家的坐標(biāo)系、商業(yè)知覺(jué)失靈了,許多投資人對(duì)趨勢(shì)的判斷失效了。這最早體現(xiàn)在客戶結(jié)構(gòu)的變化,上世紀(jì)八九十年代人群的消費(fèi)成主流,帶動(dòng)游戲規(guī)則的變化,物理間隔。
大數(shù)據(jù)時(shí)代一定要注意移動(dòng)互聯(lián)網(wǎng)。在2012年移動(dòng)互聯(lián)網(wǎng)流量已經(jīng)全面超過(guò)PC了,我們?nèi)绾卧谝苿?dòng)互聯(lián)網(wǎng)做產(chǎn)品,同時(shí)考慮客戶的需求點(diǎn)?未來(lái)軟件會(huì)免費(fèi),會(huì)成為一個(gè)采集數(shù)據(jù)的入口,行業(yè)的邊界會(huì)被打破,現(xiàn)在更多的行業(yè)都在做金融相關(guān)服務(wù)。數(shù)據(jù)越來(lái)越重要,已經(jīng)在逐漸成為資產(chǎn)。
這是一個(gè)完整的電商過(guò)程,一個(gè)做得比較優(yōu)質(zhì)的電商從客戶進(jìn)店、瀏覽、下單、付款、期待、收貨、評(píng)價(jià)。有一家大的互聯(lián)網(wǎng)公司,它的客戶分成接近800萬(wàn)類,同時(shí)每一類貼上上萬(wàn)個(gè)標(biāo)簽,這是非常必要的過(guò)程。你會(huì)知道什么客戶是你的老客戶,什么是新客戶,什么是忠實(shí)客戶,什么是粉絲,以及未來(lái)在社交網(wǎng)絡(luò)上新的營(yíng)銷方式,怎么通過(guò)粉絲進(jìn)行大回響的效應(yīng)等。
關(guān)于大數(shù)據(jù)的定義,準(zhǔn)確地說(shuō)是通過(guò)數(shù)據(jù)很準(zhǔn)確、深刻地標(biāo)識(shí)出來(lái)人或者事物行為的本質(zhì),通過(guò)這些數(shù)據(jù)來(lái)產(chǎn)生商業(yè)的或某一種動(dòng)機(jī)的目的。
從這個(gè)意義上來(lái)說(shuō),至少有幾個(gè)特征不屬于大數(shù)據(jù)。第一,你有大量的數(shù)據(jù)并不能說(shuō)明你是大數(shù)據(jù),因?yàn)閿?shù)據(jù)里面有意義的數(shù)據(jù)還是少數(shù)的。第二,數(shù)據(jù)之間復(fù)雜的關(guān)系往往是跨行業(yè)的,也就是說(shuō)這些數(shù)據(jù)越是超越了某個(gè)行業(yè),越是能夠更復(fù)雜地認(rèn)識(shí)人的行為,這種綜合性是一個(gè)大數(shù)據(jù)的十分明顯的特點(diǎn)。第三,它一定是不斷交互和循環(huán)的。它會(huì)不斷地學(xué)習(xí),通過(guò)越來(lái)越深刻的、循環(huán)的過(guò)程,使這種識(shí)別、標(biāo)識(shí)變得更為準(zhǔn)確。
所以它也是動(dòng)態(tài)的,因此大數(shù)據(jù)被應(yīng)用于識(shí)別標(biāo)識(shí)行為的過(guò)程中。今天因?yàn)橛辛似脚_(tái)、有了提供者、有了人參與、有了綜合和跨越,最終服務(wù)于商業(yè)根本的目的。
評(píng)論
全部評(píng)論(8)
-
最新最熱
行業(yè)資訊 -
訂閱欄目
效率閱讀 -
音頻新聞
通勤最愛(ài)