新數據的格式可能會變動,或是錯誤的。
Volume (Amount of data)
Velocity (Speed of data in and out)
Variety (Range of data types and sources)
Veracity (Truthfulness of the data)
大數據能容忍數據有錯誤,甚至非常多錯誤,最後也能得出正確的答案。
傳統計算科學 讓電腦快一千倍,這個問題就解得出來
新式計算科學 讓資料多一千倍,這個問題才解得出來
probility 最低的東西,往往價值最高,而統計分析通常忽略這些
大數據的價值在於能不在特定的scope裡找出data的價值
存得起來的,是sotrage →HDFS
看得到的,才是data →hadoop
看得懂的是information →資料分析程式 (真正賺錢的地方)
用得出來的,才能稱為intelligence →資料真正的價值
資料分析出來的結果,不必理會背後的原因