現(xiàn)有的數(shù)據(jù)中心技術(shù)很難滿足大數(shù)據(jù)的需求,需要考慮對整個IT架構(gòu)進行革命性的重構(gòu)。而存儲能力的增長遠遠趕不上數(shù)據(jù)的增長,因此設(shè)計最合理的分層存儲架構(gòu)已成為IT系統(tǒng)的關(guān)鍵。數(shù)據(jù)的移動已成為IT系統(tǒng)最大的開銷,目前傳送大數(shù)據(jù)最高效也是最實用的方式是通過飛機或地面交通工具運送磁盤而不是網(wǎng)絡(luò)通信。在大數(shù)據(jù)時代,IT系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰?FONT style=>數(shù)據(jù)轉(zhuǎn),將計算推送給數(shù)據(jù),而不是將數(shù)據(jù)推送給計算。應(yīng)對處理大數(shù)據(jù)的各種技術(shù)挑戰(zhàn)中,以下幾個問題值得重視:
1、大數(shù)據(jù)對科學(xué)規(guī)范的挑戰(zhàn)
大數(shù)據(jù)帶來了新的科研范式
科研第四范式是思維方式的大變化,已故圖靈獎得主吉姆格雷提出的數(shù)據(jù)密集型科研“第四范式”,將大 數(shù)據(jù)科研從第三范式中分離出來單獨作為一種科研范式,是因為其研究方式不同于基于數(shù)據(jù)模型的傳統(tǒng)研究方式。PB級數(shù)據(jù)使我們可以做到?jīng)]有模型和假設(shè)就可以 分析數(shù)據(jù)。將數(shù)據(jù)丟進巨大的計算機機群中,只要有相關(guān)關(guān)系的數(shù)據(jù),統(tǒng)計分析算法可以發(fā)現(xiàn)過去的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識甚至新規(guī)律。
大數(shù)據(jù)如何應(yīng)用于開放的研究
大數(shù)據(jù)基于對海量數(shù)據(jù)的分析產(chǎn)生價值,那么如何獲得海量數(shù)據(jù)來讓大數(shù)據(jù)真正落地呢?這其中最不可或 缺的一個環(huán)節(jié)就是數(shù)據(jù)開放?,F(xiàn)在推進數(shù)據(jù)開放更為重要的是通過數(shù)據(jù)的共享來產(chǎn)生更多的價值。數(shù)據(jù)開放能夠提高社會運行效率,積極整合各方公開的數(shù)據(jù),建立 基于大數(shù)據(jù)的城市規(guī)劃來緩解交通和社會治安問題。 數(shù)據(jù)開放能夠激發(fā)巨大的商業(yè)價值,數(shù)據(jù)開放是面向社會大眾的開放,任何人只要有能力都可以用它來創(chuàng)造 新的商機。
加強數(shù)據(jù)開放,為大數(shù)據(jù)發(fā)展打牢基礎(chǔ)。在大數(shù)據(jù)應(yīng)用日益重要的今天,數(shù)據(jù)資源的開放共享已經(jīng)成為在 數(shù)據(jù)大戰(zhàn)中保持優(yōu)勢的關(guān)鍵。促進商業(yè)數(shù)據(jù)和個人數(shù)據(jù)的開放與共享。商業(yè)數(shù)據(jù)和個人數(shù)據(jù)的共享應(yīng)用,不僅能促進相關(guān)產(chǎn)業(yè)的飛速發(fā)展,產(chǎn)生巨大的經(jīng)濟價值,也 能給我們的生活帶來巨大的便利。經(jīng)常網(wǎng)購的人會有這樣一種體驗。很多電商網(wǎng)站能夠在我們買書的時候,推薦我們剛好喜歡的其他書籍,這正是網(wǎng)站根據(jù)成千上萬 甚至上億人的個人數(shù)據(jù)的統(tǒng)計分析而得出的,但是我們也感受到了這樣強大的數(shù)據(jù)分析能力對我們“隱私權(quán)”的沖擊。因此,完善個人隱私保護等相關(guān)立法,對哪些 個人數(shù)據(jù)可以進行商業(yè)化應(yīng)用、應(yīng)用范圍如何界定、數(shù)據(jù)濫用應(yīng)承擔(dān)哪些責(zé)任等具體問題做出規(guī)范,從而保證數(shù)據(jù)開放工作穩(wěn)步推進,為大數(shù)據(jù)發(fā)展應(yīng)用打好根基。
重現(xiàn)大數(shù)據(jù)研究結(jié)果
數(shù)據(jù)量的增大,會帶來規(guī)律的喪失和嚴重失真。維克托·邁爾-舍恩伯格在其著作《大數(shù)據(jù)的時代》中也 指出“數(shù)據(jù)量的大幅增加會造成結(jié)果的不準確,一些錯誤的數(shù)據(jù)會混進數(shù)據(jù)庫,”此外,大數(shù)據(jù)的另外一層定義,多樣性,即來源不同的各種信息混雜在一起會加大 數(shù)據(jù)的混亂程度,統(tǒng)計學(xué)者和計算機科學(xué)家指出,巨量數(shù)據(jù)集和細顆粒度的測量會導(dǎo)致出現(xiàn)“錯誤發(fā)現(xiàn)”的風(fēng)險增加。大數(shù)據(jù)意味著更多的信息,但同時也意味著更 多的虛假關(guān)系信息,海量數(shù)據(jù)帶來顯著性檢驗的問題,將使我們很難找到真正的關(guān)聯(lián)。
我們以一個實際的案例來看一下樣本量不斷增大之后,會出現(xiàn)的問題:
上表是關(guān)于某年網(wǎng)絡(luò)游戲歷程擴散的回歸分析,當(dāng)樣本量是5241個的時候,你會發(fā)現(xiàn)用一個簡單的線 性回歸擬合這個數(shù)據(jù),年齡、文化程度、收入這三個變量顯著,當(dāng)我們把樣本量增加到10482個的時候,發(fā)現(xiàn)獨生子女和女性開始顯著,增加到20964個的 時候,體制外這個變量也開始顯著,當(dāng)樣本增加到33萬的時候,所有變量都具有顯著性,這意味著世間萬物都是有聯(lián)系的。樣本大到一定程度的時候,很多結(jié)果自 然就會變得顯著,會無法進行推論,或者得出虛假的統(tǒng)計學(xué)關(guān)系。此外,斷裂數(shù)據(jù)、缺失數(shù)據(jù)(下文將會進行分析)的存在將會使這種虛假關(guān)系隨著數(shù)據(jù)量的增長而 增長,我們將很難再接觸到真相。
事實上,真實的規(guī)律是這樣的:
對一個社會現(xiàn)象進行客觀深刻準確的分析,對事物的理解需要數(shù)據(jù),但更需要分析思維,在大數(shù)據(jù)時代,理論并非不重要,而是變得更加重要。我們所指的理論也并非僵化一成不變的固守舊有理論,而是在處理問題的過程中意識到海量數(shù)據(jù)所帶來的復(fù)雜性,堅持分析方法和理論的不斷創(chuàng)新。
大數(shù)據(jù)研究結(jié)果可信與否
《大數(shù)據(jù)時代》一書的作者維克托·邁爾-舍恩伯格說,大數(shù)據(jù)的核心就是預(yù)測。它通常被視為人工智能 的一部分,或者更確切地說,被視為一種機器學(xué)習(xí)。他認為,大數(shù)據(jù)大大解放了人們的分析能力。一是可以分析更多的數(shù)據(jù),甚至是相關(guān)的所有數(shù)據(jù),而不再依賴于 隨機抽樣;二是研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度;三是不必拘泥于對因果關(guān)系的探究,而可以在相關(guān)關(guān)系中發(fā)現(xiàn)大數(shù)據(jù)的潛在價值。因此,當(dāng) 人們可以放棄尋找因果關(guān)系的傳統(tǒng)偏好,開始挖掘相關(guān)關(guān)系的好處時,一個用數(shù)據(jù)預(yù)測的時代才會到來。
不可否認,大數(shù)據(jù)標志著人類在尋求量化和認識世界的道路上前進了一步。這是計算技術(shù)的進步,是人類 決策工具的進步。改編自邁克爾·劉易斯的《魔球:逆境中制勝的智慧》的影片《點球成金》,講述了一個真實的故事,介紹了奧克蘭運動家棒球隊總經(jīng)理比利·比 恩的經(jīng)營哲學(xué),描述了他拋棄幾百年延續(xù)的選擇球員的慣常做法,采用了一種依靠電腦程序和數(shù)學(xué)模型分析比賽數(shù)據(jù)來選擇球員的方法。比利·比恩的成功稱得上是 對球探們經(jīng)驗決策的顛覆,是讓數(shù)據(jù)說話的成功范例。正如維克托·邁爾-舍恩伯格將大數(shù)據(jù)視為人工智能的一部分,視為機器學(xué)習(xí)的一種應(yīng)用一樣,數(shù)據(jù)決策和數(shù) 據(jù)旁證的博弈其實是人和機器的博弈。即便是有一將難求的數(shù)據(jù)科學(xué)家的協(xié)助,大數(shù)據(jù)決策依然是輔助系統(tǒng)。
在這一階段,云計算是基礎(chǔ)設(shè)施,大數(shù)據(jù)是服務(wù)工具,兩者將滿足特定語境下的、短線的市場需求,更重要的是它們還能發(fā)揮其在非特定語境下破解社會難題的價值。換言之,大數(shù)據(jù)將演繹“信息轉(zhuǎn)化為數(shù)據(jù),數(shù)據(jù)集聚成知識,知識涌現(xiàn)出智慧”的進程。
2、大數(shù)據(jù)帶來的社會問題
在基于社交媒體和數(shù)字化記憶的大數(shù)據(jù)時代,人們不僅擔(dān)心無處不在的“第三只眼”,而且擔(dān)心隱私被二 次利用。因為,亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,微博似乎什么都知道,包括我們的社交關(guān)系網(wǎng)……可怕的不是這些隱私數(shù)據(jù),而是 大數(shù)據(jù)的全數(shù)據(jù)分析、模糊計算和重關(guān)聯(lián)卻不求因果的特性,讓隱私數(shù)據(jù)與社交網(wǎng)絡(luò)等關(guān)聯(lián)起來。按照維克托·邁爾-舍恩伯格的說法,危險不再是隱私的泄漏,而 是被預(yù)知的可能性——這些能夠預(yù)測我們可能生病、拖欠還款和犯罪的算法會讓我們無法購買保險,無法貸款,甚至實施犯罪前就被預(yù)先逮捕。
無論如何,大數(shù)據(jù)正在推動產(chǎn)權(quán)認知和結(jié)構(gòu)的變革,以往IT產(chǎn)業(yè)鏈的主宰者或?qū)⒃谧兏镏性庥鰶_擊。大 數(shù)據(jù)的魅力在于它能夠讓企業(yè)在無邊界的數(shù)據(jù)海洋里遨游,發(fā)現(xiàn)社會進步的內(nèi)在韻律,捕捉社會發(fā)展的先行參數(shù)。比如從消費者興趣圖譜中萃取研發(fā)創(chuàng)新智慧,而不 局限于產(chǎn)品關(guān)聯(lián)性分析;比如對企業(yè)內(nèi)外部利益相關(guān)者群體智慧的發(fā)掘,開展企業(yè)和產(chǎn)業(yè)的健康診斷,而不局限于短效的精益管理;比如對地震等自然災(zāi)害的預(yù)警, 構(gòu)架社會應(yīng)急機制……
3、大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)
抽樣分析+全數(shù)據(jù)驗證的分析思路
增加樣本容易,降低算法復(fù)雜度難。維克托·邁爾·舍恩伯格在介紹大數(shù)據(jù)時代的數(shù)據(jù)分析思維轉(zhuǎn)變時提 到過三個觀點,其中之一是:分析所有的數(shù)據(jù),而不再僅僅依靠一小部分數(shù)據(jù)。全數(shù)據(jù)一時甚囂塵上,企業(yè)、研究者以為大數(shù)據(jù)就是全數(shù)據(jù),以至于再談抽樣都似乎 帶有保守主義色彩,這種看法無疑是對大數(shù)據(jù)和抽樣二者都存在偏見和不足,如果認為大數(shù)據(jù)就是收集所有樣本的信息,讓數(shù)據(jù)自己說話,那么在方法論上就是狹隘 的。
這里也涉及了全數(shù)據(jù)的第二個問題全(暫且假定我們通過人們在谷歌上輸入搜索條目就找到了真正意義上 的全:谷歌利用搜索記錄而預(yù)測到流感爆發(fā)的案例被廣為引用以說明數(shù)據(jù)自會說話,當(dāng)人們開始在網(wǎng)上搜索關(guān)于感冒的詞匯表明他感染了流感,建立流感與空間、病 毒的關(guān)系,能夠成功的預(yù)測一場流感)數(shù)據(jù)確實能看到變化,通過變化作出“預(yù)測”,但無法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:我們要 相關(guān)性,不要因果關(guān)系。這并非是這位作者有選擇的選擇,而是放棄抽樣而直接采用大數(shù)據(jù)的必然。
《文學(xué)文摘》依靠紙媒時代巨大的發(fā)行量獲得240萬民眾的數(shù)據(jù),而蓋洛普僅在嚴格抽樣基礎(chǔ)上研究了5000人,是“小數(shù)據(jù)”的復(fù)雜算法超過“大數(shù)據(jù)”的簡單算法的真實案例。
沒有抽樣的擬合,直接面對大數(shù)據(jù),將使我們失去對人的了解,對真實規(guī)律的追尋,畢竟不是所有的社會 事實都一場流感一樣易于預(yù)測,況且即便是谷歌被廣為贊譽的流感預(yù)測案例也被認為存在問題:在與傳統(tǒng)的流感監(jiān)測數(shù)據(jù)比較之后,根據(jù)互聯(lián)網(wǎng)流感搜索實時更新的 Google流感趨勢被發(fā)現(xiàn)明顯高估了流感峰值水平??茖W(xué)家指出基于搜索有太多的噪音影響了它的精確度這表明基于社交網(wǎng)絡(luò)數(shù)據(jù)挖掘的流感跟蹤將不是替代而 只能補充傳統(tǒng)的流行病監(jiān)測網(wǎng)絡(luò)。他們正在開發(fā)噪音較少的替代跟蹤方法,例如基于Twitter的流感跟蹤只包含真正病人的帖子,而不是轉(zhuǎn)載的流感新聞報 道。
分析理解大數(shù)據(jù)——盲人摸象
數(shù)據(jù)是企業(yè)最重要的資產(chǎn),而且隨著數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,將會變得更有價值。但封閉的數(shù)據(jù)環(huán)境會阻礙數(shù)據(jù) 價值的實現(xiàn),對企業(yè)應(yīng)用和研究發(fā)現(xiàn)來講都是如此,因此我們需要合理的機制在保護數(shù)據(jù)安全的情況下開放數(shù)據(jù),使數(shù)據(jù)得到充分利用。有效的解決辦法之一是公正 的第三方數(shù)據(jù)分析公司、研究機構(gòu)作為中間商收集數(shù)據(jù)、分析數(shù)據(jù),在數(shù)據(jù)層面打破現(xiàn)實世界的界限,進行多家公司的數(shù)據(jù)共享而不是一家公司盲人摸象,這才能實 現(xiàn)真正意義上的大數(shù)據(jù),賦予數(shù)據(jù)更廣闊全面的分析空間,才會對產(chǎn)業(yè)結(jié)構(gòu)和數(shù)據(jù)分析本身產(chǎn)生思維轉(zhuǎn)變和有意義的變革。
4、大數(shù)據(jù)管理的挑戰(zhàn)
每一種非結(jié)構(gòu)化數(shù)據(jù)均可被視為大數(shù)據(jù)。這包括在社交網(wǎng)站上的數(shù)據(jù)、在線金融交易數(shù)據(jù)、公司記錄、氣 象監(jiān)測數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和其他監(jiān)控、研究和開發(fā)數(shù)據(jù)。大數(shù)據(jù)存儲與管理要用存儲器把采集到的數(shù)據(jù)存儲起來,建立相應(yīng)的數(shù)據(jù)庫,并進行管理和調(diào)用。重點解決復(fù) 雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。主要解決大數(shù)據(jù)的可存儲、可表示、可處理、可靠性及有效傳輸?shù)葞讉€關(guān)鍵問題。開發(fā)可靠的分布式文件系 統(tǒng)(DFS)、能效優(yōu)化的存儲、計算融入存儲、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)融 合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。
通過隔離管理大數(shù)據(jù)存儲
如果有多個存儲箱,那么將數(shù)據(jù)庫、線交易處理(OLTP)和微軟Exchange應(yīng)用到特定的存儲系統(tǒng)是個不錯的選擇。其它存儲系統(tǒng)則用于大數(shù)據(jù)應(yīng)用如門戶網(wǎng)站,在線流媒體應(yīng)用等。
如果沒有存儲系統(tǒng),將特定的前端存儲端口到數(shù)據(jù)庫,OLTP等等;致力于大數(shù)據(jù)應(yīng)用到其他端口。背 后的基本原理是使用專用端口,而大數(shù)據(jù)流量是以千字節(jié)或兆字節(jié)衡量,OLTP應(yīng)用流量是以每秒的輸入/輸出操作(IOPS)衡量,因為數(shù)據(jù)塊的大小是比大 數(shù)據(jù)更大而比OLTP應(yīng)用程序更小。OLTP應(yīng)用程序是CPU密集型的,而大數(shù)據(jù)應(yīng)用程序更多的使用前端端口。因此,更多的端口可以專注于大數(shù)據(jù)應(yīng)用。
專業(yè)的大數(shù)據(jù)存儲管理
兼容數(shù)據(jù)管理的存儲系統(tǒng)。如EMCIsilon的集群存儲系統(tǒng)對于大數(shù)據(jù)存儲管理是一個更好的選擇,因為在一個單一的文件系統(tǒng)中大數(shù)據(jù)能增長到多字節(jié)的數(shù)據(jù)。
大數(shù)據(jù)分析
除了存儲,大數(shù)據(jù)管理的另一項大的挑戰(zhàn)是數(shù)據(jù)分析。一般的數(shù)據(jù)分析應(yīng)用程序無法很好的處理大數(shù)據(jù), 畢竟涉及到大量的數(shù)據(jù)。采用專門針對大數(shù)據(jù)的管理和分析的工具,這些應(yīng)用程序運行在集群存儲系統(tǒng)上,緩解大數(shù)據(jù)的管理。管理大數(shù)據(jù)的另一個需要重點考慮的 是未來的數(shù)據(jù)增長。你的大數(shù)據(jù)存儲管理系統(tǒng)應(yīng)該是可擴展的,足以滿足未來的存儲需求。
大數(shù)據(jù)的存儲管理和云計算
目前正在尋找云計算服務(wù)來進行存儲和管理海量數(shù)據(jù)。而選擇云服務(wù)來大型數(shù)據(jù)存儲管理,可以確保數(shù)據(jù)的所有權(quán)。有權(quán)選擇將數(shù)據(jù)移入或移出云服務(wù),而不被供應(yīng)商鎖定。
面臨的挑戰(zhàn)
(1)大數(shù)據(jù)集的挑戰(zhàn)
如下圖為數(shù)據(jù)到知識的演化過程示意圖:
缺少大數(shù)據(jù)復(fù)雜度冗余度的度量方法
缺少確保近似算法精度分析方法
缺少根據(jù)分布知識對大數(shù)據(jù)進行抽樣的方法
(2)數(shù)據(jù)復(fù)雜性挑戰(zhàn)
挖掘?qū)艽蟪潭鹊靥岣?FONT style=>數(shù)據(jù)分析的性能和靈活性。源于數(shù)據(jù)倉庫的數(shù) 據(jù)立方體計算技術(shù)和OLAP(在線分析處理)技術(shù)極大地提高了大型數(shù)據(jù)庫多維分析的性能。除了傳統(tǒng)的數(shù)據(jù)立方體技術(shù),近期的研究致力于構(gòu)建回歸立方體、預(yù) 測立方體以及其他的面向統(tǒng)計的復(fù)雜數(shù)據(jù)立方體。這樣的多維或高維分析工具對分層多維數(shù)據(jù)的有效分析提供了保證。
(3)數(shù)據(jù)動態(tài)增長的挑戰(zhàn)
研究內(nèi)容
(1)研究分布式并行計算環(huán)境下的大數(shù)據(jù)大數(shù)據(jù)分析的基本策略
I.與數(shù)據(jù)分布相聯(lián)系的分治策略
II.與算法機理相結(jié)合的并行策略
(2)研究復(fù)雜度降精度可控的新的大數(shù)據(jù)分析算法
I.大數(shù)據(jù)分類、聚類、關(guān)聯(lián)分析、異常發(fā)現(xiàn)等
(3)大數(shù)據(jù)分析平臺研發(fā)