<menuitem id="acgdd"><dfn id="acgdd"></dfn></menuitem><progress id="acgdd"></progress>
      <option id="acgdd"></option>

      <track id="acgdd"><div id="acgdd"></div></track>

      <track id="acgdd"><div id="acgdd"></div></track>
    1.  首頁 >> 跨學科 >> 科學與人文
      從大數據與“全數據” 看歸納問題
      2019年05月21日 10:10 來源:中國社會科學網-中國社會科學報 作者:劉培 池忠軍 字號

      內容摘要:

      關鍵詞:

      作者簡介:

        隨著大數據技術在工業與社會生活各方面的廣泛應用,大數據技術應用的哲學研究也在不斷推進。其中一個重要問題是牛津大學教授邁爾-舍恩伯格(Viktor Mayer-Sch?觟nberger)所言的“更多”:大數據獲取的不是隨機樣本,而是所有數據,即“全數據”。學者對這一觀點紛紛表達了自己的立場:贊同者認為,與小數據時代相比,大數據能夠收集與分析海量數據,實現了“全樣本數據”;反對者則認為,由于數據表征的局限性,大數據并未實現“全數據”。事實上,無論是贊同還是反對,他們大多是從數據表征事物這一立足點來進行討論。為了更深入地認識大數據與“全數據”的問題,可以反其道而行之,即從“事物”在何種程度上能夠被數據所捕捉入手,討論何為“全數據”以及大數據與“全數據”的關系。

        何為“全數據”

        “全數據”指可顯現且能被數據化的“事物”。“事物”是紛繁復雜各不相同的萬事萬物的總名,它既包括實體性的物,也包括具有關聯性、時間性的事。在大數據背景下,人對事物的認識不再直接地面對事物的自然外顯,而是面對被技術化的事物,即事物—數據—人。在此情形下,“事物”的自然顯現已不再是我們的認識對象,大數據技術建構“事物”并呈現出來的數據才是我們的認識對象。大數據技術能夠在何種程度上建構與呈現“事物”?這涉及“事物”的顯現與數據之間的關系。事物與數據的關系可以分為三種情形:一是可顯現的,其中有能被數據所捕捉的,也有數據不能達及的;二是若隱若顯、若有若無的,它可能在某一瞬間被數據把握并以數據的形式表征出來;三是不可顯現的,因而也不可能以數據的方式通達。從這三種情形可以看出,“全數據”所指的并不是萬事萬物,而是可顯現的、能被數據化的那部分事物。

        與此同時,從“全”的視角來看,“全數據”是一個兼具客觀性與主觀性的概念。數據來源于“事物”,因此,“全數據”的客觀性指的是事物能被數據完整、準確地表征。正如前面提到的,在事物已敞現的層次上,“全數據”就是以數據化的方式如實呈現與鏡像事物所能敞現的部分,進而形成高度解析的、微粒化的“事物”。而對于那些尚未敞現或尚無力捕捉的事物,“全數據”則是借助大數據技術的發展與其他新科技促使它們敞現,進而真實地把握。

        然而,客觀的“全數據”是基于諸多技術的,技術在賦予其客觀性的同時也不可避免地帶來主觀性。也就是說,是否是“全數據”涉及認識主體的主觀判定。具體而言,“全數據”受到技術工具、認識對象等多種因素的影響,因而具有不確定性。一方面,在以數據為中介認識事物的前提下,認識工具在很大程度上決定了可獲數據的質與量。例如,大數據時代,大數據技術處于不斷地更新與發展之中,在不同的發展階段獲取的數據質與量會存在差異。另外,由于主體應用大數據技術的水平與能力的限制,會不可避免地導致不同主體對其所獲數據是否是“全數據”的判定存在一定的差別。另一方面,“全數據”還會受到認識對象的影響。數據來自于自然界、生命與人類社會,其中前兩者多涉及自然科學,相較于人類社會而言,研究對象能在較大程度上轉換為數據;而后者則涉及人類社會與社會事務的數據化與計算化,其中不僅人類認識的無意識部分等內容難以數據化,而且存在政治情感、社會關系等數據化的準確性問題。總而言之,“全數據”只是對“事物”中可觀察到的、可數據化的內容的表征,它們會因人而異、因地而異和因時而異。

        大數據不等于“全數據”

        通過上面對“全數據”的闡述,對于大數據與“全數據”的關系,我們可以得出這樣一個基本判斷:大數據不等于“全數據”。

        一方面,大數據可以從量的方面認為是海量數據,卻不能等同于“全數據”。盡管當下對于大數據概念還存在多義與含糊的情況,但就大數據在量上的特征還是取得了一致的共識:海量數據,它將以往所不能獲取的文字、方位、溝通、心理等內容都數據化,并因而產生“取之不盡,用之不竭”的數據。依據上面的分析,盡管較之小數據時代已是海量數據,但“全數據”的外延大于大數據,因而不能將大數據稱為“全數據”。

        另一方面,“全數據”是人們借助技術追求確定性世界的一種理想情形。技術是尋求確定性的工具,而大數據技術則是當下最有力的工具,其核心力量在于它所宣稱的“量化一切”,并在此基礎上了解當下、把控未來。盡管當下大數據技術還不能量化一切事物,但隨著大數據技術的不斷發展,其數據化的對象范圍必將進一步擴大。甚至伴隨科學技術的進展,可能會出現其他更為強大的數據化技術,進而讓人們無限趨近“全數據”的理想。或許正是在此意義上,全球數據倉庫技術專家寶立明(Stephen Brobst)在2018年發表的演講“數據分析的未來”中指出,應以全數據思維取代大數據思維,因為“未來,大數據這個詞或許會消失,取而代之的是數據或所有數據(全量數據),但數據分析會一直存在”。

        審慎認識數據歸納

        無論是當下的大數據還是作為理想的“全數據”,它們的共同實質在于:不直接面向事物本身,而是間接地透過數據認知與把握萬事萬物。具體如何認知與把握呢?數據分析是關鍵所在。數據分析是一個較為寬泛的概念,只要是對數據進行的計算、處理進而實現從數據、信息到知識的過程都可以稱為數據分析。對于大數據而言,在諸多大數據分析技術的方法中,數據歸納最為顯著。在數據歸納的視野中,萬事萬物的數據化形成全數據,在此基礎上,以歸納法為中心的數據驅動是其核心內涵。例如,就大數據挖掘而言, 包括分類、聚類、關聯規則挖掘等方法。分類主要將數據集按照建立好的分類模型進行分類,決策樹是常用的分類技術之一,其實質是以實例學習為基礎的歸納學習算法;聚類也是將一組數據按照相似性與差異性分為不同的類別;關聯規則挖掘旨在發現事物之間可能存在的聯系,也是按照數據集支持度和信任度的符合程度進行分類。

        盡管大數據時代的數據歸納較之傳統的樣本數據歸納在樣本的量、多樣性以及計算能力等方面有很大的改進,但仍舊面臨著歸納結果準確性的問題。其原因既有歸納法本身的缺陷,也有數據歸納所引發的新問題。具體來說,如果將傳統的歸納法簡化為事物—歸納,那么數據歸納則是事物—數據—歸納。因此,數據歸納結果存在的問題就可以從兩個方面來分析:一是從事物—數據這一過程來看,“全”是不可能的且“準”是不確定的。若將數據歸納立足于“全數據”,這一基礎并不存在:就“全”來說,數據歸納的基礎是海量數據而非“全數據”;就“準”來說,海量數據也并不一定能準確反映外顯的、數據化的事物,可能捕捉到的是假象。二是從數據—歸納這一過程來看,目標變量的定義、訓練數據選擇、類標簽設定以及噪音數據等問題都可能造成大數據描述與預測的不準確。

        因此,我們在充分利用數據歸納優勢的同時也需要審慎地認識數據歸納。尤其是對于社會科學研究而言,分析人類社會現象“既不能用顯微鏡,也不能用化學試劑。二者都必須用抽象力來替代”。也就是說,只有運用人類的抽象思維能力,啟動從具體到抽象再到具體的思維過程,解讀數據歸納發現的相關性,剝離那些偶然的、非本質的相關性,才能深刻把握人類社會。

        (作者單位:中國礦業大學馬克思主義學院)

      作者簡介

      姓名:劉培 池忠軍 工作單位:中國礦業大學馬克思主義學院

      轉載請注明來源:中國社會科學網 (責編:馬云飛)
      W020180116412817190956.jpg
      用戶昵稱:  (您填寫的昵稱將出現在評論列表中)  匿名
       驗證碼 
      所有評論僅代表網友意見
      最新發表的評論0條,總共0 查看全部評論

      回到頻道首頁
      QQ圖片20180105134100.jpg
      jrtt.jpg
      wxgzh.jpg
      777.jpg
      內文頁廣告3(手機版).jpg
      中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
      看片在线看免费视频在线观看