勢不可當的大數據

 臺灣證券交易所 黃乃寬 副總經理

『凡人所說的閒話,當審判的日子,必要句句供出來。』(太12:36

『因為人所做的事,連一切隱藏的事,無論是善是惡,神都必審問。』(傳12:14

大數據是當代生活的產物

大數據(Big Data)是在我們的生活和工作愈來愈離不開手機和網路以後,興起的新風潮。我們不斷地藉手機或其他智慧型行動裝置透露出所在的位置、停留的時間,在那裡從事的某些活動、和前前後後移動的軌跡。我們在迫不及待地選用某些網路服務(如免費WiFi)、裝置某些電腦應用程式(如臉書FB)時,沒看明白同意書的內容,就先同意了所有條件,包括同意對方蒐集運用我們的使用紀錄,如搜尋哪些關鍵字、瀏覽哪些內容、下載了哪些資訊、購買了哪些產品、和哪些人有連絡、以及通訊錄裡有哪些名字和電話號碼、電郵地址等等。

這些數據雖然零零碎碎、時有時無,粗看形同麵包屑,卻都讓有心人分門別類地收拾起來,串出相互關聯,經過語義分析、交叉分析和全自動化的推論,以致有一天,我突然發現:臉書比我更清楚我哪一天去過哪個社交聚會,而且給我一張我也沒見過,卻被註記上的合照,是其他FB參加人上傳公開的;亞馬遜能猜到我想買還沒買的產品,精準又不過度騷擾地把相關類型的產品資訊寄來參考,附帶宣傳他們可提供的折扣;谷歌從我的搜尋模式就能判斷我的年齡、性別、教育程度和政治傾向等口味偏好,適時根據我所在的位置,推薦附近有哪家值得去嘗試的餐廳;紐約時報也從我選讀過和珍藏起來的新聞、照片及漫畫,知道該主動通知我哪些最新消息,立刻摘要顯示在手機上;其他像叫車、訂旅館、機票等等,就不一一細說了。這些網路應用廠商提供的服務雖然多半免費,或至少看不出能賺什麼錢,他們累積下來的互動資料卻近乎無價,奇貨可居。

大數據的特質

傳統的資料分析所面對的是在特定期間內蒐集到的靜態資料,而且每筆資料都已結構化,或經過簡單的對應處理就可結構化。所謂大數據,與傳統大量資料之不同,可以用三個V來表達:VolumeVelocityVariety

一、    Volume:大量的資料,以紙本等實體媒材儲存時,幾乎無法全面處理;必也,抽樣乎。到數位化以後,可以存在磁帶或磁鼓磁碟上,要用哪部分,讀出哪部分,自動化做到了,但需要一段一段地慢慢做,應用大量資料時,缺少彈性與時效。而今資訊科技的進展與處理設備的普及,可以把大量資料放進隨機存取記憶體,利用大量平行運算,來解決彈性應用資料與處理時效的問題。簡言之,大數據不只數據的量大,處理的方法也與傳統的資料庫不同。

二、    Velociey:大數據的另一特色是處理動態資料的能力。當新到的數據快速地、大量地而且以結構及非結構化多種的型態增加,我們要解決的問題有兩大類型。一是描述式的統計結果,二是依據最新資料來修正之前的推論,做出最新的判斷。更新描述式的統計圖表,應在每個前一次的統計結果上,快速調整新數據帶進的修正值。推論,其實是應用大數據的主要目的。我們先依據已有的數據去建立模型,進行推論,產出商業智慧,再依據新到的數據修正模型,改進推論,使商業智慧更成熟、精準、可用。三十年來機器學習和神經網路等人工智慧的進展,使我們有辦法把歷史濃縮在模型的參數裡,每次修正時不必把從古到今的數據全部包起來重頭計算,只要處理新到的部分就可以了。

三、    Variety:傳統的資料處理,對象都是結構化的「數據」,對文章、圖像、音軌、影片等多力有未逮。電腦速度和辨識運算法的進步,使許多從前日以繼夜才能處理完的工作,在瞬間就完成了。諸如面孔、情緒、風格的辨識、文章內容相似度、相關性的測量等技術趨於成熟,都使本來難以用電腦處理的非結構化資料轉化為珍貴的大數據成分。

大數據的商業應用

網路應用及行動裝置普及,顛覆了傳統的商業模式。從來不創造任何內容與評論的臉書,竟成為影響最大的媒體;沒有一間客房的Airbnb,已為旅客安排了比任何連鎖旅館更多的住宿;未擁有任何車輛,甚至沒有計程車業執照的優步(Uber),卻能動員超過任何車行的車輛與司機,快速而便宜地接送叫車的客人。這不禁讓我們懷疑,在一家沒有任何存貨的阿里巴巴能賣掉比任何商家更多貨品的年代,誰還會開一家實體商店?不然。實體店面與店員服務的訴求仍然無可取代。但是如何決定在哪裡開店呢?大數據可以幫忙。

譬如電信公司用基地台和每一個移近的手機握手的紀錄,已經掌握了該地區各時點的人流資訊;利用手機中的GPS定位系統,更可蒐集到每個人每天去過哪些地點、停留多少時間。商業應用的大數據雖然因為個人資料保護必須去識別化,卻仍可從年齡、性別、職業等基本屬性區分出目標客群。觀察目標客群的移動軌跡,分析出哪個區塊的目標客群人數最多、停留時間最長,就是開店最佳的地點。

另外一個十分普遍的大數據應用是評量信用貸款申請人的償債能力,核定可貸放的金額。傳統上,這種信用評等需要申請人提供各種證明文件,臨櫃辦理、驗明正身、簽名蓋章、找人作保,甚至到申請人的公司工廠去實地勘查等等,借貸雙方的處理成本都很高。大數據的信用評等,則根本沒有面對面的機會和必要,而根據申請人過往的網路交易紀錄和其他活動資料來推論申請人的可信度及財務能力。欺騙?倒帳?難免,但總的來說,這一套方法行得通、成本低、效果也不比行之有年的傳統做法差。

有人預測,未來會計審計也會因大數據的方法而改變,從目前以財務報表為主走向包含文字形式表達的其他資料來源,如新聞、法人說明會內容、網路論壇、社群媒體上的討論、企業會議紀錄、契約、員工電子郵件、工作手冊、公司章程等。企業資訊系統自然也會在企業的行銷、管理等決策流程中納入這些非數量化、非結構化的數據。

谷歌於過去五年,數度公布他們從關鍵字搜尋的紀錄判斷流行性感冒爆發的時間地點,預測模型幾經修正、改進,愈來愈比疾病管制中心更快、更準,疾病管制中心不得不開始關注運用大數據來重建權威。終於,今年開始扳回一城,利用更直接更專業的數據分析,贏過了谷歌。愈能提早預測流感疫區,愈能幫助調配醫療資源,藥廠也可以依據區域人口分布來調節疫苗與印品的產量、存貨、倉儲等,降低防治疾病的成本。

大數據對教會生活的應用

從前面的例子可以看出來,大數據要能發揮價值,不只要有資料、有設備、有動機明確、嫻熟操作的使用人,還要有適當的分析推論工具(Analytics)。目前,如果只想大概知道不同族群使用自家官網的情形,有些免費的分析工具可以用。但最完整的分析推論工具是針對行銷與客戶經驗設計的。因為新,而且似乎有效,所以非常昂貴,非一般教會負擔得起。但是,傳福音不可以看作一種行銷和客戶經驗嗎?如果能利用分析推論的工具,更精準地找到好土、撒下福音的種子;能透過網路接觸,使平常不一定有機會面對面的飢渴靈魂成為耶穌的門徒,不也是在執行大使命嗎?只是這個事工,怕是必須聯合眾教會的資源共同合作,才推得動。同樣的,用大數據應該也可以從會眾間的社群媒體內容篩選出此時此刻最需要去關懷的信徒,當人來不及反應,系統可以自動產生最能幫助他的信息,發出簡訊,讓他在迷惘中得到引導,在軟弱中剛強起來。

根據屬性和需求的細微不同,提供差異化的產品及服務,讓對方體驗量身訂作的受重視感覺,提升滿意度和品牌忠誠度,在商業上,叫作客戶經驗;這個貢獻,也是大數據能作為數位商業主要支柱的一大原因。在教會生活裡,重視差異,注意細節也是牧養的目標,所以大堂之外還有小組,信息之後還有個別探訪,而這種「會友經驗」能不能借助大數據呢?

數位化教會引人擔心之處是,這些統計模型和推論會不會代替了聖靈的引導?大量的數據分析是不是計算出了上帝的意旨?電腦報表能取代恆切禱告嗎?換個角度看這些問題,會發覺這和「生病要不要去看醫生(以及要不要研究醫學)?」、「小孩要不要去上學(以及要不要發展教育)?」或「我們要不要寫下自己的得救見證幫助人(以要不要從事出版、傳播)?」是同一類型的思考,在社會發展剛剛跨入一個新階段時,都會有類似的爭議,但日久就會發現,新技術、新方法本身是中性的,結果好不好,在乎使用人的心態。當醫生、老師和作家心存謙卑,知道自己的侷限,認定「若不是耶和華建造房屋,建造的人就枉然勞力」,但仍然盡力建造,這建造就是祝福。為教會從事大數據工作的資料科學家(Data Scientist)也如此,存著無虧無偽的良心,靠著聖靈的保守,發揮自身的專業,榮耀上帝,幫助人群,在大審判那一天是站立得住,而且會得到獎賞的。

『神藉耶穌基督審判人隱秘事的日子。』(羅2:16;另參路8:17

『掩蓋的事沒有不露出來的;隱藏的事沒有不被知道的。因此,你們在暗中所說的,將要在明處被人聽見;在內室附耳所說的,將要在房上被人宣揚。』(路12:2-3

(本文原刊於《曠野雜誌》第197期,20159/10月)

 

 

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *