跳至主要內容

資料治理、AI 發展與我們的選擇

星期五早上,部門內部辦了一場腦力激盪。我們談了很多題目,其中一個,是「AI治理需要哪些基礎建設」;同日下午參與另一場演講,講者剛好分享台灣 TAIDE 模型的發展過程—談到資料和算力取得的困難,也談到工程師在面對法遵時的抗拒心理—畢竟在工程師的世界裡,「Code is Law」。

兩場活動的現場討論,因為受限於時間,都沒有深入到制度本身的限制。但在活動結束後,讓我重新思考一個核心問題:如果AI真的是下一波技術革命,身在台灣的我們真的已經有能力參與這場革命嗎?

資料治理,不只是開放資料而已

在多次公開場合中,台灣經濟研究院的林副院長經常強調資料治理的重要性,更牽涉到以下面向:

  • 可取得性:是否能跨部會、跨單位、跨領域取得?
  • 品質:是否具備標準、結構與說明?
  • 授權與責任:是否清楚哪些資料能用、怎麼用、誰負責?
  • 維運與資源:是否有穩定預算與長期支持?
台灣的 MyData 與政府開放資料雖然在形式上有推進,但在實際應用上卻處處受限,不同主管機關不一致的安全性標準使執行人員在充滿風險與缺乏信任的環境下工作,也讓人民、企業在取得資料上處處受到限制。

回顧韓國資料治理的制度發展,他們之所以能在 2020 年推動 Data Dam 計畫、大量釋出公共與民間資料,讓銀行、 FinTech 業者介接 MyData 資料建立服務及收費 ,不只是靠政府號召,而是有一整套法令支撐著「再利用」、「匿名化後的合法使用」,以及「免責條款」。

韓國的《資料三法》(個人資料保護法資訊通信網路法信用資訊法)在整合修正後,不只清楚界定資料的再利用情境,也建立了資料去識別化的技術與法律標準,同時提供了「在遵法前提下使用資料者可免責」的條文。這讓企業、政府機關與開發者都可以在明確的框架下進行資料流通,而不用時時擔心法律風險。

台灣在法律層面卻缺乏資料可攜權及對再利用資料的明確界定與免責機制,使民間開發者在使用資料時,始終心存顧慮,不知道會不會踩到模糊地帶;也讓政府內部對資料開放裹足不前,擔心「一開放就出事」。

因此,如果台灣真心想讓 AI 成為下一階段的產業基礎,就不能忽視資料治理的法制建設—這不只是「能不能開放」,而是「開放之後,誰來保護願意開放的那一方」的信任機制。

我們缺的不是資料,而是讓資料變得「能用」的治理機制

我曾經在智慧城市展與一位國外業者談論關於台灣的政府開放資料是否好用?該位業者回應,台灣的政府開放資料似乎「數量豐富、分類完整」,但若問本地的 AI 開發者,他們往往只苦笑:「資料雖在那裡,卻不是真的可用」,隨著民間逐漸將注意力轉往AI或其他新興科技的發展與治理議題,政府開放資料的品質與量,也日漸變差,甚至不再維運。

昨天下午的講者也分享一個實例:他們團隊試圖使用「數位典藏」資料進行訓練,結果下載回來的卻只有圖檔,沒有 OCR 處理過的文字檔,甚至也無法確定是否具備商業用途授權。這樣的資料「可見但不可用」,反而讓開發寸步難行。

這些現象背後反應的其實是:台灣缺乏一個清楚的資料治理主體與責任歸屬,缺乏一套能有效整合資料提供者、使用者與治理者的制度機制,資料治理不只是開放,當初各部會都成立開放資料平台,但當資料品質不一、授權模糊、缺乏跨部整合,就很難讓這些資源成為 AI 發展的燃料。

這不只是技術問題,而是治理邏輯的反應。資料開放成為「儀式性透明」,但實質上仍保留著權力的不對等。在現行的制度設計下,資料仍被視為各部會「手中的資產與優勢」,而不是公共治理的基礎設施。於是:

  • 開放成了形式,
  • 共享變成選擇性地授權,
  • 民間開發者能用的,永遠比政府內部人員能取用的少一截。
  • 這樣的資料不對等,直接影響了 AI 的發展環境,也削弱了整體創新體系的潛力。

我不認為每筆資料都必須無條件開放,但我們應該有一套清楚的資料分級與授權制度,讓開發者知道哪些資料可以申請、哪些資料必須加值付費、哪些資料基於隱私或法規限制無法提供—而不是處在一種資訊灰區,總是「不確定能不能用」或「不知道怎麼申請」。

  • 從治理角度來說,問題不在於技術不夠,而在於:
  • 誰負責確保資料具備可用性?
  • 誰訂定跨部會的一致授權框架?
  • 誰建立資料品質與標準的審查機制?
  • 開放資料背後的營運與維護成本,是否有長期的支持機制?

這些問題若無人主責,就會落入一種無解的輪迴:每個部會都開資料,但沒有人真正「用」資料;資料看似很多,卻沒有成為有用的基礎建設。

制度設計的關鍵,是建立正向的誘因循環

資料治理的推動,不只是技術問題,也不是單靠法規命令就能完成的事。對於公務體系而言,資料代表著部會的權責與專業價值。要求他們無條件開放或放棄資料掌控,本身就會引發組織防衛心理。如果我們無視這一點,只是一味要求「開放」、「共享」,結果只會是形式化的開放、低品質的資料釋出,最終兩敗俱傷。因此,制度設計上必須同時考量:

  • 對公務單位的正向誘因:
    • 讓提供高品質資料的部會能獲得評比加分、資源獎勵個人或提升外部能見度。
    • 在資料共享成果中,清楚標示來源與貢獻單位,讓資料治理成為部門績效的一部分,而非隱形勞務。
  • 對企業與民間的誘因:
    • 提供標準化、可驗證的資料授權與應用條件,降低法律與法遵風險。
    • 建立資料流通市場,允許企業基於開放資料開發商業產品,同時設計回饋機制,讓收益部分反哺資料維護與更新。
    • 提供資料可攜權,讓人民可以自由選擇使用平台。
  • 對公共利益的保障機制:
    • 資料治理必須納入倫理審查、隱私保護與安全性標準,防止資料濫用或侵犯基本權利。

只有當制度設計能讓「資料提供者、資料使用者與社會整體」三方都能看到實際好處,資料治理才可能從口號變成真正的行動。

資料治理是基礎,但 AI 治理才是未來社會信任的核心

這篇文章談到資料治理制度的重要性,即缺穩定、合法、可信任的資料基礎,AI 就無從發展。但我們不能忽視,當 AI 系統日漸普及,治理的重點已不只是資料來源,而是 AI 本身如何被使用、濫用與修正。

舉例來說,生成對抗網路(GAN)已被廣泛應用在影音合成、照片仿真、人聲模擬等領域。當它被濫用於製作偽造新聞、假冒身份,甚至用於性暴力與騷擾時,傷害是真實的,但責任卻常常模糊不清:

  • 誰該為傷害負責?是平台、模型開發者,還是散播者?
  • 如果原始資料未經當事人授權被納入訓練,是否構成侵權?
  • 被害人如何申訴、修復名譽、下架內容?
  • 模型開發方是否有義務建立偵測機制、防止濫用?

這些問題都屬於AI 治理的範疇,卻在多數政策對話中仍被擱置,或簡化為「產業自律」或「技術補丁」。這些問題牽涉的,是公民信任、身分主權與社會公平,不能只是靠技術人員良心或平台條款來維持。

真正的 AI 治理,應當包含以下三層機制:

  1. 前端:制度性的風險預防與開發準則 (如高風險模型須經透明審查)
  2. 中段:平台與開發者的監督義務與即時回應機制(例如違規內容自動下架、來源溯源)
  3. 後端:被害人的補救、申訴與修復機制(包含法律、技術與心理支持)

這樣的治理結構,需要跨部門、跨領域、甚至跨國合作來實現。否則我們只能一再重複「科技跑太快,制度永遠跟不上」的老劇本。

治理,不是立即定規則,而是持續發現問題的過程

我們常常對「治理」有一種誤解,以為它應該立刻建立明確機制、設定邊界、完成法律文本。但事實上,真正有效的治理往往始於開放對話、跨域理解與多元參與。

這也是為什麼我認為類似國際「網路治理論壇(Internet Governance Forum, IGF)」的平台格外重要。雖然它不制定法律、不做政策裁決,但它提供一個難得的空間,讓政府、企業、技術社群、公民社會與使用者都能發聲,彼此聆聽彼此未曾考慮的角度。

正因為 AI 治理涉及的不只是技術與法律,更牽涉價值選擇與權力分配,我們更需要類似的公共討論場域,來發現政策制定者、業者、使用者沒注到的風險、沒傾聽到的聲音、沒思考過的後果。

AI 治理的未來,不會靠單一法規完成,也不會靠單一角色決定,而需要我們共同建立一種願意對話、敢於調整、且持續前行的治理文化。


附註:

這篇文章是我在聽完演講後,在咖啡廳裡與 ChatGPT4o 共同「討論」出來的文章內容,結合我與「它」的想法,包括AI治理、我在開放政府資料活動裡的經驗,及近幾年觀察政府部門對開放政府資料的態度。

昨天晚上在社群平台也看到一些人在說 ChatGPT 只會倒出不正確的資訊。我回顧與它合作的經驗,它的確會產生幻覺與不正確的資訊,它是演算法,如同使用者在社群平台上點了什麼廣告,演算法就會推給使用者什麼資訊,使用者自己也要有判斷資訊是否正確的能力,所以追根究柢,還是要視使用者的行為來決定,而非工具。


Image by Gerd Altmann from Pixabay

留言

此網誌的熱門文章

六月的第一天,我去聽NVIDIA執行長演講

因為種種原因,今年6月1日開始,我從原單位全職轉為兼任員工,放下長期擔任的全職工作。就在做出這個決定後不久,NVIDIA GTC 大會的通知跟著到來,我候補到黃仁勳執行長 Keynote 演講的入場名額。 計程車上的台灣故事 六月的第一天早上雖然是個不太熱的陰天,我在咖啡店外攔到計程車,表示要前往台北流行音樂中心,司機大哥很敏感的說:「要去聽黃執行長演講啊?那裡排好多人。可以去買紀念品哦!」基於十多年的工作經驗,辦會、與會,我只留對我有意義會議的Badge,其他都是身外物,然而這位司機大哥的熱情稍微感染了我。 熱情的司機大哥一路上不停講述家裡親人在相關供應鏈工作的忙碌,每天都當空中飛人,落地沒多久就又要到另一個國家的工廠監督。台灣的電子製造業供應鏈養活許多家庭,這是很棒的一件事,這些家庭又帶動其他消費需求,帶動創造經濟效益。 人潮與恐慌 當我下車看到會場的人山人海時,倒抽一口氣。 因為疫情前的密集出差經驗,我得了機場恐懼症,只要看到人群、機場相關場景或班機表,全身就開始冒冷汗。平常去送機接機,或路過北門站,都要努力克制自己的恐慌。人多的場合也會觸發類似反應。 好在現場的流程管控得當,幾千人入場,一切準時開始。排隊時偶爾有人因為天氣悶熱不耐等候而抱怨,但多數人都能控制自己,沒有不愉快的事發生。每位與會者除通行證外,還收到一個漫畫版黃執行長擁抱龍蝦的小吊飾(代表NVIDIA 的 NemoClaw),是當天與會的小紀念品。 帳篷裡的 AI 人才問題 在會場外的帳篷裡,還有幾場專家訪談直播,與會者一邊排隊等候,一邊可以聽訪談。其中一場的主持人問:「我們還需要什麼樣的AI人才?或我們還需要再訓練AI人才嗎?」 這個問題讓我想起多年前「數位經濟」這四個字很熱門時,同樣的問題,只是把「數位經濟」換成「AI」,所以我只是靜靜的繼續排隊。 就像種植蔬果,不管專家怎麼呼籲,市場往往還是一窩蜂種高麗菜,搶著賺高麗菜的利潤,結果菜價崩盤。人才培育也有類似的慣性,大家一窩蜂往電子或相關領域擠,真正重要的人文領域反而乏人問津,最後又要政府砸幾千億去呼籲、鼓勵產出「內容」。 與 Windows 重逢,心情複雜 領到通行證,進入會場後,一般與會者只能遠距離觀看,所以如果沒有要再去看 Computex或是參與NVIDIA GTC其他活動的話,看轉播或是之後再看錄影就可以,而且會更清楚。 一如以往,黃...

哪個應用、服務、平台可以代表台灣?

大概 2003、 2004 年,我還是個大學生,那個時候「電子商務」是一門選修課,那個時候台灣還在所謂的電子商務泡沫化中復甦,很多熱極一時的「電子商務」就像今天大家看到的 FTX 事件一樣,一點都不真實,很多執行長、總裁瞬間就失業了,也有很多投資人的錢拿不回來。 看過歷史上的鴻源事件、經歷過電子商務的虛無飄渺時期,再看到 FTX,其實也不會太驚訝。通常泡沫消散後,未來才會到來。 回到大學課堂,穿著輕便但言語犀利的老師談到當時的 Amazon 網路書店,他問大家對 Amazon網路書店的看法,那時的Amazon一直被看壞,所有的媒體都不看好它。甚至會有各種市場傳言,覺得 Amazon會被賣給哪家公司或哪家公司、網路書店會主動併購它。 最後老師說,不會,Amazon書店不會那麼輕易就垮掉,它有其代表的意義。 這個答案給了我很深的印象,我常會問自己,台灣有哪個服務會具有這樣的意義? 偶爾我會問身邊的朋友、同事,對於台灣的哪個服務,會覺得有不能輕易垮掉、要支持它的?我列一下自己所接觸過的,這個世代的應用: 通訊服務:ICQ、MSN Messenger、LINE、Cubie Messenger(台灣,已無服務)、Google Talk、WhatsApp、Telegram、Skype、Signal,還有一些台灣可能較少聽到。 社群平台:Twitter、Facebook、LinkedIn、無名小站(已停止服務,它雖然是Blog,但比較像社群)、Plurk、PTT、Dcard、Instagram、AKASHA、Pinterest Blog平台或架站:Blogger、Wordpress、Drupal 共享書籤 : HemiDemi(已沒有提供書籤服務)、美味書籤delicious 叫車服務:UBER、55688 、呼叫小黄、LINE Taxi、yoxi  當然還有很多是我沒接觸過的,請原諒我的見識不夠廣泛,忽略了哪一個平台、應用或服務。一時想到的大概就這些。有一些服務已經消失或在被併購後就消失了,我也忘了名稱,至於 TikTok 和小紅書,是我不想碰觸的應用服務。 在韓國有 Kakao,日本有 LINE、PayPay,東南亞國家有Grab,中國有自己的網路應用,那台灣呢?之前 KaKao 中斷服務,造成民生應用的線上服務也幾乎中斷,過度集中依賴在一個服務上的確是一個缺點。在和...

我在不會寫 code 的情況下做出一個桌面工具

當各種AI工具迅速發展的情況下,大家也開始製作自己常用的工具,更進一步公開分享給大家使用,例如 Jimmy Su 就分享自製的 沉浸式翻譯工具 ,滿足一般人平時上網閱讀外文頁面的需求;進一步像是 Justin Lee  開發的 ccxray ,讓Claude Code的使用者可以監看Claude Code與Anthropic API之間的互動,使 AI Token 的消耗變成視覺化的儀表板。 為什麼做這個工具 AI 幫助許多一般網路使用者做出適合自己使用的工具,我自己也曾 分享自己的經驗 ,現在做出一個應用程式的門檻已經降低許多,AI不會讓程式設計工作消失,反而讓更多人投入這樣的工作,從這個角度看應該是好事。 我自己也用AI打造一些工作上會使用的工具,包括後來做的這個「 AI-Doc-Translator 」,這是獨立自我日常工作使用的工具的其中一個功能,做成一支桌面程式。 由於每天都會接觸到外文論文、期刊,很多PDF檔下載後,只會放在儲存空間裡,或是丟到電子書應用程式裡,但什麼時候再打開?打開還要再閱讀外文的摘要、從頭理解?這些都會消耗掉耐心,於是我讓AI先幫我摘要重點,讓我大致了解檔案內容、記錄後,再做關聯成為自己的知識庫。 這個工具主要的功能是翻譯、摘要,它不是通篇翻譯,也不是改寫作者的內容,只做摘要,長期累積起來的文件會相當可觀,就可以做成知識庫應用。人們通常在下載文件時,自己已經先篩選過資料了,也不是隨便下載,所以使用者自己就是守門員。 為什麼不用 Notebook LM 就好 當然也有很多人習慣把檔案抓下來後丟進各種AI工具,Notebook LM、各種AI Chatbot或是翻譯軟體,但我自己在使用後的心得是,因為資料量太多,Notebook LM的效能會很差,而各種AI Chatbot 在對話結束後,使用者要再找回對話記錄可能還要花時間找尋。那為什麼不平時就開始做知識庫呢?所以在翻譯、摘要的過程中,也是在建立自己的知識庫,存在某個資料夾,可以再利用各種工具來搭建。 我自己是使用 Obsidian 配合 Claudian Plugin 一起使用。在閱讀由LLM產出的摘要時,我一定會遇到無法理解的內容,就可以再使用Claudian進一步「討論」內容,或請它解釋。於是文件就不是只有文件,而是可互動性的內容,也不會只在電腦裡積灰塵。 製作「AI...