資料治理、AI 發展與我們的選擇

星期五早上，部門內部辦了一場腦力激盪。我們談了很多題目，其中一個，是「AI治理需要哪些基礎建設」；同日下午參與另一場演講，講者剛好分享台灣 TAIDE 模型的發展過程—談到資料和算力取得的困難，也談到工程師在面對法遵時的抗拒心理—畢竟在工程師的世界裡，「Code is Law」。

兩場活動的現場討論，因為受限於時間，都沒有深入到制度本身的限制。但在活動結束後，讓我重新思考一個核心問題：如果AI真的是下一波技術革命，身在台灣的我們真的已經有能力參與這場革命嗎？

資料治理，不只是開放資料而已

在多次公開場合中，台灣經濟研究院的林副院長經常強調資料治理的重要性，更牽涉到以下面向：

可取得性：是否能跨部會、跨單位、跨領域取得？
品質：是否具備標準、結構與說明？
授權與責任：是否清楚哪些資料能用、怎麼用、誰負責？
維運與資源：是否有穩定預算與長期支持？

台灣的 MyData 與政府開放資料雖然在形式上有推進，但在實際應用上卻處處受限，不同主管機關不一致的安全性標準使執行人員在充滿風險與缺乏信任的環境下工作，也讓人民、企業在取得資料上處處受到限制。

回顧韓國資料治理的制度發展，他們之所以能在 2020 年推動 Data Dam 計畫、大量釋出公共與民間資料，讓銀行、 FinTech 業者介接 MyData 資料建立服務及收費，不只是靠政府號召，而是有一整套法令支撐著「再利用」、「匿名化後的合法使用」，以及「免責條款」。

韓國的《資料三法》(個人資料保護法、資訊通信網路法、信用資訊法)在整合修正後，不只清楚界定資料的再利用情境，也建立了資料去識別化的技術與法律標準，同時提供了「在遵法前提下使用資料者可免責」的條文。這讓企業、政府機關與開發者都可以在明確的框架下進行資料流通，而不用時時擔心法律風險。

台灣在法律層面卻缺乏資料可攜權及對再利用資料的明確界定與免責機制，使民間開發者在使用資料時，始終心存顧慮，不知道會不會踩到模糊地帶；也讓政府內部對資料開放裹足不前，擔心「一開放就出事」。

因此，如果台灣真心想讓 AI 成為下一階段的產業基礎，就不能忽視資料治理的法制建設—這不只是「能不能開放」，而是「開放之後，誰來保護願意開放的那一方」的信任機制。

我們缺的不是資料，而是讓資料變得「能用」的治理機制

我曾經在智慧城市展與一位國外業者談論關於台灣的政府開放資料是否好用？該位業者回應，台灣的政府開放資料似乎「數量豐富、分類完整」，但若問本地的 AI 開發者，他們往往只苦笑：「資料雖在那裡，卻不是真的可用」，隨著民間逐漸將注意力轉往AI或其他新興科技的發展與治理議題，政府開放資料的品質與量，也日漸變差，甚至不再維運。

昨天下午的講者也分享一個實例：他們團隊試圖使用「數位典藏」資料進行訓練，結果下載回來的卻只有圖檔，沒有 OCR 處理過的文字檔，甚至也無法確定是否具備商業用途授權。這樣的資料「可見但不可用」，反而讓開發寸步難行。

這些現象背後反應的其實是：台灣缺乏一個清楚的資料治理主體與責任歸屬，缺乏一套能有效整合資料提供者、使用者與治理者的制度機制，資料治理不只是開放，當初各部會都成立開放資料平台，但當資料品質不一、授權模糊、缺乏跨部整合，就很難讓這些資源成為 AI 發展的燃料。

這不只是技術問題，而是治理邏輯的反應。資料開放成為「儀式性透明」，但實質上仍保留著權力的不對等。在現行的制度設計下，資料仍被視為各部會「手中的資產與優勢」，而不是公共治理的基礎設施。於是：

開放成了形式，
共享變成選擇性地授權，
民間開發者能用的，永遠比政府內部人員能取用的少一截。
這樣的資料不對等，直接影響了 AI 的發展環境，也削弱了整體創新體系的潛力。

我不認為每筆資料都必須無條件開放，但我們應該有一套清楚的資料分級與授權制度，讓開發者知道哪些資料可以申請、哪些資料必須加值付費、哪些資料基於隱私或法規限制無法提供—而不是處在一種資訊灰區，總是「不確定能不能用」或「不知道怎麼申請」。

從治理角度來說，問題不在於技術不夠，而在於：
誰負責確保資料具備可用性？
誰訂定跨部會的一致授權框架？
誰建立資料品質與標準的審查機制？
開放資料背後的營運與維護成本，是否有長期的支持機制？

這些問題若無人主責，就會落入一種無解的輪迴：每個部會都開資料，但沒有人真正「用」資料；資料看似很多，卻沒有成為有用的基礎建設。

制度設計的關鍵，是建立正向的誘因循環

資料治理的推動，不只是技術問題，也不是單靠法規命令就能完成的事。對於公務體系而言，資料代表著部會的權責與專業價值。要求他們無條件開放或放棄資料掌控，本身就會引發組織防衛心理。如果我們無視這一點，只是一味要求「開放」、「共享」，結果只會是形式化的開放、低品質的資料釋出，最終兩敗俱傷。因此，制度設計上必須同時考量：

對公務單位的正向誘因：

讓提供高品質資料的部會能獲得評比加分、資源獎勵個人或提升外部能見度。
在資料共享成果中，清楚標示來源與貢獻單位，讓資料治理成為部門績效的一部分，而非隱形勞務。

對企業與民間的誘因：

提供標準化、可驗證的資料授權與應用條件，降低法律與法遵風險。
建立資料流通市場，允許企業基於開放資料開發商業產品，同時設計回饋機制，讓收益部分反哺資料維護與更新。
提供資料可攜權，讓人民可以自由選擇使用平台。

對公共利益的保障機制：

資料治理必須納入倫理審查、隱私保護與安全性標準，防止資料濫用或侵犯基本權利。

只有當制度設計能讓「資料提供者、資料使用者與社會整體」三方都能看到實際好處，資料治理才可能從口號變成真正的行動。

資料治理是基礎，但 AI 治理才是未來社會信任的核心

這篇文章談到資料治理制度的重要性，即缺穩定、合法、可信任的資料基礎，AI 就無從發展。但我們不能忽視，當 AI 系統日漸普及，治理的重點已不只是資料來源，而是 AI 本身如何被使用、濫用與修正。

舉例來說，生成對抗網路(GAN)已被廣泛應用在影音合成、照片仿真、人聲模擬等領域。當它被濫用於製作偽造新聞、假冒身份，甚至用於性暴力與騷擾時，傷害是真實的，但責任卻常常模糊不清：

誰該為傷害負責？是平台、模型開發者，還是散播者？
如果原始資料未經當事人授權被納入訓練，是否構成侵權？
被害人如何申訴、修復名譽、下架內容？
模型開發方是否有義務建立偵測機制、防止濫用？

這些問題都屬於AI 治理的範疇，卻在多數政策對話中仍被擱置，或簡化為「產業自律」或「技術補丁」。這些問題牽涉的，是公民信任、身分主權與社會公平，不能只是靠技術人員良心或平台條款來維持。

真正的 AI 治理，應當包含以下三層機制：

前端：制度性的風險預防與開發準則 (如高風險模型須經透明審查)
中段：平台與開發者的監督義務與即時回應機制(例如違規內容自動下架、來源溯源)
後端：被害人的補救、申訴與修復機制(包含法律、技術與心理支持)

這樣的治理結構，需要跨部門、跨領域、甚至跨國合作來實現。否則我們只能一再重複「科技跑太快，制度永遠跟不上」的老劇本。

治理，不是立即定規則，而是持續發現問題的過程

我們常常對「治理」有一種誤解，以為它應該立刻建立明確機制、設定邊界、完成法律文本。但事實上，真正有效的治理往往始於開放對話、跨域理解與多元參與。

這也是為什麼我認為類似國際「網路治理論壇(Internet Governance Forum, IGF)」的平台格外重要。雖然它不制定法律、不做政策裁決，但它提供一個難得的空間，讓政府、企業、技術社群、公民社會與使用者都能發聲，彼此聆聽彼此未曾考慮的角度。

正因為 AI 治理涉及的不只是技術與法律，更牽涉價值選擇與權力分配，我們更需要類似的公共討論場域，來發現政策制定者、業者、使用者沒注到的風險、沒傾聽到的聲音、沒思考過的後果。

AI 治理的未來，不會靠單一法規完成，也不會靠單一角色決定，而需要我們共同建立一種願意對話、敢於調整、且持續前行的治理文化。

附註：

這篇文章是我在聽完演講後，在咖啡廳裡與 ChatGPT4o 共同「討論」出來的文章內容，結合我與「它」的想法，包括AI治理、我在開放政府資料活動裡的經驗，及近幾年觀察政府部門對開放政府資料的態度。

昨天晚上在社群平台也看到一些人在說 ChatGPT 只會倒出不正確的資訊。我回顧與它合作的經驗，它的確會產生幻覺與不正確的資訊，它是演算法，如同使用者在社群平台上點了什麼廣告，演算法就會推給使用者什麼資訊，使用者自己也要有判斷資訊是否正確的能力，所以追根究柢，還是要視使用者的行為來決定，而非工具。

Image by Gerd Altmann from Pixabay

歲月的容顏 YingChu Chen

搜尋此網誌