跳至主要內容

文章

資料治理、AI 發展與我們的選擇

星期五早上,部門內部辦了一場腦力激盪。我們談了很多題目,其中一個,是「AI治理需要哪些基礎建設」;同日下午參與另一場演講,講者剛好分享台灣 TAIDE 模型 的發展過程—談到資料和算力取得的困難,也談到工程師在面對法遵時的抗拒心理—畢竟在工程師的世界裡,「Code is Law」。 兩場活動的現場討論,因為受限於時間,都沒有深入到制度本身的限制。但在活動結束後,讓我重新思考一個核心問題: 如果AI真的是下一波技術革命,身在台灣的我們真的已經有能力參與這場革命嗎? 資料治理,不只是開放資料而已 在多次公開場合中,台灣經濟研究院的林副院長經常強調資料治理的重要性,更牽涉到以下面向: 可取得性: 是否能跨部會、跨單位、跨領域取得? 品質: 是否具備標準、結構與說明? 授權與責任: 是否清楚哪些資料能用、怎麼用、誰負責? 維運與資源: 是否有穩定預算與長期支持? 台灣的 MyData 與政府開放資料雖然在形式上有推進,但在實際應用上卻處處受限,不同主管機關不一致的安全性標準使執行人員在充滿風險與缺乏信任的環境下工作,也讓人民、企業在取得資料上處處受到限制。 回顧韓國資料治理的制度發展,他們之所以能在 2020 年推動 Data Dam 計畫、大量釋出公共與民間資料,讓銀行、 FinTech 業者介接 MyData 資料建立服務及收費 ,不只是靠政府號召,而是有一整套法令支撐著「再利用」、「匿名化後的合法使用」,以及「免責條款」。 韓國的《資料三法》( 個人資料保護法 、 資訊通信網路法 、 信用資訊法 )在整合修正後,不只清楚界定資料的再利用情境,也建立了資料去識別化的技術與法律標準,同時提供了「在遵法前提下使用資料者可免責」的條文。這讓企業、政府機關與開發者都可以在明確的框架下進行資料流通,而不用時時擔心法律風險。 台灣在法律層面卻缺乏資料可攜權及對再利用資料的明確界定與免責機制,使民間開發者在使用資料時,始終心存顧慮,不知道會不會踩到模糊地帶;也讓政府內部對資料開放裹足不前,擔心「一開放就出事」。 因此,如果台灣真心想讓 AI 成為下一階段的產業基礎,就不能忽視資料治理的法制建設—這不只是「能不能開放」,而是「開放之後,誰來保護願意開放的那一方」的信任機制。 我們缺的不是資料,而是讓資料變得「能用」的治理機制 我曾經在智慧城市展與一位國外業者談論關於台灣的政府開放資料...
最近的文章

公告:更換網址為 www.yingchu.net

使用「.tw」域名的網址已有一段時間,在台灣的春季連續假前一天,我決定把域名自原本的 「.tw」 改到「 .net 」,從國家及地區頂級域名(ccTLD)更換為通用頂級域名(gTLD)。對一般人來說,只是換個網址,但實際上更換域名不僅影響網路搜尋引擎排名,也因我無法設定舊網址自動跳轉到新網址(301 頁面),加上我平時較少使用社群平台,導致許多瀏覽者可能無法得知我已更換網址,RSS 讀者也無法自動收到新文章。 目前我只能在 X(twitter)、LinkedIn上公告我已更換網址。 請大家更新自己的書籤至「 https://www.yingchu.net 」,有使用 RSS Reader 習慣的使用者也更新至「 https://www.yingchu.net/atom.xml 」或「 https://www.yingchu.net/feeds/posts/default 」。 更換域名的原因 1. 費用因素 自 2014 年開始使用「.tw」域名,每年付台幣 700 元,使用已超過 10 年。當時選擇「.tw」,除了想告訴瀏覽者這個文章作者來自台灣外,「.tw」比「.com」或「.net」每年維護費用便宜近 50%。這期間我也曾購買其他新頂級域名(New gTLD),如「.world」、「.asia」等,並使用不同註冊平台。有些平台為吸引新客戶不時推出特價活動,例如我一直關注的「.net」近期就有優惠。同時,移轉服務商後「.tw」的維護費用也低於 HiNet,進一步強化我更換域名的意願。 2. 較友善的管理介面 原本透過 HiNet 購買的「.tw」域名,其後台介面不夠直覺,常常找不到設定功能。每年僅登入一次,幾乎無法記得操作流程。今年登入時才注意到其實有提供多因子驗證(MFA)功能,但過去完全未曾留意,也從未收到相關通知。自 2014 年至今,我印象中這個系統介面僅更新過一次,早期的版面文字更小、操作不便。 當我在其他服務商購買「.net」域名後,發現他們的介面在手機與電腦上皆清晰易用。因此我也將其他域名集中轉移至同一註冊商管理。新的註冊商同樣提供 MFA,我也不儲存信用卡資料,讓集中管理更加輕鬆安全。 3. 無法接受「.TW」註冊局(registry)的政策 促成我犠牲 10 年 SEO成果的臨門一腳,是因為收到一封台灣ccTLD管理者(即註冊局,台灣的註冊局...

台灣成立個人資料保護委員會的重要性

我在2018年6月7日去聽 PChome 的詹宏志董事長的 演講 ,他在演講中提到過去PChome被 DDoS 攻擊的事件。當他知道公司網站受到攻擊時,他不知道該向誰通報,只好藉由他的人脈網來尋求協助,當然也取得協助,並在他的考量下,儘量降低對公司聲譽、消費者權利的風險。 台灣發生過的真實案例 當我聽到這個經驗後,心中一直有個疑問:「當大企業遇到 DDoS 時,有內部資安管理人員全力處理。但若中小企業遇到 DDoS 時,除多功能的資訊服務團隊外,又該如何應對?」  2007年的博客來網站因為金馬影展的售票資料庫因為人為疏失,造成大量個資外洩,但因為當時的《電腦處理個人資料保護法》(即現在的個資法)還不是很完善,所以對當時的博客來而言並未有很嚴重的懲罰。 之後隨著網路愈來愈普及,網站因遭受攻擊造成資料外洩的事情愈來愈多,從會員資料庫外洩到癱瘓公司系統甚至導致醫療系統或網站癱瘓。,大家也開始藉由網路媒體教學,當自己的資料外洩,或是私密影像被惡意傳播時,就會先去警局報警備案。 在台灣,因為各目的事業主管機關的權責範圍不同,在沒有成立數位發展部(數位部)前,網路商店發生資料外洩時,可能會先找經濟部、國家通訊傳播委員會(NCC);在成立數位發展部後,就把所有責任給數位發展部。讓我很感慨的是2023年的 醫指付個資外洩事件 ,就看著衛福部、經濟部、數位部、金管會四個部會互踢皮球,都不認為自己是應該負責的目的事業主管機關,最後由金管會處理。 歐盟GDPR實施後對全球企業的影響 台灣的人權團體長久以來不斷倡議台灣需要獨立的個人資料保護機構,這件事我一直都沒忘,甚至是在討論 《數位中介服務法》 草案時,這部法的草案已經將個人資料保護機構應做的事已規劃至其中。可惜的是因為政治操作,這部法案就被遺忘了。 我在 2022 年開始蒐集全球個資保護與隱私保護的案件及觀察全球人工智慧、個人資料法規發展,我觀察到,台灣與收集的案例的最大不同處在於,與其他國家比較,台灣沒有獨立的個人資料保護單位,自然當其他國家在談資料跨境傳輸協議、人工智慧發展政策與規劃時,台灣沒有對等的單位可以參與討論,也許數位部同時身兼這樣的角色,但就不是前段所提到的「獨立」的權責機關。 歐盟的GDPR自 2018 年 5 月開始實施後,許多國家開始思考擁有資料保護及所有權的重要性而紛紛立法外,GDPR也對全球企業造成很...

注意心理健康,善用心理諮商資源

在很久以前,我粗略畫過幾張統計圖表丟在社群平台上,不過,也許是時候寫一篇文章來說這些資源的重要性。 台灣衛生福利部(衛福部)自2024年開始提供一個很棒的資源:「15-45歲青壯世代心理健康支持方案」,我直接引用頁面中的內容,即自 2024年8月1日起,衛福部擴大補助3億3,600萬,提供15歲到45歲有心理諮商需求的青壯世代,可以補助 3次的諮商費用 。有興者可以閱讀 相關頁面 內容。這對青壯世代是非常棒的一件事,這個世代的人會被網路上的影音文字迷惑,感到茫然,卻找不到出口,社群網站上日益增加的負面情緒、工作與家庭帶來的壓力、空白的社交生活、有些人會利用其他線上工具抒緩心理壓力,坊間也有愈來愈多的身心治療診所或是心理諮商中心,在衛福部的 專案頁面 、 心理健康學習平台 上也有列出合作的機構,可以增加信任感。各種工具、方式都好,但不要落入詐騙集團或是奇怪的宗教團體就好。 了解台灣的自殺死亡狀況 這段是我後來才補上的。本想跳過這一段,但我發現,這個部份很重要。 我在衛福部心理健康司找到「 自殺死亡及自殺通報統計 」資料,於是我統計2019年到2023年全台灣因自殺而死亡的人數並製成圖: 2019年至2023年不同年齡分層自殺死亡人數統計(單位:人) 自第上圖可以知道,在這 5 年裡,45 至 64 歲的死亡人數都是最多的。於是我也好奇的去找了不同性別在這區間因自殺而死亡的人數: 2019年至2023年男性年齡分層自殺死亡人數(單位:人) 2019年至2023年女性年齡分層自殺死亡人數(單位:人) 很遺憾的是,在14歲以下都有自殺死亡的孩子,不論性別都呈現逐年增加的趨勢。在這 5 年中,不論男女,在 2019 年的 45 至 64 歲都是自殺死亡人數最高的,男性是 970人,女性是 513人,2019年是新冠疫情開始之初,那一年有許多人可能面臨失業或因隔離而心理壓力或情緒失衡選擇自殺,我沒有再去找更進一步的資料。自不同性別因自殺而死亡的人數性別統計來看,除了 14歲以下的死亡的孩子外,男性自殺死亡的人數是女性死亡人數的近 2 倍。 粗略了解台灣人使用抗憂鬱藥物的狀況 由於衛福部的「15-45歲青壯世代心理健康支持方案」專案的補助對象是 15 至 45 歲,於是我好奇為什麼 46 歲以上的對象不在補助範圍裡?是不需要還是 46 歲以上的人有能力負擔諮商費用?先不想那麼多,...

生成式AI使用記錄-翻譯

翻譯是一門專業工作,它不只是把另一種語言轉化為日常生活的語言,而是轉化為人人看得懂、聽得懂的語言。在學習的過程裡,老師說過翻譯重視「信、達、雅」,這是一門學問,不是任何一個人、哪種工具可以取代的。這篇不是在談「翻譯」的學問或是翻譯會不會被人工智慧取代,我也不是專業翻譯,沒有能力談這門學問,我只能分享AI在工作上的協助。 因為工作需要閱讀大量的國外文獻,或是參與會議中有大量的英文文獻需要閱讀,Google Translate提供許多協助,同時利用使用者協助修正翻譯的正確度,甚至減少大量閱讀的時間。 隨時間的增加,坊間也愈來愈多更好的翻譯軟體,但遇到會議的錄影與錄音轉譯,還是需要由專業的翻譯公司協助,以節省時間成本,人員可以把時間專注在自己的事業上,遇到需要節省金錢成本時,就會折衷由一般人員來譯出可以接受的成果。 直到 ChatGPT 出現,我拿它來翻譯會譯的逐字稿,它協助節省金錢成本與時間成本,雖然增加編輯成本,但隨著模型逐漸進步,訓練的人愈來愈多,它也會提高準確度,並藉由一次又一次的對話往來,產出比用 Google Translate更能讓人容易接受的版本。相對的,它還是增加使用人員需要編輯、審核的時間成本。但有沒有比人類編輯好?我想現階段,中文可能還有沒比人類編輯好的程度,但已經可以是能接受、初步可以讀懂文字要表達的粗略意思的程度,離「信、達、雅」的標準還很遠。 以往的少見文字,如藏文、閃語、印度語,甚至連死海古卷裡的文字都已經可以藉由AI技術辨識出來,已經是非常大的進步。有天我使用AI翻譯藏文時,突然想到,誰可以幫我核對翻譯出來的正確性?我個人是不懂藏文的,當我想把中、英文用AI翻譯為藏文時,又能請誰幫我確認文法與用字的正確性呢? 所以,使用者本身也是需要一定程度,才能辨識AI結果的正確性,有無過度編撰或錯誤的引用,例如在法規上的引用、宗教信仰經典裡的人物及故事,會不會在一來一往中給AI產生幻覺(Hallucination)的機會。又如同專業的翻譯人員並不是完全了解各行各!業中的知識,工作過程中還要再與委託者討論。又如有次我聽到一場會議的講者,他提到他是專業的執法人員,但是否判定對方有無違法,還需要了解該行業的專業知識,例如建築業、畜牧業,甚至要去了解飼料的投餵方式與成份。所以現階段,AI還是無法取代人類,也無法代替法官做出判決,大概也是短期內的一件好事吧! I...

生成式 AI 使用記錄 -- Deep Research

當OpenAI將Deep Research先開放給 ChatGPT Pro 的使用者後,已經有一群使用者驚訝於它的產出,沒多久,OpenAI已 開放給付費的使用者 來使用 Deep Research功能,讓更多人都能受惠於這套功能帶來的方便。 當我在 ChatGPT 裡使用 Deep Research 讀完我幾年來處理的文件、寫的報告內容後,它依這些資料產出的速度相當快,除了可以搜尋網路文章外,也同時參考我所上傳的資料。因為已經讀過我整理過一次或經過多次編修的內容,所以產出成果也有一定的品質。 這樣的發展促使我思考「知識工作者」是否可能真的被取代?科技進步就是不斷的在縮短資訊落差,減少因為資訊落差造成的不平等,但仍有可能因為運用資本的程度不同而產生不平等。 就現階段來說,使用者要讓生成式AI按提示語(Prompt)工作,取得高品質且符合需求的資料、辨識產出的成果是否存有虛構的內容,都需要依賴使用者本身對該領域的專業程度,才能寫出正確的提示語。在我今天的操作過程中,如果沒有先前累積的知識,可能也無法讓AI開始工作。 知識工作者在未來,存在的意義可能會像「翻譯」一樣,將客戶的需求「翻譯」為指令,限縮這些生成式AI在搜尋的範圍,提高產出的準確率及品質,減少內容的幻覺,,也像一個具基本能力的「編輯」,編修文章中的字句,更貼近「人類」的語言,或客戶需求的專業語言,而不是像機器一般的語言。 Deep Research 不僅縮短產出文章的時間,還沒有創作者在產出文章時的陣痛期,例如面對排山倒海的資料確不知從何處開始著手整合,又或是完全不知道要去哪裡找資料,又該從哪裡開始。在對話的過程裡,生成式AI也會一起把範圍縮小,讓目標更明確,也是不錯的協助。

To Regulate or Not to Regulate? About AI technology

I borrowed the title of the forum this afternoon . Actually, I attended two webinars about AI today.  One forum focused on the debate about regulating AI development in Taiwan. The discussion was fruitful, as the panellists shared their experiences and knowledge about different AI regulations across various countries. Besides Taiwan, they discussed the European Union, the US, Korea, and China. Korea, for instance, published their "Act on the Development of Artificial Intelligence and Establishment of Trust" (AI Basic Act) at the end of 2024. However, before this, the Korean government had already established good data governance through three essential acts: the Personal Information Protection Act, the Network Promotion Act, and the Credit Information Act. These laws, along with their MyData applications, built a strong foundation for strategies like the Data Dam, a centralized platform for securely collecting, storing, and processing large-scale data, which supports AI devel...