[政府資料應用] (巨量)資料分析研究成果發表會心得

今天參與了科技部和工研院的巨量資料成果發表會，那是一場很學術但時間不足的成果發表會，也曝露出：有資源、有關係拿到的資料更齊全的真實狀況。

同樣做空污與健康的研究，同樣是健保資料庫+開放的氣相資料+空污資料，元智大學有資本可以拿到更完整的資料，也因為他們本身是醫事相關學校、願意投入資源，再配合自己的資料庫，做出來的東西更容易令人印象深刻。另一個案子的成員(學生)在發表前在旁邊碎碎念，念人家拿完整的資料，他們得從零開始，還冒出一句值得深思的話：『他們(元智)也不可能分享出來。』

在學術研究的角度，當然不可能，但站在為人民的立場呢？如果是為了全國的健康呢？就像Theranos的創辦人Elizabeth Holmes將研究出來的技術都申請了專利，以商業立場來看是應該的，但能救人、改善醫療檢驗的技術申請專利似乎哪裡『不太清爽』。

Open Street Map的應用和國際案例都被提到了幾次。

另外在台灣的1999因為技術問題一直無法放出資料。在圖像辨識、文字探勘都提到共通問題－人工作業。為了避免法律責任、網站阻擋或是讓資料定位更準確，所以都會再透過人工再分類、定位。在期望的定義裡，可透過『人力』解決/清理/定義的資料都不能叫『巨量資料』。

最後一組是講犯罪資料，有三個子題。其中一個是常看到的犯罪地圖，在英美是透過報案資料來分析，中正大學直接和新北市府合作，結合司法院的開放資料同時直接取得獄政資料庫(校長曾有相關警政背景實在太方便了)，在『合法』、不違反個資法的前提下也做了一些犯罪行為的分析，這個資料很敏感，可能還分析家庭背景、精神疾病狀態。

不過，這些都讓我看到了：政府開放資料並不是同步的。除非部會機關願意，不然民間人士只能拿到垃圾資料，零散、破碎，還要耗費時間清理；但只要進行研究計畫，相關的人員就有『方法』可以拿更齊全的資料。

離開前，做犯罪行為研究的學生(剛好坐在附近)私底下問：『以後還拿得到獄政資料嗎？』看似老師的人回：『…繼續再配合的意願不高，再加上政局轉換……』老師搖搖頭。

今天發表的成果裡，都用了一些時間在講述進行研究前與法務人員確認相關的法律責任，但要講法律責任的話時間依然不足，而成果就只能摘要式的報告了。

最後，對於資料內容的不同步或是取得資料的方式有差異、政局的轉換也影響了各部會、各政策執行的意願，尤其是政府開放資料，這些都讓人感到氣餒。

歡迎參與相關討論：Taipei.io Google group

留言

此網誌的熱門文章

法制追不上AI：缺乏台灣AI基本法子法，公務員使用生成式AI的五大風險

昨晚看新聞，現任台北市長拋出一個政策宣示：未來公務員將配給自動化的AI工具，讓台北市政更「前進」。台北市資訊局也已快速推出 CiviClaw，目標是 2027 年讓每位公務員都能無門檻使用 AI。這樣的政策方向讓我感到憂心。長期觀測各國個資保護規範的我清楚知道：台灣的個人資料保護主管機關至今仍是「籌備處」，尚未正式運作；《個人資料保護法》的修法呼聲雖久，AI相關條款卻付之闕如；《人工智慧基本法》已於今年1月施行，但高風險AI認定標準的子法至今仍是空白。有網路、有 IoT 不等於智慧城市，有 AI 當然也不等於智慧城市，應該重視制度能否承接工具帶來的責任。歐盟已明確禁止業者使用 AI 推測員工或學生的心理狀態；美國聯邦政府要求採購 LLM 時廠商必須提交模型卡與資料卡；韓國 AI 基本法的子法早已配套生效。這些都是台灣政府在推動配給公務員 AI 之前，必須正視的制度差距。以下我與大家分享長期觀測的內容，由AI協助整理資料：歐盟：從禁令到揭露義務的多層規制體系歐盟的AI治理框架是由多部法律疊加起來的立體架構，最底層是2018年施行的 GDPR，處理的是個人資料如何被蒐集、儲存、使用的基礎規則，再來疊是2024年生效的《人工智慧法》（EU AI Act，下稱 AI 法），建立不同風險等級分類管理AI系統，從禁止使用到高強度監管、再到一般透明度義務，形成不同層次。最新的一層則是仍在立法程序中、但主要架構已確立的 Digital Omnibus ，試圖修補 AI 法與 GDPR 之間的規範衝突。 AI 法第50條是最直接影響生成式AI服務的條款，自2026年8月2日起全面適用。根據這條規定，凡是讓使用者與AI系統互動的業者，必須主動告知對方「正在與 AI 互動」，而不能讓人誤以為面對的是真人。AI生成的文字、影像、音訊等內容，還必須以機器可讀的格式加上標記，使平台與監管機關得以溯源辨識。與此同時，AI法第14條要求高風險AI系統必須設計成「可由自然人有效監控」的形式，確保機器的決策不會在缺乏人工審核的情況下直接作用於當事人。 AI法所稱的「高風險 AI 」，涵蓋的場景比一般想像的廣。依該法附件三列舉，生物辨識系統、關鍵基礎設施管理、教育與職業篩選、就業與人員管理、信貸與社會福利申請審核、執法、移民邊境管制，以及司法審判輔助，都在高風險範疇之內。這些場景的業者必須進...

為什麼我支持《數位中介服務法》草案

在經歷許多次反抗台灣政府所立的網路相關法案後，我其實沒想過除了《數位通傳法》草案外，我還會再支持另一部法律草案，雖然《數位通傳法》草案還壓在某處，但如果有人讀過《數位通傳法》的草案，再讀這部《數位中介服務法》草案，就會知道這部草案的重要性，而且也可以顯示台灣網路使用者的成熟度，更重要的，這是我第一次看到引入國際網路治理多方利害關係人機制的法律草案，而且是用在正確的地方。有興趣想知道我在讀法條時的筆記和當下的感想，可以看我這則 Tweet 。這篇不使用逐條讀法條的方式來寫，因為那會讓人昏昏欲睡，我也不去比對歐盟《數位服務法》，因為我在讀《數位服務法》草案時，該草案特別強調是加強歐盟 E-Commerce Directive ，而不是取代它，而且更多著重在預防盜版、仿冒，保護消費者的法案。所以當有輿論提到參考自《數位服務法》的《數位中介服務法》草案限縮言論自由時，我其實是一頭問號的，但一直到今天我才有時間讀《數位中介服務法》草案，這篇文章出自於我的個人經驗和閱讀法案的心得，與擔任的職務無關。如果最近注意一下網路的資訊，有幾件事該注意一下：有許多人在社群平台，如Facebook或是其他網路看到一些廣告，而這些廣告可能是要你支持台灣農產品、台灣製的產品，結果你收到時，上面還寫著簡體字，通常這是所謂的一頁式廣告詐騙，而行政院的消費者保護會在 2019 年時就有新聞稿在警告「一頁式廣告詐騙多小心查證保障多」，之後像公視或是其他單位都有相關的活動在提醒大家小心這類廣告。但目前這些廣告其實多數不易處理，因為不容易取證、保留證據，等到追查到時已經找不到對方了。有不少親密照片與影片在情侶分手後，被報復性的上傳到情色網站或透過即時通訊傳到親友的帳號裡，或是被洩露個資，遭到公開的霸凌。之前有一個專題：「青春煉獄：網路獵騙性私密影像事件簿」，光是讀完這個專題報導我就覺得受傷。有人使用 Deep Fake 把台灣名人的臉部照片合成至色情影片再上傳至色情影片平台，今年 7 月才被判刑。還有許多創作者藉由網路分享作品時，被人盜用，甚至有國外的使用者修改台灣人的作品去參與比賽還獲獎。有一次打電話問某個部會，如果消費者在國外電子商務平台買東西，但資料被外洩怎麼辦？雖然政府願意協助，但衡量至國外打官司的時間和成本，就會讓人卻步。有些行為在現實世界裡有法...

停不下來的更新

一直更新Blog的版型，我必須承認是一件很無聊的事，不過這次除了版型的更動外，連分類和文章內文也做了變動。先說分類吧！在Blogger叫做Label，不過，Blogger在分類上有一些bugs，只能使用英文，以前這裡的分類大多都是中文分類，結果在link上就是一堆亂七八糟的亂碼，所以我把它改成英文，同時細分一些項目，把出版的文章和一些教學的文章分開來，雖然已經很久沒寫新的，不過既然放上來就做個分類。然而就在新舊label移轉之後，發現中文的label還會存在，而且還會出現莫名奇妙的幽靈數字，Blogger知道這是個bug，不過似乎一直沒有修復的跡象。所以在分類上就出現了如右圖一般的情況，在英文標籤裡會有文章，但是在中文標籤裡是沒有文章出現的，但奇怪的是，有些中文標籤已經不見了，然而在Beauty-Beta這個部落格裡，我也做了分類上的變動，由於以前用英文開頭的Label，所以在label的變動上倒是不用擔心會有這樣的情況。再來是文章的內容，把以前的文章重新分類，標題前面的一些全形符號或是分類刪掉，除了一些比較特殊的，我會留著，例如壹陸壹，因為在label裡為了統一，我留著原本的E61，但人家的店名是壹陸壹，所以留下文章標題前面的中文分類，另外像是Entertainment項目裡，可能有音樂，可能有電影，就會在前面留下中文分類。前簡單的CSS和HTML改成現在的XML，這無疑是讓我們再多學些東西，能有時間鑽研當然是好事，可是轉換後，我一直沒有時間去改，當然多半也是因為懶，到現在也是拿別人做好的版型去改配色而已，所以像裡面的設定、安裝的widget和analytics的javascript都要一個一個重新裝，上個星期幾乎每天都弄到天亮才睡，只為了整理這個blog。也因為之前在blog裡放了technorati的分類，所以還要修改以前的文章，把它們加入technorati，還有裡面的語法要更改，所以這個星期甚至下個星期都會一直收到這裡的更新訊息，對於不斷收到訊息干擾的朋友們，在這裡說聲抱歉。在版面上因為blogger系統在feed接受上的更新，所以還有四個東西沒加進去，分別是最近的文章（Recent Post）、Comments（目前是用別人寫的widget）還有GVO的feed訂閱顯示、Beauty-Beta的訂閱顯示也都還沒放上去。在Feed訂閱上，以前bl...