跳至主要內容

[政府資料應用] (巨量)資料分析研究成果發表會心得

今天參與了科技部和工研院的巨量資料成果發表會,那是一場很學術但時間不足的成果發表會,也曝露出:有資源、有關係拿到的資料更齊全的真實狀況。

同樣做空污與健康的研究,同樣是健保資料庫+開放的氣相資料+空污資料,元智大學有資本可以拿到更完整的資料,也因為他們本身是醫事相關學校、願意投入資源,再配合自己的資料庫,做出來的東西更容易令人印象深刻。 另一個案子的成員(學生)在發表前在旁邊碎碎念,念人家拿完整的資料,他們得從零開始,還冒出一句值得深思的話:『他們(元智)也不可能分享出來。』 

在學術研究的角度,當然不可能,但站在為人民的立場呢?如果是為了全國的健康呢?就像Theranos的創辦人Elizabeth Holmes將研究出來的技術都申請了專利,以商業立場來看是應該的,但能救人、改善醫療檢驗的技術申請專利似乎哪裡『不太清爽』。 

Open Street Map的應用和國際案例都被提到了幾次。

另外在台灣的1999因為技術問題一直無法放出資料。 在圖像辨識、文字探勘都提到共通問題-人工作業。為了避免法律責任、網站阻擋或是讓資料定位更準確,所以都會再透過人工再分類、定位。在期望的定義裡, 可透過『人力』解決/清理/定義的資料都不能叫『巨量資料』。 

最後一組是講犯罪資料,有三個子題。其中一個是常看到的犯罪地圖,在英美是透過報案資料來分析,中正大學直接和新北市府合作,結合司法院的開放資料同時直接取得獄政資料庫(校長曾有相關警政背景實在太方便了),在『合法』、不違反個資法的前提下也做了一些犯罪行為的分析,這個資料很敏感,可能還分析家庭背景、精神疾病狀態。 

不過,這些都讓我看到了:政府開放資料並不是同步的。 除非部會機關願意,不然民間人士只能拿到垃圾資料,零散、破碎,還要耗費時間清理;但只要進行研究計畫,相關的人員就有『方法』可以拿更齊全的資料。 

離開前,做犯罪行為研究的學生(剛好坐在附近)私底下問:『以後還拿得到獄政資料嗎?』看似老師的人回:『…繼續再配合的意願不高,再加上政局轉換……』老師搖搖頭。 

今天發表的成果裡,都用了一些時間在講述進行研究前與法務人員確認相關的法律責任,但要講法律責任的話時間依然不足,而成果就只能摘要式的報告了。 

最後,對於資料內容的不同步或是取得資料的方式有差異、政局的轉換也影響了各部會、各政策執行的意願,尤其是政府開放資料,這些都讓人感到氣餒。

歡迎參與相關討論:Taipei.io Google group 

留言

此網誌的熱門文章

哪個應用、服務、平台可以代表台灣?

大概 2003、 2004 年,我還是個大學生,那個時候「電子商務」是一門選修課,那個時候台灣還在所謂的電子商務泡沫化中復甦,很多熱極一時的「電子商務」就像今天大家看到的 FTX 事件一樣,一點都不真實,很多執行長、總裁瞬間就失業了,也有很多投資人的錢拿不回來。 看過歷史上的鴻源事件、經歷過電子商務的虛無飄渺時期,再看到 FTX,其實也不會太驚訝。通常泡沫消散後,未來才會到來。 回到大學課堂,穿著輕便但言語犀利的老師談到當時的 Amazon 網路書店,他問大家對 Amazon網路書店的看法,那時的Amazon一直被看壞,所有的媒體都不看好它。甚至會有各種市場傳言,覺得 Amazon會被賣給哪家公司或哪家公司、網路書店會主動併購它。 最後老師說,不會,Amazon書店不會那麼輕易就垮掉,它有其代表的意義。 這個答案給了我很深的印象,我常會問自己,台灣有哪個服務會具有這樣的意義? 偶爾我會問身邊的朋友、同事,對於台灣的哪個服務,會覺得有不能輕易垮掉、要支持它的?我列一下自己所接觸過的,這個世代的應用: 通訊服務:ICQ、MSN Messenger、LINE、Cubie Messenger(台灣,已無服務)、Google Talk、WhatsApp、Telegram、Skype、Signal,還有一些台灣可能較少聽到。 社群平台:Twitter、Facebook、LinkedIn、無名小站(已停止服務,它雖然是Blog,但比較像社群)、Plurk、PTT、Dcard、Instagram、AKASHA、Pinterest Blog平台或架站:Blogger、Wordpress、Drupal 共享書籤 : HemiDemi(已沒有提供書籤服務)、美味書籤delicious 叫車服務:UBER、55688 、呼叫小黄、LINE Taxi、yoxi  當然還有很多是我沒接觸過的,請原諒我的見識不夠廣泛,忽略了哪一個平台、應用或服務。一時想到的大概就這些。有一些服務已經消失或在被併購後就消失了,我也忘了名稱,至於 TikTok 和小紅書,是我不想碰觸的應用服務。 在韓國有 Kakao,日本有 LINE、PayPay,東南亞國家有Grab,中國有自己的網路應用,那台灣呢?之前 KaKao 中斷服務,造成民生應用的線上服務也幾乎中斷,過度集中依賴在一個服務上的確是一個缺點。在和...

我在不會寫 code 的情況下做出一個桌面工具

當各種AI工具迅速發展的情況下,大家也開始製作自己常用的工具,更進一步公開分享給大家使用,例如 Jimmy Su 就分享自製的 沉浸式翻譯工具 ,滿足一般人平時上網閱讀外文頁面的需求;進一步像是 Justin Lee  開發的 ccxray ,讓Claude Code的使用者可以監看Claude Code與Anthropic API之間的互動,使 AI Token 的消耗變成視覺化的儀表板。 為什麼做這個工具 AI 幫助許多一般網路使用者做出適合自己使用的工具,我自己也曾 分享自己的經驗 ,現在做出一個應用程式的門檻已經降低許多,AI不會讓程式設計工作消失,反而讓更多人投入這樣的工作,從這個角度看應該是好事。 我自己也用AI打造一些工作上會使用的工具,包括後來做的這個「 AI-Doc-Translator 」,這是獨立自我日常工作使用的工具的其中一個功能,做成一支桌面程式。 由於每天都會接觸到外文論文、期刊,很多PDF檔下載後,只會放在儲存空間裡,或是丟到電子書應用程式裡,但什麼時候再打開?打開還要再閱讀外文的摘要、從頭理解?這些都會消耗掉耐心,於是我讓AI先幫我摘要重點,讓我大致了解檔案內容、記錄後,再做關聯成為自己的知識庫。 這個工具主要的功能是翻譯、摘要,它不是通篇翻譯,也不是改寫作者的內容,只做摘要,長期累積起來的文件會相當可觀,就可以做成知識庫應用。人們通常在下載文件時,自己已經先篩選過資料了,也不是隨便下載,所以使用者自己就是守門員。 為什麼不用 Notebook LM 就好 當然也有很多人習慣把檔案抓下來後丟進各種AI工具,Notebook LM、各種AI Chatbot或是翻譯軟體,但我自己在使用後的心得是,因為資料量太多,Notebook LM的效能會很差,而各種AI Chatbot 在對話結束後,使用者要再找回對話記錄可能還要花時間找尋。那為什麼不平時就開始做知識庫呢?所以在翻譯、摘要的過程中,也是在建立自己的知識庫,存在某個資料夾,可以再利用各種工具來搭建。 我自己是使用 Obsidian 配合 Claudian Plugin 一起使用。在閱讀由LLM產出的摘要時,我一定會遇到無法理解的內容,就可以再使用Claudian進一步「討論」內容,或請它解釋。於是文件就不是只有文件,而是可互動性的內容,也不會只在電腦裡積灰塵。 製作「AI...

女性在防災包中應準備的物品

全球在這幾年地震頻繁,再加上戰爭的陰影愈來愈大,坊間已經有各種災難包的清單作為一般人備災參考,也看到有些廠商會與名人合作,推廣救災包的重要性。我也採購一個以減少準備的成本,但在檢視與思考廠商陳列的物資清單裡,還是少了什麼,特別是如果遇到戰爭時,那些救災包,不論是幫小朋友準備的、幫寵物準備的,看似很棒,仔細想想,比較像露營用的物品清單。 這讓我很沮喪,因為我買了一個還要花更多成本準備急救藥品的防災包。身為女性,我會選擇多備急救藥品及衛生物品,因為那是能保護生命與尊嚴的基本協助。 網站中所販售的急救內容物是備而不用,反而有些必要的物品,如 止血帶 、止痛藥等,可能因為法規管制而沒有被列在販售的急救藥品清單中,但也沒有詳細的列在教學文章中,許多必要的物品都被輕描淡寫的帶過。我雖然已採購該防災包,但仔細想想,那個可能比較像露營用的清單,有點後悔,但我會留著當基礎,再把沒必要的東西改為必要的物品。災難來臨時,我們都只能選擇必要的,而不是選擇想要的。 急救訓練時的經驗 專科時曾與同學接受紅十字會的急救訓練,有一堂課裡,參與的學員們都討論過「物盡其用」這件事,例如在山上突然骨折或不幸出現開放性傷口時,有什麼東西是可以拿來急救使用的?且當災難來臨時,我們只能帶必要的物品離開,也能減少不必要負重,確保行動方便。 我曾檢視過多份清單,但都沒有看到女性必備的物品。有些東西不論在何時對女性來說是必備的:保險套、避孕藥、衛生棉、消毒藥片,有些物品因為國內法規管制,所以不會在販售清單上出現,所以還是需要自己準備。 保險套 :在戰亂或災區,被迫流離失所時,女性容易因性暴力而面臨傳染病或非預期懷孕風險。雖然保險套無法完全保護女性尊嚴,但至少能減少性病與意外懷孕的風險。另一方面,與許多大型儲水袋相比,保險套體積小、攜帶方便,也能臨時裝水,在缺乏乾淨飲用水的環境下派上用場。 避孕藥 :若在災難或戰爭環境中,醫療資源極度不足,女性若意外懷孕,將面臨極高的健康危機。避孕藥雖然在一般通路不易買到,但若能事先向醫師取得處方並納入防災包,就能有效降低非計畫性懷孕。 衛生棉 :一般型的衛生棉也好,或是夜安型(例如34、40公分)的衛生棉,除了生理期使用外,厚實且吸水量大,在臨時缺少紗布或繃帶時,也可用作包紮或止血墊。如果場地髒亂,同時也能暫時保持傷口乾燥,減少感染風險。雖然占空間,但在災難環境中,這些吸水性佳的材...