參與 Taiwan Open Data Census心得(1)

首先，我要說這份評比是由許多人合力進行的，而我只就我自己所參與的部份寫下我的心得。
從今年三月至今，看了台灣的各縣市政府的網站，也才了解到平時關注國外網站的時間可能都比瀏覽自己居住地的網站還要多。
在此，我再抄書一下。依照Open Knowledge Foundation對開放資料的定義，開放資料必須具備以下特性：

能容易取得、可以自由被使用，機器容易讀取，不受著作權法的規範，最多只能註明資料來源及所有人。
資料允許重覆被使用，也能與其他資料集混合重組後再傳播。
因為資料可以自由被使用、也允許被使用及散佈，所以不能限定資料的使用範圍。

台灣在今年參與了地方性的開放資料評比，將五都及各縣市政府都列在其中。評比的項目共有15項，分別為：

即時交通資訊
年度預決算
詳細支出（台灣則是觀察是否有提供支付及補助彙整表）
選舉結果
空氣品質（空污指數）
大眾運輸時刻表
公共設施
犯罪統計
採購契約
食品安全檢驗結果
交通意外事故記錄
建築執照許可
服務意見回饋資料
營業許可（公司登記資料）
商工公示資料清冊

台灣地方政府目前有：台北市、新北市、台中市、高雄市、宜蘭縣政府有提供自己的政府資料開放平台，台南市與嘉義市政府則是利用中央的政府資料開放平台提供地方的政府資料使用，多數縣市政府則是以「公開資料的格式」來呈現。在參與評比的過程中有遇到的狀況：
資料查找不易：
依台灣政府資訊公開法第7條的規定，上列的15項項目中，年度預決算、施政計畫、業務統計及研究報告都屬於公開資料。同樣依政府資訊公開法第8條第5項之規定，需要將規定需要公開的資料利用電信網路傳送或其他方式供民眾查找。所以在地方政府網站上所公開的資料，普遍刊載於網站上的公開資料專區中，如台北市政府曾獨立設置一個所謂的公開資料平台，讓瀏覽者直接瀏覽該公開資料網站之資訊。然而有些地方政府可能因為網站版面設計的緣故，將公開資料專區或是放置於不同的功能類別，造成網站瀏覽者在找尋相關資料的困難度。

而犯罪統計的相關資訊只能在內政部的統計資訊網站或是行政院主計處所提供的統計資料網站中查找各地方的犯罪統計數據；而交通意外事故記錄，並無法於縣市政府網站中的公開資料資訊區取得，則需要再連結至縣市政府的警局網站去查找相關的資訊，更可能會因為資料記錄時的行政流程，無法查詢意外事故發生的時間與地點。

關於地方政府所提供的年度預決算及每月的支付補助彙整表則依照行政院主計總處的規定而有一定的格式，一般民眾可能無法自格式中取得足夠的資訊，又或是無法解讀會計報表的意涵。

原始資料取得不易也無法批次下載：

如公共工程採購契約，僅管政府電子採購網上都有提供公開資訊，但需要另外付費下載標案說明書，在結標後卻少見即時更新標案頁面資訊，更無法批次下載相關的資訊。

又如建築執照的查詢，必須透過紙本送件，只能申請人單一申請個案，無法批量的下載資料，又或是無法直接取得資料。

後續：參與 Taiwan Open Data Census心得(2)

留言

此網誌的熱門文章

為什麼我支持《數位中介服務法》草案

在經歷許多次反抗台灣政府所立的網路相關法案後，我其實沒想過除了《數位通傳法》草案外，我還會再支持另一部法律草案，雖然《數位通傳法》草案還壓在某處，但如果有人讀過《數位通傳法》的草案，再讀這部《數位中介服務法》草案，就會知道這部草案的重要性，而且也可以顯示台灣網路使用者的成熟度，更重要的，這是我第一次看到引入國際網路治理多方利害關係人機制的法律草案，而且是用在正確的地方。有興趣想知道我在讀法條時的筆記和當下的感想，可以看我這則 Tweet 。這篇不使用逐條讀法條的方式來寫，因為那會讓人昏昏欲睡，我也不去比對歐盟《數位服務法》，因為我在讀《數位服務法》草案時，該草案特別強調是加強歐盟 E-Commerce Directive ，而不是取代它，而且更多著重在預防盜版、仿冒，保護消費者的法案。所以當有輿論提到參考自《數位服務法》的《數位中介服務法》草案限縮言論自由時，我其實是一頭問號的，但一直到今天我才有時間讀《數位中介服務法》草案，這篇文章出自於我的個人經驗和閱讀法案的心得，與擔任的職務無關。如果最近注意一下網路的資訊，有幾件事該注意一下：有許多人在社群平台，如Facebook或是其他網路看到一些廣告，而這些廣告可能是要你支持台灣農產品、台灣製的產品，結果你收到時，上面還寫著簡體字，通常這是所謂的一頁式廣告詐騙，而行政院的消費者保護會在 2019 年時就有新聞稿在警告「一頁式廣告詐騙多小心查證保障多」，之後像公視或是其他單位都有相關的活動在提醒大家小心這類廣告。但目前這些廣告其實多數不易處理，因為不容易取證、保留證據，等到追查到時已經找不到對方了。有不少親密照片與影片在情侶分手後，被報復性的上傳到情色網站或透過即時通訊傳到親友的帳號裡，或是被洩露個資，遭到公開的霸凌。之前有一個專題：「青春煉獄：網路獵騙性私密影像事件簿」，光是讀完這個專題報導我就覺得受傷。有人使用 Deep Fake 把台灣名人的臉部照片合成至色情影片再上傳至色情影片平台，今年 7 月才被判刑。還有許多創作者藉由網路分享作品時，被人盜用，甚至有國外的使用者修改台灣人的作品去參與比賽還獲獎。有一次打電話問某個部會，如果消費者在國外電子商務平台買東西，但資料被外洩怎麼辦？雖然政府願意協助，但衡量至國外打官司的時間和成本，就會讓人卻步。有些行為在現實世界裡有法...

食品溯源與營養成分分析程式的困難

我之前寫過自己在做一個分析營養成分的Bot ，用最簡單的方式追蹤每日、每週、每月的營養攝取狀況。做著做著，我發現一個問題：如果這個 Bot 要進一步給予建議，會踩到誰該給建議的界線。剛好最近食安新聞不斷，我想起自己多年前放棄的食品溯源專案，於是把原本分析營養成分的 Bot，延伸成一個自己動手做的食品溯源程式。這篇文章想分享的是這個延伸過程裡遇到的三個矛盾：營養分析的黑盒子問題、自己做溯源程式時撞到的資料難題，以及消費者實際採購行為與溯源理想之間的落差。營養分析的黑盒子目前市面上以AI分析營養成分的應用，有一塊我一直覺得模糊的區域：使用者無從得知分析依據為何。另外還有一個更根本的問題，使用者吃東西為什麼要先拍照才能吃？拍照分析一餐，本身就是打斷用餐過程，也不符合大部分人吃飯的日常邏輯。唯一真正說得通的應用場景，是把這個功能放進眼鏡裡，讓使用者所見即可分析，不需要額外動作。即使先不談拍照這件事，營養分析Bot本身也有精準度的問題。脂肪與鈉含量是最難估算的兩項，AI會給出數字，但使用者不知道這個數字的計算依據，實際使用中也會遇到辨識失敗的案例，還需要「教會 AI 學習與記憶」歷次辨識的結果。動手做自己的食品溯源程式做到現在，大概能理解當初這類食品溯源計畫為什麼沒有做出大家都想用的成品。核心困難是各方資料庫格式不一致，在沒有 AI 協助的年代,清洗資料、做正規化本身就是一個工程量很大的任務。現在有AI協助，清洗與統一格式的速度快很多，但還是存有資料流失的風險。台灣食藥署有提供開放資料下載，實際使用後我發現幾個資料本身的漏洞,而這些漏洞不是食藥署一個單位能單獨解決的：進口商紀錄無延續管制：曾有食安風險新聞的進口商，依然可以繼續進口食品；廠商自主登錄無強制力：部分食品不會主動登錄食藥署平台，登錄與否全靠廠商自願，沒有強制規範；品牌名稱相近造成混淆：統一生機、統一生醫、義美生醫、義美生技等大廠的名稱相近，AI在判斷資料時，很難判斷該合併還是分開處理，還需要去工商登記查詢。相對地，國內較大品牌像聯華、光泉、義美，通常會自建食品溯源網站，並在自家包裝上印刷條碼，消費者掃描條碼就能連結到來源與檢驗結果。這類大品牌的資料完整度高，我做溯源程式時，對於大品牌並建有溯源平台的資料則以品牌自建平台的資料為主，不會再抓下來。使用行為的矛盾整個使用流程是拍照或掃描、上...

停不下來的更新

一直更新Blog的版型，我必須承認是一件很無聊的事，不過這次除了版型的更動外，連分類和文章內文也做了變動。先說分類吧！在Blogger叫做Label，不過，Blogger在分類上有一些bugs，只能使用英文，以前這裡的分類大多都是中文分類，結果在link上就是一堆亂七八糟的亂碼，所以我把它改成英文，同時細分一些項目，把出版的文章和一些教學的文章分開來，雖然已經很久沒寫新的，不過既然放上來就做個分類。然而就在新舊label移轉之後，發現中文的label還會存在，而且還會出現莫名奇妙的幽靈數字，Blogger知道這是個bug，不過似乎一直沒有修復的跡象。所以在分類上就出現了如右圖一般的情況，在英文標籤裡會有文章，但是在中文標籤裡是沒有文章出現的，但奇怪的是，有些中文標籤已經不見了，然而在Beauty-Beta這個部落格裡，我也做了分類上的變動，由於以前用英文開頭的Label，所以在label的變動上倒是不用擔心會有這樣的情況。再來是文章的內容，把以前的文章重新分類，標題前面的一些全形符號或是分類刪掉，除了一些比較特殊的，我會留著，例如壹陸壹，因為在label裡為了統一，我留著原本的E61，但人家的店名是壹陸壹，所以留下文章標題前面的中文分類，另外像是Entertainment項目裡，可能有音樂，可能有電影，就會在前面留下中文分類。前簡單的CSS和HTML改成現在的XML，這無疑是讓我們再多學些東西，能有時間鑽研當然是好事，可是轉換後，我一直沒有時間去改，當然多半也是因為懶，到現在也是拿別人做好的版型去改配色而已，所以像裡面的設定、安裝的widget和analytics的javascript都要一個一個重新裝，上個星期幾乎每天都弄到天亮才睡，只為了整理這個blog。也因為之前在blog裡放了technorati的分類，所以還要修改以前的文章，把它們加入technorati，還有裡面的語法要更改，所以這個星期甚至下個星期都會一直收到這裡的更新訊息，對於不斷收到訊息干擾的朋友們，在這裡說聲抱歉。在版面上因為blogger系統在feed接受上的更新，所以還有四個東西沒加進去，分別是最近的文章（Recent Post）、Comments（目前是用別人寫的widget）還有GVO的feed訂閱顯示、Beauty-Beta的訂閱顯示也都還沒放上去。在Feed訂閱上，以前bl...