當各種AI工具迅速發展的情況下,大家也開始製作自己常用的工具,更進一步公開分享給大家使用,例如 Jimmy Su 就分享自製的沉浸式翻譯工具,滿足一般人平時上網閱讀外文頁面的需求;進一步像是Justin Lee 開發的 ccxray,讓Claude Code的使用者可以監看Claude Code與Anthropic API之間的互動,使 AI Token 的消耗變成視覺化的儀表板。
為什麼做這個工具
AI 幫助許多一般網路使用者做出適合自己使用的工具,我自己也曾分享自己的經驗,現在做出一個應用程式的門檻已經降低許多,AI不會讓程式設計工作消失,反而讓更多人投入這樣的工作,從這個角度看應該是好事。
我自己也用AI打造一些工作上會使用的工具,包括後來做的這個「AI-Doc-Translator」,這是獨立自我日常工作使用的工具的其中一個功能,做成一支桌面程式。
由於每天都會接觸到外文論文、期刊,很多PDF檔下載後,只會放在儲存空間裡,或是丟到電子書應用程式裡,但什麼時候再打開?打開還要再閱讀外文的摘要、從頭理解?這些都會消耗掉耐心,於是我讓AI先幫我摘要重點,讓我大致了解檔案內容、記錄後,再做關聯成為自己的知識庫。
這個工具主要的功能是翻譯、摘要,它不是通篇翻譯,也不是改寫作者的內容,只做摘要,長期累積起來的文件會相當可觀,就可以做成知識庫應用。人們通常在下載文件時,自己已經先篩選過資料了,也不是隨便下載,所以使用者自己就是守門員。
為什麼不用 Notebook LM 就好
當然也有很多人習慣把檔案抓下來後丟進各種AI工具,Notebook LM、各種AI Chatbot或是翻譯軟體,但我自己在使用後的心得是,因為資料量太多,Notebook LM的效能會很差,而各種AI Chatbot 在對話結束後,使用者要再找回對話記錄可能還要花時間找尋。那為什麼不平時就開始做知識庫呢?所以在翻譯、摘要的過程中,也是在建立自己的知識庫,存在某個資料夾,可以再利用各種工具來搭建。
我自己是使用 Obsidian 配合 Claudian Plugin 一起使用。在閱讀由LLM產出的摘要時,我一定會遇到無法理解的內容,就可以再使用Claudian進一步「討論」內容,或請它解釋。於是文件就不是只有文件,而是互動性的內容,也不會只在電腦裡積灰塵」。
製作「AI-Doc-Translator」的過程
這不是我第一次用 AI 做工具。之前做過 DeepTechScout 的經驗,也用 AI 協助文字探勘的網站,所以對「把想法說清楚、讓 AI 幫你實踐」這件事已經有一些感覺。這 次的「AI-Doc-Translator」起點很簡單:我知道自己要什麼,也知道 AI 能幫我做到。
過程中最讓我意外的,是整個開發過程比我預期的更有趣。做網站的經驗讓我知道無障礙支援很重要,所以一開始就要求符合 WCAG 2.2 AA 標準,支援螢幕閱讀器、完整鍵盤操作,AI 幫我把這些實作進去。安全性也是,API 金鑰不能存成純文字、日誌輸出要自動遮蔽金鑰字串、輸出路徑要限制在指定目錄內,這些在對話過程中逐步確認、修改,最後還一起整理出 SECURITY.md,說明漏洞回報流程。README 的著作權聲明和免責聲明也是從討論著作權風險開始,把使用者需要知道的事情一起寫清楚,也許不是什麼大工程,但試著在設計階段就納入Security by design 與 Accessibility by design的概念,不等做完再補。
回頭看,技術門檻確實降低許多。GitHub 現在甚至可以直接從程式碼生成桌面安裝工具,很多過去需要時間、外力協助的事現在快很多。但知道要問什麼問題,來自以前的工作積累。無障礙的意識、著作權的判斷、安全性的概念,這些是我帶進來的,AI 幫我實現。AI 降低的是執行門檻,經驗的門檻依然存在,只是現在可以想到什麼就做什麼,不再被「不會寫程式」這件事卡住。
Image by Gerd Altmann from Pixabay

留言
發佈留言
請勿匿名留言,待審核後才會出現。