跳至主要內容

語言是進入網際網路的第一把鑰匙

Image by Pete Linforth from Pixabay 

全球化與網際網路發展的影響下,英文成了國際間通用的語言。使用網際網路必須要先透過26個英文字母,或至少得先記住幾個入口網站或搜尋引擎網站的英文位址,再自透過搜尋或入口網站的連結找到自己的目的地。

自圖 1 可以得知在網際網路裡最常被使用的前十大語言:英文的使用人口數為第一,其次是中文 (無特別區分正體中文或簡體中文),第三為西班牙文,除了英文的普及性造成使用人口較多外,中文的使用人口數也不遑多讓。雖然這三種語言為全球使用人數居多的語言,然而在網際網路的內容上,則有不同的呈現。

圖 1 網際網路使用的前10大語言與其使用人口數統計
資料來源:Internet World Stats - Top Ten Languages Used in the Web (2019.04.30)

從 圖 2 可以得知,至2019年9月17日前,網際網路中的內容過半以上都是以英文來呈現,其他語言占比多數都不超過10%,中文僅占1.6%。就比例上而言,中文使用者是網際網路使用人口數的第二多人口,但網路上中文內容的資料僅佔整體的1.6%,更遑論其他更少見的語言內容不到0.1%。
圖 2網際網路內容使用的語言文字
資料來源:W3Techs.com - Percentages of websites using various content languages (2019.09.17)
除了網路的內容多是以英文呈現外,網站位址也是由英文的26個字母 (a到z)、阿拉伯數字 (0到9) 與連字符號 (-) 組成,透過對應 IP 位址,讓一般網路使用者不需要記住 IP 位址就能找到網站,然而非原生語言的網址,對於其他語言的使用者來說,仍有進入障礙。

對於非英語系國家人民來說,因為傳統文化的影響,讓性別因素影響了女性接受教育的權利,或是因為戰亂、經濟等因素,造成女性或是弱勢族群無法接受第二或其他外語的教育,在聯合國17個永續發展目標中的第 4 個目標,便是「確保包容和公平的優質教育,並為所有人提供終身學習機會」,在各國倡導網路教育平台及各大學都藉由網際網路開設課程的趨勢下,如果能降低女性與弱勢族群的進入網際網路的門檻,將會有助於達成該目標的達成,而國際化域名將會提供一定的助力,讓非英語系的族群較容易進入網際網路領域。

網際網路相關組織在國際化域名的努力

ICANN則自2003年開始著手進行國際化域名(Internationalized Domain Names,簡稱IDNs)的相關工作,讓不同語言的使用者都可以透過自己熟悉的語言及文字輸入網址,進入網際網路的世界,取得網路上的資訊。IETF在 2003 年 3 月發布了三則與 IDNs 相關的 RFC,分別為:
  1. RFC 3490 IDNA: Internationalizing Domain Names in Applications
  2. RFC 3491 Nameprep: A Stringprep Profile for Internationalized Domain Names
  3. RFC 3492 Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications
在2009年之前,我們所知的頂級域名 (Top-Level Domain,簡稱 TLD)僅可使用英文字,但2009年11月之後,便可以藉由IDNs,申請不同語言文字,如中文、阿拉伯文、西里爾文的頂級域名。2010年至2014年之間,則是透過快速通道計畫(Fast-track),在根區域 (Root Zone)讓38個國家和地區頂級域名(Country code top-level domain,簡稱ccTLD)可以使用不同語言的文字,例如:”.台灣”。 直到2018年12月31日止,已有302個ccTLD被放入根區域中。

除了頂級域名外,ICANN也在2013年時進行為根區域(Root Zone)「標籤生成規則」(Label Generation Rules),藉由該機制來協助不同語言文字中,有效的IDN標籤和異體字的存在。

IDNs在全球發展狀況

ICANN 除了利用 Universal Acceptance 計畫來實踐真正的多語言的網路社會理想外,也持續執行推廣IDNs。

圖3 是由 IDN World Report 藉由開放的 gTLD 文件與每個 gTLD IDN 相關的"A記錄"國家與 ccTLD 社群的年度調查表所得到的數字,將 gTLD 與 ccTLD 的 IDN 申請數量合計所得到的數字。該圖顯示了自2013年後至2018年間,申請IDN數目的增長。俄羅斯、南韓、德國、台灣、日本在這段期間都有所增加,也顯示了有其需求存在。
圖 3 World Map Growth of IDNs
資料來源:IDN Report

申請 IDNs 的好處與挑戰

DNS讓每個網路的使用者不需要依賴記 IP 位址,而是可以透過對應可讀性較高的域名,讓每個人容易記得網址,而 IDNs 則是更進一步打算做到透過網路使用者習慣的原生語言,就可以輸入網址、寄送 E-mail,方便讓使用者取用(Access),並降低進入網路的第一道門檻。

就網際網路的商務應用來說,如果是打 算到其他語言國家建造在地化的網站,以協助在當地市場的銷售,也可以在自己國家申請該當地語言的泛用型域名(Second Level)。在台灣除了可以申請中文的泛用型.tw域名外,在 2018 年裡,也陸續開放了泰文、日文、韓文、法文、德文的泛用型.tw 域名服務,也就是網站的擁有者若想針對前述語言使用者提供相關的服務,不妨也將IDN的申請搭配該語言文字的內容,作為增強網站服務的在地化 (localization) 的手段之一,也能加強在該語言使用者心中的印象。

IDNs 的最終目的是希望能協助降低語言門檻,讓各個不同語言的人,不需要藉由學習英文或其他語言,而是以使用者本身習慣的原生語言輸入網址,進入網站。由於 IDNs 的對象屬於熟悉該語言文字的使用者,所以頁面內容也需要使用同一種文字,以達到整體網站的一致性並增加留住使用者在網站上的時間,也較能降低抗拒的心態。

自另一個角度觀察 IDNs 的優點,除了降低進入網路的使用門檻外,同時也可以使該語言的文字在網際網路上流通,維持網路的多樣性,增添對不同文化的包容性。網際網路在討論「包容」(inclusive)時,不是只有談論如何縮短數位落差與經濟成長,同時也包含了對性別、種族、文化、語言的包容,也能該整體網際網路生態體系更為健康。

在全球化(Globalization)的浪潮下,大家可能會由於使用人數偏多的語言,認為單一外語即可。但全球化並不代表英語化,使用 IDNs 還是要回到最原始的目的:「讓對使用該語言的使用者,可以使用自己較習慣的語言來進入、閱聽網站的內容,讓網際網路的文化具多樣性。」

儘管如此,IDNs 的實踐與通用仍有相當高的挑戰,例如瀏覽器、郵件伺服器、行動載具對不同文字在網址上的包容性並不一致,使用者本機所安裝的應用程式、操作系統對於特殊文字的包容性,又例如在漢字的使用上,日本、韓國、中國、台灣⋯⋯等使用漢字的國家也有所謂的異體字或同義字的複雜,且非拉丁語系文字與 DNS 的對應需要依照前述的三個 RFCs 來轉換、處理、對應。有許多消費者末端所使用的應用程式並不支援 IDNs,而電子郵件的往來更是重要,郵件伺服器若無法接受 IDNs,也無法讓訊息通過電子郵件傳遞。例如,當使用者在網站上申請註冊成為網站會員,在填寫電子郵件位址時輸入「中文繁體字@中文.台灣」時,有可能會因為以往的郵件伺服器的 IDNs 通用性不足,而無法傳遞註冊確認信。

在 IDNs 無法在全球完全普及的情況下,反而增加了進入門檻,也只會讓消費者對於 IDNs 的推動與使用完全無感。不愉快的消費經驗只會讓消費者更抗拒使用這樣的服務,也影響了網站擁用者使用 IDNs 的意願。除此之外,消費者可以透過搜尋引擎、社群平台來找尋相關的網頁內容,加上英語教育日漸普及、網際網路的科技也不斷的在改進,可以透過線上同步翻譯來減少閱讀英文或非慣用語言的頁面內容⋯⋯等各種方式來降低非英語慣用國家進入網際網路、取得網路上知識的門檻,這些對於 IDNs 的推動都有一定的挑戰。

結語

儘管網路科技進步與英語教育愈來愈普及,都能降低網路使用者進入網際網路的門檻,使用IDNs 時也要注意網站內容是要與 IDNs 呼應,有可能增加相對應的管理成本,但也不應該因此而停止實踐IDNs與通用性、易取用性的相關作為。反而更應該站在少數族群的立場,降低他們便利的網路使用門檻,更能增加網際網路的多樣性與對不同文化的包容。

參考資料:
  1. Internet World Stats - Top Ten Languages Used in the Web (April 30, 2019) 
  2. W3Techs.com - Percentages of websites using various content languages (Sep. 17, 2019)
  3. United Nations, Sustainable Development Goals Knowledge Platform
  4. ICANN, Internationalized Domain Names
  5. At-Large , Background: IDN
  6. World Map Growth of IDNs, IDN World Report
  7. TWNIC, 國際化域名標準-標準介紹
本文亦刊登於台灣網路資訊中心blog-語言是進入網際網路的第一把鑰匙,版權屬台灣網路資訊中心,若需轉載本文,請先向台灣網路資訊中心洽詢。

    留言

    此網誌的熱門文章

    哪個應用、服務、平台可以代表台灣?

    大概 2003、 2004 年,我還是個大學生,那個時候「電子商務」是一門選修課,那個時候台灣還在所謂的電子商務泡沫化中復甦,很多熱極一時的「電子商務」就像今天大家看到的 FTX 事件一樣,一點都不真實,很多執行長、總裁瞬間就失業了,也有很多投資人的錢拿不回來。 看過歷史上的鴻源事件、經歷過電子商務的虛無飄渺時期,再看到 FTX,其實也不會太驚訝。通常泡沫消散後,未來才會到來。 回到大學課堂,穿著輕便但言語犀利的老師談到當時的 Amazon 網路書店,他問大家對 Amazon網路書店的看法,那時的Amazon一直被看壞,所有的媒體都不看好它。甚至會有各種市場傳言,覺得 Amazon會被賣給哪家公司或哪家公司、網路書店會主動併購它。 最後老師說,不會,Amazon書店不會那麼輕易就垮掉,它有其代表的意義。 這個答案給了我很深的印象,我常會問自己,台灣有哪個服務會具有這樣的意義? 偶爾我會問身邊的朋友、同事,對於台灣的哪個服務,會覺得有不能輕易垮掉、要支持它的?我列一下自己所接觸過的,這個世代的應用: 通訊服務:ICQ、MSN Messenger、LINE、Cubie Messenger(台灣,已無服務)、Google Talk、WhatsApp、Telegram、Skype、Signal,還有一些台灣可能較少聽到。 社群平台:Twitter、Facebook、LinkedIn、無名小站(已停止服務,它雖然是Blog,但比較像社群)、Plurk、PTT、Dcard、Instagram、AKASHA、Pinterest Blog平台或架站:Blogger、Wordpress、Drupal 共享書籤 : HemiDemi(已沒有提供書籤服務)、美味書籤delicious 叫車服務:UBER、55688 、呼叫小黄、LINE Taxi、yoxi  當然還有很多是我沒接觸過的,請原諒我的見識不夠廣泛,忽略了哪一個平台、應用或服務。一時想到的大概就這些。有一些服務已經消失或在被併購後就消失了,我也忘了名稱,至於 TikTok 和小紅書,是我不想碰觸的應用服務。 在韓國有 Kakao,日本有 LINE、PayPay,東南亞國家有Grab,中國有自己的網路應用,那台灣呢?之前 KaKao 中斷服務,造成民生應用的線上服務也幾乎中斷,過度集中依賴在一個服務上的確是一個缺點。在和...

    我在不會寫 code 的情況下做出一個桌面工具

    當各種AI工具迅速發展的情況下,大家也開始製作自己常用的工具,更進一步公開分享給大家使用,例如 Jimmy Su 就分享自製的 沉浸式翻譯工具 ,滿足一般人平時上網閱讀外文頁面的需求;進一步像是 Justin Lee  開發的 ccxray ,讓Claude Code的使用者可以監看Claude Code與Anthropic API之間的互動,使 AI Token 的消耗變成視覺化的儀表板。 為什麼做這個工具 AI 幫助許多一般網路使用者做出適合自己使用的工具,我自己也曾 分享自己的經驗 ,現在做出一個應用程式的門檻已經降低許多,AI不會讓程式設計工作消失,反而讓更多人投入這樣的工作,從這個角度看應該是好事。 我自己也用AI打造一些工作上會使用的工具,包括後來做的這個「 AI-Doc-Translator 」,這是獨立自我日常工作使用的工具的其中一個功能,做成一支桌面程式。 由於每天都會接觸到外文論文、期刊,很多PDF檔下載後,只會放在儲存空間裡,或是丟到電子書應用程式裡,但什麼時候再打開?打開還要再閱讀外文的摘要、從頭理解?這些都會消耗掉耐心,於是我讓AI先幫我摘要重點,讓我大致了解檔案內容、記錄後,再做關聯成為自己的知識庫。 這個工具主要的功能是翻譯、摘要,它不是通篇翻譯,也不是改寫作者的內容,只做摘要,長期累積起來的文件會相當可觀,就可以做成知識庫應用。人們通常在下載文件時,自己已經先篩選過資料了,也不是隨便下載,所以使用者自己就是守門員。 為什麼不用 Notebook LM 就好 當然也有很多人習慣把檔案抓下來後丟進各種AI工具,Notebook LM、各種AI Chatbot或是翻譯軟體,但我自己在使用後的心得是,因為資料量太多,Notebook LM的效能會很差,而各種AI Chatbot 在對話結束後,使用者要再找回對話記錄可能還要花時間找尋。那為什麼不平時就開始做知識庫呢?所以在翻譯、摘要的過程中,也是在建立自己的知識庫,存在某個資料夾,可以再利用各種工具來搭建。 我自己是使用 Obsidian 配合 Claudian Plugin 一起使用。在閱讀由LLM產出的摘要時,我一定會遇到無法理解的內容,就可以再使用Claudian進一步「討論」內容,或請它解釋。於是文件就不是只有文件,而是可互動性的內容,也不會只在電腦裡積灰塵。 製作「AI...

    觀察台灣 AI 政策與職場新挑戰

    前言 這篇文章想和大家分享我對台灣 AI 政策的一些觀察。未來我還會整理其他國家的案例做比較。不過先提醒大家:這篇的資訊量不算太低,文章提及一些日常生活中不常接觸的政府計畫名稱、大筆預算金額與目標數字,乍看之下會讓人覺得很抽象。 對我來說,這些數字背後傳達的訊號很清楚──台灣政府確實願意投入大量資源在 AI 的產業發展與人才培訓。問題是,這些投資如何真正走到民眾與企業身邊?如何讓公司知道「資源在哪裡」、讓人才看見「機會在哪裡」?這條「最後一哩路」會決定政策成效,也才是和你我最相關的地方。 為了解台灣就業市場的實際需求,我偶爾會瀏覽人力銀行網站。有次看到某家公司在招聘條件中特別要求面試者在面試時分享「自己使用過哪些 AI 工具,以及如何使用」。這讓我注意到:AI 已經被視為職場的基本能力。 在日常生活中,AI 已廣泛應用於工作與個人任務。雖然部分單位仍不鼓勵員工使用,但只要有清楚的界限與正確的態度,AI 工具能有效減少重複性工作,把精力留給更有價值的任務。想像在學校寫報告,老師要求必須說明 AI 工具是怎麼幫上忙的;或在公司加班時,主管要求用 AI 快速整理資料。這些情境都不再是未來,而是現在。 我撰寫這篇文章的原因有二。首先,是因為參加 Anthropic 的 AI Fluency for Students 課程,課程內提到的 4D 概念對學生、新鮮人乃至現在於職場受到 AI 衝擊的世代都很有幫助。如果我是面試官,我會希望求職者能理解並應用這些觀念。其次,是我長期關注各國 AI 政策,想藉此分享觀察成果。這些分析大多是透過 AI 工具分析政府公開資料而得,也讓我更相信 AI 是研究工作人員的得力助手。  以技術與產業發展為核心的台灣AI政策 台灣的 AI 政策並不算落後。除了大家熟知的 DIGI+,政府陸續推動了「臺灣 AI 行動計畫」(2018–2021)以及「臺灣 AI 行動計畫 2.0」(2023–2026)。政策重點主要在產業發展與人才培育。 從預算來看,2025 年度 AI 行動計畫 2.0 編列經費最多的前三個部會為:經濟部、國科會與數位發展部;2026 年(115 年度)未核定的預算書顯示,數發部、經濟部與國科會仍是主要資源分配單位。大部分經費用於應用與普及,例如開發 AI 便利工具、藥物開發驗證平台等。 產業發展 台灣經濟結構仍以製造業為主...