跳至主要內容

語言是進入網際網路的第一把鑰匙

Image by Pete Linforth from Pixabay 

全球化與網際網路發展的影響下,英文成了國際間通用的語言。使用網際網路必須要先透過26個英文字母,或至少得先記住幾個入口網站或搜尋引擎網站的英文位址,再自透過搜尋或入口網站的連結找到自己的目的地。

自圖 1 可以得知在網際網路裡最常被使用的前十大語言:英文的使用人口數為第一,其次是中文 (無特別區分正體中文或簡體中文),第三為西班牙文,除了英文的普及性造成使用人口較多外,中文的使用人口數也不遑多讓。雖然這三種語言為全球使用人數居多的語言,然而在網際網路的內容上,則有不同的呈現。

圖 1 網際網路使用的前10大語言與其使用人口數統計
資料來源:Internet World Stats - Top Ten Languages Used in the Web (2019.04.30)

從 圖 2 可以得知,至2019年9月17日前,網際網路中的內容過半以上都是以英文來呈現,其他語言占比多數都不超過10%,中文僅占1.6%。就比例上而言,中文使用者是網際網路使用人口數的第二多人口,但網路上中文內容的資料僅佔整體的1.6%,更遑論其他更少見的語言內容不到0.1%。
圖 2網際網路內容使用的語言文字
資料來源:W3Techs.com - Percentages of websites using various content languages (2019.09.17)
除了網路的內容多是以英文呈現外,網站位址也是由英文的26個字母 (a到z)、阿拉伯數字 (0到9) 與連字符號 (-) 組成,透過對應 IP 位址,讓一般網路使用者不需要記住 IP 位址就能找到網站,然而非原生語言的網址,對於其他語言的使用者來說,仍有進入障礙。

對於非英語系國家人民來說,因為傳統文化的影響,讓性別因素影響了女性接受教育的權利,或是因為戰亂、經濟等因素,造成女性或是弱勢族群無法接受第二或其他外語的教育,在聯合國17個永續發展目標中的第 4 個目標,便是「確保包容和公平的優質教育,並為所有人提供終身學習機會」,在各國倡導網路教育平台及各大學都藉由網際網路開設課程的趨勢下,如果能降低女性與弱勢族群的進入網際網路的門檻,將會有助於達成該目標的達成,而國際化域名將會提供一定的助力,讓非英語系的族群較容易進入網際網路領域。

網際網路相關組織在國際化域名的努力

ICANN則自2003年開始著手進行國際化域名(Internationalized Domain Names,簡稱IDNs)的相關工作,讓不同語言的使用者都可以透過自己熟悉的語言及文字輸入網址,進入網際網路的世界,取得網路上的資訊。IETF在 2003 年 3 月發布了三則與 IDNs 相關的 RFC,分別為:
  1. RFC 3490 IDNA: Internationalizing Domain Names in Applications
  2. RFC 3491 Nameprep: A Stringprep Profile for Internationalized Domain Names
  3. RFC 3492 Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications
在2009年之前,我們所知的頂級域名 (Top-Level Domain,簡稱 TLD)僅可使用英文字,但2009年11月之後,便可以藉由IDNs,申請不同語言文字,如中文、阿拉伯文、西里爾文的頂級域名。2010年至2014年之間,則是透過快速通道計畫(Fast-track),在根區域 (Root Zone)讓38個國家和地區頂級域名(Country code top-level domain,簡稱ccTLD)可以使用不同語言的文字,例如:”.台灣”。 直到2018年12月31日止,已有302個ccTLD被放入根區域中。

除了頂級域名外,ICANN也在2013年時進行為根區域(Root Zone)「標籤生成規則」(Label Generation Rules),藉由該機制來協助不同語言文字中,有效的IDN標籤和異體字的存在。

IDNs在全球發展狀況

ICANN 除了利用 Universal Acceptance 計畫來實踐真正的多語言的網路社會理想外,也持續執行推廣IDNs。

圖3 是由 IDN World Report 藉由開放的 gTLD 文件與每個 gTLD IDN 相關的"A記錄"國家與 ccTLD 社群的年度調查表所得到的數字,將 gTLD 與 ccTLD 的 IDN 申請數量合計所得到的數字。該圖顯示了自2013年後至2018年間,申請IDN數目的增長。俄羅斯、南韓、德國、台灣、日本在這段期間都有所增加,也顯示了有其需求存在。
圖 3 World Map Growth of IDNs
資料來源:IDN Report

申請 IDNs 的好處與挑戰

DNS讓每個網路的使用者不需要依賴記 IP 位址,而是可以透過對應可讀性較高的域名,讓每個人容易記得網址,而 IDNs 則是更進一步打算做到透過網路使用者習慣的原生語言,就可以輸入網址、寄送 E-mail,方便讓使用者取用(Access),並降低進入網路的第一道門檻。

就網際網路的商務應用來說,如果是打 算到其他語言國家建造在地化的網站,以協助在當地市場的銷售,也可以在自己國家申請該當地語言的泛用型域名(Second Level)。在台灣除了可以申請中文的泛用型.tw域名外,在 2018 年裡,也陸續開放了泰文、日文、韓文、法文、德文的泛用型.tw 域名服務,也就是網站的擁有者若想針對前述語言使用者提供相關的服務,不妨也將IDN的申請搭配該語言文字的內容,作為增強網站服務的在地化 (localization) 的手段之一,也能加強在該語言使用者心中的印象。

IDNs 的最終目的是希望能協助降低語言門檻,讓各個不同語言的人,不需要藉由學習英文或其他語言,而是以使用者本身習慣的原生語言輸入網址,進入網站。由於 IDNs 的對象屬於熟悉該語言文字的使用者,所以頁面內容也需要使用同一種文字,以達到整體網站的一致性並增加留住使用者在網站上的時間,也較能降低抗拒的心態。

自另一個角度觀察 IDNs 的優點,除了降低進入網路的使用門檻外,同時也可以使該語言的文字在網際網路上流通,維持網路的多樣性,增添對不同文化的包容性。網際網路在討論「包容」(inclusive)時,不是只有談論如何縮短數位落差與經濟成長,同時也包含了對性別、種族、文化、語言的包容,也能該整體網際網路生態體系更為健康。

在全球化(Globalization)的浪潮下,大家可能會由於使用人數偏多的語言,認為單一外語即可。但全球化並不代表英語化,使用 IDNs 還是要回到最原始的目的:「讓對使用該語言的使用者,可以使用自己較習慣的語言來進入、閱聽網站的內容,讓網際網路的文化具多樣性。」

儘管如此,IDNs 的實踐與通用仍有相當高的挑戰,例如瀏覽器、郵件伺服器、行動載具對不同文字在網址上的包容性並不一致,使用者本機所安裝的應用程式、操作系統對於特殊文字的包容性,又例如在漢字的使用上,日本、韓國、中國、台灣⋯⋯等使用漢字的國家也有所謂的異體字或同義字的複雜,且非拉丁語系文字與 DNS 的對應需要依照前述的三個 RFCs 來轉換、處理、對應。有許多消費者末端所使用的應用程式並不支援 IDNs,而電子郵件的往來更是重要,郵件伺服器若無法接受 IDNs,也無法讓訊息通過電子郵件傳遞。例如,當使用者在網站上申請註冊成為網站會員,在填寫電子郵件位址時輸入「中文繁體字@中文.台灣」時,有可能會因為以往的郵件伺服器的 IDNs 通用性不足,而無法傳遞註冊確認信。

在 IDNs 無法在全球完全普及的情況下,反而增加了進入門檻,也只會讓消費者對於 IDNs 的推動與使用完全無感。不愉快的消費經驗只會讓消費者更抗拒使用這樣的服務,也影響了網站擁用者使用 IDNs 的意願。除此之外,消費者可以透過搜尋引擎、社群平台來找尋相關的網頁內容,加上英語教育日漸普及、網際網路的科技也不斷的在改進,可以透過線上同步翻譯來減少閱讀英文或非慣用語言的頁面內容⋯⋯等各種方式來降低非英語慣用國家進入網際網路、取得網路上知識的門檻,這些對於 IDNs 的推動都有一定的挑戰。

結語

儘管網路科技進步與英語教育愈來愈普及,都能降低網路使用者進入網際網路的門檻,使用IDNs 時也要注意網站內容是要與 IDNs 呼應,有可能增加相對應的管理成本,但也不應該因此而停止實踐IDNs與通用性、易取用性的相關作為。反而更應該站在少數族群的立場,降低他們便利的網路使用門檻,更能增加網際網路的多樣性與對不同文化的包容。

參考資料:
  1. Internet World Stats - Top Ten Languages Used in the Web (April 30, 2019) 
  2. W3Techs.com - Percentages of websites using various content languages (Sep. 17, 2019)
  3. United Nations, Sustainable Development Goals Knowledge Platform
  4. ICANN, Internationalized Domain Names
  5. At-Large , Background: IDN
  6. World Map Growth of IDNs, IDN World Report
  7. TWNIC, 國際化域名標準-標準介紹
本文亦刊登於台灣網路資訊中心blog-語言是進入網際網路的第一把鑰匙,版權屬台灣網路資訊中心,若需轉載本文,請先向台灣網路資訊中心洽詢。

    留言

    此網誌的熱門文章

    愛用Google Talk的七個理由

    沒有在幫Google Talk打廣告,只是比起MSN起來,我比較喜歡使用它。比較熟的朋友都知道,我不太愛用IM軟體,因為一直覺得,如果真的忙,何必要在MSN暱稱上掛著忙碌?誰真的關心你有沒有在忙?誰真的關心你心情不好?有的公司為了防止員工把公司機密外洩(老闆是豬頭並不算是機密),也透過網管把這類通訊軟體的port給關掉。 在MSN、Yahoo Messenger很紅的時候,還有不少報章雜誌在稱讚這類即時通訊軟體可以減少溝通時的成本,可以直接和客戶做連繫溝通-可是,有多少人能夠透過「文字」來表達正確的語意?連面對面溝通都能詞不達意了,不是嗎?之後有人靠著畫這些通訊軟體所使用的小圖示發了財,從此一句話裡可能會出現一堆圖案。常常看不懂對方要表達的正確意思是什麼?這樣真的有裝到可愛嗎?正的比較貼近對話者嗎?最討厭的,是那三秒一跳的廣告真是種視覺上的干擾,網頁上不要看的廣告可以用Firefox用ABP擋掉,即時通訊軟體上的廣告好像沒得選擇。 MSN並不是我第一個使用的即時通訊軟體,五專時就開始用ICQ,不過也有很慘的經驗,我的電腦就這麼給人家開了後門。後來在大學時,MSN對我而言是一個工具,因為學校在淡水,不少同學是通勤生,有時候分組報告需要討論時,有的同學接下來還有課,有的同學早就離開學校,大家約一個時間一起上線討論,還算是個不錯的工具,但是,詞不達意是一回事,就算有群組討論,還是另開視窗和別人討論有的沒的事,更別說只要坐在電腦前就受不了網路其他的誘惑,有的人邊打電玩邊討論,有的人邊逛購物網站邊討論,有的人和其他人聊天打屁忘了在討論的主題…一點效率也沒有。悶在辦公室的時候,還準備了兩個MSN帳號,一個上班時用,一個在家裡用,也許我有迫害妄想症,我沒辦法相信辦公室的電腦,只要是「公用」電腦就會讓我疑點重重。 有兩年的時間我都不怎麼開MSN,真的非必要才會開,在 Skype還沒那麼紅的時候也曾裝過,通訊良好,不過那個年代還沒有那麼流行透過即使通訊來傳語音,而且影像和聲音通要傳遞的話,頻寬要夠。 不知不覺,即時通訊軟體已經變成辦公室必要軟體,還是有人堅持不使用IM,我算是被說服了,不過,我選擇了Google Talk,原因如下: 整合到自訂首頁裡 -Google的自訂首頁現是是我開啟瀏覽器後的首頁,在登入後就可以看到自己想要看的訊息,而且現在還可以自訂佈景主題哦!這比起P家亂七八...

    美好的一日(1)-第16屆國際書展

    第十六屆台北國際書展 日期:02/13至02/18 網頁連結: 第十六屆台北國際書展 照片: 20080214台北國際書展 對於國際書展的唯一印象就是又吵又熱又悶,和資訊展一樣,雖然從第七屆國際書展開始參加,但這兩年都沒有參加的記錄,還記得去年是看到新聞播報書展結束才想起來有這回事。由於現在買書的管道很多,所以在書展買書的慾望並不高。今年想去的原因其實不是書展,而是可以見到很久不見的朋友優狗。 大概是十二點多買票進入展場,今年的票多了個看似仿偽的貼紙之類的東西,很特別,我也很喜歡票上的娃娃。進展場後第一個吸引到目光的是主題館之一的「最美麗的書」,陳列許多難得見到的裝訂本,最吸引我的是兩本繪有曼陀羅藏文書籍和朱禧千字文,仔細看千字文的封面,那是木刻的文字,而且是反的,也就是可印刷。 之後是旁邊的「旅行文學主題館」裡面展示的是攝影作品和歐洲地區的漫畫,但我逛得心不在焉,主要是因為很久沒見到優狗,所以也嘰哩呱啦的說個沒停,只有最後一個區域的投影書引起了我的注意。 逛著逛著到了主題廣場,優狗在書林的攤位看書,而我則去主題廣場看座談會,主講者是《偷書賊》的作者馬格斯‧朱薩克(Markus Zusak)和郝譽翔,另外有一位翻譯和主持人。大多數的人都在問朱薩克關於寫《偷書賊》的心路歷程,最有趣的是台下有位聽眾問他如果遇到死神會說什麼?印象最深刻的是作者提到在創造了這個溫柔的死神角色後,家鄉的老人看了這本書後覺得死神似乎也不是那麼恐怖的了。但由於現場的光線很熱,幾乎都打在台上,偶爾可以見到作者疲憊的眼神。中間也有服務人員在問聽眾有沒有人要讓作者簽書,可惜我沒有注意到今天有他的座談,不然再重也會帶去。由於多數人都向《偷書賊》的作者提問,最後主持人出面轉由郝譽翔開始講她個人的寫作經驗。基於之前中時那支扔《追憶似水年華》的短片,雖然是劇情需要,但我還是轉頭對身旁的優狗說:「我們走吧!」 中間幾次曾經分開逛,後來我逛到電影館,裡面正在播放開幕片《 羅浮宮謎情 》。問我會不會後悔花錢去電影看片?一點也不會,在現場的座位並不是那麼舒服,而且一旁C209攤位還有人拿著大聲公在促銷,非常差勁。 與優狗碰面後,我們前往三館,原本是想看看繪本和文具,結果一入場看到的都屬於幼兒童書,三館的攤位人員拉人拉的比一館還兇,已經到了令人反感的地步。三館有些主題很不錯,在文具區裡有看到台灣本土的文具品牌,雄獅和利...

    在 AI 時代工作:效率提升,也伴隨新的壓力

    如果有長期讀這個Blog文章的人,應該覺得我很久沒寫文章。在2024年結束時,我寫了 當時的使用心得 。想不到隔了一年,尤其是Google在 2025年第四季推出一系列應用工具後,我從10月到目前為止,使用更多的應用,自己練習用AI工具開發工作上需要的工具,以往概念裡的東西,可能需要藉由工程師才能實現,但現在透過這些AI工具,我也可以自己在與聊天機器人的互動中,一步步,緩慢的實現概念中想完成的事物,目前都是最小可行階段,但對我來說已經是很大的一步。 這段時間也讀了幾本書、聽了一些研討會,從前輩與長官們的分享中,逐漸感受到未來年輕世代可能面臨的壓力與不確定感。同時,在目前 AI 所引導的發展趨勢中,也可以觀察到高度仰賴菁英人力來加速技術進展的現象,這樣的發展路徑在提升效率的同時,也逐漸浮現弱勢族群在參與與受益上的潛在落差風險。 AI 工具逐漸取代部分 Entry-level 的工作內容 我曾經分享過在 2023年初 的一個交辦事項,我必須在短時間內聽12場研討會錄音並做成摘要,那時我還沒開始用ChatGPT,應用過往參與網路治理論壇、線上會議的經驗,一邊聽錄音一邊摘要與翻譯。交辦是有時限的,遇到有嚴重口音的討論時,我必須花至少4天才能翻譯與摘要好一場討論,沒有口音的討論,大概半天到1天就可以完成。中間試過抓字幕檔、轉出字幕檔再用Google Translate去翻譯,一直到出現ChatGPT,就算與現在比起來更容易產生幻覺,但完全提升工作效率。 在沒有ChatGPT前,都要靠自己去完成這些工作,於是在那段期間裡,我等於在密集的補充各種競爭法的相關知識、過往案例、為什麼主管機關會這麼決定、執法人員的考量是什麼,這些完全顛覆我過去在網路治理或是倡議開放資料的經驗。 在日常工作中,可能會注意在摘要的結果與知識,而過程中的這些工作可能都被稱為Entry-level的工作,由實習生、新進人員做的聽會議錄音、整理會議記錄,現在都可以被AI工具取代,有些人使用Google Notebook LM整理會議記錄,再搭配一些資訊就可以產生內容豐富的文章,有些可能還會再加上其他的研究報告、資料去增加更多的內容,或是利用ChatGPT/Claude/Google Gemini等對話介面做出各種成果,或利用Canvas、Napskin....