Big5 與 WHATWG Encoding Standard

This content is over 8 years old. It may be obsolete and may not reflect the current opinion of the author.


到了 2017 年還是要講 Big5 編碼……這篇算是 But 的 Big5-UAO 從頭說起的續篇。

WHATWG Encoding Standard 是一個用 WHATWG 名義發表,試圖最後一次解決規範瀏覽器對 Web 的不同編碼的行為的規格書,還有提供標準的 DOM API。大約幾年前開始,規格書的編輯就和 MozTW 社群這邊討論,想要知道要如何產生一個統一的 Web 使用的 Big5 字碼表。

XKCD: 標準規範

討論滿攏長的,總之最後的結論是因為在 Web 上沒有看到顯著的使用 Big5-UAO 編碼的網站,所以 Web 應該使用基於 Big5-HKSCS 的字碼表。那個字碼表後來也就和 Encoding Standard 一起被發表出來且實作在 Firefox 43 中。

當初其實和 but 一樣有點錯愕(或是哀傷)的,不過想想台灣(或是台灣的原 Big5-UAO 使用者)比起香港能夠先拋棄 Big5,到一種 Web 上量不到有使用狀況的情況,其實是一種成就啊。Big5-UAO 在 PTT 等環境的使用對使用者來說也是近乎透明的(由 BBS Client 直接支援),也算對這個字碼表的地位的重要承認。

會突然想起這事,後來也發現是因為跟 HKSCS 有關:#whatwg 上面在問 Encoding Standard 表的重複對應問題,研究之後發現是因為 Big5-HKSCS 沒有處理,把變成重複編碼只對應到單一的 Unicode 字碼導致的。原本 Big5 的重複文字有兩個,會對應到 CJK Compatibility Ideographs 去。

我昨天也就順手更新了 MozTW 網站上那份 Mozilla 系列與 Big5 中文字碼文件(不知為何後來就變成我維護了)。希望這次是最後一次更新了。相關的討論都有在那份文件上連結,可供參考。