中文亂碼「嚙踝蕭嚙踝蕭」是怎麼來的?

在 FB  看到 91 貼了一張照片,提到某廠商的電子報一直存在亂碼問題,寄信人與信件主旨出現一堆嚙調客、嚙踝蕭… 之類的怪字亂碼。

有種畫面上到處是老鼠的感覺… (嚙是的異體字)

連 Chrome 也想吶喊「有老鼠!Encoding 碰上麻煩了。」 XD

之前寫過一篇中文亂碼"蕞蕞蕞蕞"是怎麼來的? ,猜想同樣是錯用編碼解析的結果,雖然最近案子忙到火燒屁股,但就看到球滾進了我的守備範圍,還是忍不住研究起老鼠從哪來… XD

用一小段程式驗證問題來自「錯用 UTF8、BIG5 解碼」:

首先將「嚙踝蕭嚙踝蕭」做一次 BIG5 逆轉回 UTF8,得到 ����,� (EF-BF-BD)是 UTF8 無法解碼時使用的無效字元符號。由此推測問題來自非 UTF8 字串卻誤用 UTF8 解碼,產生大量�及少量英數字交雜的亂碼字串,接著該 UTF8 字串再被誤當成 BIG5 再解碼一次,「嚙踝蕭嚙踝蕭」就這麼誕生了!結案。

歡迎推文分享:
Published 10 October 2016 01:18 AM 由 Jeffrey
Filed under:
Views: 10,282



意見

沒有意見

你的看法呢?

(必要的) 
(必要的) 
(選擇性的)
(必要的) 
(提醒: 因快取機制,您的留言幾分鐘後才會顯示在網站,請耐心稍候)

5 + 3 =

搜尋

Go

<October 2016>
SunMonTueWedThuFriSat
2526272829301
2345678
9101112131415
16171819202122
23242526272829
303112345
 
RSS
創用 CC 授權條款
【廣告】
twMVC

Tags 分類檢視
關於作者

一個醉心技術又酷愛分享的Coding魔人,十年的IT職場生涯,寫過系統、管過專案, 也帶過團隊,最後還是無怨無悔地選擇了技術鑽研這條路,近年來則以做一個"有為的中年人"自許。

文章典藏
其他功能

這個部落格


Syndication