2024-10-02 06:13 PM 0 764
我有個自創 BIG5 快篩偵測法 - Bad Smell。 偵測編碼最快速有效的做法是檢查二進位資料是否包含無法轉換的 Byte[] 組合,但較頭痛的問題是 BIG5 繁體中文與 GB2312 簡體中文、Shift JIS 日文等泛 ANSI 類編碼,有許多字碼在三種編碼都能對映效字元。因此若只是單...
2024-06-06 11:11 PM 23 1,681
我有個小需求是要檢查專案程式檔是否混雜 Unicode、BIG5 等非 UTF-8 編碼,類似任務過去用 C# 寫過,例如:BIG5 GB2312繁簡編碼快篩、潛盾機-解決VS2015程式檔BIG5相容問題,為了方便在工作上應用,我想寫個 PowerShell 版,以上是本次的企劃。 由於只需識別 ...
2024-05-20 11:10 PM 2 1,538
偶爾在 Outlook 會收到中文亂碼信,產生亂碼多半是用傳送過程某次或多次字串/二進位轉換用錯編碼,例如:用繁體中文 BIG5 去解 UTF-8,用簡體中文 GB2312 去解 BIG5 ... 等。 有些亂碼無法逆轉,有些則可透過一點小技巧還原出原文。無法逆轉案例像是用 BIG5 解析 Unic...
2021-12-10 08:39 PM 0 4,129
大家有遇到 git diff 比對文字檔,因中文編碼更改(例如 Big5 改 UTF-8)導致結果裡有一半中文變亂碼的情況嗎?我想到一個完美解法。(我自己覺得啦,不服來戰) git diff 遇到文字檔中文編碼不同的問題之前處理過(參考:Git 實戰技巧 - 使用 git diff 比對 UTF-1...
2021-09-26 12:50 PM 9 8,469
前幾天的五倍券開搶,九點一到不意外地系統當機了。話說,幾百萬人同時殺進來,系統撐不住很正常,完全沒事才叫意外,能很快復原就算設計者功力不差了。依據事前事後的網路評論,感覺會設計高流量系統的鄉民路人真不少,不管有沒寫過程式都能說出一番道理,分流啦、動態擴充伺服器、預先做好壓測、不能用 ASP.NET ...
2021-06-19 06:03 PM 3 4,070
上週聊到中文點陣字型,年輕同學們可能沒啥感覺,但經歷過 DOS 時代的老人隔了幾十年後再摸到老東西,滿滿的回憶呀,感受格外強烈,本週就繼續在其中找樂子。 上回說到我沒找到明確授權且不是 GPL 的中文點陣字型(Open Source 沒問題,但真心不喜歡被 GPL 掐住脖子的感覺),我打算用思源黑體...
2021-06-13 04:10 PM 9 4,725
玩 ESP/Arduino 想在 OLED 或點陣式 LED 顯示中文,中文點陣字型來源一直是個問題。 關於中文點陣字型,多年前我有研究出倚天中文跟國喬中文的字型檔解析(延伸閱讀:Coding4Fun - 點陣中文字型顯示),但授權是個無法迴避的問題。在網路上不難找到這兩套絕版軟體的字型檔案,使用倚...
2021-06-02 08:19 PM 1 5,994
在 PowerShell 中想提前結束程式有好幾種寫法,例如 return、exit,之前沒認真比過差異,胡亂用踩了坑,特整理筆記備忘。 先用以下 Test-ExitScript.ps1 程式示範,依傳入參數模擬四種提前結束 Script 的做法 - return、break、exit 及 [Env...
2021-05-30 11:26 AM 5 2,802
中文編碼解析線上版上線已經兩年,只要對中文編碼方式存疑,開網頁貼文字看結果,多半能很快得到答案。 上週讀者 ChrisTorng 提了一個很棒的建議:他看到我在文章裡為了解說 Unicode 罕字的 BIG5、UCS2、UTF8 編碼對映還特別在擷圖塗色標示,便提議我用分隔符號或表格排程讓同一字元的...
2021-05-22 07:56 AM 3 7,988
來個小測驗。請用大腦執行以下 C# ,說出 s.Legnth 及 b.Length 分別是多少? void Main() { string s = "#明𠅙鮮𧰟"; Console.WriteLine(s.Length); byte[] b = Encoding.UT...
2021-04-29 09:31 PM 0 4,988
Oracle 遇難字出錯不算新鮮事,現象不外乎中文字變空白變方格變問號變亂碼,老司機們一眼便知,該怎麼做心裡有數,但這回我遇到超不一樣的變種。(這樣算有吸引詭異茶包的特殊體質嗎?) 碰到一個神奇案例,資料寫入 Oracle NVARCHAR2 時結尾會多出一個 \u0000 (ASCII 0) 字元...
2021-03-24 08:47 PM 0 1,789
前幾天分享的 Oracle 改 MSSQL 出中文亂碼問題,我想出 VB.NET Strings.StrConv 做簡繁轉換的解法,進一步實測踩到一枚小地雷。 我原以為 Strings.StrConv 只會轉換簡體中文字元,所以放心地把繁體中文內容也丟給它處理,沒想有卻有繁體字元被換掉了 - 「台」...
2021-03-22 08:38 PM 0 4,512
將某個老系統的資料來源由 Oracle 換成 MSSQL,遇到一個有意思的狀況。 在 Oracle 與 MSSQL 都有 Schema 完全相同的資料表,資料原本來自 Oracle NVARCHAR,改用 MSSQL 後,部分中文字元變成「?」。這個結果有點詭異,印象中 MSSQL 的 Unicod...
2021-02-07 06:27 PM 0 7,574
之前研究 PowerShell 中文編碼問題有個結論 - Windows 10 內建 PowerShell 5.1,在中文版 Windows 預設用 BIG5 編碼,PowerShell 6.0 之後會預設改用 UTF8。因此我一直以為 .\Do-Something.ps1 > output....
2019-07-11 09:33 PM 11 13,062
大家有遇過這種狀況嗎? 被人問到圖片上的中文罕用字,知道寫法不知道怎麼唸,或知道唸法注音輸入法找不到,又沒法複製貼上,要怎麼輸入到電腦? 我今天就被同事抽考,有個難字,左部是耕耘的部首【耒】,右邊是【得】去掉【彳】字邊,不知怎麼唸,推敲它的倉頡拆碼【手木日一戈】也找不到,要怎麼輸入進系統? 研究過程...
2019-04-13 08:08 AM 3 8,551
早年做專案時為快速分析中文編碼,我寫了一個 Windows Form 小工具,在部落格分享收到一些讀者回饋,陸續改版幾次並命名為中文編譯解析工具,十多年來是我處理中文編碼疑難的順手兵器。 2006-12-17 KB-Unicode編碼解析小工具 2007-01-03 中文編碼解析工具1.1版 20...