Browse by Tags

中文亂碼「嚙踝蕭嚙踝蕭」是怎麼來的?
在 FB 看到 91 貼了一張照片,提到某廠商的電子報一直存在亂碼問題,寄信人與信件主旨出現一堆嚙調客、嚙踝蕭… 之類的怪字亂碼。 有種畫面上到處是老鼠的感覺… (嚙是 齧 的異體字) 連 Chrome 也想吶喊「有老鼠!Encoding 碰上麻煩了。」 XD 之前寫過一篇 中文亂碼"蕞蕞蕞蕞"是怎麼來的? ,猜想同樣是錯用編碼解析的結果,雖然最近案子忙到火燒屁股,但就看到球滾進了我的守備範圍,還是忍不住研究起老鼠從哪來… XD 用一小段程式驗證問題來自「錯用 UTF8、BIG5...
Posted 10 October 2016 01:18 AMJeffrey | with no comments 7,797
Filed under:
Hacking樂無窮:修正Dapper+ODP.NET無法寫入Unicode問題
歷經一段時間摸索歷練,確立「新増修改用EF/ORM,查詢一律用Dapper」的最高指導原則,Dapper的簡潔、效能與彈性無可挑剔,一切看似完美,直到我膝蓋中了一箭… 無意間發現,使用Dapper+ODP.NET無法寫入Unicode字元 跟Oracle Unicode問題奮戰 超過10年 ,以為妖孽已被降伏,用OracleDbType.NVarChar2應該就萬無一失,甚至要在CommandText中用N'…'也 不是問題 ,萬萬沒想到Oracle Unicode問題今天又跑出來咬我屁股...
Posted 21 August 2016 09:56 PMJeffrey | with no comments 5,424
Filed under: , ,
Excel CSV輔助工具強化版-支援換行符號
避免Excel開啟CSV時截掉左補零的小工具 是我三年前的作品,用來克服Excel開啟CSV時"00001"會變成"1"的問題。最近網友g提供了一個轉換失敗案例,引發我的興趣,檢查CSV後發現幾項問題: CSV內含日文,使用Shift-JIS編碼(ANSI)而非UTF8,當初將所有ANSI檔案視為BIG5,形成亂碼 部分欄位內容夾帶換行符號(如黃底所示),擾亂原本以"\r\n"分隔資料列的解析邏輯 程式未考慮CSV部分欄位自帶雙引號的情況...
潛盾機-解決VS2015程式檔BIG5相容問題
改用VS2015後沒多久就發現它處理BIG5(ANSI)編碼程式碼的原則不同於以往(推測與編譯器改用Roslyn有關),導致部分使用BIG5編碼存檔的古老程式檔,會因 許功蓋 造成編譯錯誤。 PO文隔兩天同事跟我說,他們換VS2015後也射了好一陣子茶包,最後爬文又爬回我的文章。XD 後來聊到可以寫程式把所有BIG5編碼程式檔轉成UTF8一勞永逸,同事說檔案沒幾個,手動另存就搞定了,還不需要養乳牛。 這兩天,收到網友留言詢問VS2015是否會修正這個問題;也有網友提到手上專案有成千上萬個cs,改了一個BIG5...
【茶包射手日記】VS2015程式檔編碼問題
裝好VS2015後,陸續將VS2013維護的專案改用VS2015開啟,原以為可完全無痛移轉,踩到小刺一根。 某個用VS2013開發多時的專案,移到VS2015出現編譯錯誤!以下面的程式為例: Console.WriteLine那行發生Unrecoginzed escape sequence錯誤。 看到Unrecongized escape又看了看問題字串,程式老骨頭心中警鈴聲大作: 我被「 許功蓋 」偷襲了? 使用Notepad++開啟C#原始檔,果不其然,檔案編碼被設成BIG5(ANSI)。 依開發規範...
Posted 23 July 2015 06:09 AMJeffrey | 8 comment(s) 13,792
Filed under: ,
Strings.StrConv半形全形轉換注意事項三則
Microsoft.VisualBasic.Strings.StrConv靜態方法是在.NET轉換半形全形最簡便的做法(即使語言是C#也沒差,在專案加入Microsoft.VisualBasic參照即可),最近實際用在專案,又發現了一些眉角,整理筆記備忘: 在開發機測試OK,丟到測試機執行冒出VbStrConv.Wide and VbStrConv.Narrow are not applicable to the locale specified.錯誤。研究後發現問題出在測試機作業系統語系為英文...
Posted 06 March 2015 06:47 AMJeffrey | 1 comment(s) 10,923
Filed under:
SQLPlus執行UTF-8編碼指令檔
作業環境有個需求: 有一些PL/SQL DDL指令需先匯成sql檔,再透過程式呼叫SQLPlus.exe執行。 SQLPlus.exe可讀入SQL Script檔案直接執行,例如: sqlplus –s user/pwd @script.sql,而透過程式啟動外部EXE也不是問題,一切看似小菜一碟... BUT! 人生最厲(ㄐㄧ)害(ㄨㄞ)的就是這個BUT! 問題出在SQLPlus在命令提示視窗(Command Prompt)執行,只支援ANSI編碼,而script.sql可能包含Unicode文字...
Posted 24 May 2014 09:40 AMJeffrey | with no comments 14,067
Filed under: ,
BIG5 GB2312繁簡編碼快篩
BIG5 與 GB2312 是繁體中文與簡體中文最常採用的 ANSI 形式編碼,當代系統多已改採 Unicode ,但在涉及傳統系統整合的情境中,仍有處理中文 ANSI 編碼的需求。有時,資料來源較雜,BIG5、GB2312 編碼都有可能,系統規劃者多半希望系統能由二進位資料 (Byte Array) 自動判別其編碼為 BIG5 或 GB2312 。就理論而言,以程式判斷 BIG5、GB2312 不可能 100% 精確,理由是二者有部分編碼區段重疊。 例如: 某字元的兩個 Byte 為 0xb1...
Posted 27 April 2014 07:55 PMJeffrey | with no comments 7,635
Filed under:
Big5-HKSCS編碼補遺
前陣子找到將Big5-HKSCS編碼轉為Unicode的 解決方案 ,實際應用卻發現問題 -- 若字串已是Unicode編碼且混雜其他語系字元,HKSCS_Big5ToUnicode41()便無法招架。 延續上回的例子: 在"滙豐銀行 警衞室"後方故意加上"喆"跟"犇"這兩個BIG5編碼不支援的難字,經轉換後,滙與衞轉對了,喆與犇兩個字卻變成"?"。推敲原因是HKSCS_Big5ToUnicode41()將傳入字串視為Big5...
Posted 07 March 2014 08:28 PMJeffrey | 1 comment(s) 4,217
Filed under:
Big5-HKSCS編碼初探(下)
昨天介紹了 Big5-HKSCS ,初步心得是: Big5-HKSCS跟Big5一樣是歷史的眼淚,新一代Unicode標準已能涵蓋其字元範圍又能同時兼容各國語系。因此,拋棄ANSI規格,回歸Unicode才是王道!! 但這衍生一個需求 -- 若既存文字檔或其他老系統仍採用Big5-HKSCS編碼內容,是否能用.NET程式轉換為Unicode呢? 拿這種問題來問傳說中偉大的中文編碼解碼工具程式作者,是一種羞辱吧? 只見那個其貌不揚的中年男子,右手收在腰後,不屑地伸出左手在鍵盤上飛快地敲了一段程式:...
Big5-HKSCS編碼初探(上)
身為 中文編碼解析工具 的開發者,一直以為自己"略懂"中文編碼,這兩天再度見證"學海無涯",默默收回"略懂"二字... 從以下畫面說起: 五種瀏覽器(IE, Opera, Chrome, Firefox, Safari)一次排開檢視同一個網頁,IE10再度成為瀏覽器家族的黑羊,只有它無法顯示"滙"及"衞"兩個中文字。 開啟notepad++看看hkscs-test.htm有何奧妙之處? 值得注意的地方有三處...
CODE-封裝Office繁簡轉換服務
手邊的專案涉及多國語系,之前研究過 使用Excel維護多國語系字串資源檔 ,意外發現Office的繁簡轉換功能威猛過人,不單只是置換字元編碼,還能做到 詞彙轉換 ,將字彙轉換成對應的說法,例如: 交易資料->事务数据、預設記憶體->默认内存... 等等,放著神兵利器不用,豈不暴殄天物? 於是,延續先前開發 Word套表服務 的概念,裝著Word當引擎的裝甲車登場囉~ 程式碼的重點在於Word Document物件的共用與資源確實回收(操作Office Interop的注意事項先前也 討論過...
Posted 15 August 2013 09:22 PMJeffrey | with no comments 7,420
Filed under: ,
【答客問】信件標題解碼範例
網友 提問 ,希望了解 中文編碼解析工具 關於信件標題(如=?x-gbk?q?=B5=C4=B7=AD=D2=EB?=)的解碼邏輯,特整理為程式範例並加註說明如下: using System; using System.Text; using System.Text.RegularExpressions; using System.Web;   namespace ConsoleApplication1 { class Program { static void Main( string...
Posted 11 April 2013 09:23 PMJeffrey | with no comments 4,107
Filed under: ,
Coding4Fun - 點陣中文字型顯示
因緣巧合,最近剛好需要處理中文點陣字型。 在DOS+倚天中文的古早年代,曾經用BASICA寫過解析倚天中文字型檔的程式,沒想到二十多年後居然還有機會重新回味,只是這回手上的兵器已由當年的BASICA小開山刀,換成C#加農砲,語言特性已不可同日而言、自己的程式技巧也遠比當年成熟,對照起來格外有趣。 時代演進大大地改變了寫程式的方法,當年要自己瞎摸亂湊好一陣子才能拼湊出檔案規格,現在稍稍爬文就能找到網友的熱心分享: 倚天中文字型檔結構說明 (倚天中文系統雖已不再販售,但要正式應用仍需取得字型檔授權)...
【潛盾機】避免Excel開啟CSV時截掉左補零的小工具
老問題一枚。使用Excel開啟CSV檔案,會l將純數字組成的字串視為數字型別處理,導致"000123"之類的左補零數字編碼變成"123"(如下圖所示),對必須補零到固定長度的編碼欄位來說,莫名被截掉部分內容,常會造成困擾。所幸,透過簡單的 CSV花式技巧 ,在CSV中寫成="000123",就可強迫Excel將其視為文字處理,避免前方的零被截除。 遇到一個棘手情境: 某CSV檔需符合其他系統上傳規格,不能輸出成="000123"的形式...
更多文章 下一頁 »

搜尋

Go

<May 2017>
SunMonTueWedThuFriSat
30123456
78910111213
14151617181920
21222324252627
28293031123
45678910
 
RSS
創用 CC 授權條款
【廣告】
twMVC
最新回應

Tags 分類檢視
關於作者

一個醉心技術又酷愛分享的Coding魔人,十年的IT職場生涯,寫過系統、管過專案, 也帶過團隊,最後還是無怨無悔地選擇了技術鑽研這條路,近年來則以做一個"有為的中年人"自許。

文章典藏
其他功能

這個部落格


Syndication