Category: Lucene.Net

全文檢索筆記 – Lucent.Net (4) 詞庫校正

2017-11-15 05:23 AM

4,810

體會過自動分詞(一元分詞、二元分詞)與詞庫分詞的特性差異，但是到目前為止有個問題一直被忽略，我測試用的詞庫直接下載自網路，內容是簡體中文，拆解精準度大有問題。以 CWSharp 詞庫分詞為例，使用 Github 下載的 cwsharp.dawg 詞庫檔分析這句中文「競選活動已日趨白熱化，參選...

2017-11-14 06:07 AM

7,671

前篇筆記試用了盤古分詞器跟 StadnardAnalyzer，繼續研究其他分詞器選擇。英文能依據空白快速精準分詞，中文沒這麼幸運，必須借助演算法，邏輯複雜許多。中文分詞主要有兩個方向: 第一種是自動分詞，依循固定規則自動切分，例如: 一元分詞、二元分詞；第二種則是詞庫分詞，查詢詞庫識找出已知...

2017-11-13 09:35 PM

4,918

前一篇筆記談完 Lucene.Net 術語與基本觀念，感覺用盤古中文分詞器是不錯的主意。先來個最簡單的「盤古中文分詞->建立索引->查詢關鍵字」 Lucene.Net 範例: private static string IndexPath = "E:\\LuceneIndex";...

2017-11-11 11:31 AM

11,277

網站專案的規格提到了網站內容的全文檢索，不要求比美 Google 的速度與精準度，提供最基本的關鍵字查詢就成。陸續評估了一些解決方案，整理成筆記備忘兼分享。談到在 .NET 做全文檢索，不能不提 Lucene.Net 這個開源全文檢索引擎! 如果你對 Lucene.Net 很陌生，推薦 CS...

黑暗執行緒

黑暗後花園

2025-12-05 SHIH-HUNG YANG
AppDomain.AssemblyResolve 內嵌 DLL 成單一 EXE 檔注意事項
我現在都逃課使用 Costura is an add-in for Fody ，但是也有一些發行或測...
2025-12-03 GGer
【茶包射手日記】VS2022 MSBuild Tools 無法離線安裝
Evaon 的方法有用，謝謝
2025-12-01 webjinnee
GUID Primary Key資料庫避雷守則
Pending / 等待複核
2025-11-30 xfox
又見全球網路大當機，11/18 Cloudflare 崩潰的五小時發生了什麼事？
那很魔幻了🤣
2025-11-30 貴
【茶包射手日記】可以安裝但 IIS 無法使用的 TLS 憑證
日前想用 powershell 匯入各 SSL 憑證讓 IIS 憑證更新自動化，直接匯入到 Web ...
2025-11-30 貴
程式閒聊 - Python 3 的 11 年登基之路
python 的非同步有夠難用，c# 跟 js 寫起非同步輕輕鬆鬆，怎麼同一個特性不同語言可以差異這...
2025-11-28 Wolf
Windows 小密技 - 拖拉整批 Word / PDF 檔進行批次列印
在Win11 25H2 此功能已完全不見了...
2025-11-28 void
閒聊 - AI 讓 StackOverflow 熱度爆跌，技術部落格也要涼了嗎？
會來這.....只是找需要的「關鍵字」......在輸入給 AI 處理 orz
2025-11-27 Jaker Li
前端單兵基本教練 - X-Frame-Options、CSP frame-ancestors 網站內嵌限制實測
Pending / 等待複核
2025-11-27 Ertty
【茶包射手筆記】遠端桌面登入 Windows，有音效但播影片沒聲音
天啊謝謝您的分享，已經恢復正常，可以順利使用了～