自然語言處理 NLP 幼幼班入門課程筆記

2024-06-30 09:50 PM

要深入應用 LLM 免不了會涉及自然語言處理(Natural Language Processing)觀念與知識，像是 RAG 前置處理就有可能用到分詞、向量索引比對會用到 TF-IDF、BM25 等演算法。寫程式做出東西很有趣，學理論相對枯燥。

在圖書館找到一本給高中生看的 NLP 介紹，淺顯易懂又包含實作練習，我把它當成閒書翻完，先記關鍵字，日後有機會用到再深入。

節錄重點：

NLP 分成 NLU (Understanding)、NLG (Generation)
自然語言的一大挑戰：同一詞彙在不同情境意義不同、換句話說/不同句子同一個意思
主要應用：Information Retrival 資訊檢索、Information Extraction 資訊擷取、Setiment Analysis 情緒分析、Question Answering 問答任務、Machine Translation 機器翻譯
傳統 NLP：資料預處理 -> 特徵工程 -> 模型建立 -> 進行預測
資料預處理：
Tokenization 斷詞 - 將語料 Corpus 切成小單位
Stemming 詞幹處理 - goes 轉 go, doing 轉 do
過濾無意義標點、詞彙：句號分號，無意義詞如 the, which (術語 - 停用詞 Stop Words)
特徵工程：向量化，One-Hot、TF-IDF (需要領域專家投入)
使用深度學習：資料預處理 -> (詞向量層 -> 隱藏層 -> 輸出層) -> 進行預測。( ... ) 部分為類神經網路
Tokenization 斷詞 - 將文本拆成一系列詞彙，詞彙拼接後等同原文。
折分後的詞彙是 NLP 最小單位，又名 Token。最簡單做法是「字典分詞」。
中研究平衡語料庫 http://asbc.iis.sinica.edu.tw 、Project Gutengerg、Brown Corpus、ChineseNlpCorpus、CKIP
斷詞標記方式：人工(準確但一致性差且主觀，通貨膨脹 vs 通貨+膨脹 )、自動及半自動(一致但較不準確)
分詞演算法：前向最大匹配(Forward-max Matching)、後向最大匹配(Backward-Max Matching)、雙向最大匹配(Bi-Directional-Max Matching)
設最大長度 max_length，先從 max_length 開始，沒匹配就移除一個字再匹配
雙向：前後各一次，依詞彙數較少、相同時取單一字較少取較優者
Python 程式庫：Keras、TensorFlow、 CNTK(Microsoft Cognitive Toolkit)、Theano
結巴 Jieba 中文斷詞工具，使用普遍 / 繁中結巴 github.com/APCLab
Jieba 功能模式：
精確模式(Default Mode) - 可還原原句
全模式(Full Mode) - 找出所有可能詞彙，無法組合原句
搜尋引擎模式(Cut for Search) - 將長詞彙再切分方便搜尋
Jieba add_word 自訂詞彙、load_userdict 載入自訂字典
Jieba analyse.extract_tags 取關鍵字
中研院 CKIP Tagger 斷詞(Word Segmentation/Tokenization)、詞性標註(Part-Of-Speech, POS Tagging)、命名實體識別(Name Entity Recognition, NER)
詞性標註標記列表 https://ckip.iis.sinica.edu.tw/service/corenlp/
```
ws = WS('./data') # 分詞
ws_results = ws('我達達的馬蹄是美麗的錯誤')
pos = POS('./data') # 詞性
pos_results = pos(ws_results)
ner = NER('./data') # 命名實體
ner_results = ner(ws_results, pos_results)
```
One-Hot：keras.preprocessing.text Tokenizer fit_on_texts() 、texts_to_sequences()、texts_to_matrix()
Bag-of-Words 詞袋表示法，字典每個字一維，數字是出現次數，不管順序數字大權重高
CountVectorizer() fit_transform()、get_feature_names()
TF-IDF 解決詞袋文字總字數不同、無義常用詞(a, the)問題，tf-idf(w) = tf(d, w) * idf(w)，sklearn.feature_extration.text TfidfTransformer
N-Gram，N 元語法，簡易 LM，常用來文本生成，透過機率填空 (nltk 套件)
原理：由前面 N 個詞預測下一詞的機率 (bigram 考慮前一字、trigram 考慮前兩字)
2013 捷克資料科學家 Toma Mikolov 提出 Word2Vec，Word Embedding，可實現 國王 - 他 + 她 = 皇后
類神經網路：輸入層 + 隱藏層 + 輸出層
正向傳播：訓練資料輸入層 -> 隱藏層 -> 輸出層
反向傳播：結果誤差輸出層 -> 隱藏層 -> 輸入層
依誤差調權重，重覆上述過程真到誤差最小
Skip-gram 模型：滑動視窗，中心詞彙左右為輸出詞彙，向下滑動掃完所有詞彙產生訓練資料
CBOW 模型：由周圍詞彙預測中心詞彙
監督式學習(分類、迴歸)、非監督式學習(群聚，無標準答案)、自監督式學習(Skip-gram、CBOW，由原始資料整理出標準答案)
中文詞彙向量庫 Chinese-Word-Vectors、英文詞向量 GloVe(Global Vectors for Word Presentation)
Python Gensim 函式庫，提供 Word2Vec 模組 (Skip-gram/CBOW)
深度學習：介紹兩種類神經網路：Recurrent Neural Network RNN, Long Shrt-Term Memory LSTM
序列資料 Sequence Data, 與時間、先後順序有相依性的資料，股票價格、句子裡的單字，順序換掉會喪失意義
傳統 NN：Mutli-Layered Preceptron 多層感知機、Convolutional Neural Networks CNN 卷積
無記憶功能，沒有 Sequential Memory
1989 Time-Delay Neural Networks, TDNN，聲音辨識，延遲一段時間取下個 x，先前 x 也納入計算
1990 Elman Networks，隱藏層輸出用 Context Unit 神經元儲存下來，之後也做為輸入。另有變形 Jordan Networks
RNN 被應用在語音辨別、時間序列預測(Time Series Prediction)、NLP
RNN 種類：One to Many (一輸入對多輸出，看照片描述其中物件)、Many to One (多輸入一輸出，情緒分析)、Many to Many (多輸入多輸出，等長：Speech Enhancement、不等長：機器翻譯)
LSTM 可彌補 RNN 記憶太短問題。閱讀筆記 - LLM 模型發展歷程基本知識

練習：IMDB 電影資料庫情緒分析

TensorFlow, tf.keras.datasets.imdb.load_data()
# 評論 [1,14,...,2,19,178,32] 單字索引矩陣, label = 0 負評 1 正評
imdb.get_word_index() # 索引對映單字陣列，0-2 保留
sequences.pad_sequances() # 補足長度
Sequential()、Embedding() 
SimpleRNN(32) # 32 維詞向量，準確率 72%
LSTM(32) # 準確率 82%

練習：詞性標註, Natural Language ToolKit NLTK

import nltk
nltk.download('treebank')
# 合併 treebank, brown, conll2000 三個資料集共 72,202 筆
# 句子及詞性分別放 words 及 tags
# 建立字典，將資料轉成訓練資料
# TensorFlow 三種模型建立方式：Sequential API、Functional API、Model Subclassing(定義類別)
# 使用 TensorFlow data pipeline 訓練流程加速訓練
# RNN：Embedding 層、SimpleRNN 層、Dense 層、TimeDistributed 層(所有詞的隱狀態都要預測)，95% 準確率
# LSTM：98% 準確率

【線上資源】

另有教學影片及簡報，佛心來著：學 AI 真簡單 Ⅲ - 輕鬆學自然語言處理-電腦這樣理解語言