基於加強型預訓練語言模型實現不限語言特性之細膩情感分析方法
Realization of Unconstrained Language Formality with Fine-Grained Sentiment Analysis based on Enhanced Pre-Trained Natural Language Processing Model
姓名:林昱文
自然語言處理是人工智慧中一種常用的技術,其中情感分析是從文字中挖掘 出人們在表達某些議題觀點極性的方法。而極性判斷可能是針對討論內容、評價或 者是當時的情緒狀態。以往文字情感分析通常需要透過複雜的文字處理,並以固定 的積極情感字典、消極情感字典或中性情感字典對單詞進行情感預測,最後得到單 一的情感極性分類狀態。但文字情感分析在過去大部分的研究都專注於特定媒體, 這也意味著其情感分析模型所適用的語言特性較為單一。但現今不管是評論文章 或是回覆意見時所用文字的語言特性較不規律,導致相同模型應用在不同語言特 性時效能低下。
本論文提出了一個基於加強型預訓練語言模型實現不限語言特性之文字情感 分析之方法。此法不但適用於各種具有不同語言特性之文字情感分析外,還提供更 加細膩之情感極性特徵之級距,使情感分析結果更能正確的表達推文者之感受。為 此,本論文先以Google預訓練語言模型為基礎,使用各類具有不同語言特性的句子 對模型進行加強型預訓練,並透過遷移學習建立出情感分析模型計算出整個句子 的情感傾向。最後,使用正向情感傾向與負向情感傾向建立細膩情感模型,使得原 先正負向情感極性結果細分出七個極性類別,來更有效的表現出強弱情感所表達 出的區別。
在實驗中,透過 IMDB 數據集與 SemEval 數據集兩者不同語言特性數據集做 為情感極性分析驗證資料集,並對其使用加強預訓練語言模型。實驗結果顯示,在 使用加強預訓練後情感分析對於結構化文字準確率提高了 0.8%;對於非結構化文 字情感分析結果提高了 0.6%。IMDB 數據集相較於 LSTM 提升了 18.21%, SemEval 數據集相較於 LSTM 提升了 13.49%。
因此,由此可知此法不僅會提升模型原先對於該領域情感分析準確率,在使用 加強預訓練亦能改善非正規化文字中對於情感分析之準確率,最後實現透過細膩 情感分析模型進行細膩情感分類的方法。
關鍵字:深度學習、BERT、遷移學習、不限語言特性、情感分析