結合 ALBERT 模型與知識圖譜之關鍵字推薦技術應用於產學情資搜尋平台
ALBERT-based knowledge graph technology applied to relevant-keyword recommendations of industry-academia information searching platform
姓名:耿皓庭
當前各種產業資訊媒合搜尋平台大部分使用傳統關聯式資料庫架構進行關鍵 字全文檢索服務,使用者必須精準的提供關鍵字才得以搜尋到目標資料,因此若 使用者對於專業領域名詞的認知不同或領域知識不夠熟悉將會造成資訊搜尋的困 難。本論文希望解決金屬產業領域技術詞檢索問題,使用近十年之金屬產業產學 計畫文本進行分析,利用外部分詞工具與統計方法進行預處理,減少產業專家分 類產業實體詞之人力消耗;隨後結合字串比對演算法(Aho-Corasick)將詞庫與產業 文本進行快速標註資料集,將大型中文預訓練模型 BERT(Bidirectional Encoder Representation from Transformers)與 ALBERT(A Lite BERT)分別結合條件隨機場 (Conditional Random Field, CRF)進行命名實體識別(Named Entity Recognition , NER)。並選擇最適合之語言模型,預測文本實體詞後由預定義關係與計畫文本結 構化資料使詞與詞產生關係鏈結產生三元組,再將三元組存儲至圖資料庫(Graph Database, GDB),用於生成知識圖譜視覺化功能,建立基於金屬產業圖譜關係之關 鍵字推薦服務。
關鍵字:金屬產業、自然語言處理、命名實體識別、ALBERT、知識圖譜