基於 ELECTRA 語言模型之關鍵詞篩選技術用於 金屬產業知識圖譜
Keyword screening technology based on ELECTRA
language model for metal industry knowledge map
姓名:張辰吉
台灣企業以中小型企業為主,大企業有能力與資源進行產業轉型和技術研發,而
中小企業及小型企業則往往力有未逮,依據不同產業類型、規模等,各家中小企
業的數位化程度與成熟度均有差異。 尤其現在產品與技術往往需要跨領域整合,
思考如何幫助廠商,透過與其他廠商合作改良產品,需要與其他企業媒合,也因
為各產業間所需技術與產品之名詞較不普遍。為了解決此問題,本研究則運用金
屬中心提供之金屬產業相關技術資料和產學界之計畫文本結合自然語意分析技術,
讓計畫文本抽取出實體關係連結,例如產品或技術連結公司名,提供廠商可找尋
到適當的合作對象。金屬計畫文本透過公開之停用詞表配合經驗法則過濾雜訊詞
減少時間成本,且運用斷詞工具做初步斷詞,並結合統計演算法 BM-25(Okapi
Best Match 25)過濾斷詞後之實體詞,可減少在初步針對計畫文本實體詞抽取之人
力成本。後續並採用 AC 自動機演算法,標註存在於句子中之實體詞,有助於後
續資料集標記時間成本。最終透過 CRF(Conditional Random Fields)條件隨機場和
自 然 語 言 預 訓 練 模 型 BERT、ALBERT(A Lite BERT)、ELECTRA(Efficiently
Learning an Encoder that Classifies Token Re-placements Accurately)識別出廠商、產
品、技術等詞,且預測出實體與實體之間的關係三元組,保存於圖形資料庫中,
透過可視化的介面運用,和 Cypher 語法查詢圖譜之間實體與實體間的關係,期望
未來能幫助金屬產業達到更好的媒合效果。
關鍵字:停用詞表、BM-25、命名實體識別、ELECTRA、知識圖譜