跳到主要內容

這種有可能能解,不過會有些先決條件得考慮

經由 laisan86 發表 ‧ 30 天前

自然語言 中文法學資料分詞器

其實可能以關鍵字Keyword字典的方式,達到改善的效果先

雖然是自然語言這個範疇,不過因為法學上的用詞其實有些會與現實生活有區別,這是可以利用的第一點

第二點就是靠規則庫Rule based,好比說以例子中的『成年』、『未成年』會搞混,那是因為電腦並不了解這兩者在詞意上的不同;所以要給資料庫查詢命令前,必須先針對可能混淆電腦的詞彙進行分類與加工,舉例來說『成年』這個詞等於『已成年』,這樣電腦才比較容易分辨

另外也可以透過建立固定查詢SQL語法樣板這種方式,以kNN先把各種可能的關鍵字分類,每次查詢之前先透過kNN找出最接近的是哪一類,再產生出對資料庫查詢的完整語法,多訓練kNN來做到分類清晰,應該是有改善的效果

回覆 4

經由 Bella 回覆 ‧ 25 天前

請問:

規則庫Rule based,好比說以例子中的『成年』、『未成年』會搞混,那是因為電腦並不了解這兩者在詞意上的不同;所以要給資料庫查詢命令前,必須先針對可能混淆電腦的詞彙進行分類與加工,舉例來說『成年』這個詞等於『已成年』,這樣電腦才比較容易分辨

=> 成年和 "未"成年, 這裡在電腦中是2個字和3個字的差異, 您這提的搞混是因為什麼呢? 如果先辨識有幾個字,這方式是不是可以先解決?

好奇請教

經由 laisan86 回覆 ‧ 25 天前

先算字數是一個,不過這也得考慮到當時下查詢指令的方式,若是採用SQL WHERE LIKE那種,而不是Exactly compare,這就比較難說了!

經由 Bella 回覆 ‧ 25 天前

了解了, 謝謝解惑:) 

看來要先定義或收斂"提問"的方式... 找出共同點, 再來選擇用什麼方式對嗎? 

經由 laisan86 回覆 ‧ 25 天前

正確!因為不論怎樣,資料庫系統也好、機器學習也好,都脫離不開資料!

要讓資料對電腦系統有效,很重要的關鍵:正規化

需登入才能回答問題