Articut Q & A:

Q: 如何在文獻中引用 Articut/文截斷詞?

A: 請使用下列 APA 格式制定,關於 [電腦程式和網站] 的引用方式:

Wang, Wen-jet, Chen, Chia-jung, Lee, Chia-ming, Lai, Chien-yu, Lin, Hsin-hung (2019). Articut: Chinese Word Segmentation and POS Tagging System [Computer program]. Version <VERSION>, retrieved <DD-MM-YY> from https://api.droidtown.co/

參考:APA style


Q: 如何在科技部計劃中編列項目?

A: 依 科技部專題研究計畫經費申請、核銷及結案注意事項 (104年9月17日編修) 內容之「項次(三)」,「Articut/文截斷詞」的使用費可以編列於「其他費用」項目下。


Q:「不使用統計方法」和「語言學規則斷詞」是什麼意思?

A: 目前所有斷詞方法都是「統計基礎」的斷詞方法,Articut 文截斷詞則不是。舉例說明,用「統計方法」來處理「人工智慧幾乎是一門人文學科」這句話。會得到:

人工/智慧/幾乎/是//門/人文/學科

的斷詞結果,是因為經過統計大量的文獻後,把句子這麼斷開的可能性(機率)最高。換言之,文獻中有多次「人工」這兩個字結合在一起的例子,相較之下「工智」則很少出現。再來,「智慧」也是很常出現的例子…依此類推。

用「語言學規則」斷同一句話,卻會得到「人工智慧/幾乎/是/一門/人文學科」的斷詞結果,是因為以下的「語言學規則」:

  1. 「是」是助動詞,分開了句子的前後兩個部份。
  2. 「幾乎」是個修飾語。
  3. 「人工智慧」是佔在句首的主詞位置,依語言學規則推判,應該是個名詞。
  4. 「一門」是由「數字」和「量詞」組成的獨立單位。
  5. 「人文學科」在量詞後,依語言學規則推判,應該是個名詞。

同時還能推定這個句子和「人工智慧」以及「人文學科」有關,和「門 (door)」無關,因為在這個句子的「門」是做為計量單位使用,而不是做為名詞的「門 (door)」使用的。

簡言之,依語言學規則處理的斷詞結果,可以大大地提升後續自然語言理解 (NLU, Natural Language Understanding) 的效能和正確性。


Q: 上述的「語言學規則」怎麼可能列得完?我們不正是因為中文變化多、規則列不完、例外舉不盡,所以才發展「統計斷詞」的嗎?

A: 「語言學規則」是列得完的,Articut 文截斷詞就做到了。「中文規則列不完」是資訊領域的假設,在語言學領域裡,語言規則沒有列不完這件事。任何語言的語法結構,都是由同一組語言學規則依有限的參數設定變形而來的。此外,正因為似乎變化無窮,所以斷詞一直是資訊領域有興趣的項目。在語言學家的眼裡,斷詞的問題是一個變化有限的題目,因此語言學者對斷詞問題通常沒什麼興趣。這些背景,導致目前除了 Articut 以外所有的中文斷詞都是基於統計方法來達成的。


Q: Articut 文截斷詞的優點有哪些?

A: 四大優點如下:

  1. 用統計方法斷詞,就是少用的句子會因為樣本數不足,不容易透過統計方法取得分佈狀況,因此斷詞處理會的結果會不盡理想。 但這正是 Articut 文截斷詞 - 亦是「語言學規則」方法 - 的強項之一。因為即便是再少見的句子,只要它是符合中文語法的,那麼 Articut 都能處理。例如:我想過過過兒過過的日子

  2. Articut 文截斷詞新增或修正規則非常容易。只要發現現有規則不足之處,可以隨時增加或強化規則,立即提升斷詞良率。相對於統計方法,則無法如此有彈性的提升良率。

  3. 統計方法需要大量的文獻和學習樣本才能進行,Articut 文截斷詞則不用。這使得 Articut 文截斷詞工具所需要的儲存空間和計算量都非常小。以 Jieba (結巴斷詞) 為例,光預設的詞庫就達 8.7MB 的檔案大小,還不計入主程式呢。而 Articut 全部的程式只有 2MB,且不需要詞庫。

  4. 此外,Articut 不僅止於是個單純的斷詞系統,在在分析句法結構的同時,也能推斷詞彙的詞性。例如「努力才能成功」裡的「才能」和「他的領導才能很好」裡的「才能」,詞性不一樣。若要讓電腦理解這兩個句子,一定要能區辨出這兩個「才能」的詞性差異。這對 Articut 而言,只是小菜一碟而已。


Q: 現在的硬體空間和計算量的成本都很低,那空間和計算量小算是優勢嗎?

A: 進入 AI 人工智慧的時代,無數的小設備和 IoT 設備都有可能需要裝載聲控介面,也因此需要內建斷詞系統。試想,若斷詞系統要裝在助聽器這個尺寸的晶片上,空間和計算量小就會是完勝的優勢。


Q: 在網路世界,傳輸速度快才是優勢。只要送到雲端處理,空間和計算量仍然不是最重要的,不是嗎?

A: 有些地方是沒有網際網路連線的!通常沒有網際網路的地方對設備運作效率或是隱私的要求都很高。某些網路訊號不穩定,但是服務不能中斷的場合,或是絕對不能有資料外流的機構,最佳的選擇就是像 Articut 這樣硬體環境要求低,無需資料庫或網際網路,無需雲端伺服器,卻仍然能保持高效能的解決方案。再者,若資料本身涉及隱私或敏感議題時,則網際網路就是一個絕對劣勢。


Q: 我要怎麼使用 Articut 文截斷詞工具?

A: Articut API 說明文件