Articut 依據 MIT 教授 Noam Chomsky 研究多年的語言學原理設計。具有輕量、快速、正確性高且應用廣範的特點。除了簡單的中文斷詞,它更具有完整的 POS (詞性) 和 NER (命名實體辨識) 功能。
此外,開發時也可以調用政府開放資料平台的景點資料或是 WikiData 的資料做為詞條的補充,更可以透過 json 格式載入自定義詞典以適應不同的 NLP 需求。
  免費字數: 1,568  (整點重置字數)
Key (全名)
Value (別名)
實體物件 (Entity)
動作事件 (Event)
人名 (Person)
地點 (Site)
時間 (Time)
數字 (Number)
自定義辭典 (UserDefined)
發音 (Utterance)
機讀結果
若您有任何操作上的問題,或是需要討論斷詞結果、詞性標記的正確與否,歡迎到 Articut 的 Facebook 粉絲專頁 發文討論。
Sense2
Positive
Neutral
Negative
Sense8
Tension
  免費字數: 1,568 (整點重置字數)
查詢結果
  免費字數: 1,568 (整點重置字數)
Key (全名)
Value (別名)
AI 改寫結果
  免費字數: 1,568 (整點重置字數)
Key (全名)
Value (別名)
類型 文字
  免費字數:1,568  (整點重置字數)
Loki @ ROCLING 2020
  免費字數: 1,568  (整點重置字數)

卓騰語言科技 Articut 中文斷詞 API 服務

卓騰語言科技專注於亞洲語言的各項科技應用服務開發。透過電腦科技,我們導入人類習得語言的機制,以符合語言知識規則的演算法取代語料庫和大數據的依賴。簡言之,我們的技術可在顧及使用者「隱私」需求的前提下滿足對各項語言科技的需求。

我們率先推出的 Articut 中文斷詞暨詞性標記服務 API 可讓您在取得中文篇章的斷詞結果的同時,還能知道各個詞彙在這個句子中扮演的詞性。

當您輸入以下的句子時:

努力才能成功

Articut 不只會給您斷詞的結果:

努力/才能/成功/

Articut 還會給其中的「才能」在 Articut 的斷詞結果中將標記為 MODAL:

<ACTION_verb>努力</ACTION_verb><MODAL>才能</MODAL><ENTITY_oov>成功</ENTITY_oov>

斷詞

Segmentation

利用語言學的中文句法規則,找出句子中每個最小的有意義單詞。

實體擷取

Entity Extraction

識別文本中具有特定意義的實體 (中文人名、行政地名、其他名詞...等)。

詞性標記

POS Tagging

每個單詞在句子內所扮演的詞性 (名詞、動詞或形容詞…等)。Articut 更具有中文常見的轉品功能。例如「我計劃了一份計劃」中的兩個「計劃」的詞性分別為動詞和名詞,Articut 會依句子的結構加以推理並自動轉換標記。

地方-事件擷取

Geo-Event Extraction

利用 Articut 斷詞結果中的詞性標記,擷取出「某時」、「某地」發生「某事」的具體事情。例如「明天我們計劃去花蓮原野牧場的一間餐廳吃中飯」一句中可擷出「時間:明天」、「地點:花蓮、原野牧場」、「事件:吃中飯」。

詞組擷取

Phrase Extraction

數個單詞可構成一個意義更為明確的詞組。例如「勞工」+ 「運動] 兩個單詞可組成一個 「勞工運動」名詞詞組;「攀」+「岩」也可組成一個「攀岩」的動詞詞組。

問句偵測

Question Detection

自動分析文本中是否具有疑問句。例如「是非問句:你認識他嗎?」、「Wh-疑問句:他是誰?」以及中文特殊的「A-not-A 問句:你知不知道答案?」量化用法或內嵌式問句也會一併偵測。