Korpusa deqên bi kurdiya soranî ya Asosoftê

Ji Wîkîpediya, ensîklopediya azad.
Jump to navigation Jump to search

Korpusa deqên bi kurdiya soranî ya Asosoftê, anku bi kurdiya navendî: Korpisî deqî kurdîy soranîy Asosoft, yekemîn korpusa qebare-mezin a kurdî ye ku ji aliyê koma vekolîn û peredana Asosoftê hatiye berhevkirin û pêvajokirin. Weşana yekem ya vê korpusê bo kurdiya navendî an soranî ye û 458.000 belgenameyan li xwe digire.

Tekstên korpusê[biguherîne]

Deqên vê korpusê ji malperan, navendên havalnêrî, pirtûk, kovar û hwd hatine komkirin. Beşek ji belgenameyên korpusê bi leybilê babetan (topic tags) hatine destnîşankirin û vekolîner dikarin van taybetmendiyan ji bo karên venasînên babetan (topic identification) bi kar bînin. Her weha, ew korpus bo karên dinên pêvajoya zimanê siruştî wek venasîna axaftinê (speech recognition) û deranîna modela zimên (language model) û wişedankê (lexicon) tê bikaranîn [1][2][3]..

Taybetmendiyên giştî yên korpusê[biguherîne]

  • Çavkanî: malperên kurdî, rojname, kovar, pirtûk
  • Jimareya belgenameyan: 458.000
  • Jimareya giştî ya peyvan: 188 mîlyon
  • Format: TEI

Çavkanî[biguherîne]

  1. Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, , fqy074, https://doi.org/10.1093/llc/fqy074
  2. http://asosoft.com/en/works/textcorpus
  3. https://github.com/AsoSoft/AsoSoft-Text-Corpus


Wiki letter w cropped.svg Ev gotar şitlek e. Heke tu bixwazî berfireh bikî, biguherîne bitikîne. (Çawa?)