Korpusa deqên bi kurdiya soranî ya Asosoftê

Korpusa deqên bi kurdiya soranî ya Asosoftê, anku bi kurdiya navendî: Korpisî deqî kurdîy soranîy Asosoft, yekemîn korpusa qebare-mezin a kurdî ye ku ji aliyê koma vekolîn û peredana Asosoftê hatiye berhevkirin û pêvajokirin. Weşana yekem ya vê korpusê bo kurdiya navendî an soranî ye û 458.000 belgenameyan li xwe digire.

Tekstên korpusê

Deqên vê korpusê ji malperan, navendên havalnêrî, pirtûk, kovar û hwd hatine komkirin. Beşek ji belgenameyên korpusê bi leybilê babetan (topic tags) hatine destnîşankirin û vekolîner dikarin van taybetmendiyan ji bo karên venasînên babetan (topic identification) bi kar bînin. Her weha, ew korpus bo karên dinên pêvajoya zimanê siruştî wek venasîna axaftinê (speech recognition) û deranîna modela zimên (language model) û wişedankê (lexicon) tê bikaranîn ^[1]^[2]^[3]..

Taybetmendiyên giştî yên korpusê

Çavkanî: malperên kurdî, rojname, kovar, pirtûk
Jimareya belgenameyan: 458.000
Jimareya giştî ya peyvan: 188 mîlyon
Format: TEI

Çavkanî

^ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, , fqy074, https://doi.org/10.1093/llc/fqy074
^ Kopîkirina arşîvê, ji orîjînalê di 9 adar 2019 de hat arşîvkirin, roja gihiştinê 16 adar 2019{{citation}}: CS1 maint: archived copy as title (lînk)
^ https://github.com/AsoSoft/AsoSoft-Text-Corpus

Ev gotara kurt şitlekê ye. Heke tu bixwazî berfireh bikî pê li biguhêre bike. (Çawa?)

[1] Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, , fqy074, https://doi.org/10.1093/llc/fqy074

[2] Kopîkirina arşîvê, ji orîjînalê di 9 adar 2019 de hat arşîvkirin, roja gihiştinê 16 adar 2019{{citation}}: CS1 maint: archived copy as title (lînk)

[3] ttps://github.com/AsoSoft/AsoSoft-Text-Corpus

[1]

[2]

[3]