Korpusa deqên bi kurdiya soranî ya Asosoftê
Korpusa deqên bi kurdiya soranî ya Asosoftê, anku bi kurdiya navendî: Korpisî deqî kurdîy soranîy Asosoft, yekemîn korpusa qebare-mezin a kurdî ye ku ji aliyê koma vekolîn û peredana Asosoftê hatiye berhevkirin û pêvajokirin. Weşana yekem ya vê korpusê bo kurdiya navendî an soranî ye û 458.000 belgenameyan li xwe digire.
Tekstên korpusê
[biguhêre | çavkaniyê biguhêre]Deqên vê korpusê ji malperan, navendên havalnêrî, pirtûk, kovar û hwd hatine komkirin. Beşek ji belgenameyên korpusê bi leybilê babetan (topic tags) hatine destnîşankirin û vekolîner dikarin van taybetmendiyan ji bo karên venasînên babetan (topic identification) bi kar bînin. Her weha, ew korpus bo karên dinên pêvajoya zimanê siruştî wek venasîna axaftinê (speech recognition) û deranîna modela zimên (language model) û wişedankê (lexicon) tê bikaranîn [1][2][3]..
Taybetmendiyên giştî yên korpusê
[biguhêre | çavkaniyê biguhêre]- Çavkanî: malperên kurdî, rojname, kovar, pirtûk
- Jimareya belgenameyan: 458.000
- Jimareya giştî ya peyvan: 188 mîlyon
- Format: TEI
Çavkanî
[biguhêre | çavkaniyê biguhêre]- ^ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Toward Kurdish language processing: Experiments in collecting and processing the AsoSoft text corpus, Digital Scholarship in the Humanities, , fqy074, https://doi.org/10.1093/llc/fqy074
- ^ Kopîkirina arşîvê, ji orîjînalê di 9 adar 2019 de hat arşîvkirin, roja gihiştinê 16 adar 2019
{{citation}}
: CS1 maint: archived copy as title (lînk) - ^ https://github.com/AsoSoft/AsoSoft-Text-Corpus
Ev gotara kurt şitlekê ye. Heke tu bixwazî berfireh bikî pê li biguhêre bike. (Çawa?) |