Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba

Nataša Logar Berginc; Miha Grčar; Marko Brakus; Tomaž Erjavec; Špela Arhar Holdt; Simon Krek

doi:10.4312/9789610603542

Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba

Avtorji

Nataša Logar Berginc, Univerza v Ljubljani, Fakulteta za družbene vede; Miha Grčar; Marko Brakus; Tomaž Erjavec, Institut Jožef Stefan, Ljubljana; Špela Arhar Holdt, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko; Simon Krek, Institut Jožef Stefan, Ljubljana

DOI: https://doi.org/10.4312/9789610603542

Ključne besede:

referenčni korpusi, besedilna recepcija, besedilna produkcija, spletna besedila, jezikovne tehnologije

Kratka vsebina

V projektu Sporazumevanje v slovenskem jeziku (2008−2013; SSJ) je bil eden od ciljev izgradnja referenčnega, enojezičnega in pisnega korpusa sodobne slovenščine. Nastal je korpus Gigafida z več kot milijardo besed, ki je nadgradnja dveh predhodnih korpusov: korpusa FIDA iz leta 2000 in korpusa FidaPLUS iz leta 2006.

V več kot milijardo besed obsegajoči korpus Gigafida smo dali vsa besedila, ki smo jih dobili na novo (ter besedila iz predhodnih korpusov FIDA in FidaPLUS), bolj uravnotežena razmerja med zvrstmi besedil pa smo že predhodno načrtovali in jih tudi uresničili v 100-milijonskem korpusu KRES. Dodatno smo izdelali še dva podkorpusa, ki sta po licenci Creative Commons »priznanje avtorstva« + »nekomercialno« dostopna kot baza podatkov: prvi (ccGigafida) vsebuje 9 % Gigafide, drugi (ccKRES) pa 9 % KRES-a.

Downloads

Download data is not yet available.

Prenosi

PDF

Forthcoming

August 28, 2020

Zbirka

Sporazumevanje

Kategorije

Kako citirati

Logar Berginc, N., Grčar, M., Brakus, M., Erjavec, T., Arhar Holdt, Špela, & Krek, S. (2020). Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Založba Univerze v Ljubljani. https://doi.org/10.4312/9789610603542

Prenesi citat

Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba

Avtorji

Ključne besede:

Kratka vsebina

Downloads

Prenosi

Forthcoming

Zbirka

Kategorije

Kako citirati

Jezik

Informacije