Blwyddyn ddiwethaf dechreuais i brosiect ymchwil yn cydweithio gydag Irena Spasic, Padraig Corcoran, Dawn Knight a Laura Arman, yn hyfforddi mewnblaniadau geiriau ar gyfer yr iaith Cymraeg. Model yw hwn (mapiad o eiriau i fectorau) sy’n ddefnyddiol mewn nifer o gymwysiadau prosesu iaith naturiol (NLP) defnyddiol megis cyfieithu peirianyddol, dadansoddiad sentiment, adnabod endidau, a pharsio dibyniaethau. Cyflwynais rannau o’r gwaith yn wythnos yma yn Symposiwm Offer ac Adnoddau Technoleg Iaith Cymru. Mae’r profiad o weithio ar y prosiect hwn wedi rhoi i fi gwerthfawrogiad o bwysigrwydd Wicipedia i ddatblygu modelau NLP Cymraeg a thechnolegau iaith.

Mae’r iaith Gymraeg yn dioddef o fodelau a thechnolegau iaith gyntefig o gymharu ag ieithoedd mwy. Mae hwn yn gwneud defnyddio’r iaith Gymraeg yn anoddach. Mae enghraifft o hwn wrth ddefnyddio Wicipedia ei hun - mae’r teclyn chwilota ar y fersiwn Saesneg yn gallu adnabod camsillafiadau, morffolegau, ac amrywiadau yn ffurf teitl yr erthygl; tra ar y fersiwn Cymraeg mae angen teipio’r teitl yn union, gan gynnwys treigladau ac acenion, oherwydd mae’r modelau iaith hyn naill ai ddim ar gael neu ddim yn cael eu defnyddio yn y Gymraeg. Serch hynny mae newyddion da. Roedd yn braf yn y Symposiwm clywed am lwyth o brosiectau NLP newydd fel teclynnau destun-i-lefaredd ac adnabod rhannau ymadrodd.

Mae unrhyw fodel dysgu peirianyddol ond mor dda â’r data y caiff ei hyfforddi arno. Yn achos NLP, y data yw corpws, sef casgliad o eiriau mewn cyd-destun, hynny yw swmp mawr o frawddegau. Roedd yn ddiddorol clywed yn y Symposiwm bod casglu corpws Cymraeg digon mawr i hyfforddi modelau NLP a thechnolegau iaith eraill yn sialens ar draws y maes. Ar gyfer ieithoedd prin eu hadnodd, fel Cymraeg a Basgeg, un o’r ffynonellau mwyaf o ran maint, mwyaf hygyrch, mwyaf amrywiol, a mwyaf amlwg yw Wicipedia. Hefyd, Wicipedia yw’r ffynhonnell corpws lle gall unrhyw un cyfrannu ato a’i wella.

Mae Wicipedia Cymraeg ond yn bodoli achos mae gwirfoddolwyr gwych yn gweithio’n galed i gyfrannu ato a’i gynnal. Wrth sylweddoli hyn, penderfynais y galla i roi nôl i Wicipedia, felly dechreuais gyfrannu ato. O Dachwedd 2019 hyd heddiw rydw i wedi ychwanegu 124 erthygl (isod), yn bennaf trwy gyfieithu ac addasu erthyglau Saesneg. Roeddwn i’n canolbwyntio ar ddau agwedd pwysig: cynyddu nifer o eiriau yn y prosiect, a chynyddu amrywiad yr erthyglau sydd yn y prosiect.

  • Nifer o eiriau: Mae cynyddu nifer o frawddegau yn Wicipedia yn cyfrannu’n uniongyrchol i ansawdd modelau NLP. Mae maint Wicipedia hefyd yn dylanwadu sut mae eraill yn gweld yr iaith, ac efallai hefyd at barodrwydd ymchwilwyr i geisio datblygu modelau yn yr iaith.

    Mae nifer o egin (erthyglau bach bach iawn, braidd brawddeg1) ar Wicipedia Cymraeg yn fawr, ac yn cynyddu trwy’r amser. Mae’r graff isod yn dangos dosraniad nifer o eiriau yn erthyglau Wicipedia (data o 17-10-2020, tua 132 mil o erthyglau). Mae gan hanner yr erthyglau ond 77 gair neu lai, a 62% o erthyglau 90 gair neu lai. Hynny yw mae gan 62% o erthyglau Wicipedia llai o eiriau na’r paragraff hon, a llai nag 0.7% sy’n hirach na’r blog hwn. Felly dwi’n ceisio ychwanegu erthyglau gyda digon o gynnwys.

  • Amrywiaeth: Mae amrywiaeth corpws yn bwysig i NLP. Mae technolegau iaith sydd ond wedi’u hyfforddi ar gorpws arbenigol ond yn mynd i fod yn ddefnyddiol ar gyfer cymwysiadau yng nghyd-destun yr arbenigedd hynny. Mae technolegau iaith sydd wedi’u hyfforddi ar gorpws digon amrywiol yn mynd i fod yn ddefnyddiol ar gyfer amryw o gymwysiadau. Ymhellach, yn fwyfwy nawr datblygir modelau NLP aml-ieithog, sy’n medru gwneud defnydd o adnoddau a chorpera enfawr un iaith er mwyn gwella cymwysiadau mewn iaith arall lleiafrifol. Gall y modelau hyn gwella os yw’r ddau gorpera, er o feintiau gwahanol, yn gyfatebol, hynny yw yn ymdrin â’r un pynciau. Mae cael erthyglau Wicipedia ar ystod eang o bynciau, efallai rhyngwladol neu’n gyffredinol yn eu natur, yn gallu helpu.

    Yn ogystal â hwn, mae Wicipediau ieithoedd lleiafrifol yn cyflawni’r swydd o gynrychiolaeth,2 maen nhw’n adlewyrchu a chynrychioli diwylliant a diddordebau siaradwyr yr iaith honno ar lwyfan rhyngwladol. Er mwyn sicrhau bod Wicipedia, a’r technolegau iaith sydd wedi’u hyfforddi arno, yn cynrychioli fy niddordebau a’n agweddau3 i, mae angen i fi fod yn rhan o’i ddatblygiad. Mae cyfrannu’ch llais i gorpws sy’n cael ei ddefnyddio i astudio ac i ddatblygu technolegau iaith yn golygu eich bod yn dilysu’ch llais. Hynny yw mae’n cadarnhau pwysigrwydd eich diddordebau, geiriau, termau, a defnydd iaith, ac yn sicrhau bod y rhain yn cael eu cynrychioli mewn datblygiadau a thechnolegau iaith. Felly dwi’n ceisio ychwanegu erthyglau o ystod eang o’m ddiddordebau.

Rydw i wedi crynhoi fy meddyliau ar hwn yn y diagram dolen achosol isod, mae saeth du’n golygu bod cynnydd yn un yn achosi cynnydd yn y llall, tra bod saeth goch yn golygu bod cynnydd yn un yn achosi lleihad yn y llall. Barn fi yn unig yw hon:

Dyma’r 124 erthygl Wicipedia rydw i wedi cyfrannu yn y flwyddyn ers Tachwedd 2019, yn y drefn creais i nhw, ac wrth gwrs mae cyfranwyr eraill wedi eu golygu, gwirio a’u gwella:


  1. mae nifer o honiadau bod nifer o erthyglau Wicipedia mewn rhyw iaith yn cyfrannu’n uniongyrchol tuag at gyllido’r iaith hwnnw (enghraifft, enghraifft), er dwi fethu gweld tystiolaeth o hwn. Ond, mae’r egin hyn sgiwio gallu dehongli’r ystadegyn ‘nifer o erthyglau’ fel mesur o faint Wicipedia. 

  2. gweler yr erthygl hon am enghraifft. 

  3. yn fy marn i mae gan Wicipedia Cymraeg bias ‘gwleidyddiaeth hunaniaeth’ - eto, dim ond trwy gyfrannu at y prosiect gall fy agweddau i gael eu cynrychioli.