Pwysigrwydd Wicipedia i Brosesu Iaith Naturiol
Blwyddyn ddiwethaf dechreuais i brosiect ymchwil yn cydweithio gydag Irena Spasic, Padraig Corcoran, Dawn Knight a Laura Arman, yn hyfforddi mewnblaniadau geiriau ar gyfer yr iaith Cymraeg. Model yw hwn (mapiad o eiriau i fectorau) sy’n ddefnyddiol mewn nifer o gymwysiadau prosesu iaith naturiol (NLP) defnyddiol megis cyfieithu peirianyddol, dadansoddiad sentiment, adnabod endidau, a pharsio dibyniaethau. Cyflwynais rannau o’r gwaith yn wythnos yma yn Symposiwm Offer ac Adnoddau Technoleg Iaith Cymru. Mae’r profiad o weithio ar y prosiect hwn wedi rhoi i fi gwerthfawrogiad o bwysigrwydd Wicipedia i ddatblygu modelau NLP Cymraeg a thechnolegau iaith.
Mae’r iaith Gymraeg yn dioddef o fodelau a thechnolegau iaith gyntefig o gymharu ag ieithoedd mwy. Mae hwn yn gwneud defnyddio’r iaith Gymraeg yn anoddach. Mae enghraifft o hwn wrth ddefnyddio Wicipedia ei hun - mae’r teclyn chwilota ar y fersiwn Saesneg yn gallu adnabod camsillafiadau, morffolegau, ac amrywiadau yn ffurf teitl yr erthygl; tra ar y fersiwn Cymraeg mae angen teipio’r teitl yn union, gan gynnwys treigladau ac acenion, oherwydd mae’r modelau iaith hyn naill ai ddim ar gael neu ddim yn cael eu defnyddio yn y Gymraeg. Serch hynny mae newyddion da. Roedd yn braf yn y Symposiwm clywed am lwyth o brosiectau NLP newydd fel teclynnau destun-i-lefaredd ac adnabod rhannau ymadrodd.
Mae unrhyw fodel dysgu peirianyddol ond mor dda â’r data y caiff ei hyfforddi arno. Yn achos NLP, y data yw corpws, sef casgliad o eiriau mewn cyd-destun, hynny yw swmp mawr o frawddegau. Roedd yn ddiddorol clywed yn y Symposiwm bod casglu corpws Cymraeg digon mawr i hyfforddi modelau NLP a thechnolegau iaith eraill yn sialens ar draws y maes. Ar gyfer ieithoedd prin eu hadnodd, fel Cymraeg a Basgeg, un o’r ffynonellau mwyaf o ran maint, mwyaf hygyrch, mwyaf amrywiol, a mwyaf amlwg yw Wicipedia. Hefyd, Wicipedia yw’r ffynhonnell corpws lle gall unrhyw un cyfrannu ato a’i wella.
Mae Wicipedia Cymraeg ond yn bodoli achos mae gwirfoddolwyr gwych yn gweithio’n galed i gyfrannu ato a’i gynnal. Wrth sylweddoli hyn, penderfynais y galla i roi nôl i Wicipedia, felly dechreuais gyfrannu ato. O Dachwedd 2019 hyd heddiw rydw i wedi ychwanegu 124 erthygl (isod), yn bennaf trwy gyfieithu ac addasu erthyglau Saesneg. Roeddwn i’n canolbwyntio ar ddau agwedd pwysig: cynyddu nifer o eiriau yn y prosiect, a chynyddu amrywiad yr erthyglau sydd yn y prosiect.
-
Nifer o eiriau: Mae cynyddu nifer o frawddegau yn Wicipedia yn cyfrannu’n uniongyrchol i ansawdd modelau NLP. Mae maint Wicipedia hefyd yn dylanwadu sut mae eraill yn gweld yr iaith, ac efallai hefyd at barodrwydd ymchwilwyr i geisio datblygu modelau yn yr iaith.
Mae nifer o egin (erthyglau bach bach iawn, braidd brawddeg1) ar Wicipedia Cymraeg yn fawr, ac yn cynyddu trwy’r amser. Mae’r graff isod yn dangos dosraniad nifer o eiriau yn erthyglau Wicipedia (data o 17-10-2020, tua 132 mil o erthyglau). Mae gan hanner yr erthyglau ond 77 gair neu lai, a 62% o erthyglau 90 gair neu lai. Hynny yw mae gan 62% o erthyglau Wicipedia llai o eiriau na’r paragraff hon, a llai nag 0.7% sy’n hirach na’r blog hwn. Felly dwi’n ceisio ychwanegu erthyglau gyda digon o gynnwys.
-
Amrywiaeth: Mae amrywiaeth corpws yn bwysig i NLP. Mae technolegau iaith sydd ond wedi’u hyfforddi ar gorpws arbenigol ond yn mynd i fod yn ddefnyddiol ar gyfer cymwysiadau yng nghyd-destun yr arbenigedd hynny. Mae technolegau iaith sydd wedi’u hyfforddi ar gorpws digon amrywiol yn mynd i fod yn ddefnyddiol ar gyfer amryw o gymwysiadau. Ymhellach, yn fwyfwy nawr datblygir modelau NLP aml-ieithog, sy’n medru gwneud defnydd o adnoddau a chorpera enfawr un iaith er mwyn gwella cymwysiadau mewn iaith arall lleiafrifol. Gall y modelau hyn gwella os yw’r ddau gorpera, er o feintiau gwahanol, yn gyfatebol, hynny yw yn ymdrin â’r un pynciau. Mae cael erthyglau Wicipedia ar ystod eang o bynciau, efallai rhyngwladol neu’n gyffredinol yn eu natur, yn gallu helpu.
Yn ogystal â hwn, mae Wicipediau ieithoedd lleiafrifol yn cyflawni’r swydd o gynrychiolaeth,2 maen nhw’n adlewyrchu a chynrychioli diwylliant a diddordebau siaradwyr yr iaith honno ar lwyfan rhyngwladol. Er mwyn sicrhau bod Wicipedia, a’r technolegau iaith sydd wedi’u hyfforddi arno, yn cynrychioli fy niddordebau a’n agweddau3 i, mae angen i fi fod yn rhan o’i ddatblygiad. Mae cyfrannu’ch llais i gorpws sy’n cael ei ddefnyddio i astudio ac i ddatblygu technolegau iaith yn golygu eich bod yn dilysu’ch llais. Hynny yw mae’n cadarnhau pwysigrwydd eich diddordebau, geiriau, termau, a defnydd iaith, ac yn sicrhau bod y rhain yn cael eu cynrychioli mewn datblygiadau a thechnolegau iaith. Felly dwi’n ceisio ychwanegu erthyglau o ystod eang o’m ddiddordebau.
Rydw i wedi crynhoi fy meddyliau ar hwn yn y diagram dolen achosol isod, mae saeth du’n golygu bod cynnydd yn un yn achosi cynnydd yn y llall, tra bod saeth goch yn golygu bod cynnydd yn un yn achosi lleihad yn y llall. Barn fi yn unig yw hon:
Dyma’r 124 erthygl Wicipedia rydw i wedi cyfrannu yn y flwyddyn ers Tachwedd 2019, yn y drefn creais i nhw, ac wrth gwrs mae cyfranwyr eraill wedi eu golygu, gwirio a’u gwella:
- Hock
- Loretta Lynn
- Neverwhere (nofel)
- Oatman, Arizona
- Community (cyfres teledu)
- Emma o Normandi
- Siartr y Goedwig
- Lliwio graffiau
- Un clip papur coch
- Diners, Drive-Ins and Dives
- Paradocs Simpson
- Palas Herrenhausen
- Los Angeles Dodgers
- Pensaernïaeth Faróc Edwardaidd
- Tonkatsu
- Paradocs y morlin
- Cawl cregyn bylchog
- Gêm bywyd Conway
- Only Connect
- We Didn't Start the Fire
- Priodas y Dywysoges Elisabeth a Philip Mountbatton
- Corn Gabriel
- HMY Britannia
- Dilema'r carcharorion
- Iwffoleg
- Peiriant ffa
- Problem darnau arian
- Deddf Little
- Parc Griffith
- Effaith Streisand
- Plymio sgwba
- Bitterballen
- Pensaernïaeth Googie
- Pad Thai
- Sieri
- SS Great Britain
- Coeden rhychwantu leiaf
- Llwybr Hamiltonaidd
- Star-Spangled Banner (baner)
- Kirsty MacColl
- Effaith cobra
- Parks and Recreation
- Banff, Alberta
- Deddfau Lanchester
- Llwybr Euleraidd
- Coridor Vasari
- Pensaernïaeth Art Deco
- Sosej cytew
- Cydran gysylltiedig
- Prifysgol Twente
- Microgenedl
- Effaith hydra
- Moana
- Paradocs Downs-Thomson
- Cities: Skylines
- Damcaniaeth amser rhithiol
- Dwight Yoakam
- Santa Monica, Califfornia
- Effaith Thatcher
- Coron Sant Edward
- Francisco de Zurbarán
- Deddf niferoedd mawr
- Bara banana
- Bragdy Van Honsebrouck
- Synesthesia
- Six (sioe gerdd)
- Jonas Jonasson
- Bomio edau
- Imiwnedd cenfaint
- Manhattanhenge
- Matanzas
- Stroganoff cig eidion
- Bwystfilod y Frenhines
- Judoon
- Tŷ Petersen
- Egwyddor twll colomen
- Cracking the Cryptic
- Twyllresymeg y chwimsaethwr o Decsas
- Baner Mecsico Newydd
- Hafaliadau Cauchy-Riemann
- Koppelpoort
- Rhif Bell
- Cerddoriaeth bachata
- Cydweddiad (damcaniaeth graffiau)
- Theatr Tsieineaidd Grauman
- El Escorial
- Llofruddiaethau Tylenol Chicago
- Nintendo Switch
- Paëla
- Bias goroesedd
- Amrywiant
- Medal Fields
- The Louvin Brothers
- Twll offeiriad
- Ieithoedd Sbaen
- "Deddf niferoedd gwirioneddol fawr"
- Hallgrímskirkja
- Pedwarawd Anscombe
- Matrics
- Lil Nas X
- Carlos, Tywysog Asturias
- Little Shop of Horrors (sioe gerdd)
- Prawf U Mann–Whitney
- Cerddorion Bremen
- Deddfau De Morgan
- Pensaernïaeth Neo-Andeaidd
- Amgueddfa Hanes Mecsico Newydd
- Siboleth
- Theorem gwerth-cymedrig
- Integru fesul rhan
- Seiffr Caesar
- John Mulaney
- Y placiau Pioneer
- Clystyru k-cymedr
- Planet Zoo
- Aladdin (ffilm 2019)
- Teyrnwialen
- Cadair y Coroni
- Diagram dolen achosol
- Fileteado
- Bhaji
- Annibyniaeth (tebygolrwydd)
- Algorithm Dijkstra
- Cyfarfodydd agos
-
mae nifer o honiadau bod nifer o erthyglau Wicipedia mewn rhyw iaith yn cyfrannu’n uniongyrchol tuag at gyllido’r iaith hwnnw (enghraifft, enghraifft), er dwi fethu gweld tystiolaeth o hwn. Ond, mae’r egin hyn sgiwio gallu dehongli’r ystadegyn ‘nifer o erthyglau’ fel mesur o faint Wicipedia. ↩
-
gweler yr erthygl hon am enghraifft. ↩
-
yn fy marn i mae gan Wicipedia Cymraeg bias ‘gwleidyddiaeth hunaniaeth’ - eto, dim ond trwy gyfrannu at y prosiect gall fy agweddau i gael eu cynrychioli. ↩