Hopp til innhold

Maskinoversettelse mellom de nordiske språkene (utkast)

Fra Wikimedia Norge
Denne siden er ikke lenger relevant, og innholdet må regnes som utdatert. Siden beholdes av historiske årsaker.

Maskinoversettelse mellom de nordiske språkene vil gjøre det mulig få langt mer flyt av innhold mellom dansk, svensk, norsk og nynorsk, og det ville bli enklere å gjenbruke gode artikler på de andre språkene. Det finnes en open source motor for å gjøre oversettelser som visstnok har ganske bra resultater. Denne er slik at det er mulig å konfigurere den for forskjellige språk, men selve konfigurasjonsjobben er formidabel. Nokså mye er gjort, men et betydelig arbeid gjenstår. Den mest omfattende jobben er å sette opp ordpar som beskriver hvordan et ord på ett språk oversettes til et annet.

Fremdrift

Fase 0

Se på basisteknologi, sjekke om vi har eller kan få tilstrekkelig finansiering, starte en dialog med Foundation og andre aktører.

Fase 1

Løsningen basere seg på en spesialside som tar en artikkel på ett språk og overfører den til et annet språk på Wikipedia via en shallow transfer engine hvis de nødvendige språkparene eksisterer. Det er ikke noen intensjon om å oversette mellom språk som har stor avstand. Oversetting mellom dansk, svensk, bokmål og nynorsk er innenfor intensjonen. Oversetting mellom engelsk og et nordisk språk er utenfor intensjonen. Det eksisterende datagrunnlaget for Apertium, som er den mest aktuelle motoren, er ikke tilstrekkelig for å få en funksjonell løsning. Det er dermed kun snakk om en teknologidemonstrator.

Fase 2

Wiktionary brukes som en plattform for å bygge opp nødvendige frie underlagsdata. Dette forutsetter noen utvidelser slik at de nødvendige tilleggsstrukturene kan lages som en integrert del av skriveprosessen, og uten å forstyrre de vanlige aktivitetene. Sentrale problemer som må løses er oppbygging av ordbøker, transferleksikon, og omskrivingsregler. Det vil dermed både være tekniske utfordringer og leksikografiske utfordringer.

Fase 3

Se på om det er mulig å støtte vedlikehold på tvers av Wikipedias prosjekter. Hvis en artikkel oppdateres vesentlig på et annet språk, er det da mulig å varsle om dette, eventuelt er det mulig å flagge hvor det finnes oppdatert informasjon på et annet språk. Med en motor for shallow translation virker det som det er mulig å understøtte oversettelse av innhold, mens det med en for deep translation er mulig å understøtte oversettelse av mening.

Metode

Oversettelse av tekst fra ett språk til et annet kan enten skje som en engangsoperasjon eller som en vedvarende prosess. Det siste er helt klart det mest aktuelle, men er relativt komplekst. En slik løsning er også meget aktuell fordi den vil gi dataunderlag for godheten til de enkelte variantene av oversettelser og kan dermed identifisere bestemte problemer i transferleksikonet. Den initielle målsettingen er imidlertid begrenset til en løsning som gjør en enkeltstående oversettelse. Rent teknisk vil dette fremstå som en spesialside hvor en oppgir en kilde og prosjektets eget språk brukes som mål for oversettelsen, eventuelt en kildetekst med et språk og får dette oversatt. Spesialsiden vil da vise den oversatte koden, eventuelt i en preview-mode, eventuelt preview kun på identifiserte (valgte) seksjoner. Skribenten kan så klippe ut de seksjoner som er ønsket og lime inn disse i en ny artikkel, eventuelt som deler i en gammel artikkel.

I utgangspunktet trengs det ordbøker for kilde- og destinasjonsspråkene. Disse hadde det vært fint om kunne lages som en implisitt del av Wiktionary. Mye av disse underlagsdataene trengs ikke i Wikitionarys vanlige bruk og en kan se for seg at de skjules i egne <apertium>-tags. Disse vil kun bli synlige når de aktuelle definisjonene åpnes på en egen spesialside «Special:Apertium». Fordi disse kan bringes inn fra malverk så får en et nokså sterkt makrospråk for å definere ord utfra eksempler. Hvis den aktuelle spesialsiden åpnes uten noe ekstra argument så produseres en komplett ordbok utfra de eksisterende grunnlagsdata, eventuelt etter en ekstra dialog for å begrense lasten i denne nokså tunge prosessen.

Det trengs et såkalt transferleksikon i tillegg til ordbøkene. Dette kan en tenke seg at blir gjort tilgjengelig som ekstra funksjonalitet på de tidligere omtalte sidene, eventuelt som en egen nedlastingsside. Slike transferleksikon er knyttet opp mot to språk, ikke bare prosjektets språk, dermed må en kunne angi det ekstra språket når disse filene skal lages. I og med at også definisjonene til transferleksikonet må legges inn i Wiktionary så kan det være at det trengs et tagsett som identifiserer de forskjellige typene av tilleggsdata slik at de havner i riktig fil.

Det trengs også noen ekstra data som er av mer global natur, og disse kan antakelig defineres i Mediawiki-rommet.

Annet

Det er satt opp et språkpar for no2nn i Apertium sin incubator. Arbeidet har stoppet opp fordi det har vist seg vanskelig å få tak i ordliste for språkene slik at det kan lages et transferleksikon.

Oversettelse mellom bokmål og nynorsk er mest aktuelt for norske forhold, men det er også meget aktuelt å sette opp oversettelse mellom andre nordiske språk. Det er også meget aktuelt å sette opp en løsning for oversettelse for samisk mellom gammel og ny skriftform, men det er relativt lite aktuelt å bruke noe slikt for Wikipedia eller andre av Wikimedias prosjekter.

Se også

Eksterne lenker