Diskusjon:Wikistipend/Bedre sitat-funksjon

Fra Wikimedia Norge

Lite spørsmål

@Jeblad: Dette virker som et nyttig prosjekt, men bare for å være sikker på at jeg har forstått det riktig: Det er bare direkte sitater du skal sjekke? Og så lurer jeg litt på hvordan du planlegger å identifisere noe som et direkte sitat, og om du har et anslag på hvor mange sitater det er på nowiki som kan sjekkes med metoden din? Danmichaelo (diskusjon) 2. mai 2016 kl. 20:35 (CEST)[svar]

Det her er en fortsettelse av et tidligere forsøk på å ta et eksplisitt teksteksempel og sjekke om dette finnes i en ekstern kilde. «Sitat» er her brukt om en tekst som er merket med en <quote> tagg, hvor taggen har et kildeattributt src. Innholdet i denne taggen er teksteksempelet som skal sjekkes mot den eksterne kilden.
Opprinnelig var teksteksempelet på formen [E]sse cillum dolore […] fugiat nulla pariatur, som hvis det sjekkes mot en påstått kilde [1] ville blitt angitt som «sant». Hvis isteden den påståtte kilden er [2] så vil en få tilbake «usant». Den opprinnelige løsningen hadde i prinsippet kun ett erstatningsmønster, men dette ble oversatt litt forskjellig gitt plassering.
Hvorvidt noe var sant eller usant kan angis på litt forskjellig vis, men en aktuell metode er å manipulere hvordan sitatet vises frem. Det er flere andre måter, men de må nødvendigvis være så enkle at brukere flest skjønner hva som skjer.
Teksten trenger ikke egentlig være et sitat av noe en person sier, det kan være et vilkårlig tekstutdrag. Dette blir spesielt interessant hvis tekstutdraget som angis er grunnlaget for et utsagn. Ta den for eksempel artikkelen om w:no:Alf Prøysen på bokmålsutgaven. Her kan det lages et sitat for en referanse for en tekst «Da Alf var liten, het han Alf Olafsen.» og anta at vi ønsker en referanse til teksten «Alf Prøysen, den gang Alf Olafsen, ble født 23. juli 1914 på husmannsplassen Prøysen i Ringsaker.»[3] Her vil vi da skrive dette som
Da Alf var liten, het han Alf Olafsen.<ref>[http://www.proysenhuset.no/biografi.345814.no.html Prøysenhuset: Alf Prøysen &ndash; Biografi]; <quote src="http://www.proysenhuset.no/biografi.345814.no.html">Alf Prøysen, den gang Alf Olafsen, ble født 23. juli 1914 på husmannsplassen Prøysen i Ringsaker.</quote></ref>
==Referanser==
<references/>
Da Alf var liten, het han Alf Olafsen.[1]
Referanser
  1. Prøysenhuset: Alf Prøysen – Biografi; Alf Prøysen, den gang Alf Olafsen, ble født 23. juli 1914 på husmannsplassen Prøysen i Ringsaker.
Hvis sitatet feiler så kan vi gi det en gul bakgrunnsfarge og eventuell annen markering. Dette er omtrent så langt som jeg kom med den opprinnelige koden. Litt senere stoppet arbeidet ved koden som gjør senere kontroller av den siterte teksten. Hvis testen endrer tilstand så skal merkingen av sitatet oppdateres, og dette fordrer en purge av artkkelen.
Egentlig er dette bare starten på hva som bør på plass, blant annet bør det inn tracking categories på feilede sitater, slik at feil blir sporbare. Det her gjør det også mulig å vite når en bør skifte fra å bruke originalkilden og til å bruke en arkivkopi (WebCitation, WebArchive, eller Atekst).
Bruk av et slikt tekstutdrag er innenfor sitatretten, selv om vi ikke har lov å sitere et helt verk. Vi vil antakelig ikke ønske å sitere for mye fordi det vil fylle opp vår artikkel. Vil vil antakelig ønske å bruke mer tekst enn i det tidligere eksempelet, spesielt hvis vi gjenbruker en referanse flere steder. I disse tilfellene vil vi antakelig ønske å skjule det fulle sitatet.
Merk at formålet med forslaget er ikke å lage en fullt ut fungerende løsning, men å se om koden er tilstrekkelig til at dette prosjektet kan sparkes igang på noe vis. Det er en god del arbeid bare med å ferdigstille kode som skal i produksjon, og det er ikke klart om den vil oppfattes som god nok. Det er mange tillegg en kan tenke seg, ikke minst implisitte sitater. Dette er sitater som ikke er merket, men hvor en vet utfra plasseringen til referansemerket og tegnsetting hva en ønsker å verifisere. Slik verifikasjon kan bli mulig, men er utenfor forslaget. Jeblad (diskusjon) 3. mai 2016 kl. 23:30 (CEST)[svar]
Det kan se ut som om alt må nyskrives, dermed tar det nok vesentlig lengre tid enn anslått. Jeblad (diskusjon) 5. mai 2016 kl. 15:02 (CEST)[svar]
Automatisering av faktasjekking ved å sammenligne tekst på to ulike nettadresser har jo stort potensiale til å luke ut feil, sitatfusk og utdatert informasjon. I sona mellom helt manuell kildesjekk (som i dag) og helt automatisert (midlertidig utopisk) er det mange smarte løsninger som ikke har vært prøvd. Å kunne bidra (økonomisk) til at det blir testet ut noen nye metoder for å få erfaringer som senere kan videreutvikles vil kunne ha svært stor nytte! Det er neppe mange i Norge som har bedre kompetanse enn Jeblad til å lage et programmatisk løsning for sitatsjekk. Men likevel føler jeg meg ikke overbevist om at dette løsningsforslaget er enkelt nok løsbart eller adresserer de mest prekære bruksbehovene for sitatsjekking. Ut fra beskrivelsen gitt her virker det som om du forsøker å løse vel mye på en gang. I prinsippet har det jo visse likheter med plagiatsjekkprogramvare, som jo har svært avanserte og ressurskrevende å videreutvikle. (med forbehold om at jeg ikke helt har skjønt løsningsforslaget)
Eksempel: Utsagn av typen "Jens J. Hjort er ordfører i Tromsø" vil være sant hvis det sjekkes mot et sitat i en aviskilde fra 2014, men usant om det hadde stått i en gjeldende versjon av en Wikipedia-artikkel. En kommune-nettside med ordførere vil jo gi falsk utslag for feil når den oppdateres, selv om en opplysning i Wikipedia egentlig refererer til hvem som er ordfører i 2014, ikke nå...osv...
Det er jo mange initiativ for å cache eksterne lenker for å sikre verifisering for fremtiden, gjerne som er viderebruk av archive.org sin indeksering. (Siste initiativ aberlink.org fra Berkman-senteret). Ellers kan jo behov for å verifisere mot særnorske tekstarkiv som Retriver/Atekst og Bokhylla rettferdiggjøre at det legges ned ressurser på et særnorske tekniske løsninger for verifisering av eksterne lenker på Wikipedia.
Er mulig å isolere et avgrenset subsett av sitatsjekkproblemer som isolert sett er enklere løsbart slik at det testes ut lettere?
Er det mulig å skrive om prosjektforslaget til et litt mindre ambisiøst forlag som løser et mer avgrenset del av sitatsjekkproblematikken? I såfall hadde jeg med entusiasme anbefalt.
H@r@ld (diskusjon) 12. mai 2016 kl. 13:54 (CEST)[svar]
Er litt usikker på om jeg og H@r@ld beskriver det samme opprinnelige problemet, men det virker som H@r@ld foreslår at jeg skal lage en enklere utgave som er tett på det som var planen. Det jeg har foreslått er kontroll av hvorvidt en oppgitt tekst stemmer overens med en kildetekst. Det kan virke som om det leses inn et helt annet ambisjonsnivå i forslaget enn det som faktisk er beskrevet.
Forslaget er å ta en tekst som er brukt for å understøtte en gitt referanse, og som finnes som del av en kildemal, og sammenligne denne med den oppgitte kilden, for å se om det har oppstått avvik. Hvis det er avvik så kommer dette enten av sitatfusk eller av at kilden er endret. Begge deler medfører at sitatet ikke lengre kan underbygges med oppgitt kilde.
Jeg har ikke foreslått uttrekk av fakta for faktakontroll, dette er et langt vanskeligere problem. Dette er vanskelig fordi det forutsetter en fungerende tekstanalyse på det aktuelle språket. Vet ikke om noen jobber aktivt med dette problemet. Det er vanskelig, men ikke uløsbart. Ren faktasjekk kan løses via statistisk analyse av funn på nettet (Information extraction, Template filling). Jeg har heller ikke foreslått arkivering av kilden, det finnes allerede flere slike prosjekt. Såvidt jeg husker så er ett av dem i regi av Collab-prosjektet. Det finnes også et community-initiativ, m:Community Tech/Migrate dead external links to archives. Jeg har heller ikke foreslått at løsningen skal interagere med en søkemotor for å finne lignende utsagn, aka plagiatkontroll. Det finnes allerede et prosjekt for dette, men det er uklart om det vil bli tatt i utstrakt bruk. Finnes en beskrivelse på Meta, m:Community Tech/Improve the plagiarism detection bot. For noen år siden skrev jeg en tilsvarende om enn noe enklere løsning, men den er nok litt mindre gjenbrukbar. Denne er beskrevet på m:Grants:IdeaLab/Copyvio Detection. Jeblad (diskusjon) 12. mai 2016 kl. 14:17 (CEST)[svar]
Jeblad: Beklager, men jeg er fortsatt litt usikker på akkurat hva du beskriver. Forstår jeg det riktig at du ser for deg (i første omgang) å kun sjekke sitater merket med <quote>-taggen? Som ikke er i bruk i dag? Eller også eksisterende sitater, f.eks. sitater merket med {{sitat}}? (jeg vet ikke hvor mange av disse som er enkle å koble til en URL) Og kunne du utdypet litt hva du legger i «Ferdigstille arbeidskøen»? Hva konkret ser du for deg kan være klart når prosjektet er ferdig? (altså dette konkrete prosjektet med den skisserte prosjektplanen) Noe som vanlige bidragsytere på Wikipedia kan dra nytte av? Noe som kan benyttes for å sjekke eksisterende måter å sitere på? Danmichaelo (diskusjon) 22. mai 2016 kl. 23:43 (CEST)[svar]
Et sitat i den her sammenhengen er en tekst som er kopiert inn fra en ekstern kilde for å brukes som grunnlag for en påstand. Hvis den lokalt kopierte teksten ikke er lik teksten på den eksterne kilden så mangler grunnlaget for påstanden. Det finnes ingen quote-tagg i dag, men skal en løse problemet så trengs en metode for å merke tekst. Hvorvidt sitatet er tagget i den løpende teksten, eller er en parameter i en kildemal, eller en sitat-mal er likegyldig.
Kontrollen mot den eksterne kilden kan ikke gjøres momentant, for hvis det eksterne nettstedet ikke svarer i tide så oppstår det en uheldig trafikk-kork. For å organisere slike jobber så brukes det egne jobb-køer, det er de samme som brukes under kategorisering for eksempel. Koden for arbeidskøen er det som er vanskelig i prosjektet.
Før prosjektet er ferdigstilt så tviler jeg på om noe av dette kan brukes til noe annet. Jeg kan i alle fall ikke se se noe bruksområde.
En tidligere beskrivelse av prosjektet finnes på mw:User:Jeblad/Quote. Denne er noen år gammel, men det gir vel litt mer bakgrunnsifo. (Egen note: Dette er på heimdal, katalogene Workspace/Citation og Workspace/Quote, og på GitHub: jeblad/Quotation.)
Ren merking av sitert tekst er noe jeg holder på med i et annet prosjekt. Står noe om det på mw:User:Jeblad/Help:Extension:UniversalLanguageSelector/Input methods/no-normforms og w:no:Bruker:Jeblad/IME. (Egen note: Dette er på hydra, katalogene IME og ime*, og på GitHub: jeblad/jquery.ime.) Dette involverer eksterne biblioteker, så det er ikke engang sikkert at det vil bli tatt ibruk på wikipesjektene til WMF, selv om jeg er ganske sikker på det. IME er en del av ULS, som er en utvidelse som bruker på WMF sine prosjekter. Jeblad (diskusjon) 23. mai 2016 kl. 01:06 (CEST) [Oppdatert jan og feb 2017][svar]
Jeblad: Takk, nå henger jeg med, det hadde hjulpet å ha med lenka til no:User:Jeblad/Quote fra begynnelsen av (selv om jeg antar at du også vil frigjøre deg fra det gamle prosjektet). Men da synes jeg det virker som utfordringen her blir å kunne vise til at prosjektet faktisk støtter opp om ett eller flere av wikimedia-prosjektene når maks søkesum egentlig ikke er stor nok til å kunne ta prosjektet frem til noe som faktisk gjør det. Right? Du har ikke et litt mindre prosjekt i skjorteermet? Ellers kan det være et forprosjekt kunne vært en idé, som du skriver under, men jeg tror dessverre ikke det er noe det kan gis støtte til. Danmichaelo (diskusjon) 24. mai 2016 kl. 16:19 (CEST)[svar]

Presiseringer om forslaget

Det virker for meg som om det er såpass mye spørsmål om hva dette prosjektet, og hvorfor det bør gjøres, at muligens bør det isteden gjøres et forprosjekt på å klargjøre hva forslaget går ut på. I et slikt prosjekt kan det skrives forklaringer og og lages eksempler som i tilstrekkelig grad gir svar på spørsmål. Nå har jeg vel en sterk følelse utfra innspillene ovenfor at prosjektet er tolket på en ganske annen måte enn det som lå i det opprinnelige forslaget. Et forprosjekt kan brukes som grunnlag for et senere grant fra WMF. Jeblad (diskusjon) 23. mai 2016 kl. 20:19 (CEST)[svar]

Svar på søknad

Hei, Takk for søknad og svar på spørsmål fra tildelingskomiteen. Dessverre så ser ikke tildelingskomiteen tydelig hvordan prosjektet som er foreslått støtter opp om ett eller flere av Wikimedia-prosjektene. Om du har andre prosjektideer som faller inn under tildelingskriteriene, så håper vi du vil søke på nytt! --WMNOastrid (diskusjon) 1. jun. 2016 kl. 13:14 (CEST)[svar]

Takk for svar. Jeblad (diskusjon) 8. jun. 2016 kl. 13:59 (CEST)[svar]