Wikistipend/Bedre sitat-funksjon

Fra Wikimedia Norge

status avvist

Bedre sitat-funksjon
Hvordan lage sitater som sjekkes mot eksterne nettsider, og som gir varsel når sitatet inne på Wikipedia ikke stemmer overens med den eksterne kilden.
søker(e)

startdato

  • 1. mai 2016

sluttdato

  • 22. mai 2016

sum

  • NOK 8000

opprettet 26. april 2016

Prosjektbeskrivelse

Prosjektet går ut på å lage en funksjon for å sjekke om sitater brukt på Wikipedia er i overensstemmelse med den faktiske teksten som er brukt på eksterne nettsider. Fordi mengden innhold som må sjekkes akkumulerer, mens antall brukere som sjekker innholdet er konstant, og endringsraten på eksterne sider er konstant, så blir det et misforhold. Antall ønskede kontroller øker mens antall kontrollører er konstant. Over tid gir dette et fall i kvalitet.

Vi kan automatisere kontroller av sitater ved at det lages en funksjon som inneholder sitatet og som også har en henvisning til hvor sitatet kom fra. Hvis kilden for sitatet er en ekstern nettside så kan sitatet sjekkes automatisk. Vårt sitat er nålen i en høystakk, hvor vi merker artikkelen som feilet om vi ikke finner den.

Rent teknisk skjer dette ved at sitatet skrives om til et såkalt regulæruttrykk, som så sjekkes mot en rensket tekst fra nettsiden. Hvis vi ikke finner igjen sitatet så merkes det og artikkelen legges i en kategori for feilede artikler.

Prosjektplan

Prosjektet vil bygge på noen forberedende studier som ikke er avsluttet, men det er rimelig klart at løsningen er gjennomførbar. Det er allerede et månedsverk i prosjektet og rundt et månedsverk gjenstår. Eksisterende prosjekt er noe utdatert, så noe oppdatering må påregnes.

  1. Identifisere hva som kan brukes av eksisterende prosjekt og hva som må oppdateres (ble utviklet for MW 1.23 -ish)
  2. Avgjøre hva som er tilstrekkelig kontrollrate, og om dette er gjennomførbart gitt at vi cacher nokså aggressivt (vi ønsker hyppige kontroller av sitater, men cacher artikler i flere måneder)
  3. Avgjøre om vi kan bruke en nokså enkel strategi for å merke avvik i sitater, eller om vi trenger noe mer avansert (eksisterende kode bruker kun hellip innenfor hakeparentes for å angi en erstatningsstreng)
  4. Ferdigstille arbeidskøen (største del av arbeidet)

Prosessen med å gjennomføre review og ferdigstilling er ikke med da dette er en nokså langvarig prosess.