Statistisk behandling
Kontaktinfo
Forskning, Teknologi og Kultur, Erhvervsstatistik.Christian Törnfelt
Hent som PDF
Data til denne statistik indsamles via månedlige overførsler af transaktionsdata om styksalg af bøger fra SAXO.com A/S, Indeks Retail (Bog & Idé), Gucca og for de store supermarkedskæder (COOP, Salling og Dagrofa).
Transaktionsdata beriges med information fra DBK, som administrerer Bogportalen og Publizon, således at bøgerne kan klassificeres efter genre, format/medie, udgivelsessprog, originalsprog og indbindingstype. Såfremt disse oplysninger ikke findes for enkelte udgivelser søges disse udfyldt manuelt ved hjælp af forskellige antagelser.
Kilder
Statistikken er baseret på transaktionsdata, som bliver leveret fra SAXO.com A/S, Indeks Retail (Bog & Idé) og Gucca. Hertil bliver der leveret transaktionsdata (stregkodedata) fra kontoret Priser og Forbrug i afdelingen Økonomisk statistik i Danmarks Statistik. Data indeholder alt styksalg af bøger i butikker under COOP, Salling og Dagrofa. Transaktionsdata indeholder bl.a. ISBN-nummeret for den bog, der er blevet solgt, tidspunktet for salget og antallet af solgte eksemplarer ved salgstidspunktet, samt et par enkelte supplerende oplysninger om den bog, som er blevet købt - fx om det er en fysisk bog, e- eller lydbog eller en anden form for vareoplysning, afhængig af dataleverandør.
ISBN-nummeret bruges som nøgle til at berige transaktionsdata med metadata fra DBK (Bogportalen) og Publizon. Oplysningerne i metadata anvendes til at klassificere bøgerne efter genre, format/medie, udgivelsessprog, originalsprog og indbindingstype.
Indsamlingshyppighed
Månedlig dataoverførsel fra dataleverandører.
Indsamlingsmetode
System-til-system-løsning.
Datavalidering
Etableringen af grupperingerne og klassifikationerne ud fra metadata er valideret fra essentielle aktører i bogbranchen og sagkyndige fagpersoner. Derudover sammenlignes data fra kvartal til kvartal. Ved store udsving kontaktes dataleverandør eller metadataleverandør.
Databehandling
Transaktionsdata renses for produkter, som ikke er bøger, fx Printpapir. Derudover fjernes ISBN-numre, der afviger fra den 13-cifrede struktur, som svarer til Bøger. Transaktionsdataene beriges med metadata fra DBK og Publizon. Metadataoplysningerne anvendes efterfølgende til at kategorisere data efter de klassifikationer, der ligger til grund for statistikbanktabellerne. Efter at data er beriget og færdigbehandlet aggregeres data i forbindelse med dannelse af tabeller til Statistikbanken.
Metadata indeholder bl.a. oplysninger om Themakoder, udgivelsessprog, originalsprog, format/medie og indbindningstype (digitalt format for e- og lydbøger). Themakoder er koder i et internationalt klassifikationssystem: THEMA, hvor bøger kategoriseres efter emner. Siden september 2019 er det blevet obligatorisk at klassificere i Thema i Bogportalen og ligeså i Publizon. Ikke alle udgivelser har fået tildelt themakoder på bogportalen, men dækningsgraden bliver højere i takt med, at oplysningerne på Bogportalen bliver opdateret.
Der foretages følgende manuelle rettelser:
Genre
Hvis der mangler Themakoder i metadata anvendes bogbutikkernes varegruppeoplysninger i metadata, som bliver brugt til manuel tildeling af Themakode. Dette sker ud fra fordelingen af Themakoder for titler i den samme varegruppe, hvis denne er sigende (fx Krimi og spænding, Fantasy, Skønlitteratur, Økonomi, Kogebøger, Skole- og lærebøger, Fagbøger for børn etc.). Suppleringen af Themakoder ud fra bogbutikkernes varegruppeoplysninger udgør cirka 1 procent af af salget i alt.
Hvis der mangler metadata om en bog, der er blevet solgt i et supermarked, suppleres der med oplysninger i transaktionsdata fra supermarkederne om de varer, der er blevet solgt. Hvis der under deres vareoplysninger, fx er anført ”Krimier/Thrillere”, så er denne information blevet brugt til at placere bogen i en genre. Denne genreplacering udgør omkring 3 procent af salget i alt.
Læs mere om metoden i dokumentet Genreopdeling ved hjælp af Themakoder.
Udgivelsessprog
Hvis oplysninger om sprog findes i metadata fra DBK anvendes dette. Der kigges på de direkte oplysninger vedr. sprog, men også bogbutikkernes varegruppeoplysninger (varegruppe-tekst) i DBK-data, som også kan indeholde oplysninger om bogens udgivelsessprog. Hvis der ikke findes oplysninger i metadata fra DBK eller Publizon, kigges der på udgivelsesland ud fra ISBN-nummeret, og så antages det, at fx bøger, der er blevet udgivet i England er på engelsk, bøger udgivet i Frankrig er på fransk osv.
Format/medie
Databehandlingen tager udgangspunkt i, at de solgte bøger primært er fysiske bøger. For at sikre korrekt kategorisering af formatet bliver ISBN-numrene valideret ved at sammenligne med metadata fra DBK og Publizon. Hvis metadata indikerer, at der er tale om e-bøger eller lydbøger, bliver formatet rettet tilsvarende. Publizon-data anvendes som en pålidelig kilde til dette, da Publizon er Danmarks største distributør af e-bøger og lydbøger. Derudover inddrages information fra SAXO og Indeks Retail for yderligere verificering. I SAXOs transaktionsdata angiver feltet "TYPE," om produktet er en fysisk bog, e-bog eller lydbog, mens Indeks Retail opdeler deres data i kategorierne "Bøger" og "Lydbøger."
Indbindingstype
I metadata fra DBK er de direkte oplysninger vedr. indbindingstype mangelfulde, derfor tjekkes også bogbutikkernes varegruppeoplysninger i data (varegruppe-tekst), som også kan indeholde oplysninger om bogens indbinding.
Korrektion
Der foretages ikke korrektioner, ud over hvad der allerede er beskrevet under 3.4 Datavalidering og 3.5 Databehandling.