Category: API

Skjermskudd av side

Har av olika anledningar tittat mer på E-plikt senaste tiden. I korta drag innebär e-plikt att vissa utgivare av digitalt material måste, från och med 1 januari 2015, leverera kopior av sitt material till Kungliga biblioteket. Lite som allt tryckt publicerat material görs idag.

Tanken är inte att gå in på detaljer runt e-plikt i denna posten men i samband med att jag undersökte en del andra saker hittade jag en cool produkt som kan skapa previews av webbsidor serverside. Min tanke var att som en del av leveransen skicka med en preview av sidan till Kungliga biblioteket. Detta skulle ge texterna ett ökat värde då den sattes i sin kontext. Tycker det skulle ge ett större historiskt värde över tid. Men detta är alltså inget krav i förhållande till e-plikt.

Lösningen som jag hittade, via min kollega Peder, heter PhantomJS. Man skulle kunna säga att det är en serverbaserad webbläsare utan GUI. Sjukt oanvändbart kan man tycka då en webbsidan är ganska visuell. Men poängen i vårt fall är att vi alltså kan tolka en webbsida och sedan skriva resultatet till en bild. På så sätt kan vi löpande ta snapshots av en webbsida. Det är inte ovanligt att en webbsida ändras flera gånger per dag eller framvisas på olika sätt för olika användare. Att kunna simulera den typen av situationer och automatisera det är ganska användbart.

Efter att ha installerat PhantomJS började jag bygga en lösning där vi tar snapshots på de sidor som genererat mest buzz senaste timmen i sociala medier i Norge och som vi sedan presenterar på Frekvent.no (läs mer om Frekvent.no).

Går ni in på Frekvent.no och klickar på valfri “Skjermskudd av side” länk får ni alltså upp hela sidan som den såg ut när den delades på Facebook. Nu ser ni vad jag menar med att visa texten i rätt kontext.

Den uppmärksamma noterar säkert att fonterna på snapshotsen är fel. Detta beror på att jag inte installerat de vanligaste fonterna på servern. Om inget annat kan siteägare använda sånt här för att visualisera hur deras site ser ut med olika fonter också.

"Skjermskudd av side" ger en ögonblicksbild av hur sidan såg ut när den delades som mest på Facebook.
“Skjermskudd av side” ger en ögonblicksbild av hur sidan såg ut när den delades som mest på Facebook.

Upphovsrätt
Grundtanken med siten är att erbjuda möjligheten att snabbt få en översikt över vad som diskuteras i Norge just nu. Är där något man vill läsa mer om klickar man sig tillbaka till originalsidan.
Fram tills nu har vi enbart använt data (texter + bilder) som tidningarna själv valt att dela (OG taggar). Därmed bryter vi, mig veterligen, inte mot upphovsrättslagen. Men när vi nu tar en snapshot tar vi mer än vad upphovsmannen haft som intention att dela. Därmed kan användaren läsa hela artikeln utan att besöka originalsidan.
Mina tester visar alltså att det är fullt möjligt att maskinellt lagra kopior av sidor löpande men kommer av ovan nämnda anledning att ta bort funktionen från siten inom de närmsta dagarna.