Traslocare bit: dalla nuvola alla casa di proprietà del Giornalaio

Da una par­te c’è un bel blog ospi­ta­to dal­la piat­ta­for­ma WordPress.com, dall’altro un ampio pro­get­to con­di­vi­so che pre­ve­de un blog self-hosted, cioè instal­la­to su una pro­pria mac­chi­na ser­ver a par­ti­re da un CMS (Con­tent Mana­ge­ment System) open-sour­ce, sca­ri­ca­bi­le da WordPress.org. Par­lo natu­ral­men­te del blog Il Gior­na­la­io di Pier Luca San­to­ro e di Data­me­dia­hub, che ave­te davan­ti in que­sto momen­to.

Ma come pas­sa­re da un’installazione all’altra sen­za per­de­re tut­to (o impaz­zi­re)? Scor­da­te­vi il copia-incol­la a mano, par­lia­mo di più di 1800 post pub­bli­ca­ti in poco meno di cin­que anni di atti­vi­tà. E comun­que la rego­la aurea rima­ne sem­pre la stes­sa: “se devi fare una cosa più di una vol­ta, fal­la fare al com­pu­ter”. Li abbia­mo costrui­ti per que­sto, no? Per for­tu­na Word­Press met­te a dispo­si­zio­ne otti­mi stru­men­ti di gestio­ne del pro­prio blog, per cui seguen­do una pro­ce­du­ra abba­stan­za linea­re è pos­si­bi­le effet­tua­re la migra­zio­ne con suc­ces­so e in poco tem­po.

Il pri­mo pas­so? Ricer­ca libe­ra su inter­net! Sem­bra bana­le, ma è il modo con cui tro­va­re il 99% del­le rispo­ste di cui si ha biso­gno, soprat­tut­to se si trat­ta di que­stio­ni tec­ni­che che riguar­da­no il web stes­so. Il restan­te 1% è com­po­sto da ciò che risol­ve­re­mo da soli, in manie­ra ori­gi­na­le, e che auspi­ca­bil­men­te con­di­vi­de­re­mo con il resto del mon­do… andan­do così ad arric­chi­re quel 99% di qual­cun altro in cer­ca di rispo­ste. Nel nostro caso ho sem­pli­ce­men­te cer­ca­to “tra­sfe­ri­men­to da wordpress.com a wordpress.org” su Goo­gle…

Ho così tro­va­to e segui­to l’otti­ma gui­da di Dario Vigna­li, pub­bli­ca­ta a feb­bra­io ma per­fet­ta­men­te ade­gua­ta anche al nuo­vo Word­Press 3.8.x (al momen­to sia­mo arri­va­ti al rila­scio del­la ver­sio­ne 3.8.1). La stra­te­gia è sem­pli­ce: la piat­ta­for­ma per­met­te di sca­ri­ca­re mate­rial­men­te tut­ti i con­te­nu­ti di un blog in un for­ma­to XML par­ti­co­la­re, chia­ma­to WXR. Tut­to in un sin­go­lo file ben strut­tu­ra­to, che con­tie­ne sia i dati che i meta­da­ti (cate­go­rie, tag, auto­ri ecc.). C’è da dire che se il blog da tra­sfe­ri­re è mol­to gran­de, il prin­ci­pa­le pro­ble­ma sor­ge nel momen­to in cui si cer­ca di reim­por­ta­re il file WXR nel nuo­vo sito, per­ché è neces­sa­rio cari­ca­re un file a vol­te trop­po gran­de (i web ser­ver han­no spes­so dei limi­ti abba­stan­za strin­gen­ti per il cari­ca­men­to dei file) e che richie­de trop­po tem­po per esse­re ela­bo­ra­to.

La solu­zio­ne pro­po­sta da Dario è un soft­ware per Win­do­ws dal nome scon­ta­to, Word­Press WXR File Split­ter (“Ripar­ti­to­re di File WXR di Word­Press”), che per­met­te appun­to di sepa­ra­re il file trop­po gran­de in por­zio­ni più pic­co­le e gesti­bi­li, sen­za distrug­ge­re la strut­tu­ra inter­na del file (che è un sem­pli­ce XML, quin­di pote­te aprir­lo e leg­ger­lo con un qual­sia­si edi­tor di testo). A que­sto pun­to basta cari­ca­re i sin­go­li file uno dopo l’altro e l’importazione com­ples­si­va va a buon fine. Que­sto è il caso in cui la stra­te­gia divi­de et impe­ra fun­zio­na alla gran­de.

Va tenu­to pre­sen­te, poi, che l’importer è in gra­do di capi­re se il con­te­nu­to che sta impor­tan­do è già pre­sen­te o meno, per cui non ci sono pro­ble­mi di dupli­ca­zio­ne o sovra­scrit­tu­ra. Se il pro­ces­so si doves­se inter­rom­pe­re bru­sca­men­te per un qual­sia­si moti­vo, basta rico­min­cia­re con lo stes­so file: tut­to ciò che era già sta­to impor­ta­to sarà igno­ra­to. Anche l’ordine di impor­ta­zio­ne è indif­fe­ren­te: quel­lo che con­ta è la data di pub­bli­ca­zio­ne dei sin­go­li con­te­nu­ti, non l’ordine con cui si impor­ta­no.

Per chi non guar­da fine­stre quan­do è al com­pu­ter, c’è un sem­pli­cis­si­mo script in python che da linea di coman­do sepa­ra il file ori­gi­na­le in un nume­ro fis­so di par­ti. Per non per­de­re tem­po, per­so­nal­men­te ho fat­to così: ho cari­ca­to il file com­ple­to, aspet­tan­do una deci­na di minu­ti. Poi il pro­ces­so si è inter­rot­to per un qual­che moti­vo igno­to, ma ave­va impor­ta­to quat­tro quin­ti dei post (l’ultimo post cari­ca­to risa­li­va a cir­ca un anno fa). L’ho veri­fi­ca­to facil­men­te, cer­can­do nel file WXR il tito­lo dell’ultimo post impor­ta­to: era in una riga a cir­ca 4/5 del file! Ho usa­to quin­di lo script sud­det­to per spez­za­re il file in 10 par­ti. Ho ricer­ca­to il tito­lo ed era fini­to nel nono file. Ho dovu­to così impor­ta­re solo il nono e il deci­mo file per com­ple­ta­re il pro­ces­so.

Ma nel frat­tem­po Pier Luca ave­va scrit­to altri post su Il Gior­na­la­io! Nes­sun pro­ble­ma: ho sca­ri­ca­to nuo­va­men­te l’archivio dal blog, que­sta vol­ta limi­tan­do­mi ai soli ulti­mi post. Poi ho cari­ca­to il nuo­vo file e inte­gra­to l’archivio di Data­me­dia­hub.

Ulti­mo pas­sag­gio, il tra­sfe­ri­men­to del domi­nio da http://giornalaio.wordpress.com a http://www.datamediahub.it. Word­Press ha una piat­ta­for­ma di bil­ling per ven­de­re rapi­da­men­te alcu­ni ser­vi­zi tra i qua­li pro­prio que­sto (costo 13 dol­la­ri l’anno), che eli­mi­na ogni disa­gio a chi ave­va in pas­sa­to lin­ka­to il blog del Gior­na­la­io (per esem­pio citan­do un suo arti­co­lo in un post sul pro­prio blog), man­te­nen­do vali­di anche i vec­chi indi­riz­zi. È sta­ta neces­sa­ria però una pic­co­la accor­tez­za, oltre all’attivazione del ser­vi­zio di Redi­rect di WordPress.com: lascia­re iden­ti­ca la strut­tu­ra degli indi­riz­zi degli arti­co­li, in modo da limi­ta­re il cam­bio al solo domi­nio. Così il post che pri­ma si chia­ma­va http://giornalaio.wordpress.com/anno/mese/giorno/nome_dell_articolo_1 ora si chia­ma http://www.datamediahub.it/anno/mese/giorno/nome_dell_articolo_1. Le impo­sta­zio­ni che riguar­da­no la strut­tu­ra degli indi­riz­zi dei post sono nel­la pagi­na di ammi­ni­stra­zio­ne del blog, sot­to la voce Impo­sta­zio­ni > Per­ma­link. Se qual­cu­no ha avu­to comun­que pro­ble­mi con i vec­chi link agli arti­co­li del Gior­na­la­io può man­da­re una mail a info@datatamediahub.it.

Buon tra­slo­co!

Alessio Cimarelli

Data scientist at Dataninja
Giornalista free-lance e sviluppatore web. Dopo la lau­rea in fisica all’Università Sapienza di Roma ha con­se­guito il master in Comunicazione della Scienza alla SISSA di Trieste e ha comin­ciato a girare l’Italia, tra gior­na­li­, uffici stampa e ricerca pura. Co-fondatore di dataninja.it, attualmente collabora con varie testate ita­liane (Corriere della Sera, Secolo XIX, Wired) e alcune agen­zie edi­to­riali in ambito di svi­luppo web e data jour­na­lism. Mem­bro della comu­nità Spaghetti Open Data, ormai scrive quasi più in java­script e python che in ita­liano o inglese.
About Alessio Cimarelli 10 Articoli
Giornalista free-lance e sviluppatore web. Dopo la lau­rea in fisica all’Università Sapienza di Roma ha con­se­guito il master in Comunicazione della Scienza alla SISSA di Trieste e ha comin­ciato a girare l’Italia, tra gior­na­li­, uffici stampa e ricerca pura. Co-fondatore di dataninja.it, attualmente collabora con varie testate ita­liane (Corriere della Sera, Secolo XIX, Wired) e alcune agen­zie edi­to­riali in ambito di svi­luppo web e data jour­na­lism. Mem­bro della comu­nità Spaghetti Open Data, ormai scrive quasi più in java­script e python che in ita­liano o inglese.

Commenta per primo

Lascia un commento