Descripcions, classificacions, errors tolerables i intolerables
Els de Quaderns fa dies que s’esbatussen amb el bcnbits, sobretot, i també amb ~bitsenbloc, perquè els primers pretenen que els blocs es poden classificar (i 2) com si estiguéssim parlant de tipus d’arròs.
Classificar i descriure
Almenys reconeixent que hi ha massa blocs per fer una classificació completa, els de Quaderns es veuen capaços de classificar tots els blocs. Quan algú et diu que ho sap tot d’Internet, desconfia. A ells els manca tanta modèstia que tenen resposta per a tot. Si els dius, per exemple, que un mateix bloc tracta temàtiques diverses ells et contesten que al final sempre un tema predomina. Espero que el meu no acabi essent així…
Pels de Quaderns classificar és a igual a descriure. S’assembla perquè els trets que assignem quan descrivim les coses no deixen de ser classificacions, però a mi no em sembla el mateix. Quan descrius el que fas és escollir els trets més característics i, és clar, això és una operació molt simplificadora. Però pots anar afegint més i més elements a la descripció per anar reduint la distància entre els conceptes utilitzats per descriure i la cosa descrita. Això és el que els tags fan molt i molt bé.
Classificar és escollir un conjunt de categories mútuament excloents i descriure les coses utilitzant aquests elements. Això és com descriure amb una sola paraula. Moltes vegades s’utilitzen classificacions ortogonals (per exemple: cercle vermell, quadrat blau…) per millorar-ho una mica però en essència és el mateix.
Les classificacions són extremadament costoses de fer, s’han de pensar els elements perquè siguin molt descriptius i a la vegada discriminin molt (no té cap sentit fer una classificació que agrupi 3 elements en un grup i 1000 en l’altre). Aquest “haver-ho de pensar” les fa terriblement estàtiques i, en la meva opinió, són el complement perfecte del paper escrit. Això és pel simple fet que acostumen a tenir una dimensió i això és la manera natural d’encabir les coses en un llibre (i de buscar-les).
Gràcies als ordinadors i a les xarxes, però, ara hi ha moltes maneres més d’ordenar la informació. I el fet que siguin sistemes dinàmics fa molt fàcil recuperar la que ens interessa. Alguns d’aquests conceptes tenen traduccions molt imperfectes en els llibres, com els índexs.
Em pregunto, per exemple, si tenint els ordinadors com tenim ara hauria estat necessari establir una classificació d’animals i plantes. La necessitat d’això venia donada per poder-les descriure fàcilment en un món de paper. I moltes vegades les famílies venen donades per alguns trets ben estúpids. Però és summament artificial i amb els ordinadors es poden trobar altres maneres de fer-ho.
Al cap i a la fi, la mare dels ous està en quin marge d’error és tolerable. Els de Quaderns ara mateix imagino que em col·locarien a Tecnociència. I amb això es deixarien més de la meitat dels posts que porto per ara i ja veureu quan comenci a parlar de política. La diferència és si aquest error (que potser acabi essent del 50%) és tolerable o no. Un cop arribats a aquest punt, a bcnbits diuen que l’error aquest és intolerable i els de Quaderns que sí.
Una mica de pragmatisme
Si en William James aixequès el cap s’estiraria els cabells. Això sembla l’eterna lluita entre racionalistes i empiristes. Però el que falta aquí és el més important: quin sentit té parlar sobre si es poden classificar els blocs sense tenir en compte si això és útil o no. Per a què ho volem? En tot l’apartat “Sobre la necessitat de classificar blogs” que apareix en aquest post a Quaderns, i mira que és llarg, només hi he trobat el següent:
Una classificació dels blogs hauria de fer una funció semblant a la d’un mapa de la blogosfera. Ens podria interessar saber, per exemple, si els blogs més llegits i comentats són diaris personals seguits per grups reduïts de lectors, o blogs d’organitzacions locals, entre altres possibilitats. O quin és el tipus més i menys freqüent de blog, i si es correspon amb el més o menys llegit, etcètera.
Si volem fer un directori classificat de blocs, per exemple, quina utilitat té classificar-los en només 10 grups si a cada grup n’apareixeran milers (bé, ara encara no però aviat sí). A més, en aquest cas, si algun post és de difícil classificació cal deixar-lo fora i fer un índex incomplet, no perquè encara no els has trobat tots, sinó perquè els deixes a fora expressament. Al usuari del directori (que segurament serà nou a la blogosfera) tant li és si has posar un bloc en la categoria “Personal” perquè no sabies on coi més posar-ho. Allà, busca un determinat tipus de bloc i tot el que no hi encaixa sobra.
Si es vol per motius estadístics doncs no entenc perquè ho hem de fer així. Sincerament, amb el marge d’error que suposa el fet que tenir una classificació completa és impossible (que repercuteix directament al resultat final) segurament podem utilitzar eines automàtiques de detecció del tipus de bloc, basades en paraules clau.
Per cert, m’agradaria que algú es dediqués a fer clustering utilitzant freqüències de paraules o alguna cosa semblant, per veure si realment existeixen tipologies de blocs o no.
El que està bé, però, és que al capdavall el Quaderns ha fet un bon servei a la blogosfera en català; és el primer cop que veig una discussió d’aquesta mena entre blogs. Sembla que ens fem grans.
(un altre dia potser continuo amb la part pragmàtica de tot plegat, però es fa tard i aquest post és molt llarg)

February 20th, 2005 at 20:41
[…] la internacionalització. L’altre dia a bcnbits, per exemple, a propòsit de tot el problema de les classificacions que ha causat una certa pol·lèmica en els nostres blocs (amb descalificaci […]
February 23rd, 2005 at 03:05
[…] Filed under: General — jmones @ 04:03
Buf! Avui no puc fer com l’altre dia, que intentava criticar matitzant, apropant-me des de la distància. Potser no l’hauria de c […]