activitats al voltant de les dades obertes aquest 2014

dintre de l’exposició “Big Bang Data” organitzada pel CCCB, aquest 2014 farem unes quantes activitats que poden ser del vostre interés. Tornarem a fer una nova edició del curs d’introducció a les dades obertes i la complementarem amb quatre tallers pràctics on jugarem amb diferents conjunts de dades.

Tot i que encara falta força temps, reserveu-vos les dates!!!

http://bigbangdata.cccb.org/curs-introduccio-a-open-data/ 

Categories: training

Some D-I-K-W about open data

OPEN DATA

___________________________________

data is the new oil – Clive Humby

data is the new soil – David MacCandless

We live in the information society or the knowledge one, both used indistinctly. Nevertheless, both information and knowledge are the refined result of processing raw data, the real oil (and soil) of our modern society. Information and Communication Technologies and users interacting with it generate huge amounts of data, allowing us to capture, store, process, analyze and visualize them, extracting information and knowledge useful for a wide range of purposes. Most of these data, though, are managed by large corporations and administration, without being truly accessible to citizens. The movement toward the concept of “Open Data” tries to establish the basis for creating and sharing data that can be of interest to citizens, taking into account technological, legal, ethic and other deeply interconnected aspects. We would like to discuss about the origins of the Open Data movement and its pioneers, some basic definitions about “open” but also “data” as well as the most important abovementioned aspects. We want also to introduce the concept of Big Data, one of the real hypes nowadays, as the result of the multiplication of different factors (space, time, number of elements, …) that create data sets completely out of comprehension.

___________________________________

WHAT is Open Data?

  • What is OPEN?
  • What is DATA?
    • Example: 42
    • Data – Information – Knowledge – Wisdom: the D-I-K-W pyramid
    • Structured:
      • Flat:
        • Sequences (1D)
        • Tables (2D, 3D, …)
        • Images (2D/3D x 1..N channels)
      • Hierarchical:
      • Relations: RDF
    • Semi-structured:
      • Text documents: characters, words, lines, paragraphs, pages, chapters, …
      • Web pages: HTML
  • What is BIG (Open) Data?
    • The result of multiplying three factors (the 3 V’s):
      • Volume: how many samples?
      • Variety: how many variables?
      • Velocity: how many changes?
    • Where and who does generate big data sets:
      • Citizens in social networks: Facebook, Twitter, …
      • Citizens in real life: VISA, telecommunications companies, Bicing, …
      • Administration gathering data from users
      • Sensor networks: temperature, traffic, pollution, …
    • Examples:
      • Wal-mart: 8500 stores, thousands of goods, 10^8 consumers / week
      • CERN’s Large Hadron Collider (LHC): 25 petabytes / year
      • Google: 1.17 * 10^9 users  x 1.29 * 10^10 searches / month = 24 petabytes / day
  • What is LINKED (Open) Data?
    • Based on URIs + HTTP + RDF
    • Basic idea (Sir Tim Berners-Lee’s TED talk):
      • Everything is accessed through URIs
      • Everything is described so each element (part of everything) can be “understood” 
      • Everything is composed of elements and their relationships
    • Tools:
      • SPARQL Protocol and RDF Query Language
      • Yahoo! Query Language (YQL)
    • Examples:

WHY Open Data?

  • Because…
    • …it belongs to everybody
    • …in most cases it’s been paid with public money
    • …it generates economic value
    • …it creates better citizens
    • …it promotes transparency (governments, science, corporations, …)

WHO is promoting/using/producing Open Data?

WHERE is Open Data used?

  • Educational Data Mining / Learning Analytics

HOW to use/produce Open Data?

  • Technological aspects:
    • Open formats
      • Manipulable
      • No proprietary software needed to use/edit it
    • Data for humans and machines: the 5-star model
      • * PDF
      • ** XLS
      • *** CSV (flat), JSON (hierarchical)
      • **** XML using URIs
      • ***** XML using URIs and RDF
    • Data Life Cycle:
      • Capture:
        • Goal: to obtain the desired data
          • Static data (files)
          • Dynamic data (web APIs):
            • Use of web services for accessing data
            • Well-formed validated (and authenticated) queries
            • Some limits might apply (number of queries, number of results, …)
          • Server Log files
          • Web scrapping
          • Crowdsourcing
        • Tools:
      • (Pre)Process:
        • Goal: prepare data for its manipulation
          • Joining several sources
          • Aggregating / summarizing data
          • Selection of samples (filtering)
          • Transformation of variables (i.e. units)
          • Computing new variables
        • Tools:
      • Analyze:
        • Goal: extract information and knowledge from (pre-)processed data
          • Pattern detection
          • Modeling:
          • Interpretation:
            • Classification / prediction / regression
            • Variable importance
            • Characterization
        • Tools:
          • OpenOffice
          • R
          • Gephi
          • Tableau
          • Online tools:
            • SOCR (UCLA)
            • StatPages
      • Visualize:
      • Publish:
  • Legal aspects:
  • Other important aspects:

WANT to learn more?

____________________________________________________

Feel free to make any comment, idea or suggestion and I’ll try to incorporate it into this open data summary!

Categories: training

I Jornades de Periodisme de Dades i Open Data

us penjo aquí la informació d’un proper esdeveniment que pot ser del vostre interès:

 

Benvolguts  programador@s, periodist@s, dissenyador@s gràfics i infografist@s,

[Si us plau, passa-ho a altr@s company@s. Gràcies.]

M’adreço a vosaltres perquè estic col.laborant en la difusió i logística de les Primeres Jornades de Periodisme de Dades i Open Data que es faran a Barcelona del 24 al 26 de maig al Centre de Cultura Contemporània de Barcelona (CCCB).

No us les podeu perdre! El web de les Jornades és aquest  http://periodismodatos.okfn.es

El divendres 24 (tot gratuit) hi haurà conferències i un barcamp per compartir projectes. El cap de setmana, tallers i un hackaton, on periodistes i programadors poden aprendre a treballar junts. Cal registrar-se!

Organitzat per l’Open Knowledge Foundation, és la millor oportunitat per descobrir o seguir explorant què és el periodisme de dades (data journalism)  i saber com les dades ens expliquen històries.

Gràcies a diversos patrocinadors, comptarem amb Mar Cabra (periodista del Consorci Internacional de Periodistes d’Investigació), James Ball (del Guardian Datablog), Manuel Aristarán (becari Mozilla Firefox a La Nación), David Cabo (de laFundación Civio) i molts d’altres que podeu veure aquí.

Gràcies per la vostra atenció, ens veiem del 24 al 26 de maig!
Concha Catalan

Visita mi blog: http://barcelonalittleshell.blogspot.com.es/

Categories: hacking

resum de la Big Data Week 2013

bé, ja han passat uns dies des de la Big Data Week 2013 (del 22 al 28 d’Abril de 2013) i ja he descansat el suficient com per penjar aquest resum sintètic de la meva participació en la mateixa:

  • Dimarts 23, coincidint amb Sant Jordi, vàrem preparar una visualització per seguir el hashtag #perSantJordiRegalo amb l’objectiu de veure quins són els llibres més regalats / recomanats de la comunitat de tuiteros que segueix lletrA, de fet el post anterior ho descriu en detall.
  • Dimecres 24 vaig donar un Taller d’Introducció a les Dades Obertes, per jugar una mica in situ amb les diferents eines que haviem vist al curs virtual del mateix nom, i començar a fer una mica de networking “presencial”. El taller va ser una més de les activitats fetes en motiu dels 15 anys dels Estudis d’Informàtica, Multimèdia i Telecomunicació de la UOC. Teniu la presentació i els comentaris aquí. Van venir unes 45 persones i van sortir idees molt interessants!!!
  • Dijous 25 vaig participar en una taula rodona dintre de la conferència principal de la Big Data Week, on vàrem parlar dels diferents vessants de l’Open Data i la necessitat de formar a la gent per tenir una cultura bàsica en temes relacionats amb la informació i la visualització. Que siguem capaços de dir “nos están engañando!!!
  • I per acabar-ho de rematar, de Divendres 26 fins Diumenge 28, vàrem fer el hackathon / Catalunya Dades Weekend on els Estudis d’Informàtica, Multimèdia i Telecomunicació de la UOC van participar en l’organització i fer d’esponsors. Aquest acte va permetre que molts idees es convertissin en projects i ha tingut un cert impacte i resó:

Marató de visualització de dades per tancar la Big Data Week” a BTV

Big Data Week al Telenotícies” a TV3 (aneu a veure el minut 1:43)

Esperem amb ganes la propera edició!!!

visualitzant Sant Jordi 2013

bé, feia temps que no escribiem res en aquest blog; aprofitarem la setmana de la Big Data Week 2013 per penjar un dels experiments que hem fet per visualitzar l’activitat relacionada amb Sant Jordi a Twitter, a partir d’una idea de la gent de Lletra

la idea era visualitzar tuits amb l’estructura següent

#perSantJordiRegalo "llibre" d'autor ...

és a dir, un hashtag i el títol d’un llibre entre cometes, per saber una mica quins són els llibres que la comunitat de tuiteros al voltant de Lletra creu que són més “regalables”.

El projecte té dues parts:

  1. Captura i preprocessat dels tuits: això ho vàrem fer en Python utilitzant la llibreria tweetstream, una delícia per fer cosetes senzilletes; aquest script generava un  fitxer CSV amb l’autor del tuit, el tuit pròpiament dit i el llibre entre cometes que apareixia al tuit, eliminant els tuits on no es podés identificar un llibre.
  2. Visualitzar els tuits amb D3.js, un repte personal perquè és una llibreria d’una potència brutal però que costa una mica d’aprendre a usar, cal canviar el xip respecte a la programació estructurada clàssica.

El script, molt senzillet, el podeu trobar aquí. El principal problema és que els tuits dels usuaris poden tenir comes (,) i clar, els CSV van separats per comes. Aleshores cal tancar els tuits entre cometes (“), però clar, resulta que el llibre també havia d’anar entre cometes, així que cal substituir primer les cometes del llibre per " i després afegir les altres cometes, una mica liante. La millor solució hagués estat crear un fitxer JSON, tot i que això no resol tampoc el problema de les cometes.

La visualitació (molt naif, no en sé més) la teniu aquí. A partir del fitxer CSV es visualitzen els 25 darrers tuits i els 9 llibres més votats.

Problemes:

  • Els usuaris no respectaven lo de les cometes o utilitzaven la cometa simple (‘), caldria millorar el script per acceptar-ho.
  • Els usuaris posaven dos o més llibres en un mateix tuit, caldria generar una línia per cada llibre en el CSV, tot i que això “traeix” l’esperit del joc.
  • La visualització està agafada amb fils, si mireu el codi D3.js ho entendreu, de vegades uso els selectAll(“…”) de D3 i d’altres faig bucles javascript convencionals.

Però bé, com a primer intent em dono per satisfet!

Inici inscripcions al curs d’Open Data

Waiting for iPhone 3g - Jul 18, 2008 - 002

hola a tothom,

primer de tot us agraïm el vostre interès en el proper Curs d’Open Data; entre avui i demà posarem en marxa el formulari que us permetrà inscriure-us al curs

moltes gràcies a tots per la vostra paciència!

ja us podeu inscriure aquí:

http://www.gencat.cat/web/catalunyadades/

 

Categories: training

Proper curs d’Introducció a l’Open Data

08/11/2012 9 comments

Curs “Introducció a l’OpenData”

Objectius

Els objectius d’aquest curs són:

  • Donar a conèixer què és això d’OpenData i quins són els principals actors, tan internacionalment com a Catalunya.
  • Fer un recull de recursos sobre OpenData.
  • Identificar i potenciar una comunitat de pràctica al voltant del tema a Catalunya.
  • Despertar l’interès en el tema de cara a organitzar activitats futures: cursos, tallers, hackathons, etc.
  • Descobrir altres necessitats de formació més específiques (eines, …)

Metodologia

Per participar en el curs només és necessari disposar d’una adreça d’e-mail vàlida per poder accedir a l’espai virtual que donarà suport al curs i fer els tràmits per a la inscripció. El curs no té cap cost econòmic i tampoc dóna dret a cap acreditació formal.

El curs es farà en un espai obert (p.e. un blog) on s’hi podrà participar de forma passiva (fent només un seguiment del curs) o, més recomanable, de forma activa, realitzant les activitats i participant en els debats proposats. Tota l’activitat realitzada en el curs quedarà en obert, és a dir, accessible per a tothom.

El curs està previst per fer-se en cinc setmanes però en funció del debat i activitats en curs pot allargar-se per encabir tots els interessos dels participants.

Tot i que existirà la figura del professor, aquest agafarà més un rol de facilitador que no pas un docent pròpiament dit. La idea és que els participants en el curs actuïn com a iguals, creant i compartint coneixement de forma col·lectiva.

Tot el material del curs així com el que es generi durant els debats haurà de compartir-se amb una llicència oberta, respectant sempre altres llicències en cas d’usar recursos, conjunts de dades i/o eines de tercers.

No hi ha cap requisit per a fer el curs, ja que es tracta d’un curs introductori on no s’aprofundirà en aspectes tècnics. És possible que s’utilitzin alguns recursos i eines que només estan disponibles en anglès, així que un nivell bàsic de lectura i comprensió de l’anglès és recomanable. Pel que fa a les necessitats tecnològiques, en alguns casos serà necessari instal·lar un programari en l’ordinador per tal de poder realitzar algunes de les activitats proposades.

Continguts

  • Setmana 1: Introducció
    1. Context i antecedents històrics
    2. Definicions bàsiques
      1. OpenData, BigData, RISP, LinkedData, …
      2. Per què OpenData?
      3. Decàleg OpenData
    3. Exemples / fonts de dades / bones pràctiques / apps
      1. Àmbit nacional
      2. Àmbit estatal
      3. Àmbit internacional
      4. Altres recursos: flickr, wikipedia, …
      5. Exemples d’aplicacions amb dades obertes
  • Setmana 2: Aspectes a tenir en compte (I)
    1. Aspectes tecnològics:
      1. Accés via fitxer versus servei / API
      2. Format de les dades
      3. Exemples d’APIs
      4. El concepte de Mashup
      5. Web scrapping (quan la resta falla)
  • Setmana 3: Aspectes a tenir en compte (II)
    1. Aspectes legals:
      1. Les dades tenen copyright? I els programes que les usen?
      2. Manipulació indeguda, privacitat, …
      3. Disclaimers
      4. Tipus de llicència
    2. Dades obertes de pagament (cas AEMET)
  • Setmana 4: Eines
    1. IBM ManyEyes
    2. Google
      1. Refine
      2. Fusion Tables
      3. Public Data Explorer
    3. Altres: Gephi, R, …
  • Setmana 5: I ara què?
    1. Comunitats de pràctica i casos d’èxit al voltant d’OpenData
    2. Proposta d’activitats relacionades amb OpenData

Tens dubtes? deixa un comentari i te’l resoldrem el més aviat possible!

Categories: training
Follow

Get every new post delivered to your Inbox.

Join 322 other followers