Fix date of swift from wikipedia.

dsevilla · dsevilla · commit 36a2e04d7a05 · 2024-09-24T00:35:25.000+02:00
diff --git a/intro/sesion0.ipynb b/intro/sesion0.ipynb
@@ -52,15 +52,19 @@
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "gUKmEEKuBO6x"
+      },
       "source": [
         "Actualizamos los paquetes necesarios. En general esto no hace falta en Google Colab, pero sí en Jupyter Notebook."
       ]
     },
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "PbeHGejDBO6x"
+      },
       "outputs": [],
       "source": [
         "!sudo apt-get update -qq"
@@ -69,7 +73,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "40eR4mfVBO6y"
+      },
       "outputs": [],
       "source": [
         "!sudo apt-get install -y p7zip"
@@ -78,7 +84,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "DSBkYju1BO6z"
+      },
       "outputs": [],
       "source": [
         "RunningInCOLAB = 'google.colab' in str(get_ipython()) if hasattr(__builtins__,'__IPYTHON__') else False"
@@ -803,7 +811,7 @@
       },
       "outputs": [],
       "source": [
-        "firstdate = dfwiki[0][1][5]\n",
+        "firstdate = dfwiki[0][1][4]\n",
         "firstdate"
       ]
     },
@@ -999,7 +1007,9 @@
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "TbOKByplBO7Q"
+      },
       "source": [
         "## Datos de Stackoverflow\n",
         "\n",
@@ -1012,22 +1022,28 @@
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "ToYeCqMNBO7R"
+      },
       "source": [
         "## Descarga de los datos"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "JQvTT2bOBO7R"
+      },
       "source": [
         "En este caso los datos están disponibles en un repositorio git. Se pueden descargar también de la Web, pero se van actualizando. Los descargamos del repositorio git para que todos tengáis los mismos."
       ]
     },
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "YPXQ7PPZBO7R"
+      },
       "outputs": [],
       "source": [
         "!wget https://github.com/dsevilla/bd2-data/raw/main/es.stackoverflow/es.stackoverflow.7z.001\n",
@@ -1038,7 +1054,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "nA6Z9zk9BO7S"
+      },
       "outputs": [],
       "source": [
         "!ls -lh es.stackoverflow.7z*"
@@ -1047,7 +1065,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "wp81WjeVBO7S"
+      },
       "outputs": [],
       "source": [
         "!7zr x es.stackoverflow.7z.001"
@@ -1056,38 +1076,48 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "yXXtEQUTBO7T"
+      },
       "outputs": [],
       "source": [
         "!ls -lh *.xml"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "54tTnOP8BO7T"
+      },
       "source": [
         "## Inspección y procesado"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "Gf4Gvz1sBO7T"
+      },
       "source": [
         "Podemos inspeccionar los ficheros `.xml` para ver su contenido. Son XML, sí, pero ¿con qué formato?"
       ]
     },
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "9gnbcXYIBO7U"
+      },
       "outputs": [],
       "source": [
         "!head Posts.xml"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "ApKHu1ZgBO7U"
+      },
       "source": [
         "Aunque se puede procesar el formato XML, lo que podemos ver es que cada entrada es exactamente una línea que comienza por \"`<row`\", y que contiene un conjunto de atributos en formato \"`atributo=\"valor\"`\". Si lo comprobamos, incluso no existirá ninguna comilla doble **dentro** de otra comilla doble, así que podemos extraer esos pares de forma facil.\n",
         "\n",
@@ -1099,7 +1129,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "ZN4NYtRKBO7V"
+      },
       "outputs": [],
       "source": [
         "import re\n",
@@ -1121,7 +1153,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "K_Pcy0heBO7W"
+      },
       "outputs": [],
       "source": [
         "first_row = next(generate_elements_from_lines(\"Posts.xml\"))"
@@ -1130,23 +1164,29 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "TayEqKvOBO7X"
+      },
       "outputs": [],
       "source": [
         "first_row.keys()"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "DZ6mVx0FBO7X"
+      },
       "source": [
         "Hay que extraer el conjunto de atributos para saber qué columnas tendrá nuestra tabla/CSV o archivo JSON. Recuérdese que las dos primeras filas del archivo XML tenían diferentes atributos. ¿Cómo se haría esto?"
       ]
     },
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "5Wo1jPDQBO7Y"
+      },
       "outputs": [],
       "source": [
         "from typing import Iterator\n",
@@ -1162,31 +1202,39 @@
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "yHBXA4dfBO7Y"
+      },
       "source": [
         "El conjunto de atributos es pues:"
       ]
     },
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "nUUkPSMyBO7Y"
+      },
       "outputs": [],
       "source": [
         "all_attrs"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "BwLQrOr2BO7Y"
+      },
       "source": [
         "Como sabemos que el atributo `Id` va a ser la clave primaria, lo ponemos al principio. Además, generamos una lista, no un conjunto, para que el orden sea conocido."
       ]
     },
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "zPjVuHr5BO7Z"
+      },
       "outputs": [],
       "source": [
         "all_attrs.remove('Id')\n",
@@ -1197,14 +1245,18 @@
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "rjFN1ERBBO7Z"
+      },
       "source": [
         "## Escritura del formato CSV"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "lRiaGxTKBO7Z"
+      },
       "source": [
         "El formato CSV está especificado en el estándar RFC 4180. https://www.ietf.org/rfc/rfc4180.txt. En general se puede utilizar la biblioteca `csv` de Python 3 y vamos a exportar una línea de cabecera con todos los campos. https://docs.python.org/3/library/csv.html.\n",
         "\n",
@@ -1214,7 +1266,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "eIzLGoQzBO7Z"
+      },
       "outputs": [],
       "source": [
         "import csv\n",
@@ -1235,7 +1289,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "YP974wv1BO7a"
+      },
       "outputs": [],
       "source": [
         "write_csv('Posts.csv', all_attrs, generate_elements_from_lines('Posts.xml'))"
@@ -1244,29 +1300,37 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "dZf_dANbBO7a"
+      },
       "outputs": [],
       "source": [
         "!head Posts.csv"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "nSwgPLttBO7a"
+      },
       "source": [
         "## Uso de Parquet"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "3lod4l2IBO7b"
+      },
       "source": [
         "![Parquet](https://upload.wikimedia.org/wikipedia/commons/4/47/Apache_Parquet_logo.svg)\n"
       ]
     },
     {
       "cell_type": "markdown",
-      "metadata": {},
+      "metadata": {
+        "id": "qZp2QNDjBO7b"
+      },
       "source": [
         "El formato Parquet (https://parquet.apache.org) se ha popularizado recientemente con el uso de fuentes de datos en Internet. En general supone una mejora en todos los aspectos con respecto a CSV y en otros con respecto a JSON y JSON lines.\n",
         "\n",
@@ -1286,7 +1350,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "33e2DF_XBO7c"
+      },
       "outputs": [],
       "source": [
         "%pip install pyarrow"
@@ -1295,7 +1361,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "zYtTM0kzBO7c"
+      },
       "outputs": [],
       "source": [
         "# Write the df dataframe to parquet file\n",
@@ -1306,7 +1374,9 @@
     {
       "cell_type": "code",
       "execution_count": null,
-      "metadata": {},
+      "metadata": {
+        "id": "u3xgJ8olBO7c"
+      },
       "outputs": [],
       "source": [
         "!ls -lh Posts.*"
@@ -1338,4 +1408,4 @@
   },
   "nbformat": 4,
   "nbformat_minor": 0
-}
+}