Review de csv to parquet.

dsevilla · dsevilla · commit 908a9516653a · 2025-04-11T11:41:53.000+02:00
diff --git a/addendum/parquet_convert/csv_to_parquet.ipynb b/addendum/parquet_convert/csv_to_parquet.ipynb
@@ -117,7 +117,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 49,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -127,7 +127,7 @@
     "def generate_elements_from_lines(filename: str) -> Iterator[dict[str, str]]:\n",
     "\n",
     "  def get_attrs(line: str) -> dict[str, str]:\n",
-    "    (_, attrs) = line.split(\"<row \", 2)\n",
+    "    _, attrs = line.split(\"<row \", 2)\n",
     "    return {m.group(1): m.group(2)\n",
     "              for m in re.finditer(r\"(\\w*?)=\\\"(.*?)\\\"\", attrs)}\n",
     "\n",
@@ -172,7 +172,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_posts = get_all_attrs(generate_elements_from_lines(\"Posts.xml\"))\n",
+    "all_attrs_posts: set[str] = get_all_attrs(generate_elements_from_lines(\"Posts.xml\"))\n",
     "all_attrs_posts"
    ]
   },
@@ -200,7 +200,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_posts = id_as_first_attribute(all_attrs_posts, 'Id')\n",
+    "all_attrs_posts: list[str] = id_as_first_attribute(all_attrs_posts, 'Id')\n",
     "all_attrs_posts"
    ]
   },
@@ -231,7 +231,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 55,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -246,7 +246,7 @@
     "\n",
     "    # Recorrer el iterador\n",
     "    for row in iterator:\n",
-    "      row_to_write = [row.get(att, '') for att in all_attrs]\n",
+    "      row_to_write: list[str] = [row.get(att, '') for att in all_attrs]\n",
     "      cw.writerow(row_to_write)"
    ]
   },
@@ -261,12 +261,14 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 57,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
     "# Write the df dataframe to parquet file\n",
-    "df = pd.read_csv('Posts.csv', encoding='utf-8', header=0,\n",
+    "from pandas import DataFrame\n",
+    "\n",
+    "df: DataFrame = pd.read_csv('Posts.csv', encoding='utf-8', header=0,\n",
     "                 dtype={'Id': 'Int64', 'PostTypeId': 'Int64', 'AcceptedAnswerId': 'Int64', 'ParentId': 'Int64',\n",
     "                        'Score': 'Int64', 'ViewCount': 'Int64',\n",
     "                        'Body': pd.StringDtype(), 'OwnerUserId': 'Int64', 'OwnerDisplayName': pd.StringDtype(),\n",
@@ -301,7 +303,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_votes = get_all_attrs(generate_elements_from_lines(\"Votes.xml\"))\n",
+    "all_attrs_votes: set[str] = get_all_attrs(generate_elements_from_lines(\"Votes.xml\"))\n",
     "all_attrs_votes"
    ]
   },
@@ -311,7 +313,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_votes = id_as_first_attribute(all_attrs_votes, 'Id')\n",
+    "all_attrs_votes: list[str] = id_as_first_attribute(all_attrs_votes, 'Id')\n",
     "all_attrs_votes"
    ]
   },
@@ -326,12 +328,14 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 63,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
     "# Write the df dataframe to parquet file\n",
-    "df = pd.read_csv('Votes.csv', encoding='utf-8', header=0,\n",
+    "from pandas import DataFrame\n",
+    "\n",
+    "df: DataFrame = pd.read_csv('Votes.csv', encoding='utf-8', header=0,\n",
     "                 dtype={'Id': 'Int64', 'VoteTypeId' : 'Int64', 'BountyAmount' : 'Int64', 'PostId': 'Int64', 'UserId' : 'Int64' },\n",
     "                 parse_dates=['CreationDate'])"
    ]
@@ -360,7 +364,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_tags = get_all_attrs(generate_elements_from_lines(\"Tags.xml\"))\n",
+    "all_attrs_tags: set[str] = get_all_attrs(generate_elements_from_lines(\"Tags.xml\"))\n",
     "all_attrs_tags"
    ]
   },
@@ -370,7 +374,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_tags = id_as_first_attribute(all_attrs_tags, 'Id')\n",
+    "all_attrs_tags: list[str] = id_as_first_attribute(all_attrs_tags, 'Id')\n",
     "all_attrs_tags"
    ]
   },
@@ -385,12 +389,12 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 69,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
     "# Write the df dataframe to parquet file\n",
-    "df = pd.read_csv('Tags.csv', encoding='utf-8', header=0,\n",
+    "df: DataFrame = pd.read_csv('Tags.csv', encoding='utf-8', header=0,\n",
     "                 dtype={'Id': 'Int64',\n",
     "                        'Count' : 'Int64',\n",
     "                        'TagName' : pd.StringDtype(),\n",
@@ -432,7 +436,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_users = get_all_attrs(generate_elements_from_lines(\"Users.xml\"))\n",
+    "all_attrs_users: set[str] = get_all_attrs(generate_elements_from_lines(\"Users.xml\"))\n",
     "all_attrs_users"
    ]
   },
@@ -442,7 +446,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_users = id_as_first_attribute(all_attrs_users, 'Id')\n",
+    "all_attrs_users: list[str] = id_as_first_attribute(all_attrs_users, 'Id')\n",
     "all_attrs_users"
    ]
   },
@@ -466,12 +470,12 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 77,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
     "# Write the df dataframe to parquet file\n",
-    "df = pd.read_csv('Users.csv', encoding='utf-8', header=0,\n",
+    "df: DataFrame = pd.read_csv('Users.csv', encoding='utf-8', header=0,\n",
     "                 dtype={'Id': 'Int64',\n",
     "                        'DisplayName': pd.StringDtype(),\n",
     "                        'Location' : pd.StringDtype(),\n",
@@ -518,7 +522,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_comments = get_all_attrs(generate_elements_from_lines(\"Comments.xml\"))\n",
+    "all_attrs_comments: set[str] = get_all_attrs(generate_elements_from_lines(\"Comments.xml\"))\n",
     "all_attrs_users"
    ]
   },
@@ -528,7 +532,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "all_attrs_comments = id_as_first_attribute(all_attrs_comments, 'Id')\n",
+    "all_attrs_comments: list[str] = id_as_first_attribute(all_attrs_comments, 'Id')\n",
     "all_attrs_comments"
    ]
   },
@@ -543,12 +547,12 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 84,
+   "execution_count": null,
    "metadata": {},
    "outputs": [],
    "source": [
     "# Write the df dataframe to parquet file\n",
-    "df = pd.read_csv('Comments.csv', encoding='utf-8', header=0,\n",
+    "df: DataFrame = pd.read_csv('Comments.csv', encoding='utf-8', header=0,\n",
     "                 dtype={'Id': 'Int64',\n",
     "                        'ContentLicense' : pd.StringDtype(),\n",
     "                        'PostId' : 'Int64',\n",
@@ -604,7 +608,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.12.7"
+   "version": "3.13.3"
   }
  },
  "nbformat": 4,