如何將 PDF 檔內之的表格載入資料庫

 在作機械設計應用時,手邊一定會有很多參考的資料。一般來說應用上我們只需要把手邊的資料查出我們要的數據後,代入工具之中就可以完成一次作業。然而在同一個資料需要常常使用,或者是資料量太大了,使用上不方便,這時就希望電腦上有個稱手的資料庫可以使用。

我們有很多 PDF 檔帶有很多數據,但是在使用上我們需要以下的步驟:

  1. 使用 PDF 瀏覽器開啟檔案。
  2. 搜尋內容以找到我們需要的內容,可以的話把需要的數據複制起來,然後再到文件編輯器上把資料輸入進去。

 例如我要算一下 L 型角鋼的重量,我知道所需要的長度,但是沒有單位長度的重量,所以我就要把包含 L 型角鋼的規格表找出來,L 100 x 100 x 10 (mm),  14.9 kt/m 。這樣作業一個星期做個五次、十次還好,但是一天要做個二十次、三十次。這累積下來的時間也不少。大家都知道, PDF 的表格通常有二種,第一種是使用 PDF 格式排版出來的表格,可以使用滑鼠把游標反白選擇的數據複制下來。第二種是圖面檔,該表格的呈現方式是以圖像方式嵌入 PDF 檔中,其數據無法用一般方式以游標框選複制起來。這時就要使用另外的方式獲取數據了,以人工輸入的方法是一種,使用 OCR 軟體掃描分析是一種,現在所謂的 AI 智能辨示也是方法,但是那還是以電腦科學的手段之一就是了。

就 PDF 資料格式的表格取得說起,除了商用的套裝軟體之外,自由軟體的解決方案有以下幾個:

  1. 使用 Tabula https://tabula.technology/  它可以在 PDF 指定的範圍中將表格資料以 csv 格式匯出。
  2. 如果您對編程有一定了解,可以使用 Python 語言配合 pandas 和 PyPDF2 或者 Tabula-py這樣的庫來提取數據。
  3.  PDFsam Basic 是另一款免費且開源的 PDF 處理軟體。  它可以用來合併、分割、提取頁面等,但如果要從PDF中提取表格,可能需要結合其他工具如 Excel 或 LibreOffice Calc 來處理導出的數據。

取得了目標資料後,設定格式為 csv 檔以便後續操作。將 csv 的資料依規劃的關係資料庫的程序導入目標資料庫中。

PDF 資料轉成 sqlite 資料庫流程

各申機械設計工作室/ https://sites.google.com/view/each-application/homepage 各申機械設計工作室 相關資料

留言