PDF 表格轉換 CSV 過程 1

 

PDF 表格轉換 CVS 過程1

在建置 ASME 材料資料庫時,依《如何將 PDF 檔內之的表格載入資料庫》的規劃,進入了整理文字檔轉換成 CSV 的階段。這時遇到了一個問題,就是當把 PDF 檔擷取到文字檔時,它會把分數切成二行。在之前十幾頁的表格中,我使用了 common lisp 的 cl-ppcre 和 cl-csv 等幾種套件處理文字檔轉換成 CSV。如圖所示,我目前無法控制從 PDF 檔轉換成文字檔(.txt)時的細部動作,例如它有時會轉換分數 "1/2" 變成 "1 \newline" "空格/2" 的情形,如 PDF 畫面標號 3 及文字檔標號2 方框之中所示。這不是一定如此,例如圖示中第 1 列到第 10 列,它們一樣有分數的符號,但是卻無分行的情形。或許換個想法,把文字檔做個處理把它分行的情形修正起來,再用正規表示法處理修正後的文字串。

以前在大學學程式的時候,老師曾說明程式語言可以說百分之九十都在處理字串,希望在處理目前的狀況之後也有相同的領悟。

留言