pdf解析可以用來讀取PDF文件中字符串文本,圖片數(shù)據(jù)。Apache PDFbox是一個(gè)開源的、基于Java的、支持PDF文檔生成的工具庫,它可以用于創(chuàng)建新的PDF文檔,修改現(xiàn)有的PDF文檔,還可以從PDF文檔中提取所需的內(nèi)容。Apache PDFBox還包含了數(shù)個(gè)命令行工具。
Apache PDFBox主要有以下特征:
PDF讀取、創(chuàng)建、打印、轉(zhuǎn)換、驗(yàn)證、合并分割等特征。
(1) 讀取文本數(shù)據(jù)
讀取文本并沒有特別需要說明的地方,就是獲取PDF文本起始頁,結(jié)束頁,通過getText函數(shù)直接獲取PDF的所有文本。
(2) 獲取PDF的中圖片
將獲取的PDF中圖片對(duì)象保存到另一個(gè)PDF中
此方法可以取出源PDF中圖片對(duì)象PDImageXObject,然后可以對(duì)該對(duì)象進(jìn)行相關(guān)處理,本代碼實(shí)現(xiàn)了將提取出來的每一個(gè)圖片對(duì)象,插入到一個(gè)空白的PDF文檔中。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7256瀏覽量
91857 -
字符串
+關(guān)注
關(guān)注
1文章
590瀏覽量
22272 -
PDF
+關(guān)注
關(guān)注
1文章
172瀏覽量
34508
原文標(biāo)題:PDF解析思路
文章出處:【微信號(hào):gh_757915171cb5,微信公眾號(hào):FPGA自學(xué)筆記】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
labview字符串操作和文件IO課件
怎么把圖片jpg轉(zhuǎn)換成pdf文件呢
實(shí)例解析Java字符串內(nèi)存管理方法

strtok拆分字符串

python的數(shù)字與字符串相互轉(zhuǎn)換

評(píng)論