PDFの構成オブジェクトだけでなく、構造解析した文字・図形・画像の位置や描画範囲(Bounding Box)を含めた詳細データを抽出します。抽出したベクター図形は画像データへの変換も可能です。
RAG/LLMへのAI用前処理やセキュアな帳票解析システムなど種々のPDF解析に利用できる開発基盤です。
※ダウンロードをクリックすると、詳細エリアが展開します。
ダウンロードを開始した時点で、ソフトウェア使用許諾契約に同意したものとみなされます。
無料評価版(ZIP)をダウンロード自社システムへの組み込みなど、じっくり検証したい開発者向けに、30日間使える「試用版ライセンスキー」をメール送信します。
PDFを構成する最小単位のオブジェクトだけではなく、ページを構成するテキスト・図形・画像要素を詳細な属性情報と共に抽出
PDFを構成する全てのオブジェクトを抽出しますので、正確な解析ができます。抽出したオブジェクトを使えば独自のPDFパーサーを構築することができます。
さらに、PDFの内部構造を解析してページの構成要素としてのテキストや図形・画像を抽出します。
PDFの内部構造解析では各要素が「どこに」「どのサイズで」配置されているかの座標情報、フォント名や色などと共に抽出
複雑なページレイアウトの解析はもちろん、特定のエリアを指定した高度なデータ抽出システムを容易に構築できます。
線や塗りつぶしといったベクター図形情報をパスコマンドで(パスステータス)属性情報と共に抽出
さらに、抽出した図形データをそのまま画像(PNGやピクセルデータ等)へ変換して取得できます。LLM(マルチモーダルAI)への高精度なデータインプットに大きな威力を発揮します。
// ライブラリの初期化
using (var stc = new Structure("license-key")
// PDFファイル オープン
using (var prm = stc.GetPrimitiveInterface("in.pdf")
// ページ指定
using (var page = prm.GetPageInterface(1/*先頭ページ*/)
{
// ページからの抽出
using (var cont = page.GetContentInterface())
{
// 各文書内容を抽出
AnyContentsObject res = cont.FirstContentObject;
while(res != null)
{
switch(res.ContentType)
{
case 1: PrintTextData(res); break;
case 2: PrintImageData(res); break;
case 3: PrintPathData(res); break;
default: System.Environment.Exit(0);
}
res = cont.NextContentObject;
}
}
}
技術検証用
ダウンロードには「利用許諾契約書」への同意が必要です。
開発ライセンスおよび商用本番利用ライセンス
抽出機能(PDF Primitive)および画像化、内容変更、スタンプ、電子署名機能
見積書を発行いたします。製品に関する技術的ご質問(使用手順など)にも回答いたします。