PDF Extract

概要

「PDF Extract」は、PDF文書からテキストや画像データのみならず、様々な情報を取り出します。

購入 (価格)

PDF Extract 動作概要

PDF情報(メタ・データ)
メタ・データには、PDF文書の作成者、作成日、タイトルなど様々な情報が含まれています。PDF Extractは、これらの情報をすばやく取り出します。

テキスト文字列
PDF文書から文字列情報を取り出します。文字列はフォント情報(フォント名、大きさ)や表示位置(ページ番号、座標)が含まれます。

画像やフォント情報など
PDFに埋め込まれている、画像やフォント情報などを取り出せます。

サンプル:

ライブラリ(API)の解説とサンプル( C++C++文字列抽出C# )を公開しています。


評価版

無償評価版

製品の種類 (ライセンスのバリエーション)

PDF Extractは以下の種類の製品(ライセンス)があります。用途に合わせて選択してください。
  • コマンド・ラインで利用する製品(クライアント・ライセンス)
    PDF Extractの機能をコマンドラインで利用するコンポーネントです。 バッチ処理などで処理する場合に適します。
    開発のライセンスは含みません。
  • アプリケーションを開発するための製品(SDKライセンス)
    クライアントPCまたはサーバーで開発するためのライセンスです。
    利用のライセンスを含みません。
  • ライブラリ(API)をクライアントで利用する製品(クライアント・APIライセンス)
    クライアントPCで利用するためのライセンスです。
    開発のライセンスを含みません。

機能

PDF Extract データ・情報取り出し PDF Extractで取り出す情報は、以下のプロパティをサポートしたオブジェクトタイプに基づいています。

文書情報オブジェクト文書情報 解説
  • 文書の属性値
    • Auther
    • Title
    • Subject
    • Keywords
    • Application
    • PDF Producer
    • Creation Date
    • Modification Date
  • 文書が暗号化されているか否か
  • 文書がリニアライズ(Web用高速表示)されているか否か
  • PDFのバージョン(1.4、1.7など)
  • ブックマークのプロパティ
  • ページラベルの取得
  • リソース(画像、色空間、フォント)のプロパティ
  • 埋め込まれたファイルのリストまたは取り出し
  • Optional Content Group(レイヤー)のリストまたは取り出し

ページ
  • ページサイズ(Media Box)、表示サイズ(Crop Box)、他(Trim Box、ArtBox、Bleed Box)
  • 回転
  • ページ内容
  • 注釈

テキスト
  • Unicodeでのテキスト取り出し(文字単位、単語単位、ページ単位)
  • X、Y座標
  • バウンディングボックス
  • フォントサイズ(ポイント単位)
  • 長さ(ポイント単位、文字単位)
  • 回転

フォント・タイプ
  • 名称
  • 大文字または小文字の高さ
  • サブセットフォントの使用可能な文字名
  • エンコード、フラグ
  • バウンディングボックス
  • フォントプログラムのデータストリーム
  • True TypeまたはType1
  • 斜体文字の傾斜の角度
  • ベースラインと次の行(先頭)の間の推奨距離
  • グリフの垂直方向と水平方向の幅

色空間
  • ベース色空間
  • Colorant
  • Components per pixel
  • インデックス色空間での最大インデックス値
  • 色空間(Colorant、インデックス、モノクロ)
  • ルックアップテーブル
  • 名称

画像
  • 幅と高さのピクセル値
  • 解像度(DPI)
  • チャンネルごとのビット数
  • 色空間(白黒、モノクロ、カラー)
  • RGBへ変換
  • 代替画像
  • 画像取り出しと向き設定
  • 抽出されたTIFF画像の圧縮設定(フラット、CCITT G3、G3-2D、G4、JPEG、LZW、なし)
  • マスク、透明マスク

グラフィック ステート
  • ブレンドモード
  • 文字および単語それぞれの間隔
  • 現状の変換行列
  • 鎖線パターン
  • 塗りつぶしと線色の色空間
  • RBGまたはCMYK値での塗りつぶしと線色
  • 塗りつぶしと線色のオーバープリント
  • 塗りつぶしと線色のアルファ値
  • 平面度公差
  • フォントとそのサイズ
  • 水平スケーリング
  • テキストのスタイル
  • 線のスタイルと幅
  • レンダリングの名称
  • 滑らか公差
  • テキストノックアウト
  • テキストのレンダリングモード
  • テキストの再配置(上または下)

変換行列
  • 変換値
  • 配置の方向
  • 回転
  • XおよびY方向でのスケーリング
  • XおよびY方向でのゆがみ

注釈
  • タイプ
  • 内容
  • 日付
  • 移動先
  • フラグ
  • マークアップ
  • 名前
  • 位置(四角)
  • Subject
  • テキストラベル
  • URL
  • コーナーポイント(ポリゴンの場合)

ブックマーク
  • 数量
  • 移動先
  • タイトル

移動先
  • 位置
  • タイプ
  • ページ番号

仕様

入力フォーマット
  • PDF

規格
OS
  • Windows 7, 8, 8.1, 10
  • Windows Server 2008, 2008 R2, 2012, 2012 R2 – 32 または 64Bit
  • HP-UX – 32Bit または Itanium
  • IBM AIX – 32 または 64Bit
  • Linux (SuSE または Red Hat on Intel)
  • Mac OS X
  • Sun Solaris

インターフェース
  • API: C, Java, .NET, COM

プログラム言語
  • C#, VB .NET, J# via .NET
  • Java via JNI
  • MS Visual Basic, Borland Delphi, MS Office 製品(Accessなど), C++ via COM
  • C および C++

無償評価版

無償での評価版を利用できます。「PDF Extract ダウンロード」からダウンロードしてください。

ご質問、お問い合わせ

メールで support@TrustSS.co.jp 宛てにお送りください。
または、質問のページからお送りいただくようお願いします。ご要望も承っております。


PDF-Tools製品一覧

PDF Toolsとは

PDF/Aとは