トラスト・ソフトウェア・システム
トラスト・ソフトウェア・システム

PDF Extract(PDF情報取出) C++サンプル

「PDF Extract」ソフトは、PDF文書から様々な情報を取り出します。
PDF Extract 情報取り出し用のI/F
PDF文書の様々な情報をハンドルします。
  • Document Interface - PDF文書の基本的な情報
  • Page Interface - ページの情報
  • Content Interface - 文書内容
  • Image Interface - 画像の情報
  • Text Interface - テキスト情報
  • Graphic State - 色や線種などの情報
  • Font Interface - フォント情報
  • ClorSpace Interface - 色空間情報
  • TransformMatrix Interface - 変換行列情報
  • Alternate Image Interface - 代替画像情報
  • Annotation Interface - 注釈情報(添付ファイル、リンク他)
  • OutlineItem Interface - しおり情報
  • Destination Interface - デスティネーション情報
  • Ocg Interface - レイヤー情報
  • PDFObject Interface - Object(PDFの構成要素)情報
  • EmbeddedFile Interface - 埋め込みファイル情報
機能概要はこちらです。
無償評価版(リンク先は英語)はこちらです。 ダウンロード手順
文字列抽出 C++のサンプル
C#のサンプルはこちらです。

無償評価版のダウンロードとインストール

 ライブラリ(評価版API)は無償でダウンロード(試用)できますので、PDF Extractダウンロード手順を参照してダウンロードください。
 ファイルをダウンロードしてから、インストールもしくは適当なフォルダーに解凍します。以下のようなフォルダーができあがりますので、適宜ご利用ください。
binライブラリやライセンスマネージャーなど
doc使用説明書やjavadocなど
includeC/C++用のヘッダー(.h)ファイル
jarEXPA.jar(Javaのラッパー)
libC/C++用のlibファイル
samples各種開発言語のサンプル
サンプルの実行前に、bin/PDFParser.dllをサンプル実行イメージと同じフォルダーにコピーしてください。また、無償評価版と共にダウンロードしたライセンスキーをbin/LicenseManager.exeを使って登録してください。 ライセンスキーの登録方法はこちらです。

C++のサンプルと解説

PDFファイルを開くサンプルです。 PDF文書からテキスト文字列を抽出するサンプルはこちらです。
#include <stdio.h>
#include "expa_c.h"

#pragma comment(lib,"PDFParser.lib")

int main(int argc, char* argv[])
{
    //初期化
    ExpaInitialize();

    //インスタンス生成
    TPdfExpaDocument*     pDocument;
    pDocument = ExpaCreateObject();

    //PDF文書を開く
    if (!ExpaDocOpen(pDocument, L"input.pdf", NULL)) 
    {
        printf("Error opening PDF file 'input.pdf'.\n");
        printf("Error: 0x%X (%s)\n", ExpaDocGetLastError(pDocument), ExpaDocGetLastErrorMessageA(pDocument));
        return 1;
    }

    //作成者情報
    printf("作成者:%s\n",ExpaDocGetAuthorA(pDocument));

    return 0;
}
ExpaInitialize 初期化
ExpaCreateObject インスタンスを生成します。戻り値がハンドルとなります。
ExpaDocOpen PDF文書を開きます。
第一引数に、ハンドル
第二引数に、PDFファイル名 Web上のPDFファイルを指定する場合
第三引数に、パスワード(暗号化されていない場合は、NULLまたは""を指定)
を指定します。
ExpaDocGetAuthor PDF文書の所有者名を戻します。
PDF文書から文字列を取り出すサンプルは、こちらです。

インターネット(Web)上のPDFファイルを開く方法

入力のPDFファイル指定では以下の形式で指定すると、インターネット上のPDFファイルを直接変換できます。
http://[username:password@]domain[:port][/resource]
"username"および"password"は基本認証(Basic Authentication)のユーザー名とパスワード指定です。
先のサンプルで"ExpaDocOpen( )"のコードを以下のように変更すると、Web上のPDFを開き指定した情報を抽出します。
//PDF文書を開く
if (!ExpaDocOpen(pDocument, L"http://www.pdf-tools.trustss.jp/data/Receipt2.pdf", NULL))
{
 ...
}

ご質問、お問い合わせ

 メールで support@TrustSS.co.jp 宛てにお送りください。
または、質問のページからお送りいただくようお願いします。ご要望も承っております。(匿名で送れます。)

(記載の会社名および製品名は、各社の登録商標および商標です。)
PDF製品 C++サンプル
PDF Security
PDF Validator
PDF to PDF/A Converter
PDF to Image Converter
PDF Imager-LP
Image to PDF Converter
PDF Printer
PDF Viewer
PDF Viewer-L
PDF Prep Tool Suite
PDF Optimization
PDF Command Line Suite
PDF Extract
PDF Easy Parse
株)トラスト・ソフトウェア・システム
暗号化・電子署名・タイムスタンプ ライブラリ作成します。
お問い合わせください。