PDF Primitive | サンプルコード

SAMPLE CODES

PDF Primitive サンプルコード

テキスト・画像・図形抽出のコード

C#およびC/C++開発環境向けのサンプルコード。

PDFからすべてのテキスト、画像、図形を抽出

ページ内の表示内容をPDFに記載された順ですべて抽出します。
そのため、抽出された文章に不適切な改行が含まれたり、段組みを適切に抽出できない場合があります。
これを避けるためには、抽出されたデータはの位置や境界などのデータと共に再構成する必要があります。

次の「領域を指定した抽出」では段組みなどの位置を指定できますので、レイアウト崩れのリスクを低減できます。

←いずれかをクリック

pdf-primitive-sample.cs

using PDFTools.PdfStructure;

// ライブラリの初期化
using (var stc = new Structure())
// PDFファイルオープン
using (var prm = stc.GetPrimitiveInterface("input.pdf"))
// ページ指定
using (var page = prm.GetPageInterface(1/*先頭ページ*/))
{
    // ページからの抽出
    using (var cont = page.GetContentsInterface())
    {
        // 最初の文書内容オブジェクト
        AnyContentsObject obj = cont.GetFirstContentOject();
        while (obj != null)
        {
            switch (obj.ContentType)
            {
                case PrmContentType.PRM_CONTENT_UNKNOWN: goto next_proc;
                case PrmContentType.PRM_CONTENT_TEXT:  PrintTextData(obj);  break;
                case PrmContentType.PRM_CONTENT_IMAGE: PrintImageData(obj); break;
                case PrmContentType.PRM_CONTENT_PATH:  PrintPathData(obj);  break;
            }
            obj = cont.GetNextContentOject();
        }
    next_proc:;
    }
}

void PrintTextData(AnyContentsObject obj) {
    PrmTextContents d = obj.GetTextContents();
    if (!d.HasData) return;
    Console.WriteLine("テキスト");
    Console.WriteLine($"   Matrix[{d.Transform.ToString()}]");
    Console.WriteLine($"   BBox[{d.BBox.ToString(",()")}]");
    Console.WriteLine($"   Writeing mode[{d.WMode}]");
    Console.WriteLine($"   Drawing type[{d.DrawType}]");
    Console.WriteLine($"   Font[\"{d.FontName}\" size={d.FontSize}]");
    Console.WriteLine($"   Color[{d.ColorToString(",()")}]");
    Console.WriteLine($"   StartPosition[({d.StartPosition.ToString(",", "x=", "y=")})]");
    int len = d.Text.Length;
    string C = "";
    if (len > 8) { len = 8; C = "..."; }
    Console.Write($"   Origins[");
    for (int i = 0; i < len; i++)
        Console.Write($"({d.Origins[i].ToString(",")})");
    Console.WriteLine($"{C}]");
    Console.WriteLine($"   \"{d.Text}\"");
}

void PrintImageData(AnyContentsObject obj)
{
    PrmImageContents d = obj.GetImageContents();
    if (!d.HasData()) return;
    Console.WriteLine("画像");
    Console.WriteLine($"   Matrix[{d.Transform.ToString()}]");
    Console.WriteLine($"   BBox[{d.BBox.ToString()}]");
    Console.WriteLine($"   Quad[{d.Quad.ToString(",(", true)}]");
    Console.WriteLine($"   Width={d.Width} Height={d.Height} Depth={d.Depth}");
    if (d.HasMask) Console.WriteLine($"   This image has mask[w={d.Mask.Width} h={d.Mask.Height}] Object[{d.Mask.Num} {d.Mask.Gen} R]");
    Console.WriteLine($"   Object[{d.ObjectNum.ToString()} R]");
}

void PrintPathData(AnyContentsObject obj)
{
    PrmPathContents d = obj.GetPathContents();
    if (!d.HasData) return;
    Console.WriteLine("パス");
    Console.WriteLine($"   Matrix[{d.Transform.ToString()}]");
    Console.WriteLine($"   BBox[{d.BBox.ToString(" ")}]");
    Console.WriteLine($"   Color[{d.ColorToString(" ")}]");
    Console.WriteLine("   {0} Path{1}", d.DrawType, d.DrawType == PrmDrawType.Fill ? d.EvenOdd ? "(even-odd)" : "" : "");
    if (d.DrawType == PrmDrawType.Stroke || d.DrawType == PrmDrawType.ClipStroke)
    {
        Console.WriteLine($"   {d.LineToString()}");
        if (d.StrokeState.DashLen > 0)
        {
            Console.WriteLine($"   Dash=\"{d.DashToString()}\"");
        }
    }
    Console.WriteLine($"   Path=\"{d.Path}\"");
}

pdf-primitive-sample.cpp

#include <tchar.h>
#include <iostream>
#include <Structure.h>
#include <StcError.h>

#pragma comment(lib, "PdfStructure.lib")

void print_text_data(PrmAnyContentsObject*);
void print_image_data(PrmAnyContentsObject*);
void print_path_data(PrmAnyContentsObject*,int=0);

const char* WritingMode[]    = { "横書き", "縦書き" };
const char* DrawType[]       = { "Fill","Stroke","Clip","Clip&Stroke","IGNORE" };
const char* ColorspaceType[] = { "", "Gray","RGB","BGR","CMYK","Lab","Indexed","Separation" };
const char* EvenOddRule[]    = { "", "(Even-Odd)" };
const char* LineCap[]        = { "Butt cap", "Round cap", "Projecting squeare cap" };
const char* LineJoin[]       = { "Miter join", "Round join", "Bevel join" };

int main()
{
    // ライブラリの初期化
    MlpInitialize(NULL);

    // PDFファイルオープン
    PRIMITIVE_HANDLE prm = MlpGetPrimitiveInterfaceFile(_T("input.pdf"), NULL);

    // ページ指定
    PrmPageInterface* paj = PrmGetPageInterface(prm, 1/*先頭ページ*/);

    // ページからの抽出開始
    PrmContentsInterface* coj = PrmGetContentsInterface(paj);

    // 文書内容を抽出
    PrmAnyContentsObject* obj = PrmGetFirstContentsObject(coj);
    while (obj)
    {
        switch (PrmGetContentType(obj))
        {
        case PRM_CONTENT_TEXT:  print_text_data(obj);  break;
        case PRM_CONTENT_IMAGE: print_image_data(obj); break;
        case PRM_CONTENT_PATH:  print_path_data(obj);  break;
        default: goto next_proc;
        }
        obj = PrmGetNextContentsObject(coj);
    }

    next_proc:
    std::cout << "\nFinish!" << std::endl;
    return 0;
}

void print_text_data(PrmAnyContentsObject* obj)
{
    printf("テキスト\n");
    PrmTextContents* res = PrmGetTextContents(obj);
    printf("   Matrix[%g %g %g %g %g %g]\n", res->Transform.a, res->Transform.b, res->Transform.c, res->Transform.d, res->Transform.e, res->Transform.f);
    printf("   BBox[%g %g %g %g]\n", res->BBox.x0, res->BBox.y0, res->BBox.x1, res->BBox.y1);
    printf("   Writing mode[%s]\n", WritingMode[res->WMode]);
    printf("   Drawing mode[%s]\n", DrawType[res->DrawType]);
    printf("   Font[\"%s\" size=%g]\n", res->FontName, res->FontSize);
    printf("   Color[type[%s],color(%g, %g, %g, %g)]\n", ColorspaceType[res->ColorType], res->color[0], res->color[1], res->color[2], res->color[3]);
    printf("   StartPosition[x=%g y=%g]\n", res->StartPos.x, res->StartPos.y);
    size_t len = wcslen(res->TextStr);
    char* three = const_cast<char*>("");
    if (len > 8) { len = 8; three = const_cast<char*>("..."); }
    printf("   PenPosions[");
    for (int i = 0; i < len; i++)
        printf("(%g,%g)", res->Origins[i].x, res->Origins[i].y);
    printf("%s]\n", three);
    printf("   \"%S\"\n", res->TextStr);
}

void print_image_data(PrmAnyContentsObject* obj)
{
    printf("画像\n");
    PrmImageContents* res = PrmGetImageContents(obj);
    printf("   Matrix[%g %g %g %g %g %g]\n", res->Transform.a, res->Transform.b, res->Transform.c, res->Transform.d, res->Transform.e, res->Transform.f);
    printf("   BBox[%g %g %g %g]\n", res->BBox.x0, res->BBox.y0, res->BBox.x1, res->BBox.y1);
    printf("   Quad[ul=(%g,%g) ur=(%g,%g) ll=(%g,%g) lr=(%g,%g)]\n", res->Quad.ul.x, res->Quad.ul.y, res->Quad.ur.x, res->Quad.ur.y, res->Quad.ll.x, res->Quad.ll.y, res->Quad.lr.x, res->Quad.lr.y);
    printf("   Width=%d Height=%d Depth=%d nOfColors=%d\n", res->Width, res->Height, res->Depth, res->n_colors);
    if (res->MaskFlag)
        printf("   This Image has mask[w=%d h=%d] Object[%d %d R]\n", res->Mask.Width, res->Mask.Height, res->Mask.Num, res->Mask.Gen);
    printf("   Object[%d %d R]\n", res->ObjNum, res->ObjGen);
    wchar_t fileName[MAX_PATH];
    swprintf_s(fileName, MAX_PATH, L"out_%d-%d.png", res->ObjNum, res->ObjGen);
    PrmOutputImageFileContents(res, fileName);
}

void print_path_data(PrmAnyContentsObject* obj, int flag/*"1":Strokeだけ*/)
{
    PrmPathContents* res = PrmGetPathContents(obj);
    if (flag && (res->DrawType != PRM_DRAW_TYPE_STROKE)) return;

    printf("パス\n");
    Matrix trm = res->Transform;
    BBox bbox = res->BBox;
    printf("   Matrix[%g %g %g %g %g %g]\n", trm.a, trm.b, trm.c, trm.d, trm.e, trm.f);
    printf("   BBox[%g %g %g %g]\n", bbox.x0, bbox.y0, bbox.x1, bbox.y1);
    printf("   Color[type=%d:color(%g, %g, %g, %g)]\n", res->ColorType, res->color[0], res->color[1], res->color[2], res->color[3]);
    printf("   %s path %s\n", DrawType[res->DrawType], res->DrawType == PRM_DRAW_TYPE_FILL ? EvenOddRule[res->EvenOdd] : "");
    if (res->DrawType == PRM_DRAW_TYPE_STROKE || res->DrawType == PRM_DRAW_TYPE_CLIPSTROKE) {
        printf("   LineJoin='%s'\n", LineJoin[res->LineJoin]);
        printf("   LineWidth=%g MiterLimit=%g\n", res->LineWidth, res->MiterLimit);
        if (res->DashLen) {
            printf("   Dash[ ");
            for (unsigned int i = 0; i < res->DashLen; i++)
                printf("%g ", res->DashList[i]);
            printf("] %g\n", res->DashPhase);
        }
    }
}

pdf-primitive-sample

このサンプルは、指定されたページに記載されたテキスト・画像・図形を記載された順にすべてを抽出しています。
そのため、段組みや表などで構成されたページから抽出する場合はレイアウトが崩れてしまいます。

次の「領域を指定した抽出」では、段組みされた部分や表の内部といった抽出ができますので、レイアウト崩れを低減できます。

PDFの指定された領域からテキスト、画像、図形を抽出

PDFページ内の指定された領域(BBox;境界)に記載されたものだけを抽出します。
段組みされたページや表で構成された部分を抽出に役立ちます。

「すべてのテキスト・画像・図形を抽出」では、領域を指定せずにすべてを抽出します。

←いずれかをクリック

pdf-primitive-w-bbox-sample.cs

using PDFTools.PdfStructure;

// ライブラリの初期化
using (var stc = new Structure())
// PDFファイルオープン
using (var prm = stc.GetPrimitiveInterface(in.pdf"))
// ページ指定
using (var page = prm.GetPageInterface(1/*先頭ページ*/))
{
    // ページのMediaBox
    BBox bbox = PrmGetPageMediaBox(paj);


    // ページからの抽出
    using (var cont = page.GetContentsInterface())
    {
        // 最初の文書内容オブジェクト
        bbox.y1 /= 2;    // 境界をページの上半分にする

        AnyContentsObject obj = cont.GetFirstContentOject(coj, bbox);
        while (obj != null)
        {
            switch (obj.ContentType)
            {
                case PrmContentType.PRM_CONTENT_UNKNOWN: goto next_proc;
                case PrmContentType.PRM_CONTENT_TEXT:  PrintTextData(obj);  break;
                case PrmContentType.PRM_CONTENT_IMAGE: PrintImageData(obj); break;
                case PrmContentType.PRM_CONTENT_PATH:  PrintPathData(obj);  break;
            }
            obj = cont.GetNextContentOject();
        }
    next_proc:;
    }
}

void PrintTextData(AnyContentsObject obj) {
    PrmTextContents d = obj.GetTextContents();
    if (!d.HasData) return;
    Console.WriteLine("テキスト");
    Console.WriteLine($"   Matrix[{d.Transform.ToString()}]");
    Console.WriteLine($"   BBox[{d.BBox.ToString(",()")}]");
    Console.WriteLine($"   Writeing mode[{d.WMode}]");
    Console.WriteLine($"   Drawing type[{d.DrawType}]");
    Console.WriteLine($"   Font[\"{d.FontName}\" size={d.FontSize}]");
    Console.WriteLine($"   Color[{d.ColorToString(",()")}]");
    Console.WriteLine($"   StartPosition[({d.StartPosition.ToString(",", "x=", "y=")})]");
    int len = d.Text.Length;
    string C = "";
    if (len > 8) { len = 8; C = "..."; }
    Console.Write($"   Origins[");
    for (int i = 0; i < len; i++)
        Console.Write($"({d.Origins[i].ToString(",")})");
    Console.WriteLine($"{C}]");
    Console.WriteLine($"   \"{d.Text}\"");
}

void PrintImageData(AnyContentsObject obj)
{
    PrmImageContents d = obj.GetImageContents();
    if (!d.HasData()) return;
    Console.WriteLine("画像");
    Console.WriteLine($"   Matrix[{d.Transform.ToString()}]");
    Console.WriteLine($"   BBox[{d.BBox.ToString()}]");
    Console.WriteLine($"   Quad[{d.Quad.ToString(",(", true)}]");
    Console.WriteLine($"   Width={d.Width} Height={d.Height} Depth={d.Depth}");
    if (d.HasMask) Console.WriteLine($"   This image has mask[w={d.Mask.Width} h={d.Mask.Height}] Object[{d.Mask.Num} {d.Mask.Gen} R]");
    Console.WriteLine($"   Object[{d.ObjectNum.ToString()} R]");
}

void PrintPathData(AnyContentsObject obj)
{
    PrmPathContents d = obj.GetPathContents();
    if (!d.HasData) return;
    Console.WriteLine("パス");
    Console.WriteLine($"   Matrix[{d.Transform.ToString()}]");
    Console.WriteLine($"   BBox[{d.BBox.ToString(" ")}]");
    Console.WriteLine($"   Color[{d.ColorToString(" ")}]");
    Console.WriteLine("   {0} Path{1}", d.DrawType, d.DrawType == PrmDrawType.Fill ? d.EvenOdd ? "(even-odd)" : "" : "");
    if (d.DrawType == PrmDrawType.Stroke || d.DrawType == PrmDrawType.ClipStroke)
    {
        Console.WriteLine($"   {d.LineToString()}");
        if (d.StrokeState.DashLen > 0)
        {
            Console.WriteLine($"   Dash=\"{d.DashToString()}\"");
        }
    }
    Console.WriteLine($"   Path=\"{d.Path}\"");
}

pdf-primitive-w-bbox-sample.cpp

#include <iostream>
#include <Structure.h>
#include <StcError.h>

#pragma comment(lib, "PdfStructure.lib")

void print_text_data(PrmAnyContentsObject*);
void print_image_data(PrmAnyContentsObject*);
void print_path_data(PrmAnyContentsObject*,int=0);

const char* WritingMode[]    = { "横書き", "縦書き" };
const char* DrawType[]       = { "Fill","Stroke","Clip","Clip&Stroke","IGNORE" };
const char* ColorspaceType[] = { "", "Gray","RGB","BGR","CMYK","Lab","Indexed","Separation" };
const char* EvenOddRule[]    = { "", "(Even-Odd)" };
const char* LineCap[]        = { "Butt cap", "Round cap", "Projecting squeare cap" };
const char* LineJoin[]       = { "Miter join", "Round join", "Bevel join" };

int main()
{
    // ライブラリの初期化
    MlpInitialize(NULL);

    // PDFファイルオープン
    PRIMITIVE_HANDLE prm = MlpGetPrimitiveInterfaceFile(_T("in.pdf"), NULL);

    // ページ指定
    PrmPageInterface* paj = PrmGetPageInterface(prm, 1/*先頭ページ*/);

    // ページからの抽出開始
    PrmContentsInterface* coj = PrmGetContentsInterface(paj);

    // 文書内容を抽出
    PrmAnyContentsObject* obj = PrmGetFirstContentsObject(coj);
    while (obj)
    {
        switch (PrmGetContentType(obj))
        {
        case PRM_CONTENT_TEXT:  print_text_data(obj);  break;
        case PRM_CONTENT_IMAGE: print_image_data(obj); break;
        case PRM_CONTENT_PATH:  print_path_data(obj);  break;
        default: goto next_proc;
        }
        obj = PrmGetNextContentsObject(coj);
    }

    next_proc:
    std::cout << "Finish!" << std::endl;

    /*後始末*/
    MlpUninitialize();

    return 0;
}

void print_text_data(PrmAnyContentsObject* obj)
{
    printf("テキスト\n");
    PrmTextContents* res = PrmGetTextContents(obj);
    printf("   Matrix[%g %g %g %g %g %g]\n", res->Transform.a, res->Transform.b, res->Transform.c, res->Transform.d, res->Transform.e, res->Transform.f);
    printf("   BBox[%g %g %g %g]\n", res->BBox.x0, res->BBox.y0, res->BBox.x1, res->BBox.y1);
    printf("   Writing mode[%s]\n", WritingMode[res->WMode]);
    printf("   Drawing mode[%s]\n", DrawType[res->DrawType]);
    printf("   Font[\"%s\" size=%g]\n", res->FontName, res->FontSize);
    printf("   Color[type[%s],color(%g, %g, %g, %g)]\n", ColorspaceType[res->ColorType], res->color[0], res->color[1], res->color[2], res->color[3]);
    printf("   StartPosition[x=%g y=%g]\n", res->StartPos.x, res->StartPos.y);
    size_t len = wcslen(res->TextStr);
    char* three = const_cast<char*>("");
    if (len > 8) { len = 8; three = const_cast<char*>("..."); }
    printf("   PenPosions[");
    for (int i = 0; i < len; i++)
        printf("(%g,%g)", res->Origins[i].x, res->Origins[i].y);
    printf("%s]\n", three);
    printf("   \"%S\"\n", res->TextStr);
}

void print_image_data(PrmAnyContentsObject* obj)
{
    printf("画像\n");
    PrmImageContents* res = PrmGetImageContents(obj);
    printf("   Matrix[%g %g %g %g %g %g]\n", res->Transform.a, res->Transform.b, res->Transform.c, res->Transform.d, res->Transform.e, res->Transform.f);
    printf("   BBox[%g %g %g %g]\n", res->BBox.x0, res->BBox.y0, res->BBox.x1, res->BBox.y1);
    printf("   Quad[ul=(%g,%g) ur=(%g,%g) ll=(%g,%g) lr=(%g,%g)]\n", res->Quad.ul.x, res->Quad.ul.y, res->Quad.ur.x, res->Quad.ur.y, res->Quad.ll.x, res->Quad.ll.y, res->Quad.lr.x, res->Quad.lr.y);
    printf("   Width=%d Height=%d Depth=%d nOfColors=%d\n", res->Width, res->Height, res->Depth, res->n_colors);
    if (res->MaskFlag)
        printf("   This Image has mask[w=%d h=%d] Object[%d %d R]\n", res->Mask.Width, res->Mask.Height, res->Mask.Num, res->Mask.Gen);
    printf("   Object[%d %d R]\n", res->ObjNum, res->ObjGen);
    wchar_t fileName[MAX_PATH];
    swprintf_s(fileName, MAX_PATH, L"out_%d-%d.png", res->ObjNum, res->ObjGen);
    PrmOutputImageFileContents(res, fileName);
}

void print_path_data(PrmAnyContentsObject* obj, int flag/*"1":Strokeだけ*/)
{
    PrmPathContents* res = PrmGetPathContents(obj);
    if (flag && (res->DrawType != PRM_DRAW_TYPE_STROKE)) return;

    printf("パス\n");
    Matrix trm = res->Transform;
    BBox bbox = res->BBox;
    printf("   Matrix[%g %g %g %g %g %g]\n", trm.a, trm.b, trm.c, trm.d, trm.e, trm.f);
    printf("   BBox[%g %g %g %g]\n", bbox.x0, bbox.y0, bbox.x1, bbox.y1);
    printf("   Color[type=%d:color(%g, %g, %g, %g)]\n", res->ColorType, res->color[0], res->color[1], res->color[2], res->color[3]);
    printf("   %s path %s\n", DrawType[res->DrawType], res->DrawType == PRM_DRAW_TYPE_FILL ? EvenOddRule[res->EvenOdd] : "");
    if (res->DrawType == PRM_DRAW_TYPE_STROKE || res->DrawType == PRM_DRAW_TYPE_CLIPSTROKE) {
        printf("   LineJoin='%s'\n", LineJoin[res->LineJoin]);
        printf("   LineWidth=%g MiterLimit=%g\n", res->LineWidth, res->MiterLimit);
        if (res->DashLen) {
            printf("   Dash[ ");
            for (unsigned int i = 0; i < res->DashLen; i++)
                printf("%g ", res->DashList[i]);
            printf("] %g\n", res->DashPhase);
        }
    }
}

pdf-primitive-w-bbox-sample

このサンプルは、ページ内で指定された領域(BBox)に記載されたテキスト・画像・図形を記載された順に抽出しています。
段組みされたページや表などで構成されたページからの抽出でレイアウト崩れを低減できます。

「すべてのテキスト・画像・図形を抽出」では、領域を指定せずにすべてを抽出します。