Docker安装Papermerge开源OCR数字文档管理系统

介绍

  • Papermerge DMS 或简称 Papermerge 是一种开源文档管理 设计用于处理扫描文档(也称为数字文档)的系统 档案)。它使用 OCR 从扫描中提取文本,为它们编制索引,以及 为全文搜索做好准备。Papermerge 提供 现代桌面文件浏览器。它具有双面板文档等功能 浏览器、拖放、标签、分层文件夹和全文搜索等 您可以有效地存储和组织您的文档。

  • 它支持 PDF、TIFF、JPEG 和 PNG 文档文件格式。Papermerge 是 长期存储文档的完美工具。

  • Papermerge 的主要用例是数字档案的长期存储。

  • 这是基于 Web 的软件。这意味着没有可执行文件(又名 no .exe文件),并且它必须在 Web 服务器上运行并通过 Web 访问 浏览器。

功能亮点

  • 支持 PDF、JPG、PNG、TIFF 格式的文档

  • 类似桌面的用户界面

  • OCR - 用于提取文本以编制文档索引

  • 全文搜索

  • 文档版本控制(对文档的所有操作都是非破坏性的)

  • 标签 - 为文档或文件夹分配彩色标签

  • 文档和文件夹 - 用户可以组织文件夹中的文档

  • 多用户

  • REST API

  • 不需要 GPU,因为 Tesseract 完全在您的 CPU 上运行 OCR。

  • 如果想要更快速的处理效果,请更换更好的CPU和内存容量。

安装教程

docker-compose方式安装

  1. 演示以在群晖NAS系统上安装为例

  2. 打开群晖的SSH功能,使用终端软件进行连接,并切换到root状态下。

  3. 进入群晖的docker文件夹(你想将容器数据存储到哪就进哪个文件夹)

    cd /volume1/docker
  4. 创建Papermerge文件夹

    mkdir Papermerge
  5. 创建子文件夹

    #media_root是媒体文件夹
    #solr_data是solr搜索引擎数据文件夹
    #postgres_data是数据库文件夹
    
    mkdir media_root solr_data postgres_data
  6. 编辑docker-compose.yml文件

    vi docker-compose.yml
  7. 按字母 i 键进入编辑模式,复制并修改下面的配置文件,粘贴到终端,按Esc键退出编辑模式,输入 :wq 退出并保存。

    version: "3.9"
    
    x-backend: &common
      image: papermerge/papermerge:3.1
      environment:
        PAPERMERGE__SECURITY__SECRET_KEY: 1234  # top secret
        PAPERMERGE__AUTH__USERNAME: admin
        PAPERMERGE__AUTH__PASSWORD: admin
        PAPERMERGE__DATABASE__URL: postgresql://coco:kesha@db:5432/cocodb
        PAPERMERGE__REDIS__URL: redis://redis:6379/0
        PAPERMERGE__SEARCH__URL: solr://solr:8983/pmg-index
      volumes:
        - media_root:/core_app/media
      depends_on:
        db:
          condition: service_healthy
        redis:
          condition: service_healthy
    
    services:
      web:
        <<: *common
        ports:
         - "12000:80"    #12000是容器外部访问端口,可以自己更改。
      worker:
        <<: *common
        command: worker
      redis:
        image: redis:6
        healthcheck:
          test: redis-cli --raw incr ping
          interval: 5s
          timeout: 10s
          retries: 5
          start_period: 10s
      solr:
        image: solr:9.3
        ports:
         - "8983:8983"
        volumes:
          - solr_data:/var/solr
        command:
          - solr-precreate
          - pmg-index
      db:
        image: postgres:16.1
        volumes:
          - postgres_data:/var/lib/postgresql/data/
        environment:
          POSTGRES_PASSWORD: kesha
          POSTGRES_DB: cocodb
          POSTGRES_USER: coco
    
        healthcheck:
          test: pg_isready -U $$POSTGRES_USER -d $$POSTGRES_DB
          interval: 5s
          timeout: 10s
          retries: 5
          start_period: 10s
    
    volumes:
      postgres_data:
      solr_data:
      media_root:
    
  8. 执行命令,启动docker-compose文件,拉取镜像并创建容器。

    docker-compose up -d
  9. 查看正在运行的容器

    docker-compose ps

访问Papermerge

  1. 打开浏览器,以群晖的IP+设置的端口进行访问。
    以本机为例:http://172.16.19.6:12000
    启动需要加载一会,账号密码都是admin

  2. 登录成功

  3. 具体的使用功能请查看官方文档,有详细说明。
    默认情况下,Papermerge docker 镜像包括英语、德语、法语、意大利语、西班牙语、荷兰语、 罗马尼亚语和葡萄牙语 OCR 语言。(其他语言可以另外安装,群晖NAS系统不支持apt,所以无法构建。)
    下面是文件夹、文档、文档版本关系的图形示例:

  4. 其他的请翻看官方文档!!!

项目地址

功德+1(狗子).gif

👇👇👇