品質チェック技術仕様の概要

本書面は、変換結果の品質保証に関する技術仕様の概要を示すものである。実装の詳細については、別途技術仕様書を参照されたい。

品質チェック処理は、以下の手順に従って実行される。第一段階では、原本PDFから抽出したテキストと、変換後のHTMLから抽出したテキストを比較し、文字数の比率、文字集合の一致率、文字列順序の類似度を計算する。これら三つの指標のいずれかが規定の閾値を下回った場合、当該ページは異常候補としてマークされる。

第二段階では、原本PDFのページ画像と、変換後HTMLをブラウザでレンダリングしたページ画像の構造的類似度を比較する。この処理にはSSIM（Structural Similarity Index）アルゴリズムを採用しており、輝度、コントラスト、構造の三要素を総合的に評価する。ただし、SSIMは文字レベルの差異を検出することが困難であるため、第一段階の補助的位置付けとして用いる。

第三段階では、第一・第二段階で異常候補と判定されたページに対してのみ、生成系人工知能による精密な判定を実施する。Google Geminiによるスクリーニングを経て、必要に応じてAnthropic Claudeによる詳細解析を行うことで、計算コストを最小化しつつ判定精度を最大化する。

最終的な品質判定結果は、JSON形式のレポートファイルとして出力される。レポートには、各ページの判定結果、検出された異常の種類、重大度、信頼度に加え、参照用の差分画像へのパスが記録される。