Ab welcher Delphi-Version ist string standardmäßig Unicode?

Seit Delphi 2009 ist der Typ string standardmäßig ein UnicodeString (UTF-16). In älteren Delphi-Versionen war string ANSI-basiert und abhängig von der Systemcodepage.

Was sind die häufigsten Fehler bei der Delphi-Unicode-Migration?

Typisch sind falsche Annahmen über Länge und Speichergröße (Length vs. Bytes), Probleme bei Windows-API-Calls mit PChar, stillschweigende Encoding-Konvertierungen bei Datei-I/O sowie Drittbibliotheken, die nur ANSI unterstützen oder eigene Stringtypen nutzen.

Sollten externe Schnittstellen eher UTF-8 oder UTF-16 verwenden?

Für REST/JSON, Web-Integrationen und viele Datei- und Protokollformate ist UTF-8 üblich und interoperabel. Intern in Delphi ist UTF-16 über string/UnicodeString praktikabel. Wichtig ist, an Systemgrenzen explizit zu konvertieren und das Encoding festzulegen.

Muss bei einer Unicode-Migration auch die Datenbank geändert werden?

Nicht zwingend, aber die Datenbank- und Treiberkonfiguration muss Unicode korrekt transportieren. Kritisch sind Spaltentypen (z. B. VARCHAR vs. NVARCHAR), Charsets/Collations und Text in BLOB/Memo-Feldern ohne definierte Kodierung. Oft ist eine Bereinigung des Datenzugriffs (z. B. über FireDAC) sinnvoll.

Wie lässt sich die Migration absichern, damit keine Zeichen „still“ verloren gehen?

Durch explizite Encoding-Regeln an Ein-/Ausgängen, Roundtrip-Tests (Import→Export), Datenbank-Roundtrips mit problematischen Zeichen sowie Logging, das Unicode korrekt schreibt. Zusätzlich sollten Warnungen zu impliziten Konvertierungen nicht pauschal unterdrückt werden.

古いDelphiプロジェクトのUnicode移行

古いDelphiプロジェクトのUnicode移行は、多くの企業にとって必須の作業です。さもなければ、既存アプリケーションは国際データ、最新OS、外部統合や新しいインターフェースに対して次第に限界に直面します。実務ではたいてい「再コンパイルして終わり」ではありません。DelphiはUnicode導入以降（Delphi 2009以降）で標準的な文字列型に根本的な変更を加えました。その結果、文字エンコーディング、メモリレイアウト、APIシグネチャに関する前提が変わります。これを過小評価すると、徐々に発生するデータ不整合、壊れたエクスポート、不明瞭なサポート事象、セキュリティリスクを招きます。

本稿は技術的に信頼できる手順を示します。既存資産の解析方法、スコープの切り方、データベース、ファイル、Windows-API、COM、RESTサービスといったホットスポットでのリスク低減手法、そして運用と継続的な開発を並行させられるように移行を安全に進める方法です。焦点はVCLアプリケーション、サービス、インターフェースにおけるDelphi特有の落とし穴にあり、後段でBDEのネイティブ接続を伴う置換、RESTサーバやマルチプラットフォーム化のようなモダニゼーション経路に結びつけられるよう配慮しています。

なぜDelphiのUnicode移行は「想定より大きく」なりがちか

古典的なDelphiのバージョンではstringはANSI文字列（システムコードページに依存）でした。Delphi 2009以降、stringは標準でUnicodeString（UTF-16）になり、多くのライブラリやVCLクラスがWide APIへ移行しています。これは国際文字を堅牢に扱える点で望ましい変更ですが、レガシーコードは長年にわたり「1文字＝1バイト」「PCharはPAnsiChar」「Length()＝バイト長」といった前提で肥大化していることが多いのです。

移行がより手間になる典型的な原因は次の通りです：

暗黙の変換は通るがデータを変えてしまう（特にファイル、インターフェース、DBのBLOB／テキスト欄）。
バイト指向のコード（ストリーム、バッファ、ハッシュ、暗号化）は、文字列内容をバイトとして扱うと目に見えない誤動作を起こす。
サードパーティコンポーネントがANSI専用、あるいは独自の文字列型やコールバックを使っている。
外部環境（Windows-API、COM、印刷／レポーティング、EDI、CSV、XML/JSON）が特定のエンコーディングを期待している。

したがって目標は「できるだけ何もしない」ではなく、データフローとエンコーディングを定義すべき箇所を狙って修正することです。きちんとしたUnicode移行は、未定義だったエンコーディング境界を文書化しテストする良い機会にもなります。

技術的基礎知識：Delphiの文字列型、エンコーディングとその副作用

string, UnicodeString, AnsiString, WideString — プロジェクトで実際に重要な点

移行で重要なのは、どの型がインターフェースやコア機能で使われているかです：

string: Delphi 2009以降はUnicodeString（UTF-16、参照カウント、Copy-on-Writeに近い不変的な振る舞い）。
AnsiString: コードページを持つバイト列（Delphiのバージョンによってはコードページ情報を保持）。外部インターフェースが明確に特定の8ビットエンコーディングを要求する場合に適切。
UTF8String: 新しいDelphiではUTF-8コードページのAlias/AnsiStringとして扱われることが多い。REST/JSONや多くのプロトコルで実用的。
WideString: BSTR（COM）、SysAllocStringで管理。特定のCOM相互運用時にまだ必要なことがある。
PChar: Unicode化以降はPWideChar。これがWindows API呼び出しで最も頻出する断絶点の一つ。

これらの型が混在すると変換が発生します。正しい変換もあれば驚きを生むものもあります。変換が「正しい」と言えるのは、ソース側とターゲット側でどのコードページが使われているかを把握している場合だけです。

内部はUTF-16、外部はUTF-8：実務的な基本線

VCLアプリケーションでは、内部を一貫してstring (UTF-16)で扱うのが合理的なことが多く、外部（REST、ファイル、メッセージング）では実務上UTF-8が主流です。堅牢な方針例は次の通り：

内部：標準はstring/UnicodeString。
境界：入出力時に明示的にTEncoding.UTF8（または定義済みのANSIコードページ）で変換する。
バイト処理：文字列ではなくTBytesを使う。

これにより暗黙の変換を減らし、「どこでバイトが文字になるのか、どのエンコーディングでか」を検査可能にします。

現状把握：古いDelphiプロジェクトでUnicodeが壊れやすい箇所

コードを触る前に構造的なインベントリを取る価値があります。Unicode移行におけるエラー源は均等に分布せず、いくつかのホットスポットに集まることが多いです。

1) データベースアクセスとフィールド型（BDE, ADO, FireDAC）

多くの古いプロジェクトはまだBDEやそれ以前のデータアクセス層を使っています。ここでよくある問題：

データベースの文字セットとDelphiの文字列（ANSIかUnicodeフィールドか）の対応付け。
BLOBやMemoフィールドに格納された「テキスト」がエンコーディング未定義であること。
UmlautやUnicode文字を含むSQLステートメントが異なる解釈を受ける。

もしモダニゼーションが既に計画されているなら、Unicode移行はデータアクセスの整理とセットで行うと効率的です。例えばBDE-Ablosung mit nativer Anbindungへ移行し、PostgreSQLやMariaDBでの明確なCharset設定を行う等です。重要なのは、移行が必ずしもDBそのものの強制的な移行を意味しないことですが、DBとDelphi間のインターフェースは明確にする必要があります。

2) ファイル・ストリームI/O：CSV、INI、独自フォーマット、インポート/エクスポート

典型例です：過去のコードがAssignFile/ReadLn、TFileStream、TStringList.LoadFromFileでエンコーディングを指定せずにファイルを読み書きしていると、Unicode化後はDelphiがBOMで判定するかデフォルトエンコーディングを使うため、次のような問題が起きます：

CSVやログファイルでウムラウトが誤解釈され（Ã¤, Ã¶ など）、
独自フォーマットで誤った長さ情報が生じ、
外部パートナーがISO-8859-1やWindows-1252を期待している場合に互換性が取れない。

対処は各ファイル形式ごとに固定のエンコーディングを定義し、コードとドキュメントに明記することです。CSV/JSONでは概ねUTF-8が適切ですが、古いインターフェースではWindows-1252が必要な場合もあります。重要なのは明示性です。

3) Windows-API、PChar、バッファサイズとメッセージ処理

多くのDelphiアプリはWinAPIを呼ぶかバッファを直接操作します。典型的な崩壊点：

PCharを使ってANSI／Wideの両バージョンを持つ関数を呼んでいること（…A/…W）。
バッファサイズをバイト単位で計算しているが、UTF-16ではCharが2バイトであること。
ポインタ演算やレコードレイアウトが1バイト文字を前提にしていること。

ここでは正確なリファクタリングが必要です：Wide APIに統一するか、意図的にANSI版を呼びAnsiString/コードページで扱うかを決めること。「なんとなくコンパイルできる」では品質基準になりません。

4) COM、ActiveX、Officeオートメーション、サードパーティライブラリ

COMインターフェースはしばしばBSTR（WideString）を使います。旧いDelphiではデフォルト文字列が異なっていたため、偶然うまく動いていたコードがUnicode化で二重変換や型の誤認を引き起こすことがあります。サードパーティライブラリも危険です：コールバックをPAnsiCharで渡すもの、ヌル終端のバイト列を要求するものがあります。

この領域では依存関係を分類することが有効です：どのライブラリがUnicode対応済みか、どれが未対応か、どれを置換またはラップできるか。ラップによるカプセル化は、Unicodeの古い負債を明確に切り分ける最も迅速な手段である場合が多いです。

戦略：古いDelphiプロジェクトのUnicode移行を管理されたモダニゼーション計画として進める

移行リスクを最小化しつつアプリケーションを稼働状態のまま保つには、段階的なプログラムがもっとも安全です。リスクを早期に可視化する手順を設けます。

ステップ1：スコープを定義し、コードのホットスポットに優先順位を付ける

すべてのソースが即座に手直しを要するわけではありません。データフローとリスクで優先順位を付けます：

外部インターフェース（REST API、TCP/IP、ファイル、Eメール、印刷／レポーティング）。
データアクセス（SQL、ORM/Datamodule、BDE/FireDAC層）。
文字列に近いユーティリティ関数（パーサ、フォーマッタ、エンコーダ／デコーダ）。
統合部分（COM、DLLインポート、ハードウェア接続）。

結果として「エンコーディングが仕様である箇所」のリストを作成し、これらの箇所を後でテスト可能にします。

ステップ2：コンパイラ／プロジェクトオプションと警告を厳格化する

多くのプロジェクトで警告が長年オフにされています。Unicode移行ではそれは逆効果です。警告を再度有効にし、変換に関する警告を重視してください。併せてプロジェクト全体のルールを決めると良いでしょう。例：I/O境界での暗黙のAnsiString変換を禁止、ファイル操作ではTEncodingを使用、コンテキストが明確でないPCharトリックを禁止、など。

ステップ3：エンコーディング境界を技術的なレイヤとして導入する

実践的なアーキテクチャ手法は、小さなアダプタ／ヘルパーを導入し、外部データの入出力方法を厳密に定義することです。例：

CSVリーダ／ライタ：常にTEncoding.UTF8（または定義されたコードページ）を使い、区切りルールを明確にする。
RESTクライアント／サーバ：JSONは常にUTF-8バイトで扱い、ヘッダを正しく設定し、Bodyを文字列ベースでストリームしない。
Windows-APIラッパー：Wide/Ansiの差を中央でカプセル化する関数群を用意する。

こうすることで「どこでエンコーディングが決まるか」がコードベース全体に散らばるのを防げます。

典型的なコードの罠とその確実な修正方法

Length, SizeOf, ByteLength：文字数とバイト数が乖離するとき

ANSI時代はLength(s)がバイト数として使われることがありましたが、UTF-16では誤りです。バイト配列が必要な場合は明示的に変換してください：

UTF-8の場合：TEncoding.UTF8.GetBytes(s)
特定のANSIコードページの場合：TEncoding.GetEncoding(1252).GetBytes(s)（業務的に正当な場合のみ）

API呼び出しでのバッファサイズは、その関数が文字単位を期待しているかバイト単位を期待しているかを確認してください。多くのWide APIは文字数を期待します。直感ではなく、ドキュメントとシグネチャを根拠に判断してください。

PAnsiChar vs. PWideChar：DLLインポートと外部プロトコル

DLLインポートでは、シグネチャがもはや合わない危険が大きいです。DLLが何を期待しているかを明確にしてください：

DLLがUTF-8を期待するなら、PAnsiChar(UTF8String)で渡すのが通常ですが、ライフタイムとヌル終端を管理する必要があります。
UTF-16を期待するならPWideCharとWide文字列を使います。

いずれにしても、インポート宣言は分離したユニットにカプセル化し、プロジェクト全体に文字列ポリシーが散らばらないようにしてください。

整形、大小変換、比較：ロケールと正規化

Unicodeは意味論的な課題ももたらします：大文字・小文字変換は言語によって単純ではなく、文字は異なる正規形を取り得ます。典型的な企業アプリでは全文書処理ほど深刻ではないものの、次の点に影響します：

グリッドや検索機能でのソート・フィルタリング、
キー値の大文字小文字無視比較、
ファイル名や識別子の生成。

重要なのはルールの明確化です：例えば「キー」（品番、顧客コード等）はASCII準拠で扱うのか、「テキスト」は完全なUnicode対応とするのかを分けることで副次的な不具合を減らせます。

GUI／レポーティング：フォント、印刷、PDF、コンポーネントの挙動

VCL自体はUnicode対応していますが、実運用はコンポーネントと出力経路に依存します。次のようなリスクがあります：

ANSI前提の古いレポートエンジンやPDFジェネレータ、
特定のコードページを必要とするバーコードやラベル印刷、
ハードコーディングされたフォントや文字セット。

実データ（名前、住所、特殊記号、必要なら非ラテン文字）で早期にテストを計画してください。重要なのは「Unicodeを扱えるか」ではなく「この出力が我々の文脈で正しいか」を検証することです。

データと永続化：Unicodeはコードで終わらない

データベースのCharsetと照合順序を明確にする

Unicode移行が安定するためにはデータベースとドライバの設定が正しいことが前提です。例：

PostgreSQLでは通常UTF-8が標準ですが、クライアントエンコーディングとドライバ挙動の確認が必要です。
SQL ServerではVARCHARとNVARCHARの区別が重要で、不適切な列型は文字を失う原因になります。
MariaDB/MySQLではutf8mb4のようなCharset/Collationが不可欠で、4バイト文字が切り捨てられないようにする必要があります。

Delphiコード内ではパラメータとフィールド型をUnicodeを損なわないように使ってください。一般にFireDACは非常に古いアクセス層に比べてより確実な制御を提供します。

レガシーなファイルフォーマット：黙示的な変換ではなく移行ルールを

アプリが長年にわたりファイルを生成してきた場合（エクスポート、アーカイブ、独自構造）、次を定義する必要があります：

既存ファイルのうち「そのまま」にするものはどれか、それらを読み取る際に正しく解釈する方法、
どのフォーマットをUTF-8へ引き上げるか、
新旧ファイルを明確に識別するためのバージョンフィールドやヘッダを用意するか。

無印の自動変換は危険です。問題は遅れて発覚することが多いため、ファイルにバージョンを付け、明示的に移行する方が安全です。

品質保証：Unicodeの問題を確実に検出するテスト

Unicodeの不具合はデータ依存です。したがって「ハッピーパス」だけでは不十分です。問題箇所をカバーするテストセットが必要です：

ラウンドトリップテスト：インポート→処理→エクスポート後にバイト単位比較（定義されたフォーマットの場合）。
DBラウンドトリップ：ウムラウトやアクセント、場合によっては非ラテン文字を書き込み・読み取りし同一性を確認。
インターフェーステスト：RESTリクエストをUTF-8で投げる、ヘッダ、JSONエスケープ、ロギングの検証。
回帰テスト：旧データや典型的なユーザケースを再現、特に検索・フィルタ・ソート周りを重点的に。

B2Bシステムでは、エラーが確実に観測可能であることも重要です：ログがエンコーディングを壊しては、障害時に必要な情報を失います。ログをANSIで書くような設定があるなら見直してください。

計画と工数：複雑さを本当に左右する要因

古いDelphiプロジェクトのUnicode移行工数は「コード行数」よりも結合度と外部依存で決まります：

多数の統合（DLL、COM、機器、ERP/DMS/CRM）は検証対象を増やし、各境界でのエンコーディング確認が必要になるため工数を押し上げます。
歴史的フォーマット（古いエクスポート、顧客固有のCSV）は移行ルールと互換性戦略を必要とします。
混在するDelphiバージョンや同一本体から派生した複数製品は調整コストが増えます。
古いデータアクセス層（例：BDE）はUnicode対応を間接的に阻害し、モダニゼーションを促すことがあります。

現場では、まずコアと重要なデータフローでUnicodeを安定化させ、その後モジュールごとに段階的に追従させるアプローチが有効です。これによりリスクを小さくし、Big Bang的な長期リリースを避けられます。

モダニゼーション経路への位置付け：REST、サービス、マルチプラットフォーム

Unicodeは既存ソフトウェアをモダナイズする際の基盤となることが多いです。典型的な次の検討事項：

REST-ServerやREST APIの追加（JSON/UTF-8の扱いを明確にする）。
Windows-サービスやLinux-Servicesの安定運用（ロギング、設定ファイル、プロトコル）。
段階的なUIモダナイズ（VCL）、将来的なマルチプラットフォームクライアント。

順序が重要です：新しいインターフェースを構築する前にエンコーディング規則を確定してください。インターフェース開発と並行してUnicode移行を進めると、原因と結果が混在して検証困難な不具合を生みます。

NB Magazin内の内部リンクとしては、隣接するトピック（Delphiモダニゼーション、FireDACによるデータアクセス、RESTサーバのアーキテクチャ）を深掘りした記事へ誘導すると、読者が次の技術的ステップへ移りやすくなります。

結論：Unicode移行はリスク管理の課題だが、正しい方法で計画可能である

古いDelphiプロジェクトのUnicode移行は見た目のアップグレードではなく、テキスト、バイト、インターフェースに関する基礎的な前提の是正です。構造的に進めれば「ウムラウトが直る」以上の成果が得られます：データフローが明確になり、統合が堅牢になり、後続のモダニゼーション（例：RESTサーバ、サービス、データベース整備）が容易になります。理由は、エンコーディングがもはやどこかで暗黙に行われるのではなく明確に管理されるためです。

もし貴社のDelphiアプリケーションについて具体的な移行計画、ホットスポットのリスク分析、実行支援が必要であれば、最短の次の一歩は技術的な初回面談です。枠組みと依存関係を確認しましょう：お問い合わせください。

専門領域ではDelphi Unicode MigrationやDelphi Ansi Zu Unicodeも重要なテーマであり、統合、データフロー、継続的な開発が整合するために不可欠です。

Projekt oder Modernisierungsvorhaben mit Net-Base besprechen.

古いDelphiプロジェクトのUnicode移行：落とし穴、戦略、そして確実な実装