Ab welcher Delphi-Version ist string standardmäßig Unicode?

Seit Delphi 2009 ist der Typ string standardmäßig ein UnicodeString (UTF-16). In älteren Delphi-Versionen war string ANSI-basiert und abhängig von der Systemcodepage.

Was sind die häufigsten Fehler bei der Delphi-Unicode-Migration?

Typisch sind falsche Annahmen über Länge und Speichergröße (Length vs. Bytes), Probleme bei Windows-API-Calls mit PChar, stillschweigende Encoding-Konvertierungen bei Datei-I/O sowie Drittbibliotheken, die nur ANSI unterstützen oder eigene Stringtypen nutzen.

Sollten externe Schnittstellen eher UTF-8 oder UTF-16 verwenden?

Für REST/JSON, Web-Integrationen und viele Datei- und Protokollformate ist UTF-8 üblich und interoperabel. Intern in Delphi ist UTF-16 über string/UnicodeString praktikabel. Wichtig ist, an Systemgrenzen explizit zu konvertieren und das Encoding festzulegen.

Muss bei einer Unicode-Migration auch die Datenbank geändert werden?

Nicht zwingend, aber die Datenbank- und Treiberkonfiguration muss Unicode korrekt transportieren. Kritisch sind Spaltentypen (z. B. VARCHAR vs. NVARCHAR), Charsets/Collations und Text in BLOB/Memo-Feldern ohne definierte Kodierung. Oft ist eine Bereinigung des Datenzugriffs (z. B. über FireDAC) sinnvoll.

Wie lässt sich die Migration absichern, damit keine Zeichen „still“ verloren gehen?

Durch explizite Encoding-Regeln an Ein-/Ausgängen, Roundtrip-Tests (Import→Export), Datenbank-Roundtrips mit problematischen Zeichen sowie Logging, das Unicode korrekt schreibt. Zusätzlich sollten Warnungen zu impliziten Konvertierungen nicht pauschal unterdrückt werden.

Vanade Delphi-projektide Unicode-migratsioon

Vananenud Delphi-projektide Unicode-migratsioon on paljudes ettevõtetes vajalik samm, sest muidu hakkavad olemasolevad rakendused rahvusvaheliste andmete, kaasaegsete opsüsteemide, integratsioonide ja uute liidestega järjest piiridesse jooksma. Praktikas ei ole see harva „uuesti kompileeri ja valmis“. Delphi tegi Unicode-versioonidest alates (alates Delphi 2009) põhjalikke muudatusi standardsete string-tüüpide juures. See nihutas eeldusi märgikodeeringu, mälupaigutuse ja API-signatuuride osas. Kes seda alahindab, tekitab vaikselt tekkivaid andmevigu, rikutud eksporde, selgitamata tugijuhtumeid ja turvariske.

Selles artiklis on esitatud tehniliselt põhjendatud lähenemine: kuidas analüüsida olemasolevat, lõigata scope mõistlikult, vähendada riske kuumkohtades (andmebaasid, failid, Windows-API-d, COM, REST-teenused) ja fikseerida migratsioon nii, et operatsioonid ja arendus saaksid joosta paralleelselt. Fookus on Delphi-spetsiifilistel lõksudel VCL-rakendustes, teenustes ja liidestes – silmas pidades moderniseerimisradadel sobitamist teemadega nagu BDE-asendamine koos natiivühendusega, REST-serverid või multiplatvormilisus.

Miks on Delphi Unicode-üleminek sageli „suurem kui arvati“

Klassikalistes Delphi-versioonides oli string ANSI-string (sõltuvalt süsteemi kodeeringust). Alates Delphi 2009 on string vaikimisi UnicodeString (UTF-16). Samal ajal viidi paljud teegid ja VCL-klassid üle Wide-API-dele. See on põhimõtteliselt positiivne, sest toetab rahvusvahelisi märke robustselt. Ent: pärandkood on sageli aastate jooksul üles ehitatud eelduste „1 märk = 1 bait“, „PChar on PAnsiChar“ või „Length() vastab baitide arvule“ ümber.

Tüüpilised põhjused, miks migratsioonid kulukamaks muutuvad:

Implitsiitsed konversioonid küll toimivad, kuid muudavad andmeid (eriti failide, liideste või andmebaasi BLOB-/tekstiväljade puhul).
Baitidele orienteeritud kood (streamid, puhvri käsitlemine, hashimine, krüpteerimine) muutub märkamatult valeks, kui stringi sisu tõlgitakse baitidena.
Kolmanda osapoole komponendid on osaliselt ANSI-only või kasutavad oma string-tüüpe ja callback’e.
Väline keskkond (Windows-API-d, COM, trükk/raporteerimine, EDI, CSV, XML/JSON) ootab teatud kodeeringuid.

Seetõttu ei tohiks eesmärk olla „võimalikult vähe muuta“, vaid sihtotstarbeliselt muuta seal, kus andmevood ja kodeeringud peavad määratletud olema. Puhtsüdamlik Unicode-migratsioon on ka võimalus dokumenteerida ja testida seni ebaselged kodeerimispiirid.

Tehnilised alused: Delphi string-tüübid, kodeeringud ja nende kõrvalmõjud

string, UnicodeString, AnsiString, WideString – mis projektis tegelikult loeb

Migratsiooni jaoks on määrav, milliseid tüüpe kasutatakse liidestel ja põhifunktsioonides:

string: Alates Delphi 2009 on see UnicodeString (UTF-16, reference-counted, immutable-semantic üle Copy-on-Write).
AnsiString: Baiti-põhine string koos määratletud codepage’iga (sõltuvalt Delphi-versioonist võib codepage olla seotud). Sobib, kui väline liides nõuab eksplicitset 8-bitist kodeeringut.
UTF8String: Uuemates Delphi-versioonides sageli alias/AnsiString UTF-8 codepage’iga; praktiline REST/JSON ja paljude protokollide puhul.
WideString: BSTR (COM), mälu haldab SysAllocString; tänapäeval vajalik peamiselt teatud COM-interopide jaoks.
PChar: Unicode-Delphi-järgsel ajal PWideChar. See on üks sagedasemaid murdekohti Windows-API-kõnedes.

Kui neid tüüpe segada, tekivad konversioonid. Mõned on korrektsed, mõned ootamatud: konversioon on „õige“ ainult siis, kui te teate, milline codepage on allikal ja millist sihtkoht ootab.

UTF-16 intern, UTF-8 extern: praktiline juhtmõte

VCL-rakendustes on sageli mõistlik sisemiselt järjekindlalt töötada string (UTF-16)-ga. Väliselt (REST, failid, messaging) valitseb tegelikkuses tihti UTF-8. Robustne põhimõte on seega:

Sisemiselt: string/UnicodeString standardina.
Piinipunktid: sissetulekul/-väljaminekul konverteerida eksplicitse< strong>TEncoding.UTF8 (või määratletud ANSI-codepage’idega).
Baiti-põhine töötlemine: TBytes asemel stringide kasutamise vältimine.

See vähendab implitsiitseid konversioone ja teeb vastutused kontrollitavaks: „Kus muudetakse baitidest tekstiks ja mis kodeeringuga?“

Inventuur: kus Unicode vanades Delphi-projektides tavaliselt puruneb

Enne koodi käsitlemist tasub läbi viia struktureeritud inventuur. Vanemates projektides ei ole veakohad ühtlaselt jaotunud, vaid koonduvad mõnele kuumkohale.

1) Andmebaasi ligipääs ja väljatüübid (BDE, ADO, FireDAC)

Paljud pärandprojektid kasutavad endiselt BDE või vanemaid andmebaasi-juurdepääsukihtide skeeme. Siin esinevad sageli probleemid:

Andmebaasi charset’i vastavus Delphi-stringidele (ANSI vs Unicode-väljatüübid).
„Tekst“ BLOB-ides või Memo-väljade sees ilma määratletud kodeeringuta.
SQL-laused on stringidena, mis võivad täheümberpöördel/Unicode-märkide puhul erinevalt tõlgenduda.

Kui moderniseerimine on niikuinii päevakorras, saab Unicode-migratsiooni hästi ühendada andmebaasi juurdepääsu korrastamisega, nt suunaga BDE-Ablosung mit nativer Anbindung ja selgete charset-seadistustega (näiteks PostgreSQL või MariaDB). Oluline: migratsioon ei peaks automaatselt andmebaasi migratsiooni sundima, aga DB ja Delphi vaheline liides peab olema ühemõtteline.

2) Faili- ja stream-I/O: CSV, INI, proprietaarsed formaadid, import/eksport

Klasi ka: failid loeti varem AssignFile/ReadLn, TFileStream või TStringList.LoadFromFile abil, ilma kodeeringut määramata. Unicode-Delphi-keskkonnas otsustab siis Delphi heuristlikult (BOM) või kasutab vaikimisi kodeeringuid. See põhjustab:

valesti tõlgendatud tähemärke (Ã¤, Ã¶) CSV-/logifailides,
valesid pikkusi proprietaarsetes formaatides,
kokkusobimatust väliste partneritega, kes ootavad ISO-8859-1 või Windows-1252 kodeeringut.

Puhas lahendus on iga failiformaadi puhul määratleda fikseeritud kodeering ja ankurdada see nii koodi kui dokumentatsiooni. CSV/JSON puhul on UTF-8 enamasti õige standard; vanade liideste puhul mõnikord Windows-1252. Otsustav on eksplicitse määratluse olemasolu.

3) Windows-API, PChar, puhvrisuured ja sõnumi-handling

Paljud Delphi-rakendused kutsuvad WinAPI funktsioone või töötlevad pufferitega. Sageli esinevad murdepunktid:

PChar kasutamine koos funktsioonidega, millel on ANSI- või Wide-variandid (…A/…W).
Puhverisuured arvutatakse baitides, kuid Char on UTF-16 puhul 2 baiti.
Pointer-aritmeetika ja record-paigutused, mis eeldavad 1-baidiseid charesid.

Siin on vajalik täpne refaktoreerimine: kas kasutada järjekindlalt Wide-API-sid või teadlikult kutsuda ANSI-varianti ja töötada AnsiString/codepage’iga. „Kuidasiganes kompileerub“ ei ole kvaliteedikriteerium.

4) COM, ActiveX, Office-automation ja kolmanda osapoole teegid

COM-interfaced töötavad tihti BSTR-iga (WideString). Vanemates Delphi-versioonides olid vaikimisi stringid teised ja kood „ajalooliselt“ toimis. Unicode-Delphi-keskkonnas tekivad sageli topeltkonversioonid või valed tüübieeldusega wrapper’id. Ka kolmanda osapoole teegid on kriitilised: mõned annavad callback’e PAnsiChar’ina, teised ootavad null-terminiseeritud bait-stringe.

Siin tasub sõltuvused klassifitseerida: milline teek on Unicode-ready, milline mitte ja milline on asendatav või kapseldatav? Kapseldamine on sageli kiireim viis Unicode-pärandlasti teisaldamiseks selgelt määratletud piirialale.

Strateegia: vanade Delphi-projektide Unicode-migratsioon kui kontrollitud moderniseerimisprogramm

Turvalisim lähenemine on mitmetasandiline programm, mis toob riskid varakult nähtavale ja hoiab rakenduse töövõimelisena.

Samm 1: scope määratleda ja koodi kuumkohad prioriseerida

Kõik lähtekood ei vaja kohest kohendamist. Prioriseerige andmevoo ja riski alusel:

Väljapoole suunatud liidesed (REST-API, TCP/IP, failid, e-post, trükk/raporteerimine).
Andmejuurdepääs (SQL, ORM/Datamodule, BDE/FireDAC kihid).
String-lähedased utility-funktsioonid (parserid, formatterid, encoder/decoder’id).
Integratsioonid (COM, DLL-importid, riistvaraühendused).

Tulemuseks peaks olema nimekiri kohtadest, kus „kodeering on spetsifikatsioon“. Need kohad muudetakse hiljem testitavateks.

Samm 2: kompilaatori-/projektioptsioonid ja hoiatused teravaks seadistada

Paljudes projektides on hoiatused aastate jooksul välja lülitatud. Unicode-migratsiooni puhul on see kontraproduktiivne. Mõistlik on hoiatuste taasaktiveerimine ja konversioonihoiatuste tõsiseltvõtmine. Abiks on ka projektitasandi reeglid, nt: mitte ühtegi implitsiitset AnsiString-konversiooni I/O-piiridel, TEncoding kasutamine failitoimingutes, mitte kasutada „PChar-trikke“ ilma selge kontekstita.

Samm 3: „kodeeringupiirid“ tehnilise kihina sisse tõmmata

Praktiline arhitektuurikäik on väikeste adapterite/helper’ite sisseviimine, mis täpselt määratlevad, kuidas välised andmed sisse ja välja liiguvad. Näited:

CSV-reader/-writer: alati TEncoding.UTF8 (või määratletud codepage) ja selged separatorireeglid.
REST klient/server: JSON alati UTF-8-baitidena, headerid õigesti seatud, body mitte „stringipõhiselt“ streamitud.
Windows-API-wrapper: tsentraliseeritud funktsioonid, mis kapseldavad Wide/Ansi puhtalt.

Nii takistate „kodeerimisotsuste“ hajumist üle kogu koodibaasi.

Tüüpilised koodilõksud ja kuidas neid korrektselt parandada

Length, SizeOf, ByteLength: kui märgi pikkus ja baitide suurus ei kattu

ANSI-aegadel kasutati Length(s)-i sageli baitide arvuna. UTF-16 puhul on see vale. Kui vajate bait-massiive, konverteerige eksplitsiitselt:

UTF-8 jaoks: TEncoding.UTF8.GetBytes(s)
Määratud ANSI-codepage’i jaoks: TEncoding.GetEncoding(1252).GetBytes(s) (ainult kui see on domeeni poolne nõue)

API-kõnede puhvrimõõtude puhul kontrollige, kas funktsioon ootab märgipõhiseid või bait-põhiseid ühikuid. Paljud Wide-API-d ootavad märgiloendit, mitte baite. Dokumentatsioon ja signatuur määravad, mitte intuitsioon.

PAnsiChar vs. PWideChar: DLL-importid ja välised protokollid

DLL-importide puhul on oht, et signatuurid ei sobi enam Delphi-koodiga. Määrake, mida DLL ootab:

Kui DLL ootab UTF-8, siis on tavaliseks valikuks PAnsiChar(UTF8String), kuid peate kontrollima eluea ja null-terminatsiooni olemasolu.
Kui ta ootab UTF-16, siis kasutage PWideChar ja Wide-stringe.

Igal juhul tasub importid kapseldada eraldi unit’isse, et stringipoliitika ei hajuks üle kogu projekti.

Formaatimine, case-muundused, võrdlused: locale ja normaliseerimine

Unicode toob kaasa ka semantilisi küsimusi: suurtähe-/väiketähe käsitlus ei ole kõigis keeltes triviaalne ja märgid võivad olla erinevates normaliseerimisvormides. Ettevõtterakendustes ei pruugi see olla sama kriitiline kui tarbija-tekstiredigeerimises, kuid mõjutab:

sortimist ja filtreerimist (nt grid’id või otsingufunktsioonid),
case-insensitive võrdlusi võtmetes,
failinimede või identifikaatorite genereerimist.

Oluline on selge reegel: mis on „võtmed“ (nt artikli- või kliendi‑koodid), mis peaksid püsima ASCII-laadsena, ja mis on „tekstid“, mis peavad olema täielikult Unicode-toega. See eristus vähendab järgnevaid vigu.

GUI/raporteerimine: fontid, trükk, PDF ja komponentide käitumine

VCL on Unicode-versioonidest alates põhimõtteliselt Unicode-toega, kuid praktika sõltub komponentidest ja väljundrajadest. Riskid tekivad:

vanematest raportimootoritest või PDF-generaatoritest, mis ootavad ANSI-d,
vöötkoodide/etikettide trükkimisest, mis nõuavad kindlaid codepage’e,
hardcodeeritud fontidest või märgistikest.

Planeerige varakult testid reaalse testandmestikuga (nimed, kohanimed, erimärgid, mitte‑ladina kirjaviisid, kui asjakohane). Väärtus ei ole „kas Unicode on võimalik“, vaid tõendus: „See väljund on meie kontekstis korrektne.“

Andmed ja püsivus: Unicode ei lõpe koodis

Andmebaasi charsetid ja collations korrektselt määratleda

Unicode-migratsioon on stabiilne ainult siis, kui andmebaasid ja draiverid on õigesti konfigureeritud. Näited:

PostgreSQL puhul on UTF-8 tavapärane standard; siiski tuleb kontrollida client-encodingut ja draiveri käitumist.
SQL Serveris on oluline eristada VARCHAR ja NVARCHAR; vale tulba valik võib märke kaotada.
MariaDB/MySQL puhul on charset/collation (nt utf8mb4) määrava tähtsusega, et 4-baidilised märgid ei raiutaks maha.

Delphi-koodis tuleks parameetreid ja väljatüüpe kasutada nii, et Unicode ei konverteeruks teel tagasi. FireDAC annab siin sageli parema kontrolli kui väga vanad juurdepääsukihtid.

Pärandfailiformaadid: migratsioonireeglid, mitte vaikne konversioon

Kui teie rakendus on aastate jooksul genereerinud faile (eksportformaadid, arhiivifailid, proprietaarsed struktuurid), peate määratlema:

millised olemasolevad failid jäävad „nagu on“ ja loetakse sisse õigesti?
millised formaadid tõstetakse UTF-8-i?
kas on versiooniväli/headerid, et eristada uusi ja vanu faile kindlalt?

Vaikne konverteerimine ilma märgendita on riskantne, sest vead ilmnevad sageli alles hiljem. Parem: versioonida, tuvastada selgelt ja migreerida sihipäraselt.

Kvaliteedikontroll: testid, mis Unicode-probleeme tõeliselt leiavad

Unicode-vead sõltuvad sageli andmetest. Seetõttu ei piisa „õnneliku tee“ testidest. Mõistlik on testikomplekt, mis katab probleemsed kohad:

Roundtrip-teste: import → töötlemine → eksport, seejärel bait-täpne võrdlus (määratletud formaatide puhul).
DB-roundtrip: kirjutamine/ lugemine tekstidega, mis sisaldavad täpimärke, aksente ja vajadusel mitte‑ladina märke; kontroll võrdsuse osas.
Liideste testid: REST-päringud UTF-8-is, headerid, JSON-escaping, logimine.
Regressioonid: pärandandmed ja tüüpilised kasutajavood reprodutseerida, eriti otsingu, filtri ja sortimise juures.

B2B-süsteemide jaoks on oluline ka see, et vead oleksid tuvastatavad: logimine ei tohiks kodeeringuid rikkuda. Kes kirjutab logid ANSI-s, kaotab veaolukorras täpselt need andmed, mida vaja oleks.

Planeerimine ja töömaht: mis tegelikult keerukust kasvatab

Unicode-migratsiooni töömaht vanades Delphi-projektides sõltub vähem koodiridadest ja rohkem seotud süsteemidest ning välistest sõltuvustest:

Palju integratsioone (DLL-id, COM, seadmed, ERP/DMS/CRM) suurendavad kontrolli- ja testikoormust, sest kodeeringud on olulised iga piiri juures.
Pärandiformaadid (vanad ekspordid, kliendispetsiifilised CSV-id) nõuavad migratsioonireegleid ja kompatibiliteedistrateegiaid.
Segatud Delphi-versioonid või mitu toodet ühest koodipõhjast suurendavad koordineerimisvajadust.
Vana andmejuurdepääsu kiht (nt BDE) võib Unicode’i kaudselt blokeerida ja viia moderniseerimisvajaduseni.

Tavapraktikas on osutunud toimivaks lähenemine, kus Unicode stabiliseeritakse esmalt tuumas ja kriitilistes andmevoogudes. Seejärel tõstetakse moodulid järk‑järgult järgi. See vähendab riski ja väldib pikki „Big Bang“ perioode ilma release’ita.

Sobitamine moderniseerimisradadega: REST-APId, teenused, multiplatvorm

Unicode on tihti alus, kui pärandtarkvara panna moderniseerimisrajale. Tüüpilised järgnev küsimused on:

REST-server või REST-API juurdeehitus (JSON/UTF-8 korrektne käsitlus).
Windows-teenuste või Linux-teenuste stabiilne haldus (logimine, konfiguratsioonifailid, protokollid).
järkjärguline UI-moderniseerimine VCL-is, hiljem võimalikult multiplatvorm-kliendid.

Oluline on järjekord: kui te ehitate uusi liideseid, peaksid kodeeringureeglid olema eelnevalt paika pandud. Unicode-migratsioon „vahepeal“ samal ajal kui liidesearendus tekitab kontrollimatuid veepilte, kus põhjus ja põhjuslikkus segunevad.

Siselingis sobib ajakirjas linkida lähedasi teemasid nagu Delphi-moderniseerimine, FireDAC-andmejuurdepääs või REST-serverite arhitektuur, et lugejad saaksid sihipäraselt järgmisse tehnilisse sammu liikuda.

Kokkuvõte: Unicode-migratsioon on riskiteema – õige meetod teeb selle planeeritavaks

Vananenud Delphi-projektide Unicode-migratsioon ei ole kosmeetiline uuendus, vaid parandab aluseid eeldusi teksti, baitide ja liideste kohta. Struktureeritud lähenemisega saab aga saavutada enamat kui „tähemärgid toimivad uuesti“: andmevood muutuvad ühemõttelisemaks, integratsioonid robustsemaks ja edasine moderniseerimine (nt REST-serverid, teenused, andmebaasi puhastus) lihtsamaks, sest kodeeringud ei toimu enam implitsiitselt „kusagil“.

Kui vajate oma Delphi-rakenduse jaoks konkreetset migratsiooniplaani, riskianalüüsi kuumkohtadest või abi elluviimisel, on kiireim järgmine samm tehniline esmane vestlus teie raamtingimuste ja sõltuvuste üle: Võtke ühendust.

Valdkondlikus kontekstis mängivad olulist rolli ka Delphi Unicode Migration ja Delphi Ansi Zu Unicode, kui integratsioonid, andmevood ja edasine arendus peavad puhtalt koos töötama.

Projekt või moderniseerimisettevõtmine koos Net-Base arutada.

Vanade Delphi-projektide Unicode-migratsioon: komistuskivid, strateegia ja korrektne teostus