Ab welcher Delphi-Version ist string standardmäßig Unicode?

Seit Delphi 2009 ist der Typ string standardmäßig ein UnicodeString (UTF-16). In älteren Delphi-Versionen war string ANSI-basiert und abhängig von der Systemcodepage.

Was sind die häufigsten Fehler bei der Delphi-Unicode-Migration?

Typisch sind falsche Annahmen über Länge und Speichergröße (Length vs. Bytes), Probleme bei Windows-API-Calls mit PChar, stillschweigende Encoding-Konvertierungen bei Datei-I/O sowie Drittbibliotheken, die nur ANSI unterstützen oder eigene Stringtypen nutzen.

Sollten externe Schnittstellen eher UTF-8 oder UTF-16 verwenden?

Für REST/JSON, Web-Integrationen und viele Datei- und Protokollformate ist UTF-8 üblich und interoperabel. Intern in Delphi ist UTF-16 über string/UnicodeString praktikabel. Wichtig ist, an Systemgrenzen explizit zu konvertieren und das Encoding festzulegen.

Muss bei einer Unicode-Migration auch die Datenbank geändert werden?

Nicht zwingend, aber die Datenbank- und Treiberkonfiguration muss Unicode korrekt transportieren. Kritisch sind Spaltentypen (z. B. VARCHAR vs. NVARCHAR), Charsets/Collations und Text in BLOB/Memo-Feldern ohne definierte Kodierung. Oft ist eine Bereinigung des Datenzugriffs (z. B. über FireDAC) sinnvoll.

Wie lässt sich die Migration absichern, damit keine Zeichen „still“ verloren gehen?

Durch explizite Encoding-Regeln an Ein-/Ausgängen, Roundtrip-Tests (Import→Export), Datenbank-Roundtrips mit problematischen Zeichen sowie Logging, das Unicode korrekt schreibt. Zusätzlich sollten Warnungen zu impliziten Konvertierungen nicht pauschal unterdrückt werden.

Unicode migracija senų Delphi projektų

Senų Delphi-projektų Unicode migracija daugelyje įmonių yra būtinas žingsnis, nes esamos programos kitaip susiduria su apribojimais dirbant su tarptautiniais duomenimis, moderniomis operacinėmis sistemomis, integracijomis ir naujomis sąsajomis. Praktikoje tai retai būna „perkompiliuoti ir viskas“. Delphi nuo Unicode pakeitimų (nuo Delphi 2009) atliko esminių pakeitimų standartiniuose eilučių tipuose. Dėl to keičiasi prielaidos apie simbolių kodavimą, atminties išdėstymą ir API parašus. Kas tai nuvertina, sukuria lėtai atsirandančias duomenų klaidas, sugadintus eksportus, neaiškius palaikymo atvejus ir saugumo rizikas.

Šis straipsnis pateikia techniškai pagrįstą procedūrą: kaip analizuoti esamą kodą, protingai apibrėžti apimtį, sumažinti rizikas karštuosiuose taškuose (duomenų bazės, failai, Windows-API, COM, REST-servisai) ir užtikrinti migraciją taip, kad eksploatavimas ir tolimesnė plėtra galėtų vykti paraleliai. Dėmesys skiriamas Delphi-specifinėms problemoms VCL programose, servisuose ir sąsajose – su žvilgsniu į modernizavimo kelią, kuriame vėliau gali atsirasti temos kaip BDE-pakeitimas su natūralia prijungtimi, REST-serveriai arba daugiaplatformė plėtra.

Kodėl Delphi Unicode perėjimas dažnai būna „didesnis nei tikėtasi“

Klasikinėse Delphi versijose string buvo ANSI eilutė (priklausomai nuo sistemos codepage). Nuo Delphi 2009 string pagal nutylėjimą yra UnicodeString (UTF-16). Tuo pačiu daug bibliotekų ir VCL klasių buvo perkelta į Wide-API. Tai iš esmės teigiamas pokytis, nes užtikrina tvirtesnę tarptautinių simbolių palaikymą. Tačiau: legacy kodas dažnai yra sukurtas remiantis prielaidomis „1 simbolis = 1 baitas“, „PChar yra PAnsiChar“ arba „Length() atitinka baitų skaičių“.

Tipiškos priežastys, kodėl migracijos tampa sudėtingesnės:

Implicitinės konvertacijos gal ir veikia, bet keičia duomenis (ypač failų, sąsajų ar duomenų bazės BLOB/memo laukų atvejais).
Baitų orientuotas kodas (srautai, buferiai, hashing, šifravimas) tampa neteisingas nepastebėtas, kai eilutės turinys interpretuojamas kaip baitai.
Trečiųjų šalių komponentai kartais yra tik ANSI arba naudoja savus eilučių tipus ir callback’us.
Išorinė aplinka (Windows-API, COM, spausdinimas/ataskaitos, EDI, CSV, XML/JSON) tikisi specifinių kodavimų.

Todėl tikslas neturėtų būti „pakeisti kuo mažiau“, o veikiau kryptingai pakeisti ten, kur reikia apibrėžti duomenų srautus ir kodavimus. Tvarkinga Unicode migracija taip pat yra proga aiškiai dokumentuoti ir patikrinti neapibrėžtas kodavimo ribas.

Techninės pagrindai: Delphi eilučių tipai, kodavimai ir jų pasekmės

string, UnicodeString, AnsiString, WideString – kas projekte iš tikrųjų svarbu

Migracijai yra lemiama, kokie tipai naudojami sąsajose ir pagrindinėse funkcijose:

string: Nuo Delphi 2009 tai yra UnicodeString (UTF-16, su reference-counted, immutable semantics per Copy-on-Write).
AnsiString: baitinė eilutė su priskirta codepage (priklausomai nuo Delphi versijos gali saugoti codepage). Tinka, kai išorinė sąsaja aiškiai reikalauja konkretaus 8 bitų kodavimo.
UTF8String: naujesnėse Delphi versijose dažnai alias/AnsiString su UTF-8 codepage; praktiška REST/JSON ir daugeliui protokolų.
WideString: BSTR (COM), atmintimi valdoma per SysAllocString; šiandien dažniausiai reikalinga tik tam tikram COM interop.
PChar: Unicode Delphi atveju PWideChar. Tai vienas dažniausių lūžių kvietimuose į Windows API.

Kai šie tipai maišomi, vyksta konvertacijos. Kai kurios yra teisingos, kitos – netikėtos: konvertacija yra „teisinga“ tik tada, kai žinote, kokia codepage yra šaltinyje ir ko tikisi tikslas.

UTF-16 viduje, UTF-8 išeityje: praktiškas principas

VCL programose dažnai prasminga viduje nuosekliai naudoti string (UTF-16). Išorėje (REST, failai, messaging) realybėje dominuoja UTF-8. Robustus principas:

Viduje: string/UnicodeString kaip standartas.
Ribos: įėjimo/išėjimo vietose aiškiai konvertuoti per TEncoding.UTF8 (arba apibrėžtas ANSI codepage).
Baitinė apdorojimas: naudoti TBytes vietoje Strings.

Tai sumažina implicitines konvertacijas ir leidžia aiškiai priskirti atsakomybę: „Kur baitai tampa tekstu ir kokiu kodavimu?“

Esamos bazės inventorizacija: kur Unicode senose Delphi projektuose dažniausiai iškrenta

Prieš imdamiesi kodo, verta atlikti struktūruotą inventorizaciją. Unicode migracijos klaidų šaltiniai paprastai neregi tolygiai, bet koncentruojasi keliuose karštuosiuose taškuose.

1) Duomenų bazės prieiga ir laukų tipai (BDE, ADO, FireDAC)

Daugelis senų projektų vis dar naudoja BDE ar senesnes prieigos sluoksnius. Čia dažnos problemos:

Duomenų bazės charsetų priskyrimas Delphi eilutėms (ANSI vs. Unicode laukai).
„Tekstas“ BLOB arba memo laukuose be apibrėžto kodavimo.
SQL užklausos kaip eilutės, kurios su umlautais/Unicode simboliais interpretuojamos skirtingai.

Jeigu modernizacija vis tiek planuojama, Unicode migracija gerai dera su duomenų prieigos tvarkos pertvarkymu, pvz. kryptimi į BDE-Ablosung mit nativer Anbindung ir aiškią charset konfigūraciją (pvz. PostgreSQL ar MariaDB). Svarbu: migracija neturėtų automatiškai reikšti duomenų bazės migracijos, bet sąsaja tarp DB ir Delphi turi būti aiški.

2) Failų ir srautų I/O: CSV, INI, proprietariniai formatai, importas/eksportas

Standartinis atvejis: failai anksčiau buvo skaitomi/pisomi per AssignFile/ReadLn, TFileStream arba TStringList.LoadFromFile be nurodyto kodavimo. Unicode Delphi atveju sistema tada heuristiškai sprendžia (BOM) arba naudoja numatytuosius kodavimus. Tai lemia:

klaidingai interpretuotus umlautus (Ã¤, Ã¶) CSV/log failuose,
neteisingus ilgio nurodymus proprietariuose formatuose,
nesuderinamumus su išoriniais partneriais, kurie laukia ISO-8859-1 arba Windows-1252.

Tvari sprendimo kryptis – kiekvienam failo formatui nustatyti fiksuotą kodavimą ir įtvirtinti jį kode bei dokumentacijoje. CSV/JSON atvejams UTF-8 dažnai yra tinkamas standartas, senoms sąsajoms kartais tinka Windows-1252. Sprendimas – aiškumas.

3) Windows-API, PChar, buferių dydžiai ir žinučių apdorojimas

Daugelis Delphi programų kviečia WinAPI funkcijas arba dirba su buferiais. Dažni lūžiai:

Panaudojimas PChar su funkcijomis, kurios turi ANSI arba Wide variantus (…A/…W).
Buferių dydžiai skaičiuojami baitais, bet Char UTF-16 atveju yra 2 baitai.
Pointer aritmetika ir įrašų išdėstymai, paremti 1-baito Char.

Čia reikalingas tikslus refaktoringas: arba nuosekliai naudoti Wide-API, arba sąmoningai kviesti ANSI variantą ir dirbti su AnsiString/codepage. „Kaip nors kompiliuojasi“ nėra kokybės kriterijus.

4) COM, ActiveX, Office-Automation ir trečiųjų šalių bibliotekos

COM sąsajos dažnai naudoja BSTR (WideString). Senose Delphi versijose numatytoji eilutė galėjo būti kitokia, todėl kodas „atsitiktinai“ veikė. Unicode Delphi dažnai sukelia dvigubas konvertacijas arba neteisingas tipų prielaidas wrapper’iuose. Trečiųjų šalių bibliotekos taip pat kritiškos: kai kurios pateikia callback’us kaip PAnsiChar, kitos tikisi nul-terminuotų baitinių eilučių.

Čia verta klasifikuoti priklausomybes: kuri biblioteka pasiruošusi Unicode, kuri ne, ir kurią galima pakeisti arba kapsuliuoti? Kapsuliavimas dažnai yra greičiausias būdas perkelti Unicode našta į aiškiai apibrėžtą sritį.

Strategija: senų Delphi projektų Unicode migracija kaip kontroliuojama modernizacijos programa

Saugiausias migracijos būdas – daugiaetapis programos planas, kuris anksti atskleidžia rizikas ir palaiko veikiančią programą.

Žingsnis 1: apimtis nustatyti ir kodo karštuosius taškus prioritizuoti

Nebūtina kiekvieno kodo fragmento keisti iš karto. Prioritizuokite pagal duomenų srautą ir riziką:

Išorinės sąsajos (REST-API, TCP/IP, failai, el. paštas, spausdinimas/ataskaitos).
Duomenų prieiga (SQL, ORM/Datamodule, BDE/FireDAC sluoksniai).
Eilučių artimos utilitės funkcijos (parseriai, formatteriai, encoder/decoderiai).
Integracijos (COM, DLL importai, įrenginių prijungimai).

Rezultatas turėtų būti sąrašas vietų, kur „kodavimas yra specifikacija“. Šios vietos vėliau bus padarytos testuojamos.

Žingsnis 2: kompilatoriaus/projekto parinktys ir įspėjimai griežtai įjungti

Daugybėje projektų per metus įspėjimai buvo išjungti. Unicode migracijai tai yra kontraproduktyvu. Tikslinga vėl įjungti įspėjimus ir rimtai žiūrėti į konvertavimo įspėjimus. Taip pat naudinga projektui nustatyti taisykles, pvz.: jokių implicitinių AnsiString konvertacijų I/O ribose, TEncoding naudojimas failų operacijoms, jokie „PChar triukai“ be aiškaus konteksto.

Žingsnis 3: „kodavimo ribos“ įvesti kaip techninį sluoksnį

Praprastėjantis architektūrinis sprendimas – įdiegti mažus adapterius/helperius, kurie tiksliai apibrėžia, kaip išoriniai duomenys patenka ir išeina. Pavyzdžiai:

CSV-Reader/-Writer: visada su TEncoding.UTF8 (arba apibrėžta codepage) ir aiškiomis skyriklių taisyklėmis.
REST-Client/Server: JSON visada kaip UTF-8 baitai, antraštės teisingai nustatytos, Body nestriami kaip „string“.
Windows-API-Wrapper: centrinės funkcijos, kurios tvarkingai kapsuliuoja Wide/Ansi.

Taip išvengsite situacijos, kai „kodavimo sprendimai“ išsibarsto per visą kodo bazę.

Tipinės kodo spąstai ir kaip juos tvarkingai ištaisyti

Length, SizeOf, ByteLength: kai simbolių ilgis ir baitų dydis išsiskiria

ANSI laikais Length(s) dažnai buvo neteisingai naudojamas kaip baitų skaičiaus matas. UTF-16 tai neteisinga. Jei reikia baitų masyvo, konvertuokite aiškiai:

už UTF-8: TEncoding.UTF8.GetBytes(s)
už apibrėžtą ANSI codepage: TEncoding.GetEncoding(1252).GetBytes(s) (tik jei yra funkciškai teisinga)

API kvietimų buferių dydžiams: patikrinkite, ar funkcija laukia simbolių, ar baitų vienetų. Daugelis Wide-API laukia simbolių skaičiaus, ne baitų. Sprendžia dokumentacija ir parašas, o ne intuicija.

PAnsiChar vs. PWideChar: DLL importai ir išoriniai protokolai

DLL importuose rizika didelė, nes signatūros gali nebeatitikti Delphi kodo. Nuspręskite, ko DLL tikisi:

Ar DLL laukia UTF-8? Tada perteikti kaip PAnsiChar(UTF8String) yra įprasta, bet reikia kontroliuoti gyvenimo trukmę ir nul-terminavimą.
Ar ji laukia UTF-16? Tada naudokite PWideChar ir Wide-strings.

Bet kuriuo atveju importus verta kapsuliuoti atskiroje unite, kad eilučių politika neplistų po visą projektą.

Formatavimas, didžiosios/mažosios raidės, palyginimas: lokalė ir normalizacija

Unicode taip pat atneša semantinius klausimus: didžiųjų/mažųjų raidžių tvarka nėra triviali visomis kalbomis, o simboliai gali turėti skirtingas normalizacijos formas. Tipinėse įmonių programose tai mažiau jautru nei vartotojų teksto redagavime, bet tai liečia:

rūšiavimą ir filtravimą (pvz. tinkleliuose ar paieškose),
case-insensitive palyginimus raktinėms reikšmėms,
failų vardų ar identifikatorių generavimą.

Svarbu aiški taisyklė: kas yra „raktai“ (pvz., prekės numeriai, kliento kodai), kurie turėtų likti ASCII-artimi, o kas yra „tekstai“, kuriems reikalinga pilna Unicode palaikymas? Toks atskyrimas sumažina tolesnes klaidas.

GUI/Reporting: fontai, spausdinimas, PDF ir komponentų elgsena

Nuo Unicode versijų VCL iš esmės palaiko Unicode, tačiau praktika priklauso nuo komponentų ir išvesties kelių. Rizikos kyla dėl:

senų report variklių arba PDF generatorių, kurie tikisi ANSI,
brūkšninių kodų/etiketavimo spausdinimo, reikalaujančio specifinių codepage,
griežtai užkoduotų fontų ar simbolių rinkinių.

Planuokite ankstyvus testus su realiais pavyzdiniais duomenimis (vardai, vietovės, specialūs simboliai, nelatininės abėcėlės, jei aktualu). Vertė yra ne „ar gali Unicode“, o įrodymas: „Ši išvestis mūsų kontekste yra teisinga.“

Duomenys ir saugojimas: Unicode nesibaigia prie kodo

Duomenų bazės charsetai ir collation aiškiai nustatyti

Unicode migracija yra stabili tik tada, kai duomenų bazės ir tvarkyklės yra teisingai sukonfigūruotos. Pavyzdžiai:

Pas PostgreSQL UTF-8 dažniausiai yra numatytasis; vis dėlto reikia patikrinti client_encoding ir tvarkyklės elgseną.
Pas SQL Server skirtumas tarp VARCHAR ir NVARCHAR yra reikšmingas; neteisingas stulpelio pasirinkimas gali prarasti simbolius.
Pas MariaDB/MySQL charset/collation (pvz. utf8mb4) yra lemiami, kad 4-baitų simboliai nebūtų nukerpami.

Delphi kode parametrus ir laukų tipus reikėtų naudoti taip, kad Unicode nebūtų „atgal konvertuojamas“ kelyje. FireDAC čia dažniausiai suteikia geresnę kontrolę nei labai seni prieigos sluoksniai.

Legacy failų formatai: migracijos taisyklės vietoje tylinės konvertacijos

Jeigu jūsų programa per metus sugeneravo failus (eksporto formatai, archyvai, proprietarinės struktūros), turite apibrėžti:

kurių esamų failų būseną palikti „kaip yra“ ir skaityti juos teisingai?
kuri formatai bus pakelti iki UTF-8?
ar egzistuoja versijų laukai/header’iai, leidžiantys aiškiai atskirti naujus ir senus failus?

Tylinti konvertacija be žymėjimo yra rizikinga, nes klaidos dažnai pasirodo tik vėliau. Geriau: versijuoti, atpažinti ir tiksliai migruoti.

Kokybės užtikrinimas: testai, kurie tikrai randa Unicode problemas

Unicode klaidos dažnai priklauso nuo duomenų. Todėl „Happy Path“ testų neužtenka. Tikslinga testų aibė, aprėpianti problemines vietas:

Roundtrip testai: importas → apdorojimas → eksportas, po to baitų-tikslus palyginimas (apibrėžtiems formatams).
DB-Roundtrip: rašymas/nuskaitymas tekstų su umlautais, akcentais ir galimai nelatininiais simboliais; tikrinimas ar lygybė išsaugoma.
Sąsajų testai: REST užklausos kaip UTF-8, antraštės, JSON-escapinas, loggingas.
Regresija: atkurti senus duomenis ir tipinius naudotojų scenarijus, ypač paieškoje, filtruose, rūšiavime.

B2B sistemoms taip pat svarbu, kad klaidos būtų stebimos: loggingas neturėtų naikinti kodavimo. Jei log’ai rašomi kaip ANSI, klaidos atveju prarandama reikalinga informacija.

Planavimas ir sąnaudos: kas iš tikrųjų didina sudėtingumą

Unicode migracijos senų Delphi projektų sąnaudos priklauso ne tiek nuo „kodo eilučių skaičiaus“, kiek nuo sujungimų ir išorinių priklausomybių:

Daug integracijų (DLL, COM, įrenginiai, ERP/DMS/CRM) padidina patikrinimų apimtį, nes kodavimas kiekvienoje riboje yra svarbus.
Istoriniai formatai (senos eksporto struktūros, kliento specifiniai CSV) reikalauja migracijos taisyklių ir suderinamumo strategijų.
Miksuotos Delphi versijos arba keli produktai iš vieno kodo šakos didina koordinavimo poreikį.
Senos duomenų prieigos sluoksniai (pvz. BDE) gali netiesiogiai blokuoti Unicode ir skatinti modernizaciją.

Praktikoje pasiteisina požiūris, kai Unicode pirmiausia stabilizuojamas branduolyje ir kritiniuose duomenų srautuose. Vėliau moduliai nuosekliai perkelami. Tai mažina riziką ir išvengia ilgų „Big Bang“ etapų be leidimų.

Įterpimas į modernizacijos kelius: REST, servisai, daugiaplatformiškumas

Unicode dažnai yra kertinis akmuo, jei norima modernizuoti esamą programinę įrangą. Tipiški tolesni klausimai:

REST-serveriai arba REST-API integravimas (JSON/UTF-8 teisingas tvarkymas).
Windows-servisų ar Linux-servisų stabilus valdymas (loggingas, konfig failai, protokolai).
UI nuoseklus modernizavimas VCL, vėliau galbūt daugiaplatformiai klientai.

Svarbi tvarka: prieš statant naujas sąsajas, kodavimo taisyklės turi būti nustatytos. Unicode migracija „šalia“ kuriant sąsajas sukelia sunkiai tikrinamas klaidas, nes priežastis ir pasekmė susimaišo.

Vidinei nuorodai žurnale prasminga susieti gretimas temas kaip Delphi modernizacija, FireDAC duomenų prieiga ar REST serverių architektūra kaip gilinančius straipsnius, kad skaitytojai galėtų kryptingai žengti kitą techninį žingsnį.

Išvada: Unicode migracija – rizikos tema, kuri tinkamai metodikai tampa planuojama

Senų Delphi projektų Unicode migracija nėra kosmetinis atnaujinimas, o fundamentinių prielaidų apie tekstą, baitus ir sąsajas korekcija. Struktūrizuotai atlikta, migracija duoda daugiau nei „umlautai vėl veikia“: duomenų srautai tampa aiškesni, integracijos tvirtesnės, o vėlesnė modernizacija (pvz., REST serveriai, servisai, duomenų bazės išvalymas) paprastesnė, nes kodavimai nebevyksta implicitiniu būdu „kur nors“.

Jeigu jums reikalingas konkretus migracijos planas jūsų Delphi aplikacijai, rizikų analizė karštuosiuose taškuose ar pagalba įgyvendinant, greičiausias kitas žingsnis – techninis pradinis pokalbis apie jūsų sąlygas ir priklausomybes: Kontaktas.

Profesiniame kontekste taip pat svarbios temos kaip Delphi Unicode Migration ir Delphi Ansi Zu Unicode, kai integracijos, duomenų srautai ir tolimesnė plėtra turi veikti kartu.

Projektą ar modernizavimo užduotį aptarti su Net-Base.

Unicode migracija senų Delphi projektų: spąstai, strategija ir tvarkingas įgyvendinimas