Ab welcher Delphi-Version ist string standardmäßig Unicode?

Seit Delphi 2009 ist der Typ string standardmäßig ein UnicodeString (UTF-16). In älteren Delphi-Versionen war string ANSI-basiert und abhängig von der Systemcodepage.

Was sind die häufigsten Fehler bei der Delphi-Unicode-Migration?

Typisch sind falsche Annahmen über Länge und Speichergröße (Length vs. Bytes), Probleme bei Windows-API-Calls mit PChar, stillschweigende Encoding-Konvertierungen bei Datei-I/O sowie Drittbibliotheken, die nur ANSI unterstützen oder eigene Stringtypen nutzen.

Sollten externe Schnittstellen eher UTF-8 oder UTF-16 verwenden?

Für REST/JSON, Web-Integrationen und viele Datei- und Protokollformate ist UTF-8 üblich und interoperabel. Intern in Delphi ist UTF-16 über string/UnicodeString praktikabel. Wichtig ist, an Systemgrenzen explizit zu konvertieren und das Encoding festzulegen.

Muss bei einer Unicode-Migration auch die Datenbank geändert werden?

Nicht zwingend, aber die Datenbank- und Treiberkonfiguration muss Unicode korrekt transportieren. Kritisch sind Spaltentypen (z. B. VARCHAR vs. NVARCHAR), Charsets/Collations und Text in BLOB/Memo-Feldern ohne definierte Kodierung. Oft ist eine Bereinigung des Datenzugriffs (z. B. über FireDAC) sinnvoll.

Wie lässt sich die Migration absichern, damit keine Zeichen „still“ verloren gehen?

Durch explizite Encoding-Regeln an Ein-/Ausgängen, Roundtrip-Tests (Import→Export), Datenbank-Roundtrips mit problematischen Zeichen sowie Logging, das Unicode korrekt schreibt. Zusätzlich sollten Warnungen zu impliziten Konvertierungen nicht pauschal unterdrückt werden.

Vanhojen Delphi-projektien Unicode-migraatio

Unicode-siirtymä vanhoissa Delphi-projekteissa on monissa yrityksissä välttämätön askel, koska käytössä olevat sovellukset muuten törmäävät rajoihin kansainvälisen datan, nykyaikaisten käyttöjärjestelmien, integraatioiden ja uusien rajapintojen kanssa. Käytännössä kyse ei harvoin ole pelkästä „recompile ja valmista“. Delphi on Unicode-versioista lähtien (alkaen Delphi 2009) tehnyt perustavanlaatuisia muutoksia standardimerkkijonotyyppeihin. Tämän vuoksi oletukset merkistökoodaamisesta, muistiasettelusta ja API-signatuureista muuttuvat. Jos tätä aliarvioidaan, syntyy hiipiviä tietovirheitä, rikkinäisiä eksportteja, epäselviä tukitapauksia ja turvallisuusriskejä.

Tämä kirjoitus tarjoaa teknisesti kantavan toimintamallin: miten analysoida olemassa oleva kanta, rajata scope järkevästi, vähentää riskejä hotspot-alueilla (tietokannat, tiedostot, Windows-APIt, COM, REST-palvelut) ja varmistaa migraatio siten, että tuotanto ja jatkokehitys voivat toimia rinnakkain. Painopiste on Delphi-tyypillisissä sudenkuopissa VCL-sovelluksissa, palveluissa ja rajapinnoissa — huomioiden modernisointipolut, joihin myöhemmin voidaan sijoittaa myös aiheita kuten BDE-korvaus natiiviliitännällä, REST-serverit tai monialustaisuus.

Miksi Unicode-siirtymä Delphi:ssa on usein „isompi kuin odotettiin“

Perinteisissä Delphi-versioissa string oli ANSI-merkkijono (riippuen järjestelmän koodisivusta). Delphi 2009 -versiosta lähtien string on oletuksena UnicodeString (UTF-16). Samalla monet kirjastot ja VCL-luokat siirtyivät Wide-API:hin. Tämä on periaatteessa positiivista, koska kansainväliset merkit tulevat tuetuksi luotettavammin. Mutta: legacy-koodi on usein vuosien aikana rakentunut oletusten „1 merkki = 1 tavu“, „PChar on PAnsiChar“ tai „Length() vastaa tavumäärää“ varaan.

Tavalliset syyt siihen, miksi migraatiot paisuvat:

Implisiittiset konversiot toimivat kyllä, mutta muuttavat dataa (erityisesti tiedostojen, rajapintojen tai tietokantablobien/text-kenttien kohdalla).
Tavu-orientoitunut koodi (streamit, bufferit, hashing, salaus) toimii huomaamatta väärin, jos merkkijonojen sisältöä käsitellään tavuina.
Kolmannen osapuolen komponentit ovat osin ANSI-only tai käyttävät omia merkkijonotyyppejä ja callbackeja.
Ulkoiset ympäristöt (Windows-APIt, COM, tulostus/reporting, EDI, CSV, XML/JSON) odottavat tiettyjä enkoodauksia.

Tavoitteen ei tulisi siis olla „mahdollisimman vähän muuttaa“, vaan muuttaa kohdennetusti siellä, missä datavirrat ja enkoodaukset pitää määritellä. Puhdas Unicode-migraatio on myös mahdollisuus dokumentoida ja testata selkeästi, missä koodauksia rajoitetaan.

Tekniset perusteet: Delphi-merkkijonotyypit, enkoodaukset ja niiden sivuvaikutukset

string, UnicodeString, AnsiString, WideString – mikä projektissa oikeasti ratkaisee

Migraation kannalta ratkaisevaa on, mitä tyyppejä käytetään rajapinnoissa ja ydinfunktioissa:

string: Delphi 2009:stä lähtien UnicodeString (UTF-16, reference-counted, immutable-semantics Copy-on-Write:n kautta).
AnsiString: tavumerkkijono, johon liittyy codepage (riippuen Delphi-versiosta). Sopii tilanteisiin, joissa ulkoinen rajapinta vaatii nimenomaisesti tiettyä 8-bittistä koodausta.
UTF8String: uudemmissa Delphi-versioissa usein alias tai AnsiString UTF-8-codepagella; käytännöllinen REST/JSON- ja monille protokollille.
WideString: BSTR (COM), muistinhallinta SysAllocString:n kautta; nykyään yleensä tarpeen vain tiettyihin COM-interoppeihin.
PChar: Unicode-Delphi:sta lähtien PWideChar. Tämä on yksi yleisimmistä katkeamispisteistä Windows-API-kutsujen yhteydessä.

Kun näitä tyyppejä sekoitetaan, syntyy konversioita. Osa niistä on oikeita, osa yllättäviä: konversio on oikea vain, kun tiedät, mikä codepage lähteessä on ja mitä kohde odottaa.

UTF-16 sisäisesti, UTF-8 ulospäin: käytännöllinen periaate

VCL-sovelluksissa on usein järkevää työskennellä sisäisesti johdonmukaisesti string (UTF-16)-muodossa. Ulkopuolella (REST, tiedostot, messaging) käytännössä hallitsee usein UTF-8. Kestävä linja on siksi:

Sisäisesti: string/UnicodeString oletuksena.
Rajapinnoilla: konvertoida sisään-/ulos eksplisiittisesti TEncoding.UTF8 (tai määriteltyihin ANSI-codepageihin).
Tavu-pohjainen käsittely: TBytes stringsien sijaan.

Tämä vähentää implisiittisiä konversioita ja tekee vastuut testattaviksi: „Missä kohdassa tavut muuttuvat tekstiksi ja millä enkoodauksella?“

Inventaario: missä Unicode yleensä pettää vanhoissa Delphi-projekteissa

Ennen koodiin puuttumista kannattaa tehdä jäsennelty inventaario. Unicode-migraatioissa virhelähteet eivät jakaannu tasaisesti, vaan keskittyvät tiettyihin hotspot-pisteisiin.

1) Tietokantayhteydet ja kenttätyypit (BDE, ADO, FireDAC)

Monissa legacy-projekteissa käytetään edelleen BDE:a tai vanhempia tietokantakerroksia. Tyypilliset ongelmat ovat:

Tietokannan charsetien liittäminen Delphi-merkkijonoihin (ANSI vs. Unicode-kenttätyypit).
„Teksti“ BLOBeissa tai memo-kentissä ilman määriteltyä koodausta.
SQL-lauseet stringeinä, jotka käsittelevät umlautteja/Unicode-merkkejä eri tavoin.

Jos modernisointi on muuten ajankohtaista, Unicode-migraatio voidaan yhdistää tietokantakantakoodauksen selkeyttämiseen, esimerkiksi suuntaan BDE-Ablosung mit nativer Anbindung ja selkeään charset-konfiguraatioon (esim. PostgreSQL tai MariaDB). Tärkeää: migraatio ei automaattisesti tarkoita tietokantamuutosta, mutta DB:n ja Delphi:n välinen rajapinta on oltava yksiselitteinen.

2) Tiedosto- ja stream-I/O: CSV, INI, omat formaattiliitännät, import/export

Classic-esimerkki: tiedostoja luettiin aiemmin AssignFile/ReadLn, TFileStream tai TStringList.LoadFromFile -kutsuilla ilman, että enkoodausta asetettiin. Unicode-Delphi:ssa järjestelmä tekee heuristiikkaa (BOM) tai käyttää oletusenkoodausta. Se johtaa:

väärin tulkittuihin umlautteihin (Ã¤, Ã¶) CSV-/lokitiedostoissa,
virheellisiin pituusilmoituksiin omissa formaateissa,
yhteensopimattomuuksiin ulkoisten kumppaneiden kanssa, jotka odottavat ISO-8859-1:stä tai Windows-1252:ta.

Puhdas ratkaisu on määritellä jokaiselle tiedostomuodolle kiinteä enkoodaus ja sidota se koodiin ja dokumentaatioon. CSV/JSON:lle UTF-8 on useimmiten oikea valinta; vanhoille rajapinnoille joskus Windows-1252. Oleellista on eksplisiittisyys.

3) Windows-API, PChar, buffereiden koot ja viestinkäsittely

Monet Delphi-sovellukset kutsuvat WinAPI-funktioita tai käsittelevät buffereita. Tavallisia katkeamiskohtia:

PChar:n käyttö yhdessä funktioiden kanssa, joilla on ANSI- ja Wide-variantit (…A/…W).
Buffer-koot lasketaan tavuina, vaikka Char UTF-16:ssa on 2 tavua.
Pointer-aritmetiikka ja record-asettelut, jotka perustuvat 1-tavuisiin merkeihin.

Täällä tarvitaan tarkkaa refaktorointia: joko käyttää johdonmukaisesti Wide-API:ja tai kutsua tarkoituksella ANSI-varianttia ja käsitellä AnsiString/codepage-tilanne. „Irgendwie kompiliert“ ei ole laatuominaisuus.

4) COM, ActiveX, Office-automaatio ja kolmannen osapuolen kirjastot

COM-rajapinnat käyttävät usein BSTR:ia (WideString). Vanhemmissa Delphi-versioissa oletusmerkkijonot erosivat, joten koodi saattoi toimia „satunnaisesti“. Unicode-Delphi:ssa syntyy usein kaksoiskonversioita tai vääriä tyyppiolettamuksia wrapper-kerroksissa. Kolmannen osapuolen kirjastot ovat myös kriittinen kohta: toiset antavat callbackeja PAnsiChar-tyyppisinä, toiset odottavat nollaterminoituja tavumerkkijonoja.

Tässä kannattaa luokitella riippuvuudet: mikä kirjasto on Unicode-ready, mikä ei, ja mikä voidaan korvata tai kapseloida. Kapselointi on usein nopein tapa rajoittaa Unicode-vanhojen komponenttien vaikutus yhteen hallittuun alueeseen.

Strategia: Unicode-migraatio vanhoihin Delphi-projekteihin kontrolloituna modernisointiohjelmana

Riskiltään turvallisin tapa on monivaiheinen ohjelma, joka tekee riskit näkyviksi varhain ja pitää sovelluksen toiminnassa.

Vaihe 1: Scope määrittely ja koodin hotspotien priorisointi

Kaikki lähdekoodi ei tarvitse välittömiä muutoksia. Priorisoi datavirran ja riskin mukaan:

Ulospäin suuntautuvat rajapinnat (REST-API, TCP/IP, tiedostot, sähköposti, tulostus/reporting).
Data-access (SQL, ORM/Datamodule, BDE/FireDAC-kerrokset).
Merkkijonoihin läheisesti liittyvät utilit (parserit, formatterit, encoder/decoderit).
Integraatiot (COM, DLL-importit, laiteajurit).

Tuloksena pitäisi olla lista paikoista, joissa „enkoodaus on määritelty“. Nämä kohdat tehdään myöhemmin testattaviksi.

Vaihe 2: Kääntäjä-/projektiasetukset ja varoitukset terävöitetään

Monissa projekteissa varoituksia on hiljennetty vuosien aikana. Unicode-migraation kohdalla se on haitallista. On järkevää ottaa varoitukset uudelleen käyttöön ja käsitellä konversiovaroitukset vakavasti. Lisäksi auttaa, että projektin laajuinen sääntö määritellään, esim. ei implisiittisiä AnsiString-konversioita I/O-rajapinnoissa, TEncoding:n käyttö tiedosto-operaatioissa, eikä „PChar-temppuja“ ilman selkeää kontekstia.

Vaihe 3: „Enkoodaus-rajapinnat“ teknisenä kerroksena

Käytännöllinen arkkitehtuurikeino on tuoda pieniä adaptereita/helpertejä, jotka määrittelevät täsmällisesti, miten ulkoinen data tulee sisään ja miten se lähtee ulos. Esimerkkejä:

CSV-lukija/kirjoittaja: aina TEncoding.UTF8:lla (tai määritellyllä codepagella) ja selkeillä erottelusäännöillä.
REST-client/server: JSON aina UTF-8-tavuina, headerit oikein asetettuina, body ei „string-pohjaisesti“ streamattuna.
Windows-API-wrapper: keskitetyt funktiot, jotka kapseloivat Wide/Ansi-käsittelyn siististi.

Tällä estetään se, että „enkoodauspäätökset“ leviävät hajanaisina ympäri koodipohjaa.

Tyypilliset koodianomat ja niiden siistit korjaukset

Length, SizeOf, ByteLength: kun merkkien pituus ja tavujen määrä eroavat

ANSI-aikaan Length(s) misusedettiin usein tavumääränä. UTF-16:ssa se ei päde. Kun tarvitset tavuja, tee eksplisiittinen konversio:

UTF-8:lle: TEncoding.UTF8.GetBytes(s)
Määritellylle ANSI-codepagelle: TEncoding.GetEncoding(1252).GetBytes(s) (vain kun se on asiaan kuuluvasti oikea)

API-kutsujen buffer-kokoja määriteltäessä tarkista, odottaako funktio merkki- vai tavumittausta. Monet Wide-API:t odottavat merkkimäärää, eivät tavuja. Dokumentaatio ja signatuuri ratkaisevat, ei intuitio.

PAnsiChar vs. PWideChar: DLL-importit ja ulkoiset protokollat

DLL-importeissa vaara on, että signatuurit eivät enää vastaa. Määritelkää, mitä DLL oikeasti odottaa:

Jos DLL odottaa UTF-8:ia, siirto PAnsiChar(UTF8String) on tavallinen käytäntö, mutta elinkaaren ja nollaterminoinnin hallinta on sinun vastuullasi.
Jos DLL odottaa UTF-16:a, käytä PWideChar ja Wide-stringeja.

Importit kannattaa kapseloida erilliseen unitiin, jotta merkkipolitiikka ei leviä koko projektiin.

Formatointi, case-muunnokset, vertailu: lokaali ja normalisointi

Unicode tuo mukanaan semanttisia kysymyksiä: iso/pieni -muunnokset eivät ole kaikissa kielissä triviaaleja, ja merkit voivat esiintyä eri normalisointimuodoissa. Yrityssovelluksissa tämä on usein vähemmän kriittistä kuin kuluttajatekstinkäsittelyssä, mutta se vaikuttaa esimerkiksi:

lajitteluun ja suodatukseen (esim. ruudukot ja haku),
case-insensitive-vertailuihin avainarvoissa,
tiedostonimien tai identifierien generointiin.

Tärkeää on selkeä sääntö: mitkä ovat „avaimia“ (esim. artikkelinumerot, asiakokoodit), jotka tulisi pitää ASCII-lähestyttävänä, ja mitkä ovat „tekstejä“, joiden pitää tukea täyttä Unicodea. Tämä erottelu vähentää seurausvirheitä.

GUI/Reporting: fontit, tulostus, PDF ja komponenttien käyttäytyminen

VCL tukee periaatteessa Unicodea Unicode-versioista lähtien, mutta käytännön toimivuus riippuu komponenteista ja tuotantoreiteistä. Riski syntyy mm.:

vanhoista raporttimoottoreista tai PDF-generaattoreista, jotka olettavat ANSI:a,
viivakoodi-/etikettitulostuksesta, joka vaatii tiettyjä codepageja,
kovakoodatuista fonteista tai merkistöistä.

Suunnittele varhaisia testejä todellisilla esimerkkidatoilla (nimet, paikkakunnat, erikoismerkit, ei-latinalaiset kirjaimistot tarvittaessa). Arvo ei ole vain siinä, että „osaa Unicodea“, vaan demonstraatiossa: „Tämä output on kontekstissamme oikea.“

Data ja persistenssi: Unicode ei lopu koodiin

Tietokannan charsetit ja collations määriteltävä huolellisesti

Unicode-migraatio on vakaa vain, jos tietokannat ja ajurit on konfiguroitu oikein. Esimerkkejä:

PostgreSQL: UTF-8 on yleensä oletus; silti client-encoding ja ajurin käyttäytyminen pitää tarkistaa.
SQL Server: ero VARCHARin ja NVARCHARin välillä on oleellinen; väärä saraketyyppi voi menettää merkkejä.
MariaDB/MySQL: charset/collation (esim. utf8mb4) on ratkaiseva, jotta 4-tavuiset merkit eivät katkea.

Delphi-koodissa parametrien ja kenttätyyppien pitää olla sellaisia, ettei Unicode päädy „taaksepäin“ konvertoitavaksi. FireDAC tarjoaa tässä yleensä paremman kontrollin kuin hyvin vanhat access-kerrokset.

Legacy-tiedostomuodot: migraatiokäytännöt hiljaisen konversion sijaan

Jos sovellus on vuosien ajan tuottanut tiedostoja (eksporttiformaatit, arkistot, omat rakenteet), täytyy määritellä:

mitkä olemassa olevat tiedostot jäävät „sellaisinaan“ ja luetaan oikein,
mitkä formaatit korotetaan UTF-8:ksi,
onko olemassa versiotietoja/headereita, joilla erotetaan vanhat ja uudet tiedostot yksiselitteisesti?

Hiljainen konversio ilman merkintää on riskialtis, koska virheet ilmenevät usein myöhässä. Parempi on versionointi, tunnistus ja kohdennettu migraatio.

Laadunvarmistus: testit jotka todella löytävät Unicode-ongelmat

Unicode-virheet riippuvat usein datasta. Siksi „happy path“-testit eivät riitä. Käytännöllinen testikokonaisuus kattaa ongelmalliset kohdat:

Roundtrip-testit: import → käsittely → export ja sitten tavutarkka vertailu (kun formaatti on määritelty).
DB-roundtrip: kirjoitus/luku teksteillä, joissa on umlautteja, aksentteja ja tarpeen mukaan ei-latinalaisia merkkejä; tarkistus yhtenevyydelle.
Rajapintatestit: REST-pyynnöt UTF-8:na, headerit, JSON-escaping, lokitus.
Regressiot: vanhat datat ja tyypilliset käyttäjätapaukset toistetaan, erityisesti haku, suodatus ja lajittelu.

B2B-järjestelmissä on lisäksi tärkeää, että virheet ovat havaittavissa: lokitus ei saa tuhota enkoodaustietoa. Jos lokit kirjoitetaan ANSI:na, menetät vian selvittämiseen tarvittavat merkit.

Suunnittelu ja työmäärä: mikä todellisuudessa kasvattaa kompleksisuutta

Unicode-migraation työmäärä vanhoissa Delphi-projekteissa riippuu vähemmän koodirivien määrästä ja enemmän kytkennöistä ja ulkoisista riippuvuuksista:

Paljon integraatioita (DLL:t, COM, laitteet, ERP/DMS/CRM) lisäävät tarkistustarvetta, koska enkoodaukset ovat merkityksellisiä jokaisellä rajapinnalla.
Historialliset formaatit (vanhat eksportit, asiakkaan räätälöidyt CSV:t) vaativat migraatiokäytäntöjä ja yhteensopivuusstrategioita.
Sekä eri Delphi-versiot tai useat tuotteet samasta koodikannasta lisäävät koordinointitarvetta.
Vanhat data-access-kerrokset (esim. BDE) voivat estää Unicodea epäsuorasti ja tehdä modernisoinnista suositeltavaa.

Käytännössä hyvä tapa on ensin vakauttaa Unicode ytimeen ja kriittisimpiin datavirtoihin. Tämän jälkeen moduuleja voidaan päivittää vaiheittain. Se vähentää riskiä ja estää pitkiä „Big Bang“-jaksoja ilman releasetaajuutta.

Sijoittaminen modernisointipoluille: REST, palvelut, monialusta

Unicode on usein peruselementti, kun legacy-ohjelmistoa halutaan modernisoida. Tyypillisiä jatkokysymyksiä ovat:

REST-serverin tai REST-API:n lisääminen (JSON/UTF-8:n oikea käsittely).
Windows-palveluiden tai Linux-palveluiden vakaa ylläpito (lokitus, konfiguraatiotiedostot, protokollat).
UI:n vaiheittainen modernisointi VCL:ssä ja myöhemmin mahdollisesti monialustaisiin clientteihin siirtyminen.

Tärkeä on järjestys: kun rakennatte uusia rajapintoja, enkoodaussäännöt tulee määrittää etukäteen. Unicode-migraatio „sivutuotteena“ rajapinteja rakennettaessa johtaa vaikeasti todennettaviin virhekuvioihin, koska syy ja seuraus sekoittuvat.

Magazinissa sisäisiksi linkeiksi sopii tuoda lähiprojektiaiheita kuten Delphi-modernisointi, FireDAC-data-access tai REST-serverien arkkitehtuuri, jotta lukija voi hypätä seuraavaan tekniseen vaiheeseen.

Yhteenveto: Unicode-migraatio on riskiaihe — oikealla menetelmällä se on hallittavissa

Unicode-migraatio vanhoissa Delphi-projekteissa ei ole kosmettinen päivitys, vaan korjaus perustavanlaatuisiin oletuksiin tekstistä, tavuista ja rajapinnoista. Rakenteellisesti toimien saavutetaan enemmän kuin pelkkä „umlauttien palauttaminen“: datavirrat tulevat yksiselitteisemmiksi, integraatiot kestävämmiksi ja myöhemmät modernisointitoimet (esim. REST-serverit, palvelut, tietokantasiivous) helpottuvat, koska enkoodaukset eivät enää tapahtu satunnaisesti „jossain“.

Jos tarvitsette konkreettisen migraatioplanin teidän Delphi-sovelluksellenne, hotspottien riskianalyysin tai tukea toteutuksessa, nopein seuraava askel on tekninen alkukartoitus teidän kehys- ja riippuvuustietojen perusteella: ota yhteyttä.

Ammattikontekstissa myös Delphi Unicode Migration ja Delphi Ansi Zu Unicode ovat keskeisiä, kun integraatioiden, datavirtojen ja jatkokehityksen on toimittava yhdessä.

Projektin tai modernisointihankkeen keskusteleminen Net-Base kanssa.

Unicode-migraatio vanhoihin Delphi-projekteihin: sudenkuopat, strategia ja siisti toteutus