Ab welcher Delphi-Version ist string standardmäßig Unicode?

Seit Delphi 2009 ist der Typ string standardmäßig ein UnicodeString (UTF-16). In älteren Delphi-Versionen war string ANSI-basiert und abhängig von der Systemcodepage.

Was sind die häufigsten Fehler bei der Delphi-Unicode-Migration?

Typisch sind falsche Annahmen über Länge und Speichergröße (Length vs. Bytes), Probleme bei Windows-API-Calls mit PChar, stillschweigende Encoding-Konvertierungen bei Datei-I/O sowie Drittbibliotheken, die nur ANSI unterstützen oder eigene Stringtypen nutzen.

Sollten externe Schnittstellen eher UTF-8 oder UTF-16 verwenden?

Für REST/JSON, Web-Integrationen und viele Datei- und Protokollformate ist UTF-8 üblich und interoperabel. Intern in Delphi ist UTF-16 über string/UnicodeString praktikabel. Wichtig ist, an Systemgrenzen explizit zu konvertieren und das Encoding festzulegen.

Muss bei einer Unicode-Migration auch die Datenbank geändert werden?

Nicht zwingend, aber die Datenbank- und Treiberkonfiguration muss Unicode korrekt transportieren. Kritisch sind Spaltentypen (z. B. VARCHAR vs. NVARCHAR), Charsets/Collations und Text in BLOB/Memo-Feldern ohne definierte Kodierung. Oft ist eine Bereinigung des Datenzugriffs (z. B. über FireDAC) sinnvoll.

Wie lässt sich die Migration absichern, damit keine Zeichen „still“ verloren gehen?

Durch explizite Encoding-Regeln an Ein-/Ausgängen, Roundtrip-Tests (Import→Export), Datenbank-Roundtrips mit problematischen Zeichen sowie Logging, das Unicode korrekt schreibt. Zusätzlich sollten Warnungen zu impliziten Konvertierungen nicht pauschal unterdrückt werden.

Unicode-flutningur eldri Delphi-verkefna

Unicode-flutningur eldri Delphi-verkefna er í mörgum fyrirtækjum nauðsynlegur vegna þess að eldri lausnir lenda annars í takmörkunum gagnvart alþjóðlegum gögnum, nútíma stýrikerfum, samþættingum og nýjum viðmótum. Í raun er þetta sjaldan „Recompile und fertig“. Delphi gerði frá Unicode-útgáfunum (frá Delphi 2009) grundvallarbreytingar á standard-strengjagerðum. Þar með breytast forsendur um táknkóðun, minnisskipulag og API-skráningar. Þeir sem vanmeta þetta búa til smávægileg gagnavillur, brotnar útflutningsskrár, óljósa þjónustutilkynningu og öryggisáhættu.

Þessi grein gefur tæknilega trausta vinnureglu: hvernig greina ástand, afmarka verksvið markvisst, minnka áhættu á „heitum“ stöðum (gagnagrunnar, skrár, Windows-API, COM, REST-þjónustur) og tryggja flutninginn þannig að rekstur og áframhaldandi þróun geti farið áfram samtímis. Áherslan er á Delphi-eigin fötlunaratriði í VCL-forritum, þjónustum og viðmótum – með tilliti til leiða til nútímavæðingar þar sem síðar má tengja við mál eins og BDE-Ablösung með natífri tengingu, REST-Server eða fjölpallakerfi.

Af hverju Unicode-breytingin í Delphi er oft „viðameiri en búist var við“

Í klassískum Delphi-útgáfum var string ANSI-strengur (eftir kerfiskóða). Frá Delphi 2009 er string sjálfgefið UnicodeString (UTF-16). Samhliða því voru mörg bókasöfn og VCL-flokkar færð yfir á Wide-API-aðgerðir. Þetta styður alþjóðleg tákn betur en áður. En: erfða-kóði byggir oft á forsendunum „1 tákn = 1 byte“, „PChar er PAnsiChar“ eða „Length() samsvarar fjölda bita“. Þessar forsendur brotna við.

Algengar ástæður fyrir að flutningar verða flóknari:

Óbeinar umbreytingar ganga vissulega í gegn en breyta gögnunum (sérstaklega í skrám, viðmótum eða gagnabanka-blob/textareitum).
Byte-miðuð vinnsla (Streams, Buffer, hashing, dulkóðun) verður rangtúlkuð ef inntak strengja er meðhöndlað sem óbreytt bátaflæði.
Þriðju aðila íhlutir eru stundum aðeins ANSI eða nota eigin strengjagerðir og callback-aðgerðir.
Ytri umhverfi (Windows-API, COM, prentun/rapport, EDI, CSV, XML/JSON) gerir ráð fyrir tilteknum kóðunum.

Markmiðið ætti því ekki að vera „breyta eins lítið og mögulegt er“, heldur að breyta markvisst þar sem gagnastraumar og kóðanir verða skilgreindar. Hrein Unicode-flutningur er líka tækifæri til að skjalfesta og prófa óljós mörk kóðunar.

Tæknigrunnur: Delphi-strengjagerðir, encodings og fylgikvillar

string, UnicodeString, AnsiString, WideString – hvað skiptir raunverulega máli í verkefninu

Fyrir flutninginn skiptir fjárhagslega máli hvaða gerðir eru notaðar á viðmótum og í kjarna:

string: Frá Delphi 2009 er þetta UnicodeString (UTF-16, reference-counted, með Copy-on-Write-eiginleika).
AnsiString: Byte-strengur með tilheyrandi codepage (eftir Delphi-útgáfu getur verið fylgt með codepage). Hentugt þegar ytra viðmót krefst tiltekins 8-bita kóðunar.
UTF8String: Í nýrri Delphi-útgáfum algengt sem alias/AnsiString með UTF-8-codepage; hagnýtt fyrir REST/JSON og mörg protokoll.
WideString: BSTR (COM), með stjórnaðri minni via SysAllocString; yfirleitt aðeins nauðsynlegt fyrir tiltekin COM-interop.
PChar: Síðustu Unicode-útgáfur Delphi gera það að PWideChar. Þetta er ein helsta brotstaðan við Windows-API-kall.

Ef þessar gerðir blandast verða umbreytingar. Sumir eru réttir, aðrir óvæntir: umbreyting er aðeins „rétt“ ef vitað er hvaða codepage er á uppruna og hvaða er væntanlegur áfangastaður.

UTF-16 inni, UTF-8 út: hagnýt leiðarljós

Í Delphi-VCL-forritum er oft skynsamlegt að vinna innan kerfisins með string (UTF-16). Utan kerfisins ( REST, skrár, messaging) er helst notuð UTF-8. Sterk regla er því:

Innanhúss: string/UnicodeString sem staðal.
Á mörkum: Umbreyta skýrt við inntak/úttak með TEncoding.UTF8 (eða skilgreindum ANSI-Codepages).
Báta-miðuð vinnsla: TBytes í stað strengja.

Þetta dregur úr óbeinum umbreytingum og gerir ábyrgðarsvið prófanlegt: „Hvar eru báta breytt í texta, og með hvaða Encoding?“

Stöðumat: Hvar Unicode gjarnan bilar í eldri Delphi-verkefnum

Áður en kóðinn er snertur er rétt að framkvæma skipulagða yfirlýsingu. Í Unicode-flutningi eldri Delphi-verkefna safnast villur venjulega ekki jafnt, heldur á sérstökum áhættustöðum.

1) Gagnagrunnsaðgangur og reitir (BDE, ADO, FireDAC)

Mörg eldri verkefni nota enn BDE eða elstu gagnaaðgangslag. Hér eru vandamál algeng:

Tenging gagnagrunns-charset við Delphi-strengi (ANSI vs. Unicode-reitir).
„Texti“ í BLOB- eða Memo-reitum án skilgreindrar kóðunar.
SQL-statement sem strengir sem túlkað er mismunandi við æ, Unicode-tákn.

Ef nútímavæðing er annars á dagskrá er gott tækifæri að sameina Unicode-flutning og hreinsun gagnaaðgangs, t.d. í átt að BDE-Ablosung mit nativer Anbindung og skilgreindri charset-stillingu (t.d. hjá PostgreSQL eða MariaDB). Mikilvægt: Flutningur þarf ekki sjálfkrafa að krefjast gagnagrunnsflutnings, en tengið milli DB og Delphi verður að vera ótvírætt.

2) Skráar- og Stream-I/O: CSV, INI, eigin snið, inn-/útflutningur

Algengt dæmi: Skrár voru áður lesnar/skrár með AssignFile/ReadLn, TFileStream eða TStringList.LoadFromFile án þess að kóðun væri stillt. Í Unicode-Delphi ákveður síðan Delphi heuristically (BOM) eða notar sjálfgefna kóðun. Það veldur:

röngum túlkunum á æ-myndum (Ã¤, Ã¶) í CSV/loggskrám,
rangri lengd í eigin sniðum,
ósamrýmanleika við ytri aðila sem búast við ISO-8859-1 eða Windows-1252.

Hrein lausn er að skilgreina fasta kóðun fyrir hvert snið og festa það í kóða og skjölum. Fyrir CSV/JSON er UTF-8 yfirleitt rétt staðalval, fyrir gamlar viðmótaþarfa stundum Windows-1252. Mikilvægast er skýringin.

3) Windows-API, PChar, buffer-stærðir og skilaboðameðhöndlun

Mörg Delphi-forrit kalla á WinAPI-aðgerðir eða vinna með buffer. Algengar brotstaðir:

Notkun PChar samhliða aðgerðum sem hafa ANSI- eða Wide-útgáfur (…A/…W).
Buffer-stærðir taldar í bitum, en Char er í UTF-16 tvær bytes.
Punktareiknirit (pointer-arithmetic) og Record-útlit sem byggja á 1-byte-Chars.

Hér þarf nákvæmt endurhönnun: annaðhvort nota Wide-API um alla veruna eða kalla sértækt á ANSI-útgáfuna og vinna með AnsiString/Codepage. „Það kompíleraðist einhvern veginn“ er ekki gæðastig.

4) COM, ActiveX, Office-Automation og þriðju aðila bókasöfn

COM-viðmót nota oft BSTR (WideString). Eldri Delphi-útgáfur höfðu önnur sjálfgefin strengjagildi svo kóði „passaði fyrir slysni“. Í Unicode-Delphi koma oft til tvöfalt umbreyting eða rangar gerðarforsendur í wrapper-um. Þriðju aðila bókasöfn eru líka viðkvæm: sum skila callbacks sem PAnsiChar, önnur búast við null-endaða byte-strengjum.

Hér er gagnlegt að flokka háðurnar: Hvaða bókasöfn eru Unicode-ready, hvaða ekki, og hvaða er hægt að skipta út eða loka inni? Að loka á viðmót er oft fljótlegasta leiðin til að flytja Unicode-eldfang upp í vel afmarkaða einingu.

Stefna: Unicode-flutningur eldri Delphi-verkefna sem stýrt nútímavæðingarforrit

Öryggasta leiðin er stigbundið forrit sem lætur áhættu birtast snemma og heldur forritinu keyrandi.

Skref 1: Afmarka scope og forgangsraða code-hotspotum

Ekki er allt kóðaefni þörf á að laga samstundis. Forgangsraðaðu eftir gagnastraumi og áhættu:

Viðmót út á við (REST-API, TCP/IP, skrár, póstur, prentun/rapport).
Gagnaaðgangur (SQL, ORM/Datamodule, BDE/FireDAC-lög).
Strengja-næmar utility-föll (parserar, formatterar, encoder/decoder).
Samþættingar (COM, DLL-Imports, tengingar í vélbúnað).

Útkoman ætti að vera listi yfir staði þar sem „Encoding er tilgreining“. Þessar staðsetningar gerast síðar prófanlegar.

Skref 2: Stilltu compiler-/project-options og virkjarðu viðvaranir

Í mörgum verkefnum hafa viðvaranir verið slökkt í áraraðir. Fyrir Unicode-flutning er það óhentugt. Koma skal viðvörunum aftur í gang og taka umbreytingarviðvaranir alvarlega. Auk þess er gagnlegt að setja reglur yfir allt verkefnið, t.d.: engar óbeinar AnsiString-umbreytingar á I/O-mörkum, nota TEncoding við skráa-aðgerðir, engar „PChar-trix“ án skýrs samhengis.

Skref 3: Draga upp „Encoding-mörk“ sem tæknilega lög

Einn hagnýtur arkitektúralykill er að búa til smáa adaptera/helper-aðgerðir sem skilgreina nákvæmlega hvernig utanaðkomandi gögn koma inn og fara út. Dæmi:

CSV-lesari/-skrifari: alltaf með TEncoding.UTF8 (eða skilgreindri codepage) og skýrum aðgreiningarreglum.
REST-Client/Server: JSON alltaf sem UTF-8-bitar, setja headers rétt, ekki „stringbasað“ streymi á body.
Windows-API-wrapper: miðlæg föll sem hylja Wide/Ansi á hreinan hátt.

Þannig kemur í veg fyrir að „Encoding-decisions“ dreifist um allt kóðagrindina.

Algengar kóða-fellur og hvernig lagfæra þær rétt

Length, SizeOf, ByteLength: þegar táknlengd og byte-stærð eru ekki sú sama

Í ANSI-tímum var Length(s) oft misnotað sem bytatal. Í UTF-16 er það rangt. Ef þú þarft byte-fylki, umbreyttu skýrt:

Fyrir UTF-8: TEncoding.UTF8.GetBytes(s)
Fyrir skilgreinda ANSI-codepage: TEncoding.GetEncoding(1252).GetBytes(s) (aðeins ef það er tæknilega rétt)

Fyrir buffer-stærðir í API-köllum: athugaðu hvort fallið ætlast til eininga í táknum eða bytum. Mörg Wide-API biðja um fjölda tákna, ekki byta. Handbók og undirskrift segja, ekki innsæi.

PAnsiChar vs. PWideChar: DLL-Imports og ytri protokollar

Við DLL-import er hætta á að skrár í Delphi passi ekki lengur. Ákveddu hvað DLL-in ætlast til:

Væntir DLL UTF-8? Þá er algeng leið að senda PAnsiChar(UTF8String), en þá verður þú að stjórna líftíma og null-enda.
Væntir hún UTF-16? Þá nota PWideChar og wide-strengi.

Í öllum tilvikum á að innkapsla imports í sérstöku unit svo stefna um strengjagerð breiðist ekki um allt verkefnið.

Sniðmát, case-breytingar, samanburður: locale og normalisering

Unicode kallar fram einnig merkingarlega þætti: stór/stafabreyting er ekki einfalt í öllum tungumálum, og tákn geta haft mismunandi normalform. Í fyrirtækjaforritum hefur þetta minna vægi en í neytendatexta, en það snertir:

Röðun og síun (t.d. í grids eða leitarvirkni),
Case-insensitive samanburði fyrir lykilgildi,
Myndun skráarnafna eða auðkenna.

Skýr regla er nauðsynleg: Hvað telst „lykill“ (t.d. vörunúmer, viðskiptakóða) sem ætti að halda sér ASCII-nálægt, og hvað er „texti“ sem þarf fulla Unicode-meðhöndlun? Þessi aðskilnaður minnkar afleidda vankanta.

GUI/Reporting: fonts, prentun, PDF og hegðun íhluta

VCL er frá Unicode-útgáfunum almennt Unicode-fær, en raunveruleikinn byggir á íhlutum og útgangsleiðum. Áhætta kemur fram hjá:

eldri report-engines eða PDF-generatorum sem gera ráð fyrir ANSI,
barcode-/label-prentun sem krefst tiltekinna codepages,
harðkóðaðir fontar eða stafasöfn.

Skipuleggðu snemma prófanir með raunverulegum dæmum (nöfn, staðir, sértákn, ekki-latneskar leturgerðir ef við á). Mikilvægt er ekki „geta til að sýna Unicode“ heldur að geta staðfest: „Þessi útgangur er réttur fyrir okkar samhengi.“

Gagnasöfnun og varanleiki: Unicode lýkur ekki við kóðann

Skilgreina gagnagrunns-Charsets og collations nákvæmlega

Unicode-flutningur er aðeins stöðugur ef gagnagrunnar og driverar eru rétt stilltir. Dæmi:

Í PostgreSQL er UTF-8 venjulega sjálfgefið; samt þarf að yfirfara client-encoding og driver-átferli.
Í SQL Server skiptir máli aðgreiningin á VARCHAR og NVARCHAR; rangar dálkategundir geta tapað táknum.
Í MariaDB/MySQL eru Charset/Collation (t.d. utf8mb4) nauðsynleg til að tryggja að 4-bita tákn séu ekki klippt úr.

Í Delphi-kóða ætti að nota parametrana og dálkagerðir þannig að Unicode sé ekki „afturumbreyt“ á leiðinni. FireDAC býður yfirleitt betri stjórn en mjög gamlar aðgangslagir.

Gamlar skráargerðir: reglur um flutning í stað þögullar umbreytingar

Ef forritið þitt hefur í gegnum árin framleitt skrár (útflutningssnið, arkívskrár, einkaframleiðslu), verður að skilgreina:

Hvaða eldri skrár „halda sér“ óbreyttar og eru lesnar með réttri túlkun?
Hvaða snið verða uppfærð á UTF-8?
Eru til version-reitir/headers til að greina nýjar og gamlar skrár skýrt?

Þögul umbreyting án merkingar er áhættusöm því villur rata oft fram seint. Betra er að setja útgáfusamhengi, greina og flytja markvisst.

Gæðatrygging: próf sem finna raunverulega Unicode-vandamál

Unicode-villur ráðast gjarnan af gagnasniði. Þess vegna dugar ekki einungis „Happy Path“-prófun. Hagnýtt er prófsett sem nær yfir vandamálastöðvar:

Roundtrip-próf: Import → vinnsla → export og síðan bitanákvæmur samanburður (fyrir skilgreind formöt).
DB-Roundtrip: skrifa/lesa texta með æ-merkingum, áherzlum og mögulega ekki-latneskum táknum; athuga jafngildi.
Samskiptapróf: REST-requests sem UTF-8, headers, JSON-escaping, logging.
Regression: endurskapa eldri gögn og dæmigerða notendaaðferðir, sérstaklega leitar-, sía- og röðunarvirkni.

Fyrir B2B-kerfi er ennfremur mikilvægt að villur séu sjáanlegar: logging má ekki eyðileggja kóðun. Ef loggar eru skrifaðir sem ANSI glatast nákvæmlega þær upplýsingar sem þarf til greiningar.

Skipulag og umfang: hvað raunverulega ræður flækjustigi

Úrvinnslukostnaður Unicode-flutnings í eldri Delphi-verkefnum ræðst minna af „línum af kóða“ og meira af tengingum og ytri háðum:

Margar samþættingar (DLLs, COM, tæki, ERP/DMS/CRM) auka skoðunarvinnu því kóðanir skipta máli á hverju viðmóti.
Söguleg snið (gamlar útflutningsskrár, sérsniðnar CSV) krefjast flutningsreglna og samrýmanleika.
Blandaðar Delphi-útgáfur eða mörg vörumerki úr sama kóðastofni auka samhæfingarþörf.
Eldri gagnaaðgangslag (t.d. BDE) geta óbeint hindrað Unicode-innleiðingu og réttlætt nútímavæðingu.

Í verki hefur reynst vel að festa Unicode fyrst í kjarna og í þeim gagnastreymum sem hafa mest áhrif. Síðan má draga önnur módel eftir. Þetta dregur úr áhættu og kemur í veg fyrir langar „Big Bang“-fasa án útgáfu.

Samræming við nútímavæðingarleiðir: REST, þjónustur, fjölpallaviðmót

Unicode er oft hornsteinn þegar eldri hugbúnaður á að nútímavæðast. Algengar tengdar spurningar eru:

REST-Server eða REST-API til viðbótar (JSON/UTF-8 með réttri meðhöndlun).
Rekstrarstabil Windows-Services eða Linux-Services (logging, config-skrár, protokoll).
Stigbundin UI-nútímavæðing í VCL og síðar mögulega fjölpallaviðmót.

Röðin skiptir máli: ef að þú byggir ný viðmót ætti að vera tiltekin regla um kóðun áður en þróun hefst. Unicode-flutningur „á sama tíma“ sem viðmótagerð veldur flóknum villum við greiningu þar sem orsök og áhrif blandast saman.

Fyrir innri tengingar í tímaritinu hentar að setja tengd efni um Delphi-nútímavæðingu, FireDAC-gagnaaðgang eða arkitektúr fyrir REST-Servara sem ítarlegri greinar, svo lesendur geti farið í næsta tæknilega skref.

Niðurstaða: Unicode-flutningur er áhættumál – með réttari aðferð er hann áætlanlegur

Unicode-flutningur eldri Delphi-verkefna er ekki yfirborðsbreyting heldur leiðrétting á grundvallarforsendum um texta, báta og viðmót. Sá sem fylgir skipulögðu ferli fær meira en aðeins „æ-merkingar virka aftur“: gagnastraumar verða skýrari, samþættingar stöðugri og framhaldsnútímavæðing (t.d. REST-Serverar, þjónustur, gagnabanka-hreinsun) einfaldari því kóðanir verða ekki lengur „hvar sem er“ umbreyttar.

Ef þú þarft fyrir þitt Delphi-forrit nákvæmt flutningsplön, áhættugreiningu á heitum stöðum eða aðstoð við innleiðingu er næsta skynsamlega skref að hafa tæknilegt upphafsviðtal um ramma og háðir: Hafðu samband.

Í faglegu samhengi skipta einnig máli Delphi Unicode Migration og Delphi Ansi Zu Unicode þegar samþættingar, gagnastraumar og áframhaldandi þróun þurfa að spila saman.

Projekt oder Modernisierungsvorhaben mit Net-Base besprechen.

Unicode-flutningur eldri Delphi-verkefna: gildrur, stefna og hrein útfærsla