Íslenskun bókstafa í SMS blogg færslum

Skrifað 17. júlí 2003, kl. 18:26

Ég hef ákveðið að deila með ykkur reglulegu segðunum sem ég nota til að búa til sér-íslenska bókstafi í SMS skeytunum mínum.

SMS Íslenskunarkóðinn minn byggist á því að notaður sé ákveðinn ritháttur fyrir tákn á borð við Ð og Þ. Öll íslensku táknin (fyrir utan Ö) má tákna með því að setja upphrópunarmerki (!) fyrir framan viðkomandi bókstaf eða bókstafi, en að auki má nota öfuga broddstafi, s.s. à, ù, ì o.s.frv. Rithátturinn er frekar sveigjanlegur því mismunandi gerðir af farsímum hafa mis-góðan stuðning við íslenska stafi. Sumir hafa bara broddstafi með öfugum kommum, sumir hafa bara danskt Ø, sumir hafa bara lágstafi með broddi, og fæstir bjóða upp á táknin Þ og Ð.

Dæmi um notkun ritháttarins: !Ta!d er !ae!di a!d geta skrifa!d ìslensku ì SMS. H!urra fyrir reglulegum seg!dum!

Reynsla mín er sú að þessi ritháttur er auðlærður og alveg merkilega þjáll í notkun.

En svo við snúum okkur aftur að forritunarhlutanum, þá skiptist þýðingarferlið upp í 4 skref:

  1. Undirbúningur textans
  2. Íslenskun tákna
  3. Stækkun á skammstöfunum
  4. Frágangur

Eftirfarandi forritunardæmi koma beint Perl forritinu sem ég nota en tölvulæsir lesendur ættu að geta þýtt þessar skipanir yfir í hvaða forritunarmál sem er - svo fremi sem það forritunarmál býður upp textameðhöndlun með reglulegum segðum.

Skref 1. Undirbúa textann fyrir íslenskun

chomp $body;
$body =~ s/ /  /g;
$body =~ s/(\? |! |: |; |, |\. )/ $1/g;
$body = " " . $body . " ";

chomp klippir óþörf \n (lína endar) tákn aftan af textanum, og næstu línur tvöfalda öll orðabil til að að ná örugglega samliggjandi smáorðum, setja bil á undan greinamerkjum, og setja bil framan og aftan á strenginn til að leitin nái líka til fyrsta og seinasta orðs.

Skref 2. Framkvæma íslenskunina

$body =~ s/!Ae/Æ/g;
$body =~ s/!ae/æ/g;
$body =~ s/(À|!à|!A)/Á/g;
$body =~ s/(à|!a)/á/g;
$body =~ s/!D/Ð/g;
$body =~ s/!d/ð/g;
$body =~ s/!E/É/g;
$body =~ s/!e/é/g;
$body =~ s/(Ì|!ì|!I)/Í/g;
$body =~ s/(ì|!i)/í/g;
$body =~ s/(Ò|!ò|!O)/Ó/g;
$body =~ s/(ò|!o)/ó/g;
$body =~ s/(Ù|!ù|!U)/Ú/g;
$body =~ s/(ù|!u)/ú/g;
$body =~ s/Ø/Ö/g;
$body =~ s/ø/ö/g;
$body =~ s/!Y/Ý/g;
$body =~ s/!y/ý/g;
$body =~ s/!Th/Þ/g;
$body =~ s/!th/þ/g;
$body =~ s/!T/Þ/g;
$body =~ s/!t/þ/g;

Ath: Ég leyfi líka styttan rithátt !T og !t fyrir Þ og þ

Skref 3. Skilgreina nokkrar algengar skammstafanir

$body =~ s/ & / og /g;
$body =~ s/ m / með /g;
$body =~ s/ f / fyrir /g;
$body =~ s/ (a|A)d / $1ð /g;
$body =~ s/ eg / ég /g;
$body =~ s/ Eg / Ég /g;
$body =~ s/ (t|T)-póst/ $1ölvupóst/g;
$body =~ s/ (n|N)etf / $1etfang /g;

(Mér hafa enn ekki dottið neinar fleiri skammstafanir í hug. Fleiri tillögur eru þegnar með þökkum)

Skref 4. Taka til eftir okkur

$body =~ s/^\s(.+)\s$/$1/;
$body =~ s/  / /g;
$body =~ s/ (\?|!|:|;|,|\.)/$1/g;

(Fjarlægja öll auka bilin sem við settum inn í skrefi 1.)


Meira þessu líkt: Farsímablogg, Forritun.


Svör frá lesendum (4)

  1. Tóró svarar:

    smsms = (Sent með SMS).

    18. júlí 2003 kl. 00:12 GMT | #

  2. Tóró svarar:

    (eða bætist það kannski sjálfkrafa aftan við SMS sendingar?)

    18. júlí 2003 kl. 00:14 GMT | #

  3. Már Örlygsson svarar:

    Já "(Sent með SMS)" bætist sjálfkrafa aftan á færslurnar.

    18. júlí 2003 kl. 13:14 GMT | #

  4. gunnare svarar:

    Frábært framtak!

    Eitt sem ég var samt að velta fyrir mér, ég var nefnilega að prófa mig eitthvað áfram með að senda email með smsi og það virðist ekki alveg vera að ganga að senda sér íslensku stafina ð, þ og ö í gegnum 1415. Ég fæ alltaf til baka: "Thjonustan er ekki til". Ég er kannski bara að gera eitthvað rugl. Ég sendi email með því að senda sms-ið: "postur [netfang] [skilaboð] í 1415

    22. júlí 2003 kl. 00:42 GMT | #

Þessum svarhala hefur verið lokað. Kærar þakkir til þeirra sem tóku þátt í umræðunni.


 

Flakk um vefsvæðið



 

Nýleg svör frá lesendum

  • ma801zda (Vélrænar þýðingar)
  • tapasbocnoa (HOWTO: Fix the hCalendar and hCard accessibility and i18n problems)
  • Siggi Palli (Vélrænar þýðingar)
  • Bjarni Rúnar (HOWTO: Fix the hCalendar and hCard accessibility and i18n problems)
  • Unnur María (Vélrænar þýðingar)
  • Már (Vélrænar þýðingar)
  • Valdís (Vélrænar þýðingar)
  • Már (Vélrænar þýðingar)
  • Hrafnkell (Vélrænar þýðingar)
  • Már (Vélrænar þýðingar)
  • Óli Gneisti (Vélrænar þýðingar)
  • Sindri (Vélrænar þýðingar)
  • Just To Say (The Elegant, Unobtrusive Javascript Workaround for "Click to activate and use this control")
  • Finnur (hCalendar og hCard ófýsilegir staðlar fyrir íslenska vefi?)

 

 

Yfirlit yfir þetta skjal

(Atriðin í listanum vísa á ákveðna kafla ofar á síðunni.)