Málfræðisamanburður með Google

Skrifað 30. apríl 2004, kl. 06:40

Það má nota Google (eða sambærilega leitarvél) til ýmissa verka. T.d. má gera úttekt á tíðni málfræðivillna hjá ólíkum hópum netverja.

T.d. má sjá að notendur Blogspot.com segja áberandi oftar "mér langar" en netverjar almennt:

  • "mig langar": 26.200 síður
  • "mér langar": 901 síður

Villutíðni almennt: 3,32%

  • "mig langar site:blogspot.com": 3700 síður
  • "mér langar site:blogspot.com": 290 síður

Villutíðni Blogspot.com notenda: 7,27%

Hins vegar ef við skoðum misritun orðasambandsins "ég hlakka til", þá koma Blogspot notendur aðeins betur út en hin almenni netverji:

  • "Ég hlakka til": 3950 síður
  • "Ég hlakkar til": 12 síður
  • "Mér hlakka til": 42 síður
  • "Mér hlakkar til": 235 síður

Villur samtals almennt: 6,82%

  • "Ég hlakka til site:blogspot.com": 965 síður
  • "Ég hlakkar til site:blogspot.com": 0 síður
  • "Mér hlakka til site:blogspot.com": 14 síður
  • "Mér hlakkar til site:blogspot.com": 41 síður

Villur samtals hjá Blogspot.com notendum: 5,39%

Ég veit ekki með aðra, en mér finnast svona rannsóknir dáldið sniðugar.

Svo getur líka verið dáldið gaman að hreinlega lesa hvað fólk langar og til hvers það hlakkar. Með meiri vinnu væri líka hægt að skera úr um það hvort fólk sem er gott í málfræði hafi að meðaltali aðrar langanir, eða hlakki til annara hluta, en fólk sem þjáist af þágufallssýki... :-)

Einhvernveginn grunar mig að fyrr eða síðar muni einhver byggja einhverjar fræðilegar niðurstöður (t.d. BA/BS ritgerð) á tölulegum niðurstöðum fengnum úr almennri leitarvél á borð við Google.


Svör frá lesendum (9)

  1. Tóró svarar:

    Ég gríp oft til Google sem stavsetnigarorðabókar, treysti því að meirihlutinn hafi rétt fyrir sér. Yfirleitt sýnist mér hlutföllin ca. 10:1 réttu útgáfunni í vil. (Þá er ég auðvitað bara að tékka á atriðum þar sem "normal" íslendingurinn er líklegur til að lenda í vanda, ekki augljósustu villunum).

    30. apríl 2004 kl. 09:07 GMT | #

  2. Gunnar svarar:

    Mjög forvitnilegt og gleðilegt, miklu minna um villur en ég átti von á, skemmtileg afleiða af því að nota Google sem stafsetningarorðabók (slá inn mismunandi útgáfur af orði og sjá hver þeirra fær flest hit).

    30. apríl 2004 kl. 09:13 GMT | #

  3. ellipelli svarar:

    Næst verður sjálfsagt velt fyrir sér hvort rétt sé að gúgla á niðurstöðurnar eða sækja þær með gúgúl. Ég hef gaman af svona rugli, líkt því að kjammsa á góðri steik og svolgra stórt glas a miði, strjúka kviðinn klóra sér í náranum og ropa, og halla sér í sófanum og blunda um stund.

    30. apríl 2004 kl. 10:09 GMT | #

  4. Tryggvi R. Jónsson svarar:

    Ég hef líka notað google og leit.is til svona uppflettinga en slíkt byggir á þeirri forsendu að meirihlutinn hafi rétt fyrir sér, sem er því miður ekki alltaf. Ég rakst á http://www.nature.com/nsu/040419/040419-10.html þessa grein á Spurlinu í gær. Það að nota leitarvélar væri í raun bara framlenging á þessari aðferð. Það er styttra í þessa BA/BS ritgerð en þú heldur ;)

    30. apríl 2004 kl. 10:19 GMT | #

  5. Finnur svarar:

    Fyrir nokkru bjó ég til javascript sem tók við 2 orðum og opnaði svo Google í 2 römmum þar sem ég gat borið saman niðurstöðurnar. Einhver töffari gerði þetta síðan mjög smart og ég held að þeir sem hafa commentað hér hafi not af þessum hlekk: http://www.spellweb.com/

    30. apríl 2004 kl. 11:20 GMT | #

  6. Freyr svarar:

    Fyrir nákvæmlega einu ári síðan var ég með svipaðar pælingar, þá um lýsingarorðið "íraskar" og önnur -sk orð.

    Því miður reyndist það mér ekki eins gagnlegt og þágufallsrannsóknin þín.

    30. apríl 2004 kl. 14:06 GMT | #

  7. Paul svarar:

    Í nokkur ár hef ég notað Google sem íslenskt málfræðitól - alveg snilld fyrir okkur sem eru ekki með íslensku sem móðurmál (hmm ég byrjaði að segja 'sem móðurmáli' :)

    30. apríl 2004 kl. 16:25 GMT | #

  8. Skrimslan svarar:

    Kúl! :) Það vantar reyndar alveg hina skemmtilegu villu "Mig langar" inní þessa könnun...ja, nema náttúrulega hún hafi eingöngu verið ætluð þágufallssýkinni.

    Þúrt sniðugur :)

    1. maí 2004 kl. 01:05 GMT | #

  9. Steinþór Steingrímsson svarar:

    Leitarvélar hafa reyndar verið notaðar við rannsóknir í málfræði og tungutækni undanfarin ár og mér skilst að það sé mikið trend í þeim fræðum þessa dagana. Þá er reynt að nota vefinn til að bæta upp takmarkanir of lítilla "korpusa" (held það heiti "málheild" á íslensku eða eitthvað svoleiðis). Svona rannsóknir hafa verið gerðar í ýmsum tilgangi, til dæmis til að greina anafórur sem er vandamál sem fræðimenn í merkingarfræði glíma við. Einfaldari rannsóknir svipaðar þeim sem þú varst að leika þér að hafa líka verið gerðar. Einni slíkri er lýst í nokkuð aðgengilegri fræðigrein eftir Frank Keller, vísindamann við Edinborgarháskóla og samstarfsmenn hans. Greinin heitir "Using the Web to Overcome Data Sparseness" og áhugasamir geta fundið hana á Google eða Citeseer.

    Þetta eru auðvitað mjög skemmtilegar pælingar og sýna það að Netið er ekki bara nýtilegt til samskipta og upplýsingaöflunar heldur meira og minna til alls sem lýtur að tungumálum, bara ef mönnum dettur í hug nógu góðar aðferðir til að nýta sér tæknina.

    9. maí 2004 kl. 16:19 GMT | #

Þessum svarhala hefur verið lokað. Kærar þakkir til þeirra sem tóku þátt í umræðunni.


 

Flakk um vefsvæðið



 

Nýleg svör frá lesendum

  • Óli Jens (Lausnin á efnahagsvandanum)
  • Már (Lausnin á efnahagsvandanum)
  • Kjartan S (Lausnin á efnahagsvandanum)
  • Pjétur G (Lausnin á efnahagsvandanum)
  • reynir (Lausnin á efnahagsvandanum)
  • Egill (Lausnin á efnahagsvandanum)
  • Stefán (Hugmynd að gjörningi)
  • mylotarg drug (HOWTO: Fix the hCalendar and hCard accessibility and i18n problems)
  • mylotarg drug (HOWTO: Fix the hCalendar and hCard accessibility and i18n problems)
  • pamelaanderson (HOWTO: Fix the hCalendar and hCard accessibility and i18n problems)
  • Production Music (Íslenskt leitarvélaspam?)
  • ma801zda (Vélrænar þýðingar)
  • tapasbocnoa (HOWTO: Fix the hCalendar and hCard accessibility and i18n problems)
  • Siggi Palli (Vélrænar þýðingar)
  • Bjarni Rúnar (HOWTO: Fix the hCalendar and hCard accessibility and i18n problems)

 

 

Yfirlit yfir þetta skjal

(Atriðin í listanum vísa á ákveðna kafla ofar á síðunni.)