Üzemeltető: Blogger.
2011. február 3., csütörtök

postheadericon PRC készítés házilag 2.rész - Szövegjavítás

Szövegjavítás

A jó PRC legfontosabb feltétele a jó nyersanyag, ezért a szöveg előzetes felkészítése a legfontosabb, és nem a PRC gyártás technikai fogásai. (Az is lényeges, de mit sem ér a csinos külalak, ha a szöveg hemzseg a hibáktól.)

Kétféle módon lehet egy nyers (vagy rendezett, de még hibás) szöveget javítani: nekiülünk a hibás szövegnek és a monitor előtt görnyedve sorról sorra olvassuk-kijavítjuk-formázzuk a szöveget napokon át, vagy pedig felkészítjük "olvasás minőségig" néhány óra alatt, majd elolvassuk és kijavítjuk a maradék hibákat.

Ez az összefoglaló tulajdonképpen arra szolgál, hogy az évek során összegyűlt tapasztalatot megosszuk a vállalkozó kedvűekkel, illetve bemutassuk, hogy a gyűjtemény anyaga milyen szintű javításon esik át. Összeállítottuk tehát a mobi-felkészítés során elvégzendő szövegjavítási műveletek listáját, azaz, hogy milyen automatizmusok használatával lehet viszonylag könnyen javítani bármely szöveg minőségén. A szövegszerkesztője keresés-csere funkcióját valószínűleg mindenki ismeri, a dolog kulcsa viszont abban van, hogy mit érdemes ezzel az eszközzel keresni és javítani. Ezt olvashatjátok itt.

Az alábbi összeszedett forma hasznosnak bizonyult, hiszen egyfajta "sorvezetőnek" lehet használni a PRC-k készítése előtti hibajavításra: benne van minden, amit kötelező ellenőrizni. Az ismertetett műveleti sorrend egy "rövid program", mert egy-egy jobb minőségű anyagnál tényleg csak a hibalehetőségek ellenőrzését kell elvégezni és konkrét hibák hiányában egy-két óra alatt végig lehet szaladni egy szövegen. (Persze, ha sok hiba esetén, ez a "rövid program" is tud többórás lenni!)

A pontok sorrendje a logikailag egymásra épülő műveletek miatt alakult így. Különösebben nem részletezzük az adott lépés mögött meghúzódó logikát valamint a részletes feladat-leírást, így is elég hosszú a lista. A megadott piros keresőmintákban az írásjeleket nevükön nevezzük, a konkrétan beírandó betűk-szótöredékek vastag szedést kaptak és a pluszjel természetesen nem része a mintának. A keresőminták Office2007-nek megfelelőek. A teljeskörű csere "Az összes cseréje" gomb használatát jelenti, a lépésenkénti keresés illetve csere természetesen az egyesével való végigellenőrzésre utal a "Következő" és a "Csere" gombokkal. Sok ilyen van, hiszen a hibák nagy részét csakis az emberi döntésképesség tudja megítélni. (A teljeskörű cserék természetesen makrózhatók, de mivel a feladatsorban meghatározott helyük van, kevés vonható össze belőlük büntetlenül közös makróba.) A keresés-csere mezőibe beírandó betűkön, írásjeleken és szótöredékeken kívül az "Egyebek" gombra lenyíló panelen megtalálható a "Speciális" karakterek listája is, valamint itt adható meg a keresőminta formátuma is, ha szükséges. A leírt műveleteket mindenki a számára bevált szövegszerkesztője keresés-csere funkciójával úgy használhatja, ahogy az a modul működik. Javasolt továbbá a szövegszerkesztőben mindig bekapcsolni az összes formázási jel mutatását, nagyon megkönnyíti a szöveg szerkezeti hibáinak felderítését.

Még számos hibalehetőség és keresése van, amit a leírás nem tartalmaz. Viszont ha azokat is elkezdjük belevenni, akkor ugye már nem lehetne "rövid program". Aki a leírt műveleteket hasznosítani kívánja, bátran egészítse ki a saját eljárásaival. És a legfontosabb: ha az ellenőrzések közben (de attól függetlenül) olyan hibát találunk, ami általános a szövegben, akkor azt is javítani kell!

 
Szövegjavítási program


1. Szöveg betöltése. Belelapozás, hogy az üres sorok tényleg egy-egy újbekezdéssel vannak-e megoldva. (Ha nem így, hanem bekezdés-előtt számszerűleg megadott szünettel, akkor végig kell pörgetni a szöveget és minden ilyen pontra egy-két bekezdésjelet kell beszúrni.)

2. Oldal- és szakasztörések rendezése. Minden szakasztörést cserélj oldaltörésre, csak hogy egységes legyen. (A kéthasábos tördelés is eltűnik ettől, így ha nem PRC a terv, akkor utólag kézzel vissza kell majd állítani.) Ha van, akkor az oldaltöréseket egyesével végigkeresve töröld a feleslegeseket, a rész- és fejezet-tagolás előtt maradhat csak oldaltörés. (Mobi PRC-ben még ez is törlendő, így PRC-hez javasolt az oldaltörés => bekezdésjel+bekezdésjel+bekezdésjel teljeskörű csere) Állítsd be a dokumentumon a számodra szabványos lapméretet és margókat.

3. Ha vannak lábjegyzetek, akkor azokat javasolt átmásolással kigyűjteni a szöveg végére mobipockethez (lásd Útmutató). Viszont általános célú szövegnél a lábjegyzeteket mindenképpen a szövegszerkesztő lábjegyzetelésével érdemes nulláról újrakészíteni, hogy egységes és logikus legyen.

4. Sortörések kicserélése bekezdésjelre: sortörés => bekezdésjel (csak, hogy egységes legyen) Nagyon nyers anyag esetén érdemes megnézni a sortörés előfordulásokat, ugyanis a versrészletek esetén kívül gyakran a nyomtatott sorvégéről maradtak ott és így eleve törlendők.

5. Tabulátorok eltüntetése: tabulátor => szóköz majd a többszörös szóközök törlése a szóköz+szóköz => szóköz csere néhányszori lefuttatásával.

Kicsit a tabulátorokhoz tartozik a hibás felsorolásjelek esete. Ha azt tapasztalod, hogy a párbeszédek felsorolásjellel vannak megoldva, akkor ezt mindenképpen szüntesd meg. A probléma nehéz, egyik megoldása hogy a szöveget HTML-be mented és annak a kódjában javítasz, a másik lehetőség pedig egy makró rögzítése, ami tartalmazza a felsorolás kikapcsolását és egy mínuszjel kirakását a sor elejére. Ha ezt a makrót egy billentyűkombinációra rakod, akkor sok felesleges egérrángatástól és kattintástól menekülsz meg, bár a javítás továbbra is egyesével végignézve történik a szövegszerkesztőben.

6. A hosszú-gondolatjel és a gondolatjel lecserélése (csak, hogy egységes legyen): hosszú-gondolatjel => mínuszjel és gondolatjel => mínuszjel. A feltételes- és a nemtörhető elválasztójelek ellenőrzése, és törlése/javítása ha vannak (a feltételesek szükségtelenek, a nemtörhetők pedig a PRC-ben gondokat okoznak).

7. Jellemző OCR-hibakarakterek keresése: mínuszjel+mínuszjel, mínuszjel+szóköz+mínuszjel, ~, \, |, /, I+szóköz, J+szóköz, [, ], {, }, 1, 0, *, kalap-jel.

8. Ellenőrizd az alsó- és a felsőindexelésű betűket (üres keresőmező, csak a formátum megadásával). Valamint ellenőrizd a kiskapitális és a nagybetűs szövegrészeket, és a mobi PRC részére alakítsd át valódi nagybetűkkel írt szöveggé. (Formátum->Kisbetű-nagybetű eszköz)

9. Sorvégi- és soreleji szóközök törlése: bekezdésjel+szóköz => bekezdésjel és szóköz+bekezdésjel => bekezdésjel

10. Bekezdésvégek ellenőrzése kézi végigkereséssel és ha a félbevágott mondat miatt szükséges, akkor javítással. Keresőminták: mínuszjel+bekezdésjel, vessző+bekezdésjel és bármelybetű+bekezdésjel. Kereshető még a bármelyszám+bekezdésjel is, ez nagyon ritka eset, viszont a szövegben maradt oldalszámokat kiszúrja.

11. A speciális hárompont karakter lecserélése, hogy a későbbi műveletek egyszerűsödjenek: hárompont => pont+pont+pont.

12. A párbeszédjelek ellenőrzése és szükség esetén javítása. Keresőminták: bármelybetű+mínuszjel+szóköz, bármelybetű+mínuszjel+vessző és szóköz+mínuszjel+bármelybetű. Ha nagyon biztosra akarunk menni, érdemes ellenőrizni a pont+mínuszjel, mínuszjel+pont, vessző+mínuszjel, kérdőjel+mínuszjel és a felkiáltójel+mínuszjel kombinációkat is.

13. Párbeszédjelek visszacserélése gondolatjelre. Először a bekezdések elején: bekezdésjel+mínuszjel => bekezdésjel+gondolatjel+szóköz majd a dupla szóközöket töröljük: szóköz+szóköz => szóköz. A szövegközi előfordulások cseréi: szóköz+mínuszjel+szóköz => szóköz+gondolatjel+szóköz és szóköz+mínuszjel+vessző => szóköz+gondolatjel+vessző. Ugyanezt javasolt ellenőrizni pontosvesszőre és kettőspontra is, hátha véletlenül van ilyen a szövegben.

14. A pont-pont-pont előfordulások hibáinak javítása. Ellenőrzés a pont+vessző és a vessző+pont kombinációkra. Egy ellenőrzés, hogy van-e hosszú kipontozott rész a szövegben és ha van akkor a kezelése a mobi PRC-hez (lásd Útmutató). A négypontok lecserélése pontpontpont-ra: pont+pont+pont+pont => pont+pont+pont. A pontpontpont előtti/mögötti szóközök ellenőrzése és javítása. Sor elején és végén a szóhoz kell ragasztani, mondat közben a funkciójától függően állhat szabadon két szóköz között is, de gyakoribb itt is a szóhoz ragasztva. A keresőminták ehhez: bekezdésjel+pont+pont+pont+szóköz és szóköz+pont+pont+pont+szóköz.

15. Írásjelek előtti szóközök ellenőrzése és javítása. Keresőkombinációk: szóköz+pont, szóköz+vessző, szóköz+pontosvessző, szóköz+kettőspont, szóköz+kérdőjel és szóköz+felkiáltójel.

16. Az írásjelek rendberakása után javasolt a hárompontok visszacserélése, ugyanis szabványosabb megoldás: pont+pont+pont => hárompont.

17. Betűk közötti írásjelek ellenőrzése és javítás szükség esetén. A két legfontosabb keresőkombináció bármelybetű+pont+bármelybetű és bármelybetű+vessző+bármelybetű. Persze kereshető a felkiáltójel, kettőspont, pontosvessző, zárójel és a kérdőjel is, ha nagyon alaposak akarunk lenni.

18. A zárójelek szóköz-mentesítése: (+szóköz => ( és szóköz+) => ). Ugyanezt szögletes zárójelre is, kapcsos zárójel pedig eddigre már valószínűleg nincs a szövegben.

19. A szimpla idézőjelek (') lecserélése szimpla idézőjelekre. Kézi végiglépkedés során egyrészt ellenőrizni kell, hogy indokolt-e az aposztróf ottléte, másrészt az írógép/nyomdai beállítástól* függően az akcióval egységesre cseréljük a szimpla idézőjeleket. (*A Word-ben ez a paraméter az automatikus javításoknál állítható)

20. Dupla idézőjelek (") lecserélése dupla idézőjelre kézi végiglépkedéssel. A művelet egyrészt a jel indokoltságának megállapítására való, másrészt ellenőrizhető a nyitó- és záróelemek párjainak megléte, harmadrészt az akció itt is egységesíti a szövegben található idézőjelek formáját. Ha felesleges a macskaköröm, akkor törölni, ha viszont a párja hiányzik, akkor a logikailag megfelelő helyre azt kell kirakni.

21. Dupla kettősbetűk keresése. Keresőminták: cscs => ccs, lyly => lly, nyny => nny, szsz => ssz, tyty => tty. Alaposabb munkánál ki lehet terjeszteni a keresést a mínuszjellel elválasztott variációkra is. Ehhez a keresőminták: cs+mínuszjel+cs, ly+mínuszjel+ly, ny+mínuszjel+ny, sz+mínuszjel+sz és ty+mínuszjel+ty.

22. Szükség esetén a bentmaradt elválasztójelek keresése és törlése. Ha a korábbi műveletek során legalább egyszer összefutunk egy ilyen hibával, érdemes végignézni a bármelybetű+mínuszjel+bármelybetű kombinációt. Mivel ez rengeteg helyes találatot is kiad, javasolt a keresés előtt a leggyakoribb hibátlan találatokban (van-e, már-már, Aral-tó stb.) szereplő mínuszjeleket teljeskörű cserével mondjuk #-jelre cserélni átmenetileg. Keresőminta példák a védőkarakter-cseréhez: szóvégi előfordulásnál a "Behelyettesítés" bekapcsolásával mínuszjel+e> => #e megoldáshoz hasonlóan, állandósult szóalakoknál szimpla kereséssel a már+mínuszjel+már => már#már megoldáshoz hasonlóan, kötőjeles szavaknál és kötőjelesen ragozott neveknél a mínuszjel+tó => #tó mintához hasonlóan. Megfelelő mennyiségű helyes találat levédése után viszonylag hamar végigellenőrizhető a bármelybetű+mínuszjel+bármelybetű kombináció. A szöveg átnézése után természetesen az átmenetileg lecserélt mínuszjeleket vissza kell cserélni: # => mínuszjel.

23. Gyakori OCR-hiba a (nagy)Í helyett szereplő (kis)í. Javítása kis- és nagybetű megkülönböztetés mellet végzett egyenkénti cserével lehetséges: pont+szóköz+í => pont+szóköz+Í, kérdőjel+szóköz+í => kérdőjel+szóköz+Í, felkiáltójel+szóköz+í => felkiáltójel+szóköz+Í, bekezdésjel+í => bekezdésjel+Í és gondolatjel+szóköz+í => gondolatjel+szóköz+Í.

24. Hibás ékezetes nagybetűk (részleges) javítása. Kis- és nagybetű megkülönböztetés mellet a következők keresendők: Ügy+szóköz, Erez, Ert, Elve, Es+szóköz, En+szóköz, Alm, Am+szóköz. Főleg az Ü és Ö betűk kezelésében gyakori a tévesztés, így ha az eddigi felkészítés során sok ilyen hibával találkoztunk a szövegben, akkor érdemes vagy csak az adott ékezetes nagybetűket egyesével végigellenőrizni, vagy pedig a hibával leginkább sújtott betűkombinációkat átnézni.

25. A nagybetűs Ő, Ők Őt javítása. Keresőminták: O+szóköz, Ö+szóköz, Ó+szóköz, Ok+szóköz, Ök+szóköz, Ók+szóköz, Ot+szóköz, Öt+szóköz és Ót+szóköz. A kisbetűs ő ők őt javítása. Keresőminták: szóköz+6+szóköz, szóköz+o+szóköz, szóköz+ö+szóköz, szóköz+ó+szóköz, szóköz+ok+szóköz, szóköz+ök+szóköz, szóköz+ók+szóköz, szóköz+ot+szóköz, szóköz+öt+szóköz, és szóköz+ót+szóköz.

26. Hibás ragozások (részleges) javítása. A Behelyettesítés bekapcsolása után szóvégi előfordulások keresésével és kézi cseréjével a következő mintákkal: őén> => ően, sán> => san, dtán> => dtan, tén> => ten, ói> => ól, ői> => ől és éit> => élt. Kisbetű-nagybetű megkülönböztetéses egyszerű keresésekkel a következő betűkombinációkra: űi, úi, óit és őit.

27. Betű és szám kombinációk keresése és javítása. Keresőminták: bármelybetű+bármelyszám és bármelyszám+bármelybetű. Ha a szöveg nagyon nyers volt, akkor célszerű lehet csak a számkarakterek összes előfordulásán egyenként végiglépkedni.

28. Ékezethibás nevek javítása. A magyar nyelvre beállított OCR program hajlamos ékezettel felismerni a nevek egy részét. Ha a javítás során ilyen hibát találunk, akkor az adott pillanatban elegendő egy teendők-listába felírni. A lista alapján az automatikus javítások végén érdemes teljeskörű cserével javítani ezt is. A kisbetű-nagybetű megkülönböztetés bekapcsolásával cseréljük le a hibás neveket, például Péter => Peter, Ágnes => Agnes. Ha a név a ragozás során ékezetet kap, akkor a keresőminta csak a fix része legyen, például a Julia esetén: Júli => Juli.

29. Ha elszántak vagyunk, akkor ezen a ponton lehet egy helyesírás ellenőrzést végezni a szövegen, szigorúan csakis egyesével átnézve a hiba-találatokat, és eldöntve a teendőt (Gyakori hibáknál az összes cseréje, gyakori idegen neveknél az összes kihagyása, stb.) Ha van is a szövegszerkesztőben bármi automatizmus a helyesírási hibák javítására, ne használd! (Általánosságban pedig javasolt minden AutoJavítás és AutoFormázás funkciót kikapcsolni a szövegszerkesztőben.)

30. További átalakítások, most már Mobipocket PRC-hez (lásd Útmutató):
- stílustalanítás (használt stílusok törlése, normál stílus újradefiniálása, a normál stílus alkalmazása a teljes szövegre.)
- lap és szakasztörések törlése: oldaltörés => bekezdésjel+bekezdésjel és szakasztörés => bekezdésjel+bekezdésjel.
- ha sortöréses PRC-t készítünk, akkor bekezdésjel => sortörés teljes csere, majd sortörés+sortörés => bekezdésjel+bekezdésjel visszacserélés
- a teljes szöveg átmásolása egy üres, jól beállított stílusokkal rendelkező lapra
- a felesleges üressorok és szövegrészek törlése
- a szöveg végigpörgetése és megformázása a mobi igényei és lehetőségei szerint, végig rendszerezetten és következetesen.
- a TOC tartalomjegyzékbe kerülő fejezetcímek megjelölése (pl. címsor stílussal)
- a speciális szövegrészek átalakítása, hogy a mobin is használható legyen (pl. táblázat->normál paragrafus vagy táblázat->kép, idegen karakterek->kép stb.)
- felesleges képek törlése, a maradék átalakítása 96dpi-s használható, de kisméretű képpé
- jegyzetek hiperlinkesítése.
"Elminster"

PRC gyártás házilag 1.rész - Javaslatok
PRC gyártás házilag 2.rész - Szövegjavítás
PRC gyártás házilag 3.rész - .prc1 - Bevezető
PRC gyártás házilag 4.rész - .prc2 - Konvertálás Creator-ral
PRC gyártás házilag 5.rész - .prc3 - Tartalomjegyzék alapfokon
PRC gyártás házilag 6.rész - .prc4 - Tartalomjegyzék megoldások
PRC gyártás házilag 7.rész - .prc5 - Szövegformázás
PRC gyártás házilag 8.rész - .prc6 - HTML tisztítás
PRC gyártás házilag 9.rész - .prc7 - Karakterek és kódlapok
PRC gyártás házilag 10.rész - .prc8 - Képek kezelése
PRC gyártás házilag 11.rész - .prc9 - Linkek és jegyzetek

1 megjegyzés:

Névtelen írta...

"Ha azt tapasztalod, hogy a párbeszédek felsorolásjellel vannak megoldva"
Az itt vázolt megoldások helyett inkább ezt a macro-t javaslom:
http://word.tips.net/T001857_Converting_Lists_to_Text.html

Két estém ráment a keresésre, de végül találtam erre ezt a macro-t :)