Linux для пользователя



         

Программы-перекодировщики кодовых страниц - часть 2


где :

  • <SourceFile> — исходный (нечитаемый) файл;
  • <DestFile> — перекодированный файл;
  • ? — сообщает RE, что кодировка исходного файла не известна и re должна проанализировать файл и самостоятельно определить его кодировку;
  • K — задает кодировку для результирующего файла (в данном случае KOI-8).

Если вы знаете кодировку исходного файла, вы можете указать ее вместо символа "?". Например, если вы хотите перекодировать файл letter.txt, который был создан в Windows, и вы знаете, что файл сохранен в кодировке 1251, то надо дать команду:

[user]$ re letter.txt letter-koi.txt W K

После этого, просмотрев файл letter-koi.txt, вы увидите вполне читаемый русский текст в KOI8-R.

Полный формат вызова перекодировщика:

[user]$ re options filename_from filename_to cp_from cp_to [s/d/f] [u/l/s]

где options: [-v][-E|-R|-N][-e|-s]

  • -v — выдавать информацию о ходе обработки;
  • -n — не выдавать информацию о ходе обработки (задано по умолчанию);
  • -E — преобразовывать все символы p, H из русских в английские;
  • -R — преобразовывать все символы p, H из английских в русские;
  • -N — оставлять все p, H (русские и английские) как в исходном тексте (задано по умолчанию);
  • -e — перекодировать все символы 0x80 — 0xFF;
  • -s — перекодировать только 64 символа русского алфавита (задано по умолчанию),

а cp_from и cp_to — любой из следующих символов, обозначающих возможные кодировки (по умолчанию — W,K).

Таблица 12.1. Обозначение кодировок в программе re.

Символ

Кодировка

Символ

Кодировка

W

Windows

_ (подчеркивание)

_xxe

D

Dos

%

%hex

K

KOI-8

\\

\'hex

L

Latin

G

Graph_win

I

Iso

<

binhex

H

HEX

+

+UTF7-

S

ShiftKbrd

C

C_MIC

M

Mac

Y

Y_c16

A

AFF

Z

Z_c32

O

Odd(UTF8_1)

F

F(UTF8_2)

B

Base64

P

Pict

E

Express

N

N_Estl

T

T-Html

V

V_Vpp855

U

User

X

X_sp

- (тире)

uue

J

J_diff

Как уже было сказано, если cp-from="?", то программа пытается самостоятельно определить кодировку исходного файла.

Если у вас по каким-либо причинам не оказалось ни одной из указанных программ-перекодировщиков, то для просмотра содержимого файла можно воспользоваться одним из браузеров Интернет, которые изначально ориентированы на работу с разными кодировками. Например, сгодится обычный lynx:

[user]$ lynx -assume_local_charset cp866 file.txt

Можно также загрузить "нечитаемый" файл в Netscape Navigator, после чего поменять кодировку через меню View / Character Set.




Содержание  Назад  Вперед