Неверная кодировка xml utf 8 вместо windows 1251 - Доктор Windows

Контур.Зарплата
Прочее
Вопросы

На рассмотрении

Игорь Шалдин 1 год назад

в Прочее

•

обновлен 1 год назад •

Здравствуйте.

Делаю выгрузку в Росбанк в формате XML.

Пролог файла-образца ( s_Росбанк_реестр.xml ) выглядит так:

<?xml version="1.0" encoding="UTF-8"?>

Посмотрел кодировку файла. Действительно — UTF-8.

КЗ сохраняет файл в кодировке windows-1251, и сообщает об этом в прологе:

<?xml version="1.0" encoding="windows-1251"?>

Как сохранить файл в кодировке UTF-8 и сделать запись об этом в прологе?

Сервис поддержки клиентов работает на платформе UserEcho

Источник

Air777

12.11.08 — 16:21

Как выгрузить данные в XML в кодировке отличной от UTF-8 например Windows-1251.

Парметр КодировкаXML — только для чтения! Особенно убивает абсурд

ЗаписьХМЛ=Новый ЗаписьXML()

ЗаписьХМЛ.Параметры.Кодировка — тоже только для чтения.

Хочу подружить выгрузку из 8.1 и 7.7 подскажите обходные пути если они есть. Забавно что из 7.7 выгрузить можно в любой кодировке, а вот прочитать нет. В 8.1 наоборот.

И кто писал эти функции???

KalachevDV

1 — 12.11.08 — 16:24

(0) Новый ПараметрыЗаписиXML(<Кодировка>, <Версия>, <Отступ>, <Отступ атрибутов>, <Символы отступа>)

wPa

2 — 12.11.08 — 16:25

(0) родной формат xml не поддерживает 1251. делал так

ТекстXML = Новый ТекстовыйДокумент();

Попытка

ТекстXML.Прочитать(ИмяФайла,КодировкаТекста.UTF8);

Исключение

Сообщить(«Не удалось открыть файл»);

КонецПопытки;

ТекстXML.ЗаменитьСтроку(1,»<?xml version=»»1.0″» encoding=»»windows-1251″»?>»);

ТекстXML.УстановитьТипФайла(КодировкаТекста.ANSI);

ИмяФайлаТхт=Сред(ИмяФайла,1,СтрДлина(ИмяФайла)-4);

ТекстXML.Записать(ИмяФайлаТхт+».txt»,КодировкаТекста.ANSI);

wPa

3 — 12.11.08 — 16:26

(2) ну только расширение не тхт у тебя

Air777

4 — 12.11.08 — 16:28

(1) из синтаксис-помошника:
——————————
ПараметрыЗаписиXML.Кодировка (XMLWriterSettings.Encoding)
ПараметрыЗаписиXML (XMLWriterSettings)
Кодировка (Encoding)
Использование:
Только чтение. (!!!!!)
Описание:
Тип: Строка. Кодировка, используемая при записи XML (имеет смысл при записи в файл).

KalachevDV

5 — 12.11.08 — 16:28

ЗаписьXML (XMLWriter)
ОткрытьФайл (OpenFile)
Вариант синтаксиса: По имени и типу кодировки
Описание:
Открывает файл для записи XML. Позволяет указать тип кодировки, который будет использован для записи файла XML.

И 1251 в том числе…

wPa

6 — 12.11.08 — 16:31

(5) не работает

wPa

7 — 12.11.08 — 16:32

(6) повторюсь. формат xml поддруживает только утф-8 и утф-16

KalachevDV

8 — 12.11.08 — 16:33

(7) Что ж они (СП 1С) тогда вводят в заблуждение?

Air777

9 — 12.11.08 — 16:37

(5-7) у меня реально записало в 1251 это потверждается открытием этого файла в опенофисе с принудительным указанием кодировки 1251 однако 7.7 его почему так с крокозяблами и читает

Air777

10 — 12.11.08 — 16:38

не понимаю что нужно указать чтобы эту выгрузку нормально прочитала 7.7

wPa

11 — 12.11.08 — 16:41

вот в спецификации сказано.

4.3.3 Character Encoding in Entities

Each external parsed entity in an XML document MAY use a different encoding for its characters. All XML processors MUST be able to read entities in both the UTF-8 and UTF-16 encodings. The terms «UTF-8» and «UTF-16» in this specification do not apply to character encodings with any other labels, even if the encodings or labels are very similar to UTF-8 or UTF-16.

Я не знаю — бился долго. Может у кого получилось? — у меня только так — (2)

KalachevDV

12 — 12.11.08 — 16:45

(11) Попробовал…

ЗаписьXML = Новый ЗаписьXML();
Параметры = Новый ПараметрыЗаписиXML(«cp866», «1.1», Истина, Истина);
ЗаписьXML.ОткрытьФайл(«D:data.xml», Параметры);
ЗаписьXML.ЗаписатьОбъявлениеXML();
ЗаписьXML.Закрыть();

Создал файл. В файле <?xml version=»1.1″ encoding=»cp866″?>

… если указываешь 1251 ругается…

KalachevDV

13 — 12.11.08 — 16:48

(12) А если указать кодировку «windows1251» (т.е без дефиса), то тоже проглатывает…

<?xml version=»1.1″ encoding=»windows1251″?>

Air777

14 — 12.11.08 — 16:49

а вот это вообще за пределами моего понимания: на англоязычном серванте с муи загрузка-выгрузка идет на ура в любой кодировке! А вот с англоязычной на рускоязычную ХР сабж.

wPa

15 — 12.11.08 — 16:55

(13) Так что работает? Открывается xml?

KalachevDV

16 — 12.11.08 — 17:02

(15) не пробовал открывать…
Вот попробовал под win2003 английским с указанием кодировки именно «windows-1251″…
Результат — <?xml version=»1.1″ encoding=»windows-1251″?>.

Щас попробую сформировать чтонить простенькое и открыть…

wPa

17 — 12.11.08 — 17:05

открой в IE каком нидь )

KalachevDV

18 — 12.11.08 — 17:08

(17) сформировал вот такой файлик

<?xml version=»1.0″ encoding=»windows-1251″?>
<Проверка>
<Работает/>
</Проверка>

IE открыл… я думал ты спрашивал, открывает ли его 7.7

KalachevDV

19 — 12.11.08 — 17:12

(17) а вот 7.7 под рукой нет… Проверить не могу, мож Air777 попробует…

Кстати, файл формировался под win2003 английским. Открывался в нем же и в Vista русской… Под вистой обработка по формированию файла вылетает с ошибкой — «Неверная кодировка»

KalachevDV

20 — 12.11.08 — 17:27

+(19) В общем итого, мож кому пригодиться… Следующий код формирует файл xml в кодировке «windows-1251». IE его корректно открывает. Что в Висте что в 2003 сервере.

ЗаписьXML = Новый ЗаписьXML();
Параметры = Новый ПараметрыЗаписиXML(«windows-1251», «1.0», Истина, Истина);
ЗаписьXML.ОткрытьФайл(«D:data.xml», Параметры);
ЗаписьXML.ЗаписатьОбъявлениеXML();
ЗаписьXML.ЗаписатьНачалоЭлемента(«Проверка»);
ЗаписьXML.ЗаписатьНачалоЭлемента(«Работает»);
ЗаписьXML.ЗаписатьКонецЭлемента();
ЗаписьXML.ЗаписатьКонецЭлемента();
ЗаписьXML.Закрыть();

Источник

Здравствуйте, братья! Сегодня наткнулся на непонятную проблему. Я перевёл свой Java проект с maven’a на graddle. И всё хорошо, но почему-то XML файлы стали сохранятся в неправильной кодировке… При сохранении их в UTF-8 получается вот это:

<?xml version="1.0" encoding="utf-8"?>
<sky>
  <mechanism name="33">
    <abilities>
      <ability name="�����������1" />
      <ability name="22" />
    </abilities>
  </mechanism>
</sky>

А при сохранении в windows-1251 вот это:

<?xml version="1.0" encoding="windows-1251"?>
<sky>
  <mechanism name="33">
    <abilities>
      <ability name="Проверка" />
      <ability name="22" />
    </abilities>
  </mechanism>
</sky>

Эти файлы генерируются моей программой в автоматическом режиме с помощью этого метода:

public void save(String path) throws IOException
	{
		Document document = new Document();
		document.setRootElement(getXMLElement());

		XMLOutputter outputter = new XMLOutputter();
		outputter.setFormat(Format.getPrettyFormat().setEncoding("windows-1251")); //utf-8 здесь работает неверно
		outputter.output(document, new FileWriter(path));
	}

Т.е. при сохранении в windows-1251 всё нормально, а при utf-8 — кракозябры. Такого раньше не было. Сначала я подумал что это криво работает библиотека для парсинга XML. Я использовал dom4j. Но затем я перешел на jdom2 и ситуация осталась прежней. Сохраненный программой файл ей же не открывается. Однако если вручную исправить xml-файл, то всё нормально. Я подозреваю что хотя кодировка выставлена в utf-8 программа всё-равно пишет в windows-1251. Видимо проблема где-то в настройках проекта, но где — я ума не приложу. Я использую Intellij IDEA. Помогите пожалуйста!

Источник

Содержание

Информационные технологии, интернет, веб программирование, IT, Hi-Tech, …
Кодировка XML
Ошибки Кодировки XML
Блокнот Windows
Выводы
I. Коротко об XML¶
Введение в XML¶
Структура XML¶
Правила синтаксиса (Валидность)¶
Сущности¶
Поиск информации в XML файлах (XPath)¶
Кодировки¶
XSD схема¶
Кодировка в XML документе
Символьная кодировка
Юникод
Кодировка XML документа
Ошибки XML
Заключение
forum.clarionlife.net
XML-файлы в кодовой таблице Windows-1251
Как изменить кодировку текстового файла на UTF-8 или Windows 1251
Блокнот Windows
Notepad++
Akelpad

Информационные технологии, интернет, веб программирование, IT, Hi-Tech, …

Кодировка XML

Здравствуйте, уважаемые посетители сайта okITgo.ru! Продолжаем рассматривать язык разметки XML.

XML документы могут содержать символы, не входящие в ASCII, например норвежские, или французские.

Чтобы избежать ошибок, указывайте кодировку XML, или сохраняйте XML файлы в формате Уникод.

Ошибки Кодировки XML

При загрузке XML документа, Вы можете получить две различные ошибки, указывающие на проблемы с кодировкой:

Неправильный символ был найден в текстовом содержимом.

Вы получаете эту ошибку, если ваш XML содержит символы, не входящие в ASCII, и файл был сохранен как однобайтовый ANSI (или ASCII) без указания кодировки.

Переключение из текущей кодировки в указанную кодировку не поддерживается.

Вы получаете эту ошибку, если ваш XML файл был сохранен как двухбайтовый Уникод (или UTF-16) с указанной однобайтовой кодировкой (например, Windows-1251,
ISO-8859-1, UTF-8).

Вы также получаете эту ошибку, если ваш XML файл был сохранен как однобайтовый ANSI (или ASCII) с указанной двухбайтовой кодировкой (например, UTF-16).

Блокнот Windows

Блокнот Windows сохраняет файлы как однобайтовые ANSI (ASCII) по умолчанию.

Если Вы выберите «Сохранить как…», Вы можете указать двухбайтовый Уникод (UTF-16).

Сохраните XML файл ниже как Уникод (заметьте, что документ не содержит атрибута кодировки):

Света
Вася
Позвони мне завтра!

Файл выше, note_encode_none_u.xml НЕ будет генерировать ошибку. Но если Вы укажете однобайтовую кодировку, то будет.

Кодировка (откройте файл), вызовет сообщение об ошибке:

Следующая кодировка (откройте файл), вызовет сообщение об ошибке:

Следующая кодировка (откройте файл), НЕ будет генерировать ошибку:

Выводы

Источник

I. Коротко об XML¶

Введение в XML¶

XML ( англ. eXtensible Markup Language) — расширяемый язык разметки, предназначенный для хранения и передачи данных.

Простейший XML-документ выглядит следующим образом:

Документ XML состоит из элементов (elements). Элемент начинается открывающим тегом (start-tag) в угловых скобках, затем идет содержимое (content) элемента, после него записывается закрывающий тег (end-teg) в угловых скобках.

Некоторые элементы, не содержащие значений, допустимо записывать без закрывающего тега. В таком случае символ / ставится в конце открывающего тега:

Структура XML¶

XML документ должен содержать корневой элемент. Этот элемент является «родительским» для всех других элементов.

Все элементы в XML документе формируют иерархическое дерево. Это дерево начинается с корневого элемента и разветвляется на более низкие уровни элементов.

Все элементы могут иметь подэлементы (дочерние элементы):

Правила синтаксиса (Валидность)¶

Основные правила синтаксиса XML:

Открывающий и закрывающий теги должны определяться в одном регистре:

Сущности¶

Некоторые символы в XML имеют особые значения и являются служебными. Если вы поместите, например, символ внутри XML элемента, то будет сгенерирована ошибка, так как парсер интерпретирует его, как начало нового элемента.

Также ошибка будет сгенерирована и в слудющем примере, если название организации взять в обычные кавычки (английские двойные):

Чтобы ошибки не возникали, нужно заменить символ на его сущность. В XML существует 5 предопределенных сущностей:

Сущность	Символ	Значение
меньше, чем
>	>	больше, чем
&	&	амперсанд
‘	‘	апостроф
«	«	кавычки

Таблица I.1 — Сущности ¶

Только символы и & строго запрещены в XML. Символ > допустим, но лучше его всегда заменять на сущность.

Таким образом, корректными будут следующие формы записей:

В последнем примере английские двойные кавычки заменены на французские кавычки («ёлочки»), которые не являются служебными символами.

Поиск информации в XML файлах (XPath)¶

XPath ( англ. XML Path Language) — язык запросов к элементам XML-документа. XPath расширяет возможности работы с XML.

XML имеет древовидную структуру. В документе всегда имеется корневой элемент (инструкция version=”1.0”?> к дереву отношения не имеет). У элемента дерева всегда существуют потомки и предки, кроме корневого элемента, у которого предков нет, а также тупиковых элементов (листьев дерева), у которых нет потомков. Каждый элемент дерева находится на определенном уровне вложенности (далее — «уровень»). У элементов на одном уровне бывают предыдущие и следующие элементы.

Это очень похоже на организацию каталогов в файловой системе, и строки XPath, фактически, — пути к «файлам» — элементам. Рассмотрим пример списка книг:

XPath запрос /bookstore/book/price вернет следующий результат:

Чтобы получить больше информации, необходимо модифицировать запрос //book[title[@lang=»it»]] вернет:

В приведенной ниже таблице представлены некоторые выражения XPath и результат их работы:

Кодировки¶

И еще один важный момент, который стоит рассмотреть — кодировки. Существует множество кодировок, о них подробнее можно прочитать в статье Набор символов.

В XML файле кодировка объявляется в декларации:

Часто можно столкнуться с ситуацией, когда текстовый редаткор некорректно распознает кодировку и отображает кракозябры. В такой случае, необходимо выбрать кодировку вручную, для этого выполните:

Программа	Кодировка
Notepad++	«Документ → Кодировка»
Geany	«Документ → Установить кодировку»
Firefox	«Вид → Кодировка»
Chrome	«Настройка → Дополнительные инструменты → Кодировка»

Таблица I.3 — Смена кодировки в разных программах ¶

Если ничего не помогает, вполне возможно, что файл был поврежден.

XSD схема¶

XML Schema — язык описания структуры XML-документа, его также называют XSD. Как большинство языков описания XML, XML Schema была задумана для определения правил, которым должен подчиняться документ. Но, в отличие от других языков, XML Schema была разработана так, чтобы её можно было использовать в создании программного обеспечения для обработки документов XML.

После проверки документа на соответствие XML Schema читающая программа может создать модель данных документа, которая включает:

Каждый элемент в этой модели ассоциируется с определённым типом данных, позволяя строить в памяти объект, соответствующий структуре XML-документа. Языкам объектно-ориентированного программирования гораздо легче иметь дело с таким объектом, чем с текстовым файлом.

Подробнее об XSD смотрите:

Примером использования XSD cхем может служить электронная отчетность:

Источник

Кодировка в XML документе

XML документы могут содержать символы в различных международных кодировках.

Чтобы не возникало ошибок, необходимо указывать, какая кодировка используется в XML документе, либо сохранять файл в универсальной кодировке UTF-8.

Символьная кодировка

Символьная кодировка определяет уникальный бинарный код для различных символов, используемых в документе.

В компьютерных терминах символьную кодировку также называют символьным набором, символьной раскладкой, кодовым набором и кодом страницы.

Юникод

Юникод — это промышленный стандарт для символьной кодировки текстового документа. Он определяет (почти) все возможные международные символы по именам и числам.

Юникод имеет две разновидности: UTF-8 и UTF-16.

UTF = формат преобразования Юникода (анг. Unicode Transformation Format).

UTF-8 использует один байт (8 бит) для представления общепринятых символов и два (или три) байта для всех остальных символов.

UTF-16 использует два байта (16 бит) для большинства символов и три байта для всего остального.

UTF-8 — стандартная кодировка символов в сети Интернет.

UTF-8 считается кодировкой по умолчанию в HTML-5, CSS, JavaScript, PHP, SQL и XML.

Кодировка XML документа

Первая строка в XML документе называется прологом:

Пролог является необязательным и, как правило, содержит номер версии XML.

Кроме этого, он может содержать информацию о кодировке XML документа. Следующий пролог определяет кодировку UTF-8:

Стандартизация XML устанавливает, что все приложения XML должны понимать кодировки UTF-8 и UTF-16.

UTF-8 является кодировкой по умолчанию для XML документов без информации о кодировке.

Кроме этого, большинство систем приложений XML работают с такими кодировками, как ISO-8859-1, Windows-1252 и ASCII.

Ошибки XML

Очень часто XML документы создаются на одном компьютере, на сервер выгружается с другого, а в браузере отображаются на третьем компьютере.

Если кодировка некорректно интерпретируется всеми тремя компьютерами, то браузер отобразит бессмысленный набор символов, либо вообще выдаст сообщение об ошибке.

Наилучшим выбором в этом случае будет использование кодировки UTF-8. UTF-8 позволяет отображать практически все международные символы, и, кроме этого, она считается кодировкой по умолчанию, если не указана другая кодировка.

Заключение

Когда вы пишите XML документ:

Источник

forum.clarionlife.net

Место общения программистов, форум разработчиков БД на Clarion

XML-файлы в кодовой таблице Windows-1251

Сообщение Гость » 27 Август 2004, 13:27

Мне надо было генерировать (для заказчика) и читать (от заказчика) XML в кодовой таблице Window-1251.

1. Опишем русскую кодировку в CPXML.Inc

2. И заставим выводить данные в windows-1251 (CpXML.clw)

Когда-то мне пришлось более плотнее исследовать C6 XML Support. Сделал точно такие же изменения как Вы.

Я не понял, тогда в этом случае все O’K, что ли?

С уважением, Семен Попов

По крайней мере, файлы, созданные обычным текстовым редактором или сформированные программой (в том числе без использования интерфейса) читаются, только и всего. Просто похоже, что используемая библиотека в принципе не поддерживает кодировок, отличных от буржуинских, а это самый простой путь заставить это делать.

Сообщение Гость » 27 Август 2004, 13:34

И если файл начинается на

,
то именно ‘WINDOWS-1251’ и должен быть в программе. Собственно, путём двухдневных хакерских «экспериментов» и был найден такой вариант.
Возможно, что можно подменить и другие текстовые строки. Кто займётся?

А вот список кодовых таблиц кириллицы из MSDN

Имя обозначение (алиасы)
Cyrillic (DOS) cp866 ( ibm866 )
Cyrillic (ISO) iso-8859-5 (csISOLatin5, csISOLatinCyrillic, cyrillic, ISO_8859-5, ISO_8859-5:1988, iso-ir-144, l5)
Cyrillic (KOI8-R) koi8-r (koi8-ru)
Cyrillic (KOI8-U) koi8-u
Cyrillic (Windows) windows-1251 (x-cp1251)

Источник

Как изменить кодировку текстового файла на UTF-8 или Windows 1251

Кодировка текста – это схема нумерации символов, в которой каждому символу, цифре или знаку присвоено соответствующее число. Кодировку используют для сохранения и обработки текста на компьютере. Каждый раз при сохранении текста в файл он сохраняется с использованием определенной схемы кодирования, и при открытии этого файла необходимо использовать такую же схему, иначе восстановить исходный текст не получится. Самыми популярными кодировками для кириллицы сейчас являются UTF-8, Windows-1251 (CP1251, ANSI).

Для того чтобы программа смогла правильно открыть текстовый файл, иногда приходится вручную менять кодировку, перекодируя текст из одной схемы в другую. Например, не редко возникают проблемы с открытием файлов CSV, XML, SQL, TXT, PHP.

В этой небольшой статье мы расскажем о том, как изменить кодировку текстового файла на UTF-8, Windows-1251 или любую другую.

Блокнот Windows

Если вы используете операционную систему Windows 10 или Windows 11, то вы можете изменить кодировку текста с помощью стандартной программы Блокнот. Для этого нужно открыть текстовый файл с помощью Блокнота и воспользоваться меню « Файл – Сохранить как ».

В открывшемся окне нужно указать новое название для файла, выбрать подходящую кодировку и нажать на кнопку « Сохранить ».

К сожалению, для подобных задач программа Блокнот часто не подходит. С ее помощью нельзя открывать документы большого размера, и она не поддерживает многие кодировки. Например, с помощью Блокнота нельзя открыть текстовые файлы в DOS 866.

Notepad++

Notepad++ (скачать) является одним из наиболее продвинутых текстовых редакторов. Он обладает подсветкой синтаксиса языков программирования, позволяет выполнять поиск и замену по регулярным выражениям, отслеживать изменения в файлах, записывать и воспроизводить макросы, считать хеш-сумы и многое другое. Одной из основных функций Notepad++ является поддержка большого количества кодировок текста и возможность изменения кодировки текстового файла в UTF-8 или Windows 1251.

Для того чтобы изменить кодировку текста с помощью Notepad++ файл нужно открыть в данной программе. Если программа не смогла правильно определить схему кодирования текста, то это можно сделать вручную. Для этого нужно открыть меню « Кодировки – Кириллица » и выбрать нужный вариант.

После открытия текста можно изменить его кодировку. Для этого нужно открыть меню « Кодировки » и выбрать один из вариантов преобразования. Notepad++ позволяет изменить текущую кодировку текста на ANSI (Windows-1251), UTF-8, UTF-8 BOM, UTF-8 BE BOM, UTF-8 LE BOM.

После преобразования файл нужно сохранить с помощью меню « Файл – Сохранить » или комбинации клавиш Ctrl-S.

Akelpad

Akelpad (скачать) – достаточно старая программа для работы с текстовыми файлами, которая все еще актуальна и может быть полезной. Фактически Akelpad является более продвинутой версией стандартной программы Блокнот из Windows. С его помощью можно открывать текстовые файлы большого размера, которые не открываются в Блокноте, выполнять поиск и замену с использованием регулярных выражений и менять кодировку текста.

Для того чтобы изменить кодировку текста с помощью Akelpad файл нужно открыть в данной программе. Если после открытия файла текст не читается, то нужно воспользоваться меню « Файл – Открыть ».

В открывшемся окне нужно выделить текстовый файл, снять отметку « Автовыбор » и выбрать подходящую кодировку из списка. При этом в нижней части окна можно видеть, как будет отображаться текст.

Для того чтобы изменить текущую кодировку текста нужно воспользоваться меню « Файл – Сохранить как » и сохранить документ с указанием новой схемы кодирования.

В отличие от Notepad++, текстовый редактор Akelpad позволяет сохранить файл в практически любой кодировке. В частности, доступны Windows 1251, DOS 886, UTF-8 и многие другие.

Источник

Remove From My Forums

Вопрос
Получаю список песен с сайта vkontakte.ru с помощью API, список выдается в формате XML. Судя по первой строке (<?xml version=»1.0″ encoding=»utf-8″?>) в ответе, кодировка ответа — UTF8.

Однако в программе (пишу в Forms на C#) все буквы отображаются крякозябрами, ниже ссылка на скриншот того, как это все выглядит (144Кб)

http://i2.fastpic.ru/big/2011/0608/d4/9786a9c66dd8841f6694ec762a67a1d4.png

Как можно исправить данную ситуацию? Заранее спасибо.

C#, VS2010Pro, .NET PHP, DreamWeaver

Ответы

А запросы к API вы через что осуществляете? Через HttpWebRequest? И потом когда читаете поток, можно указывать кодировку, попробуйте там установить 1251 или utf8. Должно помочь.

Или вы скачиваете xml файл?

Для связи [mail]
- Помечено в качестве ответа
  
  15 июня 2011 г. 20:16

Источник

Dogarik

0 / 0 / 0

Регистрация: 21.04.2015

Сообщений: 35

05.12.2019, 15:47. Показов 7546. Ответов 5

Метки xml (Все метки)

Доброго времени суток. Столкнулся с проблемой. Не могу при создании XML файла сменить кодировку.

Суть задачи следующая. Есть список в TXT файле из которого необходимо создать XML определенной структуры с кодировкой «Windows-1251». Не знаю как при создании файла установить нужную мне кодировку. Все время устанавливается «utf-8».
Буду благодарен любому совету.

P.S. Работаю в VS2019.

class Program
    {
        static void Main(string[] args)
        {
            List<HumanData> HumanList = new List<HumanData>();
            string PathLoadFile = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location) + "\List.txt";
            string FullFileName = "VALIDATION-REQ-50-OBR-01-001.XML";
            string PathSaveFile = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location) + "\" + FullFileName;
 
            using (StreamReader stroka = new StreamReader(PathLoadFile, Encoding.Default))
            {
                string str; int index = 0;
                while ((str = stroka.ReadLine()) != null)
                {
                    string[] Fullstroka = str.Split(new char[] { ';' });
                    HumanList.Add(new HumanData()
                    {
                        Id = index,
                        Snils = Fullstroka[0].ToUpper(),
                        Surname = Fullstroka[1].ToUpper(),
                        Name = Fullstroka[2].ToUpper(),
                        Patronymic = Fullstroka[3].ToUpper(),
                        Birthday = Fullstroka[4].ToUpper(),
                        Sex = Fullstroka[5].ToUpper()
                    });
                    index++;
                }
            }
 
            XDocument xdoc = new XDocument();
            XElement DataBlock = new XElement("ФайлПФР");
 
            XElement FileName = new XElement("ИмяФайла", FullFileName);
            DataBlock.Add(FileName);
            XElement CreateDate = new XElement("ДатаФормирования", DateTime.Now.ToString("dd.MM.yyyy").ToUpper());
            DataBlock.Add(CreateDate);
            XElement Version = new XElement("ВерсияФормата", "1.0");
            DataBlock.Add(Version);
            XElement FileType = new XElement("ТипФайла", "ВАЛИДАЦИЯ_ЗАПРОС");
            DataBlock.Add(FileType);
            XElement Count = new XElement("КоличествоЗаписейВфайле", HumanList.Count);
            DataBlock.Add(Count);
 
            foreach(var ASD in HumanList)
            {
                XElement Request = new XElement("Валидация_запрос");
                XElement Id = new XElement("ИдентификаторЗапроса", (ASD.Id + 1).ToString());
                XElement Snils = new XElement("СНИЛС", ASD.Snils);
                XElement Fam = new XElement("Фамилия", ASD.Surname);
                XElement Name = new XElement("Имя", ASD.Name);
                XElement Otch = new XElement("Отчество", ASD.Patronymic);
                XElement Birthday = new XElement("ДатаРождения", ASD.Birthday);
                XElement Sex = new XElement("Пол", ASD.Sex);
                Request.Add(Id); Request.Add(Snils); Request.Add(Fam); Request.Add(Name);
                Request.Add(Otch); Request.Add(Birthday); Request.Add(Sex);
                DataBlock.Add(Request);
            }
 
            xdoc.Add(DataBlock);
            xdoc.Save(PathSaveFile);
        }
 
        public class HumanData
        {
            public int Id { get; set; }
            public string Snils { get; set; }
            public string Surname { get; set; }
            public string Name { get; set; }
            public string Patronymic { get; set; }
            public string Birthday { get; set; }
            public string Sex { get; set; }
        }
    }

Миниатюры

__________________
Помощь в написании контрольных, курсовых и дипломных работ, диссертаций здесь

Programming Эксперт 94731 / 64177 / 26122 Регистрация: 12.04.2006 Сообщений: 116,782	05.12.2019, 15:47
5

92 / 62 / 31

Регистрация: 22.12.2018

Сообщений: 121

05.12.2019, 15:59

Dogarik, нет возможности проверить совет, но попробуйте так

Dogarik

0 / 0 / 0

Регистрация: 21.04.2015

Сообщений: 35

05.12.2019, 16:37

[ТС]

К сожалению не помогло.
Сократил немного код, вставил

1	new XDeclaration("1.0", "Windows-1251", "Yes")

но эффекта никакого….ну или я криворук…

Текущий код такой

XDocument xdoc = new XDocument(new XDeclaration("1.0", "Windows-1251", "Yes"));
            XElement DataBlock = new XElement("ФайлПФР",
                new XElement("ИмяФайла", FullFileName),
                new XElement("ДатаФормирования", DateTime.Now.ToString("dd.MM.yyyy").ToUpper()),
                new XElement("ВерсияФормата", "1.0"),
                new XElement("ТипФайла", "ВАЛИДАЦИЯ_ЗАПРОС"),
                new XElement("КоличествоЗаписейВфайле", HumanList.Count));
                                 
            foreach(var ASD in HumanList)
            {
                XElement Request = new XElement("Валидация_запрос",
                new XElement("ИдентификаторЗапроса", (ASD.Id + 1).ToString()),
                new XElement("СНИЛС", ASD.Snils),
                new XElement("Фамилия", ASD.Surname),
                new XElement("Имя", ASD.Name),
                new XElement("Отчество", ASD.Patronymic),
                new XElement("ДатаРождения", ASD.Birthday),
                new XElement("Пол", ASD.Sex));
                DataBlock.Add(Request);
            }
 
            xdoc.Add(DataBlock);
            xdoc.Save(PathSaveFile);

На выходе:

XML

<?xml version="1.0" encoding="utf-8"?>
<ФайлПФР>
  <ИмяФайла>VALIDATION-REQ-50-OBR-01-001.XML</ИмяФайла>
  <ДатаФормирования>05.12.2019</ДатаФормирования>
  <ВерсияФормата>1.0</ВерсияФормата>
  <ТипФайла>ВАЛИДАЦИЯ_ЗАПРОС</ТипФайла>
  <КоличествоЗаписейВфайле>1555</КоличествоЗаписейВфайле>
  <Валидация_запрос>
    <ИдентификаторЗапроса>1</ИдентификаторЗапроса>
    <СНИЛС>ХХХ-ХХХ-ХХХ ХХ</СНИЛС>
    <Фамилия>�����</Фамилия>
    <Имя>�������</Имя>
    <Отчество>�������������</Отчество>
    <ДатаРождения>06.11.2012</ДатаРождения>
    <Пол>�</Пол>
  </Валидация_запрос>

dazering

92 / 62 / 31

Регистрация: 22.12.2018

Сообщений: 121

05.12.2019, 17:09

Сообщение было отмечено Dogarik как решение

Решение

Dogarik, вот так надо декларировать =)

1	XDocument xdoc = new XDocument(new XDeclaration("1.0", Encoding.GetEncoding("windows-1251").WebName, ""), new XElement("Root", "Content"));

Если на фрейморке, то ничего не надо делать. Если на коре, то надо добавить NuGet пакет System.Text.Encoding.CodePages и затем прописать

1	Encoding.RegisterProvider(CodePagesEncodingProvider.Instance);

Ourn

68 / 38 / 11

Регистрация: 07.11.2019

Сообщений: 136

05.12.2019, 17:12

Не обещаю, что поможет, но можно попробовать сделать так

1. Устанавливаете nuget пакет System.Text.Encoding.CodePages — без него не будут доступны кодировки типа 1251.
2. Создаете кастомный StringWriter

public sealed class WinStringWriter : StringWriter
{
    public WinStringWriter(StringBuilder builder)
        : base(builder)
    {
    }
    public override Encoding Encoding => Encoding.GetEncoding("windows-1251");
}

3. Привожу пример метода, который мне лень переделывать под запись в файл — его задача сформировать строку в нужной кодировке

public static string ToXmlString(XElement element)
{
    Encoding.RegisterProvider(CodePagesEncodingProvider.Instance); //стоит вынести в main
 
    var xmlWriterSettings = new XmlWriterSettings() 
    {
        Encoding = Encoding.GetEncoding("windows-1251")
    };
 
    var buffer = new StringBuilder();
    using (TextWriter output = new WinStringWriter(buffer))
    using (XmlWriter writer = XmlWriter.Create(output, xmlWriterSettings))
    {
        writer.WriteStartDocument();
 
        element.WriteTo(writer);
 
        writer.WriteEndDocument();
        writer.Flush();
    }
 
    return buffer.ToString();
}

0 / 0 / 0

Регистрация: 21.04.2015

Сообщений: 35

06.12.2019, 17:36

[ТС]

Действительно, работаю в Core 2.1.
Не думал, что это важно, при описании проблемы, но теперь буду иметь ввиду.

Сделал все, как подсказали dazering и Ourn. Сработало.

Премного благодарен за потраченное время)))

P.S. Задача решена. Тему можно закрывать.

Источник

Здравствуйте, господа!

Честно говоря, не знаю, кому может пригодиться …

Мне надо было генерировать (для заказчика) и читать (от заказчика) XML в кодовой таблице Window-1251.

1. Опишем русскую кодировку в CPXML.Inc

Код: Выделить всё

XMLEnc               EQUATE(STRING)
XMLEnc:UTF8          EQUATE('UTF-8')
XMLEnc:UTF16         EQUATE('UTF-16')
XMLEnc:ISO88591      EQUATE('ISO-8859-1')
XMLEnc:WIN1251       EQUATE('WINDOWS-1251')

2. И заставим выводить данные в windows-1251 (CpXML.clw)

DOMToXMLFile procedure(*Document doc, string path, <*CSTRING newLine>, UNSIGNED Format = Format:AS_IS)

Код: Выделить всё

ret         BYTE
            CODE
            IF omitted(3)
                !ret=DOMToXMLFile(doc,path,,Format,XMLEnc:UTF8)
                ret=DOMToXMLFile(doc,path,,Format,XMLEnc:WIN1251)
            ELSE
                !ret=DOMToXMLFile(doc,path,newLine,Format,XMLEnc:UTF8)
                ret=DOMToXMLFile(doc,path,newLine,Format,XMLEnc:WIN1251)
            END
            RETURN ret

3. После чего получим XML-файл (например, в ExampleXMLParse) в кодировке Windows-1251, вполне отображаемый браузером. Но встаёт другая проблема — эти файлы не читаются кларионовским парсером (Шаблон ‘View XML File’ просто падает при загрузке). Ну что ж, тем хуже для парсера. Возьмём шестнадцатеричный редактор, найдём в модуле C60cpxml.dll текст ‘ISO-8859-1’, заменим на ‘WINDOWS-1251’ и добавим в конец ‘<0>’ .

4. Вопрос с документами в UTF-8 не рассматривается

—————————————
C уважением,
Юрий Философов,
Главный программист
Корпорация «Диполь», Саратов
E-mail yufil@tacis-dipol.ru (служ)
yufil@mail.ru (дом)
ICQ#75924439

(Добавление)

Когда-то мне пришлось более плотнее исследовать C6 XML Support. Сделал точно такие же изменения как Вы.

3. После чего получим XML-файл (например, в ExampleXMLParse) в кодировке Windows-1251, вполне отображаемый браузером.

Когда получил этот результат — обрадовался. Но попробовал, используя их классы создать свой XML, и очень разочаровался. Оказывается, классы напрочь отказываются работать с русскими тегами.

Но встаёт другая проблема — эти файлы не читаются кларионовским парсером (Шаблон ‘View XML File’ просто падает при загрузке). Ну >что ж, тем хуже для парсера.

Может проблема в кодовой странице, о которой писал Сергей Артюшенков.

Возьмём шестнадцатеричный редактор, найдём в модуле C60cpxml.dll текст ‘ISO-8859-1’, заменим на ‘WINDOWS-1251’ и добавим в конец ‘<0>’ .

Я не понял, тогда в этом случае все O’K, что ли?

С уважением, Семен Попов

Когда получил этот результат — обрадовался. Но попробовал, используя их классы создать свой XML, и очень разочаровался. Оказывается, классы напрочь отказываются работать с русскими тегами.

Пофиксил. Теперь работают

Когда получил этот результат — обрадовался. Но попробовал, используя их классы создать свой XML, и очень разочаровался. Оказывается, классы напрочь отказываются работать с русскими тегами.

А за это отвечает процедура CheckXMLName из CpXML.clw . Можно поставить в первую строку Return(0) — и будут приниматься любые теги

—————————————
C уважением,
Юрий Философов

Спасибо, попробую.

С уважением, Семен Попов

Когда-то мне пришлось более плотнее исследовать C6 XML Support. Сделал точно такие же изменения как Вы.

Это естественно. Но сгенерированные файлы не читались через Support. Потратил время, чтобы понять причину и добить, как заставить их читаться. О чём и рассказал

Я не понял, тогда в этом случае все O’K, что ли?

… исправленные модули для CW6.1 на http://www.tacis-dipol.ru/fil/XML1251.zip

—————————————
C уважением,
Юрий Философов
Написал: ClaList(2)

Источник

Текст должен быть в формате UTF-8. Не используйте двойное кодирование.

В Merchant Center поддерживаются такие стандарты кодировки, как UTF-8, UTF-16, Latin-1 и ASCII. Если вы не знаете, какой именно тип кодировки используется в вашем файле, выберите параметр Определять автоматически.

Если вы сохраняете файл в программе «Блокнот», нажмите Сохранить как и выберите ANSI или UTF-8 в поле Кодировка. Если формат кодировки файла отличается от указанных выше, файл не будет обработан.

Важное примечание. Если в XML-файле используется кодировка Latin-1 или UTF-16, необходимо указать это в нем. Для этого в первой строке фида замените фрагмент <?xml version=" 1.0"?> на одно из следующих значений:

для Latin-1: <?xml version="1.0" encoding="ISO-8859-1"?>;
для UTF-16: <?xml version="1.0" encoding="UTF-16"?>.

Инструкции

Шаг 1. Проверьте список товаров с ошибками

Войдите в аккаунт Merchant Center.
Перейдите на вкладку Товары в меню навигации и выберите Диагностика.
Нажмите Проблемы с товарами. Откроется список затронутых позиций.

Как скачать список всех затронутых товаров (в формате .csv)

Как скачать список всех товаров с конкретной проблемой (в формате .csv)

Найдите проблему в одноименном столбце и нажмите на значок скачивания в конце строки.

Как посмотреть 50 самых популярных товаров с определенной проблемой

Найдите проблему в одноименном столбце и нажмите Посмотреть примеры в столбце «Затронутые товары».

Шаг 2. Задайте для текста формат UTF-8

Отфильтруйте данные так, чтобы в столбце Issue title (Название проблемы) отображались только значения Invalid UTF-8 encoding (Недопустимая кодировка UTF-8).
Проверьте сведения, указанные для товаров с этой проблемой. Исправьте данные в фиде так, чтобы для значений основных атрибутов был использован формат UTF-8.

Шаг 3. Повторно загрузите фид

После изменения данных о товаре отправьте их повторно, выбрав один из перечисленных ниже способов.
- Добавить фид напрямую
- Как отправить данные с помощью Content API
- Как импортировать данные с платформы электронной торговли
Перейдите на страницу «Диагностика» и убедитесь, что проблема решена.
Обратите внимание, что изменения на этой странице могут появиться не сразу.

Эта информация оказалась полезной?

Как можно улучшить эту статью?

Источник

Информационные технологии, интернет, веб программирование, IT, Hi-Tech, …

Кодировка XML

Ошибки Кодировки XML

Блокнот Windows

Выводы

I. Коротко об XML¶

Введение в XML¶

Структура XML¶

Правила синтаксиса (Валидность)¶

Сущности¶

Поиск информации в XML файлах (XPath)¶

Кодировки¶

XSD схема¶

Кодировка в XML документе

Символьная кодировка

Юникод

Кодировка XML документа

Ошибки XML

Заключение

forum.clarionlife.net

XML-файлы в кодовой таблице Windows-1251

Как изменить кодировку текстового файла на UTF-8 или Windows 1251

Блокнот Windows

Notepad++

Akelpad

Вопрос

Ответы

Решение

Инструкции

Вот еще несколько интересных статей: