유니 코드 문자열을 이스케이프 된 ASCII 문자열로 변환

programing tip

유니 코드 문자열을 이스케이프 된 ASCII 문자열로 변환

itbloger 2020. 10. 21. 07:46

유니 코드 문자열을 이스케이프 된 ASCII 문자열로 변환

이 문자열을 어떻게 변환 할 수 있습니까?

This string contains the Unicode character Pi(π)

이스케이프 된 ASCII 문자열로 :

This string contains the Unicode character Pi(\u03a0)

그리고 그 반대의 경우도 마찬가지 ?

C #에서 사용할 수있는 현재 인코딩은 π 문자를 "?"로 변환합니다. 그 성격을 보존해야합니다.

이것은 \ uXXXX 형식에서 앞뒤로 이동합니다.

class Program {
    static void Main( string[] args ) {
        string unicodeString = "This function contains a unicode character pi (\u03a0)";

        Console.WriteLine( unicodeString );

        string encoded = EncodeNonAsciiCharacters(unicodeString);
        Console.WriteLine( encoded );

        string decoded = DecodeEncodedNonAsciiCharacters( encoded );
        Console.WriteLine( decoded );
    }

    static string EncodeNonAsciiCharacters( string value ) {
        StringBuilder sb = new StringBuilder();
        foreach( char c in value ) {
            if( c > 127 ) {
                // This character is too big for ASCII
                string encodedValue = "\\u" + ((int) c).ToString( "x4" );
                sb.Append( encodedValue );
            }
            else {
                sb.Append( c );
            }
        }
        return sb.ToString();
    }

    static string DecodeEncodedNonAsciiCharacters( string value ) {
        return Regex.Replace(
            value,
            @"\\u(?<Value>[a-zA-Z0-9]{4})",
            m => {
                return ((char) int.Parse( m.Groups["Value"].Value, NumberStyles.HexNumber )).ToString();
            } );
    }
}

출력 :

이 함수는 유니 코드 문자 파이 (π)를 포함합니다.

이 함수에는 유니 코드 문자 pi (\ u03a0)가 포함되어 있습니다.

이 함수는 유니 코드 문자 파이 (π)를 포함합니다.

들어 Unescape가 당신은 단순히이 기능을 사용할 수 있습니다 :

System.Text.RegularExpressions.Regex.Unescape(string)

System.Uri.UnescapeDataString(string)

이 방법을 사용하는 것이 좋습니다 (UTF-8에서 더 잘 작동 함).

UnescapeDataString(string)

string StringFold(string input, Func<char, string> proc)
{
  return string.Concat(input.Select(proc).ToArray());
}

string FoldProc(char input)
{
  if (input >= 128)
  {
    return string.Format(@"\u{0:x4}", (int)input);
  }
  return input.ToString();
}

string EscapeToAscii(string input)
{
  return StringFold(input, FoldProc);
}

한 줄로 :

var result = Regex.Replace(input, @"[^\x00-\x7F]", c => 
    string.Format(@"\u{0:x4}", (int)c.Value[0]));

class Program
{
        static void Main(string[] args)
        {
            char[] originalString = "This string contains the unicode character Pi(π)".ToCharArray();
            StringBuilder asAscii = new StringBuilder(); // store final ascii string and Unicode points
            foreach (char c in originalString)
            {
                // test if char is ascii, otherwise convert to Unicode Code Point
                int cint = Convert.ToInt32(c);
                if (cint <= 127 && cint >= 0)
                    asAscii.Append(c);
                else
                    asAscii.Append(String.Format("\\u{0:x4} ", cint).Trim());
            }
            Console.WriteLine("Final string: {0}", asAscii);
            Console.ReadKey();
        }
}

모든 비 ASCII 문자는 유니 코드 코드 포인트 표현으로 변환되고 최종 문자열에 추가됩니다.

@Adam Sills의 답변에 대한 작은 패치 FormatException는 "c : \ u00ab \ otherdirectory \ "와 같은 입력 문자열 RegexOptions.Compiled이 Regex컴파일을 훨씬 더 빠르게 만드는 경우 를 해결 합니다 .

    private static Regex DECODING_REGEX = new Regex(@"\\u(?<Value>[a-fA-F0-9]{4})", RegexOptions.Compiled);
    private const string PLACEHOLDER = @"#!#";
    public static string DecodeEncodedNonAsciiCharacters(this string value)
    {
        return DECODING_REGEX.Replace(
            value.Replace(@"\\", PLACEHOLDER),
            m => { 
                return ((char)int.Parse(m.Groups["Value"].Value, NumberStyles.HexNumber)).ToString(); })
            .Replace(PLACEHOLDER, @"\\");
    }

내 현재 구현은 다음과 같습니다.

public static class UnicodeStringExtensions
{
    public static string EncodeNonAsciiCharacters(this string value) {
        var bytes = Encoding.Unicode.GetBytes(value);
        var sb = StringBuilderCache.Acquire(value.Length);
        bool encodedsomething = false;
        for (int i = 0; i < bytes.Length; i += 2) {
            var c = BitConverter.ToUInt16(bytes, i);
            if ((c >= 0x20 && c <= 0x7f) || c == 0x0A || c == 0x0D) {
                sb.Append((char) c);
            } else {
                sb.Append($"\\u{c:x4}");
                encodedsomething = true;
            }
        }
        if (!encodedsomething) {
            StringBuilderCache.Release(sb);
            return value;
        }
        return StringBuilderCache.GetStringAndRelease(sb);
    }


    public static string DecodeEncodedNonAsciiCharacters(this string value)
      => Regex.Replace(value,/*language=regexp*/@"(?:\\u[a-fA-F0-9]{4})+", Decode);

    static readonly string[] Splitsequence = new [] { "\\u" };
    private static string Decode(Match m) {
        var bytes = m.Value.Split(Splitsequence, StringSplitOptions.RemoveEmptyEntries)
                .Select(s => ushort.Parse(s, NumberStyles.HexNumber)).SelectMany(BitConverter.GetBytes).ToArray();
        return Encoding.Unicode.GetString(bytes);
    }
}

이것은 테스트를 통과합니다.

public void TestBigUnicode() {
    var s = "\U00020000";
    var encoded = s.EncodeNonAsciiCharacters();
    var decoded = encoded.DecodeEncodedNonAsciiCharacters();
    Assert.Equals(s, decoded);
}

인코딩 된 값으로 : "\ud840\udc00"

이 구현은 StringBuilderCache (참조 소스 링크)를 사용합니다.

클래스 에서 Convert()메서드 를 사용해야합니다 Encoding.

EncodingASCII 인코딩을 나타내는 개체 만들기
Encoding유니 코드 인코딩을 나타내는 개체 만들기
Encoding.Convert()소스 인코딩, 대상 인코딩 및 인코딩 할 문자열을 사용하여 호출

여기에 예가 있습니다 .

using System;
using System.Text;

namespace ConvertExample
{
   class ConvertExampleClass
   {
      static void Main()
      {
         string unicodeString = "This string contains the unicode character Pi(\u03a0)";

         // Create two different encodings.
         Encoding ascii = Encoding.ASCII;
         Encoding unicode = Encoding.Unicode;

         // Convert the string into a byte[].
         byte[] unicodeBytes = unicode.GetBytes(unicodeString);

         // Perform the conversion from one encoding to the other.
         byte[] asciiBytes = Encoding.Convert(unicode, ascii, unicodeBytes);

         // Convert the new byte[] into a char[] and then into a string.
         // This is a slightly different approach to converting to illustrate
         // the use of GetCharCount/GetChars.
         char[] asciiChars = new char[ascii.GetCharCount(asciiBytes, 0, asciiBytes.Length)];
         ascii.GetChars(asciiBytes, 0, asciiBytes.Length, asciiChars, 0);
         string asciiString = new string(asciiChars);

         // Display the strings created before and after the conversion.
         Console.WriteLine("Original string: {0}", unicodeString);
         Console.WriteLine("Ascii converted string: {0}", asciiString);
      }
   }
}

To store actual Unicode codepoints, you have to first decode the String's UTF-16 codeunits to UTF-32 codeunits (which are currently the same as the Unicode codepoints). Use System.Text.Encoding.UTF32.GetBytes() for that, and then write the resulting bytes to the StringBuilder as needed,i.e.

static void Main(string[] args) 
{ 
    String originalString = "This string contains the unicode character Pi(π)"; 
    Byte[] bytes = Encoding.UTF32.GetBytes(originalString);
    StringBuilder asAscii = new StringBuilder();
    for (int idx = 0; idx < bytes.Length; idx += 4)
    { 
        uint codepoint = BitConverter.ToUInt32(bytes, idx);
        if (codepoint <= 127) 
            asAscii.Append(Convert.ToChar(codepoint)); 
        else 
            asAscii.AppendFormat("\\u{0:x4}", codepoint); 
    } 
    Console.WriteLine("Final string: {0}", asAscii); 
    Console.ReadKey(); 
}

참고URL : https://stackoverflow.com/questions/1615559/convert-a-unicode-string-to-an-escaped-ascii-string

'programing tip' 카테고리의 다른 글

'int'의 차이점은 무엇입니까? (0)	2020.10.21
jQuery의 정규식 필드 유효성 검사 (0)	2020.10.21
리플렉션을 통해 nullable 속성 유형 찾기 (0)	2020.10.21
배치 파일에서 콘솔의 입력을 읽는 방법은 무엇입니까? (0)	2020.10.21
스크립트에 대한 부울 인수 (0)	2020.10.21

현재글유니 코드 문자열을 이스케이프 된 ASCII 문자열로 변환

itbloger

유니 코드 문자열을 이스케이프 된 ASCII 문자열로 변환

유니 코드 문자열을 이스케이프 된 ASCII 문자열로 변환

'programing tip' 카테고리의 다른 글

'programing tip'의 다른글

티스토리툴바

유니 코드 문자열을 이스케이프 된 ASCII 문자열로 변환

유니 코드 문자열을 이스케이프 된 ASCII 문자열로 변환

'programing tip' 카테고리의 다른 글

'programing tip'의 다른글

관련글

티스토리툴바