대문자 대 소문자
대소 문자를 구분하지 않는 비교를 할 때 문자열을 대문자 또는 소문자로 변환하는 것이 더 효율적입니까? 그것이 중요합니까?
이 SO 게시물 에서는 "Microsoft가 그렇게 최적화했기 때문에 C #이 ToUpper와 함께 더 효율적 이라고 제안 합니다." 그러나 ToLower 대 ToUpper를 변환하는 것은 문자열에 더 많은 내용이 포함되어 있고 일반적으로 문자열에 더 많은 소문자가 포함되어 ToLower를 더 효율적으로 만든다는 이 주장 을 읽었습니다 .
특히 다음 사항을 알고 싶습니다.
- 하나가 다른 것보다 빠르도록 ToUpper 또는 ToLower를 최적화하는 방법이 있습니까?
- 대문자 또는 소문자 문자열을 대소 문자를 구분하지 않고 비교하는 것이 더 빠르며 그 이유는 무엇입니까?
- 한 경우가 다른 경우보다 분명히 나은 프로그래밍 환경 (예 : C, C #, Python 등)이 있습니까? 그 이유는 무엇입니까?
대소 문자를 구분하지 않고 비교하기 위해 대문자 또는 소문자로 변환하는 것은 일부 문화권, 특히 터키의 "흥미로운"기능으로 인해 올바르지 않습니다. 대신 적절한 옵션과 함께 StringComparer를 사용하십시오.
MSDN에는 문자열 처리에 대한 몇 가지 훌륭한 지침이 있습니다. 코드가 Turkey 테스트를 통과하는지 확인할 수도 있습니다 .
편집 : 서수 대소 문자를 구분하지 않는 비교에 대한 Neil의 설명을 참고하십시오 . 이 전체 영역은 꽤 어둡습니다 :(
에서 마이크로 소프트 MSDN에 :
.NET Framework에서 문자열을 사용하는 모범 사례
문자열 사용에 대한 권장 사항
- 사용 String.ToUpperInvariant 의 대신 방법을 String.ToLowerInvariant 당신은 비교를 위해 문자열을 정상화 할 때 방법.
왜? 에서 마이크로 소프트 :
문자열을 대문자로 정규화
소문자로 변환 할 때 왕복 할 수없는 작은 문자 그룹이 있습니다.
왕복 할 수없는 캐릭터의 예는 무엇입니까?
- 시작 : 그리스로 기호 (U + 03f1) ϱ
- 대문자 : Capital Greek Rho (U + 03a1) Ρ
- 소문자 : 작은 그리스 Rho (U + 03c1) ρ
ϱ, Ρ , ρ
Original: ϱ
ToUpper: Ρ
ToLower: ρ
그렇기 때문에 대 / 소문자를 구분하지 않는 비교를 수행하려면 문자열을 소문자가 아닌 대문자로 변환해야합니다.
따라서 하나를 선택해야하는 경우 대문자를 선택하십시오 .
MSDN 에 따르면 문자열을 전달하고 대소 문자를 무시하도록 비교하는 것이 더 효율적입니다.
String.Compare (strA, strB, StringComparison.OrdinalIgnoreCase)는 호출 과 동일 하지만 (보다 빠릅니다 )
String.Compare (ToUpperInvariant (strA), ToUpperInvariant (strB), StringComparison.Ordinal).
이러한 비교는 여전히 매우 빠릅니다.
물론, 하나의 문자열을 계속해서 비교한다면 이것은 유지되지 않을 수 있습니다.
더 많은 소문자 항목을 갖는 경향이있는 문자열을 기반으로, ToLower는 이론적으로 더 빠릅니다 (많은 비교이지만 할당은 거의 없음).
C에서 또는 각 문자열의 개별적으로 액세스 할 수있는 요소 (예 : C 문자열 또는 C ++의 STL 문자열 유형)를 사용하는 경우 실제로는 바이트 비교이므로 비교 UPPER
는 lower
.
교활하고 문자열을 long
대신 배열에 로드 하면 한 번에 4 바이트를 비교할 수 있기 때문에 전체 문자열을 매우 빠르게 비교할 수 있습니다. 그러나로드 시간으로 인해 가치가 없을 수 있습니다.
어떤 것이 더 빠른지 알아야하는 이유는 무엇입니까? 비교의 메트릭 버트로드를 수행하지 않는 한, 몇 사이클 더 빠르게 실행하는 것은 전체 실행 속도와 관련이 없으며 조기 최적화처럼 들립니다. :)
마이크로 소프트는 최적화있다 ToUpperInvariant()
, 없다 ToUpper()
. 차이점은 invariant가 문화 친화적이라는 것입니다. 문화권이 다를 수있는 문자열에 대해 대 / 소문자를 구분하지 않는 비교를 수행해야하는 경우 Invariant를 사용합니다. 그렇지 않으면 고정 변환의 성능이 중요하지 않습니다.
ToUpper () 또는 ToLower ()가 더 빠르다고 말할 수 없습니다. 성능이 그다지 중요한 상황을 경험 한 적이 없기 때문에 시도한 적이 없습니다.
C #에서 문자열 비교를 수행하는 경우 두 문자열을 모두 대문자 또는 소문자로 변환하는 대신 .Equals ()를 사용하는 것이 훨씬 빠릅니다. .Equals () 사용의 또 다른 큰 장점은 2 개의 새로운 대문자 / 소문자 문자열에 더 많은 메모리가 할당되지 않는다는 것입니다.
정말 중요하지 않습니다. ASCII 문자를 사용하면 확실히 문제가되지 않습니다. 단지 몇 번의 비교와 어느 방향 으로든 약간 뒤집기 만하면됩니다. 유니 코드는 이상한 방식으로 대소 문자를 바꾸는 문자가 있기 때문에 조금 더 복잡 할 수 있지만 텍스트가 특수 문자로 가득 차 있지 않으면 실제로 차이가 없어야합니다.
올바르게 수행하면 소문자로 변환하는 경우 속도 이점이 작지만 중요하지 않을 것입니다. 메모리에 대한 할당이 거의 없음을 의미합니다.)-대문자가 많은 문자열이있는 경우 대문자로 변환하는 것이 더 빠릅니다.
때에 따라 다르지. 위에서 언급했듯이 일반 ASCII 만 동일합니다. .NET에서 String.Compare 에 대해 읽고 i18n 항목 (언어 문화 및 유니 코드)에 대한 올바른 비교를 사용합니다. 입력 가능성에 대해 알고있는 경우 더 일반적인 경우를 사용하십시오.
다중 문자열 비교를 수행하는 경우 길이가 훌륭한 첫 번째 판별 자임을 기억하십시오.
순수 ASCII로 처리하는 경우에는 중요하지 않습니다. 그것은 단지 OR x, 32 대 AND x, 224입니다. 유니 코드, 모르겠어요 ...
참고 URL : https://stackoverflow.com/questions/234591/upper-vs-lower-case
'programing tip' 카테고리의 다른 글
Java에 "도달 할 수없는 문"컴파일러 오류가있는 이유는 무엇입니까? (0) | 2020.10.10 |
---|---|
정규식을 사용하여 문자열의 패턴 인덱스 가져 오기 (0) | 2020.10.10 |
C의 함수에서 여러 값을 반환하려면 어떻게해야합니까? (0) | 2020.10.10 |
node.JS에서 내가로드 한 모듈의 경로를 어떻게 얻을 수 있습니까? (예 : 일부 node_module에서) (0) | 2020.10.10 |
관리 방식으로 .NET에서 부모 프로세스를 얻는 방법 (0) | 2020.10.09 |