iutf8pad: improve padded printing and printing invalid unicode characters - stagit-gopher - A git gopher frontend. (mirror) Err bitreich.org 70 hgit clone git://bitreich.org/stagit-gopher/ git://enlrupgkhuxnvlhsf6lc3fziv5h2hhfrinws65d7roiv6bfj7d652fid.onion/stagit-gopher/ URL:git://bitreich.org/stagit-gopher/ git://enlrupgkhuxnvlhsf6lc3fziv5h2hhfrinws65d7roiv6bfj7d652fid.onion/stagit-gopher/ bitreich.org 70 1Log /scm/stagit-gopher/log.gph bitreich.org 70 1Files /scm/stagit-gopher/files.gph bitreich.org 70 1Refs /scm/stagit-gopher/refs.gph bitreich.org 70 1Tags /scm/stagit-gopher/tag bitreich.org 70 1README /scm/stagit-gopher/file/README.gph bitreich.org 70 1LICENSE /scm/stagit-gopher/file/LICENSE.gph bitreich.org 70 i--- Err bitreich.org 70 1commit 554a9fe2e9d12defd9d6253871d8261d3f3ef3c6 /scm/stagit-gopher/commit/554a9fe2e9d12defd9d6253871d8261d3f3ef3c6.gph bitreich.org 70 1parent 7b93d02cd8f26ab9a25d967c72c359a22c91eb74 /scm/stagit-gopher/commit/7b93d02cd8f26ab9a25d967c72c359a22c91eb74.gph bitreich.org 70 hAuthor: Hiltjo Posthuma URL:mailto:hiltjo@codemadness.org bitreich.org 70 iDate: Sat, 9 Jan 2021 14:56:51 +0100 Err bitreich.org 70 i Err bitreich.org 70 iutf8pad: improve padded printing and printing invalid unicode characters Err bitreich.org 70 i Err bitreich.org 70 i- Use unicode replacement character (codepoint 0xfffd) when a codepoint is Err bitreich.org 70 i invalid and proceed printing the rest of the characters. Err bitreich.org 70 i Err bitreich.org 70 i- When a codepoint is invalid reset the internal state of mbtowc(3), from the Err bitreich.org 70 i OpenBSD man page: Err bitreich.org 70 i Err bitreich.org 70 i " If a call to mbtowc() resulted in an undefined internal state, mbtowc() Err bitreich.org 70 i must be called with s set to NULL to reset the internal state before it Err bitreich.org 70 i can safely be used again." Err bitreich.org 70 i Err bitreich.org 70 i- Make the function return 0 when `len` is 0 (this should not be not an error). Err bitreich.org 70 i Err bitreich.org 70 iDiffstat: Err bitreich.org 70 i M stagit-gopher-index.c | 59 ++++++++++++++++++++++--------- Err bitreich.org 70 i M stagit-gopher.c | 58 ++++++++++++++++++++++--------- Err bitreich.org 70 i Err bitreich.org 70 i2 files changed, 83 insertions(+), 34 deletions(-) Err bitreich.org 70 i--- Err bitreich.org 70 1diff --git a/stagit-gopher-index.c b/stagit-gopher-index.c /scm/stagit-gopher/file/stagit-gopher-index.c.gph bitreich.org 70 i@@ -10,6 +10,9 @@ Err bitreich.org 70 i Err bitreich.org 70 i #include Err bitreich.org 70 i Err bitreich.org 70 i+#define PAD_TRUNCATE_SYMBOL "\xe2\x80\xa6" /* symbol: "ellipsis" */ Err bitreich.org 70 i+#define UTF_INVALID_SYMBOL "\xef\xbf\xbd" /* symbol: "replacement" */ Err bitreich.org 70 i+ Err bitreich.org 70 i static git_repository *repo; Err bitreich.org 70 i Err bitreich.org 70 i static const char *relpath = ""; Err bitreich.org 70 i@@ -17,40 +20,62 @@ static const char *relpath = ""; Err bitreich.org 70 i static char description[255] = "Repositories"; Err bitreich.org 70 i static char *name = ""; Err bitreich.org 70 i Err bitreich.org 70 i-/* format `len' columns of characters. If string is shorter pad the rest Err bitreich.org 70 i+/* Format `len' columns of characters. If string is shorter pad the rest Err bitreich.org 70 i * with characters `pad`. */ Err bitreich.org 70 i int Err bitreich.org 70 i utf8pad(char *buf, size_t bufsiz, const char *s, size_t len, int pad) Err bitreich.org 70 i { Err bitreich.org 70 i wchar_t wc; Err bitreich.org 70 i size_t col = 0, i, slen, siz = 0; Err bitreich.org 70 i- int rl, w; Err bitreich.org 70 i+ int inc, rl, w; Err bitreich.org 70 i Err bitreich.org 70 i- if (!len) Err bitreich.org 70 i+ if (!bufsiz) Err bitreich.org 70 i return -1; Err bitreich.org 70 i+ if (!len) { Err bitreich.org 70 i+ buf[0] = '\0'; Err bitreich.org 70 i+ return 0; Err bitreich.org 70 i+ } Err bitreich.org 70 i Err bitreich.org 70 i slen = strlen(s); Err bitreich.org 70 i- for (i = 0; i < slen; i += rl) { Err bitreich.org 70 i- if ((rl = mbtowc(&wc, &s[i], slen - i < 4 ? slen - i : 4)) <= 0) Err bitreich.org 70 i- break; Err bitreich.org 70 i- if ((w = wcwidth(wc)) == -1) Err bitreich.org 70 i+ for (i = 0; i < slen; i += inc) { Err bitreich.org 70 i+ inc = 1; Err bitreich.org 70 i+ if ((unsigned char)s[i] < 32) Err bitreich.org 70 i continue; Err bitreich.org 70 i- if (col + w > len || (col + w == len && s[i + rl])) { Err bitreich.org 70 i+ Err bitreich.org 70 i+ rl = mbtowc(&wc, &s[i], slen - i < 4 ? slen - i : 4); Err bitreich.org 70 i+ if (rl < 0) { Err bitreich.org 70 i+ mbtowc(NULL, NULL, 0); /* reset state */ Err bitreich.org 70 i+ inc = 1; /* next byte */ Err bitreich.org 70 i+ w = 1; /* replacement char is one width */ Err bitreich.org 70 i+ } else if ((w = wcwidth(wc)) == -1) { Err bitreich.org 70 i+ continue; Err bitreich.org 70 i+ } else { Err bitreich.org 70 i+ inc = rl; Err bitreich.org 70 i+ } Err bitreich.org 70 i+ Err bitreich.org 70 i+ if (col + w > len || (col + w == len && s[i + inc])) { Err bitreich.org 70 i if (siz + 4 >= bufsiz) Err bitreich.org 70 i return -1; Err bitreich.org 70 i- memcpy(&buf[siz], "\xe2\x80\xa6", 3); Err bitreich.org 70 i- siz += 3; Err bitreich.org 70 i- if (col + w == len && w > 1) Err bitreich.org 70 i- buf[siz++] = pad; Err bitreich.org 70 i+ memcpy(&buf[siz], PAD_TRUNCATE_SYMBOL, sizeof(PAD_TRUNCATE_SYMBOL) - 1); Err bitreich.org 70 i+ siz += sizeof(PAD_TRUNCATE_SYMBOL) - 1; Err bitreich.org 70 i buf[siz] = '\0'; Err bitreich.org 70 i- return 0; Err bitreich.org 70 i+ col++; Err bitreich.org 70 i+ break; Err bitreich.org 70 i+ } else if (rl < 0) { Err bitreich.org 70 i+ if (siz + 4 >= bufsiz) Err bitreich.org 70 i+ return -1; Err bitreich.org 70 i+ memcpy(&buf[siz], UTF_INVALID_SYMBOL, sizeof(UTF_INVALID_SYMBOL) - 1); Err bitreich.org 70 i+ siz += sizeof(UTF_INVALID_SYMBOL) - 1; Err bitreich.org 70 i+ buf[siz] = '\0'; Err bitreich.org 70 i+ col++; Err bitreich.org 70 i+ continue; Err bitreich.org 70 i } Err bitreich.org 70 i- if (siz + rl + 1 >= bufsiz) Err bitreich.org 70 i+ if (siz + inc + 1 >= bufsiz) Err bitreich.org 70 i return -1; Err bitreich.org 70 i- memcpy(&buf[siz], &s[i], rl); Err bitreich.org 70 i- col += w; Err bitreich.org 70 i- siz += rl; Err bitreich.org 70 i+ memcpy(&buf[siz], &s[i], inc); Err bitreich.org 70 i+ siz += inc; Err bitreich.org 70 i buf[siz] = '\0'; Err bitreich.org 70 i+ col += w; Err bitreich.org 70 i } Err bitreich.org 70 i Err bitreich.org 70 i len -= col; Err bitreich.org 70 1diff --git a/stagit-gopher.c b/stagit-gopher.c /scm/stagit-gopher/file/stagit-gopher.c.gph bitreich.org 70 i@@ -19,6 +19,8 @@ Err bitreich.org 70 i #include "compat.h" Err bitreich.org 70 i Err bitreich.org 70 i #define LEN(s) (sizeof(s)/sizeof(*s)) Err bitreich.org 70 i+#define PAD_TRUNCATE_SYMBOL "\xe2\x80\xa6" /* symbol: "ellipsis" */ Err bitreich.org 70 i+#define UTF_INVALID_SYMBOL "\xef\xbf\xbd" /* symbol: "replacement" */ Err bitreich.org 70 i Err bitreich.org 70 i struct deltainfo { Err bitreich.org 70 i git_patch *patch; Err bitreich.org 70 i@@ -80,40 +82,62 @@ static char lastoidstr[GIT_OID_HEXSZ + 2]; /* id + newline + NUL byte */ Err bitreich.org 70 i static FILE *rcachefp, *wcachefp; Err bitreich.org 70 i static const char *cachefile; Err bitreich.org 70 i Err bitreich.org 70 i-/* format `len' columns of characters. If string is shorter pad the rest Err bitreich.org 70 i+/* Format `len' columns of characters. If string is shorter pad the rest Err bitreich.org 70 i * with characters `pad`. */ Err bitreich.org 70 i int Err bitreich.org 70 i utf8pad(char *buf, size_t bufsiz, const char *s, size_t len, int pad) Err bitreich.org 70 i { Err bitreich.org 70 i wchar_t wc; Err bitreich.org 70 i size_t col = 0, i, slen, siz = 0; Err bitreich.org 70 i- int rl, w; Err bitreich.org 70 i+ int inc, rl, w; Err bitreich.org 70 i Err bitreich.org 70 i- if (!len) Err bitreich.org 70 i+ if (!bufsiz) Err bitreich.org 70 i return -1; Err bitreich.org 70 i+ if (!len) { Err bitreich.org 70 i+ buf[0] = '\0'; Err bitreich.org 70 i+ return 0; Err bitreich.org 70 i+ } Err bitreich.org 70 i Err bitreich.org 70 i slen = strlen(s); Err bitreich.org 70 i- for (i = 0; i < slen; i += rl) { Err bitreich.org 70 i- if ((rl = mbtowc(&wc, &s[i], slen - i < 4 ? slen - i : 4)) <= 0) Err bitreich.org 70 i- break; Err bitreich.org 70 i- if ((w = wcwidth(wc)) == -1) Err bitreich.org 70 i+ for (i = 0; i < slen; i += inc) { Err bitreich.org 70 i+ inc = 1; Err bitreich.org 70 i+ if ((unsigned char)s[i] < 32) Err bitreich.org 70 i+ continue; Err bitreich.org 70 i+ Err bitreich.org 70 i+ rl = mbtowc(&wc, &s[i], slen - i < 4 ? slen - i : 4); Err bitreich.org 70 i+ if (rl < 0) { Err bitreich.org 70 i+ mbtowc(NULL, NULL, 0); /* reset state */ Err bitreich.org 70 i+ inc = 1; /* next byte */ Err bitreich.org 70 i+ w = 1; /* replacement char is one width */ Err bitreich.org 70 i+ } else if ((w = wcwidth(wc)) == -1) { Err bitreich.org 70 i continue; Err bitreich.org 70 i- if (col + w > len || (col + w == len && s[i + rl])) { Err bitreich.org 70 i+ } else { Err bitreich.org 70 i+ inc = rl; Err bitreich.org 70 i+ } Err bitreich.org 70 i+ Err bitreich.org 70 i+ if (col + w > len || (col + w == len && s[i + inc])) { Err bitreich.org 70 i if (siz + 4 >= bufsiz) Err bitreich.org 70 i return -1; Err bitreich.org 70 i- memcpy(&buf[siz], "\xe2\x80\xa6", 3); Err bitreich.org 70 i- siz += 3; Err bitreich.org 70 i- if (col + w == len && w > 1) Err bitreich.org 70 i- buf[siz++] = pad; Err bitreich.org 70 i+ memcpy(&buf[siz], PAD_TRUNCATE_SYMBOL, sizeof(PAD_TRUNCATE_SYMBOL) - 1); Err bitreich.org 70 i+ siz += sizeof(PAD_TRUNCATE_SYMBOL) - 1; Err bitreich.org 70 i buf[siz] = '\0'; Err bitreich.org 70 i- return 0; Err bitreich.org 70 i+ col++; Err bitreich.org 70 i+ break; Err bitreich.org 70 i+ } else if (rl < 0) { Err bitreich.org 70 i+ if (siz + 4 >= bufsiz) Err bitreich.org 70 i+ return -1; Err bitreich.org 70 i+ memcpy(&buf[siz], UTF_INVALID_SYMBOL, sizeof(UTF_INVALID_SYMBOL) - 1); Err bitreich.org 70 i+ siz += sizeof(UTF_INVALID_SYMBOL) - 1; Err bitreich.org 70 i+ buf[siz] = '\0'; Err bitreich.org 70 i+ col++; Err bitreich.org 70 i+ continue; Err bitreich.org 70 i } Err bitreich.org 70 i- if (siz + rl + 1 >= bufsiz) Err bitreich.org 70 i+ if (siz + inc + 1 >= bufsiz) Err bitreich.org 70 i return -1; Err bitreich.org 70 i- memcpy(&buf[siz], &s[i], rl); Err bitreich.org 70 i- col += w; Err bitreich.org 70 i- siz += rl; Err bitreich.org 70 i+ memcpy(&buf[siz], &s[i], inc); Err bitreich.org 70 i+ siz += inc; Err bitreich.org 70 i buf[siz] = '\0'; Err bitreich.org 70 i+ col += w; Err bitreich.org 70 i } Err bitreich.org 70 i Err bitreich.org 70 i len -= col; Err bitreich.org 70 .