d6/d6a/qunicodetools_8cpp_source.html

// Copyright (C) 2020 The Qt Company Ltd.

// SPDX-License-Identifier: LicenseRef-Qt-Commercial OR LGPL-3.0-only OR GPL-2.0-only OR GPL-3.0-only


#include "qunicodetools_p.h"


#include "qunicodetables_p.h"

#include "qvarlengtharray.h"

#if QT_CONFIG(library)

#include "qlibrary.h"

#endif


#include <limits.h>


#define FLAG(x) (1 << (x))


QT_BEGIN_NAMESPACE


using namespace Qt::StringLiterals;


#ifdef QT_BUILD_INTERNAL

Q_CONSTINIT Q_AUTOTEST_EXPORT

#else

constexpr

#endif

int qt_initcharattributes_default_algorithm_only = 0;


namespace QUnicodeTools {


// -----------------------------------------------------------------------------------------------------

//

// The text boundaries determination algorithm.

// See https://www.unicode.org/reports/tr29/tr29-37.html

//

// -----------------------------------------------------------------------------------------------------


namespace GB {


// This table is indexed by the grapheme break classes of two

// (adjacent) code points.

// The class of the first code point selects an entry.

// If the entry's bit at position second_cp_class is set

// (in other words: if entry & (1u << second_cp_class) is non-zero)

// then there is NO grapheme break between the two code points.


using GBTableEntryType = quint16;


// Check that we have enough bits in the table (in case

// NumGraphemeBreakClasses grows too much).

static_assert(sizeof(GBTableEntryType) * CHAR_BIT >= QUnicodeTables::NumGraphemeBreakClasses,

              "Internal error: increase the size in bits of GBTableEntryType");


// GB9, GB9a

static const GBTableEntryType Extend_SpacingMark_ZWJ =

        FLAG(QUnicodeTables::GraphemeBreak_Extend)

        | FLAG(QUnicodeTables::GraphemeBreak_SpacingMark)

        | FLAG(QUnicodeTables::GraphemeBreak_ZWJ);


static const GBTableEntryType HardBreak = 0u;


static const GBTableEntryType breakTable[QUnicodeTables::NumGraphemeBreakClasses] = {

    Extend_SpacingMark_ZWJ, // Any

    FLAG(QUnicodeTables::GraphemeBreak_LF), // CR

    HardBreak, // LF

    HardBreak, // Control

    Extend_SpacingMark_ZWJ, // Extend

    Extend_SpacingMark_ZWJ, // ZWJ

    Extend_SpacingMark_ZWJ, // RegionalIndicator

    (Extend_SpacingMark_ZWJ

        | FLAG(QUnicodeTables::GraphemeBreak_Any)

        | FLAG(QUnicodeTables::GraphemeBreak_Prepend)

        | FLAG(QUnicodeTables::GraphemeBreak_L)

        | FLAG(QUnicodeTables::GraphemeBreak_V)

        | FLAG(QUnicodeTables::GraphemeBreak_T)

        | FLAG(QUnicodeTables::GraphemeBreak_LV)

        | FLAG(QUnicodeTables::GraphemeBreak_LVT)

        | FLAG(QUnicodeTables::GraphemeBreak_RegionalIndicator)

        | FLAG(QUnicodeTables::GraphemeBreak_Extended_Pictographic)

    ), // Prepend

    Extend_SpacingMark_ZWJ, // SpacingMark

    (Extend_SpacingMark_ZWJ

        | FLAG(QUnicodeTables::GraphemeBreak_L)

        | FLAG(QUnicodeTables::GraphemeBreak_V)

        | FLAG(QUnicodeTables::GraphemeBreak_LV)

        | FLAG(QUnicodeTables::GraphemeBreak_LVT)

    ), // L

    (Extend_SpacingMark_ZWJ

        | FLAG(QUnicodeTables::GraphemeBreak_V)

        | FLAG(QUnicodeTables::GraphemeBreak_T)

    ), // V

    (Extend_SpacingMark_ZWJ

        | FLAG(QUnicodeTables::GraphemeBreak_T)

    ), // T

    (Extend_SpacingMark_ZWJ

        | FLAG(QUnicodeTables::GraphemeBreak_V)

        | FLAG(QUnicodeTables::GraphemeBreak_T)

    ), // LV

    (Extend_SpacingMark_ZWJ

        | FLAG(QUnicodeTables::GraphemeBreak_T)

    ), // LVT

    Extend_SpacingMark_ZWJ // Extended_Pictographic

};


static bool shouldBreakBetweenClasses(QUnicodeTables::GraphemeBreakClass first,

                                      QUnicodeTables::GraphemeBreakClass second)

{

    return (breakTable[first] & FLAG(second)) == 0;

}


// Some rules (GB11, GB12, GB13) cannot be represented by the table alone,

// so we need to store some local state.


enum class State : uchar {

    Normal,

    GB11_ExtPicExt,    // saw a Extend after a Extended_Pictographic

    GB11_ExtPicExtZWJ, // saw a ZWG after a Extended_Pictographic and zero or more Extend

    GB12_13_RI,        // saw a RegionalIndicator following a non-RegionalIndicator

};


} // namespace GB


static void getGraphemeBreaks(const char16_t *string, qsizetype len, QCharAttributes *attributes)

{

    QUnicodeTables::GraphemeBreakClass lcls = QUnicodeTables::GraphemeBreak_LF; // to meet GB1

    GB::State state = GB::State::Normal;

    for (qsizetype i = 0; i != len; ++i) {

        qsizetype pos = i;

        char32_t ucs4 = string[i];

        if (QChar::isHighSurrogate(ucs4) && i + 1 != len) {

            ushort low = string[i + 1];

            if (QChar::isLowSurrogate(low)) {

                ucs4 = QChar::surrogateToUcs4(ucs4, low);

                ++i;

            }

        }


        const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4);

        QUnicodeTables::GraphemeBreakClass cls = (QUnicodeTables::GraphemeBreakClass) prop->graphemeBreakClass;


        bool shouldBreak = GB::shouldBreakBetweenClasses(lcls, cls);

        bool handled = false;


        switch (state) {

        case GB::State::Normal:

            break; // will deal with it below


        case GB::State::GB11_ExtPicExt:

            Q_ASSERT(lcls == QUnicodeTables::GraphemeBreak_Extend);

            if (cls == QUnicodeTables::GraphemeBreak_Extend) {

                // keep going in the current state

                Q_ASSERT(!shouldBreak); // GB9, do not break before Extend

                handled = true;

            } else if (cls == QUnicodeTables::GraphemeBreak_ZWJ) {

                state = GB::State::GB11_ExtPicExtZWJ;

                Q_ASSERT(!shouldBreak); // GB9, do not break before ZWJ

                handled = true;

            } else {

                state = GB::State::Normal;

            }

            break;


        case GB::State::GB11_ExtPicExtZWJ:

            Q_ASSERT(lcls == QUnicodeTables::GraphemeBreak_ZWJ);

            if (cls == QUnicodeTables::GraphemeBreak_Extended_Pictographic) {

                shouldBreak = false;

                handled = true;

            }


            state = GB::State::Normal;

            break;


        case GB::State::GB12_13_RI:

            Q_ASSERT(lcls == QUnicodeTables::GraphemeBreak_RegionalIndicator);

            if (cls == QUnicodeTables::GraphemeBreak_RegionalIndicator) {

                shouldBreak = false;

                handled = true;

            }


            state = GB::State::Normal;

            break;

        }


        if (!handled) {

            Q_ASSERT(state == GB::State::Normal);

            if (lcls == QUnicodeTables::GraphemeBreak_Extended_Pictographic) { // GB11

                if (cls == QUnicodeTables::GraphemeBreak_Extend) {

                    state = GB::State::GB11_ExtPicExt;

                    Q_ASSERT(!shouldBreak); // GB9, do not break before Extend

                } else if (cls == QUnicodeTables::GraphemeBreak_ZWJ) {

                    state = GB::State::GB11_ExtPicExtZWJ;

                    Q_ASSERT(!shouldBreak); // GB9, do not break before ZWJ

                }

            } else if (cls == QUnicodeTables::GraphemeBreak_RegionalIndicator) { // GB12, GB13

                state = GB::State::GB12_13_RI;

            }

        }


        if (shouldBreak)

            attributes[pos].graphemeBoundary = true;


        lcls = cls;

    }


    attributes[len].graphemeBoundary = true; // GB2

}


namespace WB {


enum Action {

    NoBreak,

    Break,

    Lookup,

    LookupW

};


static const uchar breakTable[QUnicodeTables::NumWordBreakClasses][QUnicodeTables::NumWordBreakClasses] = {

//    Any      CR       LF       Newline  Extend   ZWJ      Format    RI       Katakana HLetter  ALetter  SQuote   DQuote  MidNumLet MidLetter MidNum  Numeric ExtNumLet WSeg

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // Any

    { Break  , Break  , NoBreak, Break  , Break  , Break  , Break  ,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // CR

    { Break  , Break  , Break  , Break  , Break  , Break  , Break  ,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // LF

    { Break  , Break  , Break  , Break  , Break  , Break  , Break  ,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // Newline

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // Extend

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // ZWJ

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // Format

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  NoBreak, Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // RegionalIndicator

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , NoBreak, Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , NoBreak, Break   }, // Katakana

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , NoBreak, NoBreak, LookupW, Lookup , LookupW, LookupW, Break  , NoBreak, NoBreak, Break   }, // HebrewLetter

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , NoBreak, NoBreak, LookupW, Break  , LookupW, LookupW, Break  , NoBreak, NoBreak, Break   }, // ALetter

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // SingleQuote

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // DoubleQuote

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // MidNumLet

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // MidLetter

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // MidNum

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , NoBreak, NoBreak, Lookup , Break  , Lookup , Break  , Lookup , NoBreak, NoBreak, Break   }, // Numeric

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , NoBreak, NoBreak, NoBreak, Break  , Break  , Break  , Break  , Break  , NoBreak, NoBreak, Break   }, // ExtendNumLet

    { Break  , Break  , Break  , Break  , NoBreak, NoBreak, NoBreak,  Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , NoBreak }, // WSegSpace

};


} // namespace WB


static void getWordBreaks(const char16_t *string, qsizetype len, QCharAttributes *attributes)

{

    enum WordType {

        WordTypeNone, WordTypeAlphaNumeric, WordTypeHiraganaKatakana

    } currentWordType = WordTypeNone;


    QUnicodeTables::WordBreakClass cls = QUnicodeTables::WordBreak_LF; // to meet WB1

    auto real_cls = cls; // Unaffected by WB4


    for (qsizetype i = 0; i != len; ++i) {

        qsizetype pos = i;

        char32_t ucs4 = string[i];

        if (QChar::isHighSurrogate(ucs4) && i + 1 != len) {

            ushort low = string[i + 1];

            if (QChar::isLowSurrogate(low)) {

                ucs4 = QChar::surrogateToUcs4(ucs4, low);

                ++i;

            }

        }


        const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4);

        QUnicodeTables::WordBreakClass ncls = (QUnicodeTables::WordBreakClass) prop->wordBreakClass;

        if (qt_initcharattributes_default_algorithm_only) {

            // as of Unicode 5.1, some punctuation marks were mapped to MidLetter and MidNumLet

            // which caused "hi.there" to be treated like if it were just a single word;

            // we keep the pre-5.1 behavior by remapping these characters in the Unicode tables generator

            // and this code is needed to pass the coverage tests; remove once the issue is fixed.

            if (ucs4 == 0x002E) // FULL STOP

                ncls = QUnicodeTables::WordBreak_MidNumLet;

            else if (ucs4 == 0x003A) // COLON

                ncls = QUnicodeTables::WordBreak_MidLetter;

        }


        uchar action = WB::breakTable[cls][ncls];

        switch (action) {

        case WB::Break:

            if (Q_UNLIKELY(real_cls == QUnicodeTables::WordBreak_ZWJ

                           && prop->graphemeBreakClass

                                   == QUnicodeTables::GraphemeBreak_Extended_Pictographic)) {

                // WB3c: ZWJ × \p{Extended_Pictographic}

                action = WB::NoBreak;

            }

            break;

        case WB::NoBreak:

            if (Q_UNLIKELY(ncls == QUnicodeTables::WordBreak_Extend || ncls == QUnicodeTables::WordBreak_ZWJ || ncls == QUnicodeTables::WordBreak_Format)) {

                // WB4: X(Extend|Format)* -> X

                real_cls = ncls;

                continue;

            }

            if (Q_UNLIKELY(cls == QUnicodeTables::WordBreak_RegionalIndicator)) {

                // WB15/WB16: break between pairs of Regional indicator

                ncls = QUnicodeTables::WordBreak_Any;

            }

            if (Q_UNLIKELY(ncls == QUnicodeTables::WordBreak_WSegSpace

                           && real_cls != QUnicodeTables::WordBreak_WSegSpace)) {

                // WB3d should not be affected by WB4

                action = WB::Break;

            }

            break;

        case WB::Lookup:

        case WB::LookupW:

            for (qsizetype lookahead = i + 1; lookahead < len; ++lookahead) {

                ucs4 = string[lookahead];

                if (QChar::isHighSurrogate(ucs4) && lookahead + 1 != len) {

                    ushort low = string[lookahead + 1];

                    if (QChar::isLowSurrogate(low)) {

                        ucs4 = QChar::surrogateToUcs4(ucs4, low);

                        ++lookahead;

                    }

                }


                prop = QUnicodeTables::properties(ucs4);

                QUnicodeTables::WordBreakClass tcls = (QUnicodeTables::WordBreakClass) prop->wordBreakClass;


                if (Q_UNLIKELY(tcls == QUnicodeTables::WordBreak_Extend || tcls == QUnicodeTables::WordBreak_ZWJ || tcls == QUnicodeTables::WordBreak_Format)) {

                    // WB4: X(Extend|Format)* -> X

                    continue;

                }


                if (Q_LIKELY(tcls == cls || (action == WB::LookupW && (tcls == QUnicodeTables::WordBreak_HebrewLetter

                                                                       || tcls == QUnicodeTables::WordBreak_ALetter)))) {

                    i = lookahead;

                    ncls = tcls;

                    action = WB::NoBreak;

                }

                break;

            }

            if (action != WB::NoBreak) {

                action = WB::Break;

                if (Q_UNLIKELY(ncls == QUnicodeTables::WordBreak_SingleQuote && cls == QUnicodeTables::WordBreak_HebrewLetter))

                    action = WB::NoBreak; // WB7a

            }

            break;

        }


        cls = ncls;

        real_cls = ncls;


        if (action == WB::Break) {

            attributes[pos].wordBreak = true;

            if (currentWordType != WordTypeNone)

                attributes[pos].wordEnd = true;

            switch (cls) {

            case QUnicodeTables::WordBreak_Katakana:

                currentWordType = WordTypeHiraganaKatakana;

                attributes[pos].wordStart = true;

                break;

            case QUnicodeTables::WordBreak_HebrewLetter:

            case QUnicodeTables::WordBreak_ALetter:

            case QUnicodeTables::WordBreak_Numeric:

                currentWordType = WordTypeAlphaNumeric;

                attributes[pos].wordStart = true;

                break;

            default:

                currentWordType = WordTypeNone;

                break;

            }

        }

    }


    if (currentWordType != WordTypeNone)

        attributes[len].wordEnd = true;

    attributes[len].wordBreak = true; // WB2

}


namespace SB {


enum State {

    Initial,

    Lower,

    Upper,

    LUATerm,

    ATerm,

    ATermC,

    ACS,

    STerm,

    STermC,

    SCS,

    BAfterC,

    BAfter,

    Break,

    Lookup

};


static const uchar breakTable[BAfter + 1][QUnicodeTables::NumSentenceBreakClasses] = {

//    Any      CR       LF       Sep      Extend   Sp       Lower    Upper    OLetter  Numeric  ATerm   SContinue STerm    Close

    { Initial, BAfterC, BAfter , BAfter , Initial, Initial, Lower  , Upper  , Initial, Initial, ATerm  , Initial, STerm  , Initial }, // Initial

    { Initial, BAfterC, BAfter , BAfter , Lower  , Initial, Initial, Initial, Initial, Initial, LUATerm, Initial, STerm  , Initial }, // Lower

    { Initial, BAfterC, BAfter , BAfter , Upper  , Initial, Initial, Upper  , Initial, Initial, LUATerm, Initial, STerm  , Initial }, // Upper


    { Lookup , BAfterC, BAfter , BAfter , LUATerm, ACS    , Initial, Upper  , Break  , Initial, ATerm  , STerm  , STerm  , ATermC  }, // LUATerm

    { Lookup , BAfterC, BAfter , BAfter , ATerm  , ACS    , Initial, Break  , Break  , Initial, ATerm  , STerm  , STerm  , ATermC  }, // ATerm

    { Lookup , BAfterC, BAfter , BAfter , ATermC , ACS    , Initial, Break  , Break  , Lookup , ATerm  , STerm  , STerm  , ATermC  }, // ATermC

    { Lookup , BAfterC, BAfter , BAfter , ACS    , ACS    , Initial, Break  , Break  , Lookup , ATerm  , STerm  , STerm  , Lookup  }, // ACS


    { Break  , BAfterC, BAfter , BAfter , STerm  , SCS    , Break  , Break  , Break  , Break  , ATerm  , STerm  , STerm  , STermC  }, // STerm,

    { Break  , BAfterC, BAfter , BAfter , STermC , SCS    , Break  , Break  , Break  , Break  , ATerm  , STerm  , STerm  , STermC  }, // STermC

    { Break  , BAfterC, BAfter , BAfter , SCS    , SCS    , Break  , Break  , Break  , Break  , ATerm  , STerm  , STerm  , Break   }, // SCS

    { Break  , Break  , BAfter , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // BAfterC

    { Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break  , Break   }, // BAfter

};


} // namespace SB


static void getSentenceBreaks(const char16_t *string, qsizetype len, QCharAttributes *attributes)

{

    uchar state = SB::BAfter; // to meet SB1

    for (qsizetype i = 0; i != len; ++i) {

        qsizetype pos = i;

        char32_t ucs4 = string[i];

        if (QChar::isHighSurrogate(ucs4) && i + 1 != len) {

            ushort low = string[i + 1];

            if (QChar::isLowSurrogate(low)) {

                ucs4 = QChar::surrogateToUcs4(ucs4, low);

                ++i;

            }

        }


        const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4);

        QUnicodeTables::SentenceBreakClass ncls = (QUnicodeTables::SentenceBreakClass) prop->sentenceBreakClass;


        Q_ASSERT(state <= SB::BAfter);

        state = SB::breakTable[state][ncls];

        if (Q_UNLIKELY(state == SB::Lookup)) { // SB8

            state = SB::Break;

            for (qsizetype lookahead = i + 1; lookahead < len; ++lookahead) {

                ucs4 = string[lookahead];

                if (QChar::isHighSurrogate(ucs4) && lookahead + 1 != len) {

                    ushort low = string[lookahead + 1];

                    if (QChar::isLowSurrogate(low)) {

                        ucs4 = QChar::surrogateToUcs4(ucs4, low);

                        ++lookahead;

                    }

                }


                prop = QUnicodeTables::properties(ucs4);

                QUnicodeTables::SentenceBreakClass tcls = (QUnicodeTables::SentenceBreakClass) prop->sentenceBreakClass;

                switch (tcls) {

                case QUnicodeTables::SentenceBreak_Any:

                case QUnicodeTables::SentenceBreak_Extend:

                case QUnicodeTables::SentenceBreak_Sp:

                case QUnicodeTables::SentenceBreak_Numeric:

                case QUnicodeTables::SentenceBreak_SContinue:

                case QUnicodeTables::SentenceBreak_Close:

                    continue;

                case QUnicodeTables::SentenceBreak_Lower:

                    i = lookahead;

                    state = SB::Initial;

                    break;

                default:

                    break;

                }

                break;

            }

        }

        if (Q_UNLIKELY(state == SB::Break)) {

            attributes[pos].sentenceBoundary = true;

            state = SB::breakTable[SB::Initial][ncls];

        }

    }


    attributes[len].sentenceBoundary = true; // SB2

}


// -----------------------------------------------------------------------------------------------------

//

// The line breaking algorithm.

// See http://www.unicode.org/reports/tr14/tr14-39.html

//

// -----------------------------------------------------------------------------------------------------


namespace LB {


namespace NS { // Number Sequence


// LB25 recommends to not break lines inside numbers of the form

// described by the following regular expression:

//  (PR|PO)?(OP|HY)?NU(NU|SY|IS)*(CL|CP)?(PR|PO)?


enum Action {

    None,

    Start,

    Continue,

    Break

};


enum Class {

    XX,

    PRPO,

    OPHY,

    NU,

    SYIS,

    CLCP

};


static const uchar actionTable[CLCP + 1][CLCP + 1] = {

//     XX       PRPO      OPHY       NU       SYIS      CLCP

    { None    , Start   , Start   , Start   , None    , None     }, // XX

    { None    , Start   , Continue, Continue, None    , None     }, // PRPO

    { None    , Start   , Start   , Continue, None    , None     }, // OPHY

    { Break   , Break   , Break   , Continue, Continue, Continue }, // NU

    { Break   , Break   , Break   , Continue, Continue, Continue }, // SYIS

    { Break   , Continue, Break   , Break   , Break   , Break    }, // CLCP

};


inline Class toClass(QUnicodeTables::LineBreakClass lbc, QChar::Category category)

{

    switch (lbc) {

    case QUnicodeTables::LineBreak_AL:// case QUnicodeTables::LineBreak_AI:

        // resolve AI math symbols in numerical context to IS

        if (category == QChar::Symbol_Math)

            return SYIS;

        break;

    case QUnicodeTables::LineBreak_PR: case QUnicodeTables::LineBreak_PO:

        return PRPO;

    case QUnicodeTables::LineBreak_OP: case QUnicodeTables::LineBreak_HY:

        return OPHY;

    case QUnicodeTables::LineBreak_NU:

        return NU;

    case QUnicodeTables::LineBreak_SY: case QUnicodeTables::LineBreak_IS:

        return SYIS;

    case QUnicodeTables::LineBreak_CL: case QUnicodeTables::LineBreak_CP:

        return CLCP;

    default:

        break;

    }

    return XX;

}


} // namespace NS


/* In order to support the tailored implementation of LB25 properly

   the following changes were made in the pair table to allow breaks

   where the numeric expression doesn't match the template (i.e. [^NU](IS|SY)NU):

   (CL)(PO) from IB to DB

   (CP)(PO) from IB to DB

   (CL)(PR) from IB to DB

   (CP)(PR) from IB to DB

   (PO)(OP) from IB to DB

   (PR)(OP) from IB to DB

   (IS)(NU) from IB to DB

   (SY)(NU) from IB to DB

*/


/* In order to implementat LB21a properly a special rule HH has been introduced and

   the following changes were made in the pair table to disallow breaks after Hebrew + Hyphen:

   (HL)(HY|BA) from IB to CI

   (HY|BA)(!CB) from DB to HH

*/


enum Action {

    ProhibitedBreak, PB = ProhibitedBreak,

    DirectBreak, DB = DirectBreak,

    IndirectBreak, IB = IndirectBreak,

    CombiningIndirectBreak, CI = CombiningIndirectBreak,

    CombiningProhibitedBreak, CP = CombiningProhibitedBreak,

    ProhibitedBreakAfterHebrewPlusHyphen, HH = ProhibitedBreakAfterHebrewPlusHyphen,

    IndirectBreakIfNarrow, IN = IndirectBreakIfNarrow, // For LB30

};


// See https://www.unicode.org/reports/tr14/tr14-37.html for the information

// about the table. It was removed in the later versions of the standard.


static const uchar breakTable[QUnicodeTables::LineBreak_ZWJ][QUnicodeTables::LineBreak_ZWJ] = {

/* 1↓ 2→   OP  CL  CP  QU  +Pi +Pf GL  NS  EX  SY  IS  PR  PO  NU  AL  HL  ID  IN  HY  BA  BB  B2  ZW  CM  WJ  H2  H3  JL  JV  JT  RI  CB  EB  EM*/

/* OP */ { PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, CP, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB },

/* CL */ { DB, PB, PB, IB, IB, PB, IB, PB, PB, PB, PB, DB, DB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* CP */ { DB, PB, PB, IB, IB, PB, IB, PB, PB, PB, PB, DB, DB, IB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* QU */ { IB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB },

/* +Pi*/ { PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB, CP, PB, PB, PB, PB, PB, PB, PB, PB, PB, PB },

/* +Pf*/ { IB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB },

/* GL */ { IB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB },

/* NS */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* EX */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* SY */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, DB, DB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* IS */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, DB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* PR */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, IB, IB, IB, IB, IB, IB, IB, DB, DB, PB, CI, PB, IB, IB, IB, IB, IB, DB, DB, IB, IB },

/* PO */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, IB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* NU */ { IN, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* AL */ { IN, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* HL */ { IN, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, DB, IB, CI, CI, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* ID */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* IN */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* HY */ { HH, PB, PB, IB, IB, PB, HH, IB, PB, PB, PB, HH, HH, IB, HH, HH, HH, IB, IB, IB, HH, HH, PB, CI, PB, HH, HH, HH, HH, HH, HH, DB, DB, DB },

/* BA */ { HH, PB, PB, IB, IB, PB, HH, IB, PB, PB, PB, HH, HH, HH, HH, HH, HH, IB, IB, IB, HH, HH, PB, CI, PB, HH, HH, HH, HH, HH, HH, DB, DB, DB },

/* BB */ { IB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, DB, IB, IB },

/* B2 */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, IB, IB, IB, DB, PB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* ZW */ { DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* CM */ { IB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, IB, IB, IB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* WJ */ { IB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, IB, PB, CI, PB, IB, IB, IB, IB, IB, IB, IB, IB, IB },

/* H2 */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, IB, IB, DB, DB, DB, DB },

/* H3 */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, IB, DB, DB, DB, DB },

/* JL */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, IB, IB, IB, IB, DB, DB, DB, DB, DB },

/* JV */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, IB, IB, DB, DB, DB, DB },

/* JT */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, IB, DB, DB, DB, DB },

/* RI */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, DB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, IB, DB, DB, DB },

/* CB */ { DB, PB, PB, IB, IB, PB, IB, DB, PB, PB, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

/* EB */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, IB },

/* EM */ { DB, PB, PB, IB, IB, PB, IB, IB, PB, PB, PB, DB, IB, DB, DB, DB, DB, IB, IB, IB, DB, DB, PB, CI, PB, DB, DB, DB, DB, DB, DB, DB, DB, DB },

};


// The following line break classes are not treated by the pair table

// and must be resolved outside:

//  AI, AK, AP, AS, BK, CB, CJ, CR, LF, NL, SA, SG, SP, VF, VI, XX, ZWJ


} // namespace LB


static void getLineBreaks(const char16_t *string, qsizetype len, QCharAttributes *attributes, QUnicodeTools::CharAttributeOptions options)

{

    qsizetype nestart = 0;

    LB::NS::Class nelast = LB::NS::XX;


    QUnicodeTables::LineBreakClass lcls = QUnicodeTables::LineBreak_LF; // to meet LB10

    QUnicodeTables::LineBreakClass cls = lcls;

    const QUnicodeTables::Properties *lastProp = QUnicodeTables::properties(U'\n');


    for (qsizetype i = 0; i != len; ++i) {

        qsizetype pos = i;

        char32_t ucs4 = string[i];

        if (QChar::isHighSurrogate(ucs4) && i + 1 != len) {

            ushort low = string[i + 1];

            if (QChar::isLowSurrogate(low)) {

                ucs4 = QChar::surrogateToUcs4(ucs4, low);

                ++i;

            }

        }


        const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4);

        QUnicodeTables::LineBreakClass ncls = (QUnicodeTables::LineBreakClass) prop->lineBreakClass;

        QUnicodeTables::LineBreakClass tcls;


        if (options & QUnicodeTools::HangulLineBreakTailoring) {

            if (Q_UNLIKELY((ncls >= QUnicodeTables::LineBreak_H2

                        &&  ncls <= QUnicodeTables::LineBreak_JT)

                        || (ucs4 >= 0x3130 && ucs4 <= 0x318F && ncls == QUnicodeTables::LineBreak_ID))

                    ) {

                // LB27: use SPACE for line breaking

                // "When Korean uses SPACE for line breaking, the classes in rule LB26,

                // as well as characters of class ID, are often tailored to AL; see Section 8, Customization."

                // In case of Korean syllables: "3130..318F  HANGUL COMPATIBILITY JAMO"

                ncls = QUnicodeTables::LineBreak_AL;

            } else {

                if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_SA)) {

                    // LB1: resolve SA to AL, except of those that have Category Mn or Mc be resolved to CM

                    static const int test = FLAG(QChar::Mark_NonSpacing) | FLAG(QChar::Mark_SpacingCombining);

                    if (FLAG(prop->category) & test)

                        ncls = QUnicodeTables::LineBreak_CM;

                }

                if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_CM)) {

                    // LB10: treat CM that follows SP, BK, CR, LF, NL, or ZW as AL

                    if (lcls == QUnicodeTables::LineBreak_ZW || lcls >= QUnicodeTables::LineBreak_SP)

                        ncls = QUnicodeTables::LineBreak_AL;

                }

            }

        }


        if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_SA)) {

            // LB1: resolve SA to AL, except of those that have Category Mn or Mc be resolved to CM

            static const int test = FLAG(QChar::Mark_NonSpacing) | FLAG(QChar::Mark_SpacingCombining);

            if (FLAG(prop->category) & test)

                ncls = QUnicodeTables::LineBreak_CM;

        }


        if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_QU)) {

            if (prop->category == QChar::Punctuation_InitialQuote) {

                // LB15a: Do not break after an unresolved initial punctuation

                // that lies at the start of the line, after a space, after

                // opening punctuation, or after an unresolved quotation mark,

                // even after spaces.

                //   (sot | BK | CR | LF | NL | OP | QU | GL | SP | ZW)

                //     [\p{Pi}&QU] SP* ×

                // Note: sot is treated as LF here due to initial loop setup.

                constexpr QUnicodeTables::LineBreakClass lb15a[] = {

                        QUnicodeTables::LineBreak_BK,    QUnicodeTables::LineBreak_CR,

                        QUnicodeTables::LineBreak_LF,    QUnicodeTables::LineBreak_OP,

                        QUnicodeTables::LineBreak_QU,    QUnicodeTables::LineBreak_QU_Pi,

                        QUnicodeTables::LineBreak_QU_Pf, QUnicodeTables::LineBreak_GL,

                        QUnicodeTables::LineBreak_SP,    QUnicodeTables::LineBreak_ZW};

                if (std::any_of(std::begin(lb15a), std::end(lb15a),

                                [lcls](auto x) { return x == lcls; })) {

                    ncls = QUnicodeTables::LineBreak_QU_Pi;

                }

            } else if (prop->category == QChar::Punctuation_FinalQuote) {

                // LB15b: Do not break before an unresolved final punctuation

                // that lies at the end of the line, before a space, before

                // a prohibited break, or before an unresolved quotation mark,

                // even after spaces.

                //   × [\p{Pf}&QU] ( SP | GL | WJ | CL | QU | CP | EX | IS

                //     | SY | BK | CR | LF | NL | ZW | eot)

                auto nncls = QUnicodeTables::LineBreak_LF;


                if (i + 1 < len) {

                    char32_t c = string[i + 1];

                    if (QChar::isHighSurrogate(c) && i + 2 != len) {

                        ushort low = string[i + 2];

                        if (QChar::isLowSurrogate(low))

                            c = QChar::surrogateToUcs4(c, low);

                    }

                    nncls = QUnicodeTables::LineBreakClass(

                            QUnicodeTables::properties(c)->lineBreakClass);

                }


                constexpr QUnicodeTables::LineBreakClass lb15b[] = {

                        QUnicodeTables::LineBreak_SP,    QUnicodeTables::LineBreak_GL,

                        QUnicodeTables::LineBreak_WJ,    QUnicodeTables::LineBreak_CL,

                        QUnicodeTables::LineBreak_QU,    QUnicodeTables::LineBreak_QU_Pi,

                        QUnicodeTables::LineBreak_QU_Pf, QUnicodeTables::LineBreak_CP,

                        QUnicodeTables::LineBreak_EX,    QUnicodeTables::LineBreak_IS,

                        QUnicodeTables::LineBreak_SY,    QUnicodeTables::LineBreak_BK,

                        QUnicodeTables::LineBreak_CR,    QUnicodeTables::LineBreak_LF,

                        QUnicodeTables::LineBreak_ZW};

                if (std::any_of(std::begin(lb15b), std::end(lb15b),

                                [nncls](auto x) { return x == nncls; })) {

                    ncls = QUnicodeTables::LineBreak_QU_Pf;

                }

            }

        }


        if (Q_UNLIKELY(lcls >= QUnicodeTables::LineBreak_CR)) {

            // LB4: BK!, LB5: (CRxLF|CR|LF|NL)!

            if (lcls > QUnicodeTables::LineBreak_CR || ncls != QUnicodeTables::LineBreak_LF)

                attributes[pos].lineBreak = attributes[pos].mandatoryBreak = true;

            if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_CM || ncls == QUnicodeTables::LineBreak_ZWJ)) {

                cls = QUnicodeTables::LineBreak_AL;

                goto next_no_cls_update;

            }

            goto next;

        }


        if (Q_UNLIKELY(ncls >= QUnicodeTables::LineBreak_SP)) {

            if (ncls > QUnicodeTables::LineBreak_SP)

                goto next; // LB6: x(BK|CR|LF|NL)

            goto next_no_cls_update; // LB7: xSP

        }


        if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_CM || ncls == QUnicodeTables::LineBreak_ZWJ)) {

            // LB9: treat CM that don't follows SP, BK, CR, LF, NL, or ZW as X

            if (lcls != QUnicodeTables::LineBreak_ZW && lcls < QUnicodeTables::LineBreak_SP)

                // don't update anything

                goto next_no_cls_update;

        }


        if (Q_UNLIKELY(lcls == QUnicodeTables::LineBreak_ZWJ)) {

            // LB8a: ZWJ x

            goto next;

        }


        // LB25: do not break lines inside numbers

        {

            LB::NS::Class necur = LB::NS::toClass(ncls, (QChar::Category)prop->category);

            switch (LB::NS::actionTable[nelast][necur]) {

            case LB::NS::Break:

                // do not change breaks before and after the expression

                for (qsizetype j = nestart + 1; j < pos; ++j)

                    attributes[j].lineBreak = false;

                Q_FALLTHROUGH();

            case LB::NS::None:

                nelast = LB::NS::XX; // reset state

                break;

            case LB::NS::Start:

                nestart = i;

                Q_FALLTHROUGH();

            default:

                nelast = necur;

                break;

            }

        }


        if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_RI && lcls == QUnicodeTables::LineBreak_RI)) {

            // LB30a

            ncls = QUnicodeTables::LineBreak_SP;

            goto next;

        }


        if (Q_UNLIKELY(ncls == QUnicodeTables::LineBreak_EM

                       && lastProp->category == QChar::Other_NotAssigned

                       && lastProp->graphemeBreakClass

                               == QUnicodeTables::GraphemeBreak_Extended_Pictographic)) {

            // LB30b: [\p{Extended_Pictographic}&\p{Cn}] × EM

            goto next;

        }


        // for South East Asian chars that require a complex analysis, the Unicode

        // standard recommends to treat them as AL. tailoring that do dictionary analysis can override

        if (Q_UNLIKELY(cls >= QUnicodeTables::LineBreak_SA))

            cls = QUnicodeTables::LineBreak_AL;


        tcls = cls;

        if (tcls == QUnicodeTables::LineBreak_CM || tcls == QUnicodeTables::LineBreak_ZWJ)

            // LB10

            tcls = QUnicodeTables::LineBreak_AL;

        switch (LB::breakTable[tcls][ncls < QUnicodeTables::LineBreak_ZWJ ? ncls : QUnicodeTables::LineBreak_AL]) {

        case LB::DirectBreak:

            attributes[pos].lineBreak = true;

            break;

        case LB::IndirectBreak:

            if (lcls == QUnicodeTables::LineBreak_SP)

                attributes[pos].lineBreak = true;

            break;

        case LB::CombiningIndirectBreak:

            if (lcls != QUnicodeTables::LineBreak_SP)

                goto next_no_cls_update;

            attributes[pos].lineBreak = true;

            break;

        case LB::CombiningProhibitedBreak:

            if (lcls != QUnicodeTables::LineBreak_SP)

                goto next_no_cls_update;

            break;

        case LB::ProhibitedBreakAfterHebrewPlusHyphen:

            if (lcls != QUnicodeTables::LineBreak_HL)

                attributes[pos].lineBreak = true;

            break;

        case LB::IndirectBreakIfNarrow:

            switch (static_cast<QUnicodeTables::EastAsianWidth>(prop->eastAsianWidth)) {

            default:

                if (lcls != QUnicodeTables::LineBreak_SP)

                    break;

                Q_FALLTHROUGH();

            case QUnicodeTables::EastAsianWidth::F:

            case QUnicodeTables::EastAsianWidth::W:

            case QUnicodeTables::EastAsianWidth::H:

                attributes[pos].lineBreak = true;

                break;

            }

            break;

        case LB::ProhibitedBreak:

            // nothing to do

        default:

            break;

        }


    next:

        cls = ncls;

        lastProp = prop;

    next_no_cls_update:

        lcls = ncls;

    }


    if (Q_UNLIKELY(LB::NS::actionTable[nelast][LB::NS::XX] == LB::NS::Break)) {

        // LB25: do not break lines inside numbers

        for (qsizetype j = nestart + 1; j < len; ++j)

            attributes[j].lineBreak = false;

    }


    attributes[0].lineBreak = attributes[0].mandatoryBreak = false; // LB2

    attributes[len].lineBreak = attributes[len].mandatoryBreak = true; // LB3

}


static void getWhiteSpaces(const char16_t *string, qsizetype len, QCharAttributes *attributes)

{

    for (qsizetype i = 0; i != len; ++i) {

        uint ucs4 = string[i];

        if (QChar::isHighSurrogate(ucs4) && i + 1 != len) {

            ushort low = string[i + 1];

            if (QChar::isLowSurrogate(low)) {

                ucs4 = QChar::surrogateToUcs4(ucs4, low);

                ++i;

            }

        }


        if (Q_UNLIKELY(QChar::isSpace(ucs4)))

            attributes[i].whiteSpace = true;

    }

}


namespace Tailored {


using CharAttributeFunction = void (*)(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes);


enum Form {

    Invalid = 0x0,

    UnknownForm = Invalid,

    Consonant,

    Nukta,

    Halant,

    Matra,

    VowelMark,

    StressMark,

    IndependentVowel,

    LengthMark,

    Control,

    Other

};


static const unsigned char indicForms[0xe00-0x900] = {

    // Devangari

    Invalid, VowelMark, VowelMark, VowelMark,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,


    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Nukta, Other, Matra, Matra,


    Matra, Matra, Matra, Matra,

    Matra, Matra, Matra, Matra,

    Matra, Matra, Matra, Matra,

    Matra, Halant, UnknownForm, UnknownForm,


    Other, StressMark, StressMark, StressMark,

    StressMark, UnknownForm, UnknownForm, UnknownForm,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    IndependentVowel, IndependentVowel, VowelMark, VowelMark,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Consonant,

    Consonant, Consonant /* ??? */, Consonant, Consonant,


    // Bengali

    Invalid, VowelMark, VowelMark, VowelMark,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, Invalid, Invalid, IndependentVowel,


    IndependentVowel, Invalid, Invalid, IndependentVowel,

    IndependentVowel, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Invalid, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Invalid, Consonant, Invalid,

    Invalid, Invalid, Consonant, Consonant,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Nukta, Other, Matra, Matra,


    Matra, Matra, Matra, Matra,

    Matra, Invalid, Invalid, Matra,

    Matra, Invalid, Invalid, Matra,

    Matra, Halant, Consonant, UnknownForm,


    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, VowelMark,

    Invalid, Invalid, Invalid, Invalid,

    Consonant, Consonant, Invalid, Consonant,


    IndependentVowel, IndependentVowel, VowelMark, VowelMark,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    Consonant, Consonant, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    // Gurmukhi

    Invalid, VowelMark, VowelMark, VowelMark,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, Invalid,

    Invalid, Invalid, Invalid, IndependentVowel,


    IndependentVowel, Invalid, Invalid, IndependentVowel,

    IndependentVowel, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Invalid, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Invalid, Consonant, Consonant,

    Invalid, Consonant, Consonant, Invalid,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Nukta, Other, Matra, Matra,


    Matra, Matra, Matra, Invalid,

    Invalid, Invalid, Invalid, Matra,

    Matra, Invalid, Invalid, Matra,

    Matra, Halant, UnknownForm, UnknownForm,


    Invalid, Invalid, Invalid, Invalid,

    Invalid, UnknownForm, UnknownForm, UnknownForm,

    Invalid, Consonant, Consonant, Consonant,

    Consonant, Invalid, Consonant, Invalid,


    Other, Other, Invalid, Invalid,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    StressMark, StressMark, Consonant, Consonant,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    // Gujarati

    Invalid, VowelMark, VowelMark, VowelMark,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, Invalid, IndependentVowel,


    IndependentVowel, IndependentVowel, Invalid, IndependentVowel,

    IndependentVowel, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Invalid, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Invalid, Consonant, Consonant,

    Invalid, Consonant, Consonant, Consonant,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Nukta, Other, Matra, Matra,


    Matra, Matra, Matra, Matra,

    Matra, Matra, Invalid, Matra,

    Matra, Matra, Invalid, Matra,

    Matra, Halant, UnknownForm, UnknownForm,


    Other, UnknownForm, UnknownForm, UnknownForm,

    UnknownForm, UnknownForm, UnknownForm, UnknownForm,

    UnknownForm, UnknownForm, UnknownForm, UnknownForm,

    UnknownForm, UnknownForm, UnknownForm, UnknownForm,


    IndependentVowel, IndependentVowel, VowelMark, VowelMark,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    // Oriya

    Invalid, VowelMark, VowelMark, VowelMark,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, Invalid, Invalid, IndependentVowel,


    IndependentVowel, Invalid, Invalid, IndependentVowel,

    IndependentVowel, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Invalid, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Invalid, Consonant, Consonant,

    Invalid, Consonant, Consonant, Consonant,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Nukta, Other, Matra, Matra,


    Matra, Matra, Matra, Matra,

    Invalid, Invalid, Invalid, Matra,

    Matra, Invalid, Invalid, Matra,

    Matra, Halant, UnknownForm, UnknownForm,


    Other, Invalid, Invalid, Invalid,

    Invalid, UnknownForm, LengthMark, LengthMark,

    Invalid, Invalid, Invalid, Invalid,

    Consonant, Consonant, Invalid, Consonant,


    IndependentVowel, IndependentVowel, Invalid, Invalid,

    Invalid, Invalid, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    Other, Consonant, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    //Tamil

    Invalid, Invalid, VowelMark, Other,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, Invalid,

    Invalid, Invalid, IndependentVowel, IndependentVowel,


    IndependentVowel, Invalid, IndependentVowel, IndependentVowel,

    IndependentVowel, Consonant, Invalid, Invalid,

    Invalid, Consonant, Consonant, Invalid,

    Consonant, Invalid, Consonant, Consonant,


    Invalid, Invalid, Invalid, Consonant,

    Consonant, Invalid, Invalid, Invalid,

    Consonant, Consonant, Consonant, Invalid,

    Invalid, Invalid, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Invalid, Invalid, Matra, Matra,


    Matra, Matra, Matra, Invalid,

    Invalid, Invalid, Matra, Matra,

    Matra, Invalid, Matra, Matra,

    Matra, Halant, Invalid, Invalid,


    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, LengthMark,

    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, Invalid,


    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    // Telugu

    Invalid, VowelMark, VowelMark, VowelMark,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, Invalid, IndependentVowel, IndependentVowel,


    IndependentVowel, Invalid, IndependentVowel, IndependentVowel,

    IndependentVowel, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Invalid, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Invalid, Consonant, Consonant, Consonant,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Invalid, Invalid, Matra, Matra,


    Matra, Matra, Matra, Matra,

    Matra, Invalid, Matra, Matra,

    Matra, Invalid, Matra, Matra,

    Matra, Halant, Invalid, Invalid,


    Invalid, Invalid, Invalid, Invalid,

    Invalid, LengthMark, Matra, Invalid,

    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, Invalid,


    IndependentVowel, IndependentVowel, Invalid, Invalid,

    Invalid, Invalid, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    // Kannada

    Invalid, Invalid, VowelMark, VowelMark,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, Invalid, IndependentVowel, IndependentVowel,


    IndependentVowel, Invalid, IndependentVowel, IndependentVowel,

    IndependentVowel, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Invalid, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Invalid, Consonant, Consonant, Consonant,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Nukta, Other, Matra, Matra,


    Matra, Matra, Matra, Matra,

    Matra, Invalid, Matra, Matra,

    Matra, Invalid, Matra, Matra,

    Matra, Halant, Invalid, Invalid,


    Invalid, Invalid, Invalid, Invalid,

    Invalid, LengthMark, LengthMark, Invalid,

    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Consonant, Invalid,


    IndependentVowel, IndependentVowel, VowelMark, VowelMark,

    Invalid, Invalid, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    // Malayalam

    Invalid, Invalid, VowelMark, VowelMark,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, Invalid, IndependentVowel, IndependentVowel,


    IndependentVowel, Invalid, IndependentVowel, IndependentVowel,

    IndependentVowel, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Invalid, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, UnknownForm, UnknownForm,

    Invalid, Invalid, Matra, Matra,


    Matra, Matra, Matra, Matra,

    Invalid, Invalid, Matra, Matra,

    Matra, Invalid, Matra, Matra,

    Matra, Halant, Invalid, Invalid,


    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, Matra,

    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, Invalid,


    IndependentVowel, IndependentVowel, Invalid, Invalid,

    Invalid, Invalid, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,


    // Sinhala

    Invalid, Invalid, VowelMark, VowelMark,

    Invalid, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,


    IndependentVowel, IndependentVowel, IndependentVowel, IndependentVowel,

    IndependentVowel, IndependentVowel, IndependentVowel, Invalid,

    Invalid, Invalid, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,


    Consonant, Consonant, Invalid, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Consonant,

    Invalid, Consonant, Invalid, Invalid,


    Consonant, Consonant, Consonant, Consonant,

    Consonant, Consonant, Consonant, Invalid,

    Invalid, Invalid, Halant, Invalid,

    Invalid, Invalid, Invalid, Matra,


    Matra, Matra, Matra, Matra,

    Matra, Invalid, Matra, Invalid,

    Matra, Matra, Matra, Matra,

    Matra, Matra, Matra, Matra,


    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, Invalid,

    Invalid, Invalid, Invalid, Invalid,


    Invalid, Invalid, Matra, Matra,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

    Other, Other, Other, Other,

};


static inline Form form(unsigned short uc) {

    if (uc < 0x900 || uc > 0xdff) {

        if (uc == 0x25cc)

            return Consonant;

        if (uc == 0x200c || uc == 0x200d)

            return Control;

        return Other;

    }

    return (Form)indicForms[uc-0x900];

}


// #define INDIC_DEBUG

#ifdef INDIC_DEBUG

#define IDEBUG qDebug

#else

#define IDEBUG if constexpr (1) ; else qDebug

#endif


/* syllables are of the form:


   (Consonant Nukta? Halant)* Consonant Matra? VowelMark? StressMark?

   (Consonant Nukta? Halant)* Consonant Halant

   IndependentVowel VowelMark? StressMark?


   We return syllable boundaries on invalid combinations as well

*/


static qsizetype indic_nextSyllableBoundary(QChar::Script script, const char16_t *s, qsizetype start, qsizetype end, bool *invalid)

{

    *invalid = false;

    IDEBUG("indic_nextSyllableBoundary: start=%lld, end=%lld", qlonglong(start), qlonglong(end));

    const char16_t *uc = s+start;


    qsizetype pos = 0;

    Form state = form(uc[pos]);

    IDEBUG("state[%lld]=%d (uc=%4x)", qlonglong(pos), state, uc[pos]);

    pos++;


    if (state != Consonant && state != IndependentVowel) {

        if (state != Other)

            *invalid = true;

        goto finish;

    }


    while (pos < end - start) {

        Form newState = form(uc[pos]);

        IDEBUG("state[%lld]=%d (uc=%4x)", qlonglong(pos), newState, uc[pos]);

        switch (newState) {

        case Control:

            newState = state;

        if (state == Halant && uc[pos] == 0x200d /* ZWJ */)

        break;

            // the control character should be the last char in the item

        if (state == Consonant && script == QChar::Script_Bengali && uc[pos-1] == 0x09B0 && uc[pos] == 0x200d /* ZWJ */)

        break;

        if (state == Consonant && script == QChar::Script_Kannada && uc[pos-1] == 0x0CB0 && uc[pos] == 0x200d /* ZWJ */)

        break;

            // Bengali and Kannada has a special exception for rendering yaphala with ra (to avoid reph) see http://www.unicode.org/faq/indic.html#15

            ++pos;

            goto finish;

        case Consonant:

        if (state == Halant && (script != QChar::Script_Sinhala || uc[pos-1] == 0x200d /* ZWJ */))

                break;

            goto finish;

        case Halant:

            if (state == Nukta || state == Consonant)

                break;

            // Bengali has a special exception allowing the combination Vowel_A/E + Halant + Ya

            if (script == QChar::Script_Bengali && pos == 1 &&

                 (uc[0] == 0x0985 || uc[0] == 0x098f))

                break;

            // Sinhala uses the Halant as a component of certain matras. Allow these, but keep the state on Matra.

            if (script == QChar::Script_Sinhala && state == Matra) {

                ++pos;

                continue;

            }

            if (script == QChar::Script_Malayalam && state == Matra && uc[pos-1] == 0x0d41) {

                ++pos;

                continue;

            }

            goto finish;

        case Nukta:

            if (state == Consonant)

                break;

            goto finish;

        case StressMark:

            if (state == VowelMark)

                break;

            Q_FALLTHROUGH();

        case VowelMark:

            if (state == Matra || state == LengthMark || state == IndependentVowel)

                break;

            Q_FALLTHROUGH();

        case Matra:

            if (state == Consonant || state == Nukta)

                break;

            if (state == Matra) {

                // ### needs proper testing for correct two/three part matras

                break;

            }

            // ### not sure if this is correct. If it is, does it apply only to Bengali or should

            // it work for all Indic languages?

            // the combination Independent_A + Vowel Sign AA is allowed.

            if (script == QChar::Script_Bengali && uc[pos] == 0x9be && uc[pos-1] == 0x985)

                break;

            if (script == QChar::Script_Tamil && state == Matra) {

                if (uc[pos-1] == 0x0bc6 &&

                     (uc[pos] == 0xbbe || uc[pos] == 0xbd7))

                    break;

                if (uc[pos-1] == 0x0bc7 && uc[pos] == 0xbbe)

                    break;

            }

            goto finish;


        case LengthMark:

            if (state == Matra) {

                // ### needs proper testing for correct two/three part matras

                break;

            }

            Q_FALLTHROUGH();

        case IndependentVowel:

        case Invalid:

        case Other:

            goto finish;

        }

        state = newState;

        pos++;

    }

 finish:

    return pos+start;

}


static void indicAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)

{

    qsizetype end = from + len;

    attributes += from;

    qsizetype i = 0;

    while (i < len) {

        bool invalid;

        qsizetype boundary = indic_nextSyllableBoundary(script, text, from+i, end, &invalid) - from;

         attributes[i].graphemeBoundary = true;


        if (boundary > len-1) boundary = len;

        i++;

        while (i < boundary) {

            attributes[i].graphemeBoundary = false;

            ++i;

        }

        assert(i == boundary);

    }


}


#if QT_CONFIG(library)


#define LIBTHAI_MAJOR   0


/*

 * if libthai changed please update these codes too.

 */

struct thcell_t {

    unsigned char base;

    unsigned char hilo;

    unsigned char top;

};


using ThBrk = struct _ThBrk;


namespace {


class LibThai final

{

    Q_DISABLE_COPY_MOVE(LibThai)


    using th_brk_new_def = ThBrk *(*)(const char *);

    using th_brk_delete_def = void (*)(ThBrk *);

    using th_brk_find_breaks_def = int (*)(ThBrk *, const unsigned char *, int *, size_t);

    using th_next_cell_def = size_t (*)(const unsigned char *, size_t, struct thcell_t *, int);


public:

    LibThai() : m_library("thai"_L1, LIBTHAI_MAJOR)

    {

        m_th_brk_find_breaks =

                reinterpret_cast<th_brk_find_breaks_def>(m_library.resolve("th_brk_find_breaks"));

        m_th_next_cell = reinterpret_cast<th_next_cell_def>(m_library.resolve("th_next_cell"));


        auto th_brk_new = reinterpret_cast<th_brk_new_def>(m_library.resolve("th_brk_new"));

        if (th_brk_new) {

            m_state = th_brk_new(nullptr);

            m_th_brk_delete =

                    reinterpret_cast<th_brk_delete_def>(m_library.resolve("th_brk_delete"));

        }

    }


    ~LibThai()

    {

        if (m_state && m_th_brk_delete)

            m_th_brk_delete(m_state);

        m_library.unload();

    }


    bool isInitialized() const { return m_th_brk_find_breaks && m_th_next_cell && m_state; }


    int brk_find_breaks(const unsigned char *s, int *pos, size_t pos_sz) const

    {

        Q_ASSERT(m_state);

        Q_ASSERT(m_th_brk_find_breaks);

        return m_th_brk_find_breaks(m_state, s, pos, pos_sz);

    }


    size_t next_cell(const unsigned char *s, size_t len, struct thcell_t *cell, int is_decomp_am)

    {

        Q_ASSERT(m_th_next_cell);

        return m_th_next_cell(s, len, cell, is_decomp_am);

    }


private:

    QLibrary m_library;


    // Global state for th_brk_find_breaks().

    // Note: even if signature for th_brk_find_breaks() suggests otherwise, the

    // state is read-only, and so it is safe to use it from multiple threads after

    // initialization. This is also stated in the libthai documentation.

    ThBrk *m_state = nullptr;


    th_brk_find_breaks_def m_th_brk_find_breaks = nullptr;

    th_next_cell_def m_th_next_cell = nullptr;

    th_brk_delete_def m_th_brk_delete = nullptr;

};


} // unnamed namespace


Q_GLOBAL_STATIC(LibThai, g_libThai)


static void to_tis620(const char16_t *string, qsizetype len, char *cstr)

{

    qsizetype i;

    unsigned char *result = reinterpret_cast<unsigned char *>(cstr);


    for (i = 0; i < len; ++i) {

        if (string[i] <= 0xa0)

            result[i] = static_cast<unsigned char>(string[i]);

        else if (string[i] >= 0xe01 && string[i] <= 0xe5b)

            result[i] = static_cast<unsigned char>(string[i] - 0xe00 + 0xa0);

        else

            result[i] = static_cast<unsigned char>(~0); // Same encoding as libthai uses for invalid chars

    }


    result[len] = 0;

}


/*

 * Thai Attributes: computes Word Break, Word Boundary and Char stop for THAI.

 */

static void thaiAssignAttributes(const char16_t *string, qsizetype len, QCharAttributes *attributes)

{

    constexpr qsizetype Prealloc = 128;

    QVarLengthArray<char, Prealloc + 1> s(len + 1);

    QVarLengthArray<int, Prealloc> break_positions(len);

    qsizetype numbreaks, i;

    struct thcell_t tis_cell;


    LibThai *libThai = g_libThai;

    if (!libThai || !libThai->isInitialized())

        return;


    to_tis620(string, len, s.data());


    for (i = 0; i < len; ++i) {

        attributes[i].wordBreak = false;

        attributes[i].wordStart = false;

        attributes[i].wordEnd = false;

        attributes[i].lineBreak = false;

    }


    attributes[0].wordBreak = true;

    attributes[0].wordStart = true;

    attributes[0].wordEnd = false;

    numbreaks = libThai->brk_find_breaks(reinterpret_cast<const unsigned char *>(s.data()),

                                         break_positions.data(),

                                         static_cast<size_t>(break_positions.size()));

    for (i = 0; i < numbreaks; ++i) {

        attributes[break_positions[i]].wordBreak = true;

        attributes[break_positions[i]].wordStart = true;

        attributes[break_positions[i]].wordEnd = true;

        attributes[break_positions[i]].lineBreak = true;

    }

    if (numbreaks > 0)

        attributes[break_positions[numbreaks - 1]].wordStart = false;


    /* manage grapheme boundaries */

    i = 0;

    while (i < len) {

        size_t cell_length =

                libThai->next_cell(reinterpret_cast<const unsigned char *>(s.data()) + i,

                                   size_t(len - i), &tis_cell, true);


        attributes[i].graphemeBoundary = true;

        for (size_t j = 1; j < cell_length; ++j)

            attributes[i + j].graphemeBoundary = false;


        i += cell_length;

    }

}


#endif // QT_CONFIG(library)


static void thaiAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)

{

    assert(script == QChar::Script_Thai);

#if QT_CONFIG(library)

    const char16_t *uc = text + from;

    attributes += from;

    Q_UNUSED(script);

    thaiAssignAttributes(uc, len, attributes);

#else

    Q_UNUSED(script);

    Q_UNUSED(text);

    Q_UNUSED(from);

    Q_UNUSED(len);

    Q_UNUSED(attributes);

#endif

}


/*

 tibetan syllables are of the form:

    head position consonant

    first sub-joined consonant

    ....intermediate sub-joined consonants (if any)

    last sub-joined consonant

    sub-joined vowel (a-chung U+0F71)

    standard or compound vowel sign (or 'virama' for devanagari transliteration)

*/


typedef enum {

    TibetanOther,

    TibetanHeadConsonant,

    TibetanSubjoinedConsonant,

    TibetanSubjoinedVowel,

    TibetanVowel

} TibetanForm;


/* this table starts at U+0f40 */


static const unsigned char tibetanForm[0x80] = {

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,


    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,


    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant, TibetanHeadConsonant,

    TibetanOther, TibetanOther, TibetanOther, TibetanOther,


    TibetanOther, TibetanVowel, TibetanVowel, TibetanVowel,

    TibetanVowel, TibetanVowel, TibetanVowel, TibetanVowel,

    TibetanVowel, TibetanVowel, TibetanVowel, TibetanVowel,

    TibetanVowel, TibetanVowel, TibetanVowel, TibetanVowel,


    TibetanVowel, TibetanVowel, TibetanVowel, TibetanVowel,

    TibetanVowel, TibetanVowel, TibetanVowel, TibetanVowel,

    TibetanOther, TibetanOther, TibetanOther, TibetanOther,

    TibetanOther, TibetanOther, TibetanOther, TibetanOther,


    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,


    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,


    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant, TibetanSubjoinedConsonant,

    TibetanSubjoinedConsonant, TibetanOther, TibetanOther, TibetanOther

};


#define tibetan_form(c) \

    ((c) >= 0x0f40 && (c) < 0x0fc0 ? (TibetanForm)tibetanForm[(c) - 0x0f40] : TibetanOther)


static qsizetype tibetan_nextSyllableBoundary(const char16_t *s, qsizetype start, qsizetype end, bool *invalid)

{

    const char16_t *uc = s + start;


    qsizetype pos = 0;

    TibetanForm state = tibetan_form(*uc);


/*     qDebug("state[%d]=%d (uc=%4x)", pos, state, uc[pos]);*/

    pos++;


    if (state != TibetanHeadConsonant) {

        if (state != TibetanOther)

            *invalid = true;

        goto finish;

    }


    while (pos < end - start) {

        TibetanForm newState = tibetan_form(uc[pos]);

        switch (newState) {

        case TibetanSubjoinedConsonant:

        case TibetanSubjoinedVowel:

            if (state != TibetanHeadConsonant &&

                 state != TibetanSubjoinedConsonant)

                goto finish;

            state = newState;

            break;

        case TibetanVowel:

            if (state != TibetanHeadConsonant &&

                 state != TibetanSubjoinedConsonant &&

                 state != TibetanSubjoinedVowel)

                goto finish;

            break;

        case TibetanOther:

        case TibetanHeadConsonant:

            goto finish;

        }

        pos++;

    }


finish:

    *invalid = false;

    return start+pos;

}


static void tibetanAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)

{

    qsizetype end = from + len;

    qsizetype i = 0;

    Q_UNUSED(script);

    attributes += from;

    while (i < len) {

        bool invalid;

        qsizetype boundary = tibetan_nextSyllableBoundary(text, from+i, end, &invalid) - from;


        attributes[i].graphemeBoundary = true;


        if (boundary > len-1) boundary = len;

        i++;

        while (i < boundary) {

            attributes[i].graphemeBoundary = false;

            ++i;

        }

        assert(i == boundary);

    }

}


enum MymrCharClassValues {

    Mymr_CC_RESERVED = 0,

    Mymr_CC_CONSONANT = 1, /* Consonant of type 1, that has subscript form */

    Mymr_CC_CONSONANT2 = 2, /* Consonant of type 2, that has no subscript form */

    Mymr_CC_NGA = 3, /* Consonant NGA */

    Mymr_CC_YA = 4, /* Consonant YA */

    Mymr_CC_RA = 5, /* Consonant RA */

    Mymr_CC_WA = 6, /* Consonant WA */

    Mymr_CC_HA = 7, /* Consonant HA */

    Mymr_CC_IND_VOWEL = 8, /* Independent vowel */

    Mymr_CC_ZERO_WIDTH_NJ_MARK = 9, /* Zero Width non joiner character (0x200C) */

    Mymr_CC_VIRAMA = 10, /* Subscript consonant combining character */

    Mymr_CC_PRE_VOWEL = 11, /* Dependent vowel, prebase (Vowel e) */

    Mymr_CC_BELOW_VOWEL = 12, /* Dependent vowel, prebase (Vowel u, uu) */

    Mymr_CC_ABOVE_VOWEL = 13, /* Dependent vowel, prebase (Vowel i, ii, ai) */

    Mymr_CC_POST_VOWEL = 14, /* Dependent vowel, prebase (Vowel aa) */

    Mymr_CC_SIGN_ABOVE = 15,

    Mymr_CC_SIGN_BELOW = 16,

    Mymr_CC_SIGN_AFTER = 17,

    Mymr_CC_ZERO_WIDTH_J_MARK = 18, /* Zero width joiner character */

    Mymr_CC_COUNT = 19 /* This is the number of character classes */

};


enum MymrCharClassFlags {

    Mymr_CF_CLASS_MASK = 0x0000FFFF,


    Mymr_CF_CONSONANT = 0x01000000, /* flag to speed up comparing */

    Mymr_CF_MEDIAL = 0x02000000, /* flag to speed up comparing */

    Mymr_CF_IND_VOWEL = 0x04000000, /* flag to speed up comparing */

    Mymr_CF_DEP_VOWEL = 0x08000000, /* flag to speed up comparing */

    Mymr_CF_DOTTED_CIRCLE = 0x10000000, /* add a dotted circle if a character with this flag is the

                                           first in a syllable */

    Mymr_CF_VIRAMA = 0x20000000, /* flag to speed up comparing */


    /* position flags */

    Mymr_CF_POS_BEFORE = 0x00080000,

    Mymr_CF_POS_BELOW = 0x00040000,

    Mymr_CF_POS_ABOVE = 0x00020000,

    Mymr_CF_POS_AFTER = 0x00010000,

    Mymr_CF_POS_MASK = 0x000f0000,


    Mymr_CF_AFTER_KINZI = 0x00100000

};


Q_DECLARE_MIXED_ENUM_OPERATORS(int, MymrCharClassValues, MymrCharClassFlags)


/* Characters that get refrered to by name */


enum MymrChar

{

    Mymr_C_SIGN_ZWNJ     = 0x200C,

    Mymr_C_SIGN_ZWJ      = 0x200D,

    Mymr_C_DOTTED_CIRCLE = 0x25CC,

    Mymr_C_RA            = 0x101B,

    Mymr_C_YA            = 0x101A,

    Mymr_C_NGA           = 0x1004,

    Mymr_C_VOWEL_E       = 0x1031,

    Mymr_C_VIRAMA        = 0x1039

};


enum

{

    Mymr_xx = Mymr_CC_RESERVED,

    Mymr_c1 = Mymr_CC_CONSONANT | Mymr_CF_CONSONANT | Mymr_CF_POS_BELOW,

    Mymr_c2 = Mymr_CC_CONSONANT2 | Mymr_CF_CONSONANT,

    Mymr_ng = Mymr_CC_NGA | Mymr_CF_CONSONANT | Mymr_CF_POS_ABOVE,

    Mymr_ya = Mymr_CC_YA | Mymr_CF_CONSONANT | Mymr_CF_MEDIAL | Mymr_CF_POS_AFTER | Mymr_CF_AFTER_KINZI,

    Mymr_ra = Mymr_CC_RA | Mymr_CF_CONSONANT | Mymr_CF_MEDIAL | Mymr_CF_POS_BEFORE,

    Mymr_wa = Mymr_CC_WA | Mymr_CF_CONSONANT | Mymr_CF_MEDIAL | Mymr_CF_POS_BELOW,

    Mymr_ha = Mymr_CC_HA | Mymr_CF_CONSONANT | Mymr_CF_MEDIAL | Mymr_CF_POS_BELOW,

    Mymr_id = Mymr_CC_IND_VOWEL | Mymr_CF_IND_VOWEL,

    Mymr_vi = Mymr_CC_VIRAMA | Mymr_CF_VIRAMA | Mymr_CF_POS_ABOVE | Mymr_CF_DOTTED_CIRCLE,

    Mymr_dl = Mymr_CC_PRE_VOWEL | Mymr_CF_DEP_VOWEL | Mymr_CF_POS_BEFORE | Mymr_CF_DOTTED_CIRCLE | Mymr_CF_AFTER_KINZI,

    Mymr_db = Mymr_CC_BELOW_VOWEL | Mymr_CF_DEP_VOWEL | Mymr_CF_POS_BELOW | Mymr_CF_DOTTED_CIRCLE | Mymr_CF_AFTER_KINZI,

    Mymr_da = Mymr_CC_ABOVE_VOWEL | Mymr_CF_DEP_VOWEL | Mymr_CF_POS_ABOVE | Mymr_CF_DOTTED_CIRCLE | Mymr_CF_AFTER_KINZI,

    Mymr_dr = Mymr_CC_POST_VOWEL | Mymr_CF_DEP_VOWEL | Mymr_CF_POS_AFTER | Mymr_CF_DOTTED_CIRCLE | Mymr_CF_AFTER_KINZI,

    Mymr_sa = Mymr_CC_SIGN_ABOVE | Mymr_CF_DOTTED_CIRCLE | Mymr_CF_POS_ABOVE | Mymr_CF_AFTER_KINZI,

    Mymr_sb = Mymr_CC_SIGN_BELOW | Mymr_CF_DOTTED_CIRCLE | Mymr_CF_POS_BELOW | Mymr_CF_AFTER_KINZI,

    Mymr_sp = Mymr_CC_SIGN_AFTER | Mymr_CF_DOTTED_CIRCLE | Mymr_CF_AFTER_KINZI

};


typedef int MymrCharClass;


static const MymrCharClass mymrCharClasses[] =

{

    Mymr_c1, Mymr_c1, Mymr_c1, Mymr_c1, Mymr_ng, Mymr_c1, Mymr_c1, Mymr_c1,

    Mymr_c1, Mymr_c1, Mymr_c2, Mymr_c1, Mymr_c1, Mymr_c1, Mymr_c1, Mymr_c1, /* 1000 - 100F */

    Mymr_c1, Mymr_c1, Mymr_c1, Mymr_c1, Mymr_c1, Mymr_c1, Mymr_c1, Mymr_c1,

    Mymr_c1, Mymr_c1, Mymr_ya, Mymr_ra, Mymr_c1, Mymr_wa, Mymr_c1, Mymr_ha, /* 1010 - 101F */

    Mymr_c2, Mymr_c2, Mymr_xx, Mymr_id, Mymr_id, Mymr_id, Mymr_id, Mymr_id,

    Mymr_xx, Mymr_id, Mymr_id, Mymr_xx, Mymr_dr, Mymr_da, Mymr_da, Mymr_db, /* 1020 - 102F */

    Mymr_db, Mymr_dl, Mymr_da, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_sa, Mymr_sb,

    Mymr_sp, Mymr_vi, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, /* 1030 - 103F */

    Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx,

    Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, /* 1040 - 104F */

    Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx,

    Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, Mymr_xx, /* 1050 - 105F */

};


static MymrCharClass


getMyanmarCharClass (ushort ch)

{

    if (ch == Mymr_C_SIGN_ZWJ)

        return Mymr_CC_ZERO_WIDTH_J_MARK;


    if (ch == Mymr_C_SIGN_ZWNJ)

        return Mymr_CC_ZERO_WIDTH_NJ_MARK;


    if (ch < 0x1000 || ch > 0x105f)

        return Mymr_CC_RESERVED;


    return mymrCharClasses[ch - 0x1000];

}


static const signed char mymrStateTable[][Mymr_CC_COUNT] =

{

/*   xx  c1, c2  ng  ya  ra  wa  ha  id zwnj vi  dl  db  da  dr  sa  sb  sp zwj */

    { 1,  4,  4,  2,  4,  4,  4,  4, 24,  1, 27, 17, 18, 19, 20, 21,  1,  1,  4}, /*  0 - ground state */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1}, /*  1 - exit state (or sp to the right of the syllable) */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  3, 17, 18, 19, 20, 21, -1, -1,  4}, /*  2 - NGA */

    {-1,  4,  4,  4,  4,  4,  4,  4, -1, 23, -1, -1, -1, -1, -1, -1, -1, -1, -1}, /*  3 - Virama after NGA */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  5, 17, 18, 19, 20, 21,  1,  1, -1}, /*  4 - Base consonant */

    {-2,  6, -2, -2,  7,  8,  9, 10, -2, 23, -2, -2, -2, -2, -2, -2, -2, -2, -2}, /*  5 - First virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 25, 17, 18, 19, 20, 21, -1, -1, -1}, /*  6 - c1 after virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 12, 17, 18, 19, 20, 21, -1, -1, -1}, /*  7 - ya after virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 12, 17, 18, 19, 20, 21, -1, -1, -1}, /*  8 - ra after virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 12, 17, 18, 19, 20, 21, -1, -1, -1}, /*  9 - wa after virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 17, 18, 19, 20, 21, -1, -1, -1}, /* 10 - ha after virama */

    {-1, -1, -1, -1,  7,  8,  9, 10, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1}, /* 11 - Virama after NGA+zwj */

    {-2, -2, -2, -2, -2, -2, 13, 14, -2, -2, -2, -2, -2, -2, -2, -2, -2, -2, -2}, /* 12 - Second virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 15, 17, 18, 19, 20, 21, -1, -1, -1}, /* 13 - wa after virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 17, 18, 19, 20, 21, -1, -1, -1}, /* 14 - ha after virama */

    {-2, -2, -2, -2, -2, -2, -2, 16, -2, -2, -2, -2, -2, -2, -2, -2, -2, -2, -2}, /* 15 - Third virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 17, 18, 19, 20, 21, -1, -1, -1}, /* 16 - ha after virama */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 20, 21,  1,  1, -1}, /* 17 - dl, Dependent vowel e */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 19, -1, 21,  1,  1, -1}, /* 18 - db, Dependent vowel u,uu */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,  1,  1, -1}, /* 19 - da, Dependent vowel i,ii,ai */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 22, -1, -1, -1, -1, -1,  1,  1, -1}, /* 20 - dr, Dependent vowel aa */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,  1, -1}, /* 21 - sa, Sign anusvara */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, 23, -1, -1, -1, -1, -1, -1, -1, -1, -1}, /* 22 - atha */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1,  1, -1}, /* 23 - zwnj for atha */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1, -1}, /* 24 - Independent vowel */

    {-2, -2, -2, -2, 26, 26, -2, -2, -2, -2, -2, -2, -2, -2, -2, -2, -2, -2, -2}, /* 25 - Virama after subscript consonant */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 12, 17, 18, 19, 20, 21, -1,  1, -1}, /* 26 - ra/ya after subscript consonant + virama */

    {-1,  6, -1, -1,  7,  8,  9, 10, -1, 23, -1, -1, -1, -1, -1, -1, -1, -1, -1}, /* 27 - Virama after ground state */

/* exit state -2 is for invalid order of medials and combination of invalids

   with virama where virama should treat as start of next syllable

 */

};


/*#define MYANMAR_DEBUG */

#ifdef MYANMAR_DEBUG

#define MMDEBUG qDebug

#else


#    define MMDEBUG                                                                                \

        if (0)                                                                                     \

        printf


#endif


/*

//  Given an input string of characters and a location in which to start looking

//  calculate, using the state table, which one is the last character of the syllable

//  that starts in the starting position.

*/


static qsizetype myanmar_nextSyllableBoundary(const char16_t *s, qsizetype start, qsizetype end, bool *invalid)

{

    const char16_t *uc = s + start;

    int state = 0;

    qsizetype pos = start;

    *invalid = false;


    while (pos < end) {

        MymrCharClass charClass = getMyanmarCharClass(*uc);

        state = mymrStateTable[state][charClass & Mymr_CF_CLASS_MASK];

        if (pos == start)

            *invalid = (bool)(charClass & Mymr_CF_DOTTED_CIRCLE);


        MMDEBUG("state[%lld]=%d class=%8x (uc=%4x)", qlonglong(pos - start), state, charClass, *uc);


        if (state < 0) {

            if (state < -1)

                --pos;

            break;

        }

        ++uc;

        ++pos;

    }

    return pos;

}


static void myanmarAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)

{

    qsizetype end = from + len;

    qsizetype i = 0;

    Q_UNUSED(script);

    attributes += from;

    while (i < len) {

    bool invalid;

    qsizetype boundary = myanmar_nextSyllableBoundary(text, from+i, end, &invalid) - from;


    attributes[i].graphemeBoundary = true;

    attributes[i].lineBreak = true;


    if (boundary > len-1)

            boundary = len;

    i++;

    while (i < boundary) {

        attributes[i].graphemeBoundary = false;

        ++i;

    }

    assert(i == boundary);

    }

}


/*

//  Vocabulary

//      Base ->         A consonant or an independent vowel in its full (not subscript) form. It is the

//                      center of the syllable, it can be surrounded by coeng (subscript) consonants, vowels,

//                      split vowels, signs... but there is only one base in a syllable, it has to be coded as

//                      the first character of the syllable.

//      split vowel --> vowel that has two parts placed separately (e.g. Before and after the consonant).

//                      Khmer language has five of them. Khmer split vowels either have one part before the

//                      base and one after the base or they have a part before the base and a part above the base.

//                      The first part of all Khmer split vowels is the same character, identical to

//                      the glyph of Khmer dependent vowel SRA EI

//      coeng -->  modifier used in Khmer to construct coeng (subscript) consonants

//                 Differently than indian languages, the coeng modifies the consonant that follows it,

//                 not the one preceding it  Each consonant has two forms, the base form and the subscript form

//                 the base form is the normal one (using the consonants code-point), the subscript form is

//                 displayed when the combination coeng + consonant is encountered.

//      Consonant of type 1 -> A consonant which has subscript for that only occupies space under a base consonant

//      Consonant of type 2.-> Its subscript form occupies space under and before the base (only one, RO)

//      Consonant of Type 3 -> Its subscript form occupies space under and after the base (KHO, CHHO, THHO, BA, YO, SA)

//      Consonant shifter -> Khmer has to series of consonants. The same dependent vowel has different sounds

//                           if it is attached to a consonant of the first series or a consonant of the second series

//                           Most consonants have an equivalent in the other series, but some of theme exist only in

//                           one series (for example SA). If we want to use the consonant SA with a vowel sound that

//                           can only be done with a vowel sound that corresponds to a vowel accompanying a consonant

//                           of the other series, then we need to use a consonant shifter: TRIISAP or MUSIKATOAN

//                           x17C9 y x17CA. TRIISAP changes a first series consonant to second series sound and

//                           MUSIKATOAN a second series consonant to have a first series vowel sound.

//                           Consonant shifter are both normally supercript marks, but, when they are followed by a

//                           superscript, they change shape and take the form of subscript dependent vowel SRA U.

//                           If they are in the same syllable as a coeng consonant, Unicode 3.0 says that they

//                           should be typed before the coeng. Unicode 4.0 breaks the standard and says that it should

//                           be placed after the coeng consonant.

//      Dependent vowel ->   In khmer dependent vowels can be placed above, below, before or after the base

//                           Each vowel has its own position. Only one vowel per syllable is allowed.

//      Signs            ->  Khmer has above signs and post signs. Only one above sign and/or one post sign are

//                           Allowed in a syllable.

//

//

//   order is important here! This order must be the same that is found in each horizontal

//   line in the statetable for Khmer (see khmerStateTable) .

*/


enum KhmerCharClassValues {

    CC_RESERVED             =  0,

    CC_CONSONANT            =  1, /* Consonant of type 1 or independent vowel */

    CC_CONSONANT2           =  2, /* Consonant of type 2 */

    CC_CONSONANT3           =  3, /* Consonant of type 3 */

    CC_ZERO_WIDTH_NJ_MARK   =  4, /* Zero Width non joiner character (0x200C) */

    CC_CONSONANT_SHIFTER    =  5,

    CC_ROBAT                =  6, /* Khmer special diacritic accent -treated differently in state table */

    CC_COENG                =  7, /* Subscript consonant combining character */

    CC_DEPENDENT_VOWEL      =  8,

    CC_SIGN_ABOVE           =  9,

    CC_SIGN_AFTER           = 10,

    CC_ZERO_WIDTH_J_MARK    = 11, /* Zero width joiner character */

    CC_COUNT                = 12  /* This is the number of character classes */

};


enum KhmerCharClassFlags {

    CF_CLASS_MASK    = 0x0000FFFF,


    CF_CONSONANT     = 0x01000000,  /* flag to speed up comparing */

    CF_SPLIT_VOWEL   = 0x02000000,  /* flag for a split vowel -> the first part is added in front of the syllable */

    CF_DOTTED_CIRCLE = 0x04000000,  /* add a dotted circle if a character with this flag is the first in a syllable */

    CF_COENG         = 0x08000000,  /* flag to speed up comparing */

    CF_SHIFTER       = 0x10000000,  /* flag to speed up comparing */

    CF_ABOVE_VOWEL   = 0x20000000,  /* flag to speed up comparing */


    /* position flags */

    CF_POS_BEFORE    = 0x00080000,

    CF_POS_BELOW     = 0x00040000,

    CF_POS_ABOVE     = 0x00020000,

    CF_POS_AFTER     = 0x00010000,

    CF_POS_MASK      = 0x000f0000

};


Q_DECLARE_MIXED_ENUM_OPERATORS(int, KhmerCharClassValues, KhmerCharClassFlags)


/* Characters that get referred to by name */


enum KhmerChar {

    C_SIGN_ZWNJ     = 0x200C,

    C_SIGN_ZWJ      = 0x200D,

    C_RO            = 0x179A,

    C_VOWEL_AA      = 0x17B6,

    C_SIGN_NIKAHIT  = 0x17C6,

    C_VOWEL_E       = 0x17C1,

    C_COENG         = 0x17D2

};


/*

//  simple classes, they are used in the statetable (in this file) to control the length of a syllable

//  they are also used to know where a character should be placed (location in reference to the base character)

//  and also to know if a character, when independently displayed, should be displayed with a dotted-circle to

//  indicate error in syllable construction

*/

enum {

    _xx = CC_RESERVED,

    _sa = CC_SIGN_ABOVE | CF_DOTTED_CIRCLE | CF_POS_ABOVE,

    _sp = CC_SIGN_AFTER | CF_DOTTED_CIRCLE| CF_POS_AFTER,

    _c1 = CC_CONSONANT | CF_CONSONANT,

    _c2 = CC_CONSONANT2 | CF_CONSONANT,

    _c3 = CC_CONSONANT3 | CF_CONSONANT,

    _rb = CC_ROBAT | CF_POS_ABOVE | CF_DOTTED_CIRCLE,

    _cs = CC_CONSONANT_SHIFTER | CF_DOTTED_CIRCLE | CF_SHIFTER,

    _dl = CC_DEPENDENT_VOWEL | CF_POS_BEFORE | CF_DOTTED_CIRCLE,

    _db = CC_DEPENDENT_VOWEL | CF_POS_BELOW | CF_DOTTED_CIRCLE,

    _da = CC_DEPENDENT_VOWEL | CF_POS_ABOVE | CF_DOTTED_CIRCLE | CF_ABOVE_VOWEL,

    _dr = CC_DEPENDENT_VOWEL | CF_POS_AFTER | CF_DOTTED_CIRCLE,

    _co = CC_COENG | CF_COENG | CF_DOTTED_CIRCLE,


    /* split vowel */

    _va = _da | CF_SPLIT_VOWEL,

    _vr = _dr | CF_SPLIT_VOWEL

};


/*

//   Character class: a character class value

//   ORed with character class flags.

*/

typedef unsigned long KhmerCharClass;


/*

//  Character class tables

//  _xx character does not combine into syllable, such as numbers, puntuation marks, non-Khmer signs...

//  _sa Sign placed above the base

//  _sp Sign placed after the base

//  _c1 Consonant of type 1 or independent vowel (independent vowels behave as type 1 consonants)

//  _c2 Consonant of type 2 (only RO)

//  _c3 Consonant of type 3

//  _rb Khmer sign robat u17CC. combining mark for subscript consonants

//  _cd Consonant-shifter

//  _dl Dependent vowel placed before the base (left of the base)

//  _db Dependent vowel placed below the base

//  _da Dependent vowel placed above the base

//  _dr Dependent vowel placed behind the base (right of the base)

//  _co Khmer combining mark COENG u17D2, combines with the consonant or independent vowel following

//      it to create a subscript consonant or independent vowel

//  _va Khmer split vowel in which the first part is before the base and the second one above the base

//  _vr Khmer split vowel in which the first part is before the base and the second one behind (right of) the base

*/


static const KhmerCharClass khmerCharClasses[] = {

    _c1, _c1, _c1, _c3, _c1, _c1, _c1, _c1, _c3, _c1, _c1, _c1, _c1, _c3, _c1, _c1, /* 1780 - 178F */

    _c1, _c1, _c1, _c1, _c3, _c1, _c1, _c1, _c1, _c3, _c2, _c1, _c1, _c1, _c3, _c3, /* 1790 - 179F */

    _c1, _c3, _c1, _c1, _c1, _c1, _c1, _c1, _c1, _c1, _c1, _c1, _c1, _c1, _c1, _c1, /* 17A0 - 17AF */

    _c1, _c1, _c1, _c1, _dr, _dr, _dr, _da, _da, _da, _da, _db, _db, _db, _va, _vr, /* 17B0 - 17BF */

    _vr, _dl, _dl, _dl, _vr, _vr, _sa, _sp, _sp, _cs, _cs, _sa, _rb, _sa, _sa, _sa, /* 17C0 - 17CF */

    _sa, _sa, _co, _sa, _xx, _xx, _xx, _xx, _xx, _xx, _xx, _xx, _xx, _sa, _xx, _xx  /* 17D0 - 17DF */

};


/* this enum must reflect the range of khmerCharClasses */


enum KhmerCharClassesRange {

    KhmerFirstChar = 0x1780,

    KhmerLastChar  = 0x17df

};


/*

//  Below we define how a character in the input string is either in the khmerCharClasses table

//  (in which case we get its type back), a ZWJ or ZWNJ (two characters that may appear

//  within the syllable, but are not in the table) we also get their type back, or an unknown object

//  in which case we get _xx (CC_RESERVED) back

*/


static KhmerCharClass getKhmerCharClass(ushort uc)

{

    if (uc == C_SIGN_ZWJ) {

        return CC_ZERO_WIDTH_J_MARK;

    }


    if (uc == C_SIGN_ZWNJ) {

        return CC_ZERO_WIDTH_NJ_MARK;

    }


    if (uc < KhmerFirstChar || uc > KhmerLastChar) {

        return CC_RESERVED;

    }


    return khmerCharClasses[uc - KhmerFirstChar];

}


/*

//  The stateTable is used to calculate the end (the length) of a well

//  formed Khmer Syllable.

//

//  Each horizontal line is ordered exactly the same way as the values in KhmerClassTable

//  CharClassValues. This coincidence of values allows the follow up of the table.

//

//  Each line corresponds to a state, which does not necessarily need to be a type

//  of component... for example, state 2 is a base, with is always a first character

//  in the syllable, but the state could be produced a consonant of any type when

//  it is the first character that is analysed (in ground state).

//

//  Differentiating 3 types of consonants is necessary in order to

//  forbid the use of certain combinations, such as having a second

//  coeng after a coeng RO,

//  The inexistent possibility of having a type 3 after another type 3 is permitted,

//  eliminating it would very much complicate the table, and it does not create typing

//  problems, as the case above.

//

//  The table is quite complex, in order to limit the number of coeng consonants

//  to 2 (by means of the table).

//

//  There a peculiarity, as far as Unicode is concerned:

//  - The consonant-shifter is considered in two possible different

//    locations, the one considered in Unicode 3.0 and the one considered in

//    Unicode 4.0. (there is a backwards compatibility problem in this standard).

//

//

//  xx    independent character, such as a number, punctuation sign or non-khmer char

//

//  c1    Khmer consonant of type 1 or an independent vowel

//        that is, a letter in which the subscript for is only under the

//        base, not taking any space to the right or to the left

//

//  c2    Khmer consonant of type 2, the coeng form takes space under

//        and to the left of the base (only RO is of this type)

//

//  c3    Khmer consonant of type 3. Its subscript form takes space under

//        and to the right of the base.

//

//  cs    Khmer consonant shifter

//

//  rb    Khmer robat

//

//  co    coeng character (u17D2)

//

//  dv    dependent vowel (including split vowels, they are treated in the same way).

//        even if dv is not defined above, the component that is really tested for is

//        KhmerClassTable::CC_DEPENDENT_VOWEL, which is common to all dependent vowels

//

//  zwj   Zero Width joiner

//

//  zwnj  Zero width non joiner

//

//  sa    above sign

//

//  sp    post sign

//

//  there are lines with equal content but for an easier understanding

//  (and maybe change in the future) we did not join them

*/


static const signed char khmerStateTable[][CC_COUNT] =

{

    /* xx  c1  c2  c3 zwnj cs  rb  co  dv  sa  sp zwj */

    { 1,  2,  2,  2,  1,  1,  1,  6,  1,  1,  1,  2}, /*  0 - ground state */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1}, /*  1 - exit state (or sign to the right of the syllable) */

    {-1, -1, -1, -1,  3,  4,  5,  6, 16, 17,  1, -1}, /*  2 - Base consonant */

    {-1, -1, -1, -1, -1,  4, -1, -1, 16, -1, -1, -1}, /*  3 - First ZWNJ before a register shifter It can only be followed by a shifter or a vowel */

    {-1, -1, -1, -1, 15, -1, -1,  6, 16, 17,  1, 14}, /*  4 - First register shifter */

    {-1, -1, -1, -1, -1, -1, -1, -1, 20, -1,  1, -1}, /*  5 - Robat */

    {-1,  7,  8,  9, -1, -1, -1, -1, -1, -1, -1, -1}, /*  6 - First Coeng */

    {-1, -1, -1, -1, 12, 13, -1, 10, 16, 17,  1, 14}, /*  7 - First consonant of type 1 after coeng */

    {-1, -1, -1, -1, 12, 13, -1, -1, 16, 17,  1, 14}, /*  8 - First consonant of type 2 after coeng */

    {-1, -1, -1, -1, 12, 13, -1, 10, 16, 17,  1, 14}, /*  9 - First consonant or type 3 after ceong */

    {-1, 11, 11, 11, -1, -1, -1, -1, -1, -1, -1, -1}, /* 10 - Second Coeng (no register shifter before) */

    {-1, -1, -1, -1, 15, -1, -1, -1, 16, 17,  1, 14}, /* 11 - Second coeng consonant (or ind. vowel) no register shifter before */

    {-1, -1, -1, -1, -1, 13, -1, -1, 16, -1, -1, -1}, /* 12 - Second ZWNJ before a register shifter */

    {-1, -1, -1, -1, 15, -1, -1, -1, 16, 17,  1, 14}, /* 13 - Second register shifter */

    {-1, -1, -1, -1, -1, -1, -1, -1, 16, -1, -1, -1}, /* 14 - ZWJ before vowel */

    {-1, -1, -1, -1, -1, -1, -1, -1, 16, -1, -1, -1}, /* 15 - ZWNJ before vowel */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, 17,  1, 18}, /* 16 - dependent vowel */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1, 18}, /* 17 - sign above */

    {-1, -1, -1, -1, -1, -1, -1, 19, -1, -1, -1, -1}, /* 18 - ZWJ after vowel */

    {-1,  1, -1,  1, -1, -1, -1, -1, -1, -1, -1, -1}, /* 19 - Third coeng */

    {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1,  1, -1}, /* 20 - dependent vowel after a Robat */

};


/*  #define KHMER_DEBUG */

#ifdef KHMER_DEBUG

#define KHDEBUG qDebug

#else


#    define KHDEBUG                                                                                \

        if (0)                                                                                     \

        printf


#endif


/*

//  Given an input string of characters and a location in which to start looking

//  calculate, using the state table, which one is the last character of the syllable

//  that starts in the starting position.

*/


static qsizetype khmer_nextSyllableBoundary(const char16_t *s, qsizetype start, qsizetype end, bool *invalid)

{

    const char16_t *uc = s + start;

    int state = 0;

    qsizetype pos = start;

    *invalid = false;


    while (pos < end) {

        KhmerCharClass charClass = getKhmerCharClass(*uc);

        if (pos == start) {

            *invalid = (charClass > 0) && ! (charClass & CF_CONSONANT);

        }

        state = khmerStateTable[state][charClass & CF_CLASS_MASK];


        KHDEBUG("state[%lld]=%d class=%8lx (uc=%4x)", qlonglong(pos - start), state,

                charClass, *uc );


        if (state < 0) {

            break;

        }

        ++uc;

        ++pos;

    }

    return pos;

}


static void khmerAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)

{

    qsizetype end = from + len;

    qsizetype i = 0;

    Q_UNUSED(script);

    attributes += from;

    while ( i < len ) {

    bool invalid;

    qsizetype boundary = khmer_nextSyllableBoundary( text, from+i, end, &invalid ) - from;


    attributes[i].graphemeBoundary = true;


    if ( boundary > len-1 ) boundary = len;

    i++;

    while ( i < boundary ) {

        attributes[i].graphemeBoundary = false;

        ++i;

    }

    assert( i == boundary );

    }

}


const CharAttributeFunction charAttributeFunction[] = {

//    Script_Unknown,

    nullptr,

//    Script_Inherited,

    nullptr,

//    Script_Common,

    nullptr,

//    Script_Latin,

    nullptr,

//    Script_Greek,

    nullptr,

//    Script_Cyrillic,

    nullptr,

//    Script_Armenian,

    nullptr,

//    Script_Hebrew,

    nullptr,

//    Script_Arabic,

    nullptr,

//    Script_Syriac,

    nullptr,

//    Script_Thaana,

    nullptr,

//    Script_Devanagari,

    indicAttributes,

//    Script_Bengali,

    indicAttributes,

//    Script_Gurmukhi,

    indicAttributes,

//    Script_Gujarati,

    indicAttributes,

//    Script_Oriya,

    indicAttributes,

//    Script_Tamil,

    indicAttributes,

//    Script_Telugu,

    indicAttributes,

//    Script_Kannada,

    indicAttributes,

//    Script_Malayalam,

    indicAttributes,

//    Script_Sinhala,

    indicAttributes,

//    Script_Thai,

    thaiAttributes,

//    Script_Lao,

    nullptr,

//    Script_Tibetan,

    tibetanAttributes,

//    Script_Myanmar,

    myanmarAttributes,

//    Script_Georgian,

    nullptr,

//    Script_Hangul,

    nullptr,

//    Script_Ethiopic,

    nullptr,

//    Script_Cherokee,

    nullptr,

//    Script_CanadianAboriginal,

    nullptr,

//    Script_Ogham,

    nullptr,

//    Script_Runic,

    nullptr,

//    Script_Khmer,

    khmerAttributes

};


static void getCharAttributes(const char16_t *string, qsizetype stringLength,

                                  const QUnicodeTools::ScriptItem *items, qsizetype numItems,

                                  QCharAttributes *attributes)

{

    if (stringLength == 0)

        return;

    for (qsizetype i = 0; i < numItems; ++i) {

        QChar::Script script = items[i].script;

        if (script > QChar::Script_Khmer)

            script = QChar::Script_Common;

        CharAttributeFunction attributeFunction = charAttributeFunction[script];

        if (!attributeFunction)

            continue;

        qsizetype end = i < numItems - 1 ? items[i + 1].position : stringLength;

        attributeFunction(script, string, items[i].position, end - items[i].position, attributes);

    }

}


}


Q_CORE_EXPORT void initCharAttributes(QStringView string,

                                      const ScriptItem *items, qsizetype numItems,

                                      QCharAttributes *attributes, CharAttributeOptions options)

{

    if (string.size() <= 0)

        return;


    if (!(options & DontClearAttributes))

        ::memset(attributes, 0, (string.size() + 1) * sizeof(QCharAttributes));


    if (options & GraphemeBreaks)

        getGraphemeBreaks(string.utf16(), string.size(), attributes);

    if (options & WordBreaks)

        getWordBreaks(string.utf16(), string.size(), attributes);

    if (options & SentenceBreaks)

        getSentenceBreaks(string.utf16(), string.size(), attributes);

    if (options & LineBreaks)

        getLineBreaks(string.utf16(), string.size(), attributes, options);

    if (options & WhiteSpaces)

        getWhiteSpaces(string.utf16(), string.size(), attributes);


    if (!qt_initcharattributes_default_algorithm_only) {

        if (!items || numItems <= 0)

            return;


        Tailored::getCharAttributes(string.utf16(), string.size(), items, numItems, attributes);

    }

}


// ----------------------------------------------------------------------------

//

// The Unicode script property. See http://www.unicode.org/reports/tr24/tr24-24.html

//

// ----------------------------------------------------------------------------


Q_CORE_EXPORT void initScripts(QStringView string, ScriptItemArray *scripts)

{

    qsizetype sor = 0;

    qsizetype eor = 0;

    QChar::Script script = QChar::Script_Common;


    for (qsizetype i = 0; i < string.size(); ++i, eor = i) {

        char32_t ucs4 = string[i].unicode();

        if (QChar::isHighSurrogate(ucs4) && i + 1 < string.size()) {

            ushort low = string[i + 1].unicode();

            if (QChar::isLowSurrogate(low)) {

                ucs4 = QChar::surrogateToUcs4(ucs4, low);

                ++i;

            }

        }


        const QUnicodeTables::Properties *prop = QUnicodeTables::properties(ucs4);


        QChar::Script nscript = QChar::Script(prop->script);


        if (Q_LIKELY(nscript == script || nscript <= QChar::Script_Common))

            continue;


        // inherit preceding Common-s

        if (Q_UNLIKELY(script <= QChar::Script_Common)) {

            // also covers a case where the base character of Common script followed

            // by one or more combining marks of non-Inherited, non-Common script

            script = nscript;

            continue;

        }


        // Never break between a combining mark (gc= Mc, Mn or Me) and its base character.

        // Thus, a combining mark - whatever its script property value is - should inherit

        // the script property value of its base character.

        static const int test = (FLAG(QChar::Mark_NonSpacing) | FLAG(QChar::Mark_SpacingCombining) | FLAG(QChar::Mark_Enclosing));

        if (Q_UNLIKELY(FLAG(prop->category) & test))

            continue;


        Q_ASSERT(script > QChar::Script_Common);

        Q_ASSERT(sor < eor);

        scripts->append(ScriptItem{sor, script});

        sor = eor;


        script = nscript;

    }


    Q_ASSERT(script >= QChar::Script_Common);

    Q_ASSERT(eor == string.size());

    scripts->append(ScriptItem{sor, script});

}


} // namespace QUnicodeTools


QT_END_NAMESPACE

QLibrary
\inmodule QtCore \reentrant
Definition qlibrary.h:17

QStringView
\inmodule QtCore
Definition qstringview.h:78

QVarLengthArray
Definition qvarlengtharray.h:273

QVarLengthArray::append
void append(const T &t)
Definition qvarlengtharray.h:479

category
const QLoggingCategory & category()
[1]

j
int j
Definition doc_src_containers.cpp:275

i
i
[1]
Definition doc_src_containers.cpp:169

text
QString text
Definition doc_src_properties.cpp:105

state
else opt state
[0]
Definition doc_src_styles.cpp:11

newState
void newState(QList< State > &states, const char *token, const char *lexem, bool pre)
Definition generate_keywords.cpp:280

next
short next
Definition keywords.cpp:445

QT_BEGIN_NAMESPACE
Combined button and popup list for selecting options.
Definition qstandardpaths_haiku.cpp:21

QT_END_NAMESPACE
Definition qsharedpointer.cpp:1590

QUnicodeTables::properties
Q_DECL_CONST_FUNCTION Q_CORE_EXPORT const Properties *QT_FASTCALL properties(char32_t ucs4) noexcept
Definition qunicodetables.cpp:10460

QUnicodeTables::GraphemeBreakClass
GraphemeBreakClass
Definition qunicodetables_p.h:81

QUnicodeTables::GraphemeBreak_Prepend
@ GraphemeBreak_Prepend
Definition qunicodetables_p.h:89

QUnicodeTables::GraphemeBreak_ZWJ
@ GraphemeBreak_ZWJ
Definition qunicodetables_p.h:87

QUnicodeTables::GraphemeBreak_LF
@ GraphemeBreak_LF
Definition qunicodetables_p.h:84

QUnicodeTables::GraphemeBreak_Extended_Pictographic
@ GraphemeBreak_Extended_Pictographic
Definition qunicodetables_p.h:96

QUnicodeTables::GraphemeBreak_T
@ GraphemeBreak_T
Definition qunicodetables_p.h:93

QUnicodeTables::GraphemeBreak_Extend
@ GraphemeBreak_Extend
Definition qunicodetables_p.h:86

QUnicodeTables::GraphemeBreak_SpacingMark
@ GraphemeBreak_SpacingMark
Definition qunicodetables_p.h:90

QUnicodeTables::GraphemeBreak_RegionalIndicator
@ GraphemeBreak_RegionalIndicator
Definition qunicodetables_p.h:88

QUnicodeTables::GraphemeBreak_LV
@ GraphemeBreak_LV
Definition qunicodetables_p.h:94

QUnicodeTables::GraphemeBreak_L
@ GraphemeBreak_L
Definition qunicodetables_p.h:91

QUnicodeTables::NumGraphemeBreakClasses
@ NumGraphemeBreakClasses
Definition qunicodetables_p.h:98

QUnicodeTables::GraphemeBreak_V
@ GraphemeBreak_V
Definition qunicodetables_p.h:92

QUnicodeTables::GraphemeBreak_Any
@ GraphemeBreak_Any
Definition qunicodetables_p.h:82

QUnicodeTables::GraphemeBreak_LVT
@ GraphemeBreak_LVT
Definition qunicodetables_p.h:95

QUnicodeTables::SentenceBreakClass
SentenceBreakClass
Definition qunicodetables_p.h:125

QUnicodeTables::SentenceBreak_Sp
@ SentenceBreak_Sp
Definition qunicodetables_p.h:131

QUnicodeTables::SentenceBreak_Numeric
@ SentenceBreak_Numeric
Definition qunicodetables_p.h:135

QUnicodeTables::SentenceBreak_Lower
@ SentenceBreak_Lower
Definition qunicodetables_p.h:132

QUnicodeTables::SentenceBreak_Any
@ SentenceBreak_Any
Definition qunicodetables_p.h:126

QUnicodeTables::SentenceBreak_Extend
@ SentenceBreak_Extend
Definition qunicodetables_p.h:130

QUnicodeTables::SentenceBreak_SContinue
@ SentenceBreak_SContinue
Definition qunicodetables_p.h:137

QUnicodeTables::SentenceBreak_Close
@ SentenceBreak_Close
Definition qunicodetables_p.h:139

QUnicodeTables::NumSentenceBreakClasses
@ NumSentenceBreakClasses
Definition qunicodetables_p.h:141

QUnicodeTables::WordBreakClass
WordBreakClass
Definition qunicodetables_p.h:101

QUnicodeTables::WordBreak_ALetter
@ WordBreak_ALetter
Definition qunicodetables_p.h:112

QUnicodeTables::WordBreak_Extend
@ WordBreak_Extend
Definition qunicodetables_p.h:106

QUnicodeTables::WordBreak_MidNumLet
@ WordBreak_MidNumLet
Definition qunicodetables_p.h:115

QUnicodeTables::WordBreak_WSegSpace
@ WordBreak_WSegSpace
Definition qunicodetables_p.h:120

QUnicodeTables::WordBreak_Numeric
@ WordBreak_Numeric
Definition qunicodetables_p.h:118

QUnicodeTables::WordBreak_Format
@ WordBreak_Format
Definition qunicodetables_p.h:108

QUnicodeTables::WordBreak_Any
@ WordBreak_Any
Definition qunicodetables_p.h:102

QUnicodeTables::WordBreak_LF
@ WordBreak_LF
Definition qunicodetables_p.h:104

QUnicodeTables::WordBreak_MidLetter
@ WordBreak_MidLetter
Definition qunicodetables_p.h:116

QUnicodeTables::WordBreak_ZWJ
@ WordBreak_ZWJ
Definition qunicodetables_p.h:107

QUnicodeTables::WordBreak_SingleQuote
@ WordBreak_SingleQuote
Definition qunicodetables_p.h:113

QUnicodeTables::WordBreak_RegionalIndicator
@ WordBreak_RegionalIndicator
Definition qunicodetables_p.h:109

QUnicodeTables::WordBreak_Katakana
@ WordBreak_Katakana
Definition qunicodetables_p.h:110

QUnicodeTables::WordBreak_HebrewLetter
@ WordBreak_HebrewLetter
Definition qunicodetables_p.h:111

QUnicodeTables::NumWordBreakClasses
@ NumWordBreakClasses
Definition qunicodetables_p.h:122

QUnicodeTables::EastAsianWidth
EastAsianWidth
Definition qunicodetables_p.h:72

QUnicodeTables::EastAsianWidth::W
@ W

QUnicodeTables::EastAsianWidth::F
@ F

QUnicodeTables::EastAsianWidth::H
@ H

QUnicodeTables::LineBreakClass
LineBreakClass
Definition qunicodetables_p.h:147

QUnicodeTables::LineBreak_OP
@ LineBreak_OP
Definition qunicodetables_p.h:148

QUnicodeTables::LineBreak_H2
@ LineBreak_H2
Definition qunicodetables_p.h:153

QUnicodeTables::LineBreak_HL
@ LineBreak_HL
Definition qunicodetables_p.h:151

QUnicodeTables::LineBreak_LF
@ LineBreak_LF
Definition qunicodetables_p.h:157

QUnicodeTables::LineBreak_HY
@ LineBreak_HY
Definition qunicodetables_p.h:152

QUnicodeTables::LineBreak_PR
@ LineBreak_PR
Definition qunicodetables_p.h:150

QUnicodeTables::LineBreak_QU_Pi
@ LineBreak_QU_Pi
Definition qunicodetables_p.h:149

QUnicodeTables::LineBreak_SY
@ LineBreak_SY
Definition qunicodetables_p.h:150

QUnicodeTables::LineBreak_SP
@ LineBreak_SP
Definition qunicodetables_p.h:156

QUnicodeTables::LineBreak_GL
@ LineBreak_GL
Definition qunicodetables_p.h:149

QUnicodeTables::LineBreak_ZWJ
@ LineBreak_ZWJ
Definition qunicodetables_p.h:155

QUnicodeTables::LineBreak_SA
@ LineBreak_SA
Definition qunicodetables_p.h:156

QUnicodeTables::LineBreak_BK
@ LineBreak_BK
Definition qunicodetables_p.h:157

QUnicodeTables::LineBreak_EM
@ LineBreak_EM
Definition qunicodetables_p.h:155

QUnicodeTables::LineBreak_IS
@ LineBreak_IS
Definition qunicodetables_p.h:150

QUnicodeTables::LineBreak_ID
@ LineBreak_ID
Definition qunicodetables_p.h:151

QUnicodeTables::LineBreak_EX
@ LineBreak_EX
Definition qunicodetables_p.h:150

QUnicodeTables::LineBreak_NU
@ LineBreak_NU
Definition qunicodetables_p.h:151

QUnicodeTables::LineBreak_CP
@ LineBreak_CP
Definition qunicodetables_p.h:148

QUnicodeTables::LineBreak_CL
@ LineBreak_CL
Definition qunicodetables_p.h:148

QUnicodeTables::LineBreak_CM
@ LineBreak_CM
Definition qunicodetables_p.h:153

QUnicodeTables::LineBreak_PO
@ LineBreak_PO
Definition qunicodetables_p.h:151

QUnicodeTables::LineBreak_JT
@ LineBreak_JT
Definition qunicodetables_p.h:154

QUnicodeTables::LineBreak_QU_Pf
@ LineBreak_QU_Pf
Definition qunicodetables_p.h:149

QUnicodeTables::LineBreak_ZW
@ LineBreak_ZW
Definition qunicodetables_p.h:153

QUnicodeTables::LineBreak_WJ
@ LineBreak_WJ
Definition qunicodetables_p.h:153

QUnicodeTables::LineBreak_QU
@ LineBreak_QU
Definition qunicodetables_p.h:149

QUnicodeTables::LineBreak_RI
@ LineBreak_RI
Definition qunicodetables_p.h:154

QUnicodeTables::LineBreak_CR
@ LineBreak_CR
Definition qunicodetables_p.h:157

QUnicodeTables::LineBreak_AL
@ LineBreak_AL
Definition qunicodetables_p.h:151

QUnicodeTools::GB::shouldBreakBetweenClasses
static bool shouldBreakBetweenClasses(QUnicodeTables::GraphemeBreakClass first, QUnicodeTables::GraphemeBreakClass second)
Definition qunicodetools.cpp:103

QUnicodeTools::GB::breakTable
static const GBTableEntryType breakTable[QUnicodeTables::NumGraphemeBreakClasses]
Definition qunicodetools.cpp:60

QUnicodeTools::GB::GBTableEntryType
quint16 GBTableEntryType
Definition qunicodetools.cpp:45

QUnicodeTools::GB::Extend_SpacingMark_ZWJ
static const GBTableEntryType Extend_SpacingMark_ZWJ
Definition qunicodetools.cpp:53

QUnicodeTools::GB::HardBreak
static const GBTableEntryType HardBreak
Definition qunicodetools.cpp:58

QUnicodeTools::GB::State
State
Definition qunicodetools.cpp:111

QUnicodeTools::GB::State::Normal
@ Normal

QUnicodeTools::GB::State::GB11_ExtPicExtZWJ
@ GB11_ExtPicExtZWJ

QUnicodeTools::GB::State::GB12_13_RI
@ GB12_13_RI

QUnicodeTools::GB::State::GB11_ExtPicExt
@ GB11_ExtPicExt

QUnicodeTools::LB::NS::Action
Action
Definition qunicodetools.cpp:481

QUnicodeTools::LB::NS::None
@ None
Definition qunicodetools.cpp:482

QUnicodeTools::LB::NS::Start
@ Start
Definition qunicodetools.cpp:483

QUnicodeTools::LB::NS::Continue
@ Continue
Definition qunicodetools.cpp:484

QUnicodeTools::LB::NS::Break
@ Break
Definition qunicodetools.cpp:485

QUnicodeTools::LB::NS::Class
Class
Definition qunicodetools.cpp:488

QUnicodeTools::LB::NS::XX
@ XX
Definition qunicodetools.cpp:489

QUnicodeTools::LB::NS::PRPO
@ PRPO
Definition qunicodetools.cpp:490

QUnicodeTools::LB::NS::OPHY
@ OPHY
Definition qunicodetools.cpp:491

QUnicodeTools::LB::NS::CLCP
@ CLCP
Definition qunicodetools.cpp:494

QUnicodeTools::LB::NS::NU
@ NU
Definition qunicodetools.cpp:492

QUnicodeTools::LB::NS::SYIS
@ SYIS
Definition qunicodetools.cpp:493

QUnicodeTools::LB::NS::toClass
Class toClass(QUnicodeTables::LineBreakClass lbc, QChar::Category category)
Definition qunicodetools.cpp:507

QUnicodeTools::LB::NS::actionTable
static const uchar actionTable[CLCP+1][CLCP+1]
Definition qunicodetools.cpp:497

QUnicodeTools::LB::breakTable
static const uchar breakTable[QUnicodeTables::LineBreak_ZWJ][QUnicodeTables::LineBreak_ZWJ]
Definition qunicodetools.cpp:564

QUnicodeTools::LB::Action
Action
Definition qunicodetools.cpp:552

QUnicodeTools::LB::IndirectBreak
@ IndirectBreak
Definition qunicodetools.cpp:555

QUnicodeTools::LB::CombiningIndirectBreak
@ CombiningIndirectBreak
Definition qunicodetools.cpp:556

QUnicodeTools::LB::IB
@ IB
Definition qunicodetools.cpp:555

QUnicodeTools::LB::CombiningProhibitedBreak
@ CombiningProhibitedBreak
Definition qunicodetools.cpp:557

QUnicodeTools::LB::HH
@ HH
Definition qunicodetools.cpp:558

QUnicodeTools::LB::CP
@ CP
Definition qunicodetools.cpp:557

QUnicodeTools::LB::DB
@ DB
Definition qunicodetools.cpp:554

QUnicodeTools::LB::ProhibitedBreakAfterHebrewPlusHyphen
@ ProhibitedBreakAfterHebrewPlusHyphen
Definition qunicodetools.cpp:558

QUnicodeTools::LB::DirectBreak
@ DirectBreak
Definition qunicodetools.cpp:554

QUnicodeTools::LB::IndirectBreakIfNarrow
@ IndirectBreakIfNarrow
Definition qunicodetools.cpp:559

QUnicodeTools::LB::PB
@ PB
Definition qunicodetools.cpp:553

QUnicodeTools::LB::ProhibitedBreak
@ ProhibitedBreak
Definition qunicodetools.cpp:553

QUnicodeTools::LB::IN
@ IN
Definition qunicodetools.cpp:559

QUnicodeTools::LB::CI
@ CI
Definition qunicodetools.cpp:556

QUnicodeTools::SB::LUATerm
@ LUATerm
Definition qunicodetools.cpp:372

QUnicodeTools::SB::BAfterC
@ BAfterC
Definition qunicodetools.cpp:379

QUnicodeTools::SB::ATermC
@ ATermC
Definition qunicodetools.cpp:374

QUnicodeTools::SB::ATerm
@ ATerm
Definition qunicodetools.cpp:373

QUnicodeTools::SB::STermC
@ STermC
Definition qunicodetools.cpp:377

QUnicodeTools::SB::Lookup
@ Lookup
Definition qunicodetools.cpp:382

QUnicodeTools::SB::SCS
@ SCS
Definition qunicodetools.cpp:378

QUnicodeTools::SB::Initial
@ Initial
Definition qunicodetools.cpp:369

QUnicodeTools::SB::ACS
@ ACS
Definition qunicodetools.cpp:375

QUnicodeTools::SB::Lower
@ Lower
Definition qunicodetools.cpp:370

QUnicodeTools::SB::BAfter
@ BAfter
Definition qunicodetools.cpp:380

QUnicodeTools::SB::STerm
@ STerm
Definition qunicodetools.cpp:376

QUnicodeTools::SB::Upper
@ Upper
Definition qunicodetools.cpp:371

QUnicodeTools::SB::Break
@ Break
Definition qunicodetools.cpp:381

QUnicodeTools::SB::breakTable
static const uchar breakTable[BAfter+1][QUnicodeTables::NumSentenceBreakClasses]
Definition qunicodetools.cpp:385

QUnicodeTools::Tailored::indic_nextSyllableBoundary
static qsizetype indic_nextSyllableBoundary(QChar::Script script, const char16_t *s, qsizetype start, qsizetype end, bool *invalid)
Definition qunicodetools.cpp:1325

QUnicodeTools::Tailored::charAttributeFunction
const CharAttributeFunction charAttributeFunction[]
Definition qunicodetools.cpp:2301

QUnicodeTools::Tailored::mymrCharClasses
static const MymrCharClass mymrCharClasses[]
Definition qunicodetools.cpp:1837

QUnicodeTools::Tailored::myanmar_nextSyllableBoundary
static qsizetype myanmar_nextSyllableBoundary(const char16_t *s, qsizetype start, qsizetype end, bool *invalid)
Definition qunicodetools.cpp:1918

QUnicodeTools::Tailored::KhmerCharClassesRange
KhmerCharClassesRange
Definition qunicodetools.cpp:2121

QUnicodeTools::Tailored::KhmerLastChar
@ KhmerLastChar
Definition qunicodetools.cpp:2123

QUnicodeTools::Tailored::KhmerFirstChar
@ KhmerFirstChar
Definition qunicodetools.cpp:2122

QUnicodeTools::Tailored::mymrStateTable
static const signed char mymrStateTable[][Mymr_CC_COUNT]
Definition qunicodetools.cpp:1868

QUnicodeTools::Tailored::MymrChar
MymrChar
Definition qunicodetools.cpp:1801

QUnicodeTools::Tailored::Mymr_C_YA
@ Mymr_C_YA
Definition qunicodetools.cpp:1806

QUnicodeTools::Tailored::Mymr_C_VIRAMA
@ Mymr_C_VIRAMA
Definition qunicodetools.cpp:1809

QUnicodeTools::Tailored::Mymr_C_VOWEL_E
@ Mymr_C_VOWEL_E
Definition qunicodetools.cpp:1808

QUnicodeTools::Tailored::Mymr_C_SIGN_ZWJ
@ Mymr_C_SIGN_ZWJ
Definition qunicodetools.cpp:1803

QUnicodeTools::Tailored::Mymr_C_NGA
@ Mymr_C_NGA
Definition qunicodetools.cpp:1807

QUnicodeTools::Tailored::Mymr_C_SIGN_ZWNJ
@ Mymr_C_SIGN_ZWNJ
Definition qunicodetools.cpp:1802

QUnicodeTools::Tailored::Mymr_C_DOTTED_CIRCLE
@ Mymr_C_DOTTED_CIRCLE
Definition qunicodetools.cpp:1804

QUnicodeTools::Tailored::Mymr_C_RA
@ Mymr_C_RA
Definition qunicodetools.cpp:1805

QUnicodeTools::Tailored::KhmerCharClass
unsigned long KhmerCharClass
Definition qunicodetools.cpp:2089

QUnicodeTools::Tailored::getMyanmarCharClass
static MymrCharClass getMyanmarCharClass(ushort ch)
Definition qunicodetools.cpp:1854

QUnicodeTools::Tailored::indicAttributes
static void indicAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:1430

QUnicodeTools::Tailored::tibetanForm
static const unsigned char tibetanForm[0x80]
Definition qunicodetools.cpp:1642

QUnicodeTools::Tailored::MymrCharClass
int MymrCharClass
Definition qunicodetools.cpp:1834

QUnicodeTools::Tailored::CharAttributeFunction
void(*)(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes) CharAttributeFunction
Definition qunicodetools.cpp:869

QUnicodeTools::Tailored::KhmerCharClassFlags
KhmerCharClassFlags
Definition qunicodetools.cpp:2026

QUnicodeTools::Tailored::CF_ABOVE_VOWEL
@ CF_ABOVE_VOWEL
Definition qunicodetools.cpp:2034

QUnicodeTools::Tailored::CF_POS_ABOVE
@ CF_POS_ABOVE
Definition qunicodetools.cpp:2039

QUnicodeTools::Tailored::CF_SPLIT_VOWEL
@ CF_SPLIT_VOWEL
Definition qunicodetools.cpp:2030

QUnicodeTools::Tailored::CF_POS_AFTER
@ CF_POS_AFTER
Definition qunicodetools.cpp:2040

QUnicodeTools::Tailored::CF_POS_BEFORE
@ CF_POS_BEFORE
Definition qunicodetools.cpp:2037

QUnicodeTools::Tailored::CF_POS_BELOW
@ CF_POS_BELOW
Definition qunicodetools.cpp:2038

QUnicodeTools::Tailored::CF_DOTTED_CIRCLE
@ CF_DOTTED_CIRCLE
Definition qunicodetools.cpp:2031

QUnicodeTools::Tailored::CF_CLASS_MASK
@ CF_CLASS_MASK
Definition qunicodetools.cpp:2027

QUnicodeTools::Tailored::CF_COENG
@ CF_COENG
Definition qunicodetools.cpp:2032

QUnicodeTools::Tailored::CF_SHIFTER
@ CF_SHIFTER
Definition qunicodetools.cpp:2033

QUnicodeTools::Tailored::CF_CONSONANT
@ CF_CONSONANT
Definition qunicodetools.cpp:2029

QUnicodeTools::Tailored::CF_POS_MASK
@ CF_POS_MASK
Definition qunicodetools.cpp:2041

QUnicodeTools::Tailored::khmerCharClasses
static const KhmerCharClass khmerCharClasses[]
Definition qunicodetools.cpp:2111

QUnicodeTools::Tailored::tibetan_nextSyllableBoundary
static qsizetype tibetan_nextSyllableBoundary(const char16_t *s, qsizetype start, qsizetype end, bool *invalid)
Definition qunicodetools.cpp:1687

QUnicodeTools::Tailored::khmerStateTable
static const signed char khmerStateTable[][CC_COUNT]
Definition qunicodetools.cpp:2211

QUnicodeTools::Tailored::MymrCharClassValues
MymrCharClassValues
Definition qunicodetools.cpp:1753

QUnicodeTools::Tailored::Mymr_CC_BELOW_VOWEL
@ Mymr_CC_BELOW_VOWEL
Definition qunicodetools.cpp:1766

QUnicodeTools::Tailored::Mymr_CC_HA
@ Mymr_CC_HA
Definition qunicodetools.cpp:1761

QUnicodeTools::Tailored::Mymr_CC_SIGN_ABOVE
@ Mymr_CC_SIGN_ABOVE
Definition qunicodetools.cpp:1769

QUnicodeTools::Tailored::Mymr_CC_POST_VOWEL
@ Mymr_CC_POST_VOWEL
Definition qunicodetools.cpp:1768

QUnicodeTools::Tailored::Mymr_CC_VIRAMA
@ Mymr_CC_VIRAMA
Definition qunicodetools.cpp:1764

QUnicodeTools::Tailored::Mymr_CC_COUNT
@ Mymr_CC_COUNT
Definition qunicodetools.cpp:1773

QUnicodeTools::Tailored::Mymr_CC_NGA
@ Mymr_CC_NGA
Definition qunicodetools.cpp:1757

QUnicodeTools::Tailored::Mymr_CC_RA
@ Mymr_CC_RA
Definition qunicodetools.cpp:1759

QUnicodeTools::Tailored::Mymr_CC_PRE_VOWEL
@ Mymr_CC_PRE_VOWEL
Definition qunicodetools.cpp:1765

QUnicodeTools::Tailored::Mymr_CC_IND_VOWEL
@ Mymr_CC_IND_VOWEL
Definition qunicodetools.cpp:1762

QUnicodeTools::Tailored::Mymr_CC_CONSONANT2
@ Mymr_CC_CONSONANT2
Definition qunicodetools.cpp:1756

QUnicodeTools::Tailored::Mymr_CC_ZERO_WIDTH_NJ_MARK
@ Mymr_CC_ZERO_WIDTH_NJ_MARK
Definition qunicodetools.cpp:1763

QUnicodeTools::Tailored::Mymr_CC_SIGN_AFTER
@ Mymr_CC_SIGN_AFTER
Definition qunicodetools.cpp:1771

QUnicodeTools::Tailored::Mymr_CC_CONSONANT
@ Mymr_CC_CONSONANT
Definition qunicodetools.cpp:1755

QUnicodeTools::Tailored::Mymr_CC_WA
@ Mymr_CC_WA
Definition qunicodetools.cpp:1760

QUnicodeTools::Tailored::Mymr_CC_YA
@ Mymr_CC_YA
Definition qunicodetools.cpp:1758

QUnicodeTools::Tailored::Mymr_CC_SIGN_BELOW
@ Mymr_CC_SIGN_BELOW
Definition qunicodetools.cpp:1770

QUnicodeTools::Tailored::Mymr_CC_ABOVE_VOWEL
@ Mymr_CC_ABOVE_VOWEL
Definition qunicodetools.cpp:1767

QUnicodeTools::Tailored::Mymr_CC_RESERVED
@ Mymr_CC_RESERVED
Definition qunicodetools.cpp:1754

QUnicodeTools::Tailored::Mymr_CC_ZERO_WIDTH_J_MARK
@ Mymr_CC_ZERO_WIDTH_J_MARK
Definition qunicodetools.cpp:1772

QUnicodeTools::Tailored::MymrCharClassFlags
MymrCharClassFlags
Definition qunicodetools.cpp:1776

QUnicodeTools::Tailored::Mymr_CF_DEP_VOWEL
@ Mymr_CF_DEP_VOWEL
Definition qunicodetools.cpp:1782

QUnicodeTools::Tailored::Mymr_CF_CLASS_MASK
@ Mymr_CF_CLASS_MASK
Definition qunicodetools.cpp:1777

QUnicodeTools::Tailored::Mymr_CF_CONSONANT
@ Mymr_CF_CONSONANT
Definition qunicodetools.cpp:1779

QUnicodeTools::Tailored::Mymr_CF_POS_BEFORE
@ Mymr_CF_POS_BEFORE
Definition qunicodetools.cpp:1788

QUnicodeTools::Tailored::Mymr_CF_POS_AFTER
@ Mymr_CF_POS_AFTER
Definition qunicodetools.cpp:1791

QUnicodeTools::Tailored::Mymr_CF_POS_BELOW
@ Mymr_CF_POS_BELOW
Definition qunicodetools.cpp:1789

QUnicodeTools::Tailored::Mymr_CF_MEDIAL
@ Mymr_CF_MEDIAL
Definition qunicodetools.cpp:1780

QUnicodeTools::Tailored::Mymr_CF_POS_MASK
@ Mymr_CF_POS_MASK
Definition qunicodetools.cpp:1792

QUnicodeTools::Tailored::Mymr_CF_IND_VOWEL
@ Mymr_CF_IND_VOWEL
Definition qunicodetools.cpp:1781

QUnicodeTools::Tailored::Mymr_CF_VIRAMA
@ Mymr_CF_VIRAMA
Definition qunicodetools.cpp:1785

QUnicodeTools::Tailored::Mymr_CF_POS_ABOVE
@ Mymr_CF_POS_ABOVE
Definition qunicodetools.cpp:1790

QUnicodeTools::Tailored::Mymr_CF_DOTTED_CIRCLE
@ Mymr_CF_DOTTED_CIRCLE
Definition qunicodetools.cpp:1783

QUnicodeTools::Tailored::Mymr_CF_AFTER_KINZI
@ Mymr_CF_AFTER_KINZI
Definition qunicodetools.cpp:1794

QUnicodeTools::Tailored::_sp
@ _sp
Definition qunicodetools.cpp:2067

QUnicodeTools::Tailored::_dl
@ _dl
Definition qunicodetools.cpp:2073

QUnicodeTools::Tailored::_rb
@ _rb
Definition qunicodetools.cpp:2071

QUnicodeTools::Tailored::_da
@ _da
Definition qunicodetools.cpp:2075

QUnicodeTools::Tailored::_vr
@ _vr
Definition qunicodetools.cpp:2081

QUnicodeTools::Tailored::_sa
@ _sa
Definition qunicodetools.cpp:2066

QUnicodeTools::Tailored::_c2
@ _c2
Definition qunicodetools.cpp:2069

QUnicodeTools::Tailored::_xx
@ _xx
Definition qunicodetools.cpp:2065

QUnicodeTools::Tailored::_cs
@ _cs
Definition qunicodetools.cpp:2072

QUnicodeTools::Tailored::_va
@ _va
Definition qunicodetools.cpp:2080

QUnicodeTools::Tailored::_db
@ _db
Definition qunicodetools.cpp:2074

QUnicodeTools::Tailored::_dr
@ _dr
Definition qunicodetools.cpp:2076

QUnicodeTools::Tailored::_c1
@ _c1
Definition qunicodetools.cpp:2068

QUnicodeTools::Tailored::_c3
@ _c3
Definition qunicodetools.cpp:2070

QUnicodeTools::Tailored::_co
@ _co
Definition qunicodetools.cpp:2077

QUnicodeTools::Tailored::myanmarAttributes
static void myanmarAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:1944

QUnicodeTools::Tailored::indicForms
static const unsigned char indicForms[0xe00-0x900]
Definition qunicodetools.cpp:887

QUnicodeTools::Tailored::khmerAttributes
static void khmerAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:2278

QUnicodeTools::Tailored::tibetanAttributes
static void tibetanAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:1731

QUnicodeTools::Tailored::Mymr_db
@ Mymr_db
Definition qunicodetools.cpp:1825

QUnicodeTools::Tailored::Mymr_ra
@ Mymr_ra
Definition qunicodetools.cpp:1819

QUnicodeTools::Tailored::Mymr_sb
@ Mymr_sb
Definition qunicodetools.cpp:1829

QUnicodeTools::Tailored::Mymr_vi
@ Mymr_vi
Definition qunicodetools.cpp:1823

QUnicodeTools::Tailored::Mymr_c1
@ Mymr_c1
Definition qunicodetools.cpp:1815

QUnicodeTools::Tailored::Mymr_sp
@ Mymr_sp
Definition qunicodetools.cpp:1830

QUnicodeTools::Tailored::Mymr_da
@ Mymr_da
Definition qunicodetools.cpp:1826

QUnicodeTools::Tailored::Mymr_xx
@ Mymr_xx
Definition qunicodetools.cpp:1814

QUnicodeTools::Tailored::Mymr_sa
@ Mymr_sa
Definition qunicodetools.cpp:1828

QUnicodeTools::Tailored::Mymr_id
@ Mymr_id
Definition qunicodetools.cpp:1822

QUnicodeTools::Tailored::Mymr_wa
@ Mymr_wa
Definition qunicodetools.cpp:1820

QUnicodeTools::Tailored::Mymr_c2
@ Mymr_c2
Definition qunicodetools.cpp:1816

QUnicodeTools::Tailored::Mymr_ya
@ Mymr_ya
Definition qunicodetools.cpp:1818

QUnicodeTools::Tailored::Mymr_dl
@ Mymr_dl
Definition qunicodetools.cpp:1824

QUnicodeTools::Tailored::Mymr_dr
@ Mymr_dr
Definition qunicodetools.cpp:1827

QUnicodeTools::Tailored::Mymr_ha
@ Mymr_ha
Definition qunicodetools.cpp:1821

QUnicodeTools::Tailored::Mymr_ng
@ Mymr_ng
Definition qunicodetools.cpp:1817

QUnicodeTools::Tailored::KhmerChar
KhmerChar
Definition qunicodetools.cpp:2047

QUnicodeTools::Tailored::C_SIGN_ZWJ
@ C_SIGN_ZWJ
Definition qunicodetools.cpp:2049

QUnicodeTools::Tailored::C_COENG
@ C_COENG
Definition qunicodetools.cpp:2054

QUnicodeTools::Tailored::C_SIGN_ZWNJ
@ C_SIGN_ZWNJ
Definition qunicodetools.cpp:2048

QUnicodeTools::Tailored::C_VOWEL_AA
@ C_VOWEL_AA
Definition qunicodetools.cpp:2051

QUnicodeTools::Tailored::C_SIGN_NIKAHIT
@ C_SIGN_NIKAHIT
Definition qunicodetools.cpp:2052

QUnicodeTools::Tailored::C_RO
@ C_RO
Definition qunicodetools.cpp:2050

QUnicodeTools::Tailored::C_VOWEL_E
@ C_VOWEL_E
Definition qunicodetools.cpp:2053

QUnicodeTools::Tailored::KhmerCharClassValues
KhmerCharClassValues
Definition qunicodetools.cpp:2009

QUnicodeTools::Tailored::CC_CONSONANT3
@ CC_CONSONANT3
Definition qunicodetools.cpp:2013

QUnicodeTools::Tailored::CC_ROBAT
@ CC_ROBAT
Definition qunicodetools.cpp:2016

QUnicodeTools::Tailored::CC_CONSONANT2
@ CC_CONSONANT2
Definition qunicodetools.cpp:2012

QUnicodeTools::Tailored::CC_DEPENDENT_VOWEL
@ CC_DEPENDENT_VOWEL
Definition qunicodetools.cpp:2018

QUnicodeTools::Tailored::CC_ZERO_WIDTH_J_MARK
@ CC_ZERO_WIDTH_J_MARK
Definition qunicodetools.cpp:2021

QUnicodeTools::Tailored::CC_SIGN_ABOVE
@ CC_SIGN_ABOVE
Definition qunicodetools.cpp:2019

QUnicodeTools::Tailored::CC_COUNT
@ CC_COUNT
Definition qunicodetools.cpp:2022

QUnicodeTools::Tailored::CC_RESERVED
@ CC_RESERVED
Definition qunicodetools.cpp:2010

QUnicodeTools::Tailored::CC_CONSONANT_SHIFTER
@ CC_CONSONANT_SHIFTER
Definition qunicodetools.cpp:2015

QUnicodeTools::Tailored::CC_COENG
@ CC_COENG
Definition qunicodetools.cpp:2017

QUnicodeTools::Tailored::CC_SIGN_AFTER
@ CC_SIGN_AFTER
Definition qunicodetools.cpp:2020

QUnicodeTools::Tailored::CC_ZERO_WIDTH_NJ_MARK
@ CC_ZERO_WIDTH_NJ_MARK
Definition qunicodetools.cpp:2014

QUnicodeTools::Tailored::CC_CONSONANT
@ CC_CONSONANT
Definition qunicodetools.cpp:2011

QUnicodeTools::Tailored::getCharAttributes
static void getCharAttributes(const char16_t *string, qsizetype stringLength, const QUnicodeTools::ScriptItem *items, qsizetype numItems, QCharAttributes *attributes)
Definition qunicodetools.cpp:2370

QUnicodeTools::Tailored::thaiAttributes
static void thaiAttributes(QChar::Script script, const char16_t *text, qsizetype from, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:1606

QUnicodeTools::Tailored::khmer_nextSyllableBoundary
static qsizetype khmer_nextSyllableBoundary(const char16_t *s, qsizetype start, qsizetype end, bool *invalid)
Definition qunicodetools.cpp:2252

QUnicodeTools::Tailored::TibetanForm
TibetanForm
Definition qunicodetools.cpp:1633

QUnicodeTools::Tailored::TibetanVowel
@ TibetanVowel
Definition qunicodetools.cpp:1638

QUnicodeTools::Tailored::TibetanSubjoinedVowel
@ TibetanSubjoinedVowel
Definition qunicodetools.cpp:1637

QUnicodeTools::Tailored::TibetanHeadConsonant
@ TibetanHeadConsonant
Definition qunicodetools.cpp:1635

QUnicodeTools::Tailored::TibetanSubjoinedConsonant
@ TibetanSubjoinedConsonant
Definition qunicodetools.cpp:1636

QUnicodeTools::Tailored::TibetanOther
@ TibetanOther
Definition qunicodetools.cpp:1634

QUnicodeTools::Tailored::Form
Form
Definition qunicodetools.cpp:872

QUnicodeTools::Tailored::UnknownForm
@ UnknownForm
Definition qunicodetools.cpp:874

QUnicodeTools::Tailored::VowelMark
@ VowelMark
Definition qunicodetools.cpp:879

QUnicodeTools::Tailored::Consonant
@ Consonant
Definition qunicodetools.cpp:875

QUnicodeTools::Tailored::Matra
@ Matra
Definition qunicodetools.cpp:878

QUnicodeTools::Tailored::Invalid
@ Invalid
Definition qunicodetools.cpp:873

QUnicodeTools::Tailored::Nukta
@ Nukta
Definition qunicodetools.cpp:876

QUnicodeTools::Tailored::Control
@ Control
Definition qunicodetools.cpp:883

QUnicodeTools::Tailored::Other
@ Other
Definition qunicodetools.cpp:884

QUnicodeTools::Tailored::LengthMark
@ LengthMark
Definition qunicodetools.cpp:882

QUnicodeTools::Tailored::Halant
@ Halant
Definition qunicodetools.cpp:877

QUnicodeTools::Tailored::StressMark
@ StressMark
Definition qunicodetools.cpp:880

QUnicodeTools::Tailored::IndependentVowel
@ IndependentVowel
Definition qunicodetools.cpp:881

QUnicodeTools::Tailored::getKhmerCharClass
static KhmerCharClass getKhmerCharClass(ushort uc)
Definition qunicodetools.cpp:2132

QUnicodeTools::WB::breakTable
static const uchar breakTable[QUnicodeTables::NumWordBreakClasses][QUnicodeTables::NumWordBreakClasses]
Definition qunicodetools.cpp:215

QUnicodeTools::WB::Action
Action
Definition qunicodetools.cpp:208

QUnicodeTools::WB::LookupW
@ LookupW
Definition qunicodetools.cpp:212

QUnicodeTools::WB::Lookup
@ Lookup
Definition qunicodetools.cpp:211

QUnicodeTools::WB::NoBreak
@ NoBreak
Definition qunicodetools.cpp:209

QUnicodeTools::WB::Break
@ Break
Definition qunicodetools.cpp:210

QUnicodeTools
Definition qunicodetools.cpp:27

QUnicodeTools::getWordBreaks
static void getWordBreaks(const char16_t *string, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:240

QUnicodeTools::getLineBreaks
static void getLineBreaks(const char16_t *string, qsizetype len, QCharAttributes *attributes, QUnicodeTools::CharAttributeOptions options)
Definition qunicodetools.cpp:608

QUnicodeTools::getWhiteSpaces
static void getWhiteSpaces(const char16_t *string, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:850

QUnicodeTools::initCharAttributes
Q_CORE_EXPORT void initCharAttributes(QStringView string, const ScriptItem *items, qsizetype numItems, QCharAttributes *attributes, CharAttributeOptions options)
Definition qunicodetools.cpp:2390

QUnicodeTools::getGraphemeBreaks
static void getGraphemeBreaks(const char16_t *string, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:120

QUnicodeTools::getSentenceBreaks
static void getSentenceBreaks(const char16_t *string, qsizetype len, QCharAttributes *attributes)
Definition qunicodetools.cpp:405

QUnicodeTools::WordBreaks
@ WordBreaks
Definition qunicodetools_p.h:53

QUnicodeTools::GraphemeBreaks
@ GraphemeBreaks
Definition qunicodetools_p.h:52

QUnicodeTools::WhiteSpaces
@ WhiteSpaces
Definition qunicodetools_p.h:56

QUnicodeTools::LineBreaks
@ LineBreaks
Definition qunicodetools_p.h:55

QUnicodeTools::HangulLineBreakTailoring
@ HangulLineBreakTailoring
Definition qunicodetools_p.h:57

QUnicodeTools::SentenceBreaks
@ SentenceBreaks
Definition qunicodetools_p.h:54

QUnicodeTools::DontClearAttributes
@ DontClearAttributes
Definition qunicodetools_p.h:59

QUnicodeTools::initScripts
Q_CORE_EXPORT void initScripts(QStringView string, ScriptItemArray *scripts)
Definition qunicodetools.cpp:2426

Qt::StringLiterals
Definition qbytearray.h:803

assert
#define assert
Definition qcborcommon_p.h:28

FLAG
#define FLAG(x)
Definition qchar.cpp:15

Q_FALLTHROUGH
#define Q_FALLTHROUGH()
Definition qcompilerdetection.h:1229

Q_UNLIKELY
#define Q_UNLIKELY(x)
Definition qcompilerdetection.h:1017

Q_LIKELY
#define Q_LIKELY(x)
Definition qcompilerdetection.h:1014

void
DBusConnection const char DBusError DBusBusType DBusError return DBusConnection DBusHandleMessageFunction void DBusFreeFunction return DBusConnection return DBusConnection return const char DBusError return DBusConnection DBusMessage dbus_uint32_t return DBusConnection dbus_bool_t DBusConnection DBusAddWatchFunction DBusRemoveWatchFunction DBusWatchToggledFunction void DBusFreeFunction return DBusConnection DBusDispatchStatusFunction void DBusFreeFunction DBusTimeout return DBusTimeout return DBusWatch return DBusWatch unsigned int return DBusError const DBusError return const DBusMessage return DBusMessage return DBusMessage return DBusMessage return DBusMessage return DBusMessage return DBusMessageIter int const void return DBusMessageIter DBusMessageIter return DBusMessageIter void DBusMessageIter void int return DBusMessage DBusMessageIter return DBusMessageIter return DBusMessageIter DBusMessageIter const char const char const char const char return DBusMessage return DBusMessage const char return DBusMessage dbus_bool_t return DBusMessage dbus_uint32_t return DBusMessage void
Definition qdbus_symbols_p.h:409

Q_DECLARE_MIXED_ENUM_OPERATORS
#define Q_DECLARE_MIXED_ENUM_OPERATORS(Ret, Flags, Enum)
Definition qflags.h:241

Q_GLOBAL_STATIC
#define Q_GLOBAL_STATIC(TYPE, NAME,...)
Definition qglobalstatic.h:124

qlibrary.h

NS
#define NS(x)
Definition qmetatype.cpp:64

x
GLint GLint GLint GLint GLint x
[0]
Definition qopengles2ext.h:605

size
GLenum GLuint GLintptr GLsizeiptr size
[1]
Definition qopengles2ext.h:660

end
GLuint GLuint end
Definition qopengles2ext.h:354

top
GLdouble GLdouble GLdouble GLdouble top
Definition qopengles2ext.h:3218

start
GLuint start
Definition qopengles2ext.h:354

first
GLint first
Definition qopengles2ext.h:913

s
GLdouble s
[6]
Definition qopenglext.h:235

c
const GLubyte * c
Definition qopenglext.h:12701

result
GLuint64EXT * result
[6]
Definition qopenglext.h:10932

len
GLenum GLsizei len
Definition qopenglext.h:3292

position
static qreal position(const QQuickItem *item, QQuickAnchors::Anchor anchorLine)
Definition qquickanchors.cpp:66

Q_ASSERT
#define Q_ASSERT(cond)
Definition qrandom.cpp:47

lineBreak
static QString lineBreak(QString s)
Definition main.cpp:752

Q_AUTOTEST_EXPORT
#define Q_AUTOTEST_EXPORT
Definition qtconfigmacros.h:56

Q_UNUSED
#define Q_UNUSED(x)
Definition qtpreprocessorsupport.h:20

uchar
unsigned char uchar
Definition qtypes.h:32

quint16
unsigned short quint16
Definition qtypes.h:48

qsizetype
ptrdiff_t qsizetype
Definition qtypes.h:165

uint
unsigned int uint
Definition qtypes.h:34

ushort
unsigned short ushort
Definition qtypes.h:33

qlonglong
qint64 qlonglong
Definition qtypes.h:63

qunicodetables_p.h

KHDEBUG
#define KHDEBUG
Definition qunicodetools.cpp:2242

IDEBUG
#define IDEBUG
Definition qunicodetools.cpp:1314

qt_initcharattributes_default_algorithm_only
constexpr int qt_initcharattributes_default_algorithm_only
Definition qunicodetools.cpp:25

tibetan_form
#define tibetan_form(c)
Definition qunicodetools.cpp:1684

MMDEBUG
#define MMDEBUG
Definition qunicodetools.cpp:1908

qunicodetools_p.h

base
static const uint base
Definition qurlidna.cpp:20

qvarlengtharray.h

pos
pos
[7]
Definition src_corelib_io_qsettings.cpp:57

ch
char ch
Definition src_corelib_io_qtextstream.cpp:30

form
QGraphicsWidget * form
Definition src_gui_graphicsview_qgraphicsgridlayout.cpp:9

items
QList< QTreeWidgetItem * > items
Definition src_gui_itemviews_qtreewidget.cpp:7

QCharAttributes
Definition qunicodetools_p.h:25

QCharAttributes::wordBreak
uchar wordBreak
Definition qunicodetools_p.h:27

QCharAttributes::graphemeBoundary
uchar graphemeBoundary
Definition qunicodetools_p.h:26

QCharAttributes::mandatoryBreak
uchar mandatoryBreak
Definition qunicodetools_p.h:33

QCharAttributes::wordEnd
uchar wordEnd
Definition qunicodetools_p.h:32

QCharAttributes::wordStart
uchar wordStart
Definition qunicodetools_p.h:31

QCharAttributes::lineBreak
uchar lineBreak
Definition qunicodetools_p.h:29

QCharAttributes::whiteSpace
uchar whiteSpace
Definition qunicodetools_p.h:30

QCharAttributes::sentenceBoundary
uchar sentenceBoundary
Definition qunicodetools_p.h:28

QUnicodeTables::Properties
Definition qunicodetables_p.h:39

QUnicodeTables::Properties::eastAsianWidth
ushort eastAsianWidth
Definition qunicodetables_p.h:47

QUnicodeTables::Properties::lineBreakClass
ushort lineBreakClass
Definition qunicodetables_p.h:61

QUnicodeTables::Properties::wordBreakClass
ushort wordBreakClass
Definition qunicodetables_p.h:60

QUnicodeTables::Properties::sentenceBreakClass
ushort sentenceBreakClass
Definition qunicodetables_p.h:62

QUnicodeTables::Properties::category
ushort category
Definition qunicodetables_p.h:40

QUnicodeTables::Properties::graphemeBreakClass
ushort graphemeBreakClass
Definition qunicodetables_p.h:59

QUnicodeTables::Properties::script
ushort script
Definition qunicodetables_p.h:64

QUnicodeTools::ScriptItem
Definition qunicodetools_p.h:40

State
Definition generate_keywords.cpp:256