ó
    +Ðåh2  ã                  ó^  • S SK Jr  S SKrS SKrS SKJrJr  S SKJr  S SK	J
r
  S SKJrJrJrJrJrJrJr  S SKJrJr  S SKJr  \(       a  S S	KJrJrJr  S S
KJr  \R<                  " \5      r \" SSS9r! " S S\\5      r" " S S\"5      r# " S S\$\
5      r%\" SS9 " S S5      5       r&SS jr'g)é    )ÚannotationsN)ÚABCÚabstractmethod)Ú	dataclass)ÚEnum)ÚTYPE_CHECKINGÚAnyÚCallableÚLiteralÚOptionalÚTypeVarÚUnion)ÚBaseDocumentTransformerÚDocument)ÚSelf)Ú
CollectionÚIterableÚSequence)ÚSetÚTSÚTextSplitter)Úboundc                  ó  • \ rS rSrSrSS\SSS4             SS jjr\SS j5       r S     SS
 jjr	SS jr
SS jrSS jr\SS j5       r\SS	\" 5       S4           SS jj5       r      SS jrSrg	)r   é   z)Interface for splitting text into chunks.i   éÈ   FTc                óÖ   • US::  a  SU 3n[        U5      eUS:  a  SU 3n[        U5      eX!:”  a  SU SU S3n[        U5      eXl        X l        X0l        X@l        XPl        X`l        g)a  Create a new TextSplitter.

Args:
    chunk_size: Maximum size of chunks to return
    chunk_overlap: Overlap in characters between chunks
    length_function: Function that measures the length of given chunks
    keep_separator: Whether to keep the separator and where to place it
                    in each corresponding chunk (True='start')
    add_start_index: If `True`, includes chunk's start index in metadata
    strip_whitespace: If `True`, strips whitespace from the start and end of
                      every document
r   zchunk_size must be > 0, got z chunk_overlap must be >= 0, got zGot a larger chunk overlap (z) than chunk size (z), should be smaller.N)Ú
ValueErrorÚ_chunk_sizeÚ_chunk_overlapÚ_length_functionÚ_keep_separatorÚ_add_start_indexÚ_strip_whitespace)ÚselfÚ
chunk_sizeÚchunk_overlapÚlength_functionÚkeep_separatorÚadd_start_indexÚstrip_whitespaceÚmsgs           ÚM/root/34ku/venv/lib/python3.13/site-packages/langchain_text_splitters/base.pyÚ__init__ÚTextSplitter.__init__!   s“   € ð* ˜‹?Ø0°°Ð=ˆCÜ˜S“/Ð!Ø˜1ÓØ4°]°OÐDˆCÜ˜S“/Ð!ØÓ%à.¨}¨oð >Ø<Ð4ð6ð ô ˜S“/Ð!Ø%ÔØ+ÔØ /ÔØ-ÔØ /ÔØ!1Õó    c                ó   • g)z$Split text into multiple components.N© )r$   Útexts     r,   Ú
split_textÚTextSplitter.split_textI   s    r/   Nc           	     ó˜  • U=(       d    0 /[        U5      -  n/ n[        U5       H   u  pVSnSnU R                  U5       H‚  n	[        R                  " X5   5      n
U R
                  (       a<  Xx-   U R                  -
  nUR                  U	[        SU5      5      nXzS'   [        U	5      n[        XšS9nUR                  U5        M„     M¢     U$ )z&Create documents from a list of texts.r   Ústart_index)Úpage_contentÚmetadata)ÚlenÚ	enumerater3   ÚcopyÚdeepcopyr"   r   ÚfindÚmaxr   Úappend)r$   ÚtextsÚ	metadatasÚ
_metadatasÚ	documentsÚir2   ÚindexÚprevious_chunk_lenÚchunkr8   ÚoffsetÚnew_docs                r,   Úcreate_documentsÚTextSplitter.create_documentsM   sÁ   € ð ×3 2 $¬¨U«Ñ"3ˆ
Øˆ	Ü  Ö'‰GˆAØˆEØ!"ÐØŸ™¨Ö.ÜŸ=š=¨©Ó7Ø×(×(Ø"Ñ7¸$×:MÑ:MÑMFØ ŸI™I e¬S°°F«^Ó<EØ.3˜]Ñ+Ü),¨U«Ð&Ü"°ÑIØ× Ñ  Ö)ó /ñ (ð Ðr/   c                ó¤   • / / p2U H9  nUR                  UR                  5        UR                  UR                  5        M;     U R                  X#S9$ )zSplit documents.)rA   )r?   r7   r8   rJ   )r$   rC   r@   rA   Údocs        r,   Úsplit_documentsÚTextSplitter.split_documentsa   sM   € à˜rˆyÛˆCØL‰L˜×)Ñ)Ô*Ø×Ñ˜SŸ\™\Ö*ñ ð ×$Ñ$ UÐ$Ð@Ð@r/   c                óx   • UR                  U5      nU R                  (       a  UR                  5       nUS:X  a  g U$ )NÚ )Újoinr#   Ústrip)r$   ÚdocsÚ	separatorr2   s       r,   Ú
_join_docsÚTextSplitter._join_docsi   s3   € Ø~‰~˜dÓ#ˆØ×!×!Ø—:‘:“<ˆDØ2‹:ØØˆr/   c                óx  • U R                  U5      n/ n/ nSnU GHv  nU R                  U5      nXh-   [        U5      S:”  a  UOS-   U R                  :”  Ga  X`R                  :”  a%  [        R	                  SU SU R                   35        [        U5      S:”  aÎ  U R                  XR5      n	U	b  UR                  U	5        X`R                  :”  d,  Xh-   [        U5      S:”  a  UOS-   U R                  :”  at  US:”  an  X`R                  US   5      [        U5      S:”  a  UOS-   -  nUSS  nX`R                  :”  a  M@  Xh-   [        U5      S:”  a  UOS-   U R                  :”  a  US:”  a  Mn  UR                  U5        Xh[        U5      S:”  a  UOS-   -  nGMy     U R                  XR5      n	U	b  UR                  U	5        U$ )Nr   zCreated a chunk of size z%, which is longer than the specified é   )r    r9   r   ÚloggerÚwarningrV   r?   r   )
r$   ÚsplitsrU   Úseparator_lenrT   Úcurrent_docÚtotalÚdÚ_lenrM   s
             r,   Ú_merge_splitsÚTextSplitter._merge_splitsq   sÎ  € ð ×-Ñ-¨iÓ8ˆàˆØ!#ˆØˆÜˆAØ×(Ñ(¨Ó+ˆDà‘´°[Ó1AÀAÓ1E¡È1ÑMØ×"Ñ"ô#ð ×+Ñ+Ó+Ü—N‘NØ2°5°'ð :>Ø>B×>NÑ>NÐ=OðQôô {Ó# aÓ'ØŸ/™/¨+ÓACØ‘ØŸ™ CÔ(ð  ×"5Ñ"5Ó5Ø™¼¸[Ó9IÈAÓ9M©ÐSTÑUØ×*Ñ*ó+à! A›Ià×!6Ñ!6°{À1±~Ó!FÜ-0°Ó-=ÀÓ-A™MÀqñ"ñ ˜ð '2°!°" o˜ð  ×"5Ñ"5Õ5Ø™¼¸[Ó9IÈAÓ9M©ÐSTÑUØ×*Ñ*ó+à! AIð ×Ñ˜qÔ!Ø¬c°+Ó.>ÀÓ.B™]ÈÑJÑJ‹Eñ9 ð: o‰o˜kÓ5ˆØ‰?ØK‰K˜ÔØˆr/   c                ó²   ^•  SSK Jn  [        TU5      (       d  Sn[        U5      eSU4S jjnU " S	SU0UD6$ ! [         a  nSn[        U5      UeSnAff = f)
z>Text splitter that uses HuggingFace tokenizer to count length.r   )ÚPreTrainedTokenizerBasezATokenizer received was not an instance of PreTrainedTokenizerBasec                ó8   >• [        TR                  U 5      5      $ ©N)r9   Útokenize©r2   Ú	tokenizers    €r,   Ú_huggingface_tokenizer_lengthÚNTextSplitter.from_huggingface_tokenizer.<locals>._huggingface_tokenizer_length§   s   ø€ Ü˜9×-Ñ-¨dÓ3Ó4Ð4r/   z`Could not import transformers python package. Please install it with `pip install transformers`.Nr'   ©r2   ÚstrÚreturnÚintr1   )Ú$transformers.tokenization_utils_basere   Ú
isinstancer   ÚImportError)Úclsrj   Úkwargsre   r+   rk   Úerrs    `     r,   Úfrom_huggingface_tokenizerÚ'TextSplitter.from_huggingface_tokenizer›   ss   ø€ ð	+ÝTä˜iÐ)@×AÑAàWð ô ! “oÐ%÷5ñ ÑKÐ#@ÐKÀFÑKÐKøô ó 	+ðEð ô ˜S“/ sÐ*ûð	+ús   ƒ,9 ¹
AÁAÁAÚgpt2Úallc                ó
  ^^^•  SSK nUb  UR                  U5      mOUR                  U5      mSUUU4S jjn	[	        U [
        5      (       a  UUTTS.n
0 UEU
EnU " SSU	0UD6$ ! [         a  nSn[        U5      UeSnAff = f)	z9Text splitter that uses tiktoken encoder to count length.r   Nz”Could not import tiktoken python package. This is needed in order to calculate max_tokens_for_prompt. Please install it with `pip install tiktoken`.c                ó8   >• [        TR                  U TTS95      $ ©N)Úallowed_specialÚdisallowed_special)r9   Úencode)r2   r~   r   Úencs    €€€r,   Ú_tiktoken_encoderÚ=TextSplitter.from_tiktoken_encoder.<locals>._tiktoken_encoderË   s*   ø€ ÜØ—
‘
ØØ$3Ø'9ð ð óð r/   )Úencoding_nameÚ
model_namer~   r   r'   rm   r1   )Útiktokenrs   Úencoding_for_modelÚget_encodingÚ
issubclassÚTokenTextSplitter)rt   r„   r…   r~   r   ru   r†   rv   r+   r‚   Úextra_kwargsr   s      ``      @r,   Úfrom_tiktoken_encoderÚ"TextSplitter.from_tiktoken_encoder²   s±   ú€ ð	,Ûð Ñ!Ø×-Ñ-¨jÓ9‰Cà×'Ñ'¨Ó6ˆC÷	ñ 	ô cÔ,×-Ñ-à!.Ø(Ø#2Ø&8ñ	ˆLð 0˜Ð/ ,Ð/ˆFáÑ?Ð#4Ð?¸Ñ?Ð?øô? ó 	,ðAð ô
 ˜cÓ"¨Ð+ûð	,ús   …A% Á%
BÁ/A=Á=Bc                ó6   • U R                  [        U5      5      $ )z2Transform sequence of documents by splitting them.)rN   Úlist)r$   rC   ru   s      r,   Útransform_documentsÚ TextSplitter.transform_documentsß   s   € ð ×#Ñ#¤D¨£OÓ4Ð4r/   )r"   r   r   r!   r    r#   )r%   rp   r&   rp   r'   zCallable[[str], int]r(   z$Union[bool, Literal['start', 'end']]r)   Úboolr*   r’   ro   ÚNone©r2   rn   ro   ú	list[str]rg   )r@   r•   rA   zOptional[list[dict[Any, Any]]]ro   úlist[Document])rC   zIterable[Document]ro   r–   )rT   r•   rU   rn   ro   úOptional[str])r\   zIterable[str]rU   rn   ro   r•   )rj   r	   ru   r	   ro   r   )r„   rn   r…   r—   r~   ú'Union[Literal['all'], AbstractSet[str]]r   ú&Union[Literal['all'], Collection[str]]ru   r	   ro   r   )rC   úSequence[Document]ru   r	   ro   rš   )Ú__name__Ú
__module__Ú__qualname__Ú__firstlineno__Ú__doc__r9   r-   r   r3   rJ   rN   rV   rb   Úclassmethodrw   ÚsetrŒ   r   Ú__static_attributes__r1   r/   r,   r   r      sH  † Ù3ð Ø Ø03Ø?DØ %Ø!%ð&2àð&2ð ð&2ð .ð	&2ð
 =ð&2ð ð&2ð ð&2ð 
õ&2ðP ó3ó ð3ð MQðØðØ+Iðà	õô(Aôô(ðT óLó ðLð, ð $Ø$(ÙCFÃ5ØEJð*@àð*@ð "ð*@ð Að	*@ð
 Cð*@ð ð*@ð 
ô*@ó ð*@ðX5Ø+ð5Ø7:ð5à	÷5r/   c                  óf   ^ • \ rS rSrSrSS\" 5       S4           S	U 4S jjjrS
S jrSrU =r	$ )rŠ   éæ   z/Splitting text to tokens using model tokenizer.ry   Nrz   c                óà   >• [         T
U ]  " S0 UD6   SSKnUb  UR	                  U5      n	OUR                  U5      n	Xl        X0l        X@l        g! [         a  nSn[        U5      UeSnAff = f)zCreate a new TextSplitter.r   NzŠCould not import tiktoken python package. This is needed in order to for TokenTextSplitter. Please install it with `pip install tiktoken`.r1   )	Úsuperr-   r†   rs   r‡   rˆ   Ú
_tokenizerÚ_allowed_specialÚ_disallowed_special)r$   r„   r…   r~   r   ru   r†   rv   r+   r   Ú	__class__s             €r,   r-   ÚTokenTextSplitter.__init__é   s‚   ø€ ô 	‰ÒÑ"˜6Ò"ð	,Ûð Ñ!Ø×-Ñ-¨jÓ9‰Cà×'Ñ'¨Ó6ˆCØŒØ /ÔØ#5Õ øô ó 	,ðAð ô
 ˜cÓ"¨Ð+ûð	,ús   “A Á
A-ÁA(Á(A-c                óŽ   ^ • SU 4S jjn[        T R                  T R                  T R                  R                  US9n[        XS9$ )a/  Splits the input text into smaller chunks based on tokenization.

This method uses a custom tokenizer configuration to encode the input text
into tokens, processes the tokens in chunks of a specified size with overlap,
and decodes them back into text chunks. The splitting is performed using the
`split_text_on_tokens` function.

Args:
    text (str): The input text to be split into smaller chunks.

Returns:
    List[str]: A list of text chunks, where each chunk is derived from a portion
    of the input text based on the tokenization and chunking rules.
c                ób   >• TR                   R                  U TR                  TR                  S9$ r}   )r§   r€   r¨   r©   )Ú_textr$   s    €r,   Ú_encodeÚ-TokenTextSplitter.split_text.<locals>._encode  s4   ø€ Ø—?‘?×)Ñ)ØØ $× 5Ñ 5Ø#'×#;Ñ#;ð *ð ð r/   )r&   Útokens_per_chunkÚdecoder€   ri   )r®   rn   ro   z	list[int])Ú	Tokenizerr   r   r§   r²   Úsplit_text_on_tokens)r$   r2   r¯   rj   s   `   r,   r3   ÚTokenTextSplitter.split_text  sC   ø€ ÷ 	ô Ø×-Ñ-Ø!×-Ñ-Ø—?‘?×)Ñ)Øñ	
ˆ	ô $¨ÑCÐCr/   )r¨   r©   r§   )r„   rn   r…   r—   r~   r˜   r   r™   ru   r	   ro   r“   r”   )
r›   rœ   r   rž   rŸ   r¡   r-   r3   r¢   Ú__classcell__)rª   s   @r,   rŠ   rŠ   æ   sh   ø† Ù9ð $Ø$(ÙCFÃ5ØEJð6àð6ð "ð6ð Að	6ð
 Cð6ð ð6ð 
÷6ð 6÷8Dò Dr/   rŠ   c                  ó„   • \ rS rSrSrSrSrSrSrSr	Sr
S	rS
rSrSrSrSrSrSrSrSrSrSrSrSrSrSrSrSrSrSrSrSr g) ÚLanguagei&  z"Enum of the programming languages.ÚcppÚgoÚjavaÚkotlinÚjsÚtsÚphpÚprotoÚpythonÚrstÚrubyÚrustÚscalaÚswiftÚmarkdownÚlatexÚhtmlÚsolÚcsharpÚcobolÚcÚluaÚperlÚhaskellÚelixirÚ
powershellÚvisualbasic6r1   N)!r›   rœ   r   rž   rŸ   ÚCPPÚGOÚJAVAÚKOTLINÚJSr   ÚPHPÚPROTOÚPYTHONÚRSTÚRUBYÚRUSTÚSCALAÚSWIFTÚMARKDOWNÚLATEXÚHTMLÚSOLÚCSHARPÚCOBOLÚCÚLUAÚPERLÚHASKELLÚELIXIRÚ
POWERSHELLÚVISUALBASIC6r¢   r1   r/   r,   r¸   r¸   &  sŒ   † Ù,à
€CØ	€BØ€DØ€FØ	€BØ	€BØ
€CØ€EØ€FØ
€CØ€DØ€DØ€EØ€EØ€HØ€EØ€DØ
€CØ€FØ€EØ€AØ
€CØ€DØ€GØ€FØ€JØ!ƒLr/   r¸   T)Úfrozenc                  óH   • \ rS rSr% SrS\S'    S\S'    S\S'    S\S	'   S
rg)r³   iF  zTokenizer data class.rp   r&   r±   zCallable[[list[int]], str]r²   zCallable[[str], list[int]]r€   r1   N)r›   rœ   r   rž   rŸ   Ú__annotations__r¢   r1   r/   r,   r³   r³   F  s)   ‡ áàÓØ*ØÓØ,Ø&Ó&Ø=Ø&Ó&Ú=r/   r³   c                óž  • / nUR                  U 5      nSn[        XAR                  -   [        U5      5      nX4U nU[        U5      :  aƒ  UR	                  UR                  U5      5        U[        U5      :X  a   U$ XAR                  UR                  -
  -  n[        XAR                  -   [        U5      5      nX4U nU[        U5      :  a  Mƒ  U$ )z6Split incoming text and return chunks using tokenizer.r   )r€   Úminr±   r9   r?   r²   r&   )r2   rj   r\   Ú	input_idsÚ	start_idxÚcur_idxÚ	chunk_idss          r,   r´   r´   T  sË   € à€FØ× Ñ  Ó&€IØ€IÜ)×8Ñ8Ñ8¼#¸i».ÓI€GØ GÐ,€IØ
”c˜)“nÓ
$Ø‰i×&Ñ& yÓ1Ô2Ø”c˜)“nÓ$Øð €Mð 	×/Ñ/°)×2IÑ2IÑIÑIˆ	Üi×"<Ñ"<Ñ<¼cÀ)»nÓMˆØ¨Ð0ˆ	ð ”c˜)“nÕ
$ð €Mr/   )r2   rn   rj   r³   ro   r•   )(Ú
__future__r   r;   ÚloggingÚabcr   r   Údataclassesr   Úenumr   Útypingr   r	   r
   r   r   r   r   Úlangchain_core.documentsr   r   Útyping_extensionsr   Úcollections.abcr   r   r   r   ÚAbstractSetÚ	getLoggerr›   rZ   r   r   rŠ   rn   r¸   r³   r´   r1   r/   r,   Ú<module>r     sª   ðÝ "ã Û ß #Ý !Ý ÷÷ ñ ÷ GÝ "æß>Ñ>Ý2à	×	Ò	˜8Ó	$€áˆT˜Ñ(€ôE5Ð*¨Cô E5ôP=D˜ô =Dô@"ˆsDô "ñ@ $Ñ÷
>ð 
>ó ð
>õr/   