此测试为HTML的js协议编码弹窗测试,用于今后的反射型xss弹窗测试
aaaa
aaaa #注:想要生成的弹窗语句,下同
执行结果:
显示为访问拒绝,可以看到通过url编码的函数,无法通过html直接转码成可执行的函数。
原因:
里面没有HTML编码内容,不考虑,其中href内部是URL,于是直接丢给URL模块处理,但是协议无法识别(即被编码的javascript:),解码失败,不会被执行
url在处理时会优先识别协议,但此时的js函数被url编码过了故url模块无法识别,无法进行弹窗。
aaaa
aaaa
执行结果:
原因:
由于这里的语句写在html中所以会先执行html解码,又href中存在html实体编码,所以会先进行html解码成为js函数,再交给href中的url模块进行处理。后面的url编码内容会直接进行url解码,于是被执行。
具体过程:
1.先HTML解码,得到
2.href中为URL,URL模块可识别为javascript协议,进行URL解码,得到
由于是javascript协议,解码完给JS模块处理,于是被执行
aaaa
aaaa
执行结果:
原因:与1.的原因相同,故不赘述
<img src=x onerror=alert(4)>
![]()
执行结果:
未生成弹窗
原因:
从HTML解析机制看,在读取
一个HTML解析器作为一个状态机,它从输入流中获取字符并按照转换规则转换到另一种状态。在解析过程中,任何时候它只要遇到一个'<'符号(后面没有跟'/'符号)就会进入“标签开始状态(Tag open state)”。然后转变到“标签名状态(Tag name state)”,“前属性名状态(before attribute name state)”......最后进入“数据状态(Data state)”并释放当前标签的token。当解析器处于“数据状态(Data state)”时,它会继续解析,每当发现一个完整的标签,就会释放出一个token。
这里有三种情况可以容纳字符实体,“数据状态中的字符引用”,“RCDATA状态中的字符引用”和“属性值状态中的字符引用”。在这些状态中HTML字符实体将会从“...”形式解码,对应的解码字符会被放入数据缓冲区中。例如,在问题4中,“<”和“>”字符被编码为“<”和“>”。当解析器解析完“
理解:将<>转译为html的实体编码“<”和“>”确实会被html解码,不过html为保证信息安全,脚本并不会被执行。原因是解析器在解析这个字符引用后不会转换到“标签开始状态”。正因为如此,就不会建立新标签。导致脚本执行失败
这里我们使用的是RCDATA元素
这里要提一下RCDATA的概念。要了解什么是RCDATA,我们先要了解另一个概念。在HTML中有五类元素:
空元素(Void elements),如,,
原始文本元素(Raw text elements),有
执行结果:
未生成弹窗
原因:
有一种可以容纳字符引用的情况是“RCDATA状态中的字符引用”。这意味着在
另外,对RCDATA有个特殊的情况。在浏览器解析RCDATA元素的过程中,解析器会进入“RCDATA状态”。在这个状态中,如果遇到“<”字符,它会转换到“RCDATA小于号状态”。如果“<”字符后没有紧跟着“/”和对应的标签名,解析器会转换回“RCDATA状态”。这意味着在RCDATA元素标签的内容中(例如”或者“”。
理解:html除了认识自身的”和“”标签,其余的内在标签都不识别。
但与问题4相同无法进入“标签开始状态”导致代码无法执行。
执行结果
弹窗失败
原因:
对RCDATA有个特殊的情况。在浏览器解析RCDATA元素的过程中,解析器会进入“RCDATA状态”。在这个状态中,如果遇到“<”字符,它会转换到“RCDATA小于号状态”。如果“<”字符后没有紧跟着“/”和对应的标签名,解析器会转换回“RCDATA状态”。这意味着在RCDATA元素标签的内容中(例如”或者“”,其余的内在标签都不识别。
理解:html除了认识自身的”和“”标签,其余的内在标签都不识别。
执行结果:
弹窗成功
原因:由于首先先进行html解码所以语句解码为
然后再执行js函数执行成功。
执行结果:
点击按钮弹窗失败
原因:
onclick中的值会交给JS处理,在JS中只有字符串和标识符能用Unicode表示,' 显然不行,JS执行失败。
在JavaScript中,标识符只能包含字母或数字或下划线(“_”)或美元符号(“$”),且不能以数字开头。标识符与字符串不同之处在于字符串是数据,而标识符是代码的一部分。在 JavaScript 中,无法将标识符转换为字符串,但有时可以将字符串解析为标识符。
执行结果:
无弹窗
原因:
原始文本元素
执行结果:
弹窗成功
原因:在JS中只有字符串和标识符能用Unicode表示,这里只有字符串进行了Unicode编码,而且在原始文本元素中不能容纳字符引用,但是可以容纳Unicode表示的字符串。
执行结果:
弹窗失败
原因:同问题8在JS中只有字符串和标识符能用Unicode表示,这里的()非js标识符却进行了Unicode编码,js执行失败。
执行结果:
弹窗失败
原因:
这里\u0031\u0032在解码的时候会被解码为字符串12,注意是字符串12,不是数字,字符串显然是需要引号的,JS执行失败。
这里给\u0031\u0032加上引号再进行执行
弹窗成功
执行结果:
弹窗失败
原因:同问题8这里的 ' 非js标识符却进行了Unicode编码,js执行失败。
执行结果:
弹窗成功
原因:\u000a在JavaScript里是换行,就是\n,
代码实际形式
这里相当于在基本元素下没有进行编码,故可以正常弹窗。
aaaa
执行结果:
原因:首先此语句符合HTML的解码顺序,首先先进行html解码,然后在进行url解码,最后进行js的Unicode解码
aaaa
aaaa
首先他先解码出了js函数和冒号,交给了href的url模块,协议直接可以被识别,后面的部分都被解码成url编码的形式。
javascript:\u0061\u006c\u0065\u0072\u0074(15)
url编码解码后为Unicode编码形式,这里被Unicode编码的只有字符串,标识符及数字均未被编码。解码后交给js模块
javascript:alert(15)
此协议可以直接被识别执行。
要分清html元素,了解各个元素下可容纳的内容。防止无法识别导致的失败。例:原始文本元素