Tuesday 13 March 2018

تحليل الانحدار واستراتيجيات التداول الكمي


QuantStart.
الانضمام إلى كوانتكاديمي بوابة العضوية الخاصة التي تلبي احتياجات التجزئة المتزايد بسرعة المجتمع تاجر الكمي. سوف تجد مجموعة من ذوي الخبرة مثل التفكير من التجار الكميون على استعداد للرد على أسئلة التداول الكمي الأكثر إلحاحا.
تحقق من بلدي يبوك على التداول الكمي حيث أنا يعلمك كيفية بناء مربحة استراتيجيات التداول المنهجي مع أدوات بايثون، من الصفر.
نلقي نظرة على بلدي الكتاب الاليكتروني الجديد على استراتيجيات التداول المتقدمة باستخدام تحليل سلسلة زمنية، والتعلم الآلي والإحصاءات بايزي، مع بيثون و R.
من قبل مايكل هالز مور في 6 يناير، 2018.
في المادة السابقة على دراسة لتصبح تاجر الكمي تطرقنا إلى أهمية الإحصاء والتعلم الآلي. العديد منكم اتصل بي فيما يتعلق "الدولة من الفن" من هذه الأساليب التعلم الآلي، وكيف يتم تطبيقها في عالم التمويل الكمي. في هذه المقالة أريد أن الخطوط العريضة للموارد اللازمة لتعلم تقنيات التعلم آلة بحيث عليك أن تكون على استعداد أفضل لدور كالتاجر الكمي.
التعلم الإحصائي مهم للغاية في أبحاث التداول الكمي. ويمكننا أن نتحمل كامل وزن المنهج العلمي واختبار الفرضية من أجل إجراء تقييم دقيق لعملية البحث التجاري الكمي. للتداول الكمي نحن مهتمون في قابلة للاختبار، نتائج قابلة للتكرار التي تخضع للتدقيق المستمر. وهذا يسمح بسهولة استبدال استراتيجيات التداول عندما وعندما يتحلل الأداء. لاحظ أن هذا في تناقض صارخ مع النهج المتبع في التداول "التقديري" حيث لا يتم تقييم الأداء والمخاطر في كثير من الأحيان بهذه الطريقة.
لماذا يجب أن نستخدم المنهج العلمي في التداول الكمي؟
تم تصميم النهج الإحصائي للتداول الكمي للقضاء على القضايا التي تحيط الأساليب التقديرية. وهناك الكثير من التداول الفني التقديري مشهور بالتحيزات المعرفية، بما في ذلك فقدان النفور، والتحيز التأكيد وتأثير عربة. يستخدم البحث التجاري الكمي طرقا رياضية بديلة للتخفيف من هذه السلوكيات وبالتالي تعزيز أداء التداول.
من أجل تنفيذ هذه العملية المنهجية يمتلك باحثو التداول الكميون عقلية متشككة باستمرار وأي أفكار أو فرضيات استراتيجية حول سلوك السوق تخضع للتدقيق المستمر. وسيتم وضع فكرة استراتيجية فقط في بيئة "الإنتاج" بعد التحليل الإحصائي واسعة النطاق والاختبار والصقل. وهذا أمر ضروري لأن السوق لديها نسبة إشارة إلى نسبة منخفضة إلى حد ما. وهذا يخلق صعوبات في التنبؤ وبالتالي يؤدي إلى بيئة تجارية صعبة.
ما هي مشاكل النمذجة التي نواجهها في التمويل الكمي؟
الهدف من بحوث التداول الكمي هو إنتاج الخوارزميات والتكنولوجيا التي يمكن أن تفي بولاية استثمارية معينة. ومن الناحية العملية، يترجم ذلك إلى وضع استراتيجيات تجارية (والبنية التحتية ذات الصلة) تنتج عوائد ثابتة فوق معيار معياري محدد سلفا، بعد خصم التكاليف المرتبطة بالمعاملات التجارية، مع التقليل إلى أدنى حد من "المخاطر". وبالتالي هناك عدد قليل من العتلات التي يمكن سحبها لتعزيز الأهداف المالية.
وكثيرا ما يولى قدر كبير من الاهتمام لمولد الإشارة / ألفا، أي "الاستراتيجية". وسوف تنفق أفضل الأموال وتجار التجزئة كمية كبيرة من النمذجة الوقت / تخفيض تكاليف المعاملات، وإدارة المخاطر بشكل فعال وتحديد محفظة الأمثل. وتهدف هذه المقالة أساسا إلى مكون مولد ألفا من المكدس، ولكن يرجى أن يكون على علم بأن المكونات الأخرى هي ذات أهمية متساوية إذا كان من المقرر تنفيذ استراتيجيات ناجحة على المدى الطويل.
سنقوم الآن بالتحقيق في المشاكل التي واجهتها في توليد الإشارات وكيفية حلها. وفيما يلي قائمة أساسية بهذه الأساليب (التي تتداخل بوضوح) التي كثيرا ما تصادف في مشاكل توليد الإشارة:
التنبؤ / التنبؤ - الأسلوب الأكثر شيوعا هو التنبؤ المباشر لأسعار الأصول المالية / الاتجاه استنادا إلى الأسعار السابقة (أو العوامل الأساسية). وهذا ينطوي عادة على الكشف عن إشارة أساسية في "ضوضاء" السوق التي يمكن التنبؤ بها وبالتالي تداولها. وقد ينطوي ذلك أيضا على التراجع عن العوامل الأخرى (بما في ذلك التأخر في السلسلة الزمنية الأصلية) من أجل تقييم الاستجابة المستقبلية للتنبؤات المستقبلية. التجميع / التصنيف - تقنيات التجميع أو التصنيف هي طرق مصممة لتجميع البيانات في فئات معينة. يمكن أن تكون هذه ثنائية في الطبيعة، على سبيل المثال. "أوب" أو "دون"، أو مضاعفة تجميعها، على سبيل المثال. "التقلب الضعيف"، "التقلبات القوية"، "التقلبات المتوسطة". تحليل المشاعر - أحدث الابتكارات في معالجة اللغة الطبيعية والسرعة الحسابية تؤدي إلى تقنيات متطورة "تحليل المشاعر"، والتي هي في الأساس طريقة تصنيف، مصممة لتجميع البيانات استنادا إلى بعض عوامل المشاعر الكامنة. ويمكن أن تكون هذه الاتجاهات ذات طابع اتجاهي، على سبيل المثال. "صاعد" أو "هبوطي" أو "محايد" أو عاطفي مثل "سعيد" أو "حزين" أو "إيجابي" أو "سلبي". في نهاية المطاف هذا سوف يؤدي إلى إشارة تجارية من شكل ما. البيانات الكبيرة - مصادر بديلة للبيانات، مثل أنشطة وسائل الإعلام الاجتماعية الاستهلاكية، وغالبا ما تؤدي إلى تيرابايت (أو أكبر) من البيانات التي تتطلب المزيد من البرامج الجديدة / الأجهزة من أجل تفسير. تم إنشاء تطبيقات خوارزمية جديدة من أجل التعامل مع مثل هذه "البيانات الكبيرة".
منهجية النمذجة.
هناك عدد لا يحصى من الكتب المدرسية على النمذجة الإحصائية، والاحتمال والتعلم الآلي. هو في الواقع صعبة للغاية لمعرفة أين تبدأ. أنا نفسي اضطرت إلى الذهاب من خلال هذه العملية عند الانتقال من عقلية النمذجة المادية (خلال الدكتوراه الخاصة) نحو نهج إحصائي أثناء وجوده في الصناعة. وصفت الكتابين أعتبر "أفضل" للبدء في هذا المجال في المادة السابقة، ولكن خلاصة هم:
الكتاب الأول لا يتطلب قدرا كبيرا من التطور الرياضي. وتشمل الخلفية اللازمة نموذجية الجبر الخطي الكلية، حساب التفاضل والتكامل ونظرية الاحتمالات. الكتاب الثاني هو أكثر تقدما ويذهب أعمق في النظرية. لذلك يجب أن يكون لديك بعض أسس جيدة في نظرية الاحتمالات، والأساليب الإحصائية السابقة والنمذجة.
هذه الكتب سوف يعلمك عن المواضيع التالية. من خلال دراسة الكتب (وتنفيذ "المختبرات" المرتبطة في R) سوف تكسب أنت حسنات نظرة متينة في متى خوارزميات معينة قابلة للتطبيق.
النمذجة الإحصائية والقيود - سوف تحدد الكتب ما هو التعلم الإحصائي هو وغير قادر على جنبا إلى جنب مع المبادلات التي هي ضرورية عند إجراء مثل هذا البحث. ويوضح الفرق بين التنبؤ والاستدلال فضلا عن الفرق بين التعلم تحت إشراف ودون إشراف. ويوضح أيضا التباين التحيز التباين في التفاصيل. الانحدار الخطي - الانحدار الخطي (لر) هو واحد من أبسط تقنيات التعلم تحت الإشراف. ويفترض نموذجا تكون فيه القيم المتوقعة دالة خطية لمتغير (متغيرات) التنبؤ. في حين أن هذا قد يبدو مبسطا بالمقارنة مع الطرق المتبقية في هذه القائمة، الانحدار الخطي لا يزال يستخدم على نطاق واسع في الصناعة المالية. أن يكون على بينة من لر مهم من أجل فهم الطرق في وقت لاحق، وبعضها التعميمات لر. كندا - تقنيات التصنيف الخاضعة للإشراف مثل الانحدار اللوجستي، التحليل التمييزي الخطي / التربيعي و أقرب أقرب جيران هي تقنيات لنمذجة حالات التصنيف النوعي، مثل التنبؤ بما إذا كان مؤشر الأسهم سينتقل لأعلى أو (أي قيمة ثنائية) في الفترة الزمنية التالية. تقنيات إعادة التقطيع: التقطيع، التحقق من المصادقة - تقنيات إعادة التوزيع ضرورية في التمويل الكمي (والإحصاءات بشكل عام) بسبب مخاطر تركيب النموذج. وتستخدم هذه التقنيات للتحقق من كيفية تصرف النموذج على مجموعات تدريبية مختلفة وكيفية تقليل مشكلة نماذج "التجاوز". طرق شجرة القرار: التعبئة، والغابات العشوائية - أشجار القرار هي نوع من الرسم البياني التي غالبا ما تستخدم في إعدادات التصنيف. تقنيات الحشو والغذاء العشوائي هي أساليب تجميعية تستخدم مثل هذه الأشجار للحد من الإفراط في التجميع وتقليل التباين في أساليب التعلم التي يتم الإشراف عليها بشكل فردي. الشبكات العصبية - الشبكات العصبية الاصطناعية (أن) هي تقنية التعلم الآلي غالبا ما تستخدم بطريقة إشراف لإيجاد علاقات غير الخطية بين التنبؤات والردود. في المجال المالي غالبا ما تستخدم للتنبؤ السلاسل الزمنية والتنبؤ. دعم آلات ناقلات - سفمس هي أيضا تصنيف أو أدوات الانحدار، التي تعمل من خلال بناء هبربلان في مساحات ديمنزيون عالية أو لانهائية. خدعة النواة يسمح تصنيف غير الخطية تحدث عن طريق رسم خرائط للمساحة الأصلية إلى الفضاء الداخلي المنتج. طرق غير خاضعة للرقابة: يكا، K-مينز، والتجمع الهرمي، ننمف - تم تصميم تقنيات التعلم غير الخاضعة للرقابة للعثور على بنية خفية في البيانات، من دون استخدام وظيفة الهدف أو مكافأة إلى "تدريب" جرا. بالإضافة إلى ذلك، غالبا ما تستخدم التقنيات غير الخاضعة للإشراف في عملية ما قبل المعالجة. طرائق المجموعات - تستخدم طرائق المجموعات نماذج تعلم إحصائية منفصلة متعددة من أجل تحقيق قدرة تنبؤية أكبر مما يمكن تحقيقه من أي من النماذج الفردية.
ولكي يصبح باحثا في مجال التجارة الكمي ة من الضروري أن يكون على دراية بعملية النمذجة الإحصائية. معرفة شاملة لتقنيات التعلم الآلي هي أقل أهمية من فهم أعمق لعملية النمذجة نفسها. تأكد من أن نأخذ دائما في الاعتبار الأفكار الأساسية للافتراضات النمذجة، والتحيز التباين التحيز، وتطبيق الخوارزمية والتحيز المعرفي عند إجراء البحوث التداول الكمي.
مجرد بدء مع التداول الكمي؟
3 أسباب الاشتراك في قائمة البريد الإلكتروني كوانتستارت:
1. دروس التداول الكمي.
سوف تحصل على إمكانية الوصول الفوري إلى دورة مجانية 10-البريد الإلكتروني معبأة مع تلميحات ونصائح لمساعدتك على البدء في التداول الكمي!
2. جميع أحدث المحتوى.
كل أسبوع سوف نرسل لك التفاف جميع الأنشطة على كوانتستارت لذلك عليك أن لا يفوتون وظيفة مرة أخرى.
ريال مدريد، وقابلة للتنفيذ نصائح التداول الكمي مع أي هراء.

الانحدار الخطي من الوقت والسعر.
وقد طبق المحللون الفنيون والكميون مبادئ إحصائية على السوق المالي منذ إنشائه. كانت بعض المحاولات ناجحة جدا في حين أن البعض لم يكن سوى شيء. والمفتاح هو إيجاد وسيلة لتحديد الاتجاهات السعرية دون قابلية الانحراف والتحيز للعقل البشري. أحد النهج التي يمكن أن تكون ناجحة للمستثمرين، وتتوفر في معظم أدوات الرسم البياني هو الانحدار الخطي.
يحلل الانحدار الخطي متغيرين منفصلين من أجل تحديد علاقة واحدة. في تحليل الرسم البياني، وهذا يشير إلى متغيرات الأسعار والوقت. ويعترف المستثمرون والتجار الذين يستخدمون الرسوم البيانية بالصعود والهبوط في السعر المطبوع أفقيا من يوم إلى يوم، دقيقة إلى دقيقة أو أسبوع إلى أسبوع، اعتمادا على الإطار الزمني تقييمها. النهج المختلفة للسوق هي ما يجعل تحليل الانحدار الخطي جذابا جدا. (مزيد من المعلومات حول التحليل الكمي في التحليل الكمي لصناديق التحوط.)
وقد استخدم الإحصائيون طريقة منحنى الجرس، المعروف أيضا باسم التوزيع الطبيعي، لتقييم مجموعة معينة من نقاط البيانات. الشكل 1 هو مثال على منحنى الجرس، الذي يدل عليه الخط الأزرق الداكن. ويمثل منحنى الجرس شكل مختلف حالات نقاط البيانات. الجزء الأكبر من النقاط عادة ما يحدث نحو منتصف منحنى الجرس، ولكن مع مرور الوقت، والنقاط ضالة أو تحيد عن السكان. وغالبا ما تكون النقاط غير العادية أو النادرة خارج نطاق السكان "العاديين".
الشكل 1: منحنى الجرس، التوزيع الطبيعي.
كنقطة مرجعية، من الشائع متوسط ​​القيم لإنشاء درجة متوسطة. ولا يمثل المتوسط ​​بالضرورة وسط البيانات، ويمثل بدلا من ذلك متوسط ​​النقاط بما في ذلك جميع نقاط البيانات البعيدة. وبعد تحديد المتوسط، يحدد المحللون عدد المرات التي ينحرف فيها السعر عن المتوسط. الانحراف المعياري إلى جانب واحد من المتوسط ​​هو عادة 34٪ من البيانات، أو 68٪ من نقاط البيانات إذا نظرنا إلى واحد إيجابي وانحراف معياري واحد سلبي، وهو ما يمثله قسم السهم البرتقالي. اثنين من الانحرافات المعيارية تشمل ما يقرب من 95٪ من نقاط البيانات وأقسام البرتقال والوردي تضاف معا. تحدث حالات نادرة جدا، ممثلة بالسهم الأرجواني، في ذيول منحنى الجرس. لأن أي نقطة البيانات التي تظهر خارج اثنين من الانحرافات المعيارية نادرة جدا، وغالبا ما يفترض أن نقاط البيانات سوف تتحرك مرة أخرى نحو المتوسط ​​أو التراجع. (لمزيد من القراءة، انظر الحافظة الحديثة الإحصاءات نظرية التمهيدي.)
سعر السهم كمجموعة بيانات.
تخيل لو أخذنا منحنى الجرس، انقلبت على جانبها وتطبيقه على مخطط الأسهم. وهذا من شأنه أن يسمح لنا أن نرى عندما يكون الأمن مبالغا فيه أو مبالغة في البيع وعلى استعداد للعودة إلى المتوسط. في الشكل 2، تتم إضافة دراسة الانحدار الخطي إلى الرسم البياني، مما يعطي المستثمرين القناة الخارجية الزرقاء وخط الانحدار الخطي من خلال منتصف نقاط السعر لدينا. وتظهر هذه القناة للمستثمرين اتجاه السعر الحالي وتوفر قيمة متوسطة. باستخدام الانحدار الخطي المتغير، يمكننا تعيين قناة ضيقة عند انحراف معياري واحد، أو 68٪، لإنشاء قنوات خضراء. في حين لا يوجد منحنى الجرس، يمكننا أن نرى أن هذا السعر يعكس الانقسامات منحنى الجرس، كما هو مبين في الشكل 1.
الشكل 2: توضيح تداول متوسط ​​العائد باستخدام أربع نقاط.
تداول انعكاس المتوسط.
ويوفر الرقم 2 نقطة وقف الخسارة في حالة استمرار تأثير القيم المتطرفة سلبا على السعر. تحديد أمر وقف الخسارة يحدد بسهولة مبلغ المخاطر التجارية.
وسيتم تعيين هدفين السعر في NO.3 و No.4 للخروج المربحة. كان أول توقع لدينا مع التجارة العودة إلى خط الوسط، وفي الشكل 2، فإن الخطة هي الخروج من نصف الموقف بالقرب من 26.50 $ أو القيمة المتوسطة الحالية. الهدف الثاني يعمل تحت افتراض اتجاه مستمر، لذلك سيتم تعيين هدف آخر في الطرف الآخر من القناة لخط الانحراف المعياري الآخر، أو 31.50 $. تحدد هذه الطريقة المكافأة المحتملة للمستثمر.
الشكل 3: تعبئة السعر المتوسط.
مع مرور الوقت، سوف يتحرك السعر صعودا وهبوطا، وسوف تشهد قناة الانحدار الخطي تغييرات مع انخفاض الأسعار القديمة وظهور أسعار جديدة. ومع ذلك، يجب أن تظل األهداف واملواقف كما هي حتى يملأ هدف السعر املتوسط) انظر الشكل 3 (. عند هذه النقطة، تم تأمين الربح، ويجب أن يتم نقل وقف الخسارة إلى سعر الدخول الأصلي. على افتراض أنها سوق فعالة وسائلة، والباقي من التجارة يجب أن يكون من دون مخاطر. (مزيد من المعلومات في العمل من خلال فرضية السوق الفعالة.)
الشكل 4: تعبئة السعر المتوسط.
تذكر، الأمن لا يجب أن تغلق بسعر معين لطلبك لملء؛ فإنه يحتاج فقط للوصول إلى السعر اللحظي. قد تكون قد ملأت على الهدف الثاني خلال أي من المناطق الثلاثة في الشكل 4.
الفنيين وكبار التجار غالبا ما تعمل نظام واحد لأمن معين أو الأسهم وتجد أن نفس المعلمات لن تعمل على الأوراق المالية الأخرى أو الأسهم. جمال الانحدار الخطي هو أن سعر الأمن والفترة الزمنية تحدد معلمات النظام. استخدام هذه الأدوات والقواعد المحددة في هذه المقالة على مختلف الأوراق المالية والأطر الزمنية، وسوف يفاجأ في طبيعتها العالمية. (لمزيد من القراءة، انظر تحسين محفظتك مع ألفا وبيتا وأسلوب الأمور في النمذجة المالية.)

تحليل الانحدار.
6 - البيانات المالية 7 - النسب المالية 8 - الأصول 9 - الخصوم 10 - الأعلام الحمراء.
16 - الاستثمارات البديلة 17 - إدارة الحافظة.
يتم إنشاء الانحدار الخطي من خلال تركيب خط من خلال مؤامرة مبعثر من الملاحظات المقترنة بين متغيرين. ويوضح الرسم البياني أدناه مثالا لخط الانحدار الخطي الذي تم رسمه من خلال سلسلة من الملاحظات (X، Y):
وعادة ما يتم تحديد خط الانحدار الخطي كميا من خلال إجراء أفضل تناسب مثل المربعات الصغرى (أي المسافة بين خط الانحدار وكل ملاحظة يتم تصغيرها). في الانحدار الخطي، يتم رسم متغير واحد على المحور X والآخر على Y. ويقال إن المتغير X هو المتغير المستقل، ويقال أن Y هو المتغير التابع. عند تحليل متغيرين عشوائيين، يجب عليك اختيار المتغير المستقل والذي يعتمد. ويأتي اختيار المستقل والمستقل من الفرضية - بالنسبة للعديد من الأمثلة، ينبغي أن يكون هذا التمييز بديهيا. الاستخدام الأكثر شعبية لتحليل الانحدار هو على عوائد الاستثمار، حيث مؤشر السوق مستقل في حين أن الأمن الفردي أو صندوق الاستثمار المشترك يعتمد على السوق. في جوهرها، تحليل الانحدار يصوغ فرضية أن الحركة في متغير واحد (Y) يعتمد على حركة في الآخر (X).
وتصف معادلة الانحدار العلاقة بين متغيرين وتعطى بالصيغة العامة:
حيث: Y = المتغير التابع. X = متغير مستقل،
a = اعتراض خط الانحدار؛ b = منحدر خط الانحدار،
استنتاج النتائج حول المتغير التابع يتطلب أن نجعل ستة افتراضات، الافتراضات الكلاسيكية فيما يتعلق نموذج الانحدار الخطي:
وتكون العلاقة بين المتغير التابع Y والمتغير المستقل X خطية في المنحدر ومعلمات الاعتراض a و b. ويعني هذا المتطلب أنه لا يمكن ضرب معلمة الانحدار أو تقسيمها على معلمة انحدار أخرى (مثل a / b)، وأن كلا المعلمتين تثاران إلى القدرة الأولى فقط. وبعبارة أخرى، لا يمكننا إنشاء نموذج خطي حيث كانت المعادلة Y = a + b 2 X + & إبسيلون؛ حيث أن تغيرات الوحدة في X سيكون لها تأثير b 2 على a، وتكون العلاقة غير خطية. المتغير المستقل X ليس عشوائيا. القيمة المتوقعة لمصطلح الخطأ & كوت؛ & إبسيلون؛ & كوت؛ هي 0. تسمح الافتراضتان رقم 2 و 3 بالنموذج الانحداري الخطي بإنتاج تقديرات للانحدار b والاعتراض a. ويكون التباين في طول الخطأ ثابتا لجميع الملاحظات. ويعرف الافتراض رقم 4 باسم & كوت؛ افتراض هوموسكيداستيسيتي & كوت ؛. وعندما يكون الانحدار الخطي متغايرا، تختلف قيم الخطأ الخاصة به وقد لا يكون النموذج مفيدا في التنبؤ بقيم المتغير التابع. مصطلح الخطأ و إبسيلون. غير مترابطة عبر الملاحظات؛ وبعبارة أخرى، يفترض أن التباين بين مصطلح الخطأ من ملاحظة واحدة وخطأ الخطأ من الآخر هو 0. وهذا الافتراض ضروري لتقدير الفروق في البارامترات. توزيع مصطلحات الخطأ أمر طبيعي. يسمح الافتراض رقم 6 بطرق اختبار الفرضية التي سيتم تطبيقها على نماذج الانحدار الخطي. خطأ قياسي في التقدير.
سي المختصرة، هذا المقياس يعطي مؤشرا على مدى نجاح نموذج الانحدار الخطي. ويقارن بين القيم الفعلية في المتغير التابع Y والقيم المتوقعة التي كان يمكن أن تؤدي إلى أن Y اتبعت بالضبط من الانحدار الخطي. على سبيل المثال، أن تأخذ قضية حيث قام المحلل المالي للشركة بتطوير نموذج الانحدار المتعلق بنمو الناتج المحلي الإجمالي السنوي لنمو مبيعات الشركة من خلال المعادلة Y = 1.4 + 0.8X.
ولإيجاد الخطأ المعياري للتقدير، نأخذ مجموع كل المصطلحات المتبقية المربعة ونقسمها (n - 2)، ثم نأخذ الجذر التربيعي للنتيجة. في هذه الحالة، يكون مجموع المخلفات المربعة 0.09 + 0.16 + 0.64 + 2.25 + 0.04 = 3.18. مع خمس ملاحظات، n - 2 = 3، و سي = (3.18 / 3) 1/2 = 1.03٪.
ومثل الخطأ المعياري، تعطي هذه الإحصائية مؤشرا على مدى نجاح نموذج الانحدار الخطي كمقدر للقيم للمتغير التابع. وهو يعمل من خلال قياس جزء التغير الكلي في المتغير التابع الذي يمكن تفسيره بالتغير في المتغير المستقل.
مجموع التباين الكلي الاختلاف.
وبالنسبة لأي من معامل الانحدار (اعتراض a أو ميل b)، يمكن تحديد فترة الثقة بالمعلومات التالية:
قيمة معلمات مقدرة من عينة خطأ معياري في التقدير (سي) مستوى الأهمية للتوزيع t درجات الحرية (أي حجم العينة - 2)
بالنسبة لمعامل الانحدار، تعطى صيغة فترة الثقة بواسطة b & بلوسمن؛ t c * سي، حيث t c هي قيمة t الحرجة على مستوىنا المختار.
وكثيرا ما يتم اختبار معاملات الانحدار باستخدام إجراء اختبار الفرضية. اعتمادا على ما يعتزم المحلل إثباته، يمكننا اختبار معامل الانحدار لتحديد ما إذا كان يفسر الفرص في المتغير التابع، ومدى ما يفسر التغييرات. يمكن تحديد معامل البيتا (معامل الانحدار) إما أن تكون أعلى أو أقل من 1 (أكثر تقلبا أو أقل تقلبا من السوق). ويمكن اختبار ألفاس (معامل الاعتراض) على الانحدار بين صندوق الاستثمار المشترك ومؤشر السوق ذات الصلة لتحديد ما إذا كان هناك دليل على ألفا إيجابية بما فيه الكفاية (مما يشير إلى القيمة المضافة من قبل مدير الصندوق).
من عينة لدينا، كنا قدرت ب 1.18 والخطأ القياسي من 0.147. يتم حساب إحصائية الاختبار لدينا باستخدام هذه الصيغة: t = معامل المقدرة - معامل افتراضي. / خطأ قياسي = (1.18 - 1.0) /0.147 = 0.18 / 0.147، أو t = 1.224.
امتحان كفا من المرجح أن تعطي إحصاءات موجزة من الانحدار الخطي وطلب تفسير. لتوضيح ذلك، افترض الاحصاءات التالية للانحدار بين صندوق النمو صغير كاب ومؤشر راسل 2000:
ماذا يقول لنا كل من هذه الأرقام؟
وتبلغ نسبة التغير في الصندوق نحو 75٪، وهو ما يفسره التغيرات في مؤشر راسل 2000. وهذا صحيح لأن مربع معامل الارتباط، (0.864) 2 = 0.746، يعطينا معامل التحديد أو R-سكارد. وسيؤدي أداء الصندوق إلى انخفاض طفيف في أداء المؤشر عندما تكون عائدات المؤشر ثابتة. وهذا ينتج عن قيمة اعتراض يجري -0.417. عندما X = 0 في معادلة الانحدار، المتغير التابع يساوي اعتراض. وسيكون الصندوق في المتوسط ​​أكثر تقلبا من المؤشر. وتأتي هذه الحقيقة من منحدر خط الانحدار 1.317 (أي لكل تغيير بنسبة 1٪ في المؤشر، فإننا نتوقع أن يعود العائد إلى التغيير بنسبة 1.317٪). وسوف يتفوق الصندوق في فترات السوق القوية، وأداء ضعيف في الأسواق الضعيفة. هذه الحقيقة تأتي من الانحدار. ويتم التعويض عن مخاطر إضافية بمكافأة إضافية، مع عكس العكس في الأسواق المتدنية. القيم المتوقعة لعائد الصندوق، نظرا لعائد للسوق، يمكن العثور عليها من خلال حل Y = -0.417 + 1.317X (X = راسل 2000 ريتورن). تحليل التباين (أنوفا)
تحليل التباين أو أنوفا هو إجراء يتم فيه تقسيم التغير الكلي للمتغير العشوائي إلى مكونات بحيث يمكن فهمه بشكل أفضل أو يعزى إلى كل من المصادر المختلفة التي تتسبب في تغير العدد.
وتعطى الصيغة F - الإحصائية في الانحدار مع متغير مستقل واحد من خلال ما يلي:
F = متوسط ​​الانحدار مجموع المربعات / متوسط ​​الخطأ التربيعي.
الاختصاران لفهم هما رسس و سس: رسس، أو مجموع الانحدار من المربعات، هو مقدار التغير الكلي في المتغير التابع Y الموضح في معادلة الانحدار. ويحسب رسس بحساب كل انحراف بين قيمة Y المتوقعة ومتوسط ​​قيمة Y، وتربيع الانحراف، وإضافة كل المصطلحات. إذا لم يفسر متغير مستقل أيا من الاختلافات في متغير تابع، فإن القيم المتوقعة من Y تساوي القيمة المتوسطة، و رسس = 0. سس، أو مجموع الخطأ التربيعي للمتبقي، يتم حسابه من خلال إيجاد الانحراف بين توقع Y و Y الفعلي، وتربيع النتيجة وإضافة جميع الشروط. تسس، أو الاختلاف الكلي، هو مجموع رسس و سس. وبعبارة أخرى، هذه العملية أنوفا يكسر التباين إلى جزأين: واحد هو موضح من قبل النموذج واحد غير. أساسا، للحصول على معادلة الانحدار لديها جودة تنبؤية عالية، ونحن بحاجة إلى رؤية عالية رسس وانخفاض سس، الأمر الذي سيجعل نسبة (رسس / 1) / [سس / (n - 2)] عالية و (على أساس مقارنة مع قيمة F الحرجة) ذات دلالة إحصائية. وتؤخذ القيمة الحرجة من التوزيع F وتستند إلى درجات من الحرية.
وكثيرا ما تستخدم نماذج الانحدار لتقدير الإحصاءات الاقتصادية مثل التضخم ونمو الناتج المحلي الإجمالي. افترض أن الانحدار التالي يتم بين التضخم السنوي (X، أو المتغير المستقل) والعدد الفعلي (Y، أو المتغير التابع):
ويبدو أن التنبؤات القائمة على هذا النموذج تعمل بشكل أفضل لتقديرات التضخم النموذجية، وتشير إلى أن التقديرات المتطرفة تميل إلى المبالغة في التضخم - على سبيل المثال. وهو معدل تضخم فعلي قدره 4.46 فقط عندما كان التقدير 4.7. ويبدو أن النموذج يشير إلى أن التقديرات تنبؤية عالية. على الرغم من أن تقييم أفضل لهذا النموذج، ونحن بحاجة إلى رؤية الخطأ القياسي وعدد من الملاحظات التي يقوم عليها. وإذا كنا نعرف القيمة الحقيقية لمعلمات الانحدار (المنحدر والاعتراض)، فإن الفرق بين أي قيمة Y متوقعة سيكون مساويا لمربع الخطأ المعياري.
حيث: s 2 هو الخطأ المعياري التربيعي للتقدير، n هو عدد الملاحظات، X هي قيمة المتغير المستقل المستخدم في التنبؤ، X هي القيمة المتوسطة المقدرة للمتغير المستقل، و سك 2 هو التباين من X.

الإحصاءات الأساسية لاستراتيجيات التداول (الجزء 3) & # 8211؛ الانحدار، الترابط والتكامل المشترك.
هذا المنصب هو جزء من سلسلة لدينا على استخدام الإحصاءات وتحليل البيانات للتداول. في أول مشاركة لدينا، ناقشنا إحصاءات موجزة مثل المتوسط، والانحراف المعياري، وتقلب & أمبير؛ البولنجر باند. في المنصب الثاني، تحدثنا عن وظائف توزيع الاحتمال والعوائد اللوغاريتمية على أسعار الأسهم.
في هذا المنصب، سنحاول فهم العلاقة بين الأسهم ومؤشر السوق. المصطلحات التي سنفهمها هي الانحدار والارتباط والتكامل المشترك. هذه الوظيفة أيضا يحاول الإجابة على السؤال الأساسي في إدارة المحافظ: "ما هو بيتا من الأسهم؟"
سنواصل العمل مع مجموعة البيانات المستخدمة في الوظيفة السابقة: ماروتي سوزوكي الهند المحدودة - البيانات اليومية من 01 يناير 2018 إلى 31 ديسمبر 2018. وبالإضافة إلى ذلك، سوف نستخدم بيانات نيفتي لنفس الفترة الزمنية. يمكنك تحميل بيانات سعر التجميع نكس نيفتي من المصدر أدناه:
و نكس نيفتي هو مؤشر الأسهم 50 متنوعة بشكل جيد وهو ما يمثل 23 قطاعات الاقتصاد. يتم استخدامه لمجموعة متنوعة من الأغراض مثل قياس محافظ الصندوق، المشتقات القائمة على مؤشر وصناديق المؤشرات. (المصدر: نسينديا / برودوكتس / كونتنت / إكيتيز / إنديسز / cnx_nifty. htm)
مخزوننا، ماروتي، هي واحدة من الأسهم نكس نيفتي.
وبالنظر إلى ماروتي هو واحد من الأسهم نيفتي، التغيير في مؤشر نيفتي & أمب؛ يجب أن تكون أسعار ماروتي مرتبطة، أي أن التغيير في المرء يجب أن يكون مرتبطا بالتغير في الآخر. دعونا معرفة!
بعد دمج مجموعتي البيانات من العمود المشترك "التاريخ"، الارتباط الذي نحصل عليه هو 0.55! وكما هو متوقع، فإن مجموعتي البيانات ترتبطان ارتباطا إيجابيا.
فهم الارتباط.
الارتباط هو عدد الوحدات الحرة الكذب بين -1 و 1 الذي يعطينا قياس العلاقة بين المتغيرات. وتفيد لنا قيمة ارتباط إيجابية للغاية بين 0.7 و 1.0 أن التغير في متغير واحد يرتبط إيجابيا بالتغير في المتغير الآخر. وهذا يعني، إذا زاد متغير واحد، وهناك احتمال كبير أن الآخر سوف تزيد كذلك. سيكون السلوك متسقا في حالات أخرى من الانخفاض أو أي تغيير في القيمة أيضا.
من ناحية أخرى، فإن قيمة الارتباط السلبية للغاية بين -0.7 إلى -1.0 تخبرنا أن التغير في متغير واحد مرتبط سلبا بالتغير في المتغير الآخر. وهذا يعني، إذا زاد متغير واحد، هناك احتمال كبير أن الآخر سوف تنخفض.
قيمة الارتباط المنخفضة حول -0.2 و 0.2 تقول لنا أنه لا توجد علاقة قوية بين المتغيرين.
ومن النقاط الجديرة بالملاحظة أن الترابط لا يخبرنا بأي شيء عن السببية. على سبيل المثال، من الممكن أن تكون حالات سرطان الرئة مرتبطة بعدد السجائر المدخنة في العمر بين السكان، والتي لا تثبت سببية التدخين لسرطان الرئة. وسيطلب من المرء إجراء دراسة جماعية خاضعة للرقابة مع إبقاء جميع العوامل المؤثرة الأخرى ثابتة لإقامة علاقة السببية هذه.
الارتباط هو مقياس العلاقة الخطية. على سبيل المثال، العلاقة بين x و x 2 قد تكون قريبة من 0. على الرغم من وجود علاقة قوية بين المتغيرين، فإنه لن يتم التقاطها في قيمة الارتباط.
الآن بعد أن وجدنا إحصائيا أن نيفتي وماروتي ترتبط ارتباطا إيجابيا، نود أن نفعل أكثر من ذلك. نود أن نرى إذا ما أعطيت قيمة مؤشر أنيق، يمكننا أن نتوقع أسعار ماروتي. ومن المقاييس الشائعة للتقلب أو المخاطر المنتظمة للمخزون عند مقارنته بمؤشر السوق هو "معامل بيتا" الذي يستخدم في نموذج تسعير الأصول الرأسمالية لإدارة المحافظ. هذا النموذج يحسب عوائد المتوقعة من الأسهم على أساس بيتا وعوائد السوق المتوقعة.
يتم احتساب بيتا باستخدام تحليل الانحدار.
الانحدارالخطي.
وهي تقنية بسيطة لنموذج أو التنبؤ المتغير التابع (y) باستخدام المتغيرات المستقلة (x 1، x 2، الخ). في الانحدار الخطي البسيط، هناك متغير مستقل واحد فقط، x، ومتغير تابع واحد، y. قيم x & أمب؛ يتم رسم y في مؤامرة مبعثر كما هو مبين أدناه ويتم رسم خط الذي يناسب هذه البيانات، أو يقلل المسافة من النقاط إلى الخط.
وبما أن هدفنا هو التنبؤ، فإننا نستخدم أولا نموذج البيانات لإنشاء نموذج الانحدار ومن ثم استخدام النموذج المجهز لمزيد من التنبؤات.
في حالة نيفتي & أمب؛ ماروتي، نموذج الانحدار الخطي هو.
Y = 0.0004 + 0.9349 * X،
حيث Y يمثل سجل عوائد على مؤشر أنيق & أمب؛ X يمثل عوائد السجل على ماروتي إغلاق الأسعار لنفس الفترة.
معامل X في المعادلة أعلاه يعطي قيمة بيتا. وبالتالي، بيتا من الأسهم هو 0.9349 في هذه الحالة. هذا الرقم أقل من 1، مما يعني أن سعر السهم سيكون أقل تقلبا من السوق. ومع ذلك، فإنه هو أيضا قريبة جدا من 1 وهكذا يمكن للمرء أن يفسر أن سعر السهم مع الحفاظ على نفس حركة السوق.
R 2 = 0.3088 الذي هو عدد قليل، يخبرنا أن تباين العائد ماروتي والتباين في عوائد مؤشر ليست ذات صلة قوية.
يتم استخدام القيمة التجريبية من قبل بعض مدراء المخاطر لتنويع محفظتهم بحيث يكون لديهم مزيج من أسهم بيتا مختلفة وذلك لكسب الأرباح وفقا لمدى استعدادهم للمخاطر.
يتم احتساب بيتا باستخدام البيانات التاريخية على مدى فترة من الزمن دون احتساب اتجاه السوق خلال ذلك الوقت. ولذلك، لا تضمن قيمة بيتا الحركة المستقبلية في أسعار الأسهم.

تحليل الانحدار واستراتيجيات التداول الكمي
الحصول على فيا أب ستور قراءة هذه المشاركة في التطبيق لدينا!
استخدام الغابات العشوائية في التحليل الكمي للأسهم.
لدي سؤال عن الغابات العشوائية وكيف يمكن استخدامها في التداول؟ سمعت وتستخدم الغابات العشوائية للتصنيف، هو أن دقيقة؟ إذا كان الأمر كذلك، فهل يمكن لشخص ما أن يعطي مثالا على نوع التصنيف الذي يساعده؟
إذا لم يكن كذلك، ما هي الغابات العشوائية المستخدمة في التمويل كوانت؟
أنا لم تستخدم الغابات العشوائية نفسي ولكن أنا أعرف من الرجل الذي طبق هذا الأسلوب تصنيف لخوارزميات التعلم الآلي تطبيقها على التعرف على الأنماط.
وبالتالي أعتقد أن مزاياه على نهج الانحدار الكلاسيكي يمكن تطبيقها على تمييز الأنماط في البيانات المالية، على الرغم من أنني أحصل على الانطباع بأنه يفرط بشكل كبير في البيانات وبالتالي ينتهي بك الأمر مع المقايضة الكلاسيكية التي تواجه العديد من الكوانت.
كما قرأت أن يتم استخدامه من قبل المجلس الأعلى للتعليم حيث أنها تنطبق عليه في سعيهم لتحليل أنماط التداول للإبلاغ عن انتهاكات التداول من الداخل.
وحضرت مؤخرا عرضا قدمه المؤلف الأول للورقة التالية الذي أعطانا نوعا من الإبداع والإضاءة (نوع من ميتا) للغابات العشوائية في كوانت فينانس:
توماس ويكي، أندرو كامبل، جوستين لينت، جيسيكا ستاوث (كل كوانتوبيان)
عندما يتم تطوير استراتيجيات التداول الآلي وتقييمها باستخدام باكتيستس على بيانات التسعير التاريخية، هناك ميل إلى الإفراط في الماضي. باستخدام مجموعة بيانات فريدة من 888 استراتيجيات التداول خوارزمية وضعت و باكتستد على منصة كوانتوبيان مع ما لا يقل عن 6 أشهر من خارج العينة الأداء، ونحن ندرس انتشار وتأثير باكتست أوفيرفيتينغ. على وجه التحديد، نجد أن مقاييس التقييم المسبق للتقييمات الشائعة مثل نسبة شارب لا تعطي قيمة تذكر في التنبؤ بأداء العينة (R2 & لوت؛ 0.025). In contrast, higher order moments, like volatility and maximum drawdown, as well as portfolio construction features, like hedging, show significant predictive value of relevance to quantitative finance practitioners. Moreover, in line with prior theoretical considerations, we find empirical evidence of overfitting – the more backtesting a quant has done for a strategy, the larger the discrepancy between backtest and out-of-sample performance. Finally, we show that by training non-linear machine learning classifiers on a variety of features that describe backtest behavior, out-of-sample performance can be predicted at a much higher accuracy (R² = 0.17) on hold-out data compared to using linear, univariate features. A portfolio constructed on predictions on hold-out data performed significantly better out-of-sample than one constructed from algorithms with the highest backtest Sharpe ratios.
So what they basically did was to take all kinds of real quant trading algos and asked the old EMH question whether in sample performance has any predictive power for out of sample performance. They calculated all kinds of measures for these algos and used them (and combinations thereof) to predict the out of sample performance. Then they extracted the most important features from the random forest model - the following picture is taken from the paper (p. 9)
As with many machine learning technologies, you can run a separate training and testing phase before deploying it live for prediction. All it does is build a collection of decision trees based on the parameters you give it - if the output field is a factor, you get classification (a finite enumerated set of values); if it's numeric, you get prediction. One approach might be to add a column forwhether a commodity reaches a given profit level within an affordable time period; the random forest can then build a logic to correlate that against all the other input columns (such as technical indicators, etc).
A while ago I have implemented a binary fuzzy decision tree forest to classify credit applications as a semesters project.
Let's say a tree looks like this:
The benefits of decision tree techniques in general are:
Comprehensibility : The paths down the tree have a direct interpretation: "If condition C1 and condition C11 then X". For example "If debt>0 and income == 0 then no_credit." Expert knowledge : It is possible to change the trees based on background knowledge. Extensibility : It is possible to include other classification tools at the nodes, for example you could have a neural network which detects trends and then go down the tree depending on the output of the network.
Decicion tree forests have additional benefits:
Adaptation : If the problem splits into several domains, the trees can fit to their region more closely. Smaller trees : The trees can be restricted to much smaller size, which makes them easier to understand. Confidence information : If a lot of the trees in the forrest vote for the same classification, this can be seen as a measure of confidence.
On the downside forests can be much more expensive to compute and manage. Also, whereas a single tree can avoid overfitting by using standard pruning techniques, there does not seem to be concensus which is the best approach for forrests, yet.
Any application of machine learning techniques this approach is only as good as the data and the indicators used to train it on.
Interesting papers include.
It could help with things like fraud detection, analysis of bankruptcy probability, default risk, unsupervised learning for qualitative/descriptive purposes, or for a purely backwards looking supervised analysis on returns again for descriptive/understanding purposes (variable important, etc, perhaps impulse response analysis).
It may also be good at forecasting low-frequency volatility which is well known to be easy to forecast; intuitively this works because it is likely to be combinations of events that cause very high volatility which is difficult to incorporate into a GARCH variance equation. You could just rely on the forest to learn regimes, breaks, etc (consider a dynamic forest).
To be more precise, random forests work by building multiple trees by using sample with replacement from the same training data. Each tree is also built using a random subset of the features (attributes). Pruning is usually done for each tree before its inclusion. Hypothesis values are a result of averaging over all trees. One of the primary uses of random forests is the reduction of variance. If bias is the problem, then one should use boosting (Adaboost).
check out this paper: "Predicting the direction of stock market prices using random forest" Luckyson Khaidem Snehanshu Saha Sudeepa Roy Dey, Applied Mathematical Finance.
These have been combined into a single paper which also talks about specific stocks from Big pharma companies. Email me if you need that.
You can find an Excel and VBA implementation of Random Forest using the open source ALGLIB Libary here.

No comments:

Post a Comment